このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230831となっている論文です。

PDF登録状況(公開日: 20230831)

TitleAuthorsAbstract論文公表日・翻訳日
# SIMD用大型整数器の高効率付加とモンゴメリー低減

Efficient Additions and Montgomery Reductions of Large Integers for SIMD ( http://arxiv.org/abs/2308.16432v1 )

ライセンス: Link先を確認
Pengchang Ren, Reiji Suda, Vorapong Suppakitpaisarn, (参考訳) 本稿では,SIMDを利用して512ビット以上の整数に対してモンゴメリー還元と加算を行うアルゴリズムを提案する。 既存のアルゴリズムは、SIMDを使用して並列化する場合、両方の操作に大きく依存するため、特にARMのSVEのような高価な操作では、非効率に遭遇する。 この問題を軽減するために、より小さな加算を用いて大きな整数の加算をシミュレートする新しい加算アルゴリズムが導入された。 これらのキャリアは、大きな整数に対して並列的な加算を実行するために使用される。 モンゴメリー還元の場合、シリアル乗算はSIMD拡張を用いて効果的に計算できるプリ計算に置き換えられる。 実験的な証拠は、これらの提案されたアルゴリズムが、いくつかの量子後暗号アルゴリズムの最先端実装の性能を大幅に向上させることを証明している。 特に、最新のCTIDH実装からの30%のスピードアップ、AVX-512プロセッサのCSIDH実装からの11%のスピードアップ、A64FX上のSIKEp503用のMicrosoftの標準PQCrypto-SIDHからの7%のスピードアップを提供する。

This paper presents efficient algorithms, designed to leverage SIMD for performing Montgomery reductions and additions on integers larger than 512 bits. The existing algorithms encounter inefficiencies when parallelized using SIMD due to extensive dependencies in both operations, particularly noticeable in costly operations like ARM's SVE. To mitigate this problem, a novel addition algorithm is introduced that simulates the addition of large integers using a smaller addition, quickly producing the same set of carries. These carries are then utilized to perform parallel additions on large integers. For Montgomery reductions, serial multiplications are replaced with precomputations that can be effectively calculated using SIMD extensions. Experimental evidence demonstrates that these proposed algorithms substantially enhance the performance of state-of-the-art implementations of several post-quantum cryptography algorithms. Notably, they deliver a 30% speed-up from the latest CTIDH implementation, an 11% speed-up from the latest CSIDH implementation in AVX-512 processors, and a 7% speed-up from Microsoft's standard PQCrypto-SIDH for SIKEp503 on A64FX.
翻訳日:2024-03-19 07:03:01 公開日:2023-08-31
# スマートホームの実現に向けた設計課題

Design Challenges for the Implementation of Smart Homes ( http://arxiv.org/abs/2308.16602v1 )

ライセンス: Link先を確認
Nesreen Mufid, (参考訳) ホームオートメーションは長年、世界中の普及を制限する課題に直面してきた。 これらの課題は、家庭の所有、柔軟性の低いシステム(家庭の外では監視できない)、最適なセキュリティを達成するための問題によって引き起こされる。 私たちの主な目的は、ユーザにとってシンプルで手頃な価格のスマートホームモデルの設計と実装です。 提案システムは,信頼性の高いセルネットワークを用いて,自宅の監視に柔軟性を提供する。 ユーザーは家から離れているとき、家の中にあるものを見ることができる。 さらに, 煙, ガス, 水漏れ, 強盗事件を検知する異なるセンサを提供することで, 安全性の問題を克服する。 さらに、自宅の外にカメラを置き、家の外にいるユーザーにフルビューを提供する。 ユーザは、火災や水漏れ、誰かが家に押し入った場合、自分の電話ケースのアプリケーションから通知を受ける。 これにより、そのようなケースが発生した場合、ユーザはアクションを取る機会が与えられる。 さらに、ユーザは、リモートで照明をオン/オフする機会を与えることで、家の照明システムを監視することができる。

Home automation for many years had faced challenges that limit its spreading around the world. These challenges caused by the high cost of Own such a home, inflexibility system (cannot be monitored outside the home) and issues to achieve optimal security. Our main objective is to design and implement a smart home model that is simple, affordable to the users. The proposed system provide flexibility to monitor the home, using the reliable cellular network. The user will be able what is inside the home when he /she is away from home. In addition to that, our model overcome the issue of the security by providing different sensors that detects smoke, gas, leakage of water and incases of burglary. Moreover, a camera will be available in the home to give a full view for the user when he/she is outside the home. The user will be informed by an application on his/she phone incase if there is a fire, water leakage and if someone break into the house. This will give the user a chance to take an action if such cases happened. Furthermore, the user can monitor the lighting system of the home, by giving the user a chance to turn the lights on and off remotely.
翻訳日:2024-03-19 07:03:01 公開日:2023-08-31
# ゼロ知識プロトコルと楕円曲線暗号の研究とJavaカードを用いたスマートカード環境における実装

Study of Zero-Knowledge protocols and Elliptic Curve Cryptography and their implementation in Smart Card environments using Java Card ( http://arxiv.org/abs/2308.16666v1 )

ライセンス: Link先を確認
Carlos Andres Agudelo Serna, (参考訳) 本稿では,ZKP(Zero-Knowledge Protocol)と楕円曲線暗号実装の問題について,Java Cardを用いて計算的に制限された環境において検討する。 さらに、スマートカード上に実装するためのゼロ知識プロトコルの選択方法と、このプロトコルを選択するためのベンチマークの実施方法について説明する。 また,楕円曲線暗号を用いたZKPプロトコルの実装に関する理論的検討を行った。 キーワード:認証、ゼロ知識、暗号、楕円曲線、Javaカード、スマートカード

This paper studies the problem of Zero-Knowledge Protocol (ZKP) and elliptic curve cryptographic implementation in a computationally limited environment, such as, the smart cards, using Java Card. Besides that, it is explained how the zero-knowledge protocol was selected to implement it on a smart card and how the benchmarking was conducted to select this protocol. The paper also shows a theoretical development to implement the ZKP protocol using elliptic curve cryptography. Keywords: Authentication; Zero-knowledge; Cryptography; Elliptic Curve; Java card; Smart cards
翻訳日:2024-03-19 07:03:01 公開日:2023-08-31
# プライバシーリスク定量化のための厳密かつ効率的なベイズ推定法(拡張版)

Exact and Efficient Bayesian Inference for Privacy Risk Quantification (Extended Version) ( http://arxiv.org/abs/2308.16700v1 )

ライセンス: Link先を確認
Rasmus C. Rønneberg, Raúl Pardo, Andrzej Wąsowski, (参考訳) データ分析は、商業目的と研究目的の両方において高い価値がある。 しかし、分析結果の開示は個人に深刻なプライバシーリスクをもたらす可能性がある。 Privugは、ソースコードを分析して、データ分析プログラムのプライバシーリスクを定量化する手法である。 この手法は確率分布を用いて攻撃者の知識をモデル化し、ベイズ推定により観測可能な出力に基づいてその知識を更新する。 現在、プリヴグはマルコフ・チェイン・モンテカルロ(MCMC)を用いて推論を行っている。 本稿では,多変量ガウス分布に基づくベイズ推論エンジンを提案する。 推論エンジンは、多変量ガウスモデルとしてモデル化できるPythonプログラムのサブセット向けに実装されている。 公共統計を公開するためのプログラムのプライバシーリスクを分析して評価する。 本手法は,プライバシのリスクを正確にかつ効率的に分析し,既存手法よりも優れていることを示す。 さらに,公共統計における差分プライバシの影響を解析するために,我々のエンジンを用いて実演する。

Data analysis has high value both for commercial and research purposes. However, disclosing analysis results may pose severe privacy risk to individuals. Privug is a method to quantify privacy risks of data analytics programs by analyzing their source code. The method uses probability distributions to model attacker knowledge and Bayesian inference to update said knowledge based on observable outputs. Currently, Privug uses Markov Chain Monte Carlo (MCMC) to perform inference, which is a flexible but approximate solution. This paper presents an exact Bayesian inference engine based on multivariate Gaussian distributions to accurately and efficiently quantify privacy risks. The inference engine is implemented for a subset of Python programs that can be modeled as multivariate Gaussian models. We evaluate the method by analyzing privacy risks in programs to release public statistics. The evaluation shows that our method accurately and efficiently analyzes privacy risks, and outperforms existing methods. Furthermore, we demonstrate the use of our engine to analyze the effect of differential privacy in public statistics.
翻訳日:2024-03-19 07:03:01 公開日:2023-08-31
# Facing Unknown: Contrastive Pre-Trainingに基づくオープンワールド暗号化トラフィック分類

Facing Unknown: Open-World Encrypted Traffic Classification Based on Contrastive Pre-Training ( http://arxiv.org/abs/2308.16861v1 )

ライセンス: Link先を確認
Xiang Li, Beibei Feng, Tianning Zang, Shuyuan Zhao, Jingrun Ma, (参考訳) 従来のETC(Encrypted Traffic Classification)手法は、オープンワールドの仮定で大量の暗号化されたトラフィックを分類すること、すなわち、既知のアプリケーションを同時に分類し、未知のアプリケーションを検出することにおいて、大きな課題に直面している。 オープンワールドコントラスト事前学習(OWCP)フレームワークを提案する。 OWCPは、頑健な特徴表現を得るために、対照的な事前訓練を行う。 これに基づいて球面写像空間を決定し,GANを訓練して既知の部分と類似した新しい流れを合成するが,どのクラスにも属さないような,既知のクラスごとの限界流を求める。 これらの合成フローは、分類器を変更するためにSoftmaxの未知ノードに割り当てられ、既知のフローに対する感度を効果的に向上し、未知のフローを著しく抑制する。 3つのデータセットに対する大規模な実験により、OWCPは既存のETCおよび一般的なオープンワールド分類法よりも大幅に優れていることが示された。 さらに、OWCPの各積分成分を検証するために、包括的アブレーション研究と感度分析を行った。

Traditional Encrypted Traffic Classification (ETC) methods face a significant challenge in classifying large volumes of encrypted traffic in the open-world assumption, i.e., simultaneously classifying the known applications and detecting unknown applications. We propose a novel Open-World Contrastive Pre-training (OWCP) framework for this. OWCP performs contrastive pre-training to obtain a robust feature representation. Based on this, we determine the spherical mapping space to find the marginal flows for each known class, which are used to train GANs to synthesize new flows similar to the known parts but do not belong to any class. These synthetic flows are assigned to Softmax's unknown node to modify the classifier, effectively enhancing sensitivity towards known flows and significantly suppressing unknown ones. Extensive experiments on three datasets show that OWCP significantly outperforms existing ETC and generic open-world classification methods. Furthermore, we conduct comprehensive ablation studies and sensitivity analyses to validate each integral component of OWCP.
翻訳日:2024-03-19 07:03:01 公開日:2023-08-31
# BRC-20:ホープかハイプか

BRC-20: Hope or Hype ( http://arxiv.org/abs/2310.10652v1 )

ライセンス: Link先を確認
Qin Wang, Guangsheng Yu, (参考訳) BRC-20(Bitcoin Request for Comment 20の略)トークン・マニアは2023年半ばに重要なストーリーラインとなった。 Ethereumの従来のERC-20トークン標準とは違って、BRC-20ではサトシの編集可能なフィールド(最小単位の0.00000001 Bitcoin)を通じてBitcoinに不確実性を導入している。 本稿では,その複雑なメカニズム,特徴,そして最先端の応用を網羅して,この概念の探求を開拓する。 BRC-20はビットコインの機能と適用性を拡張するが、Ethereumの分散化されたアプリケーションや同様のエコシステムにはまだマッチしないかもしれないと、我々は保守的にコメントしている。

BRC-20 (short for Bitcoin Request for Comment 20) token mania was a key storyline in the middle of 2023. Setting it apart from conventional ERC-20 token standards on Ethereum, BRC-20 introduces non-fungibility to Bitcoin through an editable field in each satoshi (0.00000001 Bitcoin, the smallest unit), making them unique. In this paper, we pioneer the exploration of this concept, covering its intricate mechanisms, features, and state-of-the-art applications. By analyzing the multi-dimensional data spanning over months with factual investigations, we conservatively comment that while BRC-20 expands Bitcoin's functionality and applicability, it may still not match Ethereum's abundance of decentralized applications and similar ecosystems.
翻訳日:2024-03-19 02:23:27 公開日:2023-08-31
# 電池管理システムにおける電池パック用NFCセンサの安全性と信頼性

Secure and Trustworthy NFC-based Sensor Readout for Battery Packs in Battery Management Systems ( http://arxiv.org/abs/2310.10653v1 )

ライセンス: Link先を確認
Fikret Basic, Martin Gaertner, Christian Steger, (参考訳) 無線電池管理システム(英語版) (BMS) は、現代のアプリケーションではますます検討されている。 BMSモジュールと有線接続の複雑さと生産コストの増大は、新しいアイデアとアプローチの必要性をもたらした。 この増加傾向にもかかわらず、バッテリーセルのセンサーの読み出しに重点を置く汎用的なソリューションが欠如しており、無線通信によってバッテリーパックにより柔軟でコスト効率のよいセンサーをインストールすることができる。 2.4GHz帯のような多くの無線技術は干渉やその他の制限に悩まされている。 本稿では,バッテリセンサの読み出しに近距離場通信(NFC)技術を利用するBMSにおける通信の代替手法を提案する。 偽装バッテリーパックに対する懸念の高まりに対する回答として,バッテリパック検証のための認証スキーマを検討する。 さらに,処理および保存されたBMSステータスデータのセキュリティ対策についても検討する。 汎用的なBMSアプリケーションが我々の設計を活用可能であることを示すため、ターゲットコンポーネントを使用したBMSデモンストレータを実装した。 さらに、性能、エネルギー使用量、セキュリティ脅威モデルの評価を行うことで、技術レベルおよび機能レベルにおけるデモを更に検証する。

Wireless Battery Management Systems (BMS) are increasingly being considered for modern applications. The ever-increasing complexity and production costs of BMS modules and wired connections resulted in a necessity for new ideas and approaches. Despite this growing trend, there is a lack of generic solutions focused on battery cells' sensor readout, where wireless communication allows for a more flexible and cost-efficient sensor installation in battery packs. Many wireless technologies, such as those that use the 2.4 GHz frequency band, suffer from interference and other limitations. In this article, we present an alternative approach to communication in BMS that relies on the use of Near Field Communication (NFC) technology for battery sensor readouts. As an answer to the rising concern over the counterfeited battery packs, we consider an authentication schema for battery pack validation. We further consider security measures for the processed and stored BMS status data. To show that a general BMS application can make use of our design, we implement a BMS demonstrator using the targeted components. We further test the demonstrator on the technical and functional level, by also performing evaluation on its performance, energy usage, and a security threat model.
翻訳日:2024-03-19 02:23:27 公開日:2023-08-31
# ソフトウェアエンジニアのためのAI安全サブプロブレム

AI Safety Subproblems for Software Engineering Researchers ( http://arxiv.org/abs/2304.14597v3 )

ライセンス: Link先を確認
David Gros, Prem Devanbu, Zhou Yu(参考訳) この4ページの原稿では、ソフトウェア工学(SE)研究の観点から、長期的なAI安全の問題について議論する。 ソフトウェアエンジニアリング機能(AGI / "HLMI" にアプローチする)を含む、システムの人間の能力を満たしたり超えたりしながら、AIから危害を避けるという課題を簡潔に要約する。 我々は,SE会場ではAI安全に関する議論が一般的ではないことを示唆する定量的文献レビューを行う。 私たちは、ソフトウェアが能力の向上によってどのように変化するのかを推測し、従来のSE領域に適合する"サブプロブレム"を分類し、類似した問題に対する作業がAIとSEの将来をどう改善するかを提案しています。

In this 4-page manuscript we discuss the problem of long-term AI Safety from a Software Engineering (SE) research viewpoint. We briefly summarize long-term AI Safety, and the challenge of avoiding harms from AI as systems meet or exceed human capabilities, including software engineering capabilities (and approach AGI / "HLMI"). We perform a quantified literature review suggesting that AI Safety discussions are not common at SE venues. We make conjectures about how software might change with rising capabilities, and categorize "subproblems" which fit into traditional SE areas, proposing how work on similar problems might improve the future of AI and SE.
翻訳日:2023-10-24 12:26:22 公開日:2023-08-31
# 本当のヒーローは誰だ? 多次元データ統合による開発者の貢献度測定

Who is the Real Hero? Measuring Developer Contribution via Multi-dimensional Data Integration ( http://arxiv.org/abs/2308.08991v2 )

ライセンス: Link先を確認
Yuqiang Sun, Zhengzi Xu, Chengwei Liu, Yiran Zhang, Yang Liu(参考訳) オープンソースコミュニティの開発者のモチベーションを高めるためには、適切なインセンティブが重要です。 このようなインセンティブを提供するには、正確で客観的な開発者貢献度測定方法が必要である。 しかし、既存の手法は手動によるピアレビューに大きく依存しており、客観性と透明性が欠如している。 労力見積に関するいくつかの自動作業のメトリクスは、堅牢性に欠けるコード行の変更など、構文レベルやテキストレベルの情報のみを使用する。 さらに、コア開発者を特定する作業の中には、定量的なスコアやプロジェクト固有のパラメータを持たない定性的な理解のみを提供するものもあり、現実のプロジェクトでは実用的ではない。 そこで本稿では,多次元情報融合を用いた開発者貢献度計測手法であるcvalueを提案する。 CValueは、修正量、理解可能性、機能間および機能内影響の4つの次元におけるソースコードの変更から、構文情報と意味情報を抽出する。 プロジェクト内の各コミットに対するコントリビューションスコアを生成するために、情報をフューズする。 実験の結果、CValueは他のアプローチよりも19.59%優れており、実際の10のプロジェクトでは手動で真理とラベル付けされている。 実世界のプロジェクトでは,コミットに83.39秒を要するCValueのパフォーマンスが適用可能であることを検証し,実証した。 さらに,174プロジェクトを対象に大規模実験を行い,2,282人の開発者がコミットを膨らませていることを確認した。 このうち、2,050人の開発者は一切構文への貢献をしなかった。

Proper incentives are important for motivating developers in open-source communities, which is crucial for maintaining the development of open-source software healthy. To provide such incentives, an accurate and objective developer contribution measurement method is needed. However, existing methods rely heavily on manual peer review, lacking objectivity and transparency. The metrics of some automated works about effort estimation use only syntax-level or even text-level information, such as changed lines of code, which lack robustness. Furthermore, some works about identifying core developers provide only a qualitative understanding without a quantitative score or have some project-specific parameters, which makes them not practical in real-world projects. To this end, we propose CValue, a multidimensional information fusion-based approach to measure developer contributions. CValue extracts both syntax and semantic information from the source code changes in four dimensions: modification amount, understandability, inter-function and intra-function impact of modification. It fuses the information to produce the contribution score for each of the commits in the projects. Experimental results show that CValue outperforms other approaches by 19.59% on 10 real-world projects with manually labeled ground truth. We validated and proved that the performance of CValue, which takes 83.39 seconds per commit, is acceptable to be applied in real-world projects. Furthermore, we performed a large-scale experiment on 174 projects and detected 2,282 developers having inflated commits. Of these, 2,050 developers did not make any syntax contribution; and 103 were identified as bots.
翻訳日:2023-10-23 13:50:32 公開日:2023-08-31
# 事前学習型大言語モデルと突然変異テストを用いた効果的なテスト生成

Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing ( http://arxiv.org/abs/2308.16557v1 )

ライセンス: Link先を確認
Arghavan Moradi Dakhel, Amin Nikanjam, Vahid Majdinasab, Foutse Khomh, Michel C. Desmarais(参考訳) ソフトウェア開発における重要なフェーズの1つは、ソフトウェアテストです。 テストは潜在的なバグを特定し、メンテナンスコストを削減するのに役立つ。 自動テスト生成ツールの目標は、効率的なバグ発見テストを提案することで、テストの開発を容易にすることである。 最近、研究者はユニットテストを生成するためにLLM(Large Language Models)のコードを活用している。 生成したテストのコードカバレッジは通常評価されたが、このカバレッジはバグ検出におけるテストの効率と弱い相関があることを文献は認めている。 この制限を克服するために,本論文では,変異検査を利用してバグを明らかにすることで,LLMが生成するテストケースの有効性を向上させるための MuTAP を提案する。 これらの変異体は、バグを検出する際のテストケースの限界を強調するため、生き残ったミュータントによるプロンプトの増強によって達成されます。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる。 我々は MuTAP 内で異なる LLM を使用し、その性能を異なるベンチマークで評価する。 その結果,提案手法は最大28%の誤りのあるコードスニペットを検出できることがわかった。 そのうち17%は現在の最先端の完全自動テスト生成ツール(Pynguin)とゼロショット/フェーショットのLLMでの学習アプローチの両方で検出されなかった。 さらに、Mutation Score(MS)は93.57%の合成バグギーコードで達成され、評価において他の全てのアプローチよりも優れています。 その結果,LSMはテストケースを生成する上で有用なツールとして機能するが,構文的あるいは機能的エラーに悩まされ,特定のバグの検出やコーナーケースPUTの検査に有効でない可能性のある,生成したテストケースの有効性を高めるためには,特定の後処理ステップが必要であることが示唆された。

One of the critical phases in software development is software testing. Testing helps with identifying potential bugs and reducing maintenance costs. The goal of automated test generation tools is to ease the development of tests by suggesting efficient bug-revealing tests. Recently, researchers have leveraged Large Language Models (LLMs) of code to generate unit tests. While the code coverage of generated tests was usually assessed, the literature has acknowledged that the coverage is weakly correlated with the efficiency of tests in bug detection. To improve over this limitation, in this paper, we introduce MuTAP for improving the effectiveness of test cases generated by LLMs in terms of revealing bugs by leveraging mutation testing. Our goal is achieved by augmenting prompts with surviving mutants, as those mutants highlight the limitations of test cases in detecting bugs. MuTAP is capable of generating effective test cases in the absence of natural language descriptions of the Program Under Test (PUTs). We employ different LLMs within MuTAP and evaluate their performance on different benchmarks. Our results show that our proposed method is able to detect up to 28% more faulty human-written code snippets. Among these, 17% remained undetected by both the current state-of-the-art fully automated test generation tool (i.e., Pynguin) and zero-shot/few-shot learning approaches on LLMs. Furthermore, MuTAP achieves a Mutation Score (MS) of 93.57% on synthetic buggy code, outperforming all other approaches in our evaluation. Our findings suggest that although LLMs can serve as a useful tool to generate test cases, they require specific post-processing steps to enhance the effectiveness of the generated test cases which may suffer from syntactic or functional errors and may be ineffective in detecting certain types of bugs and testing corner cases PUTs.
翻訳日:2023-10-23 11:54:31 公開日:2023-08-31
# チューリング完全関数型プログラミング環境としてのExcel

Excel as a Turing-complete Functional Programming Environment ( http://arxiv.org/abs/2309.00115v1 )

ライセンス: Link先を確認
Peter Bartholomew(参考訳) 2018年にexcelの計算エンジンが動的配列に対応するための大きなアップグレードの対象となったので、スプレッドシートソリューションを構築する技術に一連の地震的な変更が加えられた。 本稿では、従来のスプレッドシートのアドホックなエンドユーザープラクティスを、形式的プログラミングと非常に共通な、根本的に異なるアプローチに置き換えることができることを示す。 新機能がビジネスやエンジニアリングのコミュニティにどの程度採用されるのか、そしてリスクに与える影響を推測するのは時期尚早です。 それでも、Excelコミュニティ内での先駆的な作業から、いくつかのトレンドが生まれています。

Since the calculation engine of Excel was the subject of a major upgrade to accommodate Dynamic Arrays in 2018 there has been a series of seismic changes to the art of building spreadsheet solutions. This paper will show the ad-hoc end user practices of traditional spreadsheets can be replaced by radically different approaches that have far more in common with formal programming. It is too early to guess the extent to which the new functionality will be adopted by the business and engineering communities and the impact that may have upon risk. Nevertheless, some trends are emerging from pioneering work within the Excel community which we will discuss here.
翻訳日:2023-10-23 11:45:50 公開日:2023-08-31
# 分析スプレッドシートモデルのための事例工学的資源分類

A Use Case-Engineering Resources Taxonomy for Analytical Spreadsheet Models ( http://arxiv.org/abs/2309.00104v1 )

ライセンス: Link先を確認
Thomas A. Grossman and Vijay Mehrotra(参考訳) 本稿では,分析表計算モデルの分類法を提案する。 スプレッドシートが機能することを意図したユースケースと、その開発に費やされるエンジニアリングリソースの両方を考慮する。 文献に見られる多くの分析的スプレッドシートモデルを含む9種類のスプレッドシートモデルを特定するために,従来の3種類の分類法を拡張した。 分析的解法」と「産業品質分析表計算モデル」を区別するために異なる研究文献を結びつける。 9つのタイプのそれぞれの性質を探求し、いくつかの定義を提案し、それらと文学を関連づけ、それらがどのように起こるか仮説を立てる。 分類学は、スプレッドシート開発ガイドラインの最も有用な場所を特定するのに役立ち、スプレッドシートのエラーやリスクを見るためのレンズを提供し、スプレッドシートの経時変化を理解するための構造を提供する。 この分類学は、改良を含む多くの興味深い研究課題の扉を開く。

This paper presents a taxonomy for analytical spreadsheet models. It considers both the use case that a spreadsheet is meant to serve, and the engineering resources devoted to its development. We extend a previous three-type taxonomy, to identify nine types of spreadsheet models, that encompass the many analytical spreadsheet models seen in the literature. We connect disparate research literature to distinguish between an "analytical solution" and an "industrial-quality analytical spreadsheet model". We explore the nature of each of the nine types, propose definitions for some, relate them to the literature, and hypothesize on how they might arise. The taxonomy aids in identifying where various spreadsheet development guidelines are most useful, provides a lens for viewing spreadsheet errors and risk, and offers a structure for understanding how spreadsheets change over time. This taxonomy opens the door to many interesting research questions, including refinements to itself.
翻訳日:2023-10-23 11:45:42 公開日:2023-08-31
# スプレッドシートフォーミュラ生成のためのChatGPTによる実験:AI生成スプレッドシートのリスクの証拠

Experimenting with ChatGPT for Spreadsheet Formula Generation: Evidence of Risk in AI Generated Spreadsheets ( http://arxiv.org/abs/2309.00095v1 )

ライセンス: Link先を確認
Simon Thorne(参考訳) LLM(Large Language Models)は、Python、Java Script、C++、Spreadsheetsといったモダンな言語で実装された、平易な英語文の解釈によって複雑なコンピュータプログラムを作成できるほど高度になった。 これらのツールは強力で比較的正確であるため、個人が使っている背景や知識に関係なく、コンピュータプログラミングに幅広いアクセスを提供する。 本稿では,ChatGPTを用いた一連の実験を行い,ChatGPTが解答を推論し,推論し,問題の解答を行う状況下で,有効なスプレッドシート式と関連する計算結果を生成するツールの能力について検討する。 以上の結果から,ChatGPTは正しい推論,推論,推論で正しいスプレッドシートを生成できることがわかった。 しかし、情報が限られている場合、不確実である場合、あるいは問題が複雑すぎる場合、ChatGPTの精度が低下し、推論、推論の能力が低下する。 これはまた、表計算式を作成する過程を全て覆す虚偽のステートメントと「幻覚」をもたらす。

Large Language Models (LLM) have become sophisticated enough that complex computer programs can be created through interpretation of plain English sentences and implemented in a variety of modern languages such as Python, Java Script, C++ and Spreadsheets. These tools are powerful and relatively accurate and therefore provide broad access to computer programming regardless of the background or knowledge of the individual using them. This paper presents a series of experiments with ChatGPT to explore the tool's ability to produce valid spreadsheet formulae and related computational outputs in situations where ChatGPT has to deduce, infer and problem solve the answer. The results show that in certain circumstances, ChatGPT can produce correct spreadsheet formulae with correct reasoning, deduction and inference. However, when information is limited, uncertain or the problem is too complex, the accuracy of ChatGPT breaks down as does its ability to reason, infer and deduce. This can also result in false statements and "hallucinations" that all subvert the process of creating spreadsheet formulae.
翻訳日:2023-10-23 11:45:27 公開日:2023-08-31
# ネイティブとwebアプリ: androidアプリとそのwebアプリのパフォーマンスとエネルギー消費量の比較

Native vs Web Apps: Comparing the Energy Consumption and Performance of Android Apps and their Web Counterparts ( http://arxiv.org/abs/2308.16734v1 )

ライセンス: Link先を確認
Ruben Horn, Abdellah Lahnaoui, Edgardo Reinoso, Sicheng Peng, Vadim Isakov, Tanjina Islam, Ivano Malavolta(参考訳) コンテキスト。 spotifyやyoutubeなど多くのインターネットコンテンツプラットフォームが、ネイティブアプリとwebアプリの両方でサービスを提供している。 これらのアプリはエンドユーザに類似した機能を提供するが、ネイティブバージョンやWeb版を使用することで、エネルギー消費とパフォーマンスのレベルが異なる可能性がある。 ゴール。 本研究の目的は,Android上のインターネットコンテンツプラットフォームにおいて,ネイティブおよびWebアプリケーションのエネルギー消費と性能を実証的に評価することである。 方法。 5つのカテゴリで10のインターネットコンテンツプラットフォームを選択します。 次に, ネットワークトラフィック量, CPU負荷, メモリ負荷, およびそれらのネイティブバージョンとWebバージョンのフレーム時間に基づいて計測を行い, 収集した計測結果を統計的に分析し, 結果を報告する。 結果だ ネイティブアプリがWebアプリよりもはるかに少ないエネルギーを消費し、大きな効果があることを確認した。 WebアプリケーションはCPUとメモリを多く使い、統計的に有意な差と大きな効果がある。 したがって、ネイティブアプリは対応するWebバージョンよりもハードウェアリソースを少なくする傾向にある。 ネットワークトラフィックは、ネイティブアプリを好む統計的に有意な差を示し、効果サイズは小さい。 私たちの結果は、フレーム時間という観点で結論を導き出せません。 結論だ この結果に基づき,web アプリよりもネイティブアプリによるインターネットコンテンツへのアクセスを可能であれば推奨する。 また,本研究の結果は,モバイルWebアプリやAndroidブラウザのランタイムリソース利用の最適化に関するさらなる研究を動機付けている。

Context. Many Internet content platforms, such as Spotify and YouTube, provide their services via both native and Web apps. Even though those apps provide similar features to the end user, using their native version or Web counterpart might lead to different levels of energy consumption and performance. Goal. The goal of this study is to empirically assess the energy consumption and performance of native and Web apps in the context of Internet content platforms on Android. Method. We select 10 Internet content platforms across 5 categories. Then, we measure them based on the energy consumption, network traffic volume, CPU load, memory load, and frame time of their native and Web versions; then, we statistically analyze the collected measures and report our results. Results. We confirm that native apps consume significantly less energy than their Web counterparts, with large effect size. Web apps use more CPU and memory, with statistically significant difference and large effect size. Therefore, we conclude that native apps tend to require fewer hardware resources than their corresponding Web versions. The network traffic volume exhibits statistically significant difference in favour of native apps, with small effect size. Our results do not allow us to draw any conclusion in terms of frame time. Conclusions. Based on our results, we advise users to access Internet contents using native apps over Web apps, when possible. Also, the results of this study motivate further research on the optimization of the usage of runtime resources of mobile Web apps and Android browsers.
翻訳日:2023-10-23 11:43:53 公開日:2023-08-31
# javascriptのデッドコード識別、削除、経験的評価

JavaScript Dead Code Identification, Elimination, and Empirical Assessment ( http://arxiv.org/abs/2308.16729v1 )

ライセンス: Link先を確認
Ivano Malavolta, Kishan Nirghin, Gian Luca Scoccia, Simone Romano, Salvatore Lombardi, Giuseppe Scanniello, Patricia Lago(参考訳) WebアプリはHTML、CSS、JavaScriptの組み合わせを使って構築される。 現代的なWebアプリを開発する一方で、開発者の生産性とコード品質を改善するために、サードパーティのライブラリやフレームワークを利用するのが一般的です。 これらのメリットに加えて、そのようなライブラリの採用によってJavaScriptデッドコード、すなわち未使用の機能を実装するコードが導入される。 デッドコードのダウンロードと解析のコストは、webアプリの読み込み時間とリソース使用量に負の影響を与えます。 私たちの研究の目標は2倍です。 まず,javascriptのデッドコードをwebアプリから自動検出して削除するアプローチであるlacunaを紹介する。 提案手法は静的解析と動的解析の両方をサポートし、拡張可能であり、コーディングスタイルや特定のjavascriptコンストラクタの使用に制約を課すことなく、任意のjavascriptコードベースに適用することができる。 第2に,lacunaを活用することで,モバイルwebアプリケーションのコンテキストにおけるjavascriptデッドコードの実行時のオーバーヘッドを,エネルギー消費,パフォーマンス,ネットワーク使用,リソース使用という観点から実証的に評価する実験を行う。 サードパーティ開発者が独自に開発した30のモバイルWebアプリケーションに対して,Lacunaを4回適用しました。 その後、Webアプリの各バージョンがAndroidデバイス上で実行され、デッドコードによる潜在的ランタイムオーバーヘッドを評価するための指標が収集される。 実験の結果は、javascriptのデッドコードの削除がモバイルwebアプリのロード時間にプラスの影響を与え、ネットワーク上で転送されるバイト数を大幅に削減している点を強調している。

Web apps are built by using a combination of HTML, CSS, and JavaScript. While building modern web apps, it is common practice to make use of third-party libraries and frameworks, as to improve developers' productivity and code quality. Alongside these benefits, the adoption of such libraries results in the introduction of JavaScript dead code, i.e., code implementing unused functionalities. The costs for downloading and parsing dead code can negatively contribute to the loading time and resource usage of web apps. The goal of our study is two-fold. First, we present Lacuna, an approach for automatically detecting and eliminating JavaScript dead code from web apps. The proposed approach supports both static and dynamic analyses, it is extensible and can be applied to any JavaScript code base, without imposing constraints on the coding style or on the use of specific JavaScript constructs. Secondly, by leveraging Lacuna we conduct an experiment to empirically evaluate the run-time overhead of JavaScript dead code in terms of energy consumption, performance, network usage, and resource usage in the context of mobile web apps. We applied Lacuna four times on 30 mobile web apps independently developed by third-party developers, each time eliminating dead code according to a different optimization level provided by Lacuna. Afterward, each different version of the web app is executed on an Android device, while collecting measures to assess the potential run-time overhead caused by dead code. Experimental results, among others, highlight that the removal of JavaScript dead code has a positive impact on the loading time of mobile web apps, while significantly reducing the number of bytes transferred over the network.
翻訳日:2023-10-23 11:43:30 公開日:2023-08-31
# 検証ツールスイートへの意図された機能概念統合の安全性

Safety of the Intended Functionality Concept Integration into a Validation Tool Suite ( http://arxiv.org/abs/2308.16670v1 )

ライセンス: Link先を確認
V\'ictor J. Exp\'osito Jim\'enez, Bernhard Winkler, Joaquim M. Castella Triginer, Heiko Scharke, Hannes Schneider, Eugen Brenner, Georg Macher(参考訳) 現在、Advanced Driver Assistance Systems(ADAS)とAutomated Driving(AD)の複雑さが増大しているため、業界は確立した技術ベースの手法に頼るのではなく、シナリオベースの検証アプローチに移行する必要がある。 この新たな焦点は、多くのシナリオが有害な車両行動を引き起こす可能性があるため、Intended Functionality (SOTIF)の安全性を考慮した検証プロセスも必要である。 このようにして、既存の検証ツールスイートにおけるSOTIFプロセスの統合を実現する方法を示す。 必要な適応は、アプローチの理解を助けるために付随する例で説明される。

Nowadays, the increasing complexity of Advanced Driver Assistance Systems (ADAS) and Automated Driving (AD) means that the industry must move towards a scenario-based approach to validation rather than relying on established technology-based methods. This new focus also requires the validation process to take into account Safety of the Intended Functionality (SOTIF), as many scenarios may trigger hazardous vehicle behaviour. Thus, this work demonstrates how the integration of the SOTIF process within an existing validation tool suite can be achieved. The necessary adaptations are explained with accompanying examples to aid comprehension of the approach.
翻訳日:2023-10-23 11:43:04 公開日:2023-08-31
# コンポーネントベースのソフトウェアエンジニアリングによるExcelモデルのエラー低減

Reducing Errors in Excel Models with Component-Based Software Engineering ( http://arxiv.org/abs/2309.00650v1 )

ライセンス: Link先を確認
Craig Hatmaker(参考訳) モデルエラーは広範に発生し、破滅的になりうる。 Excelモデルにコンポーネントベースソフトウェアエンジニアリング(CBSE)の概念を適用することで、モデルエラーと市場投入時間を削減することができる。 CBSEは、公式から書かれたのではなく、事前に構築された、テスト済みのコンポーネントのソリューションを組み立てる。 これはLAMBDAの導入によって実現された。 LAMBDAはExcelの公式から関数を生成するExcel関数である。 CBSE準拠のLAMBDA関数はExcel関数と同じように任意のプロジェクトで再利用できる。 また、SUM()のようなExcelのネイティブ関数とそっくりに見えます。 これにより、ジュニアモデラーでさえCBSE準拠のLAMBDAを利用することで、より少ないエラーでより高速にモデルを開発することができる。

Model errors are pervasive and can be catastrophic. We can reduce model errors and time to market by applying Component-Based Software Engineering (CBSE) concepts to Excel models. CBSE assembles solutions from pre-built, pre-tested components rather than written from formulas. This is made possible by the introduction of LAMBDA. LAMBDA is an Excel function that creates functions from Excel's formulas. CBSE-compliant LAMBDA functions can be reused in any project just like any Excel function. They also look exactly like Excel's native functions such as SUM(). This makes it possible for even junior modelers to leverage CBSE-compliant LAMBDAs to develop models quicker with fewer errors.
翻訳日:2023-10-23 11:33:51 公開日:2023-08-31
# charliecloudのレイヤフリーでgitベースのコンテナビルドキャッシュ

Charliecloud's layer-free, Git-based container build cache ( http://arxiv.org/abs/2309.00166v1 )

ライセンス: Link先を確認
Reid Priedhorsky (1), Jordan Ogas (1), Claude H. (Rusty) Davis IV (1), Z. Noah Hounshel (1 and 2), Ashlyn Lee (1 and 3), Benjamin Stormer (1 and 4), R. Shane Goff (1) ((1) Los Alamos National Laboratory, (2) University of North Carolina Wilmington, (3) Colorado State University, (4) University of Texas at Austin)(参考訳) ハイパフォーマンスコンピューティング(hpc)に科学的アプリケーションをデプロイする一般的なアプローチは、アプリケーションとその依存物を単一のユニットとしてパッケージするlinuxコンテナである。 このイメージは、機械可読なレシピで命令を解釈することで構築され、再使用のために命令結果を格納するビルドキャッシュでより高速になる。 標準的なアプローチ(例えばDockerとPodmanが使用)は多層結合ファイルシステムであり、層間の差異をtarアーカイブとしてエンコードする。 私たちの実験では、これはビルド時間とディスク使用量の両方で階層化されたキャッシュと同様に動作し、多くの命令のレシピにかなりの利点があります。 私たちのアプローチには、差分フォーマットの改善、キャッシュオーバーヘッドの低減、ファイル重複の削減といった、構造的なメリットもあります。 これらの結果は、レイヤフリーなコンテナ実装のためのgitベースのキャッシュは可能であるだけでなく、重要な次元でレイヤ化されたアプローチを上回る可能性があることを示している。

A popular approach to deploying scientific applications in high performance computing (HPC) is Linux containers, which package an application and all its dependencies as a single unit. This image is built by interpreting instructions in a machine-readable recipe, which is faster with a build cache that stores instruction results for re-use. The standard approach (used e.g. by Docker and Podman) is a many-layered union filesystem, encoding differences between layers as tar archives. Our experiments show this performs similarly to layered caches on both build time and disk usage, with a considerable advantage for many-instruction recipes. Our approach also has structural advantages: better diff format, lower cache overhead, and better file de-duplication. These results show that a Git-based cache for layer-free container implementations is not only possible but may outperform the layered approach on important dimensions.
翻訳日:2023-10-23 11:32:26 公開日:2023-08-31
# ChatGPTとExcel -- 信頼はあるが検証する

ChatGPT and Excel -- trust, but verify ( http://arxiv.org/abs/2309.00120v1 )

ライセンス: Link先を確認
Patrick O'Beirne(参考訳) 本稿は,チャットgptに対する批判的なアプローチを採用し,その膨大なリーチが,単純な要件を持つ人々にとって有用なツールであると同時に,トレーニングデータにほとんど存在せず,簡単なソリューションを持つことも稀な,より複雑な問題を持つ人々への,悪い,さらには誤解を招くガイドとなることを示す。 チャットボットを使ってルックアップ公式を作成するための4つのエクササイズを通じて機能し、提供されるソリューションをテストする必要性を示している。 単純なルックアップ、左のルックアップ、2つの値の一致を同時に行い、Excelで技術的な意味を持つ共通言語を使用することでモデルを意図的に混乱させます。 最終的には、システムとユーザのプロンプトを備えたexcelscriptボタンを、excelデスクトップ環境にchatgpt apiに追加する方法に関する実践的なガイドで締めくくっている。

This paper adopts a critical approach to ChatGPT, showing how its huge reach makes it a useful tool for people with simple requirements but a bad, even misleading guide to those with more complex problems which are more rarely present in the training data and even more rarely have straightforward solutions. It works through four exercises in creating lookup formulas using chatbots, showing the need to test the offered solutions. They are a simple lookup, a lookup to the left, a match of two values at the same time, and intentionally confusing the models by using common language with technical meaning in Excel. It concludes with a practical guide for how to add an Excelscript button, with system and user prompts, to the ChatGPT API into the Excel desktop environment, supported by a blog post giving the technical details for those interested.
翻訳日:2023-10-23 11:32:10 公開日:2023-08-31
# QuCAT: 量子ソフトウェアのための組合せテストツール

QuCAT: A Combinatorial Testing Tool for Quantum Software ( http://arxiv.org/abs/2309.00119v1 )

ライセンス: Link先を確認
Xinyi Wang, Paolo Arcaini, Tao Yue, Shaukat Ali(参考訳) 量子コンピューティングの発展に伴い、量子プログラムの体系的および自動的なテストアプローチの可用性はますます重要になっている。 そこで我々は,量子プログラムの組合せテストのための量子ソフトウェアテストツール qucat を提案する。 QuCATは2つの用途機能を提供する。 最初の機能によって、ツールは与えられた強度(例えばペアワイド)のテストスイートを生成する。 第2の機能では、障害が発生するか、最大強度に達するまで、強度を上げてテストスイートを生成する。 qucatは2つのテストオラクルを使用して、テスト出力の正確性をチェックする。 5つの量子プログラムの3つの欠陥バージョンでQuCATのコストと有効性を評価する。 その結果,低強度の組合せテストスイートは,コストが制限された障害を見つけることができる一方で,高強度の試験スイートの方が,比較的高いコストで難しい障害を発生させる効果があることがわかった。 リポジトリ: https://github.com/simula-complex/qucat-tool video: https://youtu.be/usqgoudklio

With the increased developments in quantum computing, the availability of systematic and automatic testing approaches for quantum programs is becoming increasingly essential. To this end, we present the quantum software testing tool QuCAT for combinatorial testing of quantum programs. QuCAT provides two functionalities of use. With the first functionality, the tool generates a test suite of a given strength (e.g., pair-wise). With the second functionality, it generates test suites with increasing strength until a failure is triggered or a maximum strength is reached. QuCAT uses two test oracles to check the correctness of test outputs. We assess the cost and effectiveness of QuCAT with 3 faulty versions of 5 quantum programs. Results show that combinatorial test suites with a low strength can find faults with limited cost, while a higher strength performs better to trigger some difficult faults with relatively higher cost. Repository: https://github.com/Simula-COMPLEX/qucat-tool Video: https://youtu.be/UsqgOudKLio
翻訳日:2023-10-23 11:31:54 公開日:2023-08-31
# DevGPT:Developer-ChatGPT対話の研究

DevGPT: Studying Developer-ChatGPT Conversations ( http://arxiv.org/abs/2309.03914v1 )

ライセンス: Link先を確認
Tao Xiao, Christoph Treude, Hideaki Hata, Kenichi Matsumoto(参考訳) ChatGPTのような大規模言語モデル(LLM)の出現は、ソフトウェア開発の風景を乱した。 多くの研究では、ChatGPTが生み出す応答の質、様々なプロンプト技術の有効性、およびプログラミングコンテストにおける比較性能について研究している。 しかし、ChatGPTが実際にソフトウェア開発者によって使われているかはほとんどわかっていません。 ChatGPTにはどのような質問がありますか? これらの相互作用のダイナミクスは何か? これらの会話に対する背景はどのようなもので、会話はどのように彼らの仕事の成果物にフィードバックしますか? このギャップを埋めるために、私たちはDevGPTという17,913のプロンプトとChatGPTのレスポンスを含むキュレートされたデータセットを紹介します。これには、ソースコード、コミット、イシュー、プルリクエスト、ディスカッション、Hacker Newsスレッドなど、対応するソフトウェア開発成果物を含む11,751のコードスニペットが含まれています。

The emergence of large language models (LLMs) such as ChatGPT has disrupted the landscape of software development. Many studies are investigating the quality of responses generated by ChatGPT, the efficacy of various prompting techniques, and its comparative performance in programming contests, to name a few examples. Yet, we know very little about how ChatGPT is actually used by software developers. What questions do developers present to ChatGPT? What are the dynamics of these interactions? What is the backdrop against which these conversations are held, and how do the conversations feedback into the artifacts of their work? To close this gap, we introduce DevGPT, a curated dataset which encompasses 17,913 prompts and ChatGPT's responses including 11,751 code snippets, coupled with the corresponding software development artifacts -- ranging from source code, commits, issues, pull requests, to discussions and Hacker News threads -- to enable the analysis of the context and implications of these developer interactions with ChatGPT.
翻訳日:2023-10-23 08:43:38 公開日:2023-08-31
# ボーフォートとノイマンとゲイツはどのように出会ったか。 スプレッドシートによる主題統合

How Beaufort, Neumann and Gates met? Subject integration with spreadsheeting ( http://arxiv.org/abs/2309.12353v1 )

ライセンス: Link先を確認
Maria Csernoch and Julia Csernoch(参考訳) 計算思考は、読み書き、算術(3r)とともに、第4の基本的なスキルであるべきである。 計算思考スキル、特にデジタル問題解決が独自のスキーマを持つレベルに達するには、長い道のりがあります。 本稿では,よく知られたビューフォート尺度を用いて,主題の統合とデジタルスキーマ構築を支援する新しい手法について述べる。 従来の紙ベースの問題とデータ検索プロセスの変換は、グレード8アクションリサーチ研究のフレーム内で提示される。 学生の知識とデジタルスキルは,従来のコースブックやデコンテクスト化されたデジタル環境よりも,より効率的に発達することが判明した。 さらに,本手法は,デジタル環境において解法がより効果的であり,主題と情報の両方においてスキーマを構築するための様々な形態を提供する紙ベースの問題に適応することができる。

Computational thinking should be the fourth fundamental skill, along with reading, writing, and arithmetic (3R). To reach the level where computational thinking skills, especially digital problem solving have their own schemata, there is a long way to go. In the present paper, a novel approach is detailed to support subject integration and building digital schemata, on the well-known Beaufort scale. The conversion of a traditional, paper-based problem and a data retrieval process are presented within the frame of a Grade 8 action research study. It is found that both students content knowledge and their digital skills developed more efficiently than in traditional course book and decontextualized digital environments. Furthermore, the method presented here can be adapted to any paper-based problems whose solutions would be more effective in a digital environment and which offer various forms for building schemata both in the subject matter and informatics.
翻訳日:2023-10-01 12:57:25 公開日:2023-08-31
# 汎用人工知能開発における人間中心設計研究の概観

An overview of research on human-centered design in the development of artificial general intelligence ( http://arxiv.org/abs/2309.12352v1 )

ライセンス: Link先を確認
Yang Yue, Joseph Z. Shyu(参考訳) 要約:本稿は、ヒューマニズムレンズによる人工知能(agi)開発に関する包括的な分析を提供する。 幅広い学術・産業資源を活用し、AGIの進化に固有の技術的・倫理的な複雑さを識別する。 具体的には、この論文はagiの社会的および個人的意義を強調し、その人間的価値と関心との一致を論じている。 目的:本研究の目的は,agiの開発とガバナンスにおける人間中心設計の役割を探ることである。 デザイン/方法論/応用:コンテンツ分析と文献レビューを取り入れて、AGI開発における人間中心のデザインにおける主要なテーマと概念を評価する。 また、関連する学術研究、理論、ベストプラクティスを精査する。 結論: 人間中心のデザインは倫理的かつ持続可能なアギに不可欠であり、人間の尊厳、プライバシー、自律性を強調している。 共感、倫理、社会的責任といった価値観を組み込むことは、AGIの倫理的展開に大きな影響を与える。 人材育成も重要であり、学際的イニシアティブを保証している。 研究の限界/実装: agi開発における倫理、社会的責任、人材育成に焦点を当てた追加の実証研究が必要である。 実践的意味: AGI開発における人間中心の価値観の実装は倫理的かつ持続可能な利用を可能にし、人間の尊厳、プライバシー、自治を促進する。 さらに、産学・研究分野の協力により、AGIの安定的な発展に欠かせない、堅牢な人材プールを確保することができる。 独創性/価値:本論文は,agi開発における人間中心アプローチの必要性を強調し,その実践的分岐点について論じた。

Abstract: This article offers a comprehensive analysis of Artificial General Intelligence (AGI) development through a humanistic lens. Utilizing a wide array of academic and industry resources, it dissects the technological and ethical complexities inherent in AGI's evolution. Specifically, the paper underlines the societal and individual implications of AGI and argues for its alignment with human values and interests. Purpose: The study aims to explore the role of human-centered design in AGI's development and governance. Design/Methodology/Approach: Employing content analysis and literature review, the research evaluates major themes and concepts in human-centered design within AGI development. It also scrutinizes relevant academic studies, theories, and best practices. Findings: Human-centered design is imperative for ethical and sustainable AGI, emphasizing human dignity, privacy, and autonomy. Incorporating values like empathy, ethics, and social responsibility can significantly influence AGI's ethical deployment. Talent development is also critical, warranting interdisciplinary initiatives. Research Limitations/Implications: There is a need for additional empirical studies focusing on ethics, social responsibility, and talent cultivation within AGI development. Practical Implications: Implementing human-centered values in AGI development enables ethical and sustainable utilization, thus promoting human dignity, privacy, and autonomy. Moreover, a concerted effort across industry, academia, and research sectors can secure a robust talent pool, essential for AGI's stable advancement. Originality/Value: This paper contributes original research to the field by highlighting the necessity of a human-centered approach in AGI development, and discusses its practical ramifications.
翻訳日:2023-10-01 12:57:02 公開日:2023-08-31
# 自動推論における信頼の確立

Establishing trust in automated reasoning ( http://arxiv.org/abs/2309.12351v1 )

ライセンス: Link先を確認
Konrad Hinsen (SSOLEIL, CBM)(参考訳) 1940年代に始まり、コンピュータによる推論の自動化が科学研究における重要性を高めてきた。 これまでのところ、自動推論の基礎となるルールは、主に人間がプログラムソースコードの形で定式化してきた。 大量のデータから派生したルールは、機械学習技術を通じて、現在開発中の補完的アプローチである。 なぜこれらのシステムを信頼すべきなのか、そして彼らの助けによって得られた結果は、科学の哲学者によって議論されてきたが、これまでのところ実践者からはほとんど注目されていない。 本研究は、科学における重要な信頼源である独立レビューに焦点を当て、その信頼性に影響を与える自動推論システムの特徴を特定する。 また、技術と社会的措置を組み合わせることで、レビュー可能性と信頼性を高めるための可能なステップについても論じている。

Since its beginnings in the 1940s, automated reasoning by computers has become a tool of ever growing importance in scientific research. So far, the rules underlying automated reasoning have mainly been formulated by humans, in the form of program source code. Rules derived from large amounts of data, via machine learning techniques, are a complementary approach currently under intense development. The question of why we should trust these systems, and the results obtained with their help, has been discussed by philosophers of science but has so far received little attention by practitioners. The present work focuses on independent reviewing, an important source of trust in science, and identifies the characteristics of automated reasoning systems that affect their reviewability. It also discusses possible steps towards increasing reviewability and trustworthiness via a combination of technical and social measures.
翻訳日:2023-10-01 12:56:12 公開日:2023-08-31
# 行動認証システムのためのプライバシー保護機械学習

Privacy Preserving Machine Learning for Behavioral Authentication Systems ( http://arxiv.org/abs/2309.13046v1 )

ライセンス: Link先を確認
Md Morshedul Islam and Md Abdur Rafiq(参考訳) 行動認証(BA)システムは、ユーザの行動特性を使用して、アイデンティティークレームを検証する。 ba検証アルゴリズムは、ユーザのプロファイル上でニューラルネットワーク(nn)分類器をトレーニングすることで構築することができる。 トレーニングされたNNモデルは、提示された検証データを分類し、もしその分類がクレームIDと一致した場合、検証アルゴリズムはクレームを受理する。 この分類ベースのアプローチでは、プロファイルデータベースを維持する必要がなくなる。 しかし、他のNNアーキテクチャと同様に、BAシステムのNN分類器はプライバシー攻撃に弱い。 NNで使用されるトレーニングやテストデータのプライバシを保護するために、さまざまな技術が広く使用されている。 本稿では,非暗号ベースのアプローチに着目し,ランダムプロジェクション(RP)を用いてNNモデルのデータのプライバシを確保する。 RPはランダム行列に基づく距離保存変換である。 検証者とプロファイルを共有する前に、ユーザーはプロファイルをrpで変換し、行列を秘密にしておく。 RPの計算負荷を低減するために,低消費電力デバイスに非常に有効であるスパースランダムプロジェクションを用いる。 本システムでは,正当性とセキュリティ特性とともに,BAシステムの変更性を保証する。 また、MLベースのプライバシ攻撃を導入し、提案システムは、これや他のプライバシおよびセキュリティ攻撃に対して堅牢である。 既存の3つの行動BAシステムにアプローチを導入し,FRRが2.0%,FARが1.0%であった。 さらに、機械学習ベースのプライバシ攻撃者は、プロファイルの一部から3.0%から12.0%未満の機能しか回復できない。 しかし、これらの回復した機能は、ユーザの行動パターンの詳細を知るのに十分ではなく、その後の攻撃で使用するのに十分ではない。 我々のアプローチは一般的であり、他のNNベースのBAシステムや従来の生体認証システムでも利用できる。

A behavioral authentication (BA) system uses the behavioral characteristics of users to verify their identity claims. A BA verification algorithm can be constructed by training a neural network (NN) classifier on users' profiles. The trained NN model classifies the presented verification data, and if the classification matches the claimed identity, the verification algorithm accepts the claim. This classification-based approach removes the need to maintain a profile database. However, similar to other NN architectures, the NN classifier of the BA system is vulnerable to privacy attacks. To protect the privacy of training and test data used in an NN different techniques are widely used. In this paper, our focus is on a non-crypto-based approach, and we used random projection (RP) to ensure data privacy in an NN model. RP is a distance-preserving transformation based on a random matrix. Before sharing the profiles with the verifier, users will transform their profiles by RP and keep their matrices secret. To reduce the computation load in RP, we use sparse random projection, which is very effective for low-compute devices. Along with correctness and security properties, our system can ensure the changeability property of the BA system. We also introduce an ML-based privacy attack, and our proposed system is robust against this and other privacy and security attacks. We implemented our approach on three existing behavioral BA systems and achieved a below 2.0% FRR and a below 1.0% FAR rate. Moreover, the machine learning-based privacy attacker can only recover below 3.0% to 12.0% of features from a portion of the projected profiles. However, these recovered features are not sufficient to know details about the users' behavioral pattern or to be used in a subsequent attack. Our approach is general and can be used in other NN-based BA systems as well as in traditional biometric systems.
翻訳日:2023-10-01 12:34:38 公開日:2023-08-31
# HPCシステムのエネルギー問題と応用

Energy Concerns with HPC Systems and Applications ( http://arxiv.org/abs/2309.08615v1 )

ライセンス: Link先を確認
Roblex Nana, Claude Tadonki, Petr Dokladal, Youssef Mesri(参考訳) 気候変動に関連するものを含む様々な理由から、エネルギーは関連するすべての活動や技術設計において重要な関心事となっている。 コンピュータ活動の特定の場合において、問題はいわゆる「インテリジェントデバイス」の出現と普及によって悪化する。 アプリケーション側では、"emユビキタスアシスタント"という目的を達成するために、効率的なコンピューティングサポートが明らかに必要となる、"em人工知能"の特別なトピックを指摘します。 主に2つの文脈があり、そこでは {\em embedded computing} と {\em supercomputing} が最優先事項である。 前者にとって、デバイスで利用可能なエネルギー量は限られているため、消費電力は極めて重要である。 後者にとって、放熱は深刻な失敗の源であり、エネルギーに関する金銭的コストは保守予算の重要な部分である可能性が高い。 単一のコンピュータでは、この問題は電力消費によって一般的に考慮される。 本稿では,ハードウェアとソフトウェアの両方の観点から,コンピュータ活動におけるエネルギー的関心事の状況について述べる。

For various reasons including those related to climate changes, {\em energy} has become a critical concern in all relevant activities and technical designs. For the specific case of computer activities, the problem is exacerbated with the emergence and pervasiveness of the so called {\em intelligent devices}. From the application side, we point out the special topic of {\em Artificial Intelligence}, who clearly needs an efficient computing support in order to succeed in its purpose of being a {\em ubiquitous assistant}. There are mainly two contexts where {\em energy} is one of the top priority concerns: {\em embedded computing} and {\em supercomputing}. For the former, power consumption is critical because the amount of energy that is available for the devices is limited. For the latter, the heat dissipated is a serious source of failure and the financial cost related to energy is likely to be a significant part of the maintenance budget. On a single computer, the problem is commonly considered through the electrical power consumption. This paper, written in the form of a survey, we depict the landscape of energy concerns in computer activities, both from the hardware and the software standpoints.
翻訳日:2023-09-24 04:14:42 公開日:2023-08-31
# 心電図分類のためのマスク変圧器

Masked Transformer for Electrocardiogram Classification ( http://arxiv.org/abs/2309.07136v1 )

ライセンス: Link先を確認
Ya Zhou, Xiaolin Diao, Yanni Huo, Yang Liu, Xiaohan Fan, and Wei Zhao(参考訳) 心電図(ECG)は臨床応用において最も重要な診断ツールの一つである。 高度なアルゴリズムの出現に伴い、ECGタスクに様々なディープラーニングモデルが採用されている。 しかし、コンピュータビジョンや自然言語処理で広く成功したにもかかわらず、ECGデータに対するトランスフォーマーの可能性はまだ実現されていない。 本稿では、マスク付きオートエンコーダのECG時系列への応用を拡大する、MTECGと呼ばれるECG分類のための有用なマスク付きトランスフォーマー法を提案する。 220,251個の心電図記録を医療専門家が診断し,MTECGの特性を探索するデータセットを構築した。 提案手法では,5.7mパラメータの軽量モデルがマスキング比 (5%-75%) の広い範囲において安定して機能することを示す。 アブレーション研究は, 変動する再建目標, トレーニングスケジュール長, 層状LR崩壊およびDropPath速度の重要性を強調した。 プライベートなECGデータセットとパブリックなECGデータセットの両方の実験により、MTECG-TはECG分類における最近の最先端アルゴリズムよりも大幅に優れていることが示された。

Electrocardiogram (ECG) is one of the most important diagnostic tools in clinical applications. With the advent of advanced algorithms, various deep learning models have been adopted for ECG tasks. However, the potential of Transformers for ECG data is not yet realized, despite their widespread success in computer vision and natural language processing. In this work, we present a useful masked Transformer method for ECG classification referred to as MTECG, which expands the application of masked autoencoders to ECG time series. We construct a dataset comprising 220,251 ECG recordings with a broad range of diagnoses annoated by medical experts to explore the properties of MTECG. Under the proposed training strategies, a lightweight model with 5.7M parameters performs stably well on a broad range of masking ratios (5%-75%). The ablation studies highlight the importance of fluctuated reconstruction targets, training schedule length, layer-wise LR decay and DropPath rate. The experiments on both private and public ECG datasets demonstrate that MTECG-T significantly outperforms the recent state-of-the-art algorithms in ECG classification.
翻訳日:2023-09-17 13:50:54 公開日:2023-08-31
# 人間はBERTが「自信」を得るのに役立つか?

Can humans help BERT gain "confidence"? ( http://arxiv.org/abs/2309.06580v1 )

ライセンス: Link先を確認
Piyush Agrawal(参考訳) 過去10年間の人工知能の進歩は、学際的な研究のための様々な道を開いた。 人工知能のアイデアは脳内のニューロンの働きに触発されたため、この2つの分野を組み合わせて、認知データの助けを借りてAIモデルを訓練することは、かなり現実的だ。 この技術を深く理解するだけでなく、脳の理解を深める上でも役立つだろう。 本論文では,チューリッヒ認知コーパス(zuco, hollenstein et al., 2018)の認知的特徴をbertと呼ばれるトランスフォーマベースのエンコーダモデルと統合するための新しい実験を行う。 私は、ZuCoの脳波と視線追跡機能がNLPモデルの性能向上にどのように役立つかを示します。 堅牢性チェックパイプラインの助けを借りてパフォーマンスの向上を確認し、それに関連する認知機能を持たない外部データセットのベンチマークに使用するワードEEGレキシコンを導出します。 さらに、BERTの内部動作メカニズムを分析し、LIME(Ribeiro et al., 2016)と呼ばれる一般的なモデルに依存しない説明可能性フレームワークと関連付けてモデル説明可能性の可能性を探る。 最後に、この研究を前進させる可能性について論じる。

The advancements in artificial intelligence over the last decade have opened a multitude of avenues for interdisciplinary research. Since the idea of artificial intelligence was inspired by the working of neurons in the brain, it seems pretty practical to combine the two fields and take the help of cognitive data to train AI models. Not only it will help to get a deeper understanding of the technology, but of the brain as well. In this thesis, I conduct novel experiments to integrate cognitive features from the Zurich Cognitive Corpus (ZuCo) (Hollenstein et al., 2018) with a transformer-based encoder model called BERT. I show how EEG and eye-tracking features from ZuCo can help to increase the performance of the NLP model. I confirm the performance increase with the help of a robustness-checking pipeline and derive a word-EEG lexicon to use in benchmarking on an external dataset that does not have any cognitive features associated with it. Further, I analyze the internal working mechanism of BERT and explore a potential method for model explainability by correlating it with a popular model-agnostic explainability framework called LIME (Ribeiro et al., 2016). Finally, I discuss the possible directions to take this research forward.
翻訳日:2023-09-17 13:47:33 公開日:2023-08-31
# マルチエンコーダオートエンコーダによる自己改善ブラインド音源分離

Self-Supervised Blind Source Separation via Multi-Encoder Autoencoders ( http://arxiv.org/abs/2309.07138v1 )

ライセンス: Link先を確認
Matthew B. Webster and Joonnyong Lee(参考訳) ブラインドソース分離(BSS)の課題は、ソースや混合システムの事前の知識なしに、ソースを混合から分離することである。 これはしばしば混合系と源の両方について制限的な仮定を必要とする難しい問題である。 本稿では,完全自己教師付き学習によるマルチエンコーダの自然特徴部分空間特殊化能力を活用して,非線形混合系のbssに対処する新しい手法を提案する。 トレーニングフェーズでは、マルチエンコーダネットワークの別々の符号化空間に入力をアンミックスし、デコーダ内でこれらの表現をリミックスして入力を再構成する。 そこで,提案手法では,1つの符号化のみをマスキングすることで,デコーダが音源信号を推定できる新しい符号化方式を提案する。 この目的のために、デコーダの層全体にわたる未混合符号化空間間の間隔を促進させるいわゆる経路分離損失や、コヒーレントソース推定のためのデコーダ上のゼロ再構成損失も導入する。 本手法を慎重に評価するため,ポリソムノグラフィ睡眠研究からおもちゃデータセットと実世界の生体信号記録を用いて呼吸抽出実験を行った。

The task of blind source separation (BSS) involves separating sources from a mixture without prior knowledge of the sources or the mixing system. This is a challenging problem that often requires making restrictive assumptions about both the mixing system and the sources. In this paper, we propose a novel method for addressing BSS of non-linear mixtures by leveraging the natural feature subspace specialization ability of multi-encoder autoencoders with fully self-supervised learning without strong priors. During the training phase, our method unmixes the input into the separate encoding spaces of the multi-encoder network and then remixes these representations within the decoder for a reconstruction of the input. Then to perform source inference, we introduce a novel encoding masking technique whereby masking out all but one of the encodings enables the decoder to estimate a source signal. To this end, we also introduce a so-called pathway separation loss that encourages sparsity between the unmixed encoding spaces throughout the decoder's layers and a so-called zero reconstruction loss on the decoder for coherent source estimations. In order to carefully evaluate our method, we conduct experiments on a toy dataset and with real-world biosignal recordings from a polysomnography sleep study for extracting respiration.
翻訳日:2023-09-17 13:38:29 公開日:2023-08-31
# 前進モードと逆モードでPDEをJAXに持ち込む自動微分

Bringing PDEs to JAX with forward and reverse modes automatic differentiation ( http://arxiv.org/abs/2309.07137v1 )

ライセンス: Link先を確認
Ivan Yashchuk(参考訳) 偏微分方程式(PDE)は様々な物理現象を記述するために用いられる。 これらの方程式は解析解を持たないことが多く、代わりに数値近似が用いられる。 PDEを解く一般的な方法の1つは有限要素法である。 入力パラメータに関する解の微分情報は、科学計算における多くのタスクにおいて重要である。 JAX自動微分ライブラリをFiredrake有限要素ライブラリにインターフェースで拡張します。 PDEの高レベルシンボリック表現は、下層の非線形ソルバの低レベルおそらく多くの反復を通して微分をバイパスすることができる。 Firedrakeソルバによる微分は、接線と随伴方程式を用いて行われる。 これにより、任意の微分可能なプログラムを持つ有限要素ソルバの効率的な構成が可能になる。 コードはgithub.com/ivanyashchuk/jax-firedrakeで入手できる。

Partial differential equations (PDEs) are used to describe a variety of physical phenomena. Often these equations do not have analytical solutions and numerical approximations are used instead. One of the common methods to solve PDEs is the finite element method. Computing derivative information of the solution with respect to the input parameters is important in many tasks in scientific computing. We extend JAX automatic differentiation library with an interface to Firedrake finite element library. High-level symbolic representation of PDEs allows bypassing differentiating through low-level possibly many iterations of the underlying nonlinear solvers. Differentiating through Firedrake solvers is done using tangent-linear and adjoint equations. This enables the efficient composition of finite element solvers with arbitrary differentiable programs. The code is available at github.com/IvanYashchuk/jax-firedrake.
翻訳日:2023-09-17 13:38:06 公開日:2023-08-31
# AIモデルのトレーニングにおける合成データの利用:持続可能な開発の可能性とリスク

The Use of Synthetic Data to Train AI Models: Opportunities and Risks for Sustainable Development ( http://arxiv.org/abs/2309.00652v1 )

ライセンス: Link先を確認
Tshilidzi Marwala, Eleonore Fournier-Tombs, Serge Stinckwich(参考訳) 現在のデータ駆動時代には、実際の個人情報を含まない実世界データの特徴に類似した人工的なデータ合成データが注目されている。 これは、プライバシーを保護し、研究用データの可用性を高め、機械学習モデルのバイアスを減らす可能性があるためである。 本稿では,合成データの作成,利用,普及を規定する政策について検討する。 合成データは個人のプライバシーを保護するための強力な手段となり得るが、品質と信頼性の確保といった課題も提示する。 優れた人工データポリシーは、プライバシーの懸念とデータの有用性のバランスを保ち、倫理的基準や法的基準を妥協することなく効果的に利用できるようにする必要がある。 組織や機関は、その固有の課題に対処しながら、合成データの利点を活かすため、標準化されたガイドラインとベストプラクティスを開発する必要がある。

In the current data driven era, synthetic data, artificially generated data that resembles the characteristics of real world data without containing actual personal information, is gaining prominence. This is due to its potential to safeguard privacy, increase the availability of data for research, and reduce bias in machine learning models. This paper investigates the policies governing the creation, utilization, and dissemination of synthetic data. Synthetic data can be a powerful instrument for protecting the privacy of individuals, but it also presents challenges, such as ensuring its quality and authenticity. A well crafted synthetic data policy must strike a balance between privacy concerns and the utility of data, ensuring that it can be utilized effectively without compromising ethical or legal standards. Organizations and institutions must develop standardized guidelines and best practices in order to capitalize on the benefits of synthetic data while addressing its inherent challenges.
翻訳日:2023-09-10 03:47:50 公開日:2023-08-31
# gptの金融リテラシーテストからの洞察と、それをどのようにアドバイスの源として使うかの予備テスト

GPT has become financially literate: Insights from financial literacy tests of GPT and a preliminary test of how people use it as a source of advice ( http://arxiv.org/abs/2309.00649v1 )

ライセンス: Link先を確認
Pawe{\l} Niszczota, Sami Abbas(参考訳) 我々は,金融リテラシーテストを用いて,大規模言語モデルであるgptが一般大衆の金融ロボアドバイザとして機能する能力を評価する。 gpt-3.5に基づくdavinciとchatgptはそれぞれ金融リテラシーテストで66%と65%を記録し、ベースラインは33%であった。 しかし、GPT-4に基づくChatGPTは、ほぼ完全な99%のスコアを獲得し、金融リテラシーが最先端モデルの創発的な能力になることを示している。 我々は、ジャッジ・アドバイザシステムと貯蓄ジレンマを用いて、研究者が大規模言語モデルからアドバイス活用を評価する方法を説明する。 今後の研究の方向性もいくつか提示する。

We assess the ability of GPT -- a large language model -- to serve as a financial robo-advisor for the masses, by using a financial literacy test. Davinci and ChatGPT based on GPT-3.5 score 66% and 65% on the financial literacy test, respectively, compared to a baseline of 33%. However, ChatGPT based on GPT-4 achieves a near-perfect 99% score, pointing to financial literacy becoming an emergent ability of state-of-the-art models. We use the Judge-Advisor System and a savings dilemma to illustrate how researchers might assess advice-utilization from large language models. We also present a number of directions for future research.
翻訳日:2023-09-10 03:47:36 公開日:2023-08-31
# 補助データに基づく小型フットプリントフットショットキーワードスポッティングの改良

Improving Small Footprint Few-shot Keyword Spotting with Supervision on Auxiliary Data ( http://arxiv.org/abs/2309.00647v1 )

ライセンス: Link先を確認
Seunghan Yang, Byeonggeun Kim, Kyuhong Shim, Simyung Chang(参考訳) Few-shotキーワードスポッティング(FS-KWS)モデルは、通常、目に見えないターゲットキーワードに一般化するために、大規模な注釈付きデータセットを必要とする。 しかし、既存のKWSデータセットは規模が限られており、キーワードのようなラベル付きデータの収集にはコストがかかる。 この問題を緩和するために,収集が容易でラベルなしの読解音声データを補助的情報源として利用するフレームワークを提案する。 自己教師付き学習は、ラベルのないデータから表現を学習するために広く採用されているが、十分な能力を持つ大規模モデルに適していることが知られており、FS-KWSモデルの訓練には実用的ではない。 代わりに、キーワードのようなデータセットであるLibriWordを構築するために、自動的にアノテートしてフィルタリングします。 次に、モデルがドメイン外補助データから表現力を高めるのに役立つマルチタスク学習を採用する。 本手法はFS-KWSベンチマークにおける競合手法よりも優れた性能を示す。

Few-shot keyword spotting (FS-KWS) models usually require large-scale annotated datasets to generalize to unseen target keywords. However, existing KWS datasets are limited in scale and gathering keyword-like labeled data is costly undertaking. To mitigate this issue, we propose a framework that uses easily collectible, unlabeled reading speech data as an auxiliary source. Self-supervised learning has been widely adopted for learning representations from unlabeled data; however, it is known to be suitable for large models with enough capacity and is not practical for training a small footprint FS-KWS model. Instead, we automatically annotate and filter the data to construct a keyword-like dataset, LibriWord, enabling supervision on auxiliary data. We then adopt multi-task learning that helps the model to enhance the representation power from out-of-domain auxiliary data. Our method notably improves the performance over competitive methods in the FS-KWS benchmark.
翻訳日:2023-09-10 03:47:21 公開日:2023-08-31
# spaic: デュアルモードエンコーダを備えた16チャンネルの汎用イベントベースのアナログフロントエンド。

SPAIC: A sub-$\mu$W/Channel, 16-Channel General-Purpose Event-Based Analog Front-End with Dual-Mode Encoders ( http://arxiv.org/abs/2309.03221v1 )

ライセンス: Link先を確認
Shyam Narayanan, Matteo Cartiglia, Arianna Rubino, Charles Lego, Charlotte Frenkel, Giacomo Indiveri(参考訳) 低消費電力イベントベースアナログフロントエンド(AFE)は、エッジコンピューティングのための効率的なエンドツーエンドのニューロモルフィック処理システムを構築するために必要な重要なコンポーネントである。 スパイキングニューラルネットワーク(SNN)を実装し、幅広い感覚処理タスクを解くために、いくつかのニューロモルフィックチップが開発されているが、アナログ感覚信号をスパイクに変換し、ニューロモルフィックプロセッサにインターフェースできる汎用アナログフロントエンドデバイスはわずかである。 本研究では,デルタ変調とパルス周波数変調を併用した汎用デュアルモードアナログ信号対スパイク符号化を可変周波数帯域で提供する,spaic (signal-to-spike converter for analog ai computation) と呼ばれる,高度に構成可能な新しいアナログフロントエンドチップを提案する。 ASICは180nmプロセスで設計されている。 4桁の周波数にまたがる様々な信号をサポートし、エンコードし、既存のニューロモルフィックプロセッサと互換性のあるイベントベースの出力を提供する。 我々はASICの機能を検証し,チップの基本構成ブロックを特徴付ける最初のシリコン測定結果を示した。

Low-power event-based analog front-ends (AFE) are a crucial component required to build efficient end-to-end neuromorphic processing systems for edge computing. Although several neuromorphic chips have been developed for implementing spiking neural networks (SNNs) and solving a wide range of sensory processing tasks, there are only a few general-purpose analog front-end devices that can be used to convert analog sensory signals into spikes and interfaced to neuromorphic processors. In this work, we present a novel, highly configurable analog front-end chip, denoted as SPAIC (signal-to-spike converter for analog AI computation), that offers a general-purpose dual-mode analog signal-to-spike encoding with delta modulation and pulse frequency modulation, with tunable frequency bands. The ASIC is designed in a 180 nm process. It supports and encodes a wide variety of signals spanning 4 orders of magnitude in frequency, and provides an event-based output that is compatible with existing neuromorphic processors. We validated the ASIC for its functions and present initial silicon measurement results characterizing the basic building blocks of the chip.
翻訳日:2023-09-10 03:26:52 公開日:2023-08-31
# 会話型集団知能 パイロット研究

Conversational Swarm Intelligence, a Pilot Study ( http://arxiv.org/abs/2309.03220v1 )

ライセンス: Link先を確認
Louis Rosenberg, Gregg Willcox, Hans Schumann, Miles Bader, Ganesh Mani, Kokoro Sagae, Devang Acharya, Yuxin Zheng, Andrew Kim, Jialing Deng(参考訳) conversational swarm intelligence(csi)は、生物集団のダイナミクスをモデルとした技術を用いて、大規模な人間の集団がリアルタイムのネットワーク化された会話を開催できるようにする新しい方法である。 大規模言語モデル(llms)を用いた会話エージェントの新規使用により、csi構造は、小さな検討グループ間のローカル対話と、より広い人口にわたる会話コンテンツのグローバル伝播を同時に可能にしている。 このように、csiは小規模集団の審議的推論と大規模集団知能の利点を組み合わせる。 このパイロット実験では、参加者は(テキストチャットを通じて)会話の群れの中で熟考する (a) 標準集中型チャットルームの参加者よりも30%のコントリビューション(p<0.05)を生み出した。 (b)寄与率のばらつきが7.2%減少した。 これらの結果から,csi構造を用いた場合,ユーザはより多くのコンテンツを提供し,より均等に参加できることが示唆された。

Conversational Swarm Intelligence (CSI) is a new method for enabling large human groups to hold real-time networked conversations using a technique modeled on the dynamics of biological swarms. Through the novel use of conversational agents powered by Large Language Models (LLMs), the CSI structure simultaneously enables local dialog among small deliberative groups and global propagation of conversational content across a larger population. In this way, CSI combines the benefits of small-group deliberative reasoning and large-scale collective intelligence. In this pilot study, participants deliberating in conversational swarms (via text chat) (a) produced 30% more contributions (p<0.05) than participants deliberating in a standard centralized chat room and (b) demonstrated 7.2% less variance in contribution quantity. These results indicate that users contributed more content and participated more evenly when using the CSI structure.
翻訳日:2023-09-10 03:26:31 公開日:2023-08-31
# リテラル・アウェア医療知識グラフ表現学習に基づく動物性疾患診断

Companion Animal Disease Diagnostics based on Literal-aware Medical Knowledge Graph Representation Learning ( http://arxiv.org/abs/2309.03219v1 )

ライセンス: Link先を確認
Van Thuy Hoang, Sang Thanh Nguyen, Sangmyeong Lee, Jooho Lee, Luong Vuong Nguyen, and O-Joun Lee(参考訳) 知識グラフ(KG)埋め込みは、ノートや獣医学記録などの電子医療記録(EMR)を分析することにより、動物疾患の診断に有用である。 しかし,様々なリテラル情報と異質な特性を示すため,リテラル情報との関係やエンティティをキャプチャする学習表現は困難である。 一方、既存の手法は主に、異なるタイプのリテラルを考慮せずに、ターゲットノードを取り巻くグラフ構造を保存することを目的としている。 本稿では,各種リテラル情報とグラフ構造を学習し,リテラルkgという統一表現に融合できる,動物疾患の効率的な診断のための知識グラフ埋め込みモデルを提案する。 具体的には, 動物病院から収集したリテラル情報とともに, EMRから構築した知識グラフを構築する。 次に、異なるタイプのエンティティとノードの特徴情報をゲートネットワークを介して統一されたベクトル表現に融合する。 最後に,前文課題のグラフ構造を学習し,様々な下流課題に向けて,自己教師付き学習タスクを提案する。 リンク予測タスクの実験結果は、我々のモデルが最先端モデルからなるベースラインより優れていることを示す。 ソースコードはhttps://github.com/NSLab-CUK/LiteralKGで入手できる。

Knowledge graph (KG) embedding has been used to benefit the diagnosis of animal diseases by analyzing electronic medical records (EMRs), such as notes and veterinary records. However, learning representations to capture entities and relations with literal information in KGs is challenging as the KGs show heterogeneous properties and various types of literal information. Meanwhile, the existing methods mostly aim to preserve graph structures surrounding target nodes without considering different types of literals, which could also carry significant information. In this paper, we propose a knowledge graph embedding model for the efficient diagnosis of animal diseases, which could learn various types of literal information and graph structure and fuse them into unified representations, namely LiteralKG. Specifically, we construct a knowledge graph that is built from EMRs along with literal information collected from various animal hospitals. We then fuse different types of entities and node feature information into unified vector representations through gate networks. Finally, we propose a self-supervised learning task to learn graph structure in pretext tasks and then towards various downstream tasks. Experimental results on link prediction tasks demonstrate that our model outperforms the baselines that consist of state-of-the-art models. The source code is available at https://github.com/NSLab-CUK/LiteralKG.
翻訳日:2023-09-10 03:26:16 公開日:2023-08-31
# マルチスケールエンタングルメント再正規化を用いた量子古典固有解法

Quantum-classical eigensolver using multiscale entanglement renormalization ( http://arxiv.org/abs/2108.13401v4 )

ライセンス: Link先を確認
Qiang Miao and Thomas Barthel(参考訳) マルチスケールエンタングルメント再正規化アンサッツ(MERA)と勾配に基づく最適化に基づく強相関量子物質のシミュレーションのための変分量子固有解法(VQE)を提案する。 このMERA量子固有解法は、対応する古典的アルゴリズムよりも計算コストがかなり低い。 狭い因果円錐のため、アルゴリズムはノイズの多い中間スケール量子(nisq)デバイスに実装でき、大きなシステムを記述することができる。 イオンシャットリング機能を持つイオントラップデバイスでは特に魅力的である。 必要量子ビットの数はシステムサイズ独立であり、勾配評価を高速化するために量子振幅推定を使用すると対数スケーリングにのみ増加する。 翻訳不変性は、計算コストをシステムサイズで2乗対数的にし、熱力学限界を記述するために用いられる。 本研究では,ロータライズディエンタングルと等方性を持つmeraに対して,数値的にそのアプローチを示す。 いくつかのトロッターステップで、meraの完全な精度を回復する。

We propose a variational quantum eigensolver (VQE) for the simulation of strongly-correlated quantum matter based on a multi-scale entanglement renormalization ansatz (MERA) and gradient-based optimization. This MERA quantum eigensolver can have substantially lower computation costs than corresponding classical algorithms. Due to its narrow causal cone, the algorithm can be implemented on noisy intermediate-scale quantum (NISQ) devices and still describe large systems. It is particularly attractive for ion-trap devices with ion-shuttling capabilities. The number of required qubits is system-size independent, and increases only to a logarithmic scaling when using quantum amplitude estimation to speed up gradient evaluations. Translation invariance can be used to make computation costs square-logarithmic in the system size and describe the thermodynamic limit. We demonstrate the approach numerically for a MERA with Trotterized disentanglers and isometries. With a few Trotter steps, one recovers the accuracy of the full MERA.
翻訳日:2023-09-04 17:51:15 公開日:2023-08-31
# 展開型音声ベース感情認識システムの性能向上のためのノイズベース強化のベストプラクティス

Best Practices for Noise-Based Augmentation to Improve the Performance of Deployable Speech-Based Emotion Recognition Systems ( http://arxiv.org/abs/2104.08806v2 )

ライセンス: Link先を確認
Mimansa Jaiswal, Emily Mower Provost(参考訳) 音声感情認識は,人間中心システムにおいて重要な要素である。 しかし、人によって生み出され、知覚される音声の特徴は、感情などの望ましい理由や、騒音のような望ましくない理由の影響を受けやすい。 堅牢な感情認識モデルをトレーニングするには、大きくて現実的なデータ分散が必要ですが、感情データセットはしばしば小さく、ノイズによって拡張されます。 ノイズ増減はしばしば、予測ラベルはノイズの有無において同じであり、自動音声認識には当てはまるが、知覚に基づくタスクには必ずしも当てはまらないという、重要な前提を定めている。 本稿では3つの新しい貢献を行う。 我々はクラウドソーシングを通じて、ノイズの存在によってアノテーションラベルが変化し、したがって本来の真実ラベルが変更されることを検証する。 次に、この知識を無視し、真理ラベルの一貫性を仮定すると、パフォーマンス評価とロバストネステストの両方において、MLモデルの下流評価にどのように伝搬するかを示す。 我々は、音声感情認識データセットにおける雑音増強のための一連の勧告で論文を締めくくった。

Speech emotion recognition is an important component of any human centered system. But speech characteristics produced and perceived by a person can be influenced by a multitude of reasons, both desirable such as emotion, and undesirable such as noise. To train robust emotion recognition models, we need a large, yet realistic data distribution, but emotion datasets are often small and hence are augmented with noise. Often noise augmentation makes one important assumption, that the prediction label should remain the same in presence or absence of noise, which is true for automatic speech recognition but not necessarily true for perception based tasks. In this paper we make three novel contributions. We validate through crowdsourcing that the presence of noise does change the annotation label and hence may alter the original ground truth label. We then show how disregarding this knowledge and assuming consistency in ground truth labels propagates to downstream evaluation of ML models, both for performance evaluation and robustness testing. We end the paper with a set of recommendations for noise augmentations in speech emotion recognition datasets.
翻訳日:2023-09-04 17:50:57 公開日:2023-08-31
# 超作用素構造と放散量子相転移のノーゴー定理

Super-operator structures and no-go theorems for dissipative quantum phase transitions ( http://arxiv.org/abs/2012.05505v3 )

ライセンス: Link先を確認
Thomas Barthel and Yikang Zhang(参考訳) 熱力学的極限において、開量子多体系の定常状態は、コヒーレントと駆動散逸力学の競合による非平衡相転移を受けることができる。 ここではマルコフ系を考察し、時間発展を生み出すリウヴィル超作用素の構造を解明する。 興味のある場合、作用素-ベイシス変換はリウビリアンをブロック三角形式にすることができるため、そのスペクトルを評価することができる。 スペクトルギャップは漸近減衰率を設定する。 超作用素構造は下からギャップをバウンドするために使用することができ、多くの系では散逸相転移は実際には不可能であり、定常状態への収束は指数的時間的崩壊に従うことを示す。 さらに、対角線上のブロックがエルミートであるとき、リウヴィリアスペクトルはワイル順序関係に従う。 結果は例えば、デイヴィス生成系や二次系に適用され、様々なスピンモデルにも示されている。

In the thermodynamic limit, the steady states of open quantum many-body systems can undergo nonequilibrium phase transitions due to a competition between coherent and driven-dissipative dynamics. Here, we consider Markovian systems and elucidate structures of the Liouville super-operator that generates the time evolution. In many cases of interest, an operator-basis transformation can bring the Liouvillian into a block-triangular form, making it possible to assess its spectrum. The spectral gap sets the asymptotic decay rate. The super-operator structure can be used to bound gaps from below, showing that, in a large class of systems, dissipative phase transitions are actually impossible and that the convergence to steady states follows an exponential temporal decay. Furthermore, when the blocks on the diagonal are Hermitian, the Liouvillian spectra obey Weyl ordering relations. The results apply, for example, to Davies generators and quadratic systems, and are also demonstrated for various spin models.
翻訳日:2023-09-04 17:49:28 公開日:2023-08-31
# 事前知識を活用したガンマ・ミニマックス推定器の対数メタラーニング

Adversarial Meta-Learning of Gamma-Minimax Estimators That Leverage Prior Knowledge ( http://arxiv.org/abs/2012.05465v6 )

ライセンス: Link先を確認
Hongxiang Qiu, Alex Luedtke(参考訳) ベイズ推定器は、単一の事前分布で表現できる事前知識を組み込む手段としてよく知られている。 しかし、この知識が単一の事前で表現するには曖昧すぎる場合、別のアプローチが必要である。 ガンマ-ミニマックス推定器はそのようなアプローチを提供する。 これらの推定者は、利用可能な知識と互換性のある事前分布のセットの$\gamma$に対する最悪のベイズリスクを最小限に抑える。 伝統的に、ガンマ極大はパラメトリックモデルに対して定義される。 本研究では,一般モデルに対するガンマ・ミニマックス推定器を定義し,事前分布の集合が一般化モーメントによって制約された場合に,その計算を行う逆メタ学習アルゴリズムを提案する。 収束保証も用意されている。 また,ガンマ・ミニマックス推定器を選択可能な,リッチだが有限次元の推定器クラスを提供するニューラルネットワーククラスも導入する。 本手法は,生物多様性研究で発生するエントロピー推定と予測問題という2つの設定で説明する。

Bayes estimators are well known to provide a means to incorporate prior knowledge that can be expressed in terms of a single prior distribution. However, when this knowledge is too vague to express with a single prior, an alternative approach is needed. Gamma-minimax estimators provide such an approach. These estimators minimize the worst-case Bayes risk over a set $\Gamma$ of prior distributions that are compatible with the available knowledge. Traditionally, Gamma-minimaxity is defined for parametric models. In this work, we define Gamma-minimax estimators for general models and propose adversarial meta-learning algorithms to compute them when the set of prior distributions is constrained by generalized moments. Accompanying convergence guarantees are also provided. We also introduce a neural network class that provides a rich, but finite-dimensional, class of estimators from which a Gamma-minimax estimator can be selected. We illustrate our method in two settings, namely entropy estimation and a prediction problem that arises in biodiversity studies.
翻訳日:2023-09-04 17:49:14 公開日:2023-08-31
# クロスドメインマイズショットメタラーニングのための特徴抽出器スタック化

Feature Extractor Stacking for Cross-domain Few-shot Meta-learning ( http://arxiv.org/abs/2205.05831v3 )

ライセンス: Link先を確認
Hongyu Wang, Eibe Frank, Bernhard Pfahringer, Michael Mayo, Geoffrey Holmes(参考訳) クロスドメイン少ショットメタラーニング(CDFSML)は、複数のソースドメインから明確に異なる分布を持つインスタンススカースターゲットドメインに知識を移す必要がある学習問題に対処する。 最近発表されたCDFSML法は一般に、複数のソースドメインの知識を1つのバックボーン特徴抽出器に組み合わせた普遍モデルを構築している。 これにより効率的な推論が可能になるが、新しいソースドメインが追加されるたびにバックボーンを再計算する必要がある。 これらの手法の一部は、異種ソースドメインのバックボーンアーキテクチャと互換性がない。 本稿では,不均質な事前学習されたバックボーンをそのまま利用し,バックボーンコレクションを更新時に再計算する必要のあるユニバーサルモデルを維持しない,バックボーンの集合情報を組み合わせた新しいcdfsml手法である機能抽出器スタック(fes)を提案する。 本稿では,メタラーニングにおける古典的積み重ねアプローチにインスパイアされた基本的FESアルゴリズムと,畳み込みFES(ConFES)と正規化FES(ReFES)の2つの変種を紹介する。 対象領域のタスクが与えられた場合、これらのアルゴリズムは各バックボーンを独立に微調整し、クロスバリデーションを使用してサポートセットからメタトレーニングデータを抽出し、このデータから単純な線形メタ分類器を学習する。 我々は,畳み込みニューラルネットワークを用いた画像分類を目標としたメタデータセットベンチマークにおいて,fes法を評価した結果,最新性能が得られた。

Cross-domain few-shot meta-learning (CDFSML) addresses learning problems where knowledge needs to be transferred from several source domains into an instance-scarce target domain with an explicitly different distribution. Recently published CDFSML methods generally construct a universal model that combines knowledge of multiple source domains into one backbone feature extractor. This enables efficient inference but necessitates re-computation of the backbone whenever a new source domain is added. Some of these methods are also incompatible with heterogeneous source domain backbone architectures. We propose feature extractor stacking (FES), a new CDFSML method for combining information from a collection of backbones, which can utilise heterogeneous pretrained backbones out of the box, and does not maintain a universal model that needs to be re-computed when its backbone collection is updated. We present the basic FES algorithm, which is inspired by the classic stacking approach to meta-learning, and also introduce two variants: convolutional FES (ConFES) and regularised FES (ReFES). Given a target-domain task, these algorithms fine-tune each backbone independently, use cross-validation to extract meta training data from the support set, and learn a simple linear meta-classifier from this data. We evaluate our FES methods on the well-known Meta-Dataset benchmark, targeting image classification with convolutional neural networks, and show that they can achieve state-of-the-art performance.
翻訳日:2023-09-04 17:40:42 公開日:2023-08-31
# 条件付きGANによるマルチラベル臨床時系列生成

Multi-Label Clinical Time-Series Generation via Conditional GAN ( http://arxiv.org/abs/2204.04797v2 )

ライセンス: Link先を確認
Chang Lu, Chandan K. Reddy, Ping Wang, Dong Nie, Yue Ning(参考訳) 近年,表現学習や臨床事象予測といった電子健康記録(ehrs)に関する幅広い応用において,ディープラーニングが成功している。 しかし、プライバシーの制約により、EHRへのアクセス制限はディープラーニング研究のボトルネックとなっている。 これらの懸念を軽減するため、GAN(Generative Adversarial Network)はEHRデータの生成に成功している。 しかしながら、時系列のEHRデータの生成や不均衡な疾患など、高品質なEHR生成には依然として課題がある。 本研究では, MTGAN (Multi-label Time-Series GAN) を用いて, EHR の生成と非一般的な疾患発生の質の向上を図る。 MTGANのジェネレータは、スムーズな条件行列を持つゲートリカレントユニット(GRU)を使用して、配列と異常な疾患を生成する。 批評家はワッサースタイン距離を用いてスコアを与え、データと時間的特徴の両方を考慮して合成サンプルから実際のサンプルを認識する。 また,実データに対する時間的特徴を算出し,gan学習を安定させるトレーニング戦略を提案する。 さらに,複数の統計指標と予測タスクを設計し,生成されたデータを評価する。 実験結果から, MTGANの生合成データの品質と, 現実的なシーケンシャルEHRデータ生成効果, 特に非一般的な疾患に対する有効性が確認された。

In recent years, deep learning has been successfully adopted in a wide range of applications related to electronic health records (EHRs) such as representation learning and clinical event prediction. However, due to privacy constraints, limited access to EHR becomes a bottleneck for deep learning research. To mitigate these concerns, generative adversarial networks (GANs) have been successfully used for generating EHR data. However, there are still challenges in high-quality EHR generation, including generating time-series EHR data and imbalanced uncommon diseases. In this work, we propose a Multi-label Time-series GAN (MTGAN) to generate EHR and simultaneously improve the quality of uncommon disease generation. The generator of MTGAN uses a gated recurrent unit (GRU) with a smooth conditional matrix to generate sequences and uncommon diseases. The critic gives scores using Wasserstein distance to recognize real samples from synthetic samples by considering both data and temporal features. We also propose a training strategy to calculate temporal features for real data and stabilize GAN training. Furthermore, we design multiple statistical metrics and prediction tasks to evaluate the generated data. Experimental results demonstrate the quality of the synthetic data and the effectiveness of MTGAN in generating realistic sequential EHR data, especially for uncommon diseases.
翻訳日:2023-09-04 17:39:37 公開日:2023-08-31
# 富がより豊かになる - 半監督学習の影響の相違

The Rich Get Richer: Disparate Impact of Semi-Supervised Learning ( http://arxiv.org/abs/2110.06282v4 )

ライセンス: Link先を確認
Zhaowei Zhu, Tianyi Luo, Yang Liu(参考訳) 半教師付き学習(SSL)は、高品質な教師付きデータが著しく制限された場合に、様々な学習タスクのモデル精度を向上させる可能性を実証している。 データ全体の平均精度が向上することがしばしば確認されているが、SSLがどのように異なるサブ人口と一致しているかは不明である。 以上の疑問を理解することは、我々が公平に扱おうとする人口集団によって異なるサブ集団が定義される場合に、かなりの公平性をもたらす。 本稿では,SSLの展開による異なる影響を明らかにする。SSLを使わずに高いベースライン精度を持つサブポピュレーション(リッチなサブポピュレーション)は,SSLの恩恵を受ける傾向があるが,低ベースライン精度に悩むサブポピュレーション("貧弱な"サブポピュレーション)は,SSLモジュールの追加後にパフォーマンス低下を観測することもある。 論理的かつ実証的に、補助的な"擬似ラベル"を明示的にあるいは暗黙的に使用するSSLアルゴリズムの幅広いファミリに対して、上記の観測を確立する。 画像とテキストの分類タスクの実験は、我々の主張を裏付ける。 我々は,新たな指標であるベネフィット比を導入し,SSLの公平性(等化ベネフィット比)の評価を促進する。 さらに、異なる影響を緩和する方法についても論じる。 われわれの論文は、SSLの使用の潜在的な落とし穴を警告し、将来のSSLアルゴリズムの多面的評価を促進することを願っている。

Semi-supervised learning (SSL) has demonstrated its potential to improve the model accuracy for a variety of learning tasks when the high-quality supervised data is severely limited. Although it is often established that the average accuracy for the entire population of data is improved, it is unclear how SSL fares with different sub-populations. Understanding the above question has substantial fairness implications when different sub-populations are defined by the demographic groups that we aim to treat fairly. In this paper, we reveal the disparate impacts of deploying SSL: the sub-population who has a higher baseline accuracy without using SSL (the "rich" one) tends to benefit more from SSL; while the sub-population who suffers from a low baseline accuracy (the "poor" one) might even observe a performance drop after adding the SSL module. We theoretically and empirically establish the above observation for a broad family of SSL algorithms, which either explicitly or implicitly use an auxiliary "pseudo-label". Experiments on a set of image and text classification tasks confirm our claims. We introduce a new metric, Benefit Ratio, and promote the evaluation of the fairness of SSL (Equalized Benefit Ratio). We further discuss how the disparate impact can be mitigated. We hope our paper will alarm the potential pitfall of using SSL and encourage a multifaceted evaluation of future SSL algorithms.
翻訳日:2023-09-04 17:38:53 公開日:2023-08-31
# 比例多重校正による公正入場リスク予測

Fair admission risk prediction with proportional multicalibration ( http://arxiv.org/abs/2209.14613v3 )

ライセンス: Link先を確認
William La Cava, Elle Lett, Guangya Wan(参考訳) フェアキャリブレーションは、リスク予測の文脈において広く望ましいフェアネス基準である。 公平なキャリブレーションを計測し達成する方法の1つは、多重校正である。 マルチキャリブレーションは、全体のキャリブレーションを維持しながら、柔軟に定義されたサブポピュレーション間のキャリブレーション誤差を制限する。 しかし、マルチキャリブテッドモデルでは、ベースレートの低いグループ間で、ベースレートの高いグループよりも高いキャリブレーション誤差を示すことができる。 その結果、意思決定者は特定のグループに対するモデル予測を信頼または不信化することを学ぶことができる。 これを緩和するために,グループ間および予測ビン内におけるキャリブレーション誤差を制約する基準である \emph{proportional multicalibration} を提案する。 比例多重化を満足することは、モデルが十分性にどの程度近づいたかを直接測定する公平性基準である、モデルの多重化と、その \emph{differential calibration} を境界とすることが証明される。 したがって、比例校正されたモデルは、異なる患者グループにおけるモデルパフォーマンスを区別する意思決定者の能力を制限しているため、実際のモデルの信頼性が向上する可能性がある。 比例多重校正のためのリスク予測モデルの後処理アルゴリズムを提案し,それを実証的に評価する。 PMC後処理のシミュレーション研究と,救急外来入院の予測への応用について検討する。 比例多重化は, 分類性能の面では, ほとんど費用がかからない交叉群上でのモデルのキャリブレーションフェアネスの同時測定を制御するための有望な基準であると考えられる。

Fair calibration is a widely desirable fairness criteria in risk prediction contexts. One way to measure and achieve fair calibration is with multicalibration. Multicalibration constrains calibration error among flexibly-defined subpopulations while maintaining overall calibration. However, multicalibrated models can exhibit a higher percent calibration error among groups with lower base rates than groups with higher base rates. As a result, it is possible for a decision-maker to learn to trust or distrust model predictions for specific groups. To alleviate this, we propose \emph{proportional multicalibration}, a criteria that constrains the percent calibration error among groups and within prediction bins. We prove that satisfying proportional multicalibration bounds a model's multicalibration as well its \emph{differential calibration}, a fairness criteria that directly measures how closely a model approximates sufficiency. Therefore, proportionally calibrated models limit the ability of decision makers to distinguish between model performance on different patient groups, which may make the models more trustworthy in practice. We provide an efficient algorithm for post-processing risk prediction models for proportional multicalibration and evaluate it empirically. We conduct simulation studies and investigate a real-world application of PMC-postprocessing to prediction of emergency department patient admissions. We observe that proportional multicalibration is a promising criteria for controlling simultaneous measures of calibration fairness of a model over intersectional groups with virtually no cost in terms of classification performance.
翻訳日:2023-09-04 17:29:11 公開日:2023-08-31
# Fermi-Hubbardシミュレータにおけるフラストレーションとドーピング誘起磁気

Frustration- and doping-induced magnetism in a Fermi-Hubbard simulator ( http://arxiv.org/abs/2212.13983v2 )

ライセンス: Link先を確認
Muqing Xu, Lev Haldar Kendrick, Anant Kale, Youqi Gang, Geoffrey Ji, Richard T. Scalettar, Martin Lebrat and Markus Greiner(参考訳) 強相関系における幾何学的フラストレーションは、多くの新しい秩序状態や量子スピン液体のような興味深い磁気相を引き起こす。 このような相の有望な候補物質は、強相関と磁気フラストレーションの間の相互作用を捉えるパラダイムモデルである異方性三角形格子上のハバードモデルによって説明することができる。 しかし、正方形ハバード模型のドープ相との関係と同様に、単調なドーパントの存在下でのフラストレーションした磁性の運命は未だ不明である。 ここでは, 極低温フェルミオンを用いたハバードモデルの局所スピンオーダーを, 正方形から三角形の形状に連続的に調整可能な異方性光学格子中の超低温フェルミオンを用いて検討する。 半充填で強い相互作用である$U/t \sim 9$では、フラストレーションが磁気相関の範囲を減らし、コリニアN'eel反強磁性体から短距離相関120$^{\circ}$スパイラル相へ遷移する様子を単一サイトレベルで観察する。 半充填の他に、三角制限はホールドープ側の反強磁性相関の強化と20%以上の粒子ドーピングにおける強磁性相関の反転を示し、フラストレーション系における運動磁性の役割を示唆している。 この研究は、三角格子におけるカイラル秩序あるいは超伝導相の探索への道を開き、銅酸化物の超伝導を記述するのに不可欠な t-t' 四角格子ハバードモデルを実現する。

Geometrical frustration in strongly correlated systems can give rise to a plethora of novel ordered states and intriguing magnetic phases, such as quantum spin liquids. Promising candidate materials for such phases can be described by the Hubbard model on an anisotropic triangular lattice, a paradigmatic model capturing the interplay between strong correlations and magnetic frustration. However, the fate of frustrated magnetism in the presence of itinerant dopants remains unclear, as well as its connection to the doped phases of the square Hubbard model. Here we investigate the local spin order of a Hubbard model with controllable frustration and doping, using ultracold fermions in anisotropic optical lattices continuously tunable from a square to a triangular geometry. At half-filling and strong interactions $U/t \sim 9$, we observe at the single-site level how frustration reduces the range of magnetic correlations and drives a transition from a collinear N\'eel antiferromagnet to a short-range correlated 120$^{\circ}$ spiral phase. Away from half-filling, the triangular limit shows enhanced antiferromagnetic correlations on the hole-doped side and a reversal to ferromagnetic correlations at particle dopings above 20%, hinting at the role of kinetic magnetism in frustrated systems. This work paves the way towards exploring possible chiral ordered or superconducting phases in triangular lattices and realizing t-t' square lattice Hubbard models that may be essential to describe superconductivity in cuprate materials.
翻訳日:2023-09-04 17:21:52 公開日:2023-08-31
# 確率的制御誤差下における量子状態生成の制御限界

Control limit for the quantum state preparation under stochastic control errors ( http://arxiv.org/abs/2211.14862v2 )

ライセンス: Link先を確認
Kohei Kobayashi(参考訳) 閉量子系を制御するハミルトニアンに対する確率的制御誤差の影響について検討する。 量子情報技術は、情報資源として使用される望ましい状態を作成するために慎重に制御する必要がある。 しかし、確率的制御誤差が必然的に現実的な状況に現れるため、制御ハミルトニアンを完全に実装することは困難である。 この誤差の下では、量子制御の実際の性能は理想的なものから遠く離れており、制御誤差の効果を評価することが非常に重要である。 本稿では,2つの閉じた量子系間の密度の低い境界を,動的に誤差を伴わずに導出する。 この境界は、確率的雑音下で制御された量子システムの到達可能かつ到達不能な集合を明らかにする。 また、確率過程を考慮せずに容易に計算でき、状態の完全なダイナミクスを必要とする。 このバウンドの実際のパフォーマンスを,簡単なコントロール例を通じて実証する。 さらに,この結果に基づいて,制御誤差が存在する場合に目標状態を取得する確率を定量的に評価する。

We investigate the effect of stochastic control errors on the Hamiltonian that controls a closed quantum system. Quantum information technologies require careful control for preparing a desired state used as an information resource. However, because the stochastic control errors inevitably appear in realistic situation, it is difficult to completely implement the control Hamiltonian. Under this error, the actual performance of quantum control is far away from the ideal one, and thus it is of great importance to evaluate the effect of the control errors. In this paper, we derive a lower bound of the fidelity between two closed quantum systems obeying the dynamics with and without errors. This bound reveals a reachable and unreachable set of the controlled quantum system under stochastic noises. Also, it is easily computable without considering the stochastic process and needing the full dynamics of the states. We demonstrate the actual performance of this bound via a simple control example. Furthermore, based on this result, we quantitatively evaluate the probability of obtaining the target state in the presence of control errors.
翻訳日:2023-09-04 17:20:27 公開日:2023-08-31
# VDM++:高次合成のための変分拡散モデル

VDM++: Variational Diffusion Models for High-Quality Synthesis ( http://arxiv.org/abs/2303.00848v6 )

ライセンス: Link先を確認
Diederik P. Kingma and Ruiqi Gao(参考訳) 最も高い知覚品質を達成するために、最先端拡散モデルは、通常最大可能性とエビデンス下界(ELBO)の目的とは大きく異なる目的によって最適化される。 本研究では,拡散モデルの目的がELBOと密接に関連していることを明らかにする。 具体的には,様々な騒音レベルにおけるelboの重み付き積分に共通に使用される拡散モデルがすべて等価であることを示し,その重み付けが使用する特定の目的に依存することを示した。 単調な重み付けの条件下では、接続はさらに近くなり、拡散の目的はELBOと等しくなり、単純なデータ拡張、すなわちガウス雑音摂動と結合する。 この条件は、多くの最先端拡散モデルに当てはまることを示す。 実験では、新しい単調重み付けを探索し、その効果を実証し、高分解能imagenetベンチマークで最先端のfidスコアを得る。

To achieve the highest perceptual quality, state-of-the-art diffusion models are optimized with objectives that typically look very different from the maximum likelihood and the Evidence Lower Bound (ELBO) objectives. In this work, we reveal that diffusion model objectives are actually closely related to the ELBO. Specifically, we show that all commonly used diffusion model objectives equate to a weighted integral of ELBOs over different noise levels, where the weighting depends on the specific objective used. Under the condition of monotonic weighting, the connection is even closer: the diffusion objective then equals the ELBO, combined with simple data augmentation, namely Gaussian noise perturbation. We show that this condition holds for a number of state-of-the-art diffusion models. In experiments, we explore new monotonic weightings and demonstrate their effectiveness, achieving state-of-the-art FID scores on the high-resolution ImageNet benchmark.
翻訳日:2023-09-04 17:12:08 公開日:2023-08-31
# ニューラルネットワークにおけるsgd学習--跳躍複雑性とサドル・トゥ・サドルダイナミクス

SGD learning on neural networks: leap complexity and saddle-to-saddle dynamics ( http://arxiv.org/abs/2302.11055v2 )

ライセンス: Link先を確認
Emmanuel Abbe, Enric Boix-Adsera, Theodor Misiakiewicz(参考訳) 等方性データを用いた完全連結ニューラルネットワークにおけるSGD学習の時間的複雑さについて検討する。 目標関数がいかに"階層的"であるかを測定する、複雑性尺度 -- the leap -- を提案しました。 d$-dimensional uniform boolean あるいは isotropic gaussian data に対し、我々の主予想では、低次元サポートを持つ関数を学習する時間複雑性は $\tilde\theta (d^{\max(\mathrm{leap}(f),2)} である。 ガウス等方性データと2層ニューラルネットワーク上の関数のクラスに対するこの予想を、SGDの動作に関する追加の技術的仮定の下で証明する。 トレーニングでは,サドル・トゥ・サドル・ダイナミックで関数サポートを逐次学習する。 以上の結果から,[Abbe et al. 2022] は跳躍 1 (メルジ階段関数) を超越し,また,ここで得られる複雑性の完全な制御を禁止した平均場および勾配流近似を超越した。 最後に、これは相関統計クエリ(CSQ)の下位バウンドと一致する完全なトレーニングトラジェクトリに対して、SGDの複雑さをもたらすことに留意する。

We investigate the time complexity of SGD learning on fully-connected neural networks with isotropic data. We put forward a complexity measure -- the leap -- which measures how "hierarchical" target functions are. For $d$-dimensional uniform Boolean or isotropic Gaussian data, our main conjecture states that the time complexity to learn a function $f$ with low-dimensional support is $\tilde\Theta (d^{\max(\mathrm{Leap}(f),2)})$. We prove a version of this conjecture for a class of functions on Gaussian isotropic data and 2-layer neural networks, under additional technical assumptions on how SGD is run. We show that the training sequentially learns the function support with a saddle-to-saddle dynamic. Our result departs from [Abbe et al. 2022] by going beyond leap 1 (merged-staircase functions), and by going beyond the mean-field and gradient flow approximations that prohibit the full complexity control obtained here. Finally, we note that this gives an SGD complexity for the full training trajectory that matches that of Correlational Statistical Query (CSQ) lower-bounds.
翻訳日:2023-09-04 17:11:50 公開日:2023-08-31
# 連続予習による地理空間基礎モデルの構築

Towards Geospatial Foundation Models via Continual Pretraining ( http://arxiv.org/abs/2302.04476v3 )

ライセンス: Link先を確認
Matias Mendieta, Boran Han, Xingjian Shi, Yi Zhu, Chen Chen(参考訳) 地球空間技術は、農業、都市計画、災害対応など幅広い用途において、我々の世界でますます不可欠になりつつある。 これらの地理空間的タスクにおけるディープラーニングモデルの適用性とパフォーマンスを改善するため、様々な研究がこの分野の基礎モデルの調査を開始した。 研究者は、地理空間アプリケーションにそのようなモデルを導入するための2つの顕著なアプローチを探求してきたが、どちらもパフォーマンス上の利点や禁止的なトレーニングコストの点で欠点がある。 そこで本研究では,資源コストと炭素影響を最小限に抑え,高効率な地理空間基盤モデルを構築するための新しいパラダイムを提案する。 まず、複数のソースからコンパクトだが多様なデータセットを構築し、GeoPileと呼ぶ特徴多様性を促進する。 次に,大規模なImageNet-22kモデルからの継続事前学習の可能性について検討し,画像Netの強力な表現を活用しながら,価値あるドメイン内特徴を学習する自由を提供する多目的連続事前学習パラダイムを提案する。 提案手法は,変更検出,分類,マルチラベル分類,意味セグメンテーション,スーパーレゾリューションといったさまざまなタスクをカバーする7つの下流データセットの広範な評価において,先行手法よりも優れている。

Geospatial technologies are becoming increasingly essential in our world for a wide range of applications, including agriculture, urban planning, and disaster response. To help improve the applicability and performance of deep learning models on these geospatial tasks, various works have begun investigating foundation models for this domain. Researchers have explored two prominent approaches for introducing such models in geospatial applications, but both have drawbacks in terms of limited performance benefit or prohibitive training cost. Therefore, in this work, we propose a novel paradigm for building highly effective geospatial foundation models with minimal resource cost and carbon impact. We first construct a compact yet diverse dataset from multiple sources to promote feature diversity, which we term GeoPile. Then, we investigate the potential of continual pretraining from large-scale ImageNet-22k models and propose a multi-objective continual pretraining paradigm, which leverages the strong representations of ImageNet while simultaneously providing the freedom to learn valuable in-domain features. Our approach outperforms previous state-of-the-art geospatial pretraining methods in an extensive evaluation on seven downstream datasets covering various tasks such as change detection, classification, multi-label classification, semantic segmentation, and super-resolution.
翻訳日:2023-09-04 17:10:13 公開日:2023-08-31
# Model Stitching: 表現間の機能的類似性を探る

Model Stitching: Looking For Functional Similarity Between Representations ( http://arxiv.org/abs/2303.11277v2 )

ライセンス: Link先を確認
Adriano Hernandez, Rumen Dangovski, Peter Y. Lu, Marin Soljacic(参考訳) モデル縫合(Lenc & Vedaldi 2015)は、異なるニューラルネットワーク表現を比較するための魅力的な方法論である。 bansal、nakkiran、barakは、同じアーキテクチャの異なるシードおよび/またはトレーニングされたニューラルネットワークによって学習された同じ形状の表現を比較するために、モデルステッチを用いた。 私たちの貢献により、ニューラルネットワークと異なるアーキテクチャの異なる形状のレイヤで学んだ表現を比較することができます。 モデル縫合の予期せぬ挙動を明らかにする。 すなわち、小さな再ネットに対する畳み込みに基づく縫い目は、その層が離れた状態であっても、第1(シンダー)ネットワークにおいて第2(レシーバ)ネットワークよりも遅くなると高い精度に到達できることがわかった。

Model stitching (Lenc & Vedaldi 2015) is a compelling methodology to compare different neural network representations, because it allows us to measure to what degree they may be interchanged. We expand on a previous work from Bansal, Nakkiran & Barak which used model stitching to compare representations of the same shapes learned by differently seeded and/or trained neural networks of the same architecture. Our contribution enables us to compare the representations learned by layers with different shapes from neural networks with different architectures. We subsequently reveal unexpected behavior of model stitching. Namely, we find that stitching, based on convolutions, for small ResNets, can reach high accuracy if those layers come later in the first (sender) network than in the second (receiver), even if those layers are far apart.
翻訳日:2023-09-04 17:01:20 公開日:2023-08-31
# De-semanticization と Skeleton Retrieval を用いたテキストからSQLへの GPT-3.5 のプロンプト

Prompting GPT-3.5 for Text-to-SQL with De-semanticization and Skeleton Retrieval ( http://arxiv.org/abs/2304.13301v2 )

ライセンス: Link先を確認
Chunxi Guo, Zhiliang Tian, Jintao Tang, Pancheng Wang, Zhihua Wen, Kang Yang and Ting Wang(参考訳) text-to-sqlは、自然言語質問を構造化クエリ言語(sql)に変換し、データベースから情報を取得するタスクである。 大規模言語モデル(LLM)は自然言語生成タスクではうまく機能するが、SQLコマンドの構文や意味を理解するための事前訓練はされていない。 本稿では,テキストからsqlへの変換を行うためのllmベースのフレームワークを提案する。 しかし、データベーススキーマが異なる質問は、背後にある意図が似ていて、対応するSQLクエリが類似しているとしても、大きく異なる可能性がある。 その結果、要件に合致する適切なsqlデモを特定することが重要になります。 疑問骨格を抽出する非意味化機構を設計し,その構造的類似性に基づいて類似例を検索する。 また,質問トークンとデータベーススキーマ項目(テーブルや列など)の関係をモデル化し,スキーム関連の情報をフィルタする。 我々のフレームワークはデータベーススキーマの範囲に適応し、長さと貴重な情報のバランスを取る。 フォールバックメカニズムにより、生成されたSQLクエリーが失敗した場合、より詳細なスキーマを提供することができる。 我々のモデルは最先端モデルより優れており、3つのクロスドメインのText-to-SQLベンチマークで強力な一般化能力を示している。

Text-to-SQL is a task that converts a natural language question into a structured query language (SQL) to retrieve information from a database. Large language models (LLMs) work well in natural language generation tasks, but they are not specifically pre-trained to understand the syntax and semantics of SQL commands. In this paper, we propose an LLM-based framework for Text-to-SQL which retrieves helpful demonstration examples to prompt LLMs. However, questions with different database schemes can vary widely, even if the intentions behind them are similar and the corresponding SQL queries exhibit similarities. Consequently, it becomes crucial to identify the appropriate SQL demonstrations that align with our requirements. We design a de-semanticization mechanism that extracts question skeletons, allowing us to retrieve similar examples based on their structural similarity. We also model the relationships between question tokens and database schema items (i.e., tables and columns) to filter out scheme-related information. Our framework adapts the range of the database schema in prompts to balance length and valuable information. A fallback mechanism allows for a more detailed schema to be provided if the generated SQL query fails. Ours outperforms state-of-the-art models and demonstrates strong generalization ability on three cross-domain Text-to-SQL benchmarks.
翻訳日:2023-09-04 16:51:23 公開日:2023-08-31
# キーポイントによるマルチモーダル登録のためのロバストかつ解釈可能なディープラーニングフレームワーク

A Robust and Interpretable Deep Learning Framework for Multi-modal Registration via Keypoints ( http://arxiv.org/abs/2304.09941v2 )

ライセンス: Link先を確認
Alan Q. Wang, Evan M. Yu, Adrian V. Dalca, Mert R. Sabuncu(参考訳) 我々は,キーポイントの自動検出に依存するディープラーニングベースの画像登録フレームワークであるkeymorphを提案する。 最新の最先端のディープラーニング手法は、しばしば大きなミスアライメントに対して堅牢ではなく、解釈不可能であり、問題の対称性を組み込んでいない。 さらに、ほとんどのモデルはテスト時に単一の予測しか生成しない。 これらの欠点に対処する中核的な洞察は、画像間の対応するキーポイントを使用して、微分可能な閉形式表現を通じて最適な変換を得ることができることである。 この観察により,登録作業に適したキーポイントをエンド・ツー・エンドで学習し,基幹鍵ポイントの知識を欠くことなく学習する。 このフレームワークは、より堅牢な登録につながるだけでなく、画像のどの部分が最終アライメントを駆動しているかがキーポイントによって明らかにされるため、解釈性も向上する。 さらに、KeyMorphは、入力画像の順序付けに関して、画像翻訳および/または対称の下で同変するように設計することができる。 最後に,複数変形場を異なる変形変種に対応する試験時間における閉形式で効率的に計算する方法を示す。 マルチモーダル脳MRIスキャンの3Dアフィンとスプラインによる登録を解くためのフレームワークを提案する。 特に,現在最先端の手法を超越した登録精度を,特に大規模変位の文脈で示す。 私たちのコードはhttps://github.com/alanqrwang/keymorph.comで利用可能です。

We present KeyMorph, a deep learning-based image registration framework that relies on automatically detecting corresponding keypoints. State-of-the-art deep learning methods for registration often are not robust to large misalignments, are not interpretable, and do not incorporate the symmetries of the problem. In addition, most models produce only a single prediction at test-time. Our core insight which addresses these shortcomings is that corresponding keypoints between images can be used to obtain the optimal transformation via a differentiable closed-form expression. We use this observation to drive the end-to-end learning of keypoints tailored for the registration task, and without knowledge of ground-truth keypoints. This framework not only leads to substantially more robust registration but also yields better interpretability, since the keypoints reveal which parts of the image are driving the final alignment. Moreover, KeyMorph can be designed to be equivariant under image translations and/or symmetric with respect to the input image ordering. Finally, we show how multiple deformation fields can be computed efficiently and in closed-form at test time corresponding to different transformation variants. We demonstrate the proposed framework in solving 3D affine and spline-based registration of multi-modal brain MRI scans. In particular, we show registration accuracy that surpasses current state-of-the-art methods, especially in the context of large displacements. Our code is available at https://github.com/alanqrwang/keymorph.
翻訳日:2023-09-04 16:51:03 公開日:2023-08-31
# 球値雑音安定性と量子マックスカット硬さ

Sphere Valued Noise Stability and Quantum MAX-CUT Hardness ( http://arxiv.org/abs/2306.03912v2 )

ライセンス: Link先を確認
Steven Heilman(参考訳) 我々は、2次元球面で値を取るユークリッド函数に対するガウス雑音安定性(すなわちベクトル値ボレル不等式)に対するベクトル値の不等式を、最大で1/10$の相関パラメータに対して証明する。 この不等式は、Hwang, Neeman, Parekh, Thompson and Wright によって予想された。 このような不等式は、Unique Games Conjectureを仮定して、製品状態の量子MAX-CUT問題のシャープな計算硬度を証明するために必要である。 実際、Unique Games Conjecture を仮定すると、Quantum MAX-CUT の積状態は NP-ハードであり、乗算係数が$.9859$ であることを示す。 対照的に多項式時間アルゴリズムは近似係数$.956\ldots$で知られている。

We prove a vector-valued inequality for the Gaussian noise stability (i.e. we prove a vector-valued Borell inequality) for Euclidean functions taking values in the two-dimensional sphere, for all correlation parameters at most $1/10$ in absolute value. This inequality was conjectured (for all correlation parameters at most $1$ in absolute value) by Hwang, Neeman, Parekh, Thompson and Wright. Such an inequality is needed to prove sharp computational hardness of the product state Quantum MAX-CUT problem, assuming the Unique Games Conjecture. In fact, assuming the Unique Games Conjecture, we show that the product state of Quantum MAX-CUT is NP-hard to approximate within a multiplicative factor of $.9859$. In contrast, a polynomial time algorithm is known with approximation factor $.956\ldots$.
翻訳日:2023-09-04 16:42:14 公開日:2023-08-31
# AspectCSE:コントラスト学習と構造化知識を用いたアスペクトベースの意味的テクスチャ類似性のための文埋め込み

AspectCSE: Sentence Embeddings for Aspect-based Semantic Textual Similarity Using Contrastive Learning and Structured Knowledge ( http://arxiv.org/abs/2307.07851v4 )

ライセンス: Link先を確認
Tim Schopf, Emanuel Gerber, Malte Ostendorff, Florian Matthes(参考訳) 総称文埋め込みは意味的テキストの類似性の粗い近似を提供するが、テキストを類似させる特定の側面を無視する。 逆にアスペクトベースの文埋め込みは、特定の事前定義されたアスペクトに基づいたテキスト間の類似性を提供する。 したがって、テキストの類似性予測は特定の要求に向けられ、より説明しやすい。 本稿では,アスペクトに基づく文埋め込みのコントラスト学習手法であるAspectCSEを提案する。 その結果,AspectCSEは,複数の側面にわたる情報検索タスクの平均3.97%の改善を実現していることがわかった。 また、ウィキデータ知識グラフ特性を用いて、類似性予測において複数の特定の側面が同時に考慮されるマルチアスペクト文埋め込みのモデルを訓練する。 マルチアスペクト埋め込みはアスペクト固有の情報検索タスクにおける単一アスペクト埋め込みよりも優れていることを示す。 最後に、アスペクトに基づく文埋め込み空間を調べ、異なるアスペクトラベル間の明示的な類似性トレーニングなしにも、意味的に類似したアスペクトラベルの埋め込みがしばしば近いことを実証する。

Generic sentence embeddings provide a coarse-grained approximation of semantic textual similarity but ignore specific aspects that make texts similar. Conversely, aspect-based sentence embeddings provide similarities between texts based on certain predefined aspects. Thus, similarity predictions of texts are more targeted to specific requirements and more easily explainable. In this paper, we present AspectCSE, an approach for aspect-based contrastive learning of sentence embeddings. Results indicate that AspectCSE achieves an average improvement of 3.97% on information retrieval tasks across multiple aspects compared to the previous best results. We also propose using Wikidata knowledge graph properties to train models of multi-aspect sentence embeddings in which multiple specific aspects are simultaneously considered during similarity predictions. We demonstrate that multi-aspect embeddings outperform single-aspect embeddings on aspect-specific information retrieval tasks. Finally, we examine the aspect-based sentence embedding space and demonstrate that embeddings of semantically similar aspect labels are often close, even without explicit similarity training between different aspect labels.
翻訳日:2023-09-04 16:32:19 公開日:2023-08-31
# rs5m: リモートセンシング視覚言語基礎モデルのための大規模視覚言語データセット

RS5M: A Large Scale Vision-Language Dataset for Remote Sensing Vision-Language Foundation Model ( http://arxiv.org/abs/2306.11300v2 )

ライセンス: Link先を確認
Zilun Zhang, Tiancheng Zhao, Yulong Guo, Jianwei Yin(参考訳) 画像テキストペアリングデータを利用した事前学習型ビジョン・ランゲージ基礎モデルでは、様々な下流タスクにおいて顕著な結果が得られた。 重要な課題は、共通オブジェクト上でトレーニングされた既存の大規模事前学習vlmを使用して、ドメイン関連のダウンストリームタスクを達成するためにドメイン固有の転送を実行する方法だ。 本稿では,ドメインファウンデーションモデル(dfm)を含む新しいフレームワークを提案し,汎用ファウンデーションモデル(gfm)とドメイン固有のダウンストリームタスクのギャップを橋渡しする。 さらに,500万のrs画像と英語記述を持つ,リモートセンシング(rs)分野のrs5mにおいて,画像テキスト対のデータセットを提案する。 データセットは、公開されている画像テキストペアデータセットをフィルタリングし、ラベルのみのRSデータセットを予めトレーニングされたVLMでキャプションすることで得られる。 これらは、最初の大規模RS画像テキストペアデータセットである。 さらに, DFM の実装のために, RS5M 上でパラメータ効率の良いファインチューニング手法をいくつか試した。 実験の結果,提案するデータセットは様々なタスクに非常に有効であり,ゼロショット分類タスクにおいて8 \% \sim 16 \%$ でベースラインを改善し,視覚言語検索と意味的局所化タスクの両方において良好な結果を得ることができた。 \url{https://github.com/om-ai-lab/RS5M}

Pre-trained Vision-Language Foundation Models utilizing extensive image-text paired data have demonstrated unprecedented image-text association capabilities, achieving remarkable results across various downstream tasks. A critical challenge is how to make use of existing large-scale pre-trained VLMs, which are trained on common objects, to perform the domain-specific transfer for accomplishing domain-related downstream tasks. In this paper, we propose a new framework that includes the Domain Foundation Model (DFM), bridging the gap between the General Foundation Model (GFM) and domain-specific downstream tasks. Moreover, we present an image-text paired dataset in the field of remote sensing (RS), RS5M, which has 5 million RS images with English descriptions. The dataset is obtained from filtering publicly available image-text paired datasets and captioning label-only RS datasets with pre-trained VLM. These constitute the first large-scale RS image-text paired dataset. Additionally, we tried several Parameter-Efficient Fine-Tuning methods on RS5M to implement the DFM. Experimental results show that our proposed dataset are highly effective for various tasks, improving upon the baseline by $8 \% \sim 16 \%$ in zero-shot classification tasks, and obtaining good results in both Vision-Language Retrieval and Semantic Localization tasks. \url{https://github.com/om-ai-lab/RS5M}
翻訳日:2023-09-04 16:29:33 公開日:2023-08-31
# LLMにおけるジェンダーバイアスの出現 : 社会学的意味の分析と対応

Unveiling Gender Bias in Terms of Profession Across LLMs: Analyzing and Addressing Sociological Implications ( http://arxiv.org/abs/2307.09162v3 )

ライセンス: Link先を確認
Vishesh Thakur(参考訳) 人工知能(AI)と自然言語処理におけるジェンダーバイアスは、社会的知覚やバイアスに潜在的に影響するため、大きな注目を集めている。 本研究の目的は,大言語モデル(llms)における性バイアスの分析と,gpt-2とgpt-3.5の複数の比較に着目し,その意味を深く理解することにある。 包括的な文献レビューを通じて、AI言語モデルにおけるジェンダーバイアスに関する既存の研究を調査し、現在の知識のギャップを特定する。 この手法は、gpt-2およびgpt-3.5からのデータ収集と前処理を伴い、生成されたテキストにおける性別バイアスを評価するために詳細な定量的分析技術を用いる。 この発見は、これらの大規模言語モデルのアウトプットに存在するジェンダー付き単語関連、言語使用、偏見付き物語に光を当てた。 この議論は、ジェンダーバイアスの倫理的影響とその社会的認知と限界化されたコミュニティへの潜在的な影響を探求する。 さらに,アルゴリズムアプローチやデータ拡張手法など,LSMにおける性別バイアスを低減する手法を提案する。 この研究は、aiモデルのジェンダーバイアス緩和における学際的コラボレーションの重要性と社会学研究の役割を強調している。 これらの問題を解決することで、社会にポジティブな影響を与える、包括的で偏見のないAIシステムを実現することができる。

Gender bias in artificial intelligence (AI) and natural language processing has garnered significant attention due to its potential impact on societal perceptions and biases. This research paper aims to analyze gender bias in Large Language Models (LLMs) with a focus on multiple comparisons between GPT-2 and GPT-3.5, some prominent language models, to better understand its implications. Through a comprehensive literature review, the study examines existing research on gender bias in AI language models and identifies gaps in the current knowledge. The methodology involves collecting and preprocessing data from GPT-2 and GPT-3.5, and employing in-depth quantitative analysis techniques to evaluate gender bias in the generated text. The findings shed light on gendered word associations, language usage, and biased narratives present in the outputs of these Large Language Models. The discussion explores the ethical implications of gender bias and its potential consequences on social perceptions and marginalized communities. Additionally, the paper presents strategies for reducing gender bias in LLMs, including algorithmic approaches and data augmentation techniques. The research highlights the importance of interdisciplinary collaborations and the role of sociological studies in mitigating gender bias in AI models. By addressing these issues, we can pave the way for more inclusive and unbiased AI systems that have a positive impact on society.
翻訳日:2023-09-04 16:20:15 公開日:2023-08-31
# 第2回Adaptive Cyber Defense国際ワークショップに参加して

Proceedings of the 2nd International Workshop on Adaptive Cyber Defense ( http://arxiv.org/abs/2308.09520v2 )

ライセンス: Link先を確認
Marco Carvalho, Damian Marriott, Mark Bilinski, Ahmad Ridley(参考訳) 第2回適応型サイバー防衛に関する国際ワークショップはフロリダ工科大学で開催された。 このワークショップは、AI(AI)と機械学習(ML)のユニークな応用を、適応型サイバー防御の追求のための基礎的な能力として探求する研究を共有するために組織された。 サイバードメインは現在、人間の専門家に大きく依存することなく、確実かつ効果的に防御することはできない。 熟練したサイバーディフェンダーは不足しており、サイバー脅威に十分早く対応できないことが多い。 AIとMLの最近の進歩に基づいて、サイバー防衛研究コミュニティは、サイバー設定へのAIとML技術の導入を通じて、新しい動的で持続可能な防衛を開発する動機付けを受けている。 aiとサイバー研究者と実践者の間の重要なギャップを橋渡しすることで、サイバー攻撃を認識、対応し、他のサイバーオペレーションシステムや人間専門家と協力して弱点を発見し、軽減できる半自律的なサイバー防御を開発する取り組みを加速することができる。 さらに、これらの防御は適応的で、時間とともに進化し、攻撃行動の変化、システムの健全性と準備性の変化、時間の経過とともにユーザー行動の自然な変化を防ぐことが期待されている。 ワークショップは、招待された基調講演、テクニカルプレゼンテーション、AI/MLが現在のサイバー攻撃と将来のサイバー攻撃の自律的緩和を可能にする方法についてのパネルディスカッションで構成された。 ワークショップの応募はドメインの専門家のパネルによってピアレビューされ、国家と世界のセキュリティにとって重要な問題に関する6つのテクニカル記事からなる。 このワークショップへの参加は、適応型および自律型サイバー防衛の新興領域における研究とイノベーションを刺激する新たな機会を提供した。

The 2nd International Workshop on Adaptive Cyber Defense was held at the Florida Institute of Technology, Florida. This workshop was organized to share research that explores unique applications of Artificial Intelligence (AI) and Machine Learning (ML) as foundational capabilities for the pursuit of adaptive cyber defense. The cyber domain cannot currently be reliably and effectively defended without extensive reliance on human experts. Skilled cyber defenders are in short supply and often cannot respond fast enough to cyber threats. Building on recent advances in AI and ML the Cyber defense research community has been motivated to develop new dynamic and sustainable defenses through the adoption of AI and ML techniques to cyber settings. Bridging critical gaps between AI and Cyber researchers and practitioners can accelerate efforts to create semi-autonomous cyber defenses that can learn to recognize and respond to cyber attacks or discover and mitigate weaknesses in cooperation with other cyber operation systems and human experts. Furthermore, these defenses are expected to be adaptive and able to evolve over time to thwart changes in attacker behavior, changes in the system health and readiness, and natural shifts in user behavior over time. The workshop was comprised of invited keynote talks, technical presentations and a panel discussion about how AI/ML can enable autonomous mitigation of current and future cyber attacks. Workshop submissions were peer reviewed by a panel of domain experts with a proceedings consisting of six technical articles exploring challenging problems of critical importance to national and global security. Participation in this workshop offered new opportunities to stimulate research and innovation in the emerging domain of adaptive and autonomous cyber defense.
翻訳日:2023-09-04 16:10:44 公開日:2023-08-31
# ゲノム規模メタボリックネットワークの人間理解能動的学習

Human Comprehensible Active Learning of Genome-Scale Metabolic Networks ( http://arxiv.org/abs/2308.12740v2 )

ライセンス: Link先を確認
Lun Ai, Shi-Shun Liang, Wang-Zhou Dai, Liam Hallett, Stephen H. Muggleton, Geoff S. Baldwin(参考訳) 合成生物学の重要な応用は、宿主細胞系の工学が有用な製品を生産することである。 しかし、ホストシステムの規模が増加すると巨大な設計スペースが発生し、試験コストの高い多数の検証試験が必要となる。 仮説空間を効率的に探索し、実験設計を導く理解可能な機械学習アプローチは、ホストセルシステムの設計-構築-テスト-学習(dbtl)サイクルに緊急に必要となる。 Inductive Logic Programming (ILP) に基づく新しい機械学習フレームワーク ILP-iML1515 を導入し、帰納的論理推論を行い、トレーニング例から積極的に学習する。 数値モデルとは対照的に、ilp-iml1515はゲノム規模の代謝モデルの理解可能な論理表現に基づいて構築されており、オーキソトロフィックな変異体から新しい論理構造を学習することでモデルを更新することができる。 ILP-iML1515フレームワーク 1)高スループットシミュレーションが可能。 2) ランダムに選択した実験と比較して, 遺伝子機能の学習コストを低減させる実験を積極的に選択する。

An important application of Synthetic Biology is the engineering of the host cell system to yield useful products. However, an increase in the scale of the host system leads to huge design space and requires a large number of validation trials with high experimental costs. A comprehensible machine learning approach that efficiently explores the hypothesis space and guides experimental design is urgently needed for the Design-Build-Test-Learn (DBTL) cycle of the host cell system. We introduce a novel machine learning framework ILP-iML1515 based on Inductive Logic Programming (ILP) that performs abductive logical reasoning and actively learns from training examples. In contrast to numerical models, ILP-iML1515 is built on comprehensible logical representations of a genome-scale metabolic model and can update the model by learning new logical structures from auxotrophic mutant trials. The ILP-iML1515 framework 1) allows high-throughput simulations and 2) actively selects experiments that reduce the experimental cost of learning gene functions in comparison to randomly selected experiments.
翻訳日:2023-09-04 16:03:45 公開日:2023-08-31
# less is more --structured sparsityを用いた並列型マルチタスクモデルへのアプローチ

Less is More -- Towards parsimonious multi-task models using structured sparsity ( http://arxiv.org/abs/2308.12114v2 )

ライセンス: Link先を確認
Richa Upadhyay, Ronald Phlypo, Rajkumar Saini, Marcus Liwicki(参考訳) ディープラーニングにおけるモデルスペーシフィケーションは、パラメータが少ないよりシンプルで解釈しやすいモデルを促進する。 これはモデルのメモリフットプリントと計算要求を減らすだけでなく、推論時間を短縮する。 この作業は、パラメータの少ない複数のタスクに最適化されたスパースモデルの作成に焦点を当てている。 これらの擬似モデルは、性能の点で密度の高いモデルに一致するか、より優れる可能性がある。 本研究では,マルチタスク学習モデルの共用畳み込み層パラメータ(あるいは重み付け)にチャネルワイズl1/l2グループ間隔を導入する。 このアプローチは、チャネル(l1正則化による)を外在的に除去し、重み付けにペナルティを課し、全てのタスク(l2正則化による)の学習効率をさらに高める。 nyu-v2とcelebamask-hqの2つのマルチタスク学習(mtl)データセットにおいて,シングルタスクとマルチタスクの両方におけるグループスパーシティの結果を分析した。 どちらのデータセットもそれぞれ3つの異なるコンピュータビジョンタスクで構成されており、約70%のスパーシティを持つマルチタスクモデルは、その密接な等価性を上回る。 また,スパーシフィケーションの程度の変化がモデルの性能,全体のスパーシティー率,スパーシティーのパターン,推測時間に与える影響についても検討した。

Model sparsification in deep learning promotes simpler, more interpretable models with fewer parameters. This not only reduces the model's memory footprint and computational needs but also shortens inference time. This work focuses on creating sparse models optimized for multiple tasks with fewer parameters. These parsimonious models also possess the potential to match or outperform dense models in terms of performance. In this work, we introduce channel-wise l1/l2 group sparsity in the shared convolutional layers parameters (or weights) of the multi-task learning model. This approach facilitates the removal of extraneous groups i.e., channels (due to l1 regularization) and also imposes a penalty on the weights, further enhancing the learning efficiency for all tasks (due to l2 regularization). We analyzed the results of group sparsity in both single-task and multi-task settings on two widely-used Multi-Task Learning (MTL) datasets: NYU-v2 and CelebAMask-HQ. On both datasets, which consist of three different computer vision tasks each, multi-task models with approximately 70% sparsity outperform their dense equivalents. We also investigate how changing the degree of sparsification influences the model's performance, the overall sparsity percentage, the patterns of sparsity, and the inference time.
翻訳日:2023-09-04 16:02:58 公開日:2023-08-31
# 言語モデルの効率的なベンチマーク

Efficient Benchmarking (of Language Models) ( http://arxiv.org/abs/2308.11696v2 )

ライセンス: Link先を確認
Yotam Perlitz, Elron Bandel, Ariel Gera, Ofir Arviv, Liat Ein-Dor, Eyal Shnarch, Noam Slonim, Michal Shmueli-Scheuer, Leshem Choshen(参考訳) 言語モデルの汎用性の向上により、LMは幅広い能力を包括的に評価する新しいクラスのベンチマークを生み出した。 このようなベンチマークは、モデル当たり数千gpu時間に達する膨大な計算コストと関連している。 しかし,これらの評価作業の効率性は文献上ではほとんど議論されなかった。 本稿では,lm評価の計算コストを,信頼性を損なうことなくインテリジェントに削減する,効率的なベンチマーク問題を提案する。 helmベンチマークをテストケースとして使用することにより,ベンチマーク設計の異なる選択が計算信頼性のトレードオフに与える影響を調べる。 そこで本研究では,新しい尺度決定が信頼性ディオールに与える影響を簡潔に評価することを提案する。 例えば、HELMの現在のリーダーは、単にベンチマークから低ランクのモデルを取り除くだけで変化し、いくつかのサンプルが正しいベンチマークランキングを得るのに十分であることを示す。 逆に、ヘルムシナリオのわずかに異なる選択は、ランクが異なる。 ベンチマークの信頼性を最小限に抑えることで、より効率的なベンチマーク設計と利用プラクティスのための具体的な推奨事項を概説し、しばしばx100以上の計算を削減します。

The increasing versatility of language models LMs has given rise to a new class of benchmarks that comprehensively assess a broad range of capabilities. Such benchmarks are associated with massive computational costs reaching thousands of GPU hours per model. However the efficiency aspect of these evaluation efforts had raised little discussion in the literature. In this work we present the problem of Efficient Benchmarking namely intelligently reducing the computation costs of LM evaluation without compromising reliability. Using the HELM benchmark as a test case we investigate how different benchmark design choices affect the computation-reliability tradeoff. We propose to evaluate the reliability of such decisions by using a new measure Decision Impact on Reliability DIoR for short. We find for example that the current leader on HELM may change by merely removing a low-ranked model from the benchmark and observe that a handful of examples suffice to obtain the correct benchmark ranking. Conversely a slightly different choice of HELM scenarios varies ranking widely. Based on our findings we outline a set of concrete recommendations for more efficient benchmark design and utilization practices leading to dramatic cost savings with minimal loss of benchmark reliability often reducing computation by x100 or more.
翻訳日:2023-09-04 16:02:35 公開日:2023-08-31
# エッジ上での自己適応型AIアプリケーション設計のためのエネルギー認識アプローチ

An Energy-Aware Approach to Design Self-Adaptive AI-based Applications on the Edge ( http://arxiv.org/abs/2309.00022v1 )

ライセンス: Link先を確認
Alessandro Tundo, Marco Mobilio, Shashikant Ilager, Ivona Brandi\'c, Ezio Bartocci, Leonardo Mariani(参考訳) 機械学習のタスクに特化したエッジデバイスが出現したことで、iot(internet of things)を対象とするリソース制約されたデバイスが取得したデータを効率的に処理し、分類するaiベースのアプリケーションの実行が可能になった。 このようなアプリケーション(例えばスマートシティにおけるクリティカルなモニタリング)の普及は、これらのシステムをエネルギスティックな観点から持続させる新しい戦略を要求する。 本稿では,物体検出の精度やフレーム処理率などのアプリケーション目標とエネルギー消費のバランスをとることができる,自己適応型AIベースのアプリケーションの設計と展開のためのエネルギー認識手法を提案する。 本稿では,少数の経験的サンプルのみを必要とするメタヒューリスティック探索法を用いて,システムの自己適応に使用できる構成セットを決定する問題に対処する。 最終構成は重み付き灰色の関係解析を用いて選択され、自己適応型アプリケーションの動作モードにマッピングされる。 我々は、歩行者検出のためのAIベースのアプリケーションに対するアプローチを検証する。 その結果, 自己適応型アプリケーションは最大81\%の省エネにより非適応型ベースライン構成を上回ることができ, 精度は2%から6%に留まった。

The advent of edge devices dedicated to machine learning tasks enabled the execution of AI-based applications that efficiently process and classify the data acquired by the resource-constrained devices populating the Internet of Things. The proliferation of such applications (e.g., critical monitoring in smart cities) demands new strategies to make these systems also sustainable from an energetic point of view. In this paper, we present an energy-aware approach for the design and deployment of self-adaptive AI-based applications that can balance application objectives (e.g., accuracy in object detection and frames processing rate) with energy consumption. We address the problem of determining the set of configurations that can be used to self-adapt the system with a meta-heuristic search procedure that only needs a small number of empirical samples. The final set of configurations are selected using weighted gray relational analysis, and mapped to the operation modes of the self-adaptive application. We validate our approach on an AI-based application for pedestrian detection. Results show that our self-adaptive application can outperform non-adaptive baseline configurations by saving up to 81\% of energy while loosing only between 2% and 6% in accuracy.
翻訳日:2023-09-04 15:51:25 公開日:2023-08-31
# tsirelsonの不等式: 浮気と量子性の検出

Tsirelson Inequalities: Detecting Cheating and Quantumness in One Fell Swoop ( http://arxiv.org/abs/2309.00021v1 )

ライセンス: Link先を確認
Martin Pl\'avala, Teiko Heinosaari, Stefan Nimmrichter, Otfried G\"uhne(参考訳) 量子性 (quantumness) とは、量子系によって示される特異で直観的な性質を指す。 ティレルソンの不等式は、調和振動子の量子性や絡み合いを検出する量子理論において強力な道具として現れており、スピンは均一な先行状態にある。 本稿では,古典的なシェルゲームにおける不正検出と,調和振動子における量子性の探索という,Tsirelsonの不等式の有用性を活用する。 ブラックボックスアプローチと条件付き確率空間の幾何的特徴を用いることで、Tsirelsonの不等式が両方のシナリオで利用でき、量子シグネチャを発見でき、単一の統一フレームワークで不正を識別できることを示した。 この接続は、機械システムの量子性に関する直感的な新しい視点を与える。

Quantumness refers to the peculiar and counterintuitive characteristics exhibited by quantum systems. Tsirelson inequalities have emerged as a powerful tool in quantum theory to detect quantumness and entanglement of harmonic oscillators, spins undergoing uniform precession, and anharmonic systems. In this paper, we harness the versatility of Tsirelson inequalities to address two distinct problems: detecting cheating in classic shell games and probing quantumness in harmonic oscillators. By adopting a black-box approach and a geometric characterization of the space of conditional probabilities, we demonstrate that Tsirelson inequalities can be used in both scenarios, enabling us to uncover quantum signatures and identify cheaters in a single unified framework. This connection provides an intuitive new perspective on quantumness of mechanical systems.
翻訳日:2023-09-04 15:51:06 公開日:2023-08-31
# 相対性理論の量子原理」へのコメントに答えて

Reply to the comment on "Quantum principle of relativity" ( http://arxiv.org/abs/2309.00020v1 )

ライセンス: Link先を確認
Andrzej Dragan, Artur Ekert(参考訳) 我々は、特殊相対性理論の超光的拡張と量子理論の基本的な側面との関連性について、ホロデキが提起した批判的発言について論じる。

We discuss critical remarks raised by Horodecki towards our work on the connection between superluminal extension of special relativity and fundamental aspects of quantum theory.
翻訳日:2023-09-04 15:50:51 公開日:2023-08-31
# 解釈可能な視覚概念の教師なし発見

Unsupervised discovery of Interpretable Visual Concepts ( http://arxiv.org/abs/2309.00018v1 )

ライセンス: Link先を確認
Caroline Mazini Rodrigues (LIGM, LRDE), Nicolas Boutry (LRDE), Laurent Najman (LIGM)(参考訳) 深層学習モデルの非専門家への解釈可能性を提供することは、実世界の責任ある使用の基礎であるが、困難である。 統合グラディエント(Integrated Gradients)のようなxAI技術からの属性マップは、高いレベルの情報を含む可視化技術の典型的な例であるが、解釈が難しい。 本稿では,MAGE(Maximum Activation Groups extract)とMs-IV(Multiscale Interpretable Visualization)という2つの手法を提案する。 MAGEは、あるCNNに対して、私たちが概念と呼ぶ意味論的意味を形成する機能の組み合わせを見つけます。 同様の特徴パターンを ` `concepts'' でクラスタリングしてグループ化し、Ms-IV を通して視覚化します。 この最後の方法は、Occlusion and Sensitivity Analysis(因果性を含む)にインスパイアされ、モデルの決定空間に基づいて最も重要な画像領域をグローバルに評価するために、Class-Aware Order correlation (CaOC)と呼ばれる新しいメトリクスを使用する。 LIMEやIntegrated GradientsといったxAI手法との比較を行った。 実験結果はms-ivの高い局在性と忠実性を示す。 最後に、mageとms-ivの組み合わせによる質的評価は、クラスタの概念の決定に基づいて、可視化に基づいて人間の同意する能力を示し、与えられたネットワークセットの中でバイアスの存在を検出する。

Providing interpretability of deep-learning models to non-experts, while fundamental for a responsible real-world usage, is challenging. Attribution maps from xAI techniques, such as Integrated Gradients, are a typical example of a visualization technique containing a high level of information, but with difficult interpretation. In this paper, we propose two methods, Maximum Activation Groups Extraction (MAGE) and Multiscale Interpretable Visualization (Ms-IV), to explain the model's decision, enhancing global interpretability. MAGE finds, for a given CNN, combinations of features which, globally, form a semantic meaning, that we call concepts. We group these similar feature patterns by clustering in ``concepts'', that we visualize through Ms-IV. This last method is inspired by Occlusion and Sensitivity analysis (incorporating causality), and uses a novel metric, called Class-aware Order Correlation (CaOC), to globally evaluate the most important image regions according to the model's decision space. We compare our approach to xAI methods such as LIME and Integrated Gradients. Experimental results evince the Ms-IV higher localization and faithfulness values. Finally, qualitative evaluation of combined MAGE and Ms-IV demonstrate humans' ability to agree, based on the visualization, on the decision of clusters' concepts; and, to detect, among a given set of networks, the existence of bias.
翻訳日:2023-09-04 15:50:47 公開日:2023-08-31
# 深部強化学習に基づく雨環境におけるセル接続型UAVの物理軌道設計

Physics-Based Trajectory Design for Cellular-Connected UAV in Rainy Environments Based on Deep Reinforcement Learning ( http://arxiv.org/abs/2309.00017v1 )

ライセンス: Link先を確認
Hao Qin, Zhaozhou Wu and Xingqi Zhang(参考訳) セルラー接続型無人航空機(uavs)は、既存のセルラー・インフラストラクチャを利用してuavと基地局間の信頼性の高い通信を行う可能性から、注目を集めている。 気象予報や捜索救助活動など様々な用途に用いられている。 しかし,降雨などの極端な気象条件下では,空域の弱さ,UAV飛行時間の制限,雨滴による信号減衰など,細胞性UAVの軌道設計が困難である。 そこで本研究では,雨天環境におけるセル接続型uavの物理軌道設計手法を提案する。 物理に基づく電磁シミュレータを用いて、詳細な環境情報と雨が電波伝搬に与える影響を考察する。 軌道最適化問題は、UAV飛行時間と信号対干渉比を共同で考慮し、多段階学習と二重Q-ラーニングに基づく深層強化学習アルゴリズムを用いてマルコフ決定プロセスを通じて解決する。 最適なUAV軌道は、均質の大気媒質や雨媒質で比較される。 さらに, 各種気象条件が軌道設計に及ぼす影響を詳細に検討し, 問題定式化における重み係数の影響について考察した。 提案手法は雨天条件下でのuav軌道設計に大きな可能性を示した。

Cellular-connected unmanned aerial vehicles (UAVs) have gained increasing attention due to their potential to enhance conventional UAV capabilities by leveraging existing cellular infrastructure for reliable communications between UAVs and base stations. They have been used for various applications, including weather forecasting and search and rescue operations. However, under extreme weather conditions such as rainfall, it is challenging for the trajectory design of cellular UAVs, due to weak coverage regions in the sky, limitations of UAV flying time, and signal attenuation caused by raindrops. To this end, this paper proposes a physics-based trajectory design approach for cellular-connected UAVs in rainy environments. A physics-based electromagnetic simulator is utilized to take into account detailed environment information and the impact of rain on radio wave propagation. The trajectory optimization problem is formulated to jointly consider UAV flying time and signal-to-interference ratio, and is solved through a Markov decision process using deep reinforcement learning algorithms based on multi-step learning and double Q-learning. Optimal UAV trajectories are compared in examples with homogeneous atmosphere medium and rain medium. Additionally, a thorough study of varying weather conditions on trajectory design is provided, and the impact of weight coefficients in the problem formulation is discussed. The proposed approach has demonstrated great potential for UAV trajectory design under rainy weather conditions.
翻訳日:2023-09-04 15:50:22 公開日:2023-08-31
# 異常検出のための総合的拡張フレームワーク

A Comprehensive Augmentation Framework for Anomaly Detection ( http://arxiv.org/abs/2308.15068v2 )

ライセンス: Link先を確認
Jiang Lin, Yaping Yan(参考訳) データ拡張法は一般に異常検出モデルのトレーニングに統合される。 Previous approaches have primarily focused on replicating real-world anomalies or enhancing diversity, without considering that the standard of anomaly varies across different classes, potentially leading to a biased training distribution.This paper analyzes crucial traits of simulated anomalies that contribute to the training of reconstructive networks and condenses them into several methods, thus creating a comprehensive framework by selectively utilizing appropriate combinations.Furthermore, we integrate this framework with a reconstruction-based approach and concurrently propose a split training strategy that alleviates the issue of overfitting while avoiding introducing interference to the reconstruction process. MVTec異常検出データセットを用いて行った評価は,本手法が従来の最先端手法,特にオブジェクトクラスよりも優れていることを示す。 一般化性を評価するため,本試験では,特定の種類の異常しか含まないため,多様な特徴を持つ異常を含むシミュレーションデータセットを生成する。 実験の結果,実世界のシナリオで発生する様々な予期せぬ異常に対して効果的に一般化できる可能性が示された。

Data augmentation methods are commonly integrated into the training of anomaly detection models. Previous approaches have primarily focused on replicating real-world anomalies or enhancing diversity, without considering that the standard of anomaly varies across different classes, potentially leading to a biased training distribution.This paper analyzes crucial traits of simulated anomalies that contribute to the training of reconstructive networks and condenses them into several methods, thus creating a comprehensive framework by selectively utilizing appropriate combinations.Furthermore, we integrate this framework with a reconstruction-based approach and concurrently propose a split training strategy that alleviates the issue of overfitting while avoiding introducing interference to the reconstruction process. The evaluations conducted on the MVTec anomaly detection dataset demonstrate that our method outperforms the previous state-of-the-art approach, particularly in terms of object classes. To evaluate generalizability, we generate a simulated dataset comprising anomalies with diverse characteristics since the original test samples only include specific types of anomalies and may lead to biased evaluations. Experimental results demonstrate that our approach exhibits promising potential for generalizing effectively to various unforeseen anomalies encountered in real-world scenarios.
翻訳日:2023-09-04 15:49:48 公開日:2023-08-31
# マルコフ決定過程の報酬構造について

On Reward Structures of Markov Decision Processes ( http://arxiv.org/abs/2308.14919v2 )

ライセンス: Link先を確認
Falcon Z. Dai(参考訳) マルコフ決定過程は遷移核と報酬関数によってパラメータ化することができる。 両者はベルマン方程式における強化学習の研究において重要な役割を担っている。 ロボット応用における要求に触発された強化学習に関連する様々な「コスト」の調査において、報酬はマルコフ決定過程の構造を理解することの中心であり、報酬中心の概念は強化学習の重要な概念を明らかにする。 具体的には、ポリシー評価のサンプル複雑さを調べ、単一状態値の推定に$\tilde{o}(\sqrt{\frac{\tau_s}{n}})$のインスタンス固有のエラーバウンドを持つ新しい推定器を開発した。 オンラインの後悔最小化設定の下では、遷移ベースのMDP定数、直径を報酬ベース定数、最大ヒットコストに洗練し、それとともに、よく知られた技術である潜在的報酬形成が専門家の知識で学習を加速する理論的な説明を提供する。 安全強化学習の研究を目的として,危険環境を非発見性でモデル化し,リセット効率による安全な学習の定量的概念を提案した。 この設定では、予備的な数値結果が得られるリセットを考慮し、古典的なアルゴリズムを変更する。 最後に、複数の報酬関数を持つMDPに対して、パレート最適確率ポリシーを効率的に求める計画アルゴリズムを開発する。

A Markov decision process can be parameterized by a transition kernel and a reward function. Both play essential roles in the study of reinforcement learning as evidenced by their presence in the Bellman equations. In our inquiry of various kinds of "costs" associated with reinforcement learning inspired by the demands in robotic applications, rewards are central to understanding the structure of a Markov decision process and reward-centric notions can elucidate important concepts in reinforcement learning. Specifically, we study the sample complexity of policy evaluation and develop a novel estimator with an instance-specific error bound of $\tilde{O}(\sqrt{\frac{\tau_s}{n}})$ for estimating a single state value. Under the online regret minimization setting, we refine the transition-based MDP constant, diameter, into a reward-based constant, maximum expected hitting cost, and with it, provide a theoretical explanation for how a well-known technique, potential-based reward shaping, could accelerate learning with expert knowledge. In an attempt to study safe reinforcement learning, we model hazardous environments with irrecoverability and proposed a quantitative notion of safe learning via reset efficiency. In this setting, we modify a classic algorithm to account for resets achieving promising preliminary numerical results. Lastly, for MDPs with multiple reward functions, we develop a planning algorithm that computationally efficiently finds Pareto-optimal stochastic policies.
翻訳日:2023-09-04 15:49:32 公開日:2023-08-31
# Dynamic-ADAPT-QAOA:浅・雑音耐性回路を用いたアルゴリズム

Dynamic-ADAPT-QAOA: An algorithm with shallow and noise-resilient circuits ( http://arxiv.org/abs/2309.00047v1 )

ライセンス: Link先を確認
Nikola Yanakiev, Normann Mertig, Christopher K. Long, David R. M. Arvidsson-Shukur(参考訳) 量子近似最適化アルゴリズム(QAOA)は、ノイズの多い中間スケール量子(NISQ)ハードウェア上のNP問題を解くための魅力的な提案である。 ノイズに耐性を持つQAOAのNISQ実装を実現するには、できるだけCNOTゲートが少ない短いアンサッツ回路が必要である。 本稿ではDynamic-ADAPT-QAOAについて述べる。 本アルゴリズムは,QAOAの短期実装における主要な提案である標準ADAPT-QAOAの回路深さとCNOT数を大幅に削減する。 提案アルゴリズムを通じて,アルゴリズムの利点に基づいて,CNOT集約演算を動的に適用する決定を行う。 密度行列シミュレーションを用いて、ADAPT-QAOAとDynamic-ADAPT-QAOAの耐雑音性をベンチマークする。 ゲートエラー確率 $p_\text{gate}^\star$ を計算し、これらのアルゴリズムはゲーマンとウィリアムソンによる古典的多項式時間近似アルゴリズムよりも平均的で正確な解を提供する。 6-10$ qubitsの小さなシステムの場合、$p_{\text{gate}}^\star>10^{-3}$ for Dynamic-ADAPT-QAOA。 標準のADAPT-QAOAと比較すると、これは耐雑音性を大幅に向上させる。 この改良により、動的ADAPT-QAOAは、エラーの軽減がなくても、NISQハードウェアの超伝導実装に有効になる。

The quantum approximate optimization algorithm (QAOA) is an appealing proposal to solve NP problems on noisy intermediate-scale quantum (NISQ) hardware. Making NISQ implementations of the QAOA resilient to noise requires short ansatz circuits with as few CNOT gates as possible. Here, we present Dynamic-ADAPT-QAOA. Our algorithm significantly reduces the circuit depth and the CNOT count of standard ADAPT-QAOA, a leading proposal for near-term implementations of the QAOA. Throughout our algorithm, the decision to apply CNOT-intensive operations is made dynamically, based on algorithmic benefits. Using density-matrix simulations, we benchmark the noise resilience of ADAPT-QAOA and Dynamic-ADAPT-QAOA. We compute the gate-error probability $p_\text{gate}^\star$ below which these algorithms provide, on average, more accurate solutions than the classical, polynomial-time approximation algorithm by Goemans and Williamson. For small systems with $6-10$ qubits, we show that $p_{\text{gate}}^\star>10^{-3}$ for Dynamic-ADAPT-QAOA. Compared to standard ADAPT-QAOA, this constitutes an order-of-magnitude improvement in noise resilience. This improvement should make Dynamic-ADAPT-QAOA viable for implementations on superconducting NISQ hardware, even in the absence of error mitigation.
翻訳日:2023-09-04 15:42:56 公開日:2023-08-31
# FACET:コンピュータビジョン評価ベンチマークの公正性

FACET: Fairness in Computer Vision Evaluation Benchmark ( http://arxiv.org/abs/2309.00035v1 )

ライセンス: Link先を確認
Laura Gustafson, Chloe Rolland, Nikhila Ravi, Quentin Duval, Aaron Adcock, Cheng-Yang Fu, Melissa Hall, Candace Ross(参考訳) コンピュータビジョンモデルは、性別や肌のトーンなどの属性間でパフォーマンスの相違が知られている。 これは、分類や検出などのタスクの間、画像内の人々の人口統計に基づいて、特定のクラスでモデルのパフォーマンスが異なることを意味する。 これらの相違は存在することが示されているが、これまでコンピュータビジョンモデルの一般的なユースケースでこれらの差異を測定するための統一的なアプローチは存在していない。 画像分類,オブジェクト検出,セグメンテーションといった,最も一般的なビジョンタスクに対して,32k画像の大規模かつ一般公開された評価セットであるfacet (fairness in computer vision evaluation) という新しいベンチマークを提案する。 FACETのすべての画像に対して、私たちは専門家レビュアーを雇い、知覚された肌色やヘアタイプなどの人関連属性を手動でアノテートし、バウンディングボックスを手動で描画し、ディスクジョッキーやギタリストのようなきめ細かい人関連クラスをラベル付けした。 さらに、FACETを用いて最先端のビジョンモデルをベンチマークし、潜在的な性能格差と、センシティブな人口統計特性の課題についてより深く理解する。 総括アノテーションを収集し, 交叉アプローチ(例えば, 髪の色, 知覚皮膚のトーン)を用いて, 単一人口統計属性と複数の属性を用いてモデルを探索する。 その結果, 分類, 検出, セグメンテーション, 視覚接地モデルでは, 属性と属性の交点間で性能の差がみられた。 これらの危害は、データセットに代表されるすべての人が、これらのビジョンタスクで公平かつ公平な扱いを受けるわけではないことを示唆している。 ベンチマークを使用した現在および将来の成果が、より公平でより堅牢なビジョンモデルに貢献することを願っています。 FACETはhttps://facet.metademolab.com/で公開されている。

Computer vision models have known performance disparities across attributes such as gender and skin tone. This means during tasks such as classification and detection, model performance differs for certain classes based on the demographics of the people in the image. These disparities have been shown to exist, but until now there has not been a unified approach to measure these differences for common use-cases of computer vision models. We present a new benchmark named FACET (FAirness in Computer Vision EvaluaTion), a large, publicly available evaluation set of 32k images for some of the most common vision tasks - image classification, object detection and segmentation. For every image in FACET, we hired expert reviewers to manually annotate person-related attributes such as perceived skin tone and hair type, manually draw bounding boxes and label fine-grained person-related classes such as disk jockey or guitarist. In addition, we use FACET to benchmark state-of-the-art vision models and present a deeper understanding of potential performance disparities and challenges across sensitive demographic attributes. With the exhaustive annotations collected, we probe models using single demographics attributes as well as multiple attributes using an intersectional approach (e.g. hair color and perceived skin tone). Our results show that classification, detection, segmentation, and visual grounding models exhibit performance disparities across demographic attributes and intersections of attributes. These harms suggest that not all people represented in datasets receive fair and equitable treatment in these vision tasks. We hope current and future results using our benchmark will contribute to fairer, more robust vision models. FACET is available publicly at https://facet.metademolab.com/
翻訳日:2023-09-04 15:42:33 公開日:2023-08-31
# ブロックチェーンベースのOpen Network in Technology Intermediation

Blockchain Based Open Network in Technology Intermediation ( http://arxiv.org/abs/2309.00032v1 )

ライセンス: Link先を確認
Yang Yue, Joseph Z. Shyu(参考訳) ブロックチェーン技術は、分散化と信頼性を実現するように設計された信頼性の高いアプリケーションで開発されている。 オープンネットワークのイノベーション理論に基づいて、ブロックチェーン技術に基づく技術仲介管理のアイデアを提案し、技術仲介者の効率を改善し、正確で信頼性の高い情報を提供し、市場にとってコストを削減する。 本研究は、技術仲介者に対するブロックチェーンの利点を実証する。 まず、特定のレベルでは、オープン性、透明性、分散化、匿名サービスを提供する。 第2に、現在の産業革新要素を分析します。 ブロックチェーンは、テクノロジ仲介者の効率を改善し、リスクを防ぎ、従来の仲介者の欠点を補う。 それは伝統的な技術仲介に革命をもたらした。 こうなると、従来のテクノロジー仲介業者に革命をもたらす。

Blockchain technology is developing using in reliable applications which can be designed to achieve decentralization and trustless. Based on the open network innovation theory, this paper proposes a technical intermediary management idea based on blockchain technology to improve the efficiency of technology intermediaries, providing accurate, reliable information and cutting cost for the market. This study demonstrates the advantage of blockchain to technology intermediaries. First, on a specific level, it can provide openness, transparency, decentralization and anonymity services. Second, the current industrial innovation elements are analyzed. blockchain improve the efficiency of technology intermediary, prevent risks and to make up for the shortcomings of traditional intermediaries. It has revolutionized the traditional technology intermediary. As this happens, it can revolutionize traditional technology intermediaries.
翻訳日:2023-09-04 15:42:05 公開日:2023-08-31
# スタイル対応セミパラメトリック合成によるユーザ生成コンテンツのオーディオ駆動ダビング

Audio-Driven Dubbing for User Generated Contents via Style-Aware Semi-Parametric Synthesis ( http://arxiv.org/abs/2309.00030v1 )

ライセンス: Link先を確認
Linsen Song, Wayne Wu, Chaoyou Fu, Chen Change Loy, Ran He(参考訳) 既存の自動ダビング法は通常、PGC(Professionally Generated Content)生産のために設計されており、個人固有のオーディオビデオマッピングを学ぶのに大量のトレーニングデータとトレーニング時間を必要とする。 本稿では,ユーザ生成コンテンツ(UGC)制作においてより有効な音声駆動型ダビング手法について検討する。 UGCのための方法の設計には2つのユニークな課題がある。 1) ユーザ間で一般化する必要があるため,話者の外観は多様かつ任意である。 2) 一つの話者のビデオデータは非常に限られている。 上記の課題に取り組むため,まず,ターゲットの発話スタイルとソースの発話内容とをクロスモーダルなadainモジュールで統合する,新しいスタイル翻訳ネットワークを提案する。 モデルが新しいスピーカーに素早く適応できるようにします。 次に,映像レベルの検索・ワープ・リファインメント・パイプラインを介して,未認識話者の限られたトレーニングデータを活用したセミパラメトリック・ビデオレンダラの開発を行う。 最後に、半パラメトリックレンダラーの時間的正規化を提案し、より連続的なビデオを生成する。 広範に実験した結果,本手法は様々な発話スタイルを正確に保存するビデオを生成するが,既存の手法に比べてトレーニングデータとトレーニング時間はかなり少ないことがわかった。 また,本手法は最近の手法よりも高速なテスト速度を実現する。

Existing automated dubbing methods are usually designed for Professionally Generated Content (PGC) production, which requires massive training data and training time to learn a person-specific audio-video mapping. In this paper, we investigate an audio-driven dubbing method that is more feasible for User Generated Content (UGC) production. There are two unique challenges to design a method for UGC: 1) the appearances of speakers are diverse and arbitrary as the method needs to generalize across users; 2) the available video data of one speaker are very limited. In order to tackle the above challenges, we first introduce a new Style Translation Network to integrate the speaking style of the target and the speaking content of the source via a cross-modal AdaIN module. It enables our model to quickly adapt to a new speaker. Then, we further develop a semi-parametric video renderer, which takes full advantage of the limited training data of the unseen speaker via a video-level retrieve-warp-refine pipeline. Finally, we propose a temporal regularization for the semi-parametric renderer, generating more continuous videos. Extensive experiments show that our method generates videos that accurately preserve various speaking styles, yet with considerably lower amount of training data and training time in comparison to existing methods. Besides, our method achieves a faster testing speed than most recent methods.
翻訳日:2023-09-04 15:41:55 公開日:2023-08-31
# 大規模言語モデルによるプログラミングフィードバック生成の可能性の検討

Exploring the Potential of Large Language Models to Generate Formative Programming Feedback ( http://arxiv.org/abs/2309.00029v1 )

ライセンス: Link先を確認
Natalie Kiesler, Dominic Lohr, Hieke Keuning(参考訳) 大規模言語モデル(LLM)やChatGPTなどの関連アプリケーションが登場して以来、プログラミングタスクのパフォーマンスとエラー解析は研究の対象となっている。 本稿では,プログラムコードを含む入力に対して生成したフィードバックを解析し,学習者や教育者にとってのLLMの可能性について検討する。 特に,第1に,初歩的なプログラミングタスクの助けを求める学生に対して,ChatGPTのようなLLMがどのように反応するか,(2)応答のフィードバックタイプを特定することを目的とした。 これらの目標を達成するために, cs1コースに収集したデータセットから, chatgptの入力として, フィードバックと正しい解の導出に必要な質問として, 学生のプログラミングシーケンスを用いた。 その結果,ChatGPTはプログラミングの入門タスクや学生の誤りに対して合理的に機能することがわかった。 しかし、教育者は、初心者向けの誤解を招く情報を含むため、提供されたフィードバックの使い方についてのガイダンスを提供するべきである。

Ever since the emergence of large language models (LLMs) and related applications, such as ChatGPT, its performance and error analysis for programming tasks have been subject to research. In this work-in-progress paper, we explore the potential of such LLMs for computing educators and learners, as we analyze the feedback it generates to a given input containing program code. In particular, we aim at (1) exploring how an LLM like ChatGPT responds to students seeking help with their introductory programming tasks, and (2) identifying feedback types in its responses. To achieve these goals, we used students' programming sequences from a dataset gathered within a CS1 course as input for ChatGPT along with questions required to elicit feedback and correct solutions. The results show that ChatGPT performs reasonably well for some of the introductory programming tasks and student errors, which means that students can potentially benefit. However, educators should provide guidance on how to use the provided feedback, as it can contain misleading information for novices.
翻訳日:2023-09-04 15:41:33 公開日:2023-08-31
# 視覚に基づくクランベリー収穫熟成評価

Vision-Based Cranberry Crop Ripening Assessment ( http://arxiv.org/abs/2309.00028v1 )

ライセンス: Link先を確認
Faith Johnson, Jack Lowry, Kristin Dana, Peter Oudemans(参考訳) 農業領域は、定量的視覚評価をサポートするAIとコンピュータビジョンの最近の進歩によって変革されている。 ドローン画像を用いて,クランベリー作物の熟成過程を特徴付ける枠組みを開発した。 本手法は,クランベリー栽培期のドローンによる時系列収集,画素からのアルベド回収のための測光キャリブレーション,点クリックアノテーションを用いた半教師付き深層学習ネットワークによるベリーセグメンテーションからなる。 時系列のベリーアルベド測定から4種類のクランベリーを抽出し,その熟成率の定量化を行った。 このような定量化は実際的な意味を持つ 1)クランベリー豚のリアルタイム過熱リスクの評価 2) 作物の育種における子孫の大規模比較 3) 熟成パターンの異常値を求めることで疾患を検出する。 この研究は、コンピュータビジョンによる熟成の定量的評価において最初のものであり、ワインブドウ、オリーブ、ブルーベリー、トウモロコシなどクランベリーの作物に及ばない影響がある。

Agricultural domains are being transformed by recent advances in AI and computer vision that support quantitative visual evaluation. Using drone imaging, we develop a framework for characterizing the ripening process of cranberry crops. Our method consists of drone-based time-series collection over a cranberry growing season, photometric calibration for albedo recovery from pixels, and berry segmentation with semi-supervised deep learning networks using point-click annotations. By extracting time-series berry albedo measurements, we evaluate four different varieties of cranberries and provide a quantification of their ripening rates. Such quantification has practical implications for 1) assessing real-time overheating risks for cranberry bogs; 2) large scale comparisons of progeny in crop breeding; 3) detecting disease by looking for ripening pattern outliers. This work is the first of its kind in quantitative evaluation of ripening using computer vision methods and has impact beyond cranberry crops including wine grapes, olives, blueberries, and maize.
翻訳日:2023-09-04 15:41:12 公開日:2023-08-31
# パノラマX線異常歯の検出・分類のための連続的枠組み

A Sequential Framework for Detection and Classification of Abnormal Teeth in Panoramic X-rays ( http://arxiv.org/abs/2309.00027v1 )

ライセンス: Link先を確認
Tudor Dascalu, Shaqayeq Ramezanzade, Azam Bakhshandeh, Lars Bjorndal, and Bulat Ibragimov(参考訳) 本報告では,MICCAI 2023におけるパノラマX線検査における歯列挙と診断の解決策について述べる。 本手法は, 異常歯の検出と分類に適応した多段階フレームワークである。 このソリューションは、歯科用インスタンス検出、健全なインスタンスフィルタリング、異常なインスタンス分類の3段階を含む。 第一段階では, 歯の発見と識別にFaster-RCNNモデルを用いた。 その後の段階で, 歯科病変検出に最適化されたプレトレーニングU-netの符号化経路をVgg16アーキテクチャにマージするモデルを構築した。 結果として得られたモデルは、最初に健全な歯を濾過するために使用された。 そして, 特定された異常歯を分類し, 埋伏歯, 根尖部病変, カリー, 深部カリーの1つ以上の条件に陥る可能性が示唆された。 歯科症例検出モデルではAPスコアが0.49。 健常歯を同定するモデルでは,f1得点0.71。 一方, マルチラベル歯科疾患分類のためのモデルでは, F1スコアが0.76。 コードはhttps://github.com/tudordascalu/2d-teeth-detection-challengeで入手できる。

This paper describes our solution for the Dental Enumeration and Diagnosis on Panoramic X-rays Challenge at MICCAI 2023. Our approach consists of a multi-step framework tailored to the task of detecting and classifying abnormal teeth. The solution includes three sequential stages: dental instance detection, healthy instance filtering, and abnormal instance classification. In the first stage, we employed a Faster-RCNN model for detecting and identifying teeth. In subsequent stages, we designed a model that merged the encoding pathway of a pretrained U-net, optimized for dental lesion detection, with the Vgg16 architecture. The resulting model was first used for filtering out healthy teeth. Then, any identified abnormal teeth were categorized, potentially falling into one or more of the following conditions: embeddded, periapical lesion, caries, deep caries. The model performing dental instance detection achieved an AP score of 0.49. The model responsible for identifying healthy teeth attained an F1 score of 0.71. Meanwhile, the model trained for multi-label dental disease classification achieved an F1 score of 0.76. The code is available at https://github.com/tudordascalu/2d-teeth-detection-challenge.
翻訳日:2023-09-04 15:40:54 公開日:2023-08-31
# 正則特異点を持つschr\"odinger方程式のスペクトル解

Spectral solutions for the Schr\"odinger equation with a regular singularity ( http://arxiv.org/abs/2309.00026v1 )

ライセンス: Link先を確認
Pushkar Mohile, Ayaz Ahmed, T.R.Vishnu, Pichai Ramadevi(参考訳) 本研究では,水素原子スペクトルと波動関数を再現するためのBethe型アンサッツの改質を提案する。 このような提案は、原点に特異なポテンシャル V (x) に関連する量子周期の正確な量子化条件(EQC)を試みようとする手がかりを与えた。 パラメータの適切な極限において、ポテンシャルは |x| ポテンシャルにマッピングできる。 我々は、Vorosスペクトルを数値計算し、|x|ポテンシャルの真のスペクトルとマッチングすることで、EQC命題を検証する。 したがって、原点に正則特異点を持つポテンシャルを含む一次元シュリンガー方程式のスペクトル解を得るための経路を与えた。

We propose a modification in the Bethe-like ansatz to reproduce the hydrogen atom spectrum and the wave functions. Such a proposal provided a clue to attempt the exact quantization conditions (EQC) for the quantum periods associated with potentials V (x) which are singular at the origin. In a suitable limit of the parameters, the potential can be mapped to |x| potential. We validate our EQC proposition by numerically computing the Voros spectrum and matching it with the true spectrum for |x| potential. Thus we have given a route to obtain the spectral solution for the one dimensional Schr\"odinger equation involving potentials with regular singularity at the origin.
翻訳日:2023-09-04 15:40:38 公開日:2023-08-31
# 局所的・大域的構造保存による効率的なマルチビューグラフクラスタリング

Efficient Multi-View Graph Clustering with Local and Global Structure Preservation ( http://arxiv.org/abs/2309.00024v1 )

ライセンス: Link先を確認
Yi Wen, Suyuan Liu, Xinhang Wan, Siwei Wang, Ke Liang, Xinwang Liu, Xihong Yang, Pei Zhang(参考訳) アンカーベースのマルチビューグラフクラスタリング(AMVGC)は、高い効率と複数のビューにまたがる補完構造情報をキャプチャする能力により、多くの注目を集めている。 直感的には、高品質アンカーグラフは amvgc の成功に不可欠な役割を果たす。 しかし,既存のAMVGC手法では,学習課題に不十分な情報を提供する単一構造情報,すなわち局所構造やグローバル構造のみを考慮に入れている。 具体的には、オーバー散乱したグローバル構造は、クラスタパーティションをうまく表現できない学習アンカーにつながる。 対照的に、不適切な類似度尺度を持つ局所構造は、潜在的に不正確なアンカー割り当てをもたらし、最終的には準最適クラスタリング性能をもたらす。 そこで本稿では,ローカルおよびグローバル構造保存(emvgc-lg)による効率的なマルチビューグラフクラスタリングという,新しいアンカーベースのマルチビューグラフクラスタリングフレームワークを提案する。 具体的には、理論的保証を持つ統一フレームワークは、ローカルおよびグローバル情報をキャプチャするように設計されている。 さらにemvgc-lgは、アンカー構築とグラフ学習を共同で最適化し、クラスタリングの品質を高める。 さらに、EMVGC-LGはサンプル数に関する既存のAMVGCメソッドの線形複雑性を継承する。 提案手法の有効性と有効性を示す実験を行った。

Anchor-based multi-view graph clustering (AMVGC) has received abundant attention owing to its high efficiency and the capability to capture complementary structural information across multiple views. Intuitively, a high-quality anchor graph plays an essential role in the success of AMVGC. However, the existing AMVGC methods only consider single-structure information, i.e., local or global structure, which provides insufficient information for the learning task. To be specific, the over-scattered global structure leads to learned anchors failing to depict the cluster partition well. In contrast, the local structure with an improper similarity measure results in potentially inaccurate anchor assignment, ultimately leading to sub-optimal clustering performance. To tackle the issue, we propose a novel anchor-based multi-view graph clustering framework termed Efficient Multi-View Graph Clustering with Local and Global Structure Preservation (EMVGC-LG). Specifically, a unified framework with a theoretical guarantee is designed to capture local and global information. Besides, EMVGC-LG jointly optimizes anchor construction and graph learning to enhance the clustering quality. In addition, EMVGC-LG inherits the linear complexity of existing AMVGC methods respecting the sample number, which is time-economical and scales well with the data size. Extensive experiments demonstrate the effectiveness and efficiency of our proposed method.
翻訳日:2023-09-04 15:40:27 公開日:2023-08-31
# 一連のAPIから継続的に学ぶ

Continual Learning From a Stream of APIs ( http://arxiv.org/abs/2309.00023v1 )

ライセンス: Link先を確認
Enneng Yang, Zhenyi Wang, Li Shen, Nan Yin, Tongliang Liu, Guibing Guo, Xingwei Wang, and Dacheng Tao(参考訳) 継続学習(CL)は、以前のタスクを忘れずに新しいタスクを学習することを目的としている。 しかし、既存のCLメソッドは大量の生データを必要とするため、著作権やプライバシー上のリスクのために利用できないことが多い。 代わりに、ステークホルダは通常、トレーニング済みの機械学習モデル・アズ・ア・サービス(MLaaS)をリリースする。 本稿では,データ効率の高いCL (DECL-APIs) とデータフリーなCL (DFCL-APIs) の2つの実装について考察する。 これら2つの新しい設定の下でCLを実行するには、完全な生データ、未知のモデルパラメータ、任意のアーキテクチャとスケールの異種モデル、以前のAPIの破滅的な忘れなど、いくつかの課題に直面します。 そこで本研究では,APIを問合せするだけで擬似データを生成することにより,APIのストリームから知識をCLモデルに抽出する,データフリーな連続蒸留学習フレームワークを提案する。 具体的には、2つの協調生成器と1つのclモデルを含み,その訓練を敵ゲームとして形成する。 まずCLモデルと現在のAPIを固定識別器として使い、デリバティブフリーの手法でジェネレータを訓練する。 ジェネレータは、CLモデルとAPI間の応答ギャップを最大化するために、ハードかつ多様な合成データを逆向きに生成する。 次に、CLモデルの応答と合成データ上のブラックボックスAPIとのギャップを最小化し、CLモデルの知識をCLモデルに転送することで、CLモデルを訓練する。 さらに,ネットワーク類似性に基づく新たな正規化用語を提案し,従来のAPIの破滅的忘れを防止するとともに,DFCL-API設定におけるMNISTとSVHNの全生データを用いて従来のCLと互換性のある手法を提案する。 DECL-API設定では,CIFAR10,CIFAR100,MiniImageNet上での従来のCLの0.97x,0.75x,0.69xの性能を実現する。

Continual learning (CL) aims to learn new tasks without forgetting previous tasks. However, existing CL methods require a large amount of raw data, which is often unavailable due to copyright considerations and privacy risks. Instead, stakeholders usually release pre-trained machine learning models as a service (MLaaS), which users can access via APIs. This paper considers two practical-yet-novel CL settings: data-efficient CL (DECL-APIs) and data-free CL (DFCL-APIs), which achieve CL from a stream of APIs with partial or no raw data. Performing CL under these two new settings faces several challenges: unavailable full raw data, unknown model parameters, heterogeneous models of arbitrary architecture and scale, and catastrophic forgetting of previous APIs. To overcome these issues, we propose a novel data-free cooperative continual distillation learning framework that distills knowledge from a stream of APIs into a CL model by generating pseudo data, just by querying APIs. Specifically, our framework includes two cooperative generators and one CL model, forming their training as an adversarial game. We first use the CL model and the current API as fixed discriminators to train generators via a derivative-free method. Generators adversarially generate hard and diverse synthetic data to maximize the response gap between the CL model and the API. Next, we train the CL model by minimizing the gap between the responses of the CL model and the black-box API on synthetic data, to transfer the API's knowledge to the CL model. Furthermore, we propose a new regularization term based on network similarity to prevent catastrophic forgetting of previous APIs.Our method performs comparably to classic CL with full raw data on the MNIST and SVHN in the DFCL-APIs setting. In the DECL-APIs setting, our method achieves 0.97x, 0.75x and 0.69x performance of classic CL on CIFAR10, CIFAR100, and MiniImageNet.
翻訳日:2023-09-04 15:40:04 公開日:2023-08-31
# 医学における大規模言語モデル:可能性と落とし穴

Large language models in medicine: the potentials and pitfalls ( http://arxiv.org/abs/2309.00087v1 )

ライセンス: Link先を確認
Jesutofunmi A. Omiye, Haiwen Gui, Shawheen J. Rezaei, James Zou, Roxana Daneshjou(参考訳) 大規模言語モデル(llm)は、医療のタスクに応用されており、医療試験の質問から患者の質問への応答まで幅広い。 LLMと医療システムを製造する企業間の制度的なパートナーシップの増加に伴い、現実世界の臨床応用は現実に近づいている。 これらのモデルが普及するにつれて、医療従事者にとって、LSMとは何か、その開発、その現在および潜在的な応用、そして医療で使用される際の落とし穴を理解することが不可欠である。 本総説は, 医療従事者に対して, LLMの急速な変化の背景を理解する上で, 医療実践者を支援することを目的としている。

Large language models (LLMs) have been applied to tasks in healthcare, ranging from medical exam questions to responding to patient questions. With increasing institutional partnerships between companies producing LLMs and healthcare systems, real world clinical application is coming closer to reality. As these models gain traction, it is essential for healthcare practitioners to understand what LLMs are, their development, their current and potential applications, and the associated pitfalls when utilized in medicine. This review and accompanying tutorial aim to give an overview of these topics to aid healthcare practitioners in understanding the rapidly changing landscape of LLMs as applied to medicine.
翻訳日:2023-09-04 15:31:47 公開日:2023-08-31
# RePo: 後部予測の規則化による弾力性モデルに基づく強化学習

RePo: Resilient Model-Based Reinforcement Learning by Regularizing Posterior Predictability ( http://arxiv.org/abs/2309.00082v1 )

ライセンス: Link先を確認
Chuning Zhu, Max Simchowitz, Siri Gadipudi, Abhishek Gupta(参考訳) 視覚モデルに基づくRL法は通常、冗長な情報を排除しない方法で画像観察を低次元表現に符号化する。 これは、背景のイントラクタや照明条件といったタスク非関連コンポーネントの変更など、急激なバリエーションの影響を受けやすい。 本稿では,このような変動に耐性のある潜在表現を学習する視覚モデルに基づくRL法を提案する。 私たちのトレーニング目標は、観察から潜在表現への情報フローを制約しながら、表現を最大にダイナミクスと報酬を予測できることを奨励します。 この目的が視覚モデルに基づくRL手法の視覚的障害に対する耐性を著しく促進し、動的環境下での動作を可能にすることを実証する。 次に、学習したエンコーダはスピリチュアルな変動に耐性があるが、大きな分布シフトの下では不変ではないことを示す。 そこで本研究では,エンコーダの試験時間適応を可能にする簡易な報酬不要アライメント手法を提案する。 これにより、ダイナミックスとポリシーを再学習することなく、幅広い異なる環境に素早く適応することができる。 我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。 背景にノイズのあるテレビを備えた実世界のエゴセントリックなナビゲーションタスクと同様に,多彩な変動を伴うシミュレーションベンチマークにおいて,その効果を示す。 ビデオとコードはhttps://zchuning.github.io/repo-website/。

Visual model-based RL methods typically encode image observations into low-dimensional representations in a manner that does not eliminate redundant information. This leaves them susceptible to spurious variations -- changes in task-irrelevant components such as background distractors or lighting conditions. In this paper, we propose a visual model-based RL method that learns a latent representation resilient to such spurious variations. Our training objective encourages the representation to be maximally predictive of dynamics and reward, while constraining the information flow from the observation to the latent representation. We demonstrate that this objective significantly bolsters the resilience of visual model-based RL methods to visual distractors, allowing them to operate in dynamic environments. We then show that while the learned encoder is resilient to spirious variations, it is not invariant under significant distribution shift. To address this, we propose a simple reward-free alignment procedure that enables test time adaptation of the encoder. This allows for quick adaptation to widely differing environments without having to relearn the dynamics and policy. Our effort is a step towards making model-based RL a practical and useful tool for dynamic, diverse domains. We show its effectiveness in simulation benchmarks with significant spurious variations as well as a real-world egocentric navigation task with noisy TVs in the background. Videos and code at https://zchuning.github.io/repo-website/.
翻訳日:2023-09-04 15:31:35 公開日:2023-08-31
# ランダム判別部分空間のアンサンブルを用いた胸部X線診断

Few-shot Diagnosis of Chest x-rays Using an Ensemble of Random Discriminative Subspaces ( http://arxiv.org/abs/2309.00081v1 )

ライセンス: Link先を確認
Kshitiz, Garvit Garg, Angshuman Paul(参考訳) 医用領域における注釈付きデータが不足しているため、少数ショット学習は医用画像解析作業に有用である。 胸部X線(CXR)の診断にランダムな部分空間のアンサンブルを用いた数ショット学習法を設計する。 我々の設計は計算効率が良く、部分空間分解によく使われる特異値分解法(t-SVD)の約1.8倍高速である。 提案手法は,識別サブ空間における訓練データのクラスタ化を支援する新しい損失関数を最小化する。 その結果、損失の最小化は部分空間間の距離を最大化し、識別し、より良い分類を支援する。 大規模な公開可能なCXRデータセットの実験は、有望な結果をもたらす。 プロジェクトのコードはhttps://github.com/few-shot-learning-on-chest-x-ray/fsl_subspaceで入手できる。

Due to the scarcity of annotated data in the medical domain, few-shot learning may be useful for medical image analysis tasks. We design a few-shot learning method using an ensemble of random subspaces for the diagnosis of chest x-rays (CXRs). Our design is computationally efficient and almost 1.8 times faster than method that uses the popular truncated singular value decomposition (t-SVD) for subspace decomposition. The proposed method is trained by minimizing a novel loss function that helps create well-separated clusters of training data in discriminative subspaces. As a result, minimizing the loss maximizes the distance between the subspaces, making them discriminative and assisting in better classification. Experiments on large-scale publicly available CXR datasets yield promising results. Code for the project will be available at https://github.com/Few-shot-Learning-on-chest-x-ray/fsl_subspace.
翻訳日:2023-09-04 15:31:14 公開日:2023-08-31
# アダムの暗黙のバイアスについて

On the Implicit Bias of Adam ( http://arxiv.org/abs/2309.00079v1 )

ライセンス: Link先を確認
Matias D. Cattaneo and Jason M. Klusowski and Boris Shigida(参考訳) 前回の文献では、勾配降下軌道を近似する常微分方程式(odes)を見つけるために後方誤差解析が用いられた。 ODEに現れる項は損失勾配の2ノルムを罰するので、有限ステップサイズは解を暗黙的に正則化することがわかった。 rmsprop と adam における同様の暗黙的正規化の存在は、それらのハイパーパラメータと訓練段階に依存するが、異なる「ノルム」が関係している: 対応する ode 項は損失勾配の(摂動的な)1ノルムをペナルティ化するか、逆にその減少を阻害する(後者の場合が典型的である)。 また,数値実験を行い,証明された事実が一般化にどのように影響を与えるかについて議論する。

In previous literature, backward error analysis was used to find ordinary differential equations (ODEs) approximating the gradient descent trajectory. It was found that finite step sizes implicitly regularize solutions because terms appearing in the ODEs penalize the two-norm of the loss gradients. We prove that the existence of similar implicit regularization in RMSProp and Adam depends on their hyperparameters and the training stage, but with a different "norm" involved: the corresponding ODE terms either penalize the (perturbed) one-norm of the loss gradients or, on the contrary, hinder its decrease (the latter case being typical). We also conduct numerical experiments and discuss how the proven facts can influence generalization.
翻訳日:2023-09-04 15:30:58 公開日:2023-08-31
# yarn: 大きな言語モデルの効率的なコンテキストウィンドウ拡張

YaRN: Efficient Context Window Extension of Large Language Models ( http://arxiv.org/abs/2309.00071v1 )

ライセンス: Link先を確認
Bowen Peng, Jeffrey Quesnelle, Honglu Fan, Enrico Shippole(参考訳) RoPE(Rotary Position Embeddings)は、トランスフォーマーベースの言語モデルにおいて、位置情報を効果的に符号化する。 しかし、これらのモデルは、訓練したシーケンス長を超過して一般化することができない。 本稿では,Yarn(Yet another RoPE extensioN method)という,そのようなモデルのコンテキストウィンドウを拡張する計算効率の高い手法を提案する。 YaRN を用いて,LLaMA モデルが従来の事前学習よりもはるかに長い文脈長を効果的に活用し,外挿できることを示す。 加えて、YaRNは、微調整データセットの限られたコンテキストを超えて外挿する能力を示す。 Llama 2 7B/13B のチェックポイントを https://github.com/jquesnelle/yarn で 64k と 18k コンテキストウィンドウを持つ YaRN を使って微調整した。

Rotary Position Embeddings (RoPE) have been shown to effectively encode positional information in transformer-based language models. However, these models fail to generalize past the sequence length they were trained on. We present YaRN (Yet another RoPE extensioN method), a compute-efficient method to extend the context window of such models, requiring 10x less tokens and 2.5x less training steps than previous methods. Using YaRN, we show that LLaMA models can effectively utilize and extrapolate to context lengths much longer than their original pre-training would allow, while also surpassing previous the state-of-the-art at context window extension. In addition, we demonstrate that YaRN exhibits the capability to extrapolate beyond the limited context of a fine-tuning dataset. We publish the checkpoints of Llama 2 7B/13B fine-tuned using YaRN with 64k and 128k context windows at https://github.com/jquesnelle/yarn
翻訳日:2023-09-04 15:30:42 公開日:2023-08-31
# SoDaCam:単一光子イメージングによるソフトウェア定義カメラ

SoDaCam: Software-defined Cameras via Single-Photon Imaging ( http://arxiv.org/abs/2309.00066v1 )

ライセンス: Link先を確認
Varun Sundar, Andrei Ardelean, Tristan Swedish, Claudio Brusschini, Edoardo Charbon and Mohit Gupta(参考訳) 再解釈可能なカメラは、従来の撮像を超える後処理能力によって定義される。 単一光子デバイスで取得した光子キューブから光子の粒度で再解釈可能なカメラを提供する「SoDaCam」を提案する。 光子キューブは、光子の時空間的検出を、最大100kHzのフレームレートでバイナリフレームのシーケンスとして表している。 光子キューブの単純な変換、すなわち光子キューブ投影は、露光ブラケット、フラッターシャッターカメラ、ビデオ圧縮システム、イベントカメラ、さらには露光中に移動するカメラなど、多数のイメージングシステムの機能を提供する。 我々の光子キューブ投影は、計算可能でショットノイズのみに制限されたソフトウェア定義の構成の柔軟性を提供する。 この柔軟性を利用して、エミュレートされたカメラに新しい機能を提供する。 さらに,このプロジェクションにより,光子キューブのカメラ依存圧縮が実現され,単一光子イメージング用に設計された新しい計算アーキテクチャへのプロジェクションの実装が実演される。

Reinterpretable cameras are defined by their post-processing capabilities that exceed traditional imaging. We present "SoDaCam" that provides reinterpretable cameras at the granularity of photons, from photon-cubes acquired by single-photon devices. Photon-cubes represent the spatio-temporal detections of photons as a sequence of binary frames, at frame-rates as high as 100 kHz. We show that simple transformations of the photon-cube, or photon-cube projections, provide the functionality of numerous imaging systems including: exposure bracketing, flutter shutter cameras, video compressive systems, event cameras, and even cameras that move during exposure. Our photon-cube projections offer the flexibility of being software-defined constructs that are only limited by what is computable, and shot-noise. We exploit this flexibility to provide new capabilities for the emulated cameras. As an added benefit, our projections provide camera-dependent compression of photon-cubes, which we demonstrate using an implementation of our projections on a novel compute architecture that is designed for single-photon imaging.
翻訳日:2023-09-04 15:30:25 公開日:2023-08-31
# 医療におけるAIのパワーを損なう倫理的枠組み

Ethical Framework for Harnessing the Power of AI in Healthcare and Beyond ( http://arxiv.org/abs/2309.00064v1 )

ライセンス: Link先を確認
Sidra Nasir, Rizwan Ahmed Khan, Samita Bai(参考訳) 過去10年間、ディープラーニング(artificial intelligence:ai)メソッドの展開は、現実世界のさまざまなアプリケーション、しばしば安全-クリティカルなコンテキストに浸透してきた。 この総合的な研究論文は、AI技術の急速な進化に関連する倫理的次元を厳格に研究し、特に医療分野に焦点を当てている。 また、透明性、積極的なデータ管理、人間の監視、教育命令、そしてAIの進歩の領域における国際協力など、さまざまな面を深く研究している。 透明性、公平性、応答性、人間中心の方向性といった価値を強調するために細心の注意を払って作られたaiフレームワークの提案です。 記事の第2のコントリビューションは、AIシステムに固有の制限について、詳細かつ徹底的な議論である。 多面的コンテキストをナビゲートする際の潜在的なバイアスと複雑な課題を、即座に識別する。 最後に、この記事は、グローバルに標準化されたai倫理原則とフレームワークの必要性を、明確に強調している。 同時に、これはここで提案された倫理的枠組みの適応性を適切に示しており、突発的な課題を克服するために巧みに位置づけられている。

In the past decade, the deployment of deep learning (Artificial Intelligence (AI)) methods has become pervasive across a spectrum of real-world applications, often in safety-critical contexts. This comprehensive research article rigorously investigates the ethical dimensions intricately linked to the rapid evolution of AI technologies, with a particular focus on the healthcare domain. Delving deeply, it explores a multitude of facets including transparency, adept data management, human oversight, educational imperatives, and international collaboration within the realm of AI advancement. Central to this article is the proposition of a conscientious AI framework, meticulously crafted to accentuate values of transparency, equity, answerability, and a human-centric orientation. The second contribution of the article is the in-depth and thorough discussion of the limitations inherent to AI systems. It astutely identifies potential biases and the intricate challenges of navigating multifaceted contexts. Lastly, the article unequivocally accentuates the pressing need for globally standardized AI ethics principles and frameworks. Simultaneously, it aptly illustrates the adaptability of the ethical framework proposed herein, positioned skillfully to surmount emergent challenges.
翻訳日:2023-09-04 15:30:05 公開日:2023-08-31
# STint:地理空間データに対する自己教師付き時間補間

STint: Self-supervised Temporal Interpolation for Geospatial Data ( http://arxiv.org/abs/2309.00059v1 )

ライセンス: Link先を確認
Nidhin Harilal, Bri-Mathias Hodge, Aneesh Subramanian, Claire Monteleoni(参考訳) 監督・監督されていない技術は、ビデオデータの時間的補間の可能性を示している。 しかしながら、最も一般的な時間的補間技術は、ビデオフレーム間のピクセルの動きを符号化する光フローをヒンジする。 一方、地理空間データは、光学的流れに固有のいくつかの仮定に挑戦する動きと変形のスペクトルを包含しながら、より低い時間分解能を示す。 本研究では,地上の真実データに頼らず,光学的流れのような運動情報を必要とする非教師付き時間補間手法を提案する。 具体的には,2サイクル一貫性の自己管理手法を導入する。 提案手法では,連続する入力フレーム間の2つのフレームの補間を連続的に行うことで,複数のサイクルの整合性損失が生じる。 この双周期一貫した制約により、モデルは自己教師ありの方法で中間フレームを生成する。 我々の知る限りでは、これは光流を明示的に使わずに教師なしの時間補間を試みる最初の試みである。 様々な地理空間データセットを対象とした実験により,sintは教師なし時空間補間のための既存の最先端手法を著しく上回っていることが示された。

Supervised and unsupervised techniques have demonstrated the potential for temporal interpolation of video data. Nevertheless, most prevailing temporal interpolation techniques hinge on optical flow, which encodes the motion of pixels between video frames. On the other hand, geospatial data exhibits lower temporal resolution while encompassing a spectrum of movements and deformations that challenge several assumptions inherent to optical flow. In this work, we propose an unsupervised temporal interpolation technique, which does not rely on ground truth data or require any motion information like optical flow, thus offering a promising alternative for better generalization across geospatial domains. Specifically, we introduce a self-supervised technique of dual cycle consistency. Our proposed technique incorporates multiple cycle consistency losses, which result from interpolating two frames between consecutive input frames through a series of stages. This dual cycle consistent constraint causes the model to produce intermediate frames in a self-supervised manner. To the best of our knowledge, this is the first attempt at unsupervised temporal interpolation without the explicit use of optical flow. Our experimental evaluations across diverse geospatial datasets show that STint significantly outperforms existing state-of-the-art methods for unsupervised temporal interpolation.
翻訳日:2023-09-04 15:29:45 公開日:2023-08-31
# Bellybutton: アクセシブルでカスタマイズ可能なディープラーニングイメージセグメンテーション

Bellybutton: Accessible and Customizable Deep-Learning Image Segmentation ( http://arxiv.org/abs/2309.00058v1 )

ライセンス: Link先を確認
Sam Dillavou, Jesse M. Hanlan, Anthony T. Chieco, Hongyi Xiao, Sage Fulco, Kevin T. Turner, and Douglas J. Durian(参考訳) 生画像から定量化可能なデータへの変換は、実験研究において大きなハードルとなり、通常、セグメンテーションとして知られるプロセスである興味のある領域を特定することを伴う。 画像セグメンテーションのための機械学習ツールは、しばしば追跡セルのような一連のタスクに特化するか、トレーニングと使用のためにかなりの計算やコーディングの知識を必要とする。 ここでは,ラップトップ上でトレーニング可能な15層畳み込みニューラルネットワークであるBellybuttonを用いて,使いやすさ(コーディング不要)のイメージセグメンテーション手法を紹介する。 このアルゴリズムは、ユーザが提供したサンプル画像のセグメンテーションをトレーニングするが、私たちが示すように、トレーニング画像の1つまたは一部だけで十分である場合もある。 機械学習の手法を詳述し,適切な照明,形状,大きさ,焦点,構造変化に拘わらず,bellybuttonが画像を正しくセグメンテーションする3つのユースケースについて述べる。 この論文で使用されるデータセットは、pypi.org/project/Bellybuttonseg.comで公開されている。

The conversion of raw images into quantifiable data can be a major hurdle in experimental research, and typically involves identifying region(s) of interest, a process known as segmentation. Machine learning tools for image segmentation are often specific to a set of tasks, such as tracking cells, or require substantial compute or coding knowledge to train and use. Here we introduce an easy-to-use (no coding required), image segmentation method, using a 15-layer convolutional neural network that can be trained on a laptop: Bellybutton. The algorithm trains on user-provided segmentation of example images, but, as we show, just one or even a portion of one training image can be sufficient in some cases. We detail the machine learning method and give three use cases where Bellybutton correctly segments images despite substantial lighting, shape, size, focus, and/or structure variation across the regions(s) of interest. Instructions for easy download and use, with further details and the datasets used in this paper are available at pypi.org/project/Bellybuttonseg.
翻訳日:2023-09-04 15:29:25 公開日:2023-08-31
# 非エルミート系の固有状態熱分解

Unveiling Eigenstate Thermalization for Non-Hermitian systems ( http://arxiv.org/abs/2309.00049v1 )

ライセンス: Link先を確認
Sudipto Singha Roy, Soumik Bandyopadhyay, Ricardo Costa de Almeida, and Philipp Hauke(参考訳) 固有状態熱化仮説(ETH)は、閉じた量子系の熱力学的挙動を説明するのに大きく影響を与えた。 今のところ、ETHが非エルミート系に適用されるかどうかは不明である。 本稿では,ETHを非エルミート系に拡張するフレームワークを提案する。 これは、非エルミートモデルの右固有ベクトルからなる基底の適切な選択に基づいており、これは物理的議論に基づいて動機付けする選択である。 この場合、非エルミート固有ベクトルの非直交性を正しく説明した後、局所作用素の期待値はエルミート系のよく知られたETH予測を再現する。 非エルミート確率行列とSachdev--Ye-Kitaevモデルに対する修正フレームワークの有効性について述べる。 これにより、ETHを非エルミート的な設定に一般化し、物理的性質を評価するための基底の正しい選択の重要性を示す。

The Eigenstate Thermalization Hypothesis (ETH) has been highly influential in explaining thermodynamic behavior of closed quantum systems. As of yet, it is unclear whether and how the ETH applies to non-Hermitian systems. Here, we introduce a framework that extends the ETH to non-Hermitian systems. It hinges on a suitable choice of basis composed of right eigenvectors of the non-Hermitian model, a choice we motivate based on physical arguments. In this basis, and after correctly accounting for the nonorthogonality of non-Hermitian eigenvectors, expectation values of local operators reproduce the well-known ETH prediction for Hermitian systems. We illustrate the validity of the modified framework on non-Hermitian random-matrix and Sachdev--Ye--Kitaev models. Our results thus generalize the ETH to the non-Hermitian setting, and they illustrate the importance of the correct choice of basis to evaluate physical properties.
翻訳日:2023-09-04 15:29:07 公開日:2023-08-31
# ロバストVQA用ディストラクションフリー埋め込み

Distraction-free Embeddings for Robust VQA ( http://arxiv.org/abs/2309.00133v1 )

ライセンス: Link先を確認
Atharvan Dogra, Deeksha Varshney, Ashwin Kalyan, Ameet Deshpande, Neeraj Kumar(参考訳) 映像質問応答(VQA)のような視覚言語理解(VLU)タスクには,効果的な潜伏表現の生成と,それに続く精密情報の統合による改善が不可欠である。 しかしながら、VLUの既存のほとんどの方法は、入力情報(例えば、フレームやテキストトークンのスパース集合をサンプリングする)のスパースサンプリングや微粒化、あるいは外部知識の追加に焦点を当てている。 我々は, 潜在空間における注意散逸のクロスモーダル表現を除去すべく, 新たな"drax: distraction removal and attended cross-alignment"法を提案する。 我々は,様々なモダリティからの入力情報の知覚を専ら限定するのではなく,注意誘導の注意喚起除去手法を用いて潜在埋め込みにおけるタスク関連情報への注目度を高める。 DRAXはまた、クロスモーダル融合中の埋め込みのセマンティックアライメントを保証する。 我々は,課題のあるベンチマーク(SUTD-TrafficQAデータセット)に対するアプローチを評価し,機能およびイベントクエリ,時間的関係理解,予測,仮説,因果解析などのフレームワークの能力を検証する。

The generation of effective latent representations and their subsequent refinement to incorporate precise information is an essential prerequisite for Vision-Language Understanding (VLU) tasks such as Video Question Answering (VQA). However, most existing methods for VLU focus on sparsely sampling or fine-graining the input information (e.g., sampling a sparse set of frames or text tokens), or adding external knowledge. We present a novel "DRAX: Distraction Removal and Attended Cross-Alignment" method to rid our cross-modal representations of distractors in the latent space. We do not exclusively confine the perception of any input information from various modalities but instead use an attention-guided distraction removal method to increase focus on task-relevant information in latent embeddings. DRAX also ensures semantic alignment of embeddings during cross-modal fusions. We evaluate our approach on a challenging benchmark (SUTD-TrafficQA dataset), testing the framework's abilities for feature and event queries, temporal relation understanding, forecasting, hypothesis, and causal analysis through extensive experiments.
翻訳日:2023-09-04 15:23:37 公開日:2023-08-31
# FTA: フレキシブルトリガーによる頑健でロバストなバックドアアタック

FTA: Stealthy and Robust Backdoor Attack with Flexible Trigger on Federated Learning ( http://arxiv.org/abs/2309.00127v1 )

ライセンス: Link先を確認
Yanqi Qiao, Congwen Chen, Rui Wang, Kaitai Liang(参考訳) 連邦学習(FL)に対する現在のバックドア攻撃は普遍的なトリガーやセマンティックパターンに強く依存しており、これはノルムクリッピングなどの特定の防御機構によって容易に検出およびフィルタリングされ、ローカル更新間のパラメータのばらつきを比較することができる。 本研究では,fl防御に対するフレキシブルトリガーを用いた新しいステルス的かつロバストなバックドア攻撃を提案する。 これを実現するために、我々は、認識不能なフレキシブルなトリガーパターンで良質なサンプルの操作を学習し、同時にトリガーパターンにアタッカー・チョウンラベルの最も重要な隠蔽特徴を含ませることができる生成的トリガー関数を構築した。 さらに、我々のトリガジェネレータは学習を継続し、異なるラウンドにまたがって適応し、グローバルモデルの変化に適応できるようにします。 区別可能な差(トリガーパターンとターゲットラベルのマッピング)を埋めることによって、攻撃を自然に盗むことができる。 実世界のデータセットに対する大規模な実験は、8つのよく研究された防御を伴う分散学習フレームワークに対する以前の攻撃と比較して、攻撃の有効性とステルス性を検証する。

Current backdoor attacks against federated learning (FL) strongly rely on universal triggers or semantic patterns, which can be easily detected and filtered by certain defense mechanisms such as norm clipping, comparing parameter divergences among local updates. In this work, we propose a new stealthy and robust backdoor attack with flexible triggers against FL defenses. To achieve this, we build a generative trigger function that can learn to manipulate the benign samples with an imperceptible flexible trigger pattern and simultaneously make the trigger pattern include the most significant hidden features of the attacker-chosen label. Moreover, our trigger generator can keep learning and adapt across different rounds, allowing it to adjust to changes in the global model. By filling the distinguishable difference (the mapping between the trigger pattern and target label), we make our attack naturally stealthy. Extensive experiments on real-world datasets verify the effectiveness and stealthiness of our attack compared to prior attacks on decentralized learning framework with eight well-studied defenses.
翻訳日:2023-09-04 15:23:16 公開日:2023-08-31
# QS-TTS:ベクトル量子化された自己教師付き音声表現学習による半教師付きテキスト音声合成を目指して

QS-TTS: Towards Semi-Supervised Text-to-Speech Synthesis via Vector-Quantized Self-Supervised Speech Representation Learning ( http://arxiv.org/abs/2309.00126v1 )

ライセンス: Link先を確認
Haohan Guo, Fenglong Xie, Jiawen Kang, Yujia Xiao, Xixin Wu, Helen Meng(参考訳) 本稿では,よりラベルのない音声を用いたVector-Quantized Self-Supervised Speech Representation Learning (VQ-S3RL)による教師付きデータ要求の低減により,TS品質を向上させるための,新しい半教師付きTSフレームワークQS-TTSを提案する。 まず、主学習者は、Multi-Stage Multi-Codebook (MSMC) VQ-S3RをMSMC-VQ-GANとコントラスト付きS3RLと組み合わせて提供し、それを高品質なオーディオに復号し、さらに、VQ-VAEを介してMSMC表現を高度にコンパクトなVQ表現に抽象化する。 これら2つの生成型VQ-S3R学習者は、TSのための有益な音声表現と事前学習モデルを提供し、教師付きデータに対する低要求で合成品質を大幅に改善する。 qs-ttsは実験において主観的および客観的なテストを通して様々なシナリオで総合的に評価される。 その結果、QS-TTSの優れた性能を示し、特に低リソースシナリオにおいて、教師付きまたは半教師付きベースラインTSアプローチよりも最高のMOSを獲得した。 さらに、TTSにおける様々な音声表現と伝達学習法を比較し、提案したVQ-S3RLのTSへの顕著な改善を検証する。 教師付きデータの減少に伴うQS-TTSの合成品質の低下傾向は、教師付きデータの低要求をさらに強調し、低リソースシナリオにおけるその大きな可能性を示している。

This paper proposes a novel semi-supervised TTS framework, QS-TTS, to improve TTS quality with lower supervised data requirements via Vector-Quantized Self-Supervised Speech Representation Learning (VQ-S3RL) utilizing more unlabeled speech audio. This framework comprises two VQ-S3R learners: first, the principal learner aims to provide a generative Multi-Stage Multi-Codebook (MSMC) VQ-S3R via the MSMC-VQ-GAN combined with the contrastive S3RL, while decoding it back to the high-quality audio; then, the associate learner further abstracts the MSMC representation into a highly-compact VQ representation through a VQ-VAE. These two generative VQ-S3R learners provide profitable speech representations and pre-trained models for TTS, significantly improving synthesis quality with the lower requirement for supervised data. QS-TTS is evaluated comprehensively under various scenarios via subjective and objective tests in experiments. The results powerfully demonstrate the superior performance of QS-TTS, winning the highest MOS over supervised or semi-supervised baseline TTS approaches, especially in low-resource scenarios. Moreover, comparing various speech representations and transfer learning methods in TTS further validates the notable improvement of the proposed VQ-S3RL to TTS, showing the best audio quality and intelligibility metrics. The trend of slower decay in the synthesis quality of QS-TTS with decreasing supervised data further highlights its lower requirements for supervised data, indicating its great potential in low-resource scenarios.
翻訳日:2023-09-04 15:22:57 公開日:2023-08-31
# 独立成分ラプラス過程による微分的機能要約

Differentially Private Functional Summaries via the Independent Component Laplace Process ( http://arxiv.org/abs/2309.00125v1 )

ライセンス: Link先を確認
Haotian Lin, Matthew Reimherr(参考訳) 本研究では,独立成分ラプラス法 (independent component laplace process, iclp, iclp) と呼ばれる微分的機能的サマリーを解放する新しいメカニズムを提案する。 興味の関数的要約を真の無限次元オブジェクトとして扱い、ICLPノイズで摂動することにより、この新しいメカニズムはデータトラジェクトリの仮定を緩和し、文献における古典的な有限次元部分空間埋め込みアプローチと比較して高い有用性を保っている。 複数の関数空間における提案機構の実現可能性を確立する。 統計的な推定問題をいくつか検討し,要約を少し過小評価することで,プライバシコストが統計的エラーを支配せず,漸近的に無視できることを示した。 合成および実データセットに関する数値実験により,提案手法の有効性が示された。

In this work, we propose a new mechanism for releasing differentially private functional summaries called the Independent Component Laplace Process, or ICLP, mechanism. By treating the functional summaries of interest as truly infinite-dimensional objects and perturbing them with the ICLP noise, this new mechanism relaxes assumptions on data trajectories and preserves higher utility compared to classical finite-dimensional subspace embedding approaches in the literature. We establish the feasibility of the proposed mechanism in multiple function spaces. Several statistical estimation problems are considered, and we demonstrate by slightly over-smoothing the summary, the privacy cost will not dominate the statistical error and is asymptotically negligible. Numerical experiments on synthetic and real datasets demonstrate the efficacy of the proposed mechanism.
翻訳日:2023-09-04 15:22:20 公開日:2023-08-31
# 画像の深層学習過程を利用したsegmenta\c{c}\~ao e contagem de troncos de madeira

Segmenta\c{c}\~ao e contagem de troncos de madeira utilizando deep learning e processamento de imagens ( http://arxiv.org/abs/2309.00123v1 )

ライセンス: Link先を確認
Jo\~ao V. C. Mazzochin and Gustavo Tiecker and Erick O. Rodrigues(参考訳) 画像中のオブジェクトをカウントすることは、その出現率を決定する要素を特定することに焦点を当てたパターン認識問題であり、文献ではビジュアルオブジェクトカウント (VOC) としてアプローチされている。 本研究では,木材ログをカウントする手法を提案する。 まず、画像背景から木材ログを分割する。 この最初のセグメンテーションステップは、CGAN(Conditional Generative Adversarial Networks)を実装したPix2Pixフレームワークを用いて得られる。 第二に、クラスタはConnected Componentsを使ってカウントされる。 セグメンテーションの平均精度は89%を超え、総勘定に基づいて同定された木材ログの平均量は97%以上である。

Counting objects in images is a pattern recognition problem that focuses on identifying an element to determine its incidence and is approached in the literature as Visual Object Counting (VOC). In this work, we propose a methodology to count wood logs. First, wood logs are segmented from the image background. This first segmentation step is obtained using the Pix2Pix framework that implements Conditional Generative Adversarial Networks (CGANs). Second, the clusters are counted using Connected Components. The average accuracy of the segmentation exceeds 89% while the average amount of wood logs identified based on total accounted is over 97%.
翻訳日:2023-09-04 15:22:06 公開日:2023-08-31
# 自己注意を超えて:医療画像分割のための変形可能な大カーネルアテンション

Beyond Self-Attention: Deformable Large Kernel Attention for Medical Image Segmentation ( http://arxiv.org/abs/2309.00121v1 )

ライセンス: Link先を確認
Reza Azad, Leon Niggemeier, Michael Huttemann, Amirhossein Kazerouni, Ehsan Khodapanah Aghdam, Yury Velichko, Ulas Bagci, Dorit Merhof(参考訳) 医用画像のセグメンテーションはトランスフォーマーモデルで大幅に改善され、遠隔のコンテキストやグローバルなコンテキスト情報を把握できる。 しかし、これらのモデルの計算要求の増加は、正方形のトークン数に比例し、その深さと解像度の能力を制限する。 現在のほとんどの方法は、Dボリューム画像データスライス・バイ・スライス(擬似3D)を処理し、重要なインタースライス情報を欠いているため、モデル全体のパフォーマンスが低下する。 これらの課題に対処するために,大コンボリューションカーネルを用いてボリュームコンテキストを十分に理解するための注意機構である, \textbf{Deformable Large Kernel Attention (D-LKA Attention)} の概念を導入する。 このメカニズムは、計算オーバーヘッドを回避しながら、自己アテンションに似た受容フィールド内で動作します。 さらに,提案する注意機構は,変形可能な畳み込みによってサンプリンググリッドに柔軟に反動し,モデルが多様なデータパターンに適切に適応できるという利点がある。 我々はD-LKA注意の2次元および3次元適応を設計し、後者は深部データ理解に優れていた。 これらのコンポーネントは、新しい階層型ビジョントランスフォーマーアーキテクチャである \textit{D-LKA Net} を形成する。 一般医療用セグメンテーションデータセット (synapse, nih pancreas, skin lesion) におけるリード法に対する評価は, その優れた性能を示している。 私たちのコード実装は、https://github.com/mindflow-institue/deformableLKAで公開されています。

Medical image segmentation has seen significant improvements with transformer models, which excel in grasping far-reaching contexts and global contextual information. However, the increasing computational demands of these models, proportional to the squared token count, limit their depth and resolution capabilities. Most current methods process D volumetric image data slice-by-slice (called pseudo 3D), missing crucial inter-slice information and thus reducing the model's overall performance. To address these challenges, we introduce the concept of \textbf{Deformable Large Kernel Attention (D-LKA Attention)}, a streamlined attention mechanism employing large convolution kernels to fully appreciate volumetric context. This mechanism operates within a receptive field akin to self-attention while sidestepping the computational overhead. Additionally, our proposed attention mechanism benefits from deformable convolutions to flexibly warp the sampling grid, enabling the model to adapt appropriately to diverse data patterns. We designed both 2D and 3D adaptations of the D-LKA Attention, with the latter excelling in cross-depth data understanding. Together, these components shape our novel hierarchical Vision Transformer architecture, the \textit{D-LKA Net}. Evaluations of our model against leading methods on popular medical segmentation datasets (Synapse, NIH Pancreas, and Skin lesion) demonstrate its superior performance. Our code implementation is publicly available at the: https://github.com/mindflow-institue/deformableLKA
翻訳日:2023-09-04 15:21:52 公開日:2023-08-31
# laplacian-former:局所テクスチャ検出における視覚トランスフォーマーの限界を克服する

Laplacian-Former: Overcoming the Limitations of Vision Transformers in Local Texture Detection ( http://arxiv.org/abs/2309.00108v1 )

ライセンス: Link先を確認
Reza Azad, Amirhossein Kazerouni, Babak Azad, Ehsan Khodapanah Aghdam, Yury Velichko, Ulas Bagci, Dorit Merhof(参考訳) Vision Transformer (ViT) モデルは、幅広いコンピュータビジョンタスクにおいてブレークスルーを実証している。 しかし、畳み込みニューラルネットワーク(CNN)モデルと比較して、ViTモデルは画像の高周波成分を捉えるのに苦労しており、局所的なテクスチャやエッジ情報を検出する能力を制限することができる。 腫瘍や病変などのヒト組織の異常は構造、テクスチャ、形状に大きく異なる可能性があるため、テクスチャなどの高周波情報は効果的なセグメンテーションタスクに不可欠である。 ViTモデルにおけるこの制限を解決するために,ラプラシアンピラミッド内の周波数情報を適応的に補正することで自己アテンションマップを強化する新しい手法であるラプラシアン・フォーマーを提案する。 より具体的には、効率的な注意と頻度の注意を通して2重注意機構を活用し、効率的な注意機構は、同じ出力を生成しつつ、リニアへの自己注意の複雑さを低減し、形状とテクスチャの特徴の寄与を選択的に強化する。 さらに,基本特性を維持しつつ,エンコーダからデコーダへ空間情報を効果的に転送する新しい高効率化マルチスケールブリッジを提案する。 そこで本研究では,soma アプローチと比較して +1.87\% および +0.76\% dice スコアのマルチオルガンおよび皮膚病変分割タスクに対する laplacian-former の有効性を示す。 私たちの実装はhttps://github.com/mindflow-institue/laplacian-formerで公開しています。

Vision Transformer (ViT) models have demonstrated a breakthrough in a wide range of computer vision tasks. However, compared to the Convolutional Neural Network (CNN) models, it has been observed that the ViT models struggle to capture high-frequency components of images, which can limit their ability to detect local textures and edge information. As abnormalities in human tissue, such as tumors and lesions, may greatly vary in structure, texture, and shape, high-frequency information such as texture is crucial for effective semantic segmentation tasks. To address this limitation in ViT models, we propose a new technique, Laplacian-Former, that enhances the self-attention map by adaptively re-calibrating the frequency information in a Laplacian pyramid. More specifically, our proposed method utilizes a dual attention mechanism via efficient attention and frequency attention while the efficient attention mechanism reduces the complexity of self-attention to linear while producing the same output, selectively intensifying the contribution of shape and texture features. Furthermore, we introduce a novel efficient enhancement multi-scale bridge that effectively transfers spatial information from the encoder to the decoder while preserving the fundamental features. We demonstrate the efficacy of Laplacian-former on multi-organ and skin lesion segmentation tasks with +1.87\% and +0.76\% dice scores compared to SOTA approaches, respectively. Our implementation is publically available at https://github.com/mindflow-institue/Laplacian-Former
翻訳日:2023-09-04 15:21:26 公開日:2023-08-31
# GANサンプル品質の教師なし評価:TTJacスコアの導入

Unsupervised evaluation of GAN sample quality: Introducing the TTJac Score ( http://arxiv.org/abs/2309.00107v1 )

ライセンス: Link先を確認
Egor Sevriugov, Ivan Oseledets(参考訳) 画像合成における生成モデルの性能評価には評価指標が不可欠である。 しかし、既存のメトリクスは、しばしば、生成されたサンプルと実際のデータポイントの間の距離を計算するときに、高いメモリと時間消費を伴います。 本研究では,個々の合成画像の忠実度をデータフリーで測定するために,TTJacスコアと呼ばれる新しい評価指標を提案する。 この研究はまず、生成されたサンプル密度を直接評価するための理論的アプローチを確立する。 そして、特徴抽出器を組み込んだテンソルトレインによる離散関数近似を導入し、生成したサンプルの品質を効果的に評価する。 さらに,本研究は, トラルニケーション手法を適用した場合の忠実度-可変性トレードオフを改善するために, この新しい指標が有効であることを示す。 FFHQ, AFHQ-Wild, LSUN-Cars, LSUN-Horseデータセット上でのStyleGAN 2およびStyleGAN 2 ADAモデルに適用した実験結果を示す。 この研究で使用されるコードは、研究コミュニティがアクセスして利用できるように、オンラインで公開されます。

Evaluation metrics are essential for assessing the performance of generative models in image synthesis. However, existing metrics often involve high memory and time consumption as they compute the distance between generated samples and real data points. In our study, the new evaluation metric called the "TTJac score" is proposed to measure the fidelity of individual synthesized images in a data-free manner. The study first establishes a theoretical approach to directly evaluate the generated sample density. Then, a method incorporating feature extractors and discrete function approximation through tensor train is introduced to effectively assess the quality of generated samples. Furthermore, the study demonstrates that this new metric can be used to improve the fidelity-variability trade-off when applying the truncation trick. The experimental results of applying the proposed metric to StyleGAN 2 and StyleGAN 2 ADA models on FFHQ, AFHQ-Wild, LSUN-Cars, and LSUN-Horse datasets are presented. The code used in this research will be made publicly available online for the research community to access and utilize.
翻訳日:2023-09-04 15:20:59 公開日:2023-08-31
# 属性分解・集約による開語彙意味セグメンテーション

Open-Vocabulary Semantic Segmentation via Attribute Decomposition-Aggregation ( http://arxiv.org/abs/2309.00096v1 )

ライセンス: Link先を確認
Chaofan Ma, Yuhuan Yang, Chen Ju, Fei Zhang, Ya Zhang, Yanfeng Wang(参考訳) オープンボキャブラリセマンティックセグメンテーションは、推論時に新しいオブジェクトカテゴリをセグメンテーションする必要がある難しいタスクである。 最近の研究は、このタスクを扱うための視覚言語事前学習を探求しているが、実用的なシナリオ、すなわち低品質のテキストカテゴリ名において非現実的な仮定に苦しめられている。 例えば、このパラダイムは、新しいテキストカテゴリが正確かつ完全に提供され、事前学習中にレキシコンに存在すると仮定する。 しかし、短い名前や不完全な名前のあいまいさ、事前訓練された語彙に存在しない新しい単語、ユーザにとって難しいカテゴリーで例外が発生することが多い。 これらの問題に対処するため,本研究では,新しい概念理解における人間の認知に触発された,新しい分解集約フレームワークを提案する。 具体的には、分解段階では、クラス名を様々な属性記述に分離し、セマンティックコンテキストを豊かにする。 2つの属性構築戦略が設計されており、共通のカテゴリに大規模言語モデルを使用し、人間が発明したカテゴリに手動でラベル付けする。 集約段階において,多様な属性を統合的なグローバル記述にグループ化し,対象対象を他の対象と区別する識別的分類器を形成する。 ひとつの階層的なアグリゲーションは、視覚とテキストのマルチレベルアライメントと深い融合を実現するためにさらに設計されている。 最終的な結果は、集約属性と画像の埋め込み類似性を計算することによって得られる。 有効性を評価するため,属性記述を伴う3つのデータセットをアノテートし,広範な実験とアブレーション実験を行った。 その結果,属性分解凝集の優れた性能を示した。

Open-vocabulary semantic segmentation is a challenging task that requires segmenting novel object categories at inference time. Recent works explore vision-language pre-training to handle this task, but suffer from unrealistic assumptions in practical scenarios, i.e., low-quality textual category names. For example, this paradigm assumes that new textual categories will be accurately and completely provided, and exist in lexicons during pre-training. However, exceptions often happen when meet with ambiguity for brief or incomplete names, new words that are not present in the pre-trained lexicons, and difficult-to-describe categories for users. To address these issues, this work proposes a novel decomposition-aggregation framework, inspired by human cognition in understanding new concepts. Specifically, in the decomposition stage, we decouple class names into diverse attribute descriptions to enrich semantic contexts. Two attribute construction strategies are designed: using large language models for common categories, and involving manually labelling for human-invented categories. In the aggregation stage, we group diverse attributes into an integrated global description, to form a discriminative classifier that distinguishes the target object from others. One hierarchical aggregation is further designed to achieve multi-level alignment and deep fusion between vision and text. The final result is obtained by computing the embedding similarity between aggregated attributes and images. To evaluate the effectiveness, we annotate three datasets with attribute descriptions, and conduct extensive experiments and ablation studies. The results show the superior performance of attribute decomposition-aggregation.
翻訳日:2023-09-04 15:20:41 公開日:2023-08-31
# 未来市場におけるフラッド検出のための深部半監督異常検出

Deep Semi-Supervised Anomaly Detection for Finding Fraud in the Futures Market ( http://arxiv.org/abs/2309.00088v1 )

ライセンス: Link先を確認
Timothy DeLise(参考訳) 現代の金融電子取引所は、何十億ドルものドルが毎日手を取り合う、エキサイティングでペースの速い市場だ。 彼らはまた、操作と詐欺に苦しめられている。 このような活動を検出することは、歴史的に人間専用の仕事であった大きな仕事である。 近年、機械学習と人工知能によるプロセス自動化により多くの研究とリソースが注がれている。 不正検出は、教師付き学習に必要なラベル付きデータがないため、教師なし学習技術によって行われる、より大きな異常検出分野と圧倒的に関連している。 しかし、少ない量のラベル付きデータが存在することが多い。 本稿では,高頻度金融データにおける不正検出のための深部半教師付き異常検出技術であるDeep SADの有効性を評価することを目的とする。 我々は、Montr\ealのTMX取引所の独占的なリミットオーダーの帳簿データと、不正行為の小さなラベル付き事例を用いて、Deep SADを監督されていない前者に対して評価する。 少数のラベル付きデータを教師なし異常検出フレームワークに組み込むことで精度を大幅に向上できることを示す。

Modern financial electronic exchanges are an exciting and fast-paced marketplace where billions of dollars change hands every day. They are also rife with manipulation and fraud. Detecting such activity is a major undertaking, which has historically been a job reserved exclusively for humans. Recently, more research and resources have been focused on automating these processes via machine learning and artificial intelligence. Fraud detection is overwhelmingly associated with the greater field of anomaly detection, which is usually performed via unsupervised learning techniques because of the lack of labeled data needed for supervised learning. However, a small quantity of labeled data does often exist. This research article aims to evaluate the efficacy of a deep semi-supervised anomaly detection technique, called Deep SAD, for detecting fraud in high-frequency financial data. We use exclusive proprietary limit order book data from the TMX exchange in Montr\'eal, with a small set of true labeled instances of fraud, to evaluate Deep SAD against its unsupervised predecessor. We show that incorporating a small amount of labeled data into an unsupervised anomaly detection framework can greatly improve its accuracy.
翻訳日:2023-09-04 15:20:14 公開日:2023-08-31
# ピアから学ぶ:インフォーマル認知症介護者におけるオンラインピアサポートの認知と活用に関する調査

Learning From Peers: A Survey of Perception and Utilization of Online Peer Support Among Informal Dementia Caregivers ( http://arxiv.org/abs/2309.00154v1 )

ライセンス: Link先を確認
Zhijun Yin, Lauren Stratton, Qingyuan Song, Congning Ni, Lijun Song, Patricia A. Commiskey, Qingxia Chen, Monica Moreno, Sam Fazio, and Bradley A. Malin(参考訳) 非公式な認知症介護者は、支払いを受けずに認知症患者(plwd)の世話をする人(家族、友人、その他の無給介護者など)である。 これらの非公式な介護者は、実質的な精神的、身体的、財政的な負担を受ける。 オンラインコミュニティは、これらの介護者が介護戦略を交換し、実際に知らない他の介護者と経験を共有することを可能にする。 オンラインコミュニティにおけるピアサポートのメリットは研究によって実証されているが、すでにオンラインユーザである介護者だけに限定されている。 本稿では,140名の非公式認知症介護者(100名)を対象に,オンラインピアサポートの認知と活用に関する調査を設計し,実施した。 その結果, オンラインコミュニティにアクセスする行動は, オンラインピアサポートの価値に対する信念と大きく関係していることがわかった (p = 0.006)。 さらに、40名の非オンライン・コミュニティ介護者の33名(83%)は、信念問合せ毎に中立オプションが選択された場合に割り当てられた信念スコアが24以上であった。 オンラインコミュニティにアクセスできない理由の多くは、そうする時間がない(14; 10%)、オンライン情報検索スキルが不十分(9; 6%)だった。 以上の結果から,オンラインピアサポートは有益であるが,時間や検索能力に乏しい認知症介護者を支援するための実践的戦略が必要であることが示唆された。

Informal dementia caregivers are those who care for a person living with dementia (PLWD) without receiving payment (e.g., family members, friends, or other unpaid caregivers). These informal caregivers are subject to substantial mental, physical, and financial burdens. Online communities enable these caregivers to exchange caregiving strategies and communicate experiences with other caregivers whom they generally do not know in real life. Research has demonstrated the benefits of peer support in online communities, but they are limited in focusing merely on caregivers who are already online users. In this paper, we designed and administered a survey to investigate the perception and utilization of online peer support from 140 informal dementia caregivers (with 100 online-community caregivers). Our findings show that the behavior to access any online community is only significantly associated with their belief in the value of online peer support (p = 0.006). Moreover, 33 (83%) of the 40 non-online-community caregivers had a belief score above 24, a score assigned when a neutral option is selected for each belief question. The reasons most articulated for not accessing any online community were no time to do so (14; 10%), and insufficient online information searching skills (9; 6%). Our findings suggest that online peer support is valuable, but practical strategies are needed to assist informal dementia caregivers who have limited time or searching skills.
翻訳日:2023-09-04 15:12:54 公開日:2023-08-31
# 量子ブラウン運動における非熱的ゆらぎ-散逸関係に関する注記

Notes on a non-thermal fluctuation-dissipation relation in quantum Brownian motion ( http://arxiv.org/abs/2309.00151v1 )

ライセンス: Link先を確認
Xinyi Chen-Lin(参考訳) シュウィンガー・ケルディシュ形式主義におけるユニタリティと定常性は、自然に(量子)一般化されたゆらぎ-散逸関係(gFDR)に導かれる。 非ガウスループ補正も提示される。 さらに、量子ブラウン運動と一般化ランゲヴィン方程式に関連する様々なシナリオにおけるこの gFDR の適用について説明する。

We review how unitarity and stationarity in the Schwinger-Keldysh formalism naturally lead to a (quantum) generalized fluctuation-dissipation relation (gFDR) that works beyond thermal equilibrium. Non-Gaussian loop corrections are also presented. Additionally, we illustrate the application of this gFDR in various scenarios related to quantum Brownian motion and the generalized Langevin equation.
翻訳日:2023-09-04 15:12:28 公開日:2023-08-31
# turbogp: 柔軟性と高度なpythonベースのgpライブラリ

TurboGP: A flexible and advanced python based GP library ( http://arxiv.org/abs/2309.00149v1 )

ライセンス: Link先を確認
Lino Rodriguez-Coayahuitl, Alicia Morales-Reyes, Hugo Jair Escalante(参考訳) 我々はPythonで完全に記述され、特に機械学習タスク用に設計されたTurboGPについて紹介する。 TurboGPは、島や細胞集団計画、さまざまな種類の遺伝子操作(移行、保護されたクロスオーバー)、オンライン学習など、他のGP実装では利用できないモダンな機能を実装している。 TurboGPの最も特徴的な特徴は、異なる抽象化レベルを実現するために異なるタイプのGPノードをネイティブにサポートしていることであり、TurboGPは特に様々なデータソースを処理するのに有用である。

We introduce TurboGP, a Genetic Programming (GP) library fully written in Python and specifically designed for machine learning tasks. TurboGP implements modern features not available in other GP implementations, such as island and cellular population schemes, different types of genetic operations (migration, protected crossovers), online learning, among other features. TurboGP's most distinctive characteristic is its native support for different types of GP nodes to allow different abstraction levels, this makes TurboGP particularly useful for processing a wide variety of data sources.
翻訳日:2023-09-04 15:12:23 公開日:2023-08-31
# 肺炎検出のためのDeep Feature Selectionの最適化: RegNet と XOR-based PSO による新しいアプローチ

Optimized Deep Feature Selection for Pneumonia Detection: A Novel RegNet and XOR-Based PSO Approach ( http://arxiv.org/abs/2309.00147v1 )

ライセンス: Link先を確認
Fatemehsadat Ghanadi Ladani, Samaneh Hosseini Semnani(参考訳) 肺炎は、特に資源や専門知識が限られている発展途上国において、乳児死亡の重要な原因である。 肺炎の自動検出は、この課題に対処するのに大いに役立つ。 本研究では, 肺炎検出におけるcnnモデルの精度向上を目的として, レグネットモデルの第2層から深層特徴を選択するためのxorを用いた粒子群最適化 (pso) を提案する。 提案したXOR PSOアルゴリズムは、初期化のために1つのハイパーパラメータを組み込むことで単純さを提供する。 さらに、探索と搾取のバランスを実現し、適切なソリューションに収束する。 163個の特徴を抽出し,98%の精度を達成し,従来のPSO法と同等の精度を示した。 提案されたメソッドのソースコードはGitHubリポジトリから入手できる。

Pneumonia remains a significant cause of child mortality, particularly in developing countries where resources and expertise are limited. The automated detection of Pneumonia can greatly assist in addressing this challenge. In this research, an XOR based Particle Swarm Optimization (PSO) is proposed to select deep features from the second last layer of a RegNet model, aiming to improve the accuracy of the CNN model on Pneumonia detection. The proposed XOR PSO algorithm offers simplicity by incorporating just one hyperparameter for initialization, and each iteration requires minimal computation time. Moreover, it achieves a balance between exploration and exploitation, leading to convergence on a suitable solution. By extracting 163 features, an impressive accuracy level of 98% was attained which demonstrates comparable accuracy to previous PSO-based methods. The source code of the proposed method is available in the GitHub repository.
翻訳日:2023-09-04 15:12:06 公開日:2023-08-31
# IABネットワークにおけるマルチエージェントDeepRLを用いたジョイントパワーとサブチャネルアロケーション

Multi Agent DeepRL based Joint Power and Subchannel Allocation in IAB networks ( http://arxiv.org/abs/2309.00144v1 )

ライセンス: Link先を確認
Lakshya Jagadish, Banashree Sarma, R. Manivasakan(参考訳) IAB(Integrated Access and Backhauling)は、次世代のデータレートに対する前例のない要求を満たすためのアプローチであり、高密度のファイバー配線リンクに代わる費用対効果がある。 このような制約付きネットワークの設計は、通常、非凸および組合せ的性質の最適化問題をもたらす。 このような状況下では,sapa(joint subchannel allocation and power allocation)問題の最適戦略を得ることが困難である。 本稿では,iabネットワークにおける電力とサブチャネル割り当ての協調最適化のための多エージェント深層強化学習(deeprl)ベースのフレームワークを開発し,ダウンリンクデータレートを最大化する。 DDQN (Double Deep Q-Learning Network) を用いたSAPAは、複数のユーザやノードに関連する巨大なアクション空間を持つ計算コストの高い問題を処理できる。 ゲーム理論や分数プログラミング、凸最適化といった従来の手法とは異なり、実際にはより正確なネットワーク情報を必要とするため、マルチエージェントのDeepRLアプローチでは環境ネットワーク情報が少ない。 シミュレーション結果は,ベースライン(ディープqラーニングネットワークとランダム)と比較した場合,提案手法の有望な性能を示す。

Integrated Access and Backhauling (IAB) is a viable approach for meeting the unprecedented need for higher data rates of future generations, acting as a cost-effective alternative to dense fiber-wired links. The design of such networks with constraints usually results in an optimization problem of non-convex and combinatorial nature. Under those situations, it is challenging to obtain an optimal strategy for the joint Subchannel Allocation and Power Allocation (SAPA) problem. In this paper, we develop a multi-agent Deep Reinforcement Learning (DeepRL) based framework for joint optimization of power and subchannel allocation in an IAB network to maximize the downlink data rate. SAPA using DDQN (Double Deep Q-Learning Network) can handle computationally expensive problems with huge action spaces associated with multiple users and nodes. Unlike the conventional methods such as game theory, fractional programming, and convex optimization, which in practice demand more and more accurate network information, the multi-agent DeepRL approach requires less environment network information. Simulation results show the proposed scheme's promising performance when compared with baseline (Deep Q-Learning Network and Random) schemes.
翻訳日:2023-09-04 15:11:41 公開日:2023-08-31
# 自己教師付きセマンティックセグメンテーション: トランスフォーメーションに対する一貫性

Self-supervised Semantic Segmentation: Consistency over Transformation ( http://arxiv.org/abs/2309.00143v1 )

ライセンス: Link先を確認
Sanaz Karimijafarbigloo, Reza Azad, Amirhossein Kazerouni, Yury Velichko, Ulas Bagci, Dorit Merhof(参考訳) 正確な医用画像分割は、臨床判断の自動化を可能にする上で最も重要である。 しかしながら、医療画像分割のための教師付きディープラーニングアプローチは、広範なラベル付きトレーニングデータに大きく依存しているため、大きな課題に直面している。 この問題に対処するために,提案するInception Large Kernel Attention (I-LKA) モジュールに基づく堅牢なフレームワークを統合した,新しい自己教師型アルゴリズムである \textbf{S$^3$-Net} を提案する。 このアーキテクチャ拡張により、局所的な複雑さを保ちながらコンテキスト情報を包括的にキャプチャし、正確なセマンティックセグメンテーションを可能にする。 さらに, 医用画像の病変がしばしば変形を示すことを考えると, 変形可能な畳み込みを積分成分として活用し, より優れた物体境界定義のための変形を効果的に捉える。 さらに,我々の自己監督戦略は,医学的シナリオでよく見られるアフィン変換の不変性の獲得を強調する。 この幾何学的歪みに対するロバスト性を強調することは、モデルがそのような歪みを正確にモデル化し処理する能力を著しく向上させる。 空間的一貫性を強制し、類似した特徴表現を持つ空間的連結画像画素のグルーピングを促進するため、空間的一貫性損失項を導入する。 これにより、近隣のピクセル間の関係を効果的に捉え、全体のセグメンテーション品質を高めることができる。 S$3$-Netアプローチは、画像コンテンツクラスタリングのためのピクセルレベルの特徴表現をエンドツーエンドで反復的に学習する。 皮膚病変および肺臓器の分節タスクに関する実験結果から,SOTA法と比較して,本手法の優れた性能を示した。 https://github.com/mindflow-institue/SSCT

Accurate medical image segmentation is of utmost importance for enabling automated clinical decision procedures. However, prevailing supervised deep learning approaches for medical image segmentation encounter significant challenges due to their heavy dependence on extensive labeled training data. To tackle this issue, we propose a novel self-supervised algorithm, \textbf{S$^3$-Net}, which integrates a robust framework based on the proposed Inception Large Kernel Attention (I-LKA) modules. This architectural enhancement makes it possible to comprehensively capture contextual information while preserving local intricacies, thereby enabling precise semantic segmentation. Furthermore, considering that lesions in medical images often exhibit deformations, we leverage deformable convolution as an integral component to effectively capture and delineate lesion deformations for superior object boundary definition. Additionally, our self-supervised strategy emphasizes the acquisition of invariance to affine transformations, which is commonly encountered in medical scenarios. This emphasis on robustness with respect to geometric distortions significantly enhances the model's ability to accurately model and handle such distortions. To enforce spatial consistency and promote the grouping of spatially connected image pixels with similar feature representations, we introduce a spatial consistency loss term. This aids the network in effectively capturing the relationships among neighboring pixels and enhancing the overall segmentation quality. The S$^3$-Net approach iteratively learns pixel-level feature representations for image content clustering in an end-to-end manner. Our experimental results on skin lesion and lung organ segmentation tasks show the superior performance of our method compared to the SOTA approaches. https://github.com/mindflow-institue/SSCT
翻訳日:2023-09-04 15:11:04 公開日:2023-08-31
# ストリーミングコンフォーマエンコーダにおける動的モジュールスキップを用いた視覚インスパイアされたキーワードスポッティングの改善

Improving vision-inspired keyword spotting using dynamic module skipping in streaming conformer encoder ( http://arxiv.org/abs/2309.00140v1 )

ライセンス: Link先を確認
Alexandre Bittar, Paul Dixon, Mohammad Samragh, Kumari Nishu, Devang Naik(参考訳) 視覚に触発されたキーワードスポッティングフレームワークを用いて,ストリーミングオーディオを処理可能な入力依存動的深度アーキテクチャを提案する。 具体的には、入力オーディオに応じてネットワークモジュールを動的にスキップできる、トレーニング可能なバイナリゲートを備えたコンフォーメータエンコーダを拡張します。 提案手法は,メモリフットプリントを小さく保ちつつ,Librispeech Top-1000を用いた連続音声の検出と位置決め精度を向上させる。 ゲートを組み込むことで、全体的なパフォーマンスに影響を与えることなく、処理の平均量を削減できる。 これらの利点は、非音声入力で最大97%の処理がスキップされるバックグラウンドノイズの上に置かれるgoogle speech commandデータセットでさらに顕著であることを示し、この手法を常時オンのキーワードスポッターにとって特に興味深いものにしている。

Using a vision-inspired keyword spotting framework, we propose an architecture with input-dependent dynamic depth capable of processing streaming audio. Specifically, we extend a conformer encoder with trainable binary gates that allow us to dynamically skip network modules according to the input audio. Our approach improves detection and localization accuracy on continuous speech using Librispeech top-1000 most frequent words while maintaining a small memory footprint. The inclusion of gates also reduces the average amount of processing without affecting the overall performance. These benefits are shown to be even more pronounced using the Google speech commands dataset placed over background noise where up to 97% of the processing is skipped on non-speech inputs, therefore making our method particularly interesting for an always-on keyword spotter.
翻訳日:2023-09-04 15:10:29 公開日:2023-08-31
# 子ども向けコンピュータゲームにおける音声映像感情認識のためのファジィアプローチ

Fuzzy Approach for Audio-Video Emotion Recognition in Computer Games for Children ( http://arxiv.org/abs/2309.00138v1 )

ライセンス: Link先を確認
Pavel Kozlov, Alisher Akram, Pakizar Shamoi(参考訳) コンピュータゲームは近年広く普及し、あらゆる年齢の人々が楽しんでいる。 しかし、子どもたちにとって、これらのゲームは単なる楽しいだけでなく、重要なスキルを開発し、感情的な知性を構築するための手段でもある。 子供たちがゲームプレイ中に生み出す表情や音は、感情、思考、気分を反映している。 本稿では,音声およびビデオデータの解析を通じて,感情認識のためのファジィアプローチを統合する新しいフレームワークを提案する。 私たちの焦点は、子ども向けのコンピュータゲームの特定のコンテキストに置かれており、ユーザー体験の全体的な向上を目的としています。 FERデータセットを用いて、ゲーム中に画面から記録された映像フレームの顔の感情を検出する。 ゲーム中に子どもが生み出す音声の感情認識には、CREMA-D, TESS, RAVDESS, Saveeのデータセットを使用する。 次に、結果を融合するためにファジィ推論システムを用いる。 さらに,ゲームプレイ中の感情の安定性や感情の多様性を検知し,一般的な感情報告とともに,特定のゲームが子どもに与える影響を心配する親にとって有用な情報となる。 提案手法は,3つの異なるゲーム,例えばファイト,レース,ロジックゲーム,各ゲームにおける子どもの感情追跡結果などを含む予備実験において,有望な結果を示した。 本研究は,子どもの認知的,感情的な状態に対する関与だけでなく,子ども向けゲーム開発の発展に寄与する。

Computer games are widespread nowadays and enjoyed by people of all ages. But when it comes to kids, playing these games can be more than just fun, it is a way for them to develop important skills and build emotional intelligence. Facial expressions and sounds that kids produce during gameplay reflect their feelings, thoughts, and moods. In this paper, we propose a novel framework that integrates a fuzzy approach for the recognition of emotions through the analysis of audio and video data. Our focus lies within the specific context of computer games tailored for children, aiming to enhance their overall user experience. We use the FER dataset to detect facial emotions in video frames recorded from the screen during the game. For the audio emotion recognition of sounds a kid produces during the game, we use CREMA-D, TESS, RAVDESS, and Savee datasets. Next, a fuzzy inference system is used for the fusion of results. Besides this, our system can detect emotion stability and emotion diversity during gameplay, which, together with prevailing emotion report, can serve as valuable information for parents worrying about the effect of certain games on their kids. The proposed approach has shown promising results in the preliminary experiments we conducted, involving 3 different video games, namely fighting, racing, and logic games, and providing emotion-tracking results for kids in each game. Our study can contribute to the advancement of child-oriented game development, which is not only engaging but also accounts for children's cognitive and emotional states.
翻訳日:2023-09-04 15:10:10 公開日:2023-08-31
# 時系列分析と自然言語処理による金融市場のトレンド予測

Predicting Financial Market Trends using Time Series Analysis and Natural Language Processing ( http://arxiv.org/abs/2309.00136v1 )

ライセンス: Link先を確認
Ali Asgarov(参考訳) 時系列分析と自然言語処理による金融市場のトレンド予測は、株価に影響を及ぼす数多くの変数のため、複雑で要求の大きい業務をもたらす。 これらの変数は、経済的および政治的事象のスペクトルを含み、大衆の態度も一般的である。 最近の研究では、Twitterなどのソーシャルメディアプラットフォーム上での公開感情の表現が株価決定に顕著な影響を及ぼす可能性があることが示されている。 本研究の目的は、TeslaやAppleといった大手企業の株価を予測するためのツールとして、Twitterの感情の有効性を評価することである。 われわれの研究は、ツイートで伝えられた感情と株価の変動との間に強い関係があることを明らかにした。 以上の結果から,肯定性,否定性,主観性が株価変動の主な要因であることが示唆された。 このデータは長期記憶ニューラルネット(lstm)モデルを用いて分析され、現在、twitterの感情と過去の株価データを組み合わせて株価を予測する主要な手法として認識されている。 本研究で活用したモデルは高い信頼性を示し, 指定企業に対して正確な結果を得た。 まとめると、この研究は世論を株価予測に取り入れることの重要性を強調している。 時系列分析および自然言語処理手法の適用により、金融市場パターンに関する重要な科学的知見が得られ、投資家間の情報的意思決定が促進される。 本研究の結果から,twitterのセンチメントの利用は株価予測に有効な手段であり,投資戦略を策定する場合に考慮すべきであることが示唆された。

Forecasting financial market trends through time series analysis and natural language processing poses a complex and demanding undertaking, owing to the numerous variables that can influence stock prices. These variables encompass a spectrum of economic and political occurrences, as well as prevailing public attitudes. Recent research has indicated that the expression of public sentiments on social media platforms such as Twitter may have a noteworthy impact on the determination of stock prices. The objective of this study was to assess the viability of Twitter sentiments as a tool for predicting stock prices of major corporations such as Tesla, Apple. Our study has revealed a robust association between the emotions conveyed in tweets and fluctuations in stock prices. Our findings indicate that positivity, negativity, and subjectivity are the primary determinants of fluctuations in stock prices. The data was analyzed utilizing the Long-Short Term Memory neural network (LSTM) model, which is currently recognized as the leading methodology for predicting stock prices by incorporating Twitter sentiments and historical stock prices data. The models utilized in our study demonstrated a high degree of reliability and yielded precise outcomes for the designated corporations. In summary, this research emphasizes the significance of incorporating public opinions into the prediction of stock prices. The application of Time Series Analysis and Natural Language Processing methodologies can yield significant scientific findings regarding financial market patterns, thereby facilitating informed decision-making among investors. The results of our study indicate that the utilization of Twitter sentiments can serve as a potent instrument for forecasting stock prices, and ought to be factored in when formulating investment strategies.
翻訳日:2023-09-04 15:09:46 公開日:2023-08-31
# 建設文法と人工知能

Construction Grammar and Artificial Intelligence ( http://arxiv.org/abs/2309.00135v1 )

ライセンス: Link先を確認
Katrien Beuls and Paul Van Eecke(参考訳) 本章では,現代建築文法学者にとって,建設文法研究と人工知能の強い関係を深く理解することが極めて有益である,と論じる。 まず2つの分野間の歴史的なつながりを解明し、それらの関係が人間のコミュニケーションと言語に対する共通の態度に根ざしていることを示す。 次に,人工知能の分野における洞察と技術が,言語に対する構築主義的アプローチの運用,検証,スケールアップにおいて重要な役割を果たすか,特に注目する。 次に第2の方向に進み、建設文法の洞察と分析が真にインテリジェントなエージェントを構築するための人工知能の努力に結びつくことを強調する。 我々は, 様々な実例で事例を支援し, この関係の更なる解明が, 建設文法の分野の将来を形作る上で重要な役割を果たしていると結論づける。

In this chapter, we argue that it is highly beneficial for the contemporary construction grammarian to have a thorough understanding of the strong relationship between the research fields of construction grammar and artificial intelligence. We start by unravelling the historical links between the two fields, showing that their relationship is rooted in a common attitude towards human communication and language. We then discuss the first direction of influence, focussing in particular on how insights and techniques from the field of artificial intelligence play an important role in operationalising, validating and scaling constructionist approaches to language. We then proceed to the second direction of influence, highlighting the relevance of construction grammar insights and analyses to the artificial intelligence endeavour of building truly intelligent agents. We support our case with a variety of illustrative examples and conclude that the further elaboration of this relationship will play a key role in shaping the future of the field of construction grammar.
翻訳日:2023-09-04 15:09:21 公開日:2023-08-31
# 任意の表面でのタイピング:拡張現実におけるリアルタイムキーストローク検出のための深層学習に基づく手法

Typing on Any Surface: A Deep Learning-based Method for Real-Time Keystroke Detection in Augmented Reality ( http://arxiv.org/abs/2309.00174v1 )

ライセンス: Link先を確認
Xingyu Fu and Mingze Xi(参考訳) テキスト入力インタフェースのフラストレーションは,拡張現実(AR)における社会的活動への参加において大きな障害となっている。 ポピュラーなキーボードインターフェース、ワイヤレスキーボード、音声入力などのオプションは、エルゴノミクス設計の貧弱さ、精度の制限、あるいは単に公の場で使うのが恥ずかしい。 本稿では、ARアプリケーションが任意のARヘッドセットでキャプチャ可能なRGBビデオストリームからキーストロークを正確に予測できるディープラーニングベースのアプローチを提案し、検証する。 これにより、ユーザは任意の平面上でタイピングアクティビティを実行でき、物理的なキーボードや仮想キーボードを必要としない。 既製ハンドランドマーク抽出器と新しい適応畳み込みリカレントニューラルネットワーク(C-RNN)を併用した2段階モデルを構築した。 最終モデルは、32 FPSのユーザ・パースペクティブ・ビデオストリームを適応処理できる。 このベースモデルでは、40ワード毎分(wpm)の入力で91.05\%$という全体的な精度を達成している。 通常のLevenshtein Distanceも,我々のアプローチの現実的な適用性を確認した。 有望な結果は,我々のアプローチが実現可能であり,様々なアプリケーションに統合できる可能性を示している。 また,このような技術を生産システムに導入するために必要な限界と今後の研究についても論じる。

Frustrating text entry interface has been a major obstacle in participating in social activities in augmented reality (AR). Popular options, such as mid-air keyboard interface, wireless keyboards or voice input, either suffer from poor ergonomic design, limited accuracy, or are simply embarrassing to use in public. This paper proposes and validates a deep-learning based approach, that enables AR applications to accurately predict keystrokes from the user perspective RGB video stream that can be captured by any AR headset. This enables a user to perform typing activities on any flat surface and eliminates the need of a physical or virtual keyboard. A two-stage model, combing an off-the-shelf hand landmark extractor and a novel adaptive Convolutional Recurrent Neural Network (C-RNN), was trained using our newly built dataset. The final model was capable of adaptive processing user-perspective video streams at ~32 FPS. This base model achieved an overall accuracy of $91.05\%$ when typing 40 Words per Minute (wpm), which is how fast an average person types with two hands on a physical keyboard. The Normalised Levenshtein Distance also further confirmed the real-world applicability of that our approach. The promising results highlight the viability of our approach and the potential for our method to be integrated into various applications. We also discussed the limitations and future research required to bring such technique into a production system.
翻訳日:2023-09-04 15:02:43 公開日:2023-08-31
# 軌道によるグループ内の組織証拠の検出

Detecting Evidence of Organization in groups by Trajectories ( http://arxiv.org/abs/2309.00172v1 )

ライセンス: Link先を確認
T. F. Silva and J. E. B. Maia(参考訳) 組織を効果的に検出することは、犯罪と闘い、公共の安全を維持するために不可欠である。 本稿ではネットワーク構造推論(NSI)の課題を解決することに焦点を当てる。 そこで本研究では,エージェント軌跡に基づくネットワーク構造推定手法を2つ導入する。 第1のアプローチはグラフエントロピーの評価に基づいており,第2のアプローチはクラスタリング指標の品質を検討する。 新たなアプローチの有効性を評価するため,NetLogoプラットフォーム上で利用可能な動物界に基づく4つのシナリオシミュレーション(Ants, Wolf Sheep Predation, Flocking, Ant Adaptation)を用いて実験を行った。 さらに,本論文で提案した手法と比較し,NetLogoプラットフォームのシミュレーションに全手法を適用した。 その結果、新しい検出手法により、シミュレーションシナリオにおける組織やネットワークの推測をより明確に特定できることがわかった。

Effective detection of organizations is essential for fighting crime and maintaining public safety, especially considering the limited human resources and tools to deal with each group that exhibits co-movement patterns. This paper focuses on solving the Network Structure Inference (NSI) challenge. Thus, we introduce two new approaches to detect network structure inferences based on agent trajectories. The first approach is based on the evaluation of graph entropy, while the second considers the quality of clustering indices. To evaluate the effectiveness of the new approaches, we conducted experiments using four scenario simulations based on the animal kingdom, available on the NetLogo platform: Ants, Wolf Sheep Predation, Flocking, and Ant Adaptation. Furthermore, we compare the results obtained with those of an approach previously proposed in the literature, applying all methods to simulations of the NetLogo platform. The results demonstrate that our new detection approaches can more clearly identify the inferences of organizations or networks in the simulated scenarios.
翻訳日:2023-09-04 15:02:20 公開日:2023-08-31
# RepCodec:音声トークン化のための音声表現コーデック

RepCodec: A Speech Representation Codec for Speech Tokenization ( http://arxiv.org/abs/2309.00169v1 )

ライセンス: Link先を確認
Zhichao Huang, Chutong Meng, Tom Ko(参考訳) 近年の大規模言語モデル (LLM) の急速な発展に伴い, 離散音声のトークン化はLLMに音声を注入する上で重要な役割を担っている。 しかし、この離散化は情報の喪失を引き起こし、結果として全体的なパフォーマンスを損なう。 これらの離散音声トークンの性能を向上させるために,意味音声トークン化のための新しい音声表現コーデックrepcodecを提案する。 生音声を再構成する音声コーデックとは対照的に、RepCodecはHuBERTやData2vecのような音声エンコーダから音声表現を再構成することでベクトル量子化コードブックを学習する。 音声エンコーダと、コーデックエンコーダと、ベクトル量子化符号ブックとを組み合わせることで、音声波形を意味トークンに変換するパイプラインを形成する。 広範な実験により、repcodecは情報保持能力の向上により、音声理解と生成の両方において広く使われているk-meansクラスタリングアプローチを大きく上回っていることが示されている。 さらに、この優越性は様々な音声エンコーダや言語にまたがり、repcodecの強固さを肯定する。 本手法は,音声処理における大規模言語モデリング研究を促進できると考えている。

With recent rapid growth of large language models (LLMs), discrete speech tokenization has played an important role for injecting speech into LLMs. However, this discretization gives rise to a loss of information, consequently impairing overall performance. To improve the performance of these discrete speech tokens, we present RepCodec, a novel speech representation codec for semantic speech tokenization. In contrast to audio codecs which reconstruct the raw audio, RepCodec learns a vector quantization codebook through reconstructing speech representations from speech encoders like HuBERT or data2vec. Together, the speech encoder, the codec encoder and the vector quantization codebook form a pipeline for converting speech waveforms into semantic tokens. The extensive experiments illustrate that RepCodec, by virtue of its enhanced information retention capacity, significantly outperforms the widely used k-means clustering approach in both speech understanding and generation. Furthermore, this superiority extends across various speech encoders and languages, affirming the robustness of RepCodec. We believe our method can facilitate large language modeling research on speech processing.
翻訳日:2023-09-04 15:02:04 公開日:2023-08-31
# ライダー位置認識のためのポーズグラフ注意グラフニューラルネットワーク

Pose-Graph Attentional Graph Neural Network for Lidar Place Recognition ( http://arxiv.org/abs/2309.00168v1 )

ライセンス: Link先を確認
Milad Ramezani, Liang Wang, Joshua Knights, Zhibin Li, Pauline Pounds, Peyman Moghadam(参考訳) 本稿では,P-GATと呼ばれるライダー位置認識手法を提案する。 点雲のペアを比較する代わりに、点雲の集合間の類似性を比較して、ポーズグラフSLAMという概念を用いた近隣の雲間の最大空間的および時間的情報を利用する。 P-GATは、アテンション内およびグラフ間ニューラルネットワークを活用し、ユークリッド空間の近傍で捕獲された点雲とその特徴空間への埋め込みを関連付ける。 大規模公開データセットにおける実験結果は,異なる特徴を欠いたシーン認識と,訓練環境とテスト環境が異なる分布(ドメイン適応)を持つ場合の有効性を示す。 さらに,最先端技術との比較により,性能向上が見られた。 コードは受け入れ次第利用可能だ。

This paper proposes a lidar place recognition approach, called P-GAT, to increase the receptive field between point clouds captured over time. Instead of comparing pairs of point clouds, we compare the similarity between sets of point clouds to use the maximum spatial and temporal information between neighbour clouds utilising the concept of pose-graph SLAM. Leveraging intra- and inter-attention and graph neural network, P-GAT relates point clouds captured in nearby locations in Euclidean space and their embeddings in feature space. Experimental results on the large-scale publically available datasets demonstrate the effectiveness of our approach in recognising scenes lacking distinct features and when training and testing environments have different distributions (domain adaptation). Further, an exhaustive comparison with the state-of-the-art shows improvements in performance gains. Code will be available upon acceptance.
翻訳日:2023-09-04 15:01:45 公開日:2023-08-31
# 完全接続ネットワーク上での環境支援量子輸送の最適条件

Optimal Conditions for Environment-Assisted Quantum Transport on the Fully Connected Network ( http://arxiv.org/abs/2309.00164v1 )

ライセンス: Link先を確認
Sam Alterman, Justin Berman and Frederick W. Strauch(参考訳) 本稿では,各サイトが相互に接続する完全グラフによって記述されたネットワーク上での励起輸送の効率と速度に関する理論的解析を行う。 長時間の輸送特性は、トラップサイトを除く任意の大きさのネットワークに対して解析的に計算され、初期状態の範囲から開始され、デファスメントや励起崩壊の対象となる。 輸送性が低下する条件を特定し、様々な物理パラメータに対して最適な条件を求める。 最適条件は、光ハーベスティング錯体の文脈で以前に観測された時間スケールのロバスト性と収束を示す。

We present a theoretical analysis of the efficiency and rate of excitation transport on a network described by a complete graph in which every site is connected to every other. The long-time transport properties are analytically calculated for networks of arbitrary size that are symmetric except for the trapping site, start with a range of initial states, and are subject to dephasing and excitation decay. Conditions for which dephasing increases transport are identified, and optimal conditions are found for various physical parameters. The optimal conditions demonstrate robustness and a convergence of timescales previously observed in the context of light-harvesting complexes.
翻訳日:2023-09-04 15:01:31 公開日:2023-08-31
# 人間中心型集団作業に対する複雑な協調作業のタスク相互依存モデル

A Task-Interdependency Model of Complex Collaboration Towards Human-Centered Crowd Work ( http://arxiv.org/abs/2309.00160v1 )

ライセンス: Link先を確認
David T. Lee and Christos A. Makridis(参考訳) クラウドソーシングとヒューマン計算のモデルは、個人が独立して小さなモジュラータスクを実行すると仮定することが多い。 しかし、これらのモデルでは、群衆が重要な目的を達成する方法が示されていますが、群衆労働者の人間的視点よりも、不注意に前進し、複雑な協調作業のためのユニークな人間の能力を捉えられません。 私たちは、複雑なコラボレーションのために、さまざまな課題を形式的に推論できる、相互依存(interdependencies)、すなわちコラボレーションの核となる現象に焦点を当てたモデルを提示します。 我々のモデルはタスクをタスクグラフとして形式化したサブタスクの相互依存的なコレクションとして表現する。 複雑なコラボレーション作業のスケールアップ、専門家の重要性の強調、仕事の学習に重要な要因を明らかにし、コーディネーションの強度と労働賃金の関係を探求するために使用します。 そこで,o*netと労働統計局のデータを用いて作業調整強度の指標を導入し,理論的な予測を検証する。 本稿では,AIによる配位力の低下による労働力の低下を予見し,人間労働者の協調能力を強調するモデル,群衆作業のブリッジモデル,伝統的な作業の機会を論じるとともに,AIが人間の協力を促進する役割を担っていることを示す。

Models of crowdsourcing and human computation often assume that individuals independently carry out small, modular tasks. However, while these models have successfully shown how crowds can accomplish significant objectives, they can inadvertently advance a less than human view of crowd workers and fail to capture the unique human capacity for complex collaborative work. We present a model centered on interdependencies -- a phenomenon well understood to be at the core of collaboration -- that allows one to formally reason about diverse challenges to complex collaboration. Our model represents tasks as an interdependent collection of subtasks, formalized as a task graph. We use it to explain challenges to scaling complex collaborative work, underscore the importance of expert workers, reveal critical factors for learning on the job, and explore the relationship between coordination intensity and occupational wages. Using data from O*NET and the Bureau of Labor Statistics, we introduce an index of occupational coordination intensity to validate our theoretical predictions. We present preliminary evidence that occupations with greater coordination intensity are less exposed to displacement by AI, and discuss opportunities for models that emphasize the collaborative capacities of human workers, bridge models of crowd work and traditional work, and promote AI in roles augmenting human collaboration.
翻訳日:2023-09-04 15:01:22 公開日:2023-08-31
# BuilDiff: 単一画像条件点雲拡散モデルを用いた3次元建物形状生成

BuilDiff: 3D Building Shape Generation using Single-Image Conditional Point Cloud Diffusion Models ( http://arxiv.org/abs/2309.00158v1 )

ライセンス: Link先を確認
Yao Wei, George Vosselman, Michael Ying Yang(参考訳) データ取得コストの低い3Dビルディング生成では,画像から3Dまでの重要性が高まっている。 しかし,既存の1次元画像から3次元画像への作成作業の多くは,特定の視角を持つ画像に限られているため,現実的に現れる一般的な画像に拡張することは困難である。 このギャップを埋めるために,画像条件付き点雲拡散モデルを用いた新しい3次元ビルディング形状生成法を提案し,入力画像の柔軟性を示す。 2つの条件拡散モデルを協調させ, 雑音化過程に正規化戦略を導入することで, 建物屋根を合成し, 全体構造を維持できる。 新たに構築された2つのデータセット上でフレームワークを検証した結果,提案手法が生成品質の面で従来の手法よりも優れていることが示された。

3D building generation with low data acquisition costs, such as single image-to-3D, becomes increasingly important. However, most of the existing single image-to-3D building creation works are restricted to those images with specific viewing angles, hence they are difficult to scale to general-view images that commonly appear in practical cases. To fill this gap, we propose a novel 3D building shape generation method exploiting point cloud diffusion models with image conditioning schemes, which demonstrates flexibility to the input images. By cooperating two conditional diffusion models and introducing a regularization strategy during denoising process, our method is able to synthesize building roofs while maintaining the overall structures. We validate our framework on two newly built datasets and extensive experiments show that our method outperforms previous works in terms of building generation quality.
翻訳日:2023-09-04 15:00:59 公開日:2023-08-31
# 生産評価における支援システムのための情報融合

Information Fusion for Assistance Systems in Production Assessment ( http://arxiv.org/abs/2309.00157v1 )

ライセンス: Link先を確認
Fernando Ar\'evalo, Christian Alison M. Piolo, M. Tahasanul Ibrahim, Andreas Schwung(参考訳) 本稿では,情報融合に頼って情報ソースを結合し,アセスメントを提供しながら支援システムを定義する新しい手法を提案する。 本論文の主な貢献は、エビデンス理論を用いたn個の情報ソースの融合に関する一般的な枠組みを提供することである。 融合はより堅牢な予測と関連する不確実性を提供し、予測の類似性を評価するのに使用できる。 さらに,機械データに基づくアンサンブル分類器とエキスパート中心モデルという,2つの主要な情報源の情報融合手法を提案する。 本稿では,産業施設のデータを用いた情報融合手法を実証し,本研究の応用部分をまとめる。 さらに,エビデンス理論を用いてデータベースモデルを更新する手法を提案することで,データドリフトの問題に対処する。 モデル更新パラメータのアブレーション研究をしながら、ベンチマークテネシー・イーストマンを用いてアプローチを検証する。

We propose a novel methodology to define assistance systems that rely on information fusion to combine different sources of information while providing an assessment. The main contribution of this paper is providing a general framework for the fusion of n number of information sources using the evidence theory. The fusion provides a more robust prediction and an associated uncertainty that can be used to assess the prediction likeliness. Moreover, we provide a methodology for the information fusion of two primary sources: an ensemble classifier based on machine data and an expert-centered model. We demonstrate the information fusion approach using data from an industrial setup, which rounds up the application part of this research. Furthermore, we address the problem of data drift by proposing a methodology to update the data-based models using an evidence theory approach. We validate the approach using the Benchmark Tennessee Eastman while doing an ablation study of the model update parameters.
翻訳日:2023-09-04 15:00:45 公開日:2023-08-31
# LLM in the Shell: Generative Honeypots

LLM in the Shell: Generative Honeypots ( http://arxiv.org/abs/2309.00155v1 )

ライセンス: Link先を確認
Muris Sladi\'c and Veronica Valeros and Carlos Catania and Sebastian Garcia(参考訳) ハニーポットはサイバーセキュリティの重要なツールです。 しかし、そのほとんどが(高相互作用でさえ)人間の攻撃者を騙すために必要な現実主義を欠いている。 この制限は容易に識別でき、効果を阻害する。 この研究は、大規模言語モデルに基づく動的で現実的なソフトウェアハニーポットを作成する新しい方法を紹介します。 予備的な結果は、LCMは、決定論的応答、適応性の欠如など、以前のハニーポットの重要な制限に対処できる、信頼できる動的ハニーポットを作成できることを示している。 我々は,ハニーポットからの回答が偽物であるかどうかを問う人間の攻撃者を対象に実験を行い,各コマンドのリアリズムを評価した。 提案したミツバチはShelLMと呼ばれ,精度0.92。

Honeypots are essential tools in cybersecurity. However, most of them (even the high-interaction ones) lack the required realism to engage and fool human attackers. This limitation makes them easily discernible, hindering their effectiveness. This work introduces a novel method to create dynamic and realistic software honeypots based on Large Language Models. Preliminary results indicate that LLMs can create credible and dynamic honeypots capable of addressing important limitations of previous honeypots, such as deterministic responses, lack of adaptability, etc. We evaluated the realism of each command by conducting an experiment with human attackers who needed to say if the answer from the honeypot was fake or not. Our proposed honeypot, called shelLM, reached an accuracy rate of 0.92.
翻訳日:2023-09-04 15:00:31 公開日:2023-08-31
# Boosting AND/OR-based Computational Protein Design: Dynamic Heuristics and Generalizable UFO

Boosting AND/OR-Based Computational Protein Design: Dynamic Heuristics and Generalizable UFO ( http://arxiv.org/abs/2309.00408v1 )

ライセンス: Link先を確認
Bobak Pezeshki, Radu Marinescu, Alexander Ihler, Rina Dechter(参考訳) 科学コンピューティングは、ニューラルネットワークのような技術の進歩によって強化された急上昇を経験した。 しかしながら、いくつかの重要なタスクはこれらの技術に適さないため、イノベーションから従来の推論スキームへのメリットがある。 そのようなタスクの1つはタンパク質の再設計である。 近年、新しい再設計アルゴリズムであるAOBB-K*が導入され、小さなタンパク質の再設計問題において最先端のBBK*と競合した。 しかし、AOBB-K*はスケールが良くなかった。 本研究では, AOBB-K*-b(ブート), AOBB-K*-DH(動的ヒューリスティック), AOBB-K*-UFO(アンダーフロー最適化)の3つの新バージョンを導入する。

Scientific computing has experienced a surge empowered by advancements in technologies such as neural networks. However, certain important tasks are less amenable to these technologies, benefiting from innovations to traditional inference schemes. One such task is protein re-design. Recently a new re-design algorithm, AOBB-K*, was introduced and was competitive with state-of-the-art BBK* on small protein re-design problems. However, AOBB-K* did not scale well. In this work we focus on scaling up AOBB-K* and introduce three new versions: AOBB-K*-b (boosted), AOBB-K*-DH (with dynamic heuristics), and AOBB-K*-UFO (with underflow optimization) that significantly enhance scalability.
翻訳日:2023-09-04 13:28:53 公開日:2023-08-31
# 米国法制度はAIの人的価値への挑戦の準備が整っているか?

Is the U.S. Legal System Ready for AI's Challenges to Human Values? ( http://arxiv.org/abs/2308.15906v2 )

ライセンス: Link先を確認
Inyoung Cheong, Aylin Caliskan, Tadayoshi Kohno(参考訳) 我々の学際的研究は、ジェネレーティブAIが人間の価値にもたらす課題に対して、米国の法律がいかに効果的に直面するかを調査する。 専門家ワークショップで作成された多様な仮説的シナリオの分析を通じて,プライバシ,自律性,尊厳,多様性,公平性,身体的・身体的幸福といった基本的価値観の保護に関する既存の法的枠組みにおける顕著なギャップと不確実性を特定した。 憲法と公民権は、AIが生成した差別的アウトプットに対して十分な保護を提供していないようだ。 さらに、第230条によって提供される責任シールドを除外したとしても、AIシステムの複雑で不透明な性質のため、破壊と製品責任の主張の因果関係を証明することは困難な取り組みである。 生成AIによって引き起こされる独特で予期せぬ脅威に対処するために、我々は、新たな脅威を認識し、業界ステークホルダーに積極的に監査可能なガイドラインを提供するために進化する法的枠組みを提唱する。 これらの問題に対処するには、危害、価値観、緩和戦略を特定するために、深い学際的な協力が必要である。

Our interdisciplinary study investigates how effectively U.S. laws confront the challenges posed by Generative AI to human values. Through an analysis of diverse hypothetical scenarios crafted during an expert workshop, we have identified notable gaps and uncertainties within the existing legal framework regarding the protection of fundamental values, such as privacy, autonomy, dignity, diversity, equity, and physical/mental well-being. Constitutional and civil rights, it appears, may not provide sufficient protection against AI-generated discriminatory outputs. Furthermore, even if we exclude the liability shield provided by Section 230, proving causation for defamation and product liability claims is a challenging endeavor due to the intricate and opaque nature of AI systems. To address the unique and unforeseeable threats posed by Generative AI, we advocate for legal frameworks that evolve to recognize new threat and provide proactive, auditable guidelines to industry stakeholders. Addressing these issues requires deep interdisciplinary collaborations to identify harms, values, and mitigation strategies.
翻訳日:2023-09-04 10:56:13 公開日:2023-08-31
# ロバスト欠陥定位のためのサンプルとマスクの関係を探る

Exploring the Relationship between Samples and Masks for Robust Defect Localization ( http://arxiv.org/abs/2306.10720v4 )

ライセンス: Link先を確認
Jiang Lin, Yaping Yan(参考訳) Defect detection aims to detect and localize regions out of the normal distribution.Previous approaches model normality and compare it with the input to identify defective regions, potentially limiting their generalizability.This paper proposes a one-stage framework that detects defective patterns directly without the modeling process.This ability is adopted through the joint efforts of three parties: a generative adversarial network (GAN), a newly proposed scaled pattern loss, and a dynamic masked cycle-consistent auxiliary network. 難解なmvtec adデータセットのテクスチャクラスにおける実験結果から, f1-score の sota メソッドよりも2.9%高いが, 一般論では sota メソッドを実質的に上回っていることがわかった。

Defect detection aims to detect and localize regions out of the normal distribution.Previous approaches model normality and compare it with the input to identify defective regions, potentially limiting their generalizability.This paper proposes a one-stage framework that detects defective patterns directly without the modeling process.This ability is adopted through the joint efforts of three parties: a generative adversarial network (GAN), a newly proposed scaled pattern loss, and a dynamic masked cycle-consistent auxiliary network. Explicit information that could indicate the position of defects is intentionally excluded to avoid learning any direct mapping.Experimental results on the texture class of the challenging MVTec AD dataset show that the proposed method is 2.9% higher than the SOTA methods in F1-Score, while substantially outperforming SOTA methods in generalizability.
翻訳日:2023-09-04 10:54:57 公開日:2023-08-31
# 重ね合わせ測定によるベル不等式

Bell inequalities with overlapping measurements ( http://arxiv.org/abs/2303.02127v3 )

ライセンス: Link先を確認
Mois\'es Bermejo Mor\'an, Alejandro Pozas-Kerstjens and Felix Huber(参考訳) パーティが複数のサブシステムにアクセスできる場合、どの非局所的相関が得られるか? 伝統的に非局所性はスペースのような分離したパーティを扱うが、この問題は小さな共有システムによってデバイスをつなぐ量子技術において重要になる。 ここでは、異なるパーティの測定が重複するベルの不等式について検討する。 これにより、非局所性の枠組みにおける量子誤り訂正符号の存在のような量子情報の問題に対処できる。 考慮されたシナリオはヒルベルト空間次元、重なり合い、対称性に関して興味深い振る舞いを示す。

Which nonlocal correlations can be obtained, when a party has access to more than one subsystem? While traditionally nonlocality deals with spacelike separated parties, this question becomes important with quantum technologies that connect devices by means of small shared systems. Here we study Bell inequalities where measurements of different parties can have overlap. This allows to accommodate problems in quantum information such as the existence of quantum error correction codes in the framework of non-locality. The scenarios considered show an interesting behaviour with respect to Hilbert space dimension, overlap, and symmetry.
翻訳日:2023-09-04 10:54:44 公開日:2023-08-31
# 領域に基づくランダー測地線による画像分割

A Region-based Randers Geodesic Approach for Image Segmentation ( http://arxiv.org/abs/1912.10122v3 )

ライセンス: Link先を確認
Da Chen and Jean-Marie Mirebeau and Huazhong Shu and Laurent D. Cohen(参考訳) 固有偏微分方程式(PDE)に基づく測地モデルは,過去20年間に画像分割と境界検出を応用するための基本的なツールとして機能してきた。 しかし、既存のアプローチは画像エッジベースの機能のみを利用して最小の測地経路を計算し、複雑なセグメンテーション環境での性能を制限する可能性がある。 本稿では,極小測地線経路の枠組みと固有PDEに基づく新しい変分画像分割モデルを提案する。 これは、領域ベースの活性輪郭エネルギー汎関数のランダー測地線解釈を構築することによって行われる。 その結果、活性輪郭エネルギー汎函数の最小化はランダーアイコナー PDE の解を見つけるために変換される。 また,複数区間の測地線経路の結合によって対象境界を線引きできる,実用的なインタラクティブな画像分割戦略を提案する。 我々は、高速なマーチング法であるフィンスラー変法を用いて測地距離マップを推定し、画像セグメンテーションのための領域ベースRanders測地モデルの効率的な実装を実現する。 合成画像と実画像の両方の実験結果から,本モデルが実際にセグメンテーション性能を向上できることが判明した。

The geodesic model based on the eikonal partial differential equation (PDE) has served as a fundamental tool for the applications of image segmentation and boundary detection in the past two decades. However, the existing approaches commonly only exploit the image edge-based features for computing minimal geodesic paths, potentially limiting their performance in complicated segmentation situations. In this paper, we introduce a new variational image segmentation model based on the minimal geodesic path framework and the eikonal PDE, where the region-based appearance term that defines then regional homogeneity features can be taken into account for estimating the associated minimal geodesic paths. This is done by constructing a Randers geodesic metric interpretation of the region-based active contour energy functional. As a result, the minimization of the active contour energy functional is transformed into finding the solution to the Randers eikonal PDE. We also suggest a practical interactive image segmentation strategy, where the target boundary can be delineated by the concatenation of several piecewise geodesic paths. We invoke the Finsler variant of the fast marching method to estimate the geodesic distance map, yielding an efficient implementation of the proposed region-based Randers geodesic model for image segmentation. Experimental results on both synthetic and real images exhibit that our model indeed achieves encouraging segmentation performance.
翻訳日:2023-09-01 21:43:21 公開日:2023-08-31
# 集積量子フォトニックプロセッサにおける熱力学の量子シミュレーション

Quantum simulation of thermodynamics in an integrated quantum photonic processor ( http://arxiv.org/abs/2201.00049v3 )

ライセンス: Link先を確認
F. H. B. Somhorst, R. van der Meer, M. Correa Anguita, R. Schadow, H. J. Snijders, M. de Goede, B. Kassenberg, P. Venderbosch, C. Taballione, J. P. Epping, H. H. van den Vlekkert, J. Timmerhuis, J. F. F. Bulmer, J. Lugani, I. A. Walmsley, P. W. H. Pinkse, J. Eisert, N. Walk, J. J. Renema(参考訳) 量子物理学の核となる問題の一つは、情報保存と時間の可逆性である量子状態のユニタリ進化をいかに解決するかであり、熱力学の第二法則に従う進化は一般にはそうではない。 このパラドックスの解決法は、多成分量子状態のグローバルユニタリ進化が、局所サブシステムの状態が最大エントロピー状態へと進化することを認識することである。 本研究では,線形量子光学におけるこの効果を,厳密な制御条件下で最大エントロピー状態を構成する一般化ギブスアンサンブルに対して,局所量子状態の収束を同時に示すとともに,その状態が全球純度を保つことを示す効率的な証明手法を導入することにより実験的に実証する。 我々の量子状態はプログラム可能な集積量子フォトニックプロセッサによって操作され、任意の非相互作用ハミルトニアンをシミュレートし、この現象の普遍性を示す。 本結果は,非ガウス状態を含む量子シミュレーションのためのフォトニックデバイスの可能性を示す。

One of the core questions of quantum physics is how to reconcile the unitary evolution of quantum states, which is information-preserving and time-reversible, with evolution following the second law of thermodynamics, which, in general, is neither. The resolution to this paradox is to recognize that global unitary evolution of a multi-partite quantum state causes the state of local subsystems to evolve towards maximum-entropy states. In this work, we experimentally demonstrate this effect in linear quantum optics by simultaneously showing the convergence of local quantum states to a generalized Gibbs ensemble constituting a maximum-entropy state under precisely controlled conditions, while introducing an efficient certification method to demonstrate that the state retains global purity. Our quantum states are manipulated by a programmable integrated quantum photonic processor, which simulates arbitrary non-interacting Hamiltonians, demonstrating the universality of this phenomenon. Our results show the potential of photonic devices for quantum simulations involving non-Gaussian states.
翻訳日:2023-09-01 21:39:34 公開日:2023-08-31
# 時系列生成のための画像ベース生成広告ネットワークの活用

Leveraging Image-based Generative Adversarial Networks for Time Series Generation ( http://arxiv.org/abs/2112.08060v2 )

ライセンス: Link先を確認
Justin Hellermann, Stefan Lessmann(参考訳) 画像生成モデルは、複雑なデータ分布から現実的なサンプルを生成する能力により、コンピュータビジョンと自然言語処理に大きな注目を集めている。 時系列領域における画像ベース生成モデルの進歩を活用するために,時系列の2次元画像表現である拡張時空間回帰プロット(XIRP)を提案する。 提案手法は,時間間時系列のダイナミクスをスケール不変かつ可逆的に捉え,トレーニング時間を短縮し,サンプル品質を向上させる。 我々は,WGAN-GPを用いた市販のワッサースタインGANによる合成XIRPを,類似性や予測能力の指標に関する他の画像表現やモデルと比較した。 時系列の検証画像表現は, 予測能力に関する最先端のRNNベース生成モデルにおいて, 連続的かつ顕著に優れる。 さらに,表現によらずシミュレーション品質が大幅に向上する確率的インバージョンを導入し,他の領域における伝達ポテンシャルの展望を提供する。

Generative models for images have gained significant attention in computer vision and natural language processing due to their ability to generate realistic samples from complex data distributions. To leverage the advances of image-based generative models for the time series domain, we propose a two-dimensional image representation for time series, the Extended Intertemporal Return Plot (XIRP). Our approach captures the intertemporal time series dynamics in a scale-invariant and invertible way, reducing training time and improving sample quality. We benchmark synthetic XIRPs obtained by an off-the-shelf Wasserstein GAN with gradient penalty (WGAN-GP) to other image representations and models regarding similarity and predictive ability metrics. Our novel, validated image representation for time series consistently and significantly outperforms a state-of-the-art RNN-based generative model regarding predictive ability. Further, we introduce an improved stochastic inversion to substantially improve simulation quality regardless of the representation and provide the prospect of transfer potentials in other domains.
翻訳日:2023-09-01 21:39:16 公開日:2023-08-31
# ランダム列からのゲートセット特性の推定

Estimating gate-set properties from random sequences ( http://arxiv.org/abs/2110.13178v3 )

ライセンス: Link先を確認
J. Helsen, M. Ioannou, J. Kitzinger, E. Onorati, A. H. Werner, J. Eisert, I. Roth(参考訳) 量子コンピューティングデバイスがスケールと複雑さを増すにつれ、量子演算に関する正確な診断情報を取得するツールの必要性が高まっている。 しかし、現在の量子デバイスは短い非構造ゲートシーケンスとネイティブな測定しかできない。 我々はこの制限を受け入れ、量子ゲートセットを特徴づけるための新しいパラダイムに変える。 単一の実験 - 乱数列推定 - は、あらゆる複雑さを古典的な後処理に移し、多くの推定問題を解く。 提案手法は, パウリノイズの学習だけでなく, 部分的, 圧縮的, フルプロセストモグラフィーのためのプリミティブとして, ほぼ最適性能保証付きシャドウ推定の頑健なチャネル変種を導出する。 本稿では,量子ゲート工学サイクルへの応用について検討し,量子ゲートの最適化とクロストーク診断のための新しい手法を提案する。

With quantum computing devices increasing in scale and complexity, there is a growing need for tools that obtain precise diagnostic information about quantum operations. However, current quantum devices are only capable of short unstructured gate sequences followed by native measurements. We accept this limitation and turn it into a new paradigm for characterizing quantum gate-sets. A single experiment - random sequence estimation - solves a wealth of estimation problems, with all complexity moved to classical post-processing. We derive robust channel variants of shadow estimation with close-to-optimal performance guarantees and use these as a primitive for partial, compressive and full process tomography as well as the learning of Pauli noise. We discuss applications to the quantum gate engineering cycle, and propose novel methods for the optimization of quantum gates and diagnosing cross-talk.
翻訳日:2023-09-01 21:38:56 公開日:2023-08-31
# 対称性を持つ量子状態確率分布に対するde finetti定理

De Finetti Theorems for Quantum Conditional Probability Distributions with Symmetry ( http://arxiv.org/abs/2108.08251v2 )

ライセンス: Link先を確認
Sven Jandura, Ernest Y.-Z. Tan(参考訳) デバイス非依存量子鍵分布(diqkd)の目的は、鍵を生成するデバイス上の最小限の仮定の下で2つの当事者間で秘密の共有鍵を生成するプロトコルの研究である。 これらの装置は単にブラックボックスとしてモデル化され、数学的に条件付き確率分布として記述される。 DIQKDプロトコルの分析における大きな障害は、ブラックボックスの挙動の巨大な空間である。 デ・フィネッティの定理は、イド構造を持つブラックボックスに解析を還元することでこの問題を解決するのに役立つ。 ここでは、量子集合の条件付き確率分布をデ・フィニティ分布(iid分布の凸結合)に関連付ける2つの新しいデ・フィニッティの定理を示す。 また、これらのデ・フィニッティの定理の1つは、diqkdプロトコルの攻撃者にいくつかの制限を強制するためにどのように使用できるかを示す。 最後に、この制限の望ましい強化、例えば集団攻撃のみに対する強化は、簡単には不可能であると観察する。

The aim of device-independent quantum key distribution (DIQKD) is to study protocols that allow the generation of a secret shared key between two parties under minimal assumptions on the devices that produce the key. These devices are merely modeled as black boxes and mathematically described as conditional probability distributions. A major obstacle in the analysis of DIQKD protocols is the huge space of possible black box behaviors. De Finetti theorems can help to overcome this problem by reducing the analysis to black boxes that have an iid structure. Here we show two new de Finetti theorems that relate conditional probability distributions in the quantum set to de Finetti distributions (convex combinations of iid distributions), that are themselves in the quantum set. We also show how one of these de Finetti theorems can be used to enforce some restrictions onto the attacker of a DIQKD protocol. Finally we observe that some desirable strengthenings of this restriction, for instance to collective attacks only, are not straightforwardly possible.
翻訳日:2023-09-01 21:38:43 公開日:2023-08-31
# LIMDD 安定化状態を含む量子コンピューティングシミュレーションのための決定図

LIMDD A Decision Diagram for Simulation of Quantum Computing Including Stabilizer States ( http://arxiv.org/abs/2108.00931v4 )

ライセンス: Link先を確認
Lieuwe Vinkhuijzen, Tim Coopmans, David Elkouss, Vedran Dunjko, Alfons Laarman(参考訳) 量子状態と量子演算の表現とシミュレーションの効率的な方法は、量子回路の最適化に不可欠である。 決定図(DD)は、もともとブール関数を表すためによく研究されたデータ構造であり、量子システムの関連する側面を捉えることができるが、その限界はよく理解されていない。 本研究では,既存のdd系構造と安定化器形式とのギャップを解明し,そのギャップを橋渡しする。 まず,ddsは重要な量子状態を簡潔に表現することが提案されたが,特定の安定状態に対して指数空間を必要とすることを示した。 これを解決するために、より強力な決定図であるローカル可逆マップDD(LIMDD)を導入します。 ポリサイズのLIMDDで表される量子状態の集合は、安定状態と他の決定図の変形の結合を厳密に含んでいることを証明する。 最後に、LIMDDを効率的にシミュレートできる回路が存在するが、出力状態は2つの最先端シミュレーションパラダイム(Clifford + $T$回路の安定化器分解技術とMatrix-Product States)で簡潔に表現できない。 2つのアプローチを組み合わせることで、limddsは量子コンピューティングのシミュレーションと解析のための、より強力なソリューションへの道を開いた。

Efficient methods for the representation and simulation of quantum states and quantum operations are crucial for the optimization of quantum circuits. Decision diagrams (DDs), a well-studied data structure originally used to represent Boolean functions, have proven capable of capturing relevant aspects of quantum systems, but their limits are not well understood. In this work, we investigate and bridge the gap between existing DD-based structures and the stabilizer formalism, an important tool for simulating quantum circuits in the tractable regime. We first show that although DDs were suggested to succinctly represent important quantum states, they actually require exponential space for certain stabilizer states. To remedy this, we introduce a more powerful decision diagram variant, called Local Invertible Map-DD (LIMDD). We prove that the set of quantum states represented by poly-sized LIMDDs strictly contains the union of stabilizer states and other decision diagram variants. Finally, there exist circuits which LIMDDs can efficiently simulate, while their output states cannot be succinctly represented by two state-of-the-art simulation paradigms: the stabilizer decomposition techniques for Clifford + $T$ circuits and Matrix-Product States. By uniting two successful approaches, LIMDDs thus pave the way for fundamentally more powerful solutions for simulation and analysis of quantum computing.
翻訳日:2023-09-01 21:38:26 公開日:2023-08-31
# 不完全知識グラフを用いた問合せ応答に対する帰納的推論と帰納的推論の組み合わせ

Combining Inductive and Deductive Reasoning for Query Answering over Incomplete Knowledge Graphs ( http://arxiv.org/abs/2106.14052v2 )

ライセンス: Link先を確認
Medina Andresel, Trung-Kien Tran, Csaba Domokos, Pasquale Minervini, Daria Stepanova(参考訳) 非完全知識グラフ(KGs)への埋め込みに基づく問い合わせ応答の現在の手法は、帰納的推論(inductive reasoning)、すなわち、データからパターンを学習することで回答を予測することのみに焦点を当てており、さらなる情報を推論するためにドメイン知識の応用を必要とする帰納的推論を補完する能力が欠如している。 そこで本研究では,オントロジーを組込み型問合せモデルに組み込む際の課題を,組込み型問合せ型問合せモデルを用いて検討する。 本研究では,(1)異なるオントロジ駆動データ拡張手法,(2)損失関数の適用によるオントロジ公理の強制を伴う組込みモデルの代表者に対して,様々な統合戦略を提案する。 LUBM と NELL KG に基づく検討課題のための新しいベンチマークを設計し,提案手法の評価を行った。 インダクティブ推論とインダクティブ推論の両方を必要とする設定の改善は、HITS@3で20%から55%に向上した。

Current methods for embedding-based query answering over incomplete Knowledge Graphs (KGs) only focus on inductive reasoning, i.e., predicting answers by learning patterns from the data, and lack the complementary ability to do deductive reasoning, which requires the application of domain knowledge to infer further information. To address this shortcoming, we investigate the problem of incorporating ontologies into embedding-based query answering models by defining the task of embedding-based ontology-mediated query answering. We propose various integration strategies into prominent representatives of embedding models that involve (1) different ontology-driven data augmentation techniques and (2) adaptation of the loss function to enforce the ontology axioms. We design novel benchmarks for the considered task based on the LUBM and the NELL KGs and evaluate our methods on them. The achieved improvements in the setting that requires both inductive and deductive reasoning are from 20% to 55% in HITS@3.
翻訳日:2023-09-01 21:38:03 公開日:2023-08-31
# MCMCを模擬したガウス過程による雑音可能性からの近似ベイズ推定

Approximate Bayesian inference from noisy likelihoods with Gaussian process emulated MCMC ( http://arxiv.org/abs/2104.03942v2 )

ライセンス: Link先を確認
Marko J\"arvenp\"a\"a, Jukka Corander(参考訳) 複素モデルの応用においてますます一般的になりつつある計算制約により,限られた数のノイズのある対数的評価しか得られないようなベイズ近似の枠組みを提案する。 我々はgaussian process (gp) を用いてlog-likelihood関数をモデル化し,metropolis-hastings (mh) サンプリング器が適用可能であれば,その進展をエミュレートするためにこのモデルを適用した。 GPモデルに従ってMHの受け入れ/拒絶判定が十分正確に完了するまで、逐次的な実験設計戦略を用いて、インフォーマティブなログ様評価位置を選択する。 その結果得られる近似サンプラーは概念上シンプルでサンプル効率が良い。 また、以前のベイズ推論用に調整された関連する「ベイズ最適化様」手法と比較して、gpモデリング仮定の違反に対してより頑健である。 近似mhサンプラーの理論的側面と様々な解釈を考察し,シミュレータに基づく統計モデルのベイジアンおよび一般化ベイジアン確率自由推論の文脈でその利点を実証する。

We present a framework for approximate Bayesian inference when only a limited number of noisy log-likelihood evaluations can be obtained due to computational constraints, which is becoming increasingly common for applications of complex models. We model the log-likelihood function using a Gaussian process (GP) and the main methodological innovation is to apply this model to emulate the progression that an exact Metropolis-Hastings (MH) sampler would take if it was applicable. Informative log-likelihood evaluation locations are selected using a sequential experimental design strategy until the MH accept/reject decision is done accurately enough according to the GP model. The resulting approximate sampler is conceptually simple and sample-efficient. It is also more robust to violations of GP modelling assumptions compared with earlier, related "Bayesian optimisation-like" methods tailored for Bayesian inference. We discuss some theoretical aspects and various interpretations of the resulting approximate MH sampler, and demonstrate its benefits in the context of Bayesian and generalised Bayesian likelihood-free inference for simulator-based statistical models.
翻訳日:2023-09-01 21:37:43 公開日:2023-08-31
# 機械学習モデル予測のためのユーザインタフェースのシミュレーションに基づく最適化

Simulation-Based Optimization of User Interfaces for Quality-Assuring Machine Learning Model Predictions ( http://arxiv.org/abs/2104.01129v2 )

ライセンス: Link先を確認
Yu Zhang and Martijn Tennekes and Tim de Jong and Lyana Curier and Bob Coecke and Min Chen(参考訳) 機械学習(ML)の品質に敏感なアプリケーションは、MLモデルの予測がデプロイされる前に、人間の品質保証(QA)を必要とする。 QA for ML (QA4ML) インターフェースでは、大量のデータを閲覧し、MLモデルによる誤りを修正するために多くのインタラクションを実行する必要がある。 最適化されたユーザインターフェース(UI)は、インタラクションコストを大幅に削減する。 UIの最適化は、設計オプションを評価するユーザスタディによって通知されるが、このアプローチは、通常、QA4MLインターフェースの効率に影響を与える小さなバリエーションが多数存在するため、スケーラブルではない。 そこで本研究では,QA4MLインタフェースの最適化をシミュレーションを用いて評価し,支援する。 特に、適切なインタラクションコマンドとマシンインテリジェンスを開始し、QA4MLプロセスの高速化にアルゴリズム支援を提供することにおいて、人間の知能の複合効果をシミュレーションすることに焦点を当てる。 QA4MLは通常、労働集約型であるため、異なるインタフェースとアルゴリズム設定下でのUI最適化の指標として、シミュレーションされたタスク完了時間を使用します。 いくつかのQA4MLアプリケーションでこのUI設計手法を実演する。

Quality-sensitive applications of machine learning (ML) require quality assurance (QA) by humans before the predictions of an ML model can be deployed. QA for ML (QA4ML) interfaces require users to view a large amount of data and perform many interactions to correct errors made by the ML model. An optimized user interface (UI) can significantly reduce interaction costs. While UI optimization can be informed by user studies evaluating design options, this approach is not scalable because there are typically numerous small variations that can affect the efficiency of a QA4ML interface. Hence, we propose using simulation to evaluate and aid the optimization of QA4ML interfaces. In particular, we focus on simulating the combined effects of human intelligence in initiating appropriate interaction commands and machine intelligence in providing algorithmic assistance for accelerating QA4ML processes. As QA4ML is usually labor-intensive, we use the simulated task completion time as the metric for UI optimization under different interface and algorithm setups. We demonstrate the usage of this UI design method in several QA4ML applications.
翻訳日:2023-09-01 21:37:22 公開日:2023-08-31
# 量子状態のコレクションのアイデンティティをテストする:サンプル複雑性分析

Testing identity of collections of quantum states: sample complexity analysis ( http://arxiv.org/abs/2103.14511v3 )

ライセンス: Link先を確認
Marco Fanizza, Raffaele Salvia, Vittorio Giovannetti(参考訳) 我々は、このコレクションへのサンプルアクセスが与えられた未知の量子状態の集合の同一性をテストする問題について検討する。 濃度 $n$ の $d$-次元量子状態の集合に対して、サンプル複雑性は $o(\sqrt{n}d/\epsilon^2)$, {with a matching lower bound, up to a multiplicative constant} である。 このテストは、B\u{a}descu, O'Donnell, Wright (https://dl.acm.org/doi/10.1145/3313276.3316344) による2つの未知の状態の間のヒルベルト-シュミット距離の推定器の適切な一般化により、状態間の平均2乗ヒルベルト-シュミット距離を推定することによって得られる。

We study the problem of testing identity of a collection of unknown quantum states given sample access to this collection, each state appearing with some known probability. We show that for a collection of $d$-dimensional quantum states of cardinality $N$, the sample complexity is $O(\sqrt{N}d/\epsilon^2)$, {with a matching lower bound, up to a multiplicative constant}. The test is obtained by estimating the mean squared Hilbert-Schmidt distance between the states, thanks to a suitable generalization of the estimator of the Hilbert-Schmidt distance between two unknown states by B\u{a}descu, O'Donnell, and Wright (https://dl.acm.org/doi/10.1145/3313276.3316344).
翻訳日:2023-09-01 21:37:06 公開日:2023-08-31
# 確率ゲームにおける時間課題の最適戦略の学習

Learning Optimal Strategies for Temporal Tasks in Stochastic Games ( http://arxiv.org/abs/2102.04307v3 )

ライセンス: Link先を確認
Alper Kamil Bozkurt, Yu Wang, Michael M. Zavlanos, Miroslav Pajic(参考訳) 線形時間論理(LTL)仕様からの合成は、確率的かつ潜在的に敵対的な環境で動作するシステムのための保証されたコントローラを提供する。 しかし、自動合成ツールは、コントローラを構築するための環境のモデルを必要とする。 本研究では,環境が完全に未知であっても,与えられたLTL仕様からコントローラを導出するためのモデルフリー強化学習(RL)手法を提案する。 この問題を制御器と対向環境の間の確率ゲーム(SG)としてモデル化し,LTL仕様を満たす確率を最大化する最適制御戦略を最悪の環境行動に対して学習する。 まず、所与のLTL仕様から翻訳された決定論的パリティオートマトン(DPA)を用いて製品ゲームを構築する。 DPAの受け入れ条件から異なる報酬と割引係数を導出することにより、LTL仕様を満たす最悪の確率の最大化を製品ゲームにおける割引報酬目標の最大化に還元し、モデルフリーなRLアルゴリズムを用いて最適な制御戦略を学ぶことができる。 dpa(一般に色と呼ばれる)の受理条件を定義する集合の数が多い場合の一般的なスケーラビリティ問題に対処するため、異なる報酬や割引要因を必要時にのみ利用する遅延色生成法と、コントローラが最終的に1色のみに焦点を当てる近似法を提案する。 いくつかのケーススタディにおいて、我々のアプローチは幅広いLTL式に拡張可能であることを示し、SGのLTL仕様からコントローラを学習するための既存の手法よりも優れていることを示す。

Synthesis from linear temporal logic (LTL) specifications provides assured controllers for systems operating in stochastic and potentially adversarial environments. Automatic synthesis tools, however, require a model of the environment to construct controllers. In this work, we introduce a model-free reinforcement learning (RL) approach to derive controllers from given LTL specifications even when the environment is completely unknown. We model the problem as a stochastic game (SG) between the controller and the adversarial environment; we then learn optimal control strategies that maximize the probability of satisfying the LTL specifications against the worst-case environment behavior. We first construct a product game using the deterministic parity automaton (DPA) translated from the given LTL specification. By deriving distinct rewards and discount factors from the acceptance condition of the DPA, we reduce the maximization of the worst-case probability of satisfying the LTL specification into the maximization of a discounted reward objective in the product game; this enables the use of model-free RL algorithms to learn an optimal controller strategy. To deal with the common scalability problems when the number of sets defining the acceptance condition of the DPA (usually referred as colors), is large, we propose a lazy color generation method where distinct rewards and discount factors are utilized only when needed, and an approximate method where the controller eventually focuses on only one color. In several case studies, we show that our approach is scalable to a wide range of LTL formulas, significantly outperforming existing methods for learning controllers from LTL specifications in SGs.
翻訳日:2023-09-01 21:36:43 公開日:2023-08-31
# 視覚対応に基づく説明はAIの堅牢性と人間-AIチームの正確性を改善する

Visual correspondence-based explanations improve AI robustness and human-AI team accuracy ( http://arxiv.org/abs/2208.00780v5 )

ライセンス: Link先を確認
Giang Nguyen, Mohammad Reza Taesiri, Anh Nguyen(参考訳) ai(artificial intelligence, 人工知能)の予測を説明することは、人間が究極の意思決定者である多くの高リスクアプリケーションにおいて、ますます重要であり、さらに必須です。 そこで本研究では,まず自己解釈可能な画像分類器の2つの新しいアーキテクチャを提案し,クエリ画像とexemplars間の視覚的対応を利用して(ポストホックな説明とは対照的に)予測する。 当社のモデルでは, アウト・オブ・ディストリビューション(OOD)データセットにおいて, ResNet-50 や $k$-nearest 隣の分類器 (kNN) よりも分布内テストにおいて, 極端に悪い (1 から 2 ポイント) 性能を示した。 ImageNetとCUBの大規模な人間による研究により、我々の対応に基づく説明は、kNNの説明よりもユーザにとって有用であることが判明した。 私たちの説明は、AIの間違った判断を他のテスト方法よりも正確に拒否するのに役立つ。 興味深いことに、ImageNet と CUB の画像分類タスクにおいて、初めて補完的な人間-AI チームの精度(つまり、AI-alone か人間-alone どちらよりも高い)を達成することができることを示す。

Explaining artificial intelligence (AI) predictions is increasingly important and even imperative in many high-stakes applications where humans are the ultimate decision-makers. In this work, we propose two novel architectures of self-interpretable image classifiers that first explain, and then predict (as opposed to post-hoc explanations) by harnessing the visual correspondences between a query image and exemplars. Our models consistently improve (by 1 to 4 points) on out-of-distribution (OOD) datasets while performing marginally worse (by 1 to 2 points) on in-distribution tests than ResNet-50 and a $k$-nearest neighbor classifier (kNN). Via a large-scale, human study on ImageNet and CUB, our correspondence-based explanations are found to be more useful to users than kNN explanations. Our explanations help users more accurately reject AI's wrong decisions than all other tested methods. Interestingly, for the first time, we show that it is possible to achieve complementary human-AI team accuracy (i.e., that is higher than either AI-alone or human-alone), in ImageNet and CUB image classification tasks.
翻訳日:2023-09-01 21:31:16 公開日:2023-08-31
# グループDETR:グループワイズワンマンアサインメントによる高速DETRトレーニング

Group DETR: Fast DETR Training with Group-Wise One-to-Many Assignment ( http://arxiv.org/abs/2207.13085v3 )

ライセンス: Link先を確認
Qiang Chen, Xiaokang Chen, Jian Wang, Shan Zhang, Kun Yao, Haocheng Feng, Junyu Han, Errui Ding, Gang Zeng, Jingdong Wang(参考訳) 検出変換器(DETR)は1対1の割り当てに依存し、NMS後処理なしで1つの接地真実を1つの予測に割り当てる。 複数の予測に1つの基幹オブジェクトを割り当てる1対多の割り当ては、より高速なR-CNNやFCOSなどの検出手法に成功することが知られている。 素直な1対多の割り当てはDETRには有効ではなく、DETRトレーニングに1対多の割り当てを適用することは依然として難しい。 本稿では,1対多の割り当てを行うグループワイドな方法を導入する,単純で効率的なDECRトレーニング手法であるグループDETRを紹介する。 このアプローチでは、複数のオブジェクトクエリのグループを使用し、各グループで1対1の割り当てを実行し、個別にデコーダのセルフアテンションを実行する。 自動学習されたオブジェクトクエリ拡張によるデータ拡張に似ている。 また、同じアーキテクチャのパラメータ共有ネットワークを同時にトレーニングし、より監督し、DETRトレーニングを改善することに等価である。 推論プロセスは普通にトレーニングされたDETRと同じで、アーキテクチャの変更なしにクエリのグループをひとつだけ必要とします。 グループDETRは多用途であり、様々なDETR変種に適用できる。 実験の結果,グループDETRはトレーニング収束を著しく高速化し,様々なDETRモデルの性能向上を図っている。 コードは \url{https://github.com/Atten4Vis/GroupDETR} で入手できる。

Detection transformer (DETR) relies on one-to-one assignment, assigning one ground-truth object to one prediction, for end-to-end detection without NMS post-processing. It is known that one-to-many assignment, assigning one ground-truth object to multiple predictions, succeeds in detection methods such as Faster R-CNN and FCOS. While the naive one-to-many assignment does not work for DETR, and it remains challenging to apply one-to-many assignment for DETR training. In this paper, we introduce Group DETR, a simple yet efficient DETR training approach that introduces a group-wise way for one-to-many assignment. This approach involves using multiple groups of object queries, conducting one-to-one assignment within each group, and performing decoder self-attention separately. It resembles data augmentation with automatically-learned object query augmentation. It is also equivalent to simultaneously training parameter-sharing networks of the same architecture, introducing more supervision and thus improving DETR training. The inference process is the same as DETR trained normally and only needs one group of queries without any architecture modification. Group DETR is versatile and is applicable to various DETR variants. The experiments show that Group DETR significantly speeds up the training convergence and improves the performance of various DETR-based models. Code will be available at \url{https://github.com/Atten4Vis/GroupDETR}.
翻訳日:2023-09-01 21:30:49 公開日:2023-08-31
# 普遍的クラスター状態を持たないマルチエージェントブラインド量子計算

Multi-agent blind quantum computation without universal cluster states ( http://arxiv.org/abs/2206.13330v3 )

ライセンス: Link先を確認
Shuxiang Cao(参考訳) Blind Quant Computing (BQC)プロトコルは、データとアルゴリズムを秘密にしながら、サードパーティの量子エージェント上で量子アルゴリズムの実行を可能にする。 従来の測定ベースのBQCの提案では、非常に絡み合ったクラスタ状態を用意する必要がある。 本稿では,そのような要件は不要であることを示す。 我々のプロトコルでは、デリゲートされた量子エージェント間の事前共有ベルペアしか必要とせず、実行中にエージェント間の古典的または量子的な情報交換は不要である。 我々の提案は、普遍的なクラスタ状態の必要性を排除し、以前の提案よりも少ない量子リソースを必要とする。

Blind quantum computation (BQC) protocols enable quantum algorithms to be executed on third-party quantum agents while keeping the data and algorithm confidential. The previous proposals for measurement-based BQC require preparing a highly entangled cluster state. In this paper, we show that such a requirement is not necessary. Our protocol only requires pre-shared bell pairs between delegated quantum agents, and there is no requirement for any classical or quantum information exchange between agents during the execution. Our proposal requires fewer quantum resources than previous proposals by eliminating the need for a universal cluster state.
翻訳日:2023-09-01 21:30:25 公開日:2023-08-31
# 空間過程の不均一性探索のための局所化アルゴリズムの拡張

Extending regionalization algorithms to explore spatial process heterogeneity ( http://arxiv.org/abs/2206.09429v4 )

ライセンス: Link先を確認
Hao Guo, Andre Python, Yu Liu(参考訳) 空間回帰モデルでは、空間的不均一性は連続的あるいは離散的仕様で考えることができる。 後者は、変数間の均質な関係を持つ空間的連結領域(空間的レジーム)のデライン化に関連している。 空間分析の分野では様々な地域化アルゴリズムが提案され研究されているが、空間構造を最適化する手法はほとんど研究されていない。 本稿では,2段階のKモデルと2段階のKモデルという,空間状態のデライン化のための2つの新しいアルゴリズムを提案する。 また,従来の自動造形法を空間回帰文脈に拡張する。 提案アルゴリズムは、一連の合成データセットと2つの実世界のデータセットに適用される。 以上の結果から,3つのアルゴリズムは既存の手法よりも優れている,あるいは同等な性能を達成し,K-Modelsアルゴリズムはモデルフィッティングや領域再構成,係数推定といった既存手法よりも優れていたことが示唆された。 我々の研究は空間解析ツールボックスを充実させ、空間異質過程を探索する。

In spatial regression models, spatial heterogeneity may be considered with either continuous or discrete specifications. The latter is related to delineation of spatially connected regions with homogeneous relationships between variables (spatial regimes). Although various regionalization algorithms have been proposed and studied in the field of spatial analytics, methods to optimize spatial regimes have been largely unexplored. In this paper, we propose two new algorithms for spatial regime delineation, two-stage K-Models and Regional-K-Models. We also extend the classic Automatic Zoning Procedure to spatial regression context. The proposed algorithms are applied to a series of synthetic datasets and two real-world datasets. Results indicate that all three algorithms achieve superior or comparable performance to existing approaches, while the two-stage K-Models algorithm largely outperforms existing approaches on model fitting, region reconstruction, and coefficient estimation. Our work enriches the spatial analytics toolbox to explore spatial heterogeneous processes.
翻訳日:2023-09-01 21:30:16 公開日:2023-08-31
# 0/1 ブロック座標降下によるディープニューラルネットワーク

0/1 Deep Neural Networks via Block Coordinate Descent ( http://arxiv.org/abs/2206.09379v2 )

ライセンス: Link先を確認
Hui Zhang, Shenglong Zhou, Geoffrey Ye Li, Naihua Xiu(参考訳) ステップ関数は、ディープニューラルネットワーク(DNN)の最も単純かつ最も自然なアクティベーション関数の1つである。 正の変数は 1 で、他の変数は 0 なので、本質的な特性(例えば、不連続性や下位段階の情報がないなど)は数十年にわたってその発展を妨げる。 ステップ関数のサロゲートと見なされる連続活性化関数を持つDNNを設計する際、驚くべき仕事の本体があるとしても、アウトレーヤに対する完全堅牢性や、予測精度の最良の学習理論的保証を達成できるなど、いくつかの有利な特性を持っている。 そこで本研究では,ステップ関数をアクティベーション関数 (0/1 DNN) として使用するDNNの訓練を目的とした。 まず,制約のない最適化問題として0/1 DNNを再構成し,ブロック座標降下法(BCD)により解いた。 さらに,BCDのサブプロブレムおよび収束特性に対する閉形式解を得る。 さらに,$\ell_{2,0}$-regularizationを0/1 dnnに統合し,トレーニングプロセスを高速化し,ネットワーク規模を圧縮した。 その結果,提案アルゴリズムはMNISTデータセットとFashion-MNISTデータセットの分類において高い性能を示した。 その結果,提案アルゴリズムは,MNIST,FashionMNIST,Cifar10,Cifar100データセットの分類に望ましい性能を示した。

The step function is one of the simplest and most natural activation functions for deep neural networks (DNNs). As it counts 1 for positive variables and 0 for others, its intrinsic characteristics (e.g., discontinuity and no viable information of subgradients) impede its development for several decades. Even if there is an impressive body of work on designing DNNs with continuous activation functions that can be deemed as surrogates of the step function, it is still in the possession of some advantageous properties, such as complete robustness to outliers and being capable of attaining the best learning-theoretic guarantee of predictive accuracy. Hence, in this paper, we aim to train DNNs with the step function used as an activation function (dubbed as 0/1 DNNs). We first reformulate 0/1 DNNs as an unconstrained optimization problem and then solve it by a block coordinate descend (BCD) method. Moreover, we acquire closed-form solutions for sub-problems of BCD as well as its convergence properties. Furthermore, we also integrate $\ell_{2,0}$-regularization into 0/1 DNN to accelerate the training process and compress the network scale. As a result, the proposed algorithm has a high performance on classifying MNIST and Fashion-MNIST datasets. As a result, the proposed algorithm has a desirable performance on classifying MNIST, FashionMNIST, Cifar10, and Cifar100 datasets.
翻訳日:2023-09-01 21:29:39 公開日:2023-08-31
# ニューロンの多様性は物理学などの機械学習を改善する

Neuronal diversity can improve machine learning for physics and beyond ( http://arxiv.org/abs/2204.04348v3 )

ライセンス: Link先を確認
Anshul Choudhary, Anil Radhakrishnan, John F. Lindner, Sudeshna Sinha, William L. Ditto(参考訳) 多様性は自然界の利点をもたらすが、均質なニューロンは通常、ニューラルネットワークの層を構成する。 ここでは、ニューロンの活性化関数を学習し、迅速に多様化し、画像分類や非線形回帰タスクにおいて同質のニューロンよりも優れたニューラルネットワークを構築する。 サブネットワークは、特に非線形応答のメタ学習を行うニューロンをインスタンス化する。 例えば、従来のニューラルネットワークでは、数字を分類し、van der polの発振器を予測し、物理学に変形したハミルトニアンニューラルネットワークは、h\'enon-heiles stellar軌道を学習し、ビデオ記録された振り子クロックの振れを学習する。 このような「textit{learned diversity」は、一様性よりも多様性を選択し、自然および人工システムにおける多様性の役割を解明する力学系の例を提供する。

Diversity conveys advantages in nature, yet homogeneous neurons typically comprise the layers of artificial neural networks. Here we construct neural networks from neurons that learn their own activation functions, quickly diversify, and subsequently outperform their homogeneous counterparts on image classification and nonlinear regression tasks. Sub-networks instantiate the neurons, which meta-learn especially efficient sets of nonlinear responses. Examples include conventional neural networks classifying digits and forecasting a van der Pol oscillator and physics-informed Hamiltonian neural networks learning H\'enon-Heiles stellar orbits and the swing of a video recorded pendulum clock. Such \textit{learned diversity} provides examples of dynamical systems selecting diversity over uniformity and elucidates the role of diversity in natural and artificial systems.
翻訳日:2023-09-01 21:28:42 公開日:2023-08-31
# 特殊量子非局所性をもつ量子状態の最小集合上の境界

Bounds on the smallest sets of quantum states with special quantum nonlocality ( http://arxiv.org/abs/2202.09034v4 )

ライセンス: Link先を確認
Mao-Sheng Li and Yan-Ling Wang(参考訳) 多部系における直交状態の集合が強い量子非局所性 (strong quantum nonlocality) であるとは、それが局所的に部分系のすべての二分法で既約であるときに言う。 Rev. Lett. \textbf{122}, 040403 (2019)}]。 本研究では,局所既約集合の部分クラスについて検討する: 各サブシステム上で測定を保存できる唯一の直交性は自明な測定である。 この性質を持つ集合を局所安定と呼ぶ。 2つの量子ビット系の場合、局所安定集合は局所的に区別できない集合と一致することが分かる。 次に、ある状態の次元が依存する空間を介して局所安定集合を特徴づける。 さらに,2つの直交集合を一般多成分量子系において構成し,各サブユニットの任意の二分割の下で局所安定である。 その結果、サブシステムの各分割に対して局所的に安定である最小の集合のサイズ上の下界と上界が得られる。 我々の結果は、任意の$d_i \geq 2$ および $1\leq i\leq N$ に対して $\mathbb{C}^{d_1} \otimes \mathbb{C}^{d_1}\otimes \cdots \mathbb{C}^{d_N} $ において強い量子非局所性を示すことができる。 https://journals.aps.org/pra/abstract/10.1103/PhysRevA.105.022209}{Phys。 rev. a \textbf{105}, 022209 (2022)}]。 これまでのすべての関連する証明と比較すると、ここでの証明は非常に簡潔である。

An orthogonal set of states in multipartite systems is called to be strong quantum nonlocality if it is locally irreducible under every bipartition of the subsystems \href{https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.122.040403}{Phys. Rev. Lett. \textbf{122}, 040403 (2019)}]. In this work, we study a subclass of locally irreducible sets: the only possible orthogonality preserving measurement on each subsystems are trivial measurements. We call the set with this property is locally stable. We find that in the case of two qubits systems locally stable sets are coincide with locally indistinguishable sets. Then we present a characterization of locally stable sets via the dimensions of some states depended spaces. Moreover, we construct two orthogonal sets in general multipartite quantum systems which are locally stable under every bipartition of the subsystems. As a consequence, we obtain a lower bound and an upper bound on the size of the smallest set which is locally stable for each bipartition of the subsystems. Our results provide a complete answer to an open question (that is, can we show strong quantum nonlocality in $\mathbb{C}^{d_1} \otimes \mathbb{C}^{d_1}\otimes \cdots \otimes \mathbb{C}^{d_N} $ for any $d_i \geq 2$ and $1\leq i\leq N$?) raised in a recent paper [\href{https://journals.aps.org/pra/abstract/10.1103/PhysRevA.105.022209}{Phys. Rev. A \textbf{105}, 022209 (2022)}]. Compared with all previous relevant proofs, our proof here is quite concise.
翻訳日:2023-09-01 21:28:24 公開日:2023-08-31
# MGNN: 距離幾何学問題に触発されたグラフニューラルネットワーク

MGNN: Graph Neural Networks Inspired by Distance Geometry Problem ( http://arxiv.org/abs/2201.12994v4 )

ライセンス: Link先を確認
Guanyu Cui, Zhewei Wei(参考訳) グラフニューラルネットワーク(GNN)は、機械学習分野における顕著な研究トピックとして現れている。 既存のGNNモデルは通常、多項式グラフフィルタに基づいて設計されたスペクトルGNNと、そのモデルの基礎としてメッセージパス方式を利用する空間GNNの2種類に分類される。 スペクトルGNNの表現力と普遍性のために、自然なアプローチは、近似能力を向上するために基底関数の設計を改善することである。 空間的GNNについては、グラフ同型ネットワーク(GIN)のようなモデルがグラフ同型テストに基づいて表現力を分析する。 近年、空間的GNNと曲率や細胞シーブのような幾何学的概念、および発振器のような物理現象との接続を確立する試みが試みられている。 しかし,近年の進歩にもかかわらず,空間gnnの普遍性に関する包括的分析が幾何学や物理学の観点から欠落している。 本稿では,GNNの分類段階における分類器の合同非感度特性に着想を得た空間的GNNモデルであるMetricGNNを提案する。 任意の埋め込み行列と一致する埋め込み行列を生成することができる場合、GNNモデルは空間領域において普遍的であることを示す。 この性質は距離幾何問題(dgp)と密接に関連している。 dgp はnp-hard combinatorial optimization 問題であるので,spring ネットワークからのエネルギー関数の最適化と多次元スケーリング (mds) 問題を提案する。 このアプローチはまた、我々のモデルはホモフィルグラフとヘテロフィルグラフの両方を扱うことができる。 最後に,エネルギー関数の最適化に反復法を用いることを提案する。 合成および実世界の両方のデータセットを用いて実験を行い,本モデルの有効性を広範囲に評価した。 コードはhttps://github.com/guanyucui/mgnn.com/。

Graph Neural Networks (GNNs) have emerged as a prominent research topic in the field of machine learning. Existing GNN models are commonly categorized into two types: spectral GNNs, which are designed based on polynomial graph filters, and spatial GNNs, which utilize a message-passing scheme as the foundation of the model. For the expressive power and universality of spectral GNNs, a natural approach is to improve the design of basis functions for better approximation ability. As for spatial GNNs, models like Graph Isomorphism Networks (GIN) analyze their expressive power based on Graph Isomorphism Tests. Recently, there have been attempts to establish connections between spatial GNNs and geometric concepts like curvature and cellular sheaves, as well as physical phenomena like oscillators. However, despite the recent progress, there is still a lack of comprehensive analysis regarding the universality of spatial GNNs from the perspectives of geometry and physics. In this paper, we propose MetricGNN (MGNN), a spatial GNN model inspired by the congruent-insensitivity property of classifiers in the classification phase of GNNs. We demonstrate that a GNN model is universal in the spatial domain if it can generate embedding matrices that are congruent to any given embedding matrix. This property is closely related to the Distance Geometry Problem (DGP). Since DGP is an NP-Hard combinatorial optimization problem, we propose optimizing an energy function derived from spring networks and the Multi-Dimensional Scaling (MDS) problem. This approach also allows our model to handle both homophilic and heterophilic graphs. Finally, we propose employing the iteration method to optimize our energy function. We extensively evaluate the effectiveness of our model through experiments conducted on both synthetic and real-world datasets. Our code is available at: https://github.com/GuanyuCui/MGNN.
翻訳日:2023-09-01 21:27:22 公開日:2023-08-31
# 多分野協調学習のための適応型プロンプトチューニング

Federated Adaptive Prompt Tuning for Multi-domain Collaborative Learning ( http://arxiv.org/abs/2211.07864v2 )

ライセンス: Link先を確認
Shangchao Su and Mingzhao Yang and Bin Li and Xiangyang Xue(参考訳) フェデレートラーニング(FL)は、複数のクライアントがデータを開示することなく、協力的にグローバルモデルをトレーニングすることを可能にする。 以前の研究では、しばしば完全なモデルパラメータを訓練する必要がある。 しかし、強力な事前学習モデルの出現により、FLの学習可能なパラメータが少なく、より高い性能を達成することができる。 本稿では,CLIPのような強力な基盤モデルを用いた多領域協調画像分類のための適応型プロンプトチューニングアルゴリズムであるFedAPTを提案する。 直接のフェデレーションプロンプトチューニングと比較して、私たちの核となるアイデアは、各テストサンプルの特定のドメイン知識を適応的にアンロックして、パーソナライズされたプロンプトを提供することです。 このアイデアを実現するために,メタプロンプト,適応ネットワーク,いくつかのキーからなる適応型プロンプトチューニングモジュールを設計した。 サーバはランダムにキーのセットを生成し、各クライアントにユニークなキーを割り当てる。 そして、すべてのクライアントがグローバル適応ネットワークとメタプロンプトをローカルデータセットと凍結キーで協調的にトレーニングする。 最終的に、グローバルアグリゲーションモデルは、各テストサンプルのドメイン機能に基づいて、パーソナライズされたプロンプトをCLIPに割り当てることができる。 我々は、教師なしと教師なしの2つの異なる設定にまたがる2つのマルチドメイン画像分類データセットについて広範な実験を行った。 その結果、FedAPTは、完全に訓練されたモデルのパラメータの10分の1以下でより良い性能を達成でき、グローバルモデルは多様なクライアントドメインで同時に性能を発揮できることがわかった。

Federated learning (FL) enables multiple clients to collaboratively train a global model without disclosing their data. Previous researches often require training the complete model parameters. However, the emergence of powerful pre-trained models makes it possible to achieve higher performance with fewer learnable parameters in FL. In this paper, we propose a federated adaptive prompt tuning algorithm, FedAPT, for multi-domain collaborative image classification with powerful foundation models, like CLIP. Compared with direct federated prompt tuning, our core idea is to adaptively unlock specific domain knowledge for each test sample in order to provide them with personalized prompts. To implement this idea, we design an adaptive prompt tuning module, which consists of a meta prompt, an adaptive network, and some keys. The server randomly generates a set of keys and assigns a unique key to each client. Then all clients cooperatively train the global adaptive network and meta prompt with the local datasets and the frozen keys. Ultimately, the global aggregation model can assign a personalized prompt to CLIP based on the domain features of each test sample. We perform extensive experiments on two multi-domain image classification datasets across two different settings - supervised and unsupervised. The results show that FedAPT can achieve better performance with less than 10\% of the number of parameters of the fully trained model, and the global model can perform well in diverse client domains simultaneously.
翻訳日:2023-09-01 21:20:09 公開日:2023-08-31
# ゼノ効果を用いたマルチ量子ビット量子ゲート

A Multi-Qubit Quantum Gate Using the Zeno Effect ( http://arxiv.org/abs/2211.05988v3 )

ライセンス: Link先を確認
Philippe Lewalle, Leigh S. Martin, Emmanuel Flurin, Song Zhang, Eliya Blumenthal, Shay Hacohen-Gourgy, Daniel Burgarth, K. Birgitta Whaley(参考訳) 繰り返し観測されるゼノ効果は量子系の力学を凍結させ、量子力学の象徴的な奇性として機能する。 測定が部分空間内の状態と区別できない場合、その部分空間内のダイナミクスは著しく変化し、非自明な振る舞いをもたらす。 そこで,このような測定により,単一ビット制御のみの非干渉系を2ビットあるいは複数ビットのエンタングゲートに変換し,これをゼノゲートと呼ぶ。 ゲートは、ある特定の非局所部分空間内に位置するシステム上に幾何位相を付与することで機能する。 我々は,複数の非イデアル条件下でのゲート忠実度に対する単純な閉形式表現を導出し,回路およびキャビティQEDシステムにおいてゲートが実装可能であることを示す。 より具体的には、マルコフ的および非マルコフ的読み出し規則の両方において、分散的読み出しによるゲートの機能を説明し、ゲートを理想的に実現するための長手読み出し条件を導出する。

The Zeno effect, in which repeated observation freezes the dynamics of a quantum system, stands as an iconic oddity of quantum mechanics. When a measurement is unable to distinguish between states in a subspace, the dynamics within that subspace can be profoundly altered, leading to non-trivial behavior. Here we show that such a measurement can turn a non-interacting system with only single-qubit control into a two- or multi-qubit entangling gate, which we call a Zeno gate. The gate works by imparting a geometric phase on the system, conditioned on it lying within a particular nonlocal subspace. We derive simple closed-form expressions for the gate fidelity under a number of non-idealities and show that the gate is viable for implementation in circuit and cavity QED systems. More specifically, we illustrate the functioning of the gate via dispersive readout in both the Markovian and non-Markovian readout regimes, and derive conditions for longitudinal readout to ideally realize the gate.
翻訳日:2023-09-01 21:19:44 公開日:2023-08-31
# 変分自由エネルギー最小化によるベイズニューラルネットワークの原理的プルーニング

Principled Pruning of Bayesian Neural Networks through Variational Free Energy Minimization ( http://arxiv.org/abs/2210.09134v2 )

ライセンス: Link先を確認
Jim Beckers, Bart van Erp, Ziyue Zhao, Kirill Kondrashov and Bert de Vries(参考訳) ベイズモデル還元は、これらのサブモデルを再評価することなく、モデルのネストした全てのサブモデルのパフォーマンスを比較するための効率的なアプローチを提供する。 これまでベイズモデル還元は、主に計算神経科学のコミュニティで単純なモデルに応用されてきた。 本稿では,変分自由エネルギー最小化に基づくベイズニューラルネットワークの原理的プルーニングを行うためにベイズモデル削減を定式化し,適用する。 しかし、ベイズモデル還元の直接的適用は近似誤差をもたらす。 そこで,様々な推論アルゴリズムに対して,公開可能なuciデータセット上で実験的にサポートされているような,ナイーブベイズモデル還元に起因する問題を緩和するために,新しい反復pruningアルゴリズムを提案する。 この新たなパラメータプルーニングスキームは,信号処理コミュニティが使用する最先端プルーニング手法の欠点を解決する。 提案手法は、明確な停止基準を持ち、トレーニング中に使用されるのと同じ目的を最小化する。 これらの利点の次は、最先端プルーニング方式と比較してモデル性能が良いことを示す。

Bayesian model reduction provides an efficient approach for comparing the performance of all nested sub-models of a model, without re-evaluating any of these sub-models. Until now, Bayesian model reduction has been applied mainly in the computational neuroscience community on simple models. In this paper, we formulate and apply Bayesian model reduction to perform principled pruning of Bayesian neural networks, based on variational free energy minimization. Direct application of Bayesian model reduction, however, gives rise to approximation errors. Therefore, a novel iterative pruning algorithm is presented to alleviate the problems arising with naive Bayesian model reduction, as supported experimentally on the publicly available UCI datasets for different inference algorithms. This novel parameter pruning scheme solves the shortcomings of current state-of-the-art pruning methods that are used by the signal processing community. The proposed approach has a clear stopping criterion and minimizes the same objective that is used during training. Next to these benefits, our experiments indicate better model performance in comparison to state-of-the-art pruning schemes.
翻訳日:2023-09-01 21:19:25 公開日:2023-08-31
# ディックおよびGHZ状態忠実度のためのスケーラブルな実験境界

Scalable Experimental Bounds for Dicke and GHZ States Fidelities ( http://arxiv.org/abs/2210.03048v2 )

ライセンス: Link先を確認
Shamminuj Aktar, Andreas B\"artschi, Abdel-Hameed A. Badawy, Stephan Eidenbenz(参考訳) ノイズの多い中間スケール量子(NISQ)デバイス上での高絡み合い状態の状態準備忠実度の推定は、ベンチマークと応用上の考慮にとって重要な課題である。 残念なことに、正確な忠実度測定は、全てのパウリ基底で測定されたフルステートトモグラフィを用いて、指数関数的に$O(3^N)$ for $N$-qubit状態にスケールするため、急速に高価になる。 しかし、Somma ら (PhysRevA.74.052302) は、Dicke States や GHZ States のような対称性を示す状態の忠実度の下限を調べると、複雑さが劇的に減少することを示した。 より大きな状態の場合、これらの境界は NISQ デバイスに対して妥当な推定を提供するのに十分厳密である必要がある。 理論導入から15年以上経って初めて,最近提案された拡張回路を効率よく実装した量子H1イオントラップシステムにおいて,すべてのDicke状態の状態準備忠実度が$N=10$,すべてのGHZ状態が$N=20$となる有意義な下限を報告した。 我々の達成した低い境界は、より小さな状態の超伝導系において、以前に報告された正確な忠実度に一致または超える。 この研究は、NISQデバイスのサイズと品質が向上するにつれて、絡み合いをベンチマークするための道筋を提供する。

Estimating the state preparation fidelity of highly entangled states on noisy intermediate-scale quantum (NISQ) devices is an important task for benchmarking and application considerations. Unfortunately, exact fidelity measurements quickly become prohibitively expensive, as they scale exponentially as $O(3^N)$ for $N$-qubit states, using full state tomography with measurements in all Pauli bases combinations. However, Somma and others [PhysRevA.74.052302] established that the complexity could be drastically reduced when looking at fidelity lower bounds for states that exhibit symmetries, such as Dicke States and GHZ States. For larger states, these bounds still need to be tight enough to provide reasonable estimations on NISQ devices. For the first time and more than 15 years after the theoretical introduction, we report meaningful lower bounds for the state preparation fidelity of all Dicke States up to $N=10$, and all GHZ states up to $N=20$ on Quantinuum H1 ion-trap systems using efficient implementations of recently proposed scalable circuits for these states. Our achieved lower bounds match or exceed previously reported exact fidelities on superconducting systems for much smaller states. This work provides a path forward to benchmarking entanglement as NISQ devices improve in size and quality.
翻訳日:2023-09-01 21:18:39 公開日:2023-08-31
# 力学系によるニューラルネットワーク

Dynamical systems' based neural networks ( http://arxiv.org/abs/2210.02373v2 )

ライセンス: Link先を確認
Elena Celledoni, Davide Murari, Brynjulf Owren, Carola-Bibiane Sch\"onlieb, Ferdia Sherry(参考訳) ニューラルネットワークは多くのアプリケーションで有効であることから、多くの関心を集めている。 しかし、それらの数学的性質は一般にはよく分かっていない。 データや近似関数に固有の幾何構造が存在する場合、ニューラルネットワークの設計においてこれを考慮に入れることが望ましい。 本研究では,非自律型odeから始まり,適切な構造保存型,数値的時間離散化を用いたニューラルネットワークを構築する。 ニューラルネットワークの構造は、ODEベクトル場の特性から推定される。 ネットワークアーキテクチャにより多くの構造を注入するだけでなく、このモデリング手順により、その振る舞いをより理論的に理解することができる。 2つの普遍近似結果を示し、ニューラルネットワークに特定の特性を課す方法を示す。 特に注目しているのは、1-Lipschitzでないレイヤを含む1-Lipschitzアーキテクチャである。 これらのネットワークは、CIFAR-10とCIFAR-100データセットに示されているように、敵攻撃に対して表現的で堅牢である。

Neural networks have gained much interest because of their effectiveness in many applications. However, their mathematical properties are generally not well understood. If there is some underlying geometric structure inherent to the data or to the function to approximate, it is often desirable to take this into account in the design of the neural network. In this work, we start with a non-autonomous ODE and build neural networks using a suitable, structure-preserving, numerical time-discretisation. The structure of the neural network is then inferred from the properties of the ODE vector field. Besides injecting more structure into the network architectures, this modelling procedure allows a better theoretical understanding of their behaviour. We present two universal approximation results and demonstrate how to impose some particular properties on the neural networks. A particular focus is on 1-Lipschitz architectures including layers that are not 1-Lipschitz. These networks are expressive and robust against adversarial attacks, as shown for the CIFAR-10 and CIFAR-100 datasets.
翻訳日:2023-09-01 21:17:52 公開日:2023-08-31
# 二元活性化ニューラルネットワークの解釈可能性と説明可能性

Seeking Interpretability and Explainability in Binary Activated Neural Networks ( http://arxiv.org/abs/2209.03450v2 )

ライセンス: Link先を確認
Benjamin Leblanc and Pascal Germain(参考訳) 本研究では,表データにおける回帰課題の文脈において,2次活性化型ニューラルネットワークを解釈可能かつ説明可能な予測器として用いることを検討する。より具体的には,その表現力の保証を提供し,特徴量,隠れたニューロン、さらには重みの相対的重要性を定量化するためのシェープ値の効率的な計算に基づくアプローチを提案する。 モデルの単純さは解釈可能性向上に有効であるため,コンパクトなバイナリアクティベートネットワークを構築するための欲求的アルゴリズムを提案する。 このアプローチは、ネットワークのアーキテクチャを事前に修正する必要はなく、一度に1つのレイヤを構築し、一度に1つのニューロンを構築し、あるタスクに対して不要に複雑でない予測器に繋がる。

We study the use of binary activated neural networks as interpretable and explainable predictors in the context of regression tasks on tabular data; more specifically, we provide guarantees on their expressiveness, present an approach based on the efficient computation of SHAP values for quantifying the relative importance of the features, hidden neurons and even weights. As the model's simplicity is instrumental in achieving interpretability, we propose a greedy algorithm for building compact binary activated networks. This approach doesn't need to fix an architecture for the network in advance: it is built one layer at a time, one neuron at a time, leading to predictors that aren't needlessly complex for a given task.
翻訳日:2023-09-01 21:17:18 公開日:2023-08-31
# 絡み合いの部分ノルム:一夫一婦制でない絡み合いモノトン

Partial-Norm of Entanglement: Entanglement Monotones That are not Monogamous ( http://arxiv.org/abs/2212.06521v6 )

ライセンス: Link先を確認
Yu Guo(参考訳) 量子エンタングルメントは単ガマスであることが知られており、多部系間でのエンタングルメントの分散に関する強い制約に従う。 これまでのすべての絡み合いモノトンはモノガモンであることが示されている。 ここでは、減少する関数が凹凸であるような絡み合いモノトンの族を探索し、厳密に凹凸ではないことを示す。 これらは、縮小状態の `partial-norm' の 4 つの種類で定義され、それらを \textit{partial-norm of entanglement} 、 最小部分ノルム、強化最小部分ノルム of tanglement 、および \textit{partial negativity} と呼ぶ。 このことは、エンタングルメント単調の以前の公理的定義は、そのような厳密な凹凸が対応する凸-ローフ拡張エンタングルメント単調であることを保証するため、還元関数が厳密に凹むべきであるという補足的合意を必要とすることを示している。 ここでは、絡み合いモノトンの還元関数は、二分位純状態の還元状態における対応する関数を指す。

Quantum entanglement is known to be monogamous, i.e., it obeys strong constraints on how the entanglement can be distributed among multipartite systems. Almost all the entanglement monotones so far are shown to be monogamous. We explore here a family of entanglement monotones with the reduced functions are concave but not strictly concave and show that they are not monogamous. They are defined by four kinds of the ``partial-norm'' of the reduced state, which we call them \textit{partial-norm of entanglement}, minimal partial-norm of entanglement, reinforced minimal partial-norm of entanglement, and \textit{partial negativity}, respectively. This indicates that, the previous axiomatic definition of the entanglement monotone needs supplemental agreement that the reduced function should be strictly concave since such a strict concavity can make sure that the corresponding convex-roof extended entanglement monotone is monogamous. Here, the reduced function of an entanglement monotone refers to the corresponding function on the reduced state for the measure on bipartite pure states.
翻訳日:2023-09-01 21:10:58 公開日:2023-08-31
# 双極子-ジポール相互作用による静止暗黒偏光子の実験的実証

Experimental Demonstration of Stationary Dark-State Polaritons Dressed by Dipole-Dipole Interaction ( http://arxiv.org/abs/2212.05437v3 )

ライセンス: Link先を確認
Bongjune Kim, Ko-Tang Chen, Kuei-You Chen, Yu-Shan Chiu, Chia-Yu Hsu, Yi-Hsin Chen, and Ite A. Yu(参考訳) 電磁誘導透過効果に基づく暗方偏光子(DSP)は、光子と原子基底状態コヒーレンスの重ね合わせを表すボゾン準粒子である。 定常DSPはSchr\"{o}dinger方程式とよく似た運動方程式によって制御され、原子BECのそれよりも大きな遷移温度秩序を持つボース=アインシュタイン凝縮(BEC)を達成するために用いられることが提案されている。 定常DSP BECは3次元系であり、エキシトン・ポラリトン BECよりも長い寿命を持つ。 本研究では,Rydberg-state dipole-dipole interaction (DDI) を模擬した定常DSPを実験的に実証した。 定常DSPのDDI誘起相変化を系統的に検討した。 特に、実験データは理論的な予測と一致している。 位相シフトは弾性衝突の結果と見なすことができる。 BECを実現するための熱化の観点では、DDIの$\mu$m$^2$-size相互作用断面積は静止DSPに対して十分な弾性衝突速度をもたらす。 この研究は静止DSP BECの実現に向けて大きな進歩を遂げている。

Dark-state polaritons (DSPs) based on the effect of electromagnetically induced transparency are bosonic quasiparticles, representing the superpositions of photons and atomic ground-state coherences. It has been proposed that stationary DSPs are governed by the equation of motion closely similar to the Schr\"{o}dinger equation and can be employed to achieve Bose-Einstein condensation (BEC) with transition temperature orders of magnitude higher than that of the atomic BEC. The stationary-DSP BEC is a three-dimensional system and has a far longer lifetime than the exciton-polariton BEC. In this work, we experimentally demonstrated the stationary DSP dressed by the Rydberg-state dipole-dipole interaction (DDI). The DDI-induced phase shift of the stationary DSP was systematically studied. Notably, the experimental data are consistent with the theoretical predictions. The phase shift can be viewed as a consequence of elastic collisions. In terms of thermalization to achieve BEC, the $\mu$m$^2$-size interaction cross-section of the DDI can produce a sufficient elastic collision rate for the stationary DSPs. This work makes a substantial advancement toward the realization of the stationary-DSP BEC.
翻訳日:2023-09-01 21:10:34 公開日:2023-08-31
# トランスモンの普遍quditゲート合成

Universal qudit gate synthesis for transmons ( http://arxiv.org/abs/2212.04496v2 )

ライセンス: Link先を確認
Laurin E. Fischer, Alessandro Chiesa, Francesco Tacchino, Daniel J. Egger, Stefano Carretta, Ivano Tavernelli(参考訳) ゲートベースの量子コンピュータは通常、情報を量子ビットと呼ばれる2次元単位にエンコードし処理する。 代わりに$d$-dimensional quditsを使用することで、より効率的な回路合成、問題調整エンコーディング、組込み誤り訂正などの本質的な利点が得られる。 本研究では,トランスモン量子ビットの論理空間を高励起レベルに拡張した超伝導量子プロセッサを設計する。 本稿では,2量子共振共振ゲートを特徴とする普遍ゲートセットを提案し,実測実験パラメータを持つクォートの$d=4$の場合において,99\%以上の忠実度を予測できる。 さらに,一般的なquditユニタリをこれらの基本ゲートにコンパイルする分解ルーチンを提示する。 概念実証法として、ノイズの多い量子ハードウェアのための${\rm SU}(16)$ゲートと、純粋なデフォーカスノイズから保護するためにトランスモンクォートの量子ビットメモリを符号化する組込み誤り訂正シーケンスを数値的に示す。 超伝導量子情報処理の運用ツールボックスの貴重な拡張であるuniversal qudit controlは、現在のtransmonベースのアーキテクチャの範囲内にあり、短期および長期のハードウェアに応用できる。

Gate-based quantum computers typically encode and process information in two-dimensional units called qubits. Using $d$-dimensional qudits instead may offer intrinsic advantages, including more efficient circuit synthesis, problem-tailored encodings and embedded error correction. In this work, we design a superconducting qudit-based quantum processor wherein the logical space of transmon qubits is extended to higher-excited levels. We propose a universal gate set featuring a two-qudit cross-resonance entangling gate, for which we predict fidelities beyond $99\%$ in the $d=4$ case of ququarts with realistic experimental parameters. Furthermore, we present a decomposition routine that compiles general qudit unitaries into these elementary gates, requiring fewer entangling gates than qubit alternatives. As proof-of-concept applications, we numerically demonstrate the synthesis of ${\rm SU}(16)$ gates for noisy quantum hardware and an embedded error correction sequence that encodes a qubit memory in a transmon ququart to protect against pure dephasing noise. We conclude that universal qudit control -- a valuable extension to the operational toolbox of superconducting quantum information processing -- is within reach of current transmon-based architectures and has applications to near-term and long-term hardware.
翻訳日:2023-09-01 21:10:14 公開日:2023-08-31
# 実用性を保つ顔の識別方法としてのStyleGAN

StyleGAN as a Utility-Preserving Face De-identification Method ( http://arxiv.org/abs/2212.02611v2 )

ライセンス: Link先を確認
Seyyed Mohammad Sadegh Moosavi Khorzooghi and Shirin Nilizadeh(参考訳) 顔を隠蔽してユーザのプライバシーを守るために、顔の特定方法が提案されている。 しかし、これらの方法は写真の質を低下させ、通常、年齢、性別、ポーズ、表情といった顔の有用性を保たない。 近年,現実的で高品質な仮想顔を生成する,StyleGANなどのGANが提案されている。 本稿では,スタイルミキシングによる非識別顔の生成におけるStyleGANの使用について検討する。 本手法は,複数の顔検出,検証,識別攻撃を実行し,ユーザ調査を行い,有用性とプライバシを保護するための非識別手法である。 CIAGANとDeepPrivacyの2つの最先端手法との比較実験の結果、StyleGANはこれらの方法よりも同等以上のパフォーマンスを示し、ユーザのプライバシとイメージのユーティリティを保護している。 特に、機械学習ベースの実験の結果は、StyleGAN0-4がCIAGANやDeepPrivacyよりも有効性を保ちつつ、プライバシーを同じレベルで保持していることを示している。 StyleGAN0-3は、より多くのプライバシーを提供しながら、ユーティリティを同じレベルで保持する。 本稿では,今回初めて,stylegan0-3,0-4,0-5のプライバシおよびユーティリティ保存特性とciaganおよびdeepprivacyを人間の観察者の視点から検討するために,注意深く設計されたユーザ調査を行った。 実験の結果,深部プライバシー画像よりもstylegan0-5画像の検証と同定が容易であった。 いずれの方法もStyleGAN0-5はCIAGANよりも識別率が有意に低い。 実用性に関しては、予想通り、StyleGAN0-5はいくつかの属性の保存において大幅に改善された。 あらゆる方法の中で、参加者は、性別が最も多く保存されているのに対して、自然性が最低に保存されていると信じている。

Face de-identification methods have been proposed to preserve users' privacy by obscuring their faces. These methods, however, can degrade the quality of photos, and they usually do not preserve the utility of faces, i.e., their age, gender, pose, and facial expression. Recently, GANs, such as StyleGAN, have been proposed, which generate realistic, high-quality imaginary faces. In this paper, we investigate the use of StyleGAN in generating de-identified faces through style mixing. We examined this de-identification method for preserving utility and privacy by implementing several face detection, verification, and identification attacks and conducting a user study. The results from our extensive experiments, human evaluation, and comparison with two state-of-the-art methods, i.e., CIAGAN and DeepPrivacy, show that StyleGAN performs on par or better than these methods, preserving users' privacy and images' utility. In particular, the results of the machine learning-based experiments show that StyleGAN0-4 preserves utility better than CIAGAN and DeepPrivacy while preserving privacy at the same level. StyleGAN0-3 preserves utility at the same level while providing more privacy. In this paper, for the first time, we also performed a carefully designed user study to examine both privacy and utility-preserving properties of StyleGAN0-3, 0-4, and 0-5, as well as CIAGAN and DeepPrivacy from the human observers' perspectives. Our statistical tests showed that participants tend to verify and identify StyleGAN0-5 images more easily than DeepPrivacy images. All the methods but StyleGAN0-5 had significantly lower identification rates than CIAGAN. Regarding utility, as expected, StyleGAN0-5 performed significantly better in preserving some attributes. Among all methods, on average, participants believe gender has been preserved the most while naturalness has been preserved the least.
翻訳日:2023-09-01 21:09:49 公開日:2023-08-31
# 結晶のディラック・フォックモデルに対する最小化器の存在

Existence of minimizers for the Dirac-Fock Model of Crystals ( http://arxiv.org/abs/2212.01142v2 )

ライセンス: Link先を確認
Isabelle Catto (CEREMADE), Long Meng (CERMICS), Eric Paturel (LMJL), Eric S\'er\'e (CEREMADE)(参考訳) 非相対論的結晶の基底状態に関する数学や物理学の文献には多くの異なるモデルが存在するが、相対論的ケースはそれほど研究されておらず、結晶の完全な相対論的処理に関する数学的結果も認識していない。 本稿では,周期密度行列を用いて結晶の平均場相対論的エネルギーを提案する。 このモデルは、原子と分子のディラック・フォック基底状態(dirac-fock ground state)の定義と、結晶の非相対論的ハーツリー・フォックモデル(hartree-fock model)の両方から着想を得ている。 細胞当たりの電子数が大きすぎない場合、基底状態の存在を証明する。

Whereas many different models exist in the mathematical and physics literature for ground-states of non-relativistic crystals, the relativistic case has been much less studied and we are not aware of any mathematical result on a fully relativistic treatment of crystals. In this paper, we introduce a mean-field relativistic energy for crystals in terms of periodic density matrices. This model is inspired both from a recent definition of the Dirac-Fock ground state for atoms and molecules, due to one of us, and from the non-relativistic Hartree-Fock model for crystals. We prove existence of a ground-state when the number of electrons per cell is not too large.
翻訳日:2023-09-01 21:09:20 公開日:2023-08-31
# 量子光学状態の2つのレプリカを用いた2次コヒーレンススケールの干渉計測

Interferometric measurement of the quadrature coherence scale using two replicas of a quantum optical state ( http://arxiv.org/abs/2211.12992v2 )

ライセンス: Link先を確認
C\'elia Griffet, Matthieu Arnhem, Stephan De Bi\`evre, Nicolas J. Cerf(参考訳) 量子状態 $\hat \rho$ が非古典的 (\textit{i.e}$) であるかどうかを評価することは、量子光学においてユビキタスな問題であるが、多くの非古典的証人が $\hat \rho$ で非線形であるので、非自明な実験的なタスクである。 特に、二次コヒーレンススケールを評価することによって状態の非古典性を目撃または測定したい場合、この$\textit{a priori}$は完全な状態トモグラフィを必要とする。 ここでは,光子数分解法で補足された状態$\hat \rho$の2つのレプリカ(独立コピーと同一コピー)を含む,単純な線形干渉計を用いて,この量に直接アクセスするための実験方法を提案する。 この発見は、香港・奥羽・マンデル効果の拡張と解釈し、量子光学における状態トモグラフィーを回避するために、マルチコピー干渉法の適用性を示している。

Assessing whether a quantum state $\hat \rho$ is nonclassical ($\textit{i.e.}$, incompatible with a mixture of coherent states) is a ubiquitous question in quantum optics, yet a nontrivial experimental task because many nonclassicality witnesses are nonlinear in $\hat \rho$. In particular, if we want to witness or measure the nonclassicality of a state by evaluating its quadrature coherence scale, this $\textit{a priori}$ requires full state tomography. Here, we provide an experimental procedure for directly accessing this quantity with a simple linear interferometer involving two replicas (independent and identical copies) of the state $\hat \rho$ supplemented with photon-number-resolving measurements. This finding, which we interpret as an extension of the Hong-Ou-Mandel effect, illustrates the wide applicability of the multicopy interferometric technique in order to circumvent state tomography in quantum optics.
翻訳日:2023-09-01 21:09:08 公開日:2023-08-31
# 逐次インフォームド・フェデレーション・アンラーニング:フェデレーション最適化における効率的かつ証明可能なクライアント・アンラーニング

Sequential Informed Federated Unlearning: Efficient and Provable Client Unlearning in Federated Optimization ( http://arxiv.org/abs/2211.11656v4 )

ライセンス: Link先を確認
Yann Fraboni, Martin Van Waerebeke, Kevin Scaman, Richard Vidal, Laetitia Kameni, Marco Lorenzi(参考訳) 機械学習(mu)の目的は、訓練手順から与えられたデータポイントの寄与の排除に関する理論的保証を提供することである。 フェデレーテッド・アンラーニング(FU)は、フェデレーテッド・トレーニングルーチンから特定のクライアントの貢献を解放するためにMUを拡張することである。 現在のFUアプローチは一般に拡張性がなく、未学習の有効性の健全な理論的定量化を伴わない。 Informed Federated Unlearning (IFU)は、新しい効率で定量化可能なFUアプローチである。 与えられたクライアントからの未学習要求に対して、IFUは、FLを再起動しなければならない最適なFLイテレーションを特定し、ランダムな摂動機構を通じて未学習の保証を得る。 逐次学習要求を考慮し、ifuの理論も拡張されている。 タスクとデータセットの異なる実験結果から、IFUは基本的な再学習や最先端のFUアプローチと比較して、より効率的な未学習の手順をもたらすことが示された。

The aim of Machine Unlearning (MU) is to provide theoretical guarantees on the removal of the contribution of a given data point from a training procedure. Federated Unlearning (FU) consists in extending MU to unlearn a given client's contribution from a federated training routine. Current FU approaches are generally not scalable, and do not come with sound theoretical quantification of the effectiveness of unlearning. In this work we present Informed Federated Unlearning (IFU), a novel efficient and quantifiable FU approach. Upon unlearning request from a given client, IFU identifies the optimal FL iteration from which FL has to be reinitialized, with unlearning guarantees obtained through a randomized perturbation mechanism. The theory of IFU is also extended to account for sequential unlearning requests. Experimental results on different tasks and dataset show that IFU leads to more efficient unlearning procedures as compared to basic re-training and state-of-the-art FU approaches.
翻訳日:2023-09-01 21:08:27 公開日:2023-08-31
# deanthropomorphising nlp: 言語モデルは意識できるのか?

Deanthropomorphising NLP: Can a Language Model Be Conscious? ( http://arxiv.org/abs/2211.11483v3 )

ライセンス: Link先を確認
Matthew Shardlow and Piotr Przyby{\l}a(参考訳) この研究は、トランスフォーマーモデルアーキテクチャに基づいた事前訓練された大規模言語モデル(llm)が送信可能であるという以前の主張に対する議論における声として意図されている。 LaMDAモデルやChatGPTのようなLLM駆動チャットボットの現在の波についても、このような主張がなされている。 この主張が確認できれば、同様のモデルが広く使われているため、自然言語処理(nlp)コミュニティに深刻な影響が及ぶだろう。 しかし、ここでは、このような大きな言語モデルは、感性や意識を持たず、特にlamdaは、それに値する他の類似のモデルに対して進歩を示さないという立場を取る。 我々は意識統合情報理論を用いてトランスフォーマーアーキテクチャを分析することによってこれを正当化する。 感性の主張は,NLP報告における人為的言語の使用傾向の広範化の一環と考えられる。 主張の妥当性にかかわらず、私たちはこの瞬間を言語モデリングの進歩を積み重ね、そのタスクの倫理的意味を考察する機会と捉えています。 この作業をNLPコミュニティ以外の読者にとって役立つものにするため、言語モデリングにおける必要な背景も提示する。

This work is intended as a voice in the discussion over previous claims that a pretrained large language model (LLM) based on the Transformer model architecture can be sentient. Such claims have been made concerning the LaMDA model and also concerning the current wave of LLM-powered chatbots, such as ChatGPT. This claim, if confirmed, would have serious ramifications in the Natural Language Processing (NLP) community due to wide-spread use of similar models. However, here we take the position that such a large language model cannot be sentient, or conscious, and that LaMDA in particular exhibits no advances over other similar models that would qualify it. We justify this by analysing the Transformer architecture through Integrated Information Theory of consciousness. We see the claims of sentience as part of a wider tendency to use anthropomorphic language in NLP reporting. Regardless of the veracity of the claims, we consider this an opportune moment to take stock of progress in language modelling and consider the ethical implications of the task. In order to make this work helpful for readers outside the NLP community, we also present the necessary background in language modelling.
翻訳日:2023-09-01 21:08:09 公開日:2023-08-31
# リアルなアウト・オブ・ディストリビューション検出に向けて:OOD検出の一般化改善のための新しい評価フレームワーク

Towards Realistic Out-of-Distribution Detection: A Novel Evaluation Framework for Improving Generalization in OOD Detection ( http://arxiv.org/abs/2211.10892v2 )

ライセンス: Link先を確認
Vahid Reza Khazaie and Anthony Wong and Mohammad Sabokrou(参考訳) 本稿では,よりリアルな環境での機械学習モデルの性能評価を目的とした,out-of-distribution (ood) 検出のための新しい評価フレームワークを提案する。 我々は,OOD検出手法の実際の要件が,現在の試験プロトコルで満たされていないことを観察した。 彼らは通常、通常のデータの低レベルの多様性に対して強いバイアスを持つことを奨励します。 この制限に対処するために、研究者が現実的な分布シフトの下でOOD検出性能をベンチマークできる新しいOODテストデータセット(CIFAR-10-R、CIFAR-100-R、ImageNet-30-R)を提案する。 さらに、OOD検出時のモデルの一般化能力を測定するための一般化可能性スコア(GS)を導入する。 実世界のシナリオにおいて,既存のベンチマークデータセットの性能向上はOOD検出モデルのユーザビリティを必ずしも向上させるものではないことを実証した。 OOD検出研究の有望な道として、深い事前学習機能を活用することが確認されているが、我々の実験は、提案したデータセットでテストされた最先端の事前訓練モデルの性能が著しく低下していることを示しています。 この問題に対処するために,OODスコアを計算する前に,これらの分散シフトの下で事前学習した特徴を適応するための後処理ステージを提案する。

This paper presents a novel evaluation framework for Out-of-Distribution (OOD) detection that aims to assess the performance of machine learning models in more realistic settings. We observed that the real-world requirements for testing OOD detection methods are not satisfied by the current testing protocols. They usually encourage methods to have a strong bias towards a low level of diversity in normal data. To address this limitation, we propose new OOD test datasets (CIFAR-10-R, CIFAR-100-R, and ImageNet-30-R) that can allow researchers to benchmark OOD detection performance under realistic distribution shifts. Additionally, we introduce a Generalizability Score (GS) to measure the generalization ability of a model during OOD detection. Our experiments demonstrate that improving the performance on existing benchmark datasets does not necessarily improve the usability of OOD detection models in real-world scenarios. While leveraging deep pre-trained features has been identified as a promising avenue for OOD detection research, our experiments show that state-of-the-art pre-trained models tested on our proposed datasets suffer a significant drop in performance. To address this issue, we propose a post-processing stage for adapting pre-trained features under these distribution shifts before calculating the OOD scores, which significantly enhances the performance of state-of-the-art pre-trained models on our benchmarks.
翻訳日:2023-09-01 21:07:49 公開日:2023-08-31
# 類似分布校正による教師なしハッシュ

Unsupervised Hashing with Similarity Distribution Calibration ( http://arxiv.org/abs/2302.07669v2 )

ライセンス: Link先を確認
Kam Woh Ng, Xiatian Zhu, Jiun Tian Hoe, Chee Seng Chan, Tianyu Zhang, Yi-Zhe Song, Tao Xiang(参考訳) 教師なしハッシュメソッドは、通常、特徴空間内のデータポイント間の類似性をバイナリハッシュコードにマッピングすることで保存することを目的としている。 しかし、これらの手法はしばしば、連続的な特徴空間におけるデータポイント間の類似度が、ハッシュコードの類似度範囲が限られているため、離散ハッシュコード空間では保存できないという事実を見逃している。 類似性範囲はコードの長さによって制限され、類似性崩壊と呼ばれる問題を引き起こす可能性がある。 すなわち、データポイントの正の対と負の対はハッシュ空間において互いに区別できない。 この問題を軽減するため,本稿では,新しい類似度分布校正法(sdc)を提案する。 SDCは、ハッシュコードの類似度分布をキャリブレーション分布(例えばベータ分布)に整合させ、類似度範囲全体にわたって十分な広がりを保ち、類似性崩壊問題を緩和する。 広範な実験により,粗いカテゴリレベルとインスタンスレベルの画像検索において,sdcは最先端の代替品を著しく上回っていることが示された。 コードはhttps://github.com/kamwoh/sdcで入手できる。

Unsupervised hashing methods typically aim to preserve the similarity between data points in a feature space by mapping them to binary hash codes. However, these methods often overlook the fact that the similarity between data points in the continuous feature space may not be preserved in the discrete hash code space, due to the limited similarity range of hash codes. The similarity range is bounded by the code length and can lead to a problem known as similarity collapse. That is, the positive and negative pairs of data points become less distinguishable from each other in the hash space. To alleviate this problem, in this paper a novel Similarity Distribution Calibration (SDC) method is introduced. SDC aligns the hash code similarity distribution towards a calibration distribution (e.g., beta distribution) with sufficient spread across the entire similarity range, thus alleviating the similarity collapse problem. Extensive experiments show that our SDC outperforms significantly the state-of-the-art alternatives on coarse category-level and instance-level image retrieval. Code is available at https://github.com/kamwoh/sdc.
翻訳日:2023-09-01 21:00:02 公開日:2023-08-31
# 非同期マルチエージェント帯域に対するオンデマンド通信

On-Demand Communication for Asynchronous Multi-Agent Bandits ( http://arxiv.org/abs/2302.07446v2 )

ライセンス: Link先を確認
Yu-Zhen Janice Chen, Lin Yang, Xuchuang Wang, Xutong Liu, Mohammad Hajiesmaili, John C.S. Lui, Don Towsley(参考訳) 本稿では,エージェントが非同期に動作し,エージェントのプルタイムとレートが未知,不規則,異種であるようなマルチエージェントのマルチエージェント確率バンディット問題について検討する。 エージェントは報酬情報を共有して、追加のコミュニケーションコストで学習プロセスをスピードアップすることができる。 我々は,実証的なプル時間に基づいて,各エージェントの通信を調整したオンデマンド通信プロトコルであるODCを提案する。 ODCは、エージェントのプル時間が非常に均一であり、その通信の複雑さはエージェントの実証的なプル時間に依存する。 ODCは一般的なプロトコルであり、性能を劣化させることなく、ほとんどの協調バンディットアルゴリズムに統合することができる。 次に,OCC を UCB アルゴリズムと AAE アルゴリズムの自然拡張に組み込んで,コミュニケーション効率の良い2つの協調アルゴリズムを提案する。 分析の結果,両アルゴリズムがほぼ最適であることがわかった。

This paper studies a cooperative multi-agent multi-armed stochastic bandit problem where agents operate asynchronously -- agent pull times and rates are unknown, irregular, and heterogeneous -- and face the same instance of a K-armed bandit problem. Agents can share reward information to speed up the learning process at additional communication costs. We propose ODC, an on-demand communication protocol that tailors the communication of each pair of agents based on their empirical pull times. ODC is efficient when the pull times of agents are highly heterogeneous, and its communication complexity depends on the empirical pull times of agents. ODC is a generic protocol that can be integrated into most cooperative bandit algorithms without degrading their performance. We then incorporate ODC into the natural extensions of UCB and AAE algorithms and propose two communication-efficient cooperative algorithms. Our analysis shows that both algorithms are near-optimal in regret.
翻訳日:2023-09-01 20:59:40 公開日:2023-08-31
# TransformersがDirected Graphsを発表

Transformers Meet Directed Graphs ( http://arxiv.org/abs/2302.00049v3 )

ライセンス: Link先を確認
Simon Geisler, Yujia Li, Daniel Mankowitz, Ali Taylan Cemgil, Stephan G\"unnemann, Cosmin Paduraru(参考訳) トランスフォーマーは当初、テキストのシーケンシャル・ツー・シーケンスモデルとして提案されたが、画像、オーディオ、ビデオ、無向グラフなど、幅広いモダリティにおいて不可欠となった。 しかし、有向グラフのトランスフォーマーは、ソースコードや論理回路を含むユビキタスなドメインに適用できるにもかかわらず、驚くほど未熟な話題である。 本研究では,(1)磁気ラプラシアンの固有ベクトル,(2)組合せラプラシアンの方向認識一般化,(2)方向ランダムウォークエンコーディングという,有向グラフに対する方向認識と構造認識の2つの位置符号化を提案する。 実験では,ソートネットワークの正当性テストやソースコード理解など,下流のさまざまなタスクにおいて,方向情報の追加が有効であることを示す。 データフロー中心のグラフ構築とともに、我々のモデルはOpen Graph Benchmark Code2における技術の先行状態を14.7%向上させる。

Transformers were originally proposed as a sequence-to-sequence model for text but have become vital for a wide range of modalities, including images, audio, video, and undirected graphs. However, transformers for directed graphs are a surprisingly underexplored topic, despite their applicability to ubiquitous domains, including source code and logic circuits. In this work, we propose two direction- and structure-aware positional encodings for directed graphs: (1) the eigenvectors of the Magnetic Laplacian - a direction-aware generalization of the combinatorial Laplacian; (2) directional random walk encodings. Empirically, we show that the extra directionality information is useful in various downstream tasks, including correctness testing of sorting networks and source code understanding. Together with a data-flow-centric graph construction, our model outperforms the prior state of the art on the Open Graph Benchmark Code2 relatively by 14.7%.
翻訳日:2023-09-01 20:58:25 公開日:2023-08-31
# qudit脱分極チャネルの次元による量子容量減少の超加法的効果

The superadditivity effects of quantum capacity decrease with the dimension for qudit depolarizing channels ( http://arxiv.org/abs/2301.10132v4 )

ライセンス: Link先を確認
Josu Etxezarreta Martinez, Antonio deMarti iOlius and Pedro M. Crespo(参考訳) 量子チャネル容量 (quantum channel capacity) は、ノイズを受ける際に量子情報をどのように送信または修正できるかを理解するための基本的な量である。 しかし、量子チャネルコヒーレント情報は全てのチャネルに対して加法的ではないため、そのような量を計算する方法は一般には知られていない。 これは超加法的現象(superadditivity)と呼ばれ、n$チャンネルの正規化コヒーレント情報が1ショットコヒーレント情報を超えるという事実を指す。 本稿では,Qudit脱分極チャネルの量子容量の利得が考慮される系の次元とどのように関係するかを考察する。 超加法的効果がそのようなチャネルの族に対する次元の関数として減少することを示すために、非閉包境界に基づく議論を用いる。 さらに、qudit脱分極チャネルの容量が$d\rightarrow\infty$のコヒーレント情報と一致することを証明している。 また,私的古典的能力とオオバイン類似の結果についても論じる。 偏極ノイズを経験する高次元キューディットを考えると、チャネルのコヒーレント情報は達成可能な速度であるだけでなく、本質的に任意の量子ブロック符号に対して可能な最大速度である。

Quantum channel capacity is a fundamental quantity in order to understand how good can quantum information be transmitted or corrected when subjected to noise. However, it is generally not known how to compute such quantities, since the quantum channel coherent information is not additive for all channels, implying that it must be maximized over an unbounded number of channel uses. This leads to the phenomenon known as superadditivity, which refers to the fact that the regularized coherent information of $n$ channel uses exceeds one-shot coherent information. In this article, we study how the gain in quantum capacity of qudit depolarizing channels relates to the dimension of the systems considered. We make use of an argument based on the no-cloning bound in order to proof that the possible superadditive effects decrease as a function of the dimension for such family of channels. In addition, we prove that the capacity of the qudit depolarizing channel coincides with the coherent information when $d\rightarrow\infty$. We also discuss the private classical capacity and obain similar results. We conclude that when high dimensional qudits experiencing depolarizing noise are considered, the coherent information of the channel is not only an achievable rate but essentially the maximum possible rate for any quantum block code.
翻訳日:2023-09-01 20:58:11 公開日:2023-08-31
# 窒素空洞中心における発光強度とスピンコントラストの温度依存性

Temperature dependence of photoluminescence intensity and spin contrast in nitrogen-vacancy centers ( http://arxiv.org/abs/2301.05091v2 )

ライセンス: Link先を確認
Stefan Ernst, Patrick J. Scheidegger, Simon Diesch, Luca Lorenzelli, Christian L. Degen(参考訳) 4~300Kの温度におけるダイヤモンド中の単一窒素空孔(NV)中心の光ルミネッセンス(PL)特性の測定について報告する。 10-100K以上まで回復した。 さらに,磁気バイアス場と結晶ひずみに大きく依存することがわかった。 我々は、電子励起状態におけるスピン混合と軌道ホッピングに基づく包括的モデルを開発し、観測を定量的に説明する。 励起状態のダイナミクスのより完全な理解に加えて、我々の研究は電子-フォノン相互作用を探索するための新しいアプローチと、量子応用の実験条件を最適化するための予測ツールを提供する。

We report on measurements of the photoluminescence (PL) properties of single nitrogen-vacancy (NV) centers in diamond at temperatures between 4-300 K. We observe a strong reduction of the PL intensity and spin contrast between ca. 10-100 K that recovers to high levels below and above. Further, we find a rich dependence on magnetic bias field and crystal strain. We develop a comprehensive model based on spin mixing and orbital hopping in the electronic excited state that quantitatively explains the observations. Beyond a more complete understanding of the excited-state dynamics, our work provides a novel approach for probing electron-phonon interactions and a predictive tool for optimizing experimental conditions for quantum applications.
翻訳日:2023-09-01 20:57:47 公開日:2023-08-31
# ミリ波通信のためのポイントクラウドに基づくプロアクティブリンク品質予測

Point Cloud-based Proactive Link Quality Prediction for Millimeter-wave Communications ( http://arxiv.org/abs/2301.00752v3 )

ライセンス: Link先を確認
Shoki Ohta, Takayuki Nishio, Riichi Kudo, Kahoko Takahashi, Hisashi Nagata(参考訳) 本研究では,ミリ波通信におけるポイントクラウドに基づくリンク品質予測の実現可能性を示す。 従来,mWave通信における歩行者によるLOS経路遮断を緩和するために,深度画像の時系列を用いて,受信信号強度を予測する機械学習手法が提案されてきた。 しかし、これらの画像ベース手法は、カメライメージに機密情報が含まれる可能性があるため、プライバシー上の懸念から適用性に制限がある。 本研究は,mmWaveリンク品質予測のためのポイントクラウド方式を提案し,実験によりその実現可能性を示す。 点雲は3次元(3d)空間を点の集合として表現し、カメラ画像よりもセンシティブな情報を含まない。 さらに点雲は3次元位置と運動情報を提供し、歩行者を含む電波伝搬環境を理解するのに必要である。 本研究では,市販のieee 802.11adベースの60ghz無線lanデバイスとkinect v2 rgb-dカメラとvelodyne vlp-16光検出・測光(lidar)を用いて,人間のブロックによりリンク品質が著しく変動する室内実験を行う。 提案手法は,画像に基づく予測手法に匹敵する精度で,歩行者によるロスパス閉塞によるmm波受信信号強度とスループットの将来の大きな減衰を予測できることを示す。 したがって、当社のポイントクラウドベースの手法は、画像ベースの手法の代替となる可能性がある。

This study demonstrates the feasibility of point cloud-based proactive link quality prediction for millimeter-wave (mmWave) communications. Previous studies have proposed machine learning-based methods to predict received signal strength for future time periods using time series of depth images to mitigate the line-of-sight (LOS) path blockage by pedestrians in mmWave communication. However, these image-based methods have limited applicability due to privacy concerns as camera images may contain sensitive information. This study proposes a point cloud-based method for mmWave link quality prediction and demonstrates its feasibility through experiments. Point clouds represent three-dimensional (3D) spaces as a set of points and are sparser and less likely to contain sensitive information than camera images. Additionally, point clouds provide 3D position and motion information, which is necessary for understanding the radio propagation environment involving pedestrians. This study designs the mmWave link quality prediction method and conducts realistic indoor experiments, where the link quality fluctuates significantly due to human blockage, using commercially available IEEE 802.11ad-based 60 GHz wireless LAN devices and Kinect v2 RGB-D camera and Velodyne VLP-16 light detection and ranging (LiDAR) for point cloud acquisition. The experimental results showed that our proposed method can predict future large attenuation of mmWave received signal strength and throughput induced by the LOS path blockage by pedestrians with comparable or superior accuracy to image-based prediction methods. Hence, our point cloud-based method can serve as a viable alternative to image-based methods.
翻訳日:2023-09-01 20:57:37 公開日:2023-08-31
# JKOスキームによる可逆正規化フローニューラルネットワーク

Invertible normalizing flow neural networks by JKO scheme ( http://arxiv.org/abs/2212.14424v2 )

ライセンス: Link先を確認
Chen Xu, Xiuyuan Cheng, Yao Xie(参考訳) 正規化フローは、効率的なサンプリングと密度推定のための深層生成モデルのクラスである。 トレーニングを容易にするために、既存の作品には正規化されたフロー軌跡があり、特別なネットワークアーキテクチャが設計されている。 本論文は,Jordan-Kinderleherer-Otto (JKO) スキームにインスパイアされたニューラルネットワークを開発し,SDE軌道をサンプリングしたり,スコアマッチングや変動学習の内ループをサンプリングすることなく,残余ブロックの効率的なブロックワイズ訓練を可能にする。 JKO スキームは勾配流の力学を展開させるため,提案モデルでは残差ブロックを1つずつ積み重ね,メモリ負荷を低減し,エンドツーエンドの深層流ネットワークトレーニングを行うのが困難である。 また,確率空間における軌道の漸進的改善によるフローネットワークの適応時間再パラメータ化も実現し,モデルの訓練効率と精度を向上させる。 合成および実データを用いた数値実験により, 提案したJKO-iFlowモデルが, 既存のフローモデルや拡散モデルと比較して, 計算・メモリコストを大幅に低減した新しいサンプルの生成において, 類似あるいは良好な性能を実現することを示す。

Normalizing flow is a class of deep generative models for efficient sampling and density estimation. In practice, the flow often appears as a chain of invertible neural network blocks; to facilitate training, existing works have regularized flow trajectories and designed special network architectures. The current paper develops a neural ODE flow network inspired by the Jordan-Kinderleherer-Otto (JKO) scheme, which allows efficient block-wise training of the residual blocks without sampling SDE trajectories or inner loops of score matching or variational learning. As the JKO scheme unfolds the dynamic of gradient flow, the proposed model naturally stacks residual network blocks one by one, reducing the memory load and difficulty in performing end-to-end deep flow network training. We also develop adaptive time reparameterization of the flow network with a progressive refinement of the trajectory in probability space, which improves the model training efficiency and accuracy in practice. Using numerical experiments with synthetic and real data, we show that the proposed JKO-iFlow model achieves similar or better performance in generating new samples compared with the existing flow and diffusion models at a significantly reduced computational and memory cost.
翻訳日:2023-09-01 20:57:14 公開日:2023-08-31
# 量子確率熱力学:位相空間における半古典理論

Quantum Stochastic Thermodynamics: a Semiclassical Theory in Phase Space ( http://arxiv.org/abs/2303.05935v3 )

ライセンス: Link先を確認
Zhaoyu Fei(参考訳) 量子多体系の定式化は相空間における半古典的処理によって提案され、量子統計学を取り入れた確率的熱力学を確立できる。 具体的には、メソスコピックレベルの力学として確率的フォッカー・プランク方程式を用いる。 ここで、フラックス密度の変動を特徴付ける雑音項は、系と貯水池の間のランダム衝突の有限N効果を説明する。 したがって、定常解は標準系における準平衡状態である。 位相空間分布の軌跡に基づく確率的熱力学量を定義する。 したがって、エネルギーの保存則、H理論およびゆらぎ定理が得られる。 我々の研究は、2点測定スキームに依存しない量子確率熱力学の代替形式を定めている。 多数の量子系の射影測定は、将来実験的な検証を期待する相空間分布のサンプリングによって置き換えられる。

A formalism for quantum many-body systems is proposed through semiclassical treatment in phase space, allowing us to establish a stochastic thermodynamics incorporating quantum statistics. Specifically, we utilize stochastic Fokker-Planck equation as the dynamics at the mesoscopic level. Here, the noise term characterizing the fluctuation of the flux density accounts for the finite-N effects of random collisions between the system and the reservoir. Accordingly, the stationary solution is a quasi-equilibrium state in a canonical system. We define stochastic thermodynamic quantities based on trajectories of phase-space distribution. The conservation law of energy, H-theorem and fluctuation theorems are therefore obtained. Our work sets an alternative formalism of quantum stochastic thermodynamics that is independent of the two-point measurement scheme. The numerous projective measurements of quantum systems are replaced by the sampling of the phase-space distribution, offering hope for experimental verifications in the future.
翻訳日:2023-09-01 20:51:10 公開日:2023-08-31
# 出力層に隣接するプール決定を行うことで精度を高める

Enhancing the accuracies by performing pooling decisions adjacent to the output layer ( http://arxiv.org/abs/2303.05800v2 )

ライセンス: Link先を確認
Yuval Meir, Yarden Tzach, Ronit D. Gross, Ofek Tevet, Roni Vardi and Ido Kanter(参考訳) 2^nx2^n)入力の学習タスクは、典型的には、フィードフォワードの深いアーキテクチャ全体に沿って最大値 (MP) 演算子からなる。 ここでは,CIFAR-10データベースを用いて,最終畳み込み層に隣接するプール決定が精度を大幅に向上させることを示す。 特に、advanced-vgg with m layer (a-vggm) アーキテクチャの平均精度は、それぞれ0.936, 0.940, 0.954, 0.955, 0.955, m=6, 8, 14, 13, 16である。 その結果、A-VGG8sの精度はVGG16sよりも優れており、A-VGG13とA-VGG16の精度はWide-ResNet16と同等であることがわかった。 また,完全連結(fc)層を1つのfc層,a-vgg6層,a-vgg14層,あるいは複数のリニアアクティベーションfc層に置き換えた。 これらの大幅に強化された精度は、深いアーキテクチャに沿った複数のMP決定に従って選択された劣ったルートと比較して、最も影響力のある入出力ルートを訓練することに由来する。 さらに、アキュラシーは出力層に隣接する非可換MPおよび平均プール演算子の順序に敏感であり、トレーニング経路の数と位置を変える。 提案するプール戦略を出力層に隣接させて,従来提案していた深層アーキテクチャの再検討と,その適応性を求める。

Learning classification tasks of (2^nx2^n) inputs typically consist of \le n (2x2) max-pooling (MP) operators along the entire feedforward deep architecture. Here we show, using the CIFAR-10 database, that pooling decisions adjacent to the last convolutional layer significantly enhance accuracies. In particular, average accuracies of the advanced-VGG with m layers (A-VGGm) architectures are 0.936, 0.940, 0.954, 0.955, and 0.955 for m=6, 8, 14, 13, and 16, respectively. The results indicate A-VGG8s' accuracy is superior to VGG16s', and that the accuracies of A-VGG13 and A-VGG16 are equal, and comparable to that of Wide-ResNet16. In addition, replacing the three fully connected (FC) layers with one FC layer, A-VGG6 and A-VGG14, or with several linear activation FC layers, yielded similar accuracies. These significantly enhanced accuracies stem from training the most influential input-output routes, in comparison to the inferior routes selected following multiple MP decisions along the deep architecture. In addition, accuracies are sensitive to the order of the non-commutative MP and average pooling operators adjacent to the output layer, varying the number and location of training routes. The results call for the reexamination of previously proposed deep architectures and their accuracies by utilizing the proposed pooling strategy adjacent to the output layer.
翻訳日:2023-09-01 20:50:58 公開日:2023-08-31
# StyleDiff: ラテン遠方空間におけるラベルなしデータセットの属性比較

StyleDiff: Attribute Comparison Between Unlabeled Datasets in Latent Disentangled Space ( http://arxiv.org/abs/2303.05102v2 )

ライセンス: Link先を確認
Keisuke Kawano, Takuro Kutsuna, Ryoko Tokuhisa, Akihiro Nakamura, Yasushi Esaki(参考訳) 機械学習アプリケーションにおける大きな課題のひとつは、開発で使用されるデータセットと実際のアプリケーションで得られたデータセットのミスマッチに対処することだ。 これらのミスマッチは、不正確な予測とエラーを引き起こし、製品の品質が悪く、信頼できないシステムをもたらす可能性がある。 本研究では,機械学習システムの安定した開発のための2つのデータセットの違いを開発者に通知するStyleDiffを提案する。 最近提案された生成モデルから得られた不整合画像空間を用いて、StyleDiffは、画像の属性に着目して2つのデータセットを比較し、データセット間の差異を分かりやすく分析する。 提案されたStyleDiffは$O (d N\log N)$で実行され、$N$はデータセットのサイズ、$d$は属性の数であり、アプリケーションが大きなデータセットにアクセスできる。 StyleDiffはデータセットの違いを正確に検出し、例えばシーンデータセットを駆動するなどして理解可能な形式で提示する。

One major challenge in machine learning applications is coping with mismatches between the datasets used in the development and those obtained in real-world applications. These mismatches may lead to inaccurate predictions and errors, resulting in poor product quality and unreliable systems. In this study, we propose StyleDiff to inform developers of the differences between the two datasets for the steady development of machine learning systems. Using disentangled image spaces obtained from recently proposed generative models, StyleDiff compares the two datasets by focusing on attributes in the images and provides an easy-to-understand analysis of the differences between the datasets. The proposed StyleDiff performs in $O (d N\log N)$, where $N$ is the size of the datasets and $d$ is the number of attributes, enabling the application to large datasets. We demonstrate that StyleDiff accurately detects differences between datasets and presents them in an understandable format using, for example, driving scenes datasets.
翻訳日:2023-09-01 20:50:25 公開日:2023-08-31
# コラージュ拡散

Collage Diffusion ( http://arxiv.org/abs/2303.00262v2 )

ライセンス: Link先を確認
Vishnu Sarukkai, Linden Li, Arden Ma, Christopher R\'e, Kayvon Fatahalian(参考訳) 複雑なシーンを,所望の空間配置とシーン内のオブジェクトの視覚的属性を定義するレイヤのシーケンスとしてモデル化することにより,拡散に基づく画像生成の正確な制御をユーザに提供する。 Collage Diffusionは入力層を調和させてオブジェクトを適合させる -- 重要な課題は、入力層の位置や重要な視覚特性の変化を最小限に抑えながら、他の属性を調和プロセスで変更できるようにすることである。 テキストイメージのクロスアテンションをレイヤのアルファマスクで修正することで、オブジェクトが正しい位置で生成されることを保証する。 入力層の主要な視覚的属性は、層ごとの特殊テキスト表現を学習し、また、層上で操作できるようにコントロールネットを拡張することで保持する。 レイヤ入力により、ユーザはオブジェクトごとにイメージの調和度を制御でき、ユーザーは生成されたイメージ内の個々のオブジェクトを反復的に編集し、他のオブジェクトを固定することもできる。 コラージュ拡散は、層入力に存在するリッチな情報を活用することで、以前のアプローチよりも望ましいオブジェクト特性を維持するグローバルに調和した画像を生成する。

We seek to give users precise control over diffusion-based image generation by modeling complex scenes as sequences of layers, which define the desired spatial arrangement and visual attributes of objects in the scene. Collage Diffusion harmonizes the input layers to make objects fit together -- the key challenge involves minimizing changes in the positions and key visual attributes of the input layers while allowing other attributes to change in the harmonization process. We ensure that objects are generated in the correct locations by modifying text-image cross-attention with the layers' alpha masks. We preserve key visual attributes of input layers by learning specialized text representations per layer and by extending ControlNet to operate on layers. Layer input allows users to control the extent of image harmonization on a per-object basis, and users can even iteratively edit individual objects in generated images while keeping other objects fixed. By leveraging the rich information present in layer input, Collage Diffusion generates globally harmonized images that maintain desired object characteristics better than prior approaches.
翻訳日:2023-09-01 20:49:45 公開日:2023-08-31
# 干渉による深層学習可能なテキストセマンティックコミュニケーションの性能限界

Performance Limits of a Deep Learning-Enabled Text Semantic Communication under Interference ( http://arxiv.org/abs/2302.14702v2 )

ライセンス: Link先を確認
Tilahun M. Getu, Walid Saad, Georges Kaddoum, and Mehdi Bennis(参考訳) 深層学習(DL)対応セマンティックコミュニケーション(SemCom)が6Gイネーブルとして登場し、無関係な情報伝送を最小化して電力使用量、帯域使用量、伝送遅延を最小化する。 しかし、このようなセマンティック中心の設計の利点は、相当なセマンティックノイズを引き起こす電波干渉(RFI)によって制限される。 干渉によるセマンティックノイズの影響は、干渉耐性とロバスト(IR$^2$)SemCom設計を用いて緩和することができる。 しかし、そのようなデザインは存在しない。 この知識ギャップを明らかにし、IR$^2$ SemComに関する基礎研究を刺激するために、DeepSCというテキストSemComシステムの性能限界を(マルチインターフェラー)RFIの存在下で研究した。 SemComの原則的確率的フレームワークを導入することで、(マルチインターフェラー)RFIのパワーが非常に大きくなるにつれて、DeepSCは意味的に無関係な文を生成することを示す。 また,多干渉RFI下でのDeepSCの実用限界と停止確率の低い値も導出する。 IR$^2$ SemCom の基本的な 6G 設計に向けて,汎用寿命の DL ベース IR$^2$ SemCom システムを提案する。 最終的に、モンテカルロシミュレーションとコンピュータ実験によって導出された性能限界を一致させ、rfiを用いたワイヤレス攻撃に対するdeepscとdl対応テキストsemcomの脆弱性を確証する。

A deep learning (DL)-enabled semantic communication (SemCom) has emerged as a 6G enabler while promising to minimize power usage, bandwidth consumption, and transmission delay by minimizing irrelevant information transmission. However, the benefits of such a semantic-centric design can be limited by radio frequency interference (RFI) that causes substantial semantic noise. The impact of semantic noise due to interference can be alleviated using an interference-resistant and robust (IR$^2$) SemCom design. Nevertheless, no such design exists yet. To shed light on this knowledge gap and stimulate fundamental research on IR$^2$ SemCom, the performance limits of a text SemCom system named DeepSC are studied in the presence of (multi-interferer) RFI. By introducing a principled probabilistic framework for SemCom, we show that DeepSC produces semantically irrelevant sentences as the power of (multi-interferer) RFI gets very large. We also derive DeepSC's practical limits and a lower bound on its outage probability under multi-interferer RFI. Toward a fundamental 6G design for an IR$^2$ SemCom, moreover, we propose a generic lifelong DL-based IR$^2$ SemCom system. Eventually, we corroborate the derived performance limits with Monte Carlo simulations and computer experiments, which also affirm the vulnerability of DeepSC and DL-enabled text SemCom to a wireless attack using RFI.
翻訳日:2023-09-01 20:49:27 公開日:2023-08-31
# 欠落属性付きグラフ上でのフェア属性補完

Fair Attribute Completion on Graph with Missing Attributes ( http://arxiv.org/abs/2302.12977v3 )

ライセンス: Link先を確認
Dongliang Guo, Zhixuan Chu, Sheng Li(参考訳) グラフ学習モデルにおける不公平さに取り組むことは難しい課題であり、グラフ上の不公平性の問題には属性と位相構造の両方が含まれる。 公正グラフ学習に関する既存の研究は、すべてのノードの属性がモデルトレーニングに利用可能であると仮定し、公正な予測を行う。 しかし実際には、データの欠如やプライバシ上の懸念から、一部のノードの属性にアクセスできない場合があるため、公正なグラフ学習がさらに困難になる。 本稿では,不備な情報を補完し,不備な属性を持つグラフに対する公正なノード埋め込みを学習するためのフェア属性補完法であるフェアACを提案する。 FairACは属性不足問題に対処するための注意機構を採用し、一方で属性の不公平性、すなわち属性完了による属性の不公平性とトポロジカル不公平性の2つのタイプを緩和する。 FairACは、様々な種類の同質グラフに取り組み、それらに対して公平な埋め込みを生成することができるため、ほとんどの下流タスクに適用することで、その公正さのパフォーマンスを向上させることができる。 我々の知る限り、FairACは、グラフ帰属完了とグラフの不公平問題に共同で対処する最初の方法である。 ベンチマークデータセットにおける実験結果から,本手法は,公正グラフ学習の最先端手法と比較して,精度の犠牲を少なく,公平性が向上することが示された。 コードはhttps://github.com/donglgcn/fairac.com/。

Tackling unfairness in graph learning models is a challenging task, as the unfairness issues on graphs involve both attributes and topological structures. Existing work on fair graph learning simply assumes that attributes of all nodes are available for model training and then makes fair predictions. In practice, however, the attributes of some nodes might not be accessible due to missing data or privacy concerns, which makes fair graph learning even more challenging. In this paper, we propose FairAC, a fair attribute completion method, to complement missing information and learn fair node embeddings for graphs with missing attributes. FairAC adopts an attention mechanism to deal with the attribute missing problem and meanwhile, it mitigates two types of unfairness, i.e., feature unfairness from attributes and topological unfairness due to attribute completion. FairAC can work on various types of homogeneous graphs and generate fair embeddings for them and thus can be applied to most downstream tasks to improve their fairness performance. To our best knowledge, FairAC is the first method that jointly addresses the graph attribution completion and graph unfairness problems. Experimental results on benchmark datasets show that our method achieves better fairness performance with less sacrifice in accuracy, compared with the state-of-the-art methods of fair graph learning. Code is available at: https://github.com/donglgcn/FairAC.
翻訳日:2023-09-01 20:49:02 公開日:2023-08-31
# 10都市における大規模浮動車データによる大都市セグメント交通速度

Metropolitan Segment Traffic Speeds from Massive Floating Car Data in 10 Cities ( http://arxiv.org/abs/2302.08761v3 )

ライセンス: Link先を確認
Moritz Neun, Christian Eichenberger, Yanan Xin, Cheng Fu, Nina Wiedemann, Henry Martin, Martin Tomko, Lukas Amb\"uhl, Luca Hermes, Michael Kopp(参考訳) 交通分析は都市の運営や計画に不可欠であるが、ループ検知器以外の密集した都市交通データの利用可能性は依然として乏しい。 我々は,2019~2021年に108日から361日間の収集期間を15分間の解像度で10都市(mt-10)の大規模浮動車データから,道路単位の交通情報,メトロポリタンセグメントの交通速度の大規模データセットを10都市(mets-10)の大規模浮動車データから提供し,2019~2021年に108日から361日間の収集期間を15分間の解像度で提供し,都市圏あたり1500平方キロメートル以上をカバーした。 MeTS-10は、幹線道路からアントウェルペン、バンコク、バルセロナ、ベルリン、シカゴ、イスタンブール、ロンドン、マドリード、メルボルン、モスクワまでの全ての道路の交通速度情報を提供している。 このデータセットは、プライバシが保存する時空間集約で提供されるスピードと車両数で、産業規模の浮動車traffic4castデータを活用する。 データをopenstreetmap道路グラフにマッピングする効率的なマッチングアプローチについて詳述する。 我々は、このデータセットを、ベルリン、ロンドン、マドリードで公開されている静止車検出データと、Uberの交通速度データセット(バルセロナ、ベルリン、ロンドン)と比較することで評価する。 比較は、時空間カバレッジにおけるデータセット間の差異と、binningメソッドによって引き起こされた報告トラフィックのバリエーションを強調する。 MeTS-10は、空間的にスパースな車両検出データの現在の制限を克服し、世界10大都市におけるモビリティと交通パターンの新たな、都市全体の分析を可能にする。 大きな空間的および時間的カバレッジは、交通計画研究における交通調査や交通制御設定における車両検知データなど、他のデータセットとMeTS-10を結合する機会を提供する。

Traffic analysis is crucial for urban operations and planning, while the availability of dense urban traffic data beyond loop detectors is still scarce. We present a large-scale floating vehicle dataset of per-street segment traffic information, Metropolitan Segment Traffic Speeds from Massive Floating Car Data in 10 Cities (MeTS-10), available for 10 global cities with a 15-minute resolution for collection periods ranging between 108 and 361 days in 2019-2021 and covering more than 1500 square kilometers per metropolitan area. MeTS-10 features traffic speed information at all street levels from main arterials to local streets for Antwerp, Bangkok, Barcelona, Berlin, Chicago, Istanbul, London, Madrid, Melbourne and Moscow. The dataset leverages the industrial-scale floating vehicle Traffic4cast data with speeds and vehicle counts provided in a privacy-preserving spatio-temporal aggregation. We detail the efficient matching approach mapping the data to the OpenStreetMap road graph. We evaluate the dataset by comparing it with publicly available stationary vehicle detector data (for Berlin, London, and Madrid) and the Uber traffic speed dataset (for Barcelona, Berlin, and London). The comparison highlights the differences across datasets in spatio-temporal coverage and variations in the reported traffic caused by the binning method. MeTS-10 enables novel, city-wide analysis of mobility and traffic patterns for ten major world cities, overcoming current limitations of spatially sparse vehicle detector data. The large spatial and temporal coverage offers an opportunity for joining the MeTS-10 with other datasets, such as traffic surveys in traffic planning studies or vehicle detector data in traffic control settings.
翻訳日:2023-09-01 20:48:22 公開日:2023-08-31
# バックスラッシュによるバック置換によるバックプロパゲーション

Backpropagation through Back Substitution with a Backslash ( http://arxiv.org/abs/2303.15449v2 )

ライセンス: Link先を確認
Alan Edelman and Ekin Akyurek and Yuyang Wang(参考訳) 線形代数による逆プロパゲーションの定式化は、方程式の三角系上の一般化された '`backslash'' あるいはガウス的排除を用いて勾配の計算を可能にする。 一般に、行列要素は演算子である。 この論文には3つの貢献があります (i) 自動分化の伝統的な治療を(左作用)操作者理論に基づくグラフベースアプローチに置き換えることは知的な価値である。 (ii)オペレータは、Juliaのようなプログラミング言語のソフトウェアで実装オプションとして簡単に行列に配置できる。 (iii)演算子の逆転を可能にする新しい表記法である ``transpose dot''演算子 ``$\{\}^{T_\bullet}$' を導入する。 さらに、julia \cite{bezanson2017julia} のようなジェネリック線形代数演算子からなる適切なプログラミング言語における演算子アプローチのエレガンスを示し、この抽象化をコードで実現できることを示す。 本実装は、一般線型代数が作用素を行列の要素として許す方法を示す。 ただし、'`operator overloading'とは対照的に、'`generic programming''のように、バックスラッシュは通常演算子を活用するために書き直さなければならない。

We present a linear algebra formulation of backpropagation which allows the calculation of gradients by using a generically written ``backslash'' or Gaussian elimination on triangular systems of equations. Generally, the matrix elements are operators. This paper has three contributions: (i) it is of intellectual value to replace traditional treatments of automatic differentiation with a (left acting) operator theoretic, graph-based approach; (ii) operators can be readily placed in matrices in software in programming languages such as Julia as an implementation option; (iii) we introduce a novel notation, ``transpose dot'' operator ``$\{\}^{T_\bullet}$'' that allows for the reversal of operators. We further demonstrate the elegance of the operators approach in a suitable programming language consisting of generic linear algebra operators such as Julia \cite{bezanson2017julia}, and that it is possible to realize this abstraction in code. Our implementation shows how generic linear algebra can allow operators as elements of matrices. In contrast to ``operator overloading,'' where backslash would normally have to be rewritten to take advantage of operators, with ``generic programming'' there is no such need.
翻訳日:2023-09-01 20:40:48 公開日:2023-08-31
# 量子カオス相互作用ハミルトンの中間スペクトル固有状態の平均絡み合いエントロピー

Average entanglement entropy of midspectrum eigenstates of quantum-chaotic interacting Hamiltonians ( http://arxiv.org/abs/2303.13577v3 )

ライセンス: Link先を確認
M. Kliczkowski, R. \'Swi\k{e}tek, L. Vidmar, M. Rigol(参考訳) 量子カオス相互作用ハミルトニアンのミッドスペクトル固有状態の平均の絡み合いエントロピーがランダムな純粋な状態のそれと一致する程度は、近年注目されている問題である。 先行する(量的法則)用語が同一であることを示す実質的な証拠はあるが、それらと下位の項がどのように異なるかは明確ではない。 ここでは, クリーンスピン1/2xyz チェーンと xxz チェーンの完全完全対角化計算を行い, それぞれ $u(1)$ 対称性の欠如と存在下でこの問題に対処した。 まず,完全完全対角化計算に適応可能なチェーンサイズについて,レベル間隔比,固有係数分布,エンタングルメントエントロピーがランダム行列理論の予測に最も近いハミルトンパラメータのレジームとして,最大カオスレジームの概念を導入する。 この方法では、スペクトルの異なる分数 $\nu$ が平均に含まれるとき、ミッドスペクトル固有状態の平均絡み合いエントロピーのサブリード項の有限サイズのスケーリング解析を行う。 我々は、$\nu\rightarrow0$ に対して、負の$o(1)$ の補正の大きさがランダムな純状態の予測値よりわずかに大きいことを示している。 有限な$\nu$ に対して、表現論的アプローチに従って、数値的に観測された$o(1)$ の偏差をランダムな純粋状態の予測から記述する単純な式を導出する。

To which degree the average entanglement entropy of midspectrum eigenstates of quantum-chaotic interacting Hamiltonians agrees with that of random pure states is a question that has attracted considerable attention in the recent years. While there is substantial evidence that the leading (volume-law) terms are identical, which and how subleading terms differ between them is less clear. Here we carry out state-of-the-art full exact diagonalization calculations of clean spin-1/2 XYZ and XXZ chains with integrability breaking terms to address this question in the absence and presence of $U(1)$ symmetry, respectively. We first introduce the notion of maximally chaotic regime, for the chain sizes amenable to full exact diagonalization calculations, as the regime in Hamiltonian parameters in which the level spacing ratio, the distribution of eigenstate coefficients, and the entanglement entropy are closest to the random matrix theory predictions. In this regime, we carry out a finite-size scaling analysis of the subleading terms of the average entanglement entropy of midspectrum eigenstates when different fractions $\nu$ of the spectrum are included in the average. We find indications that, for $\nu\rightarrow0$, the magnitude of the negative $O(1)$ correction is only slightly greater than the one predicted for random pure states. For finite $\nu$, following a phenomenological approach, we derive a simple expression that describes the numerically observed $\nu$ dependence of the $O(1)$ deviation from the prediction for random pure states.
翻訳日:2023-09-01 20:40:26 公開日:2023-08-31
# 軌道ロボットの近似3次元モデルによる6次元物体位置推定

6D Object Pose Estimation from Approximate 3D Models for Orbital Robotics ( http://arxiv.org/abs/2303.13241v4 )

ライセンス: Link先を確認
Maximilian Ulmer, Maximilian Durner, Martin Sundermeyer, Manuel Stoiber, and Rudolph Triebel(参考訳) そこで本稿では,物体の3次元形状を3次元モデルとしてのみ与えた単一の画像から,物体の6次元ポーズを推定する新しい手法を提案する。 これを実現するために,各画素の3dモデル座標を回帰する密度の高い2d-3d対応予測器を用いる。 また,3次元座標に加えて画素座標誤差を推定し,誤りとなる可能性のある対応を破棄する。 これにより、オブジェクトの複数の6次元ポーズ仮説を生成でき、それを高効率な領域ベースアプローチで反復的に洗練することができる。 また、各仮説の確率を推定し、最も可能性の高いものを選択することができる、新しい画素単位の後方定式化も導入する。 実験で示したように、我々のアプローチは、過剰露出、高コントラスト、低信号対雑音比といった極端な視覚条件を扱うことができる。 これにより、軌道上のロボット応用のために転がる衛星の姿勢を推定する、特に困難なタスクにおいて強力な技術となる。 提案手法は,SPEED+データセット上での最先端性能を実現し,SPEC2021ポストモーテムコンペティションで優勝した。

We present a novel technique to estimate the 6D pose of objects from single images where the 3D geometry of the object is only given approximately and not as a precise 3D model. To achieve this, we employ a dense 2D-to-3D correspondence predictor that regresses 3D model coordinates for every pixel. In addition to the 3D coordinates, our model also estimates the pixel-wise coordinate error to discard correspondences that are likely wrong. This allows us to generate multiple 6D pose hypotheses of the object, which we then refine iteratively using a highly efficient region-based approach. We also introduce a novel pixel-wise posterior formulation by which we can estimate the probability for each hypothesis and select the most likely one. As we show in experiments, our approach is capable of dealing with extreme visual conditions including overexposure, high contrast, or low signal-to-noise ratio. This makes it a powerful technique for the particularly challenging task of estimating the pose of tumbling satellites for in-orbit robotic applications. Our method achieves state-of-the-art performance on the SPEED+ dataset and has won the SPEC2021 post-mortem competition.
翻訳日:2023-09-01 20:39:58 公開日:2023-08-31
# モーションマター: カメラの生理的改善のためのニューラルモーショントランスファー

Motion Matters: Neural Motion Transfer for Better Camera Physiological Measurement ( http://arxiv.org/abs/2303.12059v3 )

ライセンス: Link先を確認
Akshay Paruchuri, Xin Liu, Yulu Pan, Shwetak Patel, Daniel McDuff, Soumyadip Sengupta(参考訳) カメラに基づく生理学的測定のための機械学習モデルは、代表的なトレーニングデータがないため、弱い一般化が可能である。 身体の動きは、ビデオから微妙な脈拍を回復しようとするときに最も重要なノイズ源の1つである。 我々は,興味の生理的変化を保ちながら,動きの変動を導入するデータ拡張の一形態として,運動伝達を考察する。 遠隔光胸シンモグラフィ (rppg) の課題における映像強調のためのニューラルビデオ合成手法を適用し, 運動増強の効果について検討した。 1)規模及び規模 2)運動の種類。 公開データセットの動作強化バージョンをトレーニングした後、PUREデータセットのさまざまな最先端メソッドを使用して、既存のデータセット間結果よりも47%改善されていることを示す。 また, TS-CANを用いて, 5つのベンチマークデータセットのデータセット間比較を行い, 最大79%の改善率を示す。 本研究は, カメラを用いた生理学的センシングモデルの改良のためのデータ拡張手法として, モーショントランスファーの有用性を示す。 我々は3つの公開データセット(UBFC-rPPG、PURE、SCAMPS)上のデータ拡張技術としてモーション転送を使用するためのコードをリリースした。

Machine learning models for camera-based physiological measurement can have weak generalization due to a lack of representative training data. Body motion is one of the most significant sources of noise when attempting to recover the subtle cardiac pulse from a video. We explore motion transfer as a form of data augmentation to introduce motion variation while preserving physiological changes of interest. We adapt a neural video synthesis approach to augment videos for the task of remote photoplethysmography (rPPG) and study the effects of motion augmentation with respect to 1) the magnitude and 2) the type of motion. After training on motion-augmented versions of publicly available datasets, we demonstrate a 47% improvement over existing inter-dataset results using various state-of-the-art methods on the PURE dataset. We also present inter-dataset results on five benchmark datasets to show improvements of up to 79% using TS-CAN, a neural rPPG estimation method. Our findings illustrate the usefulness of motion transfer as a data augmentation technique for improving the generalization of models for camera-based physiological sensing. We release our code for using motion transfer as a data augmentation technique on three publicly available datasets, UBFC-rPPG, PURE, and SCAMPS, and models pre-trained on motion-augmented data here: https://motion-matters.github.io/
翻訳日:2023-09-01 20:39:07 公開日:2023-08-31
# 感度アウェアビジュアルパラメーター効率の微調整

Sensitivity-Aware Visual Parameter-Efficient Fine-Tuning ( http://arxiv.org/abs/2303.08566v2 )

ライセンス: Link先を確認
Haoyu He, Jianfei Cai, Jing Zhang, Dacheng Tao, Bohan Zhuang(参考訳) 視覚パラメーター効率の良い微調整(peft)は、事前訓練されたビジョンモデルを下流タスクに適応させるために、完全な微調整のための強力な代替手段となっている。 しかし、既存のpeftメソッドでは、人間のヒューリスティックのみに依存して異なるタスク間で同じ位置にトレーニング可能なパラメータを導入し、ドメイン間隙を無視する。 そこで本研究では,学習可能なパラメータをタスク固有の重要な位置に適応的に割り当てる,新しい感度・アウェアビジュアルパラメーター効率の微調整(spt)方式を提案することにより,学習可能なパラメータの割り当て方法を提案する。 具体的には、SPTはまず、データ依存的な方法でタスクのチューニングを必要とするセンシティブなパラメータを素早く識別する。 次に,既存の構造的チューニング手法であるlora [23] や adapter [22] を利用して,選択した感度パラメータ(非構造的チューニング)を予算内で直接チューニングすることにより,感度パラメータ数が予め定義されたしきい値を超える重み行列の表現能力をさらに向上させる。 例えば、SPTは、教師付きトレーニング済みのViT-B/16バックボーンを4.2%、平均1.4%改善し、FGVCとVTAB-1kベンチマークでSOTAパフォーマンスに達した。 ソースコードはhttps://github.com/ziplab/spt

Visual Parameter-Efficient Fine-Tuning (PEFT) has become a powerful alternative for full fine-tuning so as to adapt pre-trained vision models to downstream tasks, which only tunes a small number of parameters while freezing the vast majority ones to ease storage burden and optimization difficulty. However, existing PEFT methods introduce trainable parameters to the same positions across different tasks depending solely on human heuristics and neglect the domain gaps. To this end, we study where to introduce and how to allocate trainable parameters by proposing a novel Sensitivity-aware visual Parameter-efficient fine-Tuning (SPT) scheme, which adaptively allocates trainable parameters to task-specific important positions given a desired tunable parameter budget. Specifically, our SPT first quickly identifies the sensitive parameters that require tuning for a given task in a data-dependent way. Next, our SPT further boosts the representational capability for the weight matrices whose number of sensitive parameters exceeds a pre-defined threshold by utilizing existing structured tuning methods, e.g., LoRA [23] or Adapter [22], to replace directly tuning the selected sensitive parameters (unstructured tuning) under the budget. Extensive experiments on a wide range of downstream recognition tasks show that our SPT is complementary to the existing PEFT methods and largely boosts their performance, e.g., SPT improves Adapter with supervised pre-trained ViT-B/16 backbone by 4.2% and 1.4% mean Top-1 accuracy, reaching SOTA performance on FGVC and VTAB-1k benchmarks, respectively. Source code is at https://github.com/ziplab/SPT
翻訳日:2023-09-01 20:38:12 公開日:2023-08-31
# UAGE: 弱監視セマンティックセマンティックセグメンテーションのための統一シードエリア生成パラダイム

USAGE: A Unified Seed Area Generation Paradigm for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2303.07806v2 )

ライセンス: Link先を確認
Zelin Peng, Guanchun Wang, Lingxi Xie, Dongsheng Jiang, Wei Shen, Qi Tian(参考訳) 種子領域の生成は通常、弱教師付きセマンティックセグメンテーション(WSSS)の出発点である。 マルチラベル分類ネットワークからクラスアクティベーションマップ(cam)を計算することは、シード領域生成のデファクトパラダイムであるが、畳み込みニューラルネットワーク(cnns)とトランスフォーマーから生成されるcamは、それぞれ過度に活性化されやすいため、通常はトランスフォーマーに不適当であるcnn用のcamを洗練する戦略と、その逆の方法である。 In this paper, we propose a Unified optimization paradigm for Seed Area GEneration (USAGE) for both types of networks, in which the objective function to be optimized consists of two terms: One is a generation loss, which controls the shape of seed areas by a temperature parameter following a deterministic principle for different types of networks; The other is a regularization loss, which ensures the consistency between the seed areas that are generated by self-adaptive network adjustment from different views, to overturn false activation in seed areas. 実験結果から,UAGEはCNNとトランスフォーマーの両方のシード領域の生成を,PASCAL VOCで4.1%のmIoUで,大きなマージンで一貫して改善していることがわかった。 さらに, トランスフォーマーのUSAGE生成種面積に基づいて, PASCAL VOCとMS COCOの2種類のWSSS結果を得た。

Seed area generation is usually the starting point of weakly supervised semantic segmentation (WSSS). Computing the Class Activation Map (CAM) from a multi-label classification network is the de facto paradigm for seed area generation, but CAMs generated from Convolutional Neural Networks (CNNs) and Transformers are prone to be under- and over-activated, respectively, which makes the strategies to refine CAMs for CNNs usually inappropriate for Transformers, and vice versa. In this paper, we propose a Unified optimization paradigm for Seed Area GEneration (USAGE) for both types of networks, in which the objective function to be optimized consists of two terms: One is a generation loss, which controls the shape of seed areas by a temperature parameter following a deterministic principle for different types of networks; The other is a regularization loss, which ensures the consistency between the seed areas that are generated by self-adaptive network adjustment from different views, to overturn false activation in seed areas. Experimental results show that USAGE consistently improves seed area generation for both CNNs and Transformers by large margins, e.g., outperforming state-of-the-art methods by a mIoU of 4.1% on PASCAL VOC. Moreover, based on the USAGE-generated seed areas on Transformers, we achieve state-of-the-art WSSS results on both PASCAL VOC and MS COCO.
翻訳日:2023-09-01 20:37:41 公開日:2023-08-31
# 超疎視型cbct再構成のための深部強度場学習

Learning Deep Intensity Field for Extremely Sparse-View CBCT Reconstruction ( http://arxiv.org/abs/2303.06681v3 )

ライセンス: Link先を確認
Yiqun Lin, Zhongjin Luo, Wei Zhao, and Xiaomeng Li(参考訳) Sparse-view cone-beam CT (CBCT) 再建は放射線線量削減と臨床応用のための重要な方向である。 従来のボクセルベースの生成方法はCTを離散ボクセルとして表現しており、3Dデコーダの使用により高いメモリ要求と空間解像度が制限される。 本稿では,ctボリュームを連続的な強度場として定式化し,超高速で超疎射影から高品質なcbct再構成を行う新しいdif-netを開発した。 CTの強度場は3次元空間点の連続関数と見なすことができる。 これにより、任意の3D点の強度値を所定のスパース投影から引き戻すように再構成することができる。 特に、DIF-Netは、異なる2Dプロジェクションビューからビュー特有の特徴を抽出する。 これらの特徴はその後、強度推定のための融合モジュールによって集約される。 特に、トレーニングやテストの効率を改善するために、何千ものポイントを並行して処理することができる。 実際に膝CBCTデータセットを収集し,DIF-Netのトレーニングと評価を行う。 広範な実験により,高画質,高空間解像度のcbctを1.6秒以内で再現できることが判明した。 私たちのコードはhttps://github.com/xmed-lab/dif-netで利用可能です。

Sparse-view cone-beam CT (CBCT) reconstruction is an important direction to reduce radiation dose and benefit clinical applications. Previous voxel-based generation methods represent the CT as discrete voxels, resulting in high memory requirements and limited spatial resolution due to the use of 3D decoders. In this paper, we formulate the CT volume as a continuous intensity field and develop a novel DIF-Net to perform high-quality CBCT reconstruction from extremely sparse (fewer than 10) projection views at an ultrafast speed. The intensity field of a CT can be regarded as a continuous function of 3D spatial points. Therefore, the reconstruction can be reformulated as regressing the intensity value of an arbitrary 3D point from given sparse projections. Specifically, for a point, DIF-Net extracts its view-specific features from different 2D projection views. These features are subsequently aggregated by a fusion module for intensity estimation. Notably, thousands of points can be processed in parallel to improve efficiency during training and testing. In practice, we collect a knee CBCT dataset to train and evaluate DIF-Net. Extensive experiments show that our approach can reconstruct CBCT with high image quality and high spatial resolution from extremely sparse views within 1.6 seconds, significantly outperforming state-of-the-art methods. Our code will be available at https://github.com/xmed-lab/DIF-Net.
翻訳日:2023-09-01 20:37:15 公開日:2023-08-31
# フロー保存型ZX計算書換規則の最適化と難読化

Flow-preserving ZX-calculus Rewrite Rules for Optimisation and Obfuscation ( http://arxiv.org/abs/2304.08166v2 )

ライセンス: Link先を確認
Tommy McElvanney (University of Birmingham), Miriam Backens (University of Birmingham)(参考訳) 測定ベースの量子計算(MBQC)の一方向モデルでは、計算はリソース状態の測定によって進行する。 いわゆるフロー条件は全体の計算が適切な意味で決定論的であることを保証するもので、パウリフローが最も一般的である。 測定パターンとして表現された計算は、リソース使用の最適化やその他の目的のために書き換えられる。 このような書き換えはフローの存在を保ち、新しいパターンが決定論的に実装可能であることを保証する必要がある。 この分野の既存の研究の大部分は、量子ビットの数を減らした書き換えに焦点を当てているが、ある種の最適化や難読化のためにキュービットの数を増やすことは有益である。 本研究では, 量子ビット数を増やし, パウリフローの存在を保ったZX-計算書換え規則を提案する。 これらの規則は、任意の測定パターンをXY面内の(一般またはパウリの)測定のみを含むパターンに変換するのに使うことができる。 また,測定角度を任意に変更可能な最初のフロー保存リライトルールを与え,staudacherらによる'neighbour unfusion'ルールがパウリフローの存在を保っていることを証明するために使用する。 これは、コストのかかるgflow-findingアルゴリズムを定期的に実行する必要をなくすことで、2キュービットゲート最適化のランタイムを削減できることを意味している。

In the one-way model of measurement-based quantum computation (MBQC), computation proceeds via measurements on a resource state. So-called flow conditions ensure that the overall computation is deterministic in a suitable sense, with Pauli flow being the most general of these. Computations, represented as measurement patterns, may be rewritten to optimise resource use and for other purposes. Such rewrites need to preserve the existence of flow to ensure the new pattern can still be implemented deterministically. The majority of existing work in this area has focused on rewrites that reduce the number of qubits, yet it can be beneficial to increase the number of qubits for certain kinds of optimisation, as well as for obfuscation. In this work, we introduce several ZX-calculus rewrite rules that increase the number of qubits and preserve the existence of Pauli flow. These rules can be used to transform any measurement pattern into a pattern containing only (general or Pauli) measurements within the XY-plane. We also give the first flow-preserving rewrite rule that allows measurement angles to be changed arbitrarily, and use this to prove that the `neighbour unfusion' rule of Staudacher et al. preserves the existence of Pauli flow. This implies it may be possible to reduce the runtime of their two-qubit-gate optimisation procedure by removing the need to regularly run the costly gflow-finding algorithm.
翻訳日:2023-09-01 20:31:36 公開日:2023-08-31
# RECLIP:小さな画像による学習による資源効率の高いCLIP

RECLIP: Resource-efficient CLIP by Training with Small Images ( http://arxiv.org/abs/2304.06028v2 )

ライセンス: Link先を確認
Runze Li, Dahun Kim, Bir Bhanu, Weicheng Kuo(参考訳) 本稿では,CLIP (Contrastive Language Image Pretraining) の計算資源フットプリントを最小限に抑えるシンプルな手法であるRECLIPを提案する。 コンピュータビジョンにおける粗粒度の概念に着想を得て,小型画像を用いて大規模言語指導から効率的に学習し,最後に高分解能データを用いてモデルを微調整する。 視覚変換器の複雑さは入力画像サイズに大きく依存するため,本手法は理論および実際の両方において,トレーニングリソースの要求を著しく低減する。 同じバッチサイズとトレーニングエポックを用いて、RECLIPは6~8倍の計算リソースと7~9倍のFLOPで、高い競争力を持つゼロショット分類と画像テキスト検索精度を実現する。 最先端のコントラスト学習法と比較して,RECLIPは,高度に競争力のあるゼロショット分類と検索性能を維持しつつ,5~59倍のトレーニングリソースの節約を示す。 最後に、RECLIPは、LVIS上で32のAPrを達成し、オープン語彙検出タスクへの移行学習の最先端と一致する。 この取り組みが、幅広い研究コミュニティにとって、リソースフレンドリーな環境で言語を教師する事前訓練を探求する道を開くことを願っている。

We present RECLIP (Resource-efficient CLIP), a simple method that minimizes computational resource footprint for CLIP (Contrastive Language Image Pretraining). Inspired by the notion of coarse-to-fine in computer vision, we leverage small images to learn from large-scale language supervision efficiently, and finetune the model with high-resolution data in the end. Since the complexity of the vision transformer heavily depends on input image size, our approach significantly reduces the training resource requirements both in theory and in practice. Using the same batch size and training epoch, RECLIP achieves highly competitive zero-shot classification and image-text retrieval accuracy with 6 to 8x less computational resources and 7 to 9x fewer FLOPs than the baseline. Compared to the state-of-the-art contrastive learning methods, RECLIP demonstrates 5 to 59x training resource savings while maintaining highly competitive zero-shot classification and retrieval performance. Finally, RECLIP matches the state of the art in transfer learning to open-vocabulary detection tasks, achieving 32 APr on LVIS. We hope this work will pave the path for the broader research community to explore language supervised pretraining in resource-friendly settings.
翻訳日:2023-09-01 20:30:53 公開日:2023-08-31
# DUFormer:セマンティックセグメンテーションを用いた航空画像における電力線検出タスクの解決

DUFormer: Solving Power Line Detection Task in Aerial Images using Semantic Segmentation ( http://arxiv.org/abs/2304.05821v2 )

ライセンス: Link先を確認
Deyu An, Qiang Zhang, Jianshu Chao, Ting Li, Feng Qiao, Yong Deng, Zhenpeng Bian(参考訳) 無人航空機(UAV)は電力線を検査したり高解像度の空中画像を撮影するために頻繁に使用される。 しかし、空中画像における電力線の検出は困難であり、前景データ(すなわち電力線)が小さく、背景情報が豊富であるため、この問題に取り組むため、航空画像における電力線を検出するために明示的に設計されたセマンティックセグメンテーションアルゴリズムであるduformerを導入する。 我々は,畳み込み型ニューラルネットワーク(CNN)を用いて十分な特徴抽出を施した効率的なトランスフォーマーモデルをトレーニングすることが有利であると仮定する。この目標を念頭に置いて,重複する特徴リモデリングとトークン化を行う重トークンエンコーダを導入する。 本発明のエンコーダは、ピラミッドCNN特徴抽出モジュールと電力線特徴拡張モジュールとから構成され、電力線に対する局所特徴抽出の成功により、特徴融合を行い、グローバルモデリングにTransformerブロックを使用する。 最終的なセグメンテーション結果は,デコードヘッドの局所的特徴と大域的な特徴を融合することにより達成される。さらに,電力線セグメンテーションにおける統合多重損失関数の重要性を実証する。 実験の結果,提案手法はTTPLAデータセット上での電力線分割における最先端の手法よりも優れていた。

Unmanned aerial vehicles (UAVs) are frequently used for inspecting power lines and capturing high-resolution aerial images. However, detecting power lines in aerial images is difficult,as the foreground data(i.e, power lines) is small and the background information is abundant.To tackle this problem, we introduce DUFormer, a semantic segmentation algorithm explicitly designed to detect power lines in aerial images. We presuppose that it is advantageous to train an efficient Transformer model with sufficient feature extraction using a convolutional neural network(CNN) with a strong inductive bias.With this goal in mind, we introduce a heavy token encoder that performs overlapping feature remodeling and tokenization. The encoder comprises a pyramid CNN feature extraction module and a power line feature enhancement module.After successful local feature extraction for power lines, feature fusion is conducted.Then,the Transformer block is used for global modeling. The final segmentation result is achieved by amalgamating local and global features in the decode head.Moreover, we demonstrate the importance of the joint multi-weight loss function in power line segmentation. Our experimental results show that our proposed method outperforms all state-of-the-art methods in power line segmentation on the publicly accessible TTPLA dataset.
翻訳日:2023-09-01 20:30:28 公開日:2023-08-31
# ダイヤモンド中の窒素空孔中心の励起状態における温度依存性集団ダイナミクスのモデル化

Modeling temperature-dependent population dynamics in the excited state of the nitrogen-vacancy center in diamond ( http://arxiv.org/abs/2304.02521v2 )

ライセンス: Link先を確認
Stefan Ernst, Patrick J. Scheidegger, Simon Diesch, Christian L. Degen(参考訳) ダイヤモンド中の窒素空孔(NV)中心は、その好ましいスピンと光学特性について量子力学や量子情報でよく知られており、その卓越性にもかかわらず、NV中心の光物理は不完全に理解されており、特にフォノンが活性化される10-100Kの中間温度では顕著である。 本研究では,低温状態から高温状態へのクロスオーバーを記述することができる速度モデルを提案する。 モデルにとって鍵となるのは、励起状態(ES)における2つの軌道分岐の間のフォノン駆動ホッピングであり、ESスピンプレセッションとの相互作用を通じてスピン緩和を加速する。 我々は,磁場,電界,結晶ひずみを含むモデルを拡張し,幅広い実験条件下での個体群動態をシミュレートする。 本モデルでは, 低温・高温領域における既存の記述を復元し, 各種文献データの解析に成功している。 さらに、このモデルにより、実験可観測性、特に光ルミネッセンス(pl)放出率、スピンコントラスト、量子応用に関連するスピン初期化忠実度を予測できる。 最後に,nv中心の電子-フォノン相互作用を探究し,現在の理解と最近の実験結果とのギャップを明らかにする。

The nitrogen-vacancy (NV) center in diamond is well known in quantum metrology and quantum information for its favorable spin and optical properties, which span a wide temperature range from near zero to over 600 K. Despite its prominence, the NV center's photo-physics is incompletely understood, especially at intermediate temperatures between 10-100 K where phonons become activated. In this work, we present a rate model able to describe the cross-over from the low-temperature to the high-temperature regime. Key to the model is a phonon-driven hopping between the two orbital branches in the excited state (ES), which accelerates spin relaxation via an interplay with the ES spin precession. We extend our model to include magnetic and electric fields as well as crystal strain, allowing us to simulate the population dynamics over a wide range of experimental conditions. Our model recovers existing descriptions for the low- and high-temperature limits, and successfully explains various sets of literature data. Further, the model allows us to predict experimental observables, in particular the photoluminescence (PL) emission rate, spin contrast, and spin initialization fidelity relevant for quantum applications. Lastly, our model allows probing the electron-phonon interaction of the NV center and reveals a gap between the current understanding and recent experimental findings.
翻訳日:2023-09-01 20:29:43 公開日:2023-08-31
# G2PTL: 配送アドレスの事前学習モデルとそのロジスティックスシステムへの応用

G2PTL: A Pre-trained Model for Delivery Address and its Applications in Logistics System ( http://arxiv.org/abs/2304.01559v3 )

ライセンス: Link先を確認
Lixia Wu, Jianlin Liu, Junhong Lou, Haoyuan Hu, Jianbin Zheng, Haomin Wen, Chao Song, Shu He(参考訳) 物流システムのデータ基盤としてのテキストベースの配送アドレスには、豊富な重要な位置情報が含まれている。 配信アドレスを効果的にエンコードする方法は、ロジスティクスシステムにおけるダウンストリームタスクのパフォーマンスを高めるためのコアタスクである。 自然言語処理(NLP)用に設計された事前学習モデル(PTM)が,意味情報をテキストでエンコードするための主要なツールとして登場した。 有望ではあるが、これらのNLPベースのPTMは、カイニオのようなロジスティックシステムにおけるデリバリ関連タスクのパフォーマンスを大幅に低下させる、配信アドレスの地理的知識を符号化するに足りていない。 そこで本研究では,物流分野における配送アドレスのための地理グラフ事前学習モデルであるg2ptlというドメイン固有事前学習モデルを提案する。 G2PTLは、テキスト事前学習のセマンティック学習能力と、グラフモデリングの地理的関連性符号化能力を組み合わせる。 具体的には,実世界の物流配信データを用いて,豊富な地理的知識と配送情報を含む大規模異種配送アドレスグラフを構築した。 そして、G2PTLは、異種グラフからサンプリングされたサブグラフで事前訓練される。 実世界のデータセット上での物流システムにおける4つの下流タスクによるG2PTLの有効性を示す総合的な実験を行った。 g2ptlはcainiaoのロジスティクスシステムで運用されており、デリバリ関連のタスクのパフォーマンスが大幅に向上している。 G2PTLのコードはhttps://huggingface.co/Cainiao-AI/G2PTLで公開されている。

Text-based delivery addresses, as the data foundation for logistics systems, contain abundant and crucial location information. How to effectively encode the delivery address is a core task to boost the performance of downstream tasks in the logistics system. Pre-trained Models (PTMs) designed for Natural Language Process (NLP) have emerged as the dominant tools for encoding semantic information in text. Though promising, those NLP-based PTMs fall short of encoding geographic knowledge in the delivery address, which considerably trims down the performance of delivery-related tasks in logistic systems such as Cainiao. To tackle the above problem, we propose a domain-specific pre-trained model, named G2PTL, a Geography-Graph Pre-trained model for delivery address in Logistics field. G2PTL combines the semantic learning capabilities of text pre-training with the geographical-relationship encoding abilities of graph modeling. Specifically, we first utilize real-world logistics delivery data to construct a large-scale heterogeneous graph of delivery addresses, which contains abundant geographic knowledge and delivery information. Then, G2PTL is pre-trained with subgraphs sampled from the heterogeneous graph. Comprehensive experiments are conducted to demonstrate the effectiveness of G2PTL through four downstream tasks in logistics systems on real-world datasets. G2PTL has been deployed in production in Cainiao's logistics system, which significantly improves the performance of delivery-related tasks. The code of G2PTL is available at https://huggingface.co/Cainiao-AI/G2PTL.
翻訳日:2023-09-01 20:29:18 公開日:2023-08-31
# 時間-最適パルスを持つ高忠実リドバーグ制御Zゲート

High-fidelity Rydberg control-Z gates with time-optimal pulses ( http://arxiv.org/abs/2303.16395v2 )

ライセンス: Link先を確認
T. H. Chang, T. N. Wang, H. H. Jen, and Y.-C. Chen(参考訳) 高忠実性制御-$z$ (c_z$) ゲートは大規模量子コンピュータを構築するのに必須で必須である。 中性原子では、リドバーグ状態間の強い双極子-双極子相互作用は、c_z$ゲートを実装した先駆的プラットフォームの一つである。 ここでは,高忠実度Rydberg $C_{Z}$ゲートを3レベルラグ型原子系で生成する時間-最適パルスを数値的に検討する。 ガウスまたは分節パルスの時間的形状を調整することにより、中間励起状態の集団は対称ゲート演算プロトコル内で抑制され、これはベル忠実度が高い99.92 %$のC_{Z}$ゲートとなる。 これらの最適化パルスは熱揺らぎや励起場の変動に頑健である。 以上の結果から, 有限閉塞強度下での断熱操作を超越した, 高忠実かつ高速なゲート動作を, 可愛く制御可能な実験パラメータで実現できることを確認した。

High-fidelity control-$Z$ ($C_Z$) gates are essential and mandatory to build a large-scale quantum computer. In neutral atoms, the strong dipole-dipole interactions between their Rydberg states make them one of the pioneering platforms to implement $C_Z$ gates. Here we numerically investigate the time-optimal pulses to generate a high-fidelity Rydberg $C_{Z}$ gate in a three-level ladder-type atomic system. By tuning the temporal shapes of Gaussian or segmented pulses, the populations on the intermediate excited states are shown to be suppressed within the symmetric gate operation protocol, which leads to a $C_{Z}$ gate with a high Bell fidelity up to $99.92\%$. These optimized pulses are robust to thermal fluctuations and the excitation field variations. Our results promise a high-fidelity and fast gate operation under amenable and controllable experimental parameters, which goes beyond the adiabatic operation regime under a finite Blockade strength.
翻訳日:2023-09-01 20:28:53 公開日:2023-08-31
# $D$次元クラスター状態における多部絡みと量子誤差同定

Multipartite entanglement and quantum error identification in $D$-dimensional cluster states ( http://arxiv.org/abs/2303.15508v2 )

ライセンス: Link先を確認
Sowrabh Sudevan, Daniel Azses, Emanuele G. Dalla Torre, Eran Sela, Sourin Das(参考訳) エンタングル状態は、任意の$m$ qubits の縮小密度行列が最大混合であるとき、$m$-uniform と呼ばれる。 これは純粋量子誤り訂正符号(QECC)と密接に関連しており、誤りを訂正するだけでなく、その正確な性質と位置を特定できる。 ここでは,局所ゲートやインタラクションを用いて$m$-uniform状態を生成し,いくつかのQECCアプリケーションを解明する方法を示す。 まず、$d$-dimensionalのクラスタ状態が$m$-uniformで$m=2d$であることを示す。 このゼロ相関長クラスタ状態は、その$m=2d$一様性に対する有限サイズの補正を持たず、これは無限と十分大きいが有限の格子の両方に対して正確である。 しかし、我々が束縛した$d$次元のそれぞれにおける格子拡大の有限値において、一様性は系を巻く有限の支持作用素によって低下する。 また、準$d$ 次元のクラスタ状態を用いて、より大きな$m$値を達成する方法についても概説する。 これにより、量子コンピュータ上でのエラーのベンチマークにクラスタ状態を使用する可能性を開くことができる。 この能力を超伝導量子コンピュータで実証し、1 量子ビットのエラーを検出し識別できる1 次元のクラスター状態に着目し、x$、y$、および$z$のエラーを区別する。

An entangled state is said to be $m$-uniform if the reduced density matrix of any $m$ qubits is maximally mixed. This is intimately linked to pure quantum error correction codes (QECCs), which allow not only to correct errors, but also to identify their precise nature and location. Here, we show how to create $m$-uniform states using local gates or interactions and elucidate several QECC applications. We first show that $D$-dimensional cluster states are $m$-uniform with $m=2D$. This zero-correlation length cluster state does not have finite size corrections to its $m=2D$ uniformity, which is exact both for infinite and for large enough but finite lattices. Yet at some finite value of the lattice extension in each of the $D$ dimensions, which we bound, the uniformity is degraded due to finite support operators which wind around the system. We also outline how to achieve larger $m$ values using quasi-$D$ dimensional cluster states. This opens the possibility to use cluster states to benchmark errors on quantum computers. We demonstrate this ability on a superconducting quantum computer, focusing on the 1D cluster state which, we show, allows to detect and identify 1-qubit errors, distinguishing $X$, $Y$ and $Z$ errors.
翻訳日:2023-09-01 20:28:36 公開日:2023-08-31
# グラフ補完のための知識強化グラフニューラルネットワーク

Knowledge Enhanced Graph Neural Networks for Graph Completion ( http://arxiv.org/abs/2303.15487v3 )

ライセンス: Link先を確認
Luisa Werner (TYREX, UGA), Nabil Laya\"ida (TYREX), Pierre Genev\`es (CNRS, TYREX), Sarah Chlyah (TYREX)(参考訳) グラフデータは、万能的に存在し、自然科学、ソーシャルネットワーク、セマンティックウェブなど、幅広い応用がある。 しかし、情報に富みながら、グラフはしばしば騒がしく不完全である。 その結果,ノード分類やリンク予測などのグラフ補完タスクが注目されている。 一方、グラフニューラルネットワークのようなニューラルネットワークは、ノイズの多いグラフの豊かな表現を学ぶための堅牢なツールであることが証明されている。 On the other hand, symbolic methods enable exact reasoning on graphs.We propose Knowledge Enhanced Graph Neural Networks (KeGNN), a neuro-symbolic framework for graph completion that combines both paradigms as it allows for the integration of prior knowledge into a graph neural network model.Essentially, KeGNN consists of a graph neural network as a base upon which knowledge enhancement layers are stacked with the goal of refining predictions with respect to prior knowledge.We instantiate KeGNN in conjunction with two state-of-the-art graph neural networks, Graph Convolutional Networks and Graph Attention Networks, and evaluate KeGNN on multiple benchmark datasets for node classification.

Graph data is omnipresent and has a wide variety of applications, such as in natural science, social networks, or the semantic web. However, while being rich in information, graphs are often noisy and incomplete. As a result, graph completion tasks, such as node classification or link prediction, have gained attention. On one hand, neural methods, such as graph neural networks, have proven to be robust tools for learning rich representations of noisy graphs. On the other hand, symbolic methods enable exact reasoning on graphs.We propose Knowledge Enhanced Graph Neural Networks (KeGNN), a neuro-symbolic framework for graph completion that combines both paradigms as it allows for the integration of prior knowledge into a graph neural network model.Essentially, KeGNN consists of a graph neural network as a base upon which knowledge enhancement layers are stacked with the goal of refining predictions with respect to prior knowledge.We instantiate KeGNN in conjunction with two state-of-the-art graph neural networks, Graph Convolutional Networks and Graph Attention Networks, and evaluate KeGNN on multiple benchmark datasets for node classification.
翻訳日:2023-09-01 20:28:14 公開日:2023-08-31
# FusionBooster: 統合された画像融合のパラダイム

FusionBooster: A Unified Image Fusion Boosting Paradigm ( http://arxiv.org/abs/2305.05970v2 )

ライセンス: Link先を確認
Chunyang Cheng, Tianyang Xu, Xiao-Jun Wu, Hui Li, Xi Li, and Josef Kittler(参考訳) 近年、画像融合タスクの相互強化機構や余分な段階を設計し、異なる視覚タスクと計算負荷の間の必然的なギャップを無視して、多くのアイデアが生まれている。 我々は、核融合タスク用に特別に設計されたモデルであるFusionBoosterの助けを借りて、核融合性能を改善するためのスコープがあることを論じる。 特に,このブースターは情報プローブによって制御される配当戦略に基づいている。 ブースターは、プローブユニット、ブースター層、組み立てモジュールの3つのビルディングブロックから構成されている。 バックボーン法により生成された結果から、プローブユニットは融合画像を評価し、その情報内容に応じて結果を分割する。 これは、その回復のステップとして、欠落している情報を特定するのに役立ちます。 核融合誘導に伴う劣化成分の回収はブースター層の役割である。 最後に、組み立てモジュールは、これらの高度なコンポーネントをまとめて出力する責任を負う。 軽量オートエンコーダモデルと共に簡潔な再構成損失関数を用いて学習タスクを定式化し,計算複雑性を増大させる。 各種核融合タスクおよび下流検出タスクで得られた実験結果は,提案する核融合ブースターの性能が著しく向上することを示した。 私たちのコードはプロジェクトのホームページで公開されます。

In recent years, numerous ideas have emerged for designing a mutually reinforcing mechanism or extra stages for the image fusion task, ignoring the inevitable gaps between different vision tasks and the computational burden. We argue that there is a scope to improve the fusion performance with the help of the FusionBooster, a model specifically designed for the fusion task. In particular, our booster is based on the divide-and-conquer strategy controlled by an information probe. The booster is composed of three building blocks: the probe units, the booster layer, and the assembling module. Given the result produced by a backbone method, the probe units assess the fused image and divide the results according to their information content. This is instrumental in identifying missing information, as a step to its recovery. The recovery of the degraded components along with the fusion guidance are the role of the booster layer. Lastly, the assembling module is responsible for piecing these advanced components together to deliver the output. We use concise reconstruction loss functions in conjunction with lightweight autoencoder models to formulate the learning task, with marginal computational complexity increase. The experimental results obtained in various fusion tasks, as well as downstream detection tasks, consistently demonstrate that the proposed FusionBooster significantly improves the performance. Our code will be publicly available on the project homepage.
翻訳日:2023-09-01 20:20:57 公開日:2023-08-31
# 個人化フェデレーション学習による中国語テキストの協調認識

Collaborative Chinese Text Recognition with Personalized Federated Learning ( http://arxiv.org/abs/2305.05602v2 )

ライセンス: Link先を確認
Shangchao Su, Haiyang Yu, Bin Li, Xiangyang Xue(参考訳) 中国語のテキスト認識では、ローカルデータの不足を補い、ローカルな数発文字認識の性能を向上させるためには、類似組織から大量のデータを収集する必要があることが多い。 しかし、住所や電話番号などのテキストデータに個人情報が自然に存在するため、異なる組織はプライベートデータを共有することを望んでいない。 そのため,中国語テキスト認識タスクのためのプライバシー保全型協調学習フレームワークの設計がますます重要になっている。 本稿では、中国語のテキスト認識タスクにパーソナライズされたフェデレーション学習(pFL)を導入し、プライベートデータを共有することなく各クライアント(組織)のモデル性能を大幅に向上させるpFedCRアルゴリズムを提案する。 具体的には、pfedcrはグローバルモデルのトレーニングステージとローカルパーソナライズステージの2つのステージで構成される。 ステージ1では、様々なクライアントデータ分布に対応するために、注意機構をCRNNモデルに組み込む。 固有の文字データ特性を利用して、バランスのとれたデータセットがサーバ上に作成され、文字の不均衡を緩和する。 パーソナライズフェーズでは、グローバルモデルは1つのエポックに対して微調整され、局所モデルを生成する。 ローカルモデルとグローバルモデルのパラメータ平均化は、パーソナライズされた機能とグローバルな機能抽出機能を組み合わせる。 最後に、注意層のみを微調整して、ローカルなパーソナライズ機能に重点を置きます。 3つの実世界の産業シナリオデータセットによる実験結果から,pFedCRアルゴリズムは局所パーソナライズされたモデルの性能を約20 %向上し,他のクライアントデータ領域での一般化性能も向上することが示された。 他の最先端の個人化学習手法と比較して、pFedCRは性能を6\%$\sim$ 8\%改善する。

In Chinese text recognition, to compensate for the insufficient local data and improve the performance of local few-shot character recognition, it is often necessary for one organization to collect a large amount of data from similar organizations. However, due to the natural presence of private information in text data, such as addresses and phone numbers, different organizations are unwilling to share private data. Therefore, it becomes increasingly important to design a privacy-preserving collaborative training framework for the Chinese text recognition task. In this paper, we introduce personalized federated learning (pFL) into the Chinese text recognition task and propose the pFedCR algorithm, which significantly improves the model performance of each client (organization) without sharing private data. Specifically, pFedCR comprises two stages: multiple rounds of global model training stage and the the local personalization stage. During stage 1, an attention mechanism is incorporated into the CRNN model to adapt to various client data distributions. Leveraging inherent character data characteristics, a balanced dataset is created on the server to mitigate character imbalance. In the personalization phase, the global model is fine-tuned for one epoch to create a local model. Parameter averaging between local and global models combines personalized and global feature extraction capabilities. Finally, we fine-tune only the attention layers to enhance its focus on local personalized features. The experimental results on three real-world industrial scenario datasets show that the pFedCR algorithm can improve the performance of local personalized models by about 20\% while also improving their generalization performance on other client data domains. Compared to other state-of-the-art personalized federated learning methods, pFedCR improves performance by 6\% $\sim$ 8\%.
翻訳日:2023-09-01 20:20:36 公開日:2023-08-31
# ディープラーニングが多面体理論を満たすとき:調査

When Deep Learning Meets Polyhedral Theory: A Survey ( http://arxiv.org/abs/2305.00241v2 )

ライセンス: Link先を確認
Joey Huchette, Gonzalo Mu\~noz, Thiago Serra, Calvin Tsay(参考訳) 過去10年間、コンピュータビジョンや自然言語処理といったタスクにおけるディープニューラルネットワークの驚くべき精度のおかげで、ディープラーニングは予測モデリングの一般的な方法論となった。 一方、ニューラルネットワークの構造はより単純な表現に収束し、Rectified Linear Unit (ReLU) のような断片的定数と断片的線形関数がニューラルネットワークで最もよく使われるタイプのアクティベーション関数となった。 これにより、ある種のネットワーク構造を$\unicode{x2014}$、一般的な完全連結フィードフォワードニューラルネットワーク$\unicode{x2014}$、多面体理論による解析や線形計画法(LP)や混合整数線形計画法(MILP)といった様々な目的に応用することができる。 本稿では、ニューラルネットワークのより詳細な理解と、ネットワークのサイズを訓練、検証、縮小するための線形最適化手法の適用に新たな視点をもたらす。

In the past decade, deep learning became the prevalent methodology for predictive modeling thanks to the remarkable accuracy of deep neural networks in tasks such as computer vision and natural language processing. Meanwhile, the structure of neural networks converged back to simpler representations based on piecewise constant and piecewise linear functions such as the Rectified Linear Unit (ReLU), which became the most commonly used type of activation function in neural networks. That made certain types of network structure $\unicode{x2014}$such as the typical fully-connected feedforward neural network$\unicode{x2014}$ amenable to analysis through polyhedral theory and to the application of methodologies such as Linear Programming (LP) and Mixed-Integer Linear Programming (MILP) for a variety of purposes. In this paper, we survey the main topics emerging from this fast-paced area of work, which bring a fresh perspective to understanding neural networks in more detail as well as to applying linear optimization techniques to train, verify, and reduce the size of such networks.
翻訳日:2023-09-01 20:19:38 公開日:2023-08-31
# Transformer-based interpretable multi-modal data fusion による皮膚病変分類

Transformer-based interpretable multi-modal data fusion for skin lesion classification ( http://arxiv.org/abs/2304.14505v2 )

ライセンス: Link先を確認
Theodor Cheslerean-Boghiu, Melia-Evelina Fleischmann, Theresa Willem, Tobias Lasser(参考訳) 近年、多くのディープラーニング(dl)研究が、他の要因に関わらず定量的指標の改善に重点を置いている。 皮膚科における皮膚病変分類のようなヒト中心のアプリケーションでは、dl駆動の臨床意思決定支援システムは、意思決定プロセスの透明性が限られているため、まだ初期段階にある。 さらに、訓練されたDLアルゴリズムの動作を説明する手順の欠如は、臨床医の信頼をほとんど得られない。 皮膚病変の診断には、皮膚科医は疾患の視覚的評価と患者の貧血から収集されたデータに依存する。 マルチモーダルデータを扱うデータ駆動アルゴリズムは、畳み込みアーキテクチャに必要な特徴レベルと決定レベルの融合手順の分離によって制限される。 そこで本研究では,皮膚疾患の診断を支援するトランスフォーマーアーキテクチャの注意機構により,単段マルチモーダルデータ融合を実現する。 本手法は,画像リッチおよび患者データリッチ環境において,最先端のシングルおよびマルチモーダルdlアーキテクチャに匹敵する。 さらに、アーキテクチャの選択により、イメージドメインとメタデータドメインの両方で、追加の修正を必要とせずに、分類タスクのネイティブ解釈サポートが可能になる。

A lot of deep learning (DL) research these days is mainly focused on improving quantitative metrics regardless of other factors. In human-centered applications, like skin lesion classification in dermatology, DL-driven clinical decision support systems are still in their infancy due to the limited transparency of their decision-making process. Moreover, the lack of procedures that can explain the behavior of trained DL algorithms leads to almost no trust from clinical physicians. To diagnose skin lesions, dermatologists rely on visual assessment of the disease and the data gathered from the patient's anamnesis. Data-driven algorithms dealing with multi-modal data are limited by the separation of feature-level and decision-level fusion procedures required by convolutional architectures. To address this issue, we enable single-stage multi-modal data fusion via the attention mechanism of transformer-based architectures to aid in diagnosing skin diseases. Our method beats other state-of-the-art single- and multi-modal DL architectures in image-rich and patient-data-rich environments. Additionally, the choice of the architecture enables native interpretability support for the classification task both in the image and metadata domain with no additional modifications necessary.
翻訳日:2023-09-01 20:18:55 公開日:2023-08-31
# ChatGPTは究極のプログラミングアシスタントか?

Is ChatGPT the Ultimate Programming Assistant -- How far is it? ( http://arxiv.org/abs/2304.11938v2 )

ライセンス: Link先を確認
Haoye Tian, Weiqi Lu, Tsz On Li, Xunzhu Tang, Shing-Chi Cheung, Jacques Klein, Tegawend\'e F. Bissyand\'e(参考訳) 最近、ChatGPT LLMは大きな注目を集めている。ソースコードを議論するためのボットとして利用でき、変更の提案、説明の提供、さらにはコード生成までできる。 典型的なデモンストレーションは、モデルトレーニング(すなわちデータ漏洩)で使用された既存のベンチマークに焦点を当てている。 プログラマにとって有用なアシスタントボットとしてLLMを使用することの実現可能性を評価するためには,未確認問題や様々なタスクにおいて現実的な能力を評価する必要がある。 本稿では,ChatGPTの完全自動プログラミングアシスタントとしての可能性について,コード生成,プログラム修復,コード要約のタスクに着目した実証的研究を行う。 本研究は、共通プログラミング問題に対するchatgptの性能を調査し、2つのベンチマークで最先端のアプローチと比較する。 その結果,chatgptは共通のプログラミング問題に対して有効であることがわかった。 詳細な説明は、chatgptの焦点を制限し、実際の問題を解決するためにその膨大な知識を活用できないようにする。 驚いたことに、私たちはChatGPTの本来の意図を推論する能力を特定しました。 オラクル問題のオープンな問題に対処するために、この洞察に基づく今後の作業が期待されます。 本研究は,プログラミング支援のためのLCMの開発において,特に迅速なエンジニアリングの重要性を実証し,ChatGPTのソフトウェア工学応用の理解を深めることによる興味深い知見である。

Recently, the ChatGPT LLM has received great attention: it can be used as a bot for discussing source code, prompting it to suggest changes, provide descriptions or even generate code. Typical demonstrations generally focus on existing benchmarks, which may have been used in model training (i.e., data leakage). To assess the feasibility of using an LLM as a useful assistant bot for programmers, we must assess its realistic capabilities on unseen problems as well as its capabilities on various tasks. In this paper, we present an empirical study of ChatGPT's potential as a fully automated programming assistant, focusing on the tasks of code generation, program repair, and code summariziation. The study investigates ChatGPT's performance on common programming problems and compares it with state-of-the-art approaches on two benchmarks. Among several findings, our study shows that ChatGPT is effective in dealing with common programming problems. However, our experiments also reveal limitations in terms of its attention span: detailed descriptions will constrain the focus of ChatGPT and prevent it from leveraging its vast knowledge to solve the actual problem. Surprisingly, we have identified the ability of ChatGPT to reason the original intention of the code. We expect future work to build on this insight for dealing with the open question of the oracle problem. Our findings contribute interesting insights to the development of LLMs for programming assistance, notably by demonstrating the importance of prompt engineering, and providing a better understanding of ChatGPT's practical applications for software engineering.
翻訳日:2023-09-01 20:18:08 公開日:2023-08-31
# 量子輸送における多体コヒーレンス

Many-Body Coherence in Quantum Transport ( http://arxiv.org/abs/2304.11151v6 )

ライセンス: Link先を確認
Ching-Chi Hang, Liang-Yan Hsu(参考訳) 本研究では,多体系における電子輸送を制御するために,量子コヒーレンスを利用する概念を提案する。 ハバード作用素に基づくオープン量子システム手法を組み合わせることで,多体コヒーレンスが有名なクーロン階段を取り除き,強い負の差動抵抗を引き起こすことを示した。 この機構を解明するため、ゼロ電子-フォノンカップリング限界における電流-コヒーレンス関係を解析的に導出する。 さらに,ゲートフィールドを組み込むことで,コヒーレンス制御トランジスタ構築の可能性を示す。 この開発は、多体コヒーレンスに基づく量子電子デバイス探索のための新しい方向を開く。

In this study, we propose the concept of harnessing quantum coherence to control electron transport in a many-body system. Combining an open quantum system technique based on Hubbard operators, we show that many-body coherence can eliminate the well-known Coulomb staircase and cause strong negative differential resistance. To explore the mechanism, we analytically derive the current-coherence relationship in the zero electron-phonon coupling limit. Furthermore, by incorporating a gate field, we demonstrate the possibility of constructing a coherence-controlled transistor. This development opens up a new direction for exploring quantum electronic devices based on many-body coherence.
翻訳日:2023-09-01 20:17:43 公開日:2023-08-31
# 4Dの人間:トランスフォーマーで人間の再構築と追跡

Humans in 4D: Reconstructing and Tracking Humans with Transformers ( http://arxiv.org/abs/2305.20091v3 )

ライセンス: Link先を確認
Shubham Goel, Georgios Pavlakos, Jathushan Rajasegaran, Angjoo Kanazawa, Jitendra Malik(参考訳) 我々は,人間を再構築し,時間とともに追跡する手法を提案する。 このアプローチの核となるのが,人間のメッシュ回復のためのネットワークの完全"トランスフォーマライズ"版である。 このネットワークであるHMR 2.0は、芸術の状態を前進させ、過去に1枚の画像から再構成することが困難であった異常なポーズを分析する能力を示す。 ビデオの解析には,hmr 2.0からの3次元再構成を3dで動作するトラッキングシステムへの入力として用いる。 これにより、複数の人に対応でき、オクルージョンイベントを通じてアイデンティティを維持できます。 我々の完全なアプローチである4DHumansは、モノクロビデオから人々を追跡するための最先端の結果を得る。 さらに,HMR 2.0が行動認識の下流タスクに与える影響を実証し,従来のポーズに基づく行動認識手法よりも顕著に改善した。 私たちのコードとモデルはプロジェクトのwebサイト(https://shubham-goel.github.io/4dhumans/)で利用可能です。

We present an approach to reconstruct humans and track them over time. At the core of our approach, we propose a fully "transformerized" version of a network for human mesh recovery. This network, HMR 2.0, advances the state of the art and shows the capability to analyze unusual poses that have in the past been difficult to reconstruct from single images. To analyze video, we use 3D reconstructions from HMR 2.0 as input to a tracking system that operates in 3D. This enables us to deal with multiple people and maintain identities through occlusion events. Our complete approach, 4DHumans, achieves state-of-the-art results for tracking people from monocular video. Furthermore, we demonstrate the effectiveness of HMR 2.0 on the downstream task of action recognition, achieving significant improvements over previous pose-based action recognition approaches. Our code and models are available on the project website: https://shubham-goel.github.io/4dhumans/.
翻訳日:2023-09-01 20:11:10 公開日:2023-08-31
# 知識グラフの生体医学領域への埋め込み:それらは有用か? リンク予測・ルール学習・下流多薬局業務について

Knowledge Graph Embeddings in the Biomedical Domain: Are They Useful? A Look at Link Prediction, Rule Learning, and Downstream Polypharmacy Tasks ( http://arxiv.org/abs/2305.19979v2 )

ライセンス: Link先を確認
Aryo Pradipta Gema, Dominik Grabarczyk, Wolf De Wulf, Piyush Borole, Javier Antonio Alfaro, Pasquale Minervini, Antonio Vergari, Ajitha Rajan(参考訳) ナレッジグラフは複雑な生体医学データを表現し組織化するための強力なツールである。 知識グラフから学習し、完全な知識グラフから学習するために、いくつかの知識グラフ埋め込みアルゴリズムが提案されている。 しかし、最近の研究では、これらの埋め込みアルゴリズムが生物医学的知識グラフに適用した場合に限定的な効果を示し、知識グラフ埋め込みが生体医学的設定に制限があるかどうかという疑問を提起している。 本研究の目的は,最近のバイオメディカル知識グラフBioKGの文脈に最先端知識グラフ埋め込みモデルを適用し,その性能評価と下流利用の可能性を評価することである。 また, HITS@10のスコアに基づいて, 同じバイオメディカル知識グラフを用いた3倍の性能向上を実現した。 さらに,ルールベースの手法により解釈可能な予測を行う。 実生活多薬局の状況を表す4つのタスクにおいて,最高の性能モデルを評価することにより,知識グラフの埋め込みモデルを実際に適用できることを実証する。 その結果, 大規模生物医学的知識グラフから学習した知識は, 下流のユースケースに移される可能性が示唆された。 私たちのコードはhttps://github.com/aryopg/biokgeで入手できます。

Knowledge graphs are powerful tools for representing and organising complex biomedical data. Several knowledge graph embedding algorithms have been proposed to learn from and complete knowledge graphs. However, a recent study demonstrates the limited efficacy of these embedding algorithms when applied to biomedical knowledge graphs, raising the question of whether knowledge graph embeddings have limitations in biomedical settings. This study aims to apply state-of-the-art knowledge graph embedding models in the context of a recent biomedical knowledge graph, BioKG, and evaluate their performance and potential downstream uses. We achieve a three-fold improvement in terms of performance based on the HITS@10 score over previous work on the same biomedical knowledge graph. Additionally, we provide interpretable predictions through a rule-based method. We demonstrate that knowledge graph embedding models are applicable in practice by evaluating the best-performing model on four tasks that represent real-life polypharmacy situations. Results suggest that knowledge learnt from large biomedical knowledge graphs can be transferred to such downstream use cases. Our code is available at https://github.com/aryopg/biokge.
翻訳日:2023-09-01 20:10:57 公開日:2023-08-31
# 前立腺MRIセグメンテーションのためのMCTSによる動的データ拡張

Dynamic Data Augmentation via MCTS for Prostate MRI Segmentation ( http://arxiv.org/abs/2305.15777v2 )

ライセンス: Link先を確認
Xinyue Xu, Yuhan Hsi, Haonan Wang, Xiaomeng Li(参考訳) 医療画像データは、しばしば高価な取得とアノテーションプロセスのために制限される。 したがって、生データだけでディープラーニングモデルをトレーニングすることは、容易に過度な適合につながる。 この問題の解決策の1つは、様々な変換で生データを拡張し、新しいデータに一般化するモデルの能力を改善することである。 しかし、不整合な取得アプローチとデータ分散のため、異なるデータセットに対する汎用的な拡張の組み合わせとパラメータを手動で設定するのは簡単ではない。 そこで,大規模なgpuオーバヘッドを伴いながら,異なるデータセットに対して好適な拡張戦略を学習するために,自動データ拡張を提案する。 そこで我々はDDAug(Dynamic Data Augmentation)と呼ばれる新しい手法を提案する。 ddaugは,様々な拡張を表す階層木構造を開発し,効率的なモンテカルロ木探索アルゴリズムを用いて木を更新,プルーンし,サンプリングする。 その結果、拡張パイプラインはデータセット毎に自動的に最適化される。 複数の前立腺MRIデータセットの実験により、我々の手法は現在の最先端データ拡張戦略より優れていることが示された。

Medical image data are often limited due to the expensive acquisition and annotation process. Hence, training a deep-learning model with only raw data can easily lead to overfitting. One solution to this problem is to augment the raw data with various transformations, improving the model's ability to generalize to new data. However, manually configuring a generic augmentation combination and parameters for different datasets is non-trivial due to inconsistent acquisition approaches and data distributions. Therefore, automatic data augmentation is proposed to learn favorable augmentation strategies for different datasets while incurring large GPU overhead. To this end, we present a novel method, called Dynamic Data Augmentation (DDAug), which is efficient and has negligible computation cost. Our DDAug develops a hierarchical tree structure to represent various augmentations and utilizes an efficient Monte-Carlo tree searching algorithm to update, prune, and sample the tree. As a result, the augmentation pipeline can be optimized for each dataset automatically. Experiments on multiple Prostate MRI datasets show that our method outperforms the current state-of-the-art data augmentation strategies.
翻訳日:2023-09-01 20:10:40 公開日:2023-08-31
# 2membrane cavity optomechanicsの振幅と位相ノイズ

Amplitude and phase noise in Two-membrane cavity optomechanics ( http://arxiv.org/abs/2305.11594v2 )

ライセンス: Link先を確認
Francesco Marzioni, Francesco Rasponi, Paolo Piergentili, Riccardo Natali, Giovanni Di Giuseppe, David Vitali(参考訳) キャビティ光学は、マクロオブジェクトに対する量子効果を探索し、量子技術応用を開発するのに最適な分野である。 レーザーノイズの完全な制御は、量子状態に到達するために必要な極端な条件下でシステムを操作するために必要である。 本稿では,2つのレーザー場によって駆動されるファブリ・パー・ヌートキャビティと,その内部に2つの部分反射性シン膜について考察する。 システムのダイナミクスのランジュバン方程式に2つの追加ノイズ項を導入することで,レーザーに対する振幅と位相雑音の影響について述べる。 実験的にレーザーに人工的なノイズ源を付加する。 ノイズの強度を校正し、システムに注入し、理論モデルの妥当性を確認する。 この手順は、光学装置におけるノイズレーザーの効果を正確に記述し、ノイズの量を定量化することができる。

Cavity optomechanics is a suitable field to explore quantum effects on macroscopic objects and develop quantum technology applications. A perfect control of the laser noise is required to operate the system in such extreme conditions necessary to reach the quantum regime. In this paper, we consider a Fabry-Per\'ot cavity, driven by two laser fields, with two partially reflective SiN membranes inside it. We describe the effects of amplitude and phase noise on the laser introducing two additional noise terms in the Langevin equations of the system's dynamics. Experimentally, we add an artificial source of noise on the laser. We calibrate the intensity of the noise, inject it into the system, and check the validity of the theoretical model. This procedure provides an accurate description of the effects of a noisy laser in the optomechanical setup and allows for quantifying the amount of noise.
翻訳日:2023-09-01 20:10:18 公開日:2023-08-31
# Rieszカーネルを用いたジェネレーションスライスMD流れ

Generative Sliced MMD Flows with Riesz Kernels ( http://arxiv.org/abs/2305.11463v2 )

ライセンス: Link先を確認
Johannes Hertrich, Christian Wald, Fabian Altekr\"uger, Paul Hagemann(参考訳) 最大平均誤差(MMD)フローは大規模計算において高い計算コストを被る。 本稿では, Riesz カーネルによる MMD のフローが $K(x,y) = - \Vert x-y\Vert^r$, $r \in (0,2)$ であることを示す。 RieszカーネルのMDDはスライスされたバージョンのMDと一致することを証明した。 その結果、MDDの勾配の計算は1次元の設定で行うことができる。 ここでは、$r=1$の場合、単純なソートアルゴリズムを用いて複雑さを$O(MN+N^2)$から$O((M+N)\log(M+N))$に減らすことができる。 別の興味深い追従の結果として、コンパクトに支持された測度のMDDは、ワッサーシュタイン-1距離によって上下から推定できる。 実装のために、スライスした mmd の勾配を有限個のスライス数 $p$ だけを用いて近似する。 結果の誤差は複雑さ$O(\sqrt{d/P})$であり、$d$はデータ次元である。 これらの結果から,画像応用においてもニューラルネットワークによるmmd勾配流を近似して生成モデルの訓練が可能となった。 MNIST, FashionMNIST, CIFAR10の画像生成によるモデルの有効性を示す。

Maximum mean discrepancy (MMD) flows suffer from high computational costs in large scale computations. In this paper, we show that MMD flows with Riesz kernels $K(x,y) = - \Vert x-y\Vert^r$, $r \in (0,2)$ have exceptional properties which allow their efficient computation. We prove that the MMD of Riesz kernels coincides with the MMD of their sliced version. As a consequence, the computation of gradients of MMDs can be performed in the one-dimensional setting. Here, for $r=1$, a simple sorting algorithm can be applied to reduce the complexity from $O(MN+N^2)$ to $O((M+N)\log(M+N))$ for two measures with $M$ and $N$ support points. As another interesting follow-up result, the MMD of compactly supported measures can be estimated from above and below by the Wasserstein-1 distance. For the implementations we approximate the gradient of the sliced MMD by using only a finite number $P$ of slices. We show that the resulting error has complexity $O(\sqrt{d/P})$, where $d$ is the data dimension. These results enable us to train generative models by approximating MMD gradient flows by neural networks even for image applications. We demonstrate the efficiency of our model by image generation on MNIST, FashionMNIST and CIFAR10.
翻訳日:2023-09-01 20:10:05 公開日:2023-08-31
# pTSE:確率的時系列予測のためのマルチモデルアンサンブル手法

pTSE: A Multi-model Ensemble Method for Probabilistic Time Series Forecasting ( http://arxiv.org/abs/2305.11304v2 )

ライセンス: Link先を確認
Yunyi Zhou, Zhixuan Chu, Yijia Ruan, Ge Jin, Yuchen Huang, Sheng Li(参考訳) 様々な確率的時系列予測モデルが生まれ、非常に優れた性能を示した。 しかし,モデルの選択は入力時系列の特性とモデルがベースとする固定分布に大きく依存する。 確率分布が異なるモデルに対して直接的に平均化できないため、現在の時系列モデルアンサンブル法は予測の堅牢性と精度を向上させるために直接適用できない。 この問題に対処するために,隠れマルコフモデル(HMM)に基づく確率予測のためのマルチモデル分布アンサンブル法であるpTSEを提案する。 pTSEは、各モデルに関する追加情報を必要とせずに、メンバーモデルからのオフザシェルフ出力のみを取る。 さらに,HMM を対象とする時系列の経験的分布が定常分布にほぼ確実に収束することを示すため,pTSE の完全な理論的解析を行う。 ベンチマーク実験は、pTSE全体構成モデルと競合アンサンブル手法の優位性を示している。

Various probabilistic time series forecasting models have sprung up and shown remarkably good performance. However, the choice of model highly relies on the characteristics of the input time series and the fixed distribution that the model is based on. Due to the fact that the probability distributions cannot be averaged over different models straightforwardly, the current time series model ensemble methods cannot be directly applied to improve the robustness and accuracy of forecasting. To address this issue, we propose pTSE, a multi-model distribution ensemble method for probabilistic forecasting based on Hidden Markov Model (HMM). pTSE only takes off-the-shelf outputs from member models without requiring further information about each model. Besides, we provide a complete theoretical analysis of pTSE to prove that the empirical distribution of time series subject to an HMM will converge to the stationary distribution almost surely. Experiments on benchmarks show the superiority of pTSE overall member models and competitive ensemble methods.
翻訳日:2023-09-01 20:09:43 公開日:2023-08-31
# MaxViT-UNet:医療画像セグメンテーションのためのマルチ軸注意

MaxViT-UNet: Multi-Axis Attention for Medical Image Segmentation ( http://arxiv.org/abs/2305.08396v4 )

ライセンス: Link先を確認
Abdul Rehman Khan, Asifullah Khan(参考訳) 本稿では,医療用画像分割用エンコーダデコーダ型ハイブリッドビジョントランスフォーマ(cnn-transformer)maxvit-unetを提案する。 maxvit-blockに基づくハイブリッドデコーダは,各デコーダ段の畳み込み機構と自己アテンション機構の両方のパワーを,名目記憶と計算負荷で活用するように設計されている。 復号器の各段階における多軸自己アテンションの導入は、対象領域と背景領域の識別能力を大幅に向上させ、セグメンテーション効率の向上に寄与する。 ハイブリッドデコーダブロックでは、変換畳み込みにより得られるアップサンプリングされた低レベルデコーダ特徴とハイブリッドエンコーダから導出されるスキップ接続特徴とを統合して融合プロセスを開始する。 その後、多軸アテンション機構の利用により、融合した特徴が洗練される。 提案したデコーダブロックは数回繰り返して核領域を段階的に分割する。 MoNuSeg18とMoNuSAC20データセットの実験結果から,提案手法の有効性が示された。 我々のMaxViT-UNetは、従来のCNNベース(UNet)とTransformerベース(Swin-UNet)の技術を、両方の標準データセットに対してかなりの差で上回りました。 以下のgithub (https://github.com/PRLAB21/MaxViT-UNet) には実装と訓練された重みが含まれている。

In this work, we present MaxViT-UNet, an Encoder-Decoder based hybrid vision transformer (CNN-Transformer) for medical image segmentation. The proposed Hybrid Decoder, based on MaxViT-block, is designed to harness the power of both the convolution and self-attention mechanisms at each decoding stage with a nominal memory and computational burden. The inclusion of multi-axis self-attention, within each decoder stage, significantly enhances the discriminating capacity between the object and background regions, thereby helping in improving the segmentation efficiency. In the Hybrid Decoder block, the fusion process commences by integrating the upsampled lower-level decoder features, obtained through transpose convolution, with the skip-connection features derived from the hybrid encoder. Subsequently, the fused features undergo refinement through the utilization of a multi-axis attention mechanism. The proposed decoder block is repeated multiple times to progressively segment the nuclei regions. Experimental results on MoNuSeg18 and MoNuSAC20 dataset demonstrates the effectiveness of the proposed technique. Our MaxViT-UNet outperformed the previous CNN-based (UNet) and Transformer-based (Swin-UNet) techniques by a considerable margin on both of the standard datasets. The following github (https://github.com/PRLAB21/MaxViT-UNet) contains the implementation and trained weights.
翻訳日:2023-09-01 20:09:09 公開日:2023-08-31
# Few-Shot Semantic Segmentationのための4次相関学習

Quaternion-valued Correlation Learning for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2305.07283v3 )

ライセンス: Link先を確認
Zewen Zheng, Guoheng Huang, Xiaochen Yuan, Chi-Man Pun, Hongrui Liu, and Wing-Kuen Ling(参考訳) Few-shot segmentation (FSS) は、いくつかの注釈付きサンプルのみを与えられた未確認クラスをセグメントすることを目的としている。 ベースクラスから学んだセマンティックな特徴を、新しいクラスを表現するのに十分なトレーニングサンプルで活用することで、FSSの進歩を加速させた。 相関に基づく手法は、実数値化された2次元畳み込みの性質から、2つの部分空間マッチングスコアの相互作用を考慮できない。 本稿では,相関学習に関する四元数視点を提案し,高次元相関テンソルの計算負担を軽減し,確立された四元数代数によって定義された演算を活用して,クエリとサポート画像間の内部潜在相互作用を探索することを目的とした,新しい四元数値相関学習ネットワーク(qclnet)を提案する。 具体的には、qclnetは超複素値ネットワークとして定式化され、四元数領域における相関テンソルを表し、四元数値畳み込みを用いて四元数空間における支援部分次元の隠れた関係を考える際にクエリ部分空間の外部関係を探索する。 PASCAL-5i と COCO-20i データセットの大規模な実験により,本手法が既存の最先端手法を効果的に上回ることを示す。 本誌のコードはhttps://github.com/zwzheng98/QCLNetで入手でき、本誌の記事“Quaternion-valued correlation Learning for Few-Shot Semantic Segmentation”はIEEE Transactions on Circuits and Systems for Video Technology, vol.で公開された。 33,no.5,pp.2102-2115,may 2023,doi: 10.1109/tcsvt.2022.3223150

Few-shot segmentation (FSS) aims to segment unseen classes given only a few annotated samples. Encouraging progress has been made for FSS by leveraging semantic features learned from base classes with sufficient training samples to represent novel classes. The correlation-based methods lack the ability to consider interaction of the two subspace matching scores due to the inherent nature of the real-valued 2D convolutions. In this paper, we introduce a quaternion perspective on correlation learning and propose a novel Quaternion-valued Correlation Learning Network (QCLNet), with the aim to alleviate the computational burden of high-dimensional correlation tensor and explore internal latent interaction between query and support images by leveraging operations defined by the established quaternion algebra. Specifically, our QCLNet is formulated as a hyper-complex valued network and represents correlation tensors in the quaternion domain, which uses quaternion-valued convolution to explore the external relations of query subspace when considering the hidden relationship of the support sub-dimension in the quaternion space. Extensive experiments on the PASCAL-5i and COCO-20i datasets demonstrate that our method outperforms the existing state-of-the-art methods effectively. Our code is available at https://github.com/zwzheng98/QCLNet and our article "Quaternion-valued Correlation Learning for Few-Shot Semantic Segmentation" was published in IEEE Transactions on Circuits and Systems for Video Technology, vol. 33,no.5,pp.2102-2115,May 2023,doi: 10.1109/TCSVT.2022.3223150.
翻訳日:2023-09-01 20:08:46 公開日:2023-08-31
# 3Qubit Clifford+CS 演算子の発電機と関係

Generators and Relations for 3-Qubit Clifford+CS Operators ( http://arxiv.org/abs/2306.08530v2 )

ライセンス: Link先を確認
Xiaoning Bian (Dalhousie University), Peter Selinger (Dalhousie University)(参考訳) 生成子によるプレゼンテーションと3量子クリフォード+CS作用素群の関係について述べる。 証明は概ね2つの部分から構成される:(1) ライデマイスター=シュライアーの定理を我々の初期の結果に再帰的に適用すること、(2) 何千もの関係を17の関係に単純化すること。 1)と(2)は、証明アシスタントAgdaで正式に認証されている。 reidemeister-schreier の定理は、スーパーモノイドの表現が与えられた部分モノイドの表現を計算するための構成的方法を与える。 (2) を達成するために、clifford+cs演算子のほぼ正規形式を考案する。 その過程で、クリフォード+CS群内のいくつかの興味深い構造も同定する。 具体的には、元が一意な正規形式を与えることのできる3つの異なる有限部分群を特定する。 3量子クリフォード+cs群は、もちろん無限であり、これら3つの有限部分群の合併積である。 この結果は、 1-立方体 Clifford+T 群が2つの有限部分群の積であるという事実に類似している。

We give a presentation by generators and relations of the group of 3-qubit Clifford+CS operators. The proof roughly consists of two parts: (1) applying the Reidemeister-Schreier theorem recursively to an earlier result of ours; and (2) the simplification of thousands of relations into 17 relations. Both (1) and (2) have been formally verified in the proof assistant Agda. The Reidemeister-Schreier theorem gives a constructive method for computing a presentation of a sub-monoid given a presentation of the super-monoid. To achieve (2), we devise an almost-normal form for Clifford+CS operators. Along the way, we also identify several interesting structures within the Clifford+CS group. Specifically, we identify three different finite subgroups for whose elements we can give unique normal forms. We show that the 3-qubit Clifford+CS group, which is of course infinite, is the amalgamated product of these three finite subgroups. This result is analogous to the fact that the 1-qubit Clifford+T group is an amalgamated product of two finite subgroups.
翻訳日:2023-09-01 20:01:04 公開日:2023-08-31
# 非線形パーソナライズド予測のためのニューラルミックス効果

Neural Mixed Effects for Nonlinear Personalized Predictions ( http://arxiv.org/abs/2306.08149v3 )

ライセンス: Link先を確認
Torsten W\"ortwein, Nicholas Allen, Lisa B. Sheeber, Randy P. Auerbach, Jeffrey F. Cohn, Louis-Philippe Morency(参考訳) パーソナライズド予測(パーソナライズドプロファイリング)は、過去のラベル付き観測に基づいて人の将来の観察を予測する機械学習アプローチであり、例えば、日々の気分評価を予測するために、シーケンシャルなタスクに一般的に使用される。 パーソナライズされた予測を行う場合、モデルは2種類のトレンドを組み合わせることができる。 (a)週末に幸福になるなど、人為的な傾向など、人間で共有される傾向 (b)各個人、すなわちストレスの多い週次会議などの個人固有の傾向に対する独自の傾向。 混合効果モデル(mixed effect model)は、人為的パラメータと人固有のパラメータを組み合わせることにより、両方の傾向を研究する一般的な統計モデルである。 ニューラルネットワークと統合することで、線形混合効果モデルが機械学習で人気を集めているが、これらの統合は現在、非線形な個人固有のトレンドを除外する線形個人固有のパラメータに限られている。 本論文では,ニューラルネットワークの任意の場所において,非線形な個人固有のパラメータをスケーラブルに最適化するニューラル・ミックスド・エフェクト(NME)モデルを提案する。 NMEはニューラルネットワーク最適化の効率と非線形混合効果モデリングを組み合わせた。 経験的に、NMEは、毎日の気分を予測するスマートフォンデータセットや、母親と思春期のデータセットを含む6つの単一・マルチモーダルデータセットのパフォーマンスを改善し、母親の半分が抑うつ症状を少なくとも中等度に経験する情緒的状態シーケンスを予測する。 さらに、ニューラル条件ランダムフィールド(CRF)を含む2つのモデルアーキテクチャのNMEを評価し、CRFが感情状態間の非線形な個人固有の時間遷移を学習する情動状態列を予測する。 母親の抑うつ症状に関連する解釈可能な傾向を示す母親・思春期データセット上のこれらの人固有の推移の分析。

Personalized prediction is a machine learning approach that predicts a person's future observations based on their past labeled observations and is typically used for sequential tasks, e.g., to predict daily mood ratings. When making personalized predictions, a model can combine two types of trends: (a) trends shared across people, i.e., person-generic trends, such as being happier on weekends, and (b) unique trends for each person, i.e., person-specific trends, such as a stressful weekly meeting. Mixed effect models are popular statistical models to study both trends by combining person-generic and person-specific parameters. Though linear mixed effect models are gaining popularity in machine learning by integrating them with neural networks, these integrations are currently limited to linear person-specific parameters: ruling out nonlinear person-specific trends. In this paper, we propose Neural Mixed Effect (NME) models to optimize nonlinear person-specific parameters anywhere in a neural network in a scalable manner. NME combines the efficiency of neural network optimization with nonlinear mixed effects modeling. Empirically, we observe that NME improves performance across six unimodal and multimodal datasets, including a smartphone dataset to predict daily mood and a mother-adolescent dataset to predict affective state sequences where half the mothers experience at least moderate symptoms of depression. Furthermore, we evaluate NME for two model architectures, including for neural conditional random fields (CRF) to predict affective state sequences where the CRF learns nonlinear person-specific temporal transitions between affective states. Analysis of these person-specific transitions on the mother-adolescent dataset shows interpretable trends related to the mother's depression symptoms.
翻訳日:2023-09-01 20:00:47 公開日:2023-08-31
# 説明としての決定木の有効性の向上

Improving the Validity of Decision Trees as Explanations ( http://arxiv.org/abs/2306.06777v3 )

ライセンス: Link先を確認
Jiri Nemecek and Tomas Pevny and Jakub Marecek(参考訳) 表データによる分類と予測では、しばしば木に基づくモデルを用いる。 これらは、グラフデータ(cf. Grinsztajn et al., NeurIPS 2022, arXiv:2207.08815]上のディープニューラルネットワークと競合し、いくつかの条件下では説明可能である。 説明性は木の深さと木の葉の精度に依存する。 不均衡な精度の葉を含む決定木は、誤解を招く説明を与えることができる。 低精度の葉は妥当な説明をしておらず、説明の間で不公平と解釈できる。 ここでは,葉ノード毎の最大誤分類誤差を最小化するために,浅い木を訓練する。 次に、各葉を別の木ベースモデルで拡張する。 浅い木はグローバルな説明を提供する一方、葉が伸びた浅い木の全体的な統計性能は、古典的な方法(例えばCART)で訓練された無限の深さの決定木で改善され、最先端の手法(例えば、よく訓練されたXGBoost)に匹敵する。

In classification and forecasting with tabular data, one often utilizes tree-based models. Those can be competitive with deep neural networks on tabular data [cf. Grinsztajn et al., NeurIPS 2022, arXiv:2207.08815] and, under some conditions, explainable. The explainability depends on the depth of the tree and the accuracy in each leaf of the tree. Decision trees containing leaves with unbalanced accuracy can provide misleading explanations. Low-accuracy leaves give less valid explanations, which could be interpreted as unfairness among explanations. Here, we train a shallow tree with the objective of minimizing the maximum misclassification error across each leaf node. Then, we extend each leaf with a separate tree-based model. The shallow tree provides a global explanation, while the overall statistical performance of the shallow tree with extended leaves improves upon decision trees of unlimited depth trained using classical methods (e.g., CART) and is comparable to state-of-the-art methods (e.g., well-tuned XGBoost).
翻訳日:2023-09-01 20:00:15 公開日:2023-08-31
# 事前訓練言語モデルによる非自己回帰翻訳品質の向上, 蒸留とCTCのアップサンプリング戦略

Improving Non-autoregressive Translation Quality with Pretrained Language Model, Embedding Distillation and Upsampling Strategy for CTC ( http://arxiv.org/abs/2306.06345v2 )

ライセンス: Link先を確認
Shen-sian Syu, Juncheng Xie, Hung-yi Lee(参考訳) 非自己回帰的アプローチは、翻訳モデルの推論速度、特に1パスフォワードで出力を生成するものを改善することを目的としている。 しかし、これらのアプローチは、しばしば自己回帰モデルと比較して翻訳品質が大幅に低下する。 本稿では,非自己回帰翻訳(NAT)モデルの翻訳品質を向上させるために,推論速度の大幅な高速化を維持しつつ,一連の革新的な技術を紹介する。 我々は,NATモデルを効果的に訓練するために,CTCの損失を抑えたPMLM(Pretrained Multilingual Language Models)を提案する。 さらに,トークン複製の代わりにMASK挿入方式を採用し,さらなる性能向上を目的とした埋込み蒸留法を提案する。 我々の実験では、WMT'14 DE$\leftrightarrow$EN、WMT'16 RO$\leftrightarrow$EN、IWSLT'14 DE$\leftrightarrow$ENなど、複数のデータセット上でのベースライン自己回帰モデル(Transformer \textit{base})よりも優れています。 特に、トレーニング中に蒸留データを使用しなくても、IWSLT'14 En$\leftrightarrow$DeおよびWMT'16 En$\leftrightarrow$Roデータセットのベースライン自己回帰モデルよりも優れたパフォーマンスを実現する。 iwslt'14 de$\rightarrow$enデータセットでは、このモデルは39.59という印象的なbleuスコアを達成し、新たな最先端のパフォーマンスを実現しています。 さらに,本モデルは自己回帰モデルと比較して16.35倍の速度向上を示した。

Non-autoregressive approaches aim to improve the inference speed of translation models, particularly those that generate output in a one-pass forward manner. However, these approaches often suffer from a significant drop in translation quality compared to autoregressive models. This paper introduces a series of innovative techniques to enhance the translation quality of Non-Autoregressive Translation (NAT) models while maintaining a substantial acceleration in inference speed. We propose fine-tuning Pretrained Multilingual Language Models (PMLMs) with the CTC loss to train NAT models effectively. Furthermore, we adopt the MASK insertion scheme for up-sampling instead of token duplication, and we present an embedding distillation method to further enhance performance. In our experiments, our model outperforms the baseline autoregressive model (Transformer \textit{base}) on multiple datasets, including WMT'14 DE$\leftrightarrow$EN, WMT'16 RO$\leftrightarrow$EN, and IWSLT'14 DE$\leftrightarrow$EN. Notably, our model achieves better performance than the baseline autoregressive model on the IWSLT'14 En$\leftrightarrow$De and WMT'16 En$\leftrightarrow$Ro datasets, even without using distillation data during training. It is worth highlighting that on the IWSLT'14 DE$\rightarrow$EN dataset, our model achieves an impressive BLEU score of 39.59, setting a new state-of-the-art performance. Additionally, our model exhibits a remarkable speed improvement of 16.35 times compared to the autoregressive model.
翻訳日:2023-09-01 19:59:52 公開日:2023-08-31
# 強化学習における一般化のための多種多様なリプレイの役割

The Role of Diverse Replay for Generalisation in Reinforcement Learning ( http://arxiv.org/abs/2306.05727v2 )

ライセンス: Link先を確認
Max Weltevrede, Matthijs T.J. Spaan, Wendelin B\"ohmer(参考訳) 強化学習(RL)において、多くのアルゴリズムの重要な要素は探索戦略と再生バッファである。 これらの戦略は、収集および訓練された環境データを規制し、RL文献で広く研究されている。 本稿では,マルチタスクRLにおける一般化の文脈におけるこれらの成分の影響について検討する。 我々は,学習環境からより多様なデータを収集し,訓練することで,ゼロショットの一般化が向上し,新たなタスクが実現するという仮説を考察する。 我々は,リプレイバッファにおける遷移の多様性を増すことにより,トレーニング中に「到達可能」なタスクへの一般化が向上することを示す。さらに,この戦略が,学習された潜在表現の一般化に起因した,類似するが「到達不能」なタスクへの一般化も改善することを示す。

In reinforcement learning (RL), key components of many algorithms are the exploration strategy and replay buffer. These strategies regulate what environment data is collected and trained on and have been extensively studied in the RL literature. In this paper, we investigate the impact of these components in the context of generalisation in multi-task RL. We investigate the hypothesis that collecting and training on more diverse data from the training environments will improve zero-shot generalisation to new tasks. We motivate mathematically and show empirically that generalisation to tasks that are "reachable'' during training is improved by increasing the diversity of transitions in the replay buffer. Furthermore, we show empirically that this same strategy also shows improvement for generalisation to similar but "unreachable'' tasks which could be due to improved generalisation of the learned latent representations.
翻訳日:2023-09-01 19:59:22 公開日:2023-08-31
# qupit stabiliser zx-travaganza:単純公理、正規形、グラフ理論的単純化

The Qupit Stabiliser ZX-travaganza: Simplified Axioms, Normal Forms and Graph-Theoretic Simplification ( http://arxiv.org/abs/2306.05204v2 )

ライセンス: Link先を確認
Boldizs\'ar Po\'or, Robert I. Booth, Titouan Carette, John van de Wetering, Lia Yeh(参考訳) 奇素次元立方体(すなわち、qupits)に対する安定化器 ZX-計算に多くの結果を示す。 我々は、qubit zx-calculus の元の規則によく似た簡素な規則集合を導出する。 これらのルールを用いて,スパイダー除去した局所補間とピボット規則の類似性を示す。 これにより、位相正規形式を持つアフィンへのダイアグラムの効率的な還元が可能となる。 我々はまた、一意な形式への還元を示し、完全性の代替的でより単純な証明を提供する。 さらに,局所クリフォード正規形とグラフ状態の異なる還元を導入することにより,qupit cliffordユニタリの新たな階層分解を実現する。 さらに,スカラーを形式的に扱うための新しい手法を提案する。 最後に、これらの発見をqudit ZX-diagrammatic reasoningのためのオープンソースのPythonライブラリであるDiZXに実装した。

We present a smorgasbord of results on the stabiliser ZX-calculus for odd prime-dimensional qudits (i.e. qupits). We derive a simplified rule set that closely resembles the original rules of qubit ZX-calculus. Using these rules, we demonstrate analogues of the spider-removing local complementation and pivoting rules. This allows for efficient reduction of diagrams to the affine with phases normal form. We also demonstrate a reduction to a unique form, providing an alternative and simpler proof of completeness. Furthermore, we introduce a different reduction to the graph state with local Cliffords normal form, which leads to a novel layered decomposition for qupit Clifford unitaries. Additionally, we propose a new approach to handle scalars formally, closely reflecting their practical usage. Finally, we have implemented many of these findings in DiZX, a new open-source Python library for qudit ZX-diagrammatic reasoning.
翻訳日:2023-09-01 19:59:08 公開日:2023-08-31
# また別のicuベンチマーク:臨床mlのための柔軟なマルチセンターフレームワーク

Yet Another ICU Benchmark: A Flexible Multi-Center Framework for Clinical ML ( http://arxiv.org/abs/2306.05109v2 )

ライセンス: Link先を確認
Robin van de Water, Hendrik Schmidt, Paul Elbers, Patrick Thoral, Bert Arnrich, Patrick Rockenschaub(参考訳) 近年,機械学習(ML)の医療応用が急増している。 集中治療ユニット(ICU)は、電子健康記録から利用可能なデータが豊富にあることを考えると、MLの自然な生息地である。 合併症の早期検出など、多数のICU予測タスクに対処するモデルが提案されている。 著者は、しばしば最先端のパフォーマンスを報告するが、優越性の主張を検証することは困難である。 データセットとコードは必ずしも公開されておらず、コホート定義、前処理パイプライン、トレーニングセットアップは再現が難しい。 本研究は,再現可能かつ同等な臨床ML実験を研究者が定義可能なモジュラーフレームワークであるEtther Another ICU Benchmark (YAIB)を紹介し,コホート定義からモデル評価まで,エンドツーエンドのソリューションを提供する。 このフレームワークは、ほとんどのオープンアクセスICUデータセット(MIMIC III/IV、eICU、HiRID、AUMCdb)をネイティブにサポートしており、将来のICUデータセットに容易に適応できる。 複数のMLとディープラーニングモデルの透過的な前処理パイプラインと拡張可能なトレーニングコードを組み合わせることで、YAIBは統一されたモデル開発を可能にする。 このベンチマークは臨床医と共同で開発した5つの既定予測タスク(致死性,急性腎障害,敗血症,腎機能,滞在期間)が組み合わされている。 さらなるタスクの追加は設計によって簡単です。 yaibを用いて、データセット、コホート定義、前処理の選択が予測性能(モデルクラスよりも多く)に大きな影響を与えていることが、総合的なベンチマークツールとしてyaibが緊急に必要であることを示している。 本研究は,手法開発を加速し,実際の臨床実践を可能にするための臨床MLコミュニティへの取り組みである。 ソフトウェアリポジトリ: https://github.com/rvandewater/yaib。

Medical applications of machine learning (ML) have experienced a surge in popularity in recent years. The intensive care unit (ICU) is a natural habitat for ML given the abundance of available data from electronic health records. Models have been proposed to address numerous ICU prediction tasks like the early detection of complications. While authors frequently report state-of-the-art performance, it is challenging to verify claims of superiority. Datasets and code are not always published, and cohort definitions, preprocessing pipelines, and training setups are difficult to reproduce. This work introduces Yet Another ICU Benchmark (YAIB), a modular framework that allows researchers to define reproducible and comparable clinical ML experiments; we offer an end-to-end solution from cohort definition to model evaluation. The framework natively supports most open-access ICU datasets (MIMIC III/IV, eICU, HiRID, AUMCdb) and is easily adaptable to future ICU datasets. Combined with a transparent preprocessing pipeline and extensible training code for multiple ML and deep learning models, YAIB enables unified model development. Our benchmark comes with five predefined established prediction tasks (mortality, acute kidney injury, sepsis, kidney function, and length of stay) developed in collaboration with clinicians. Adding further tasks is straightforward by design. Using YAIB, we demonstrate that the choice of dataset, cohort definition, and preprocessing have a major impact on the prediction performance - often more so than model class - indicating an urgent need for YAIB as a holistic benchmarking tool. We provide our work to the clinical ML community to accelerate method development and enable real-world clinical implementations. Software Repository: https://github.com/rvandewater/YAIB.
翻訳日:2023-09-01 19:58:50 公開日:2023-08-31
# エージェントとllmのインテリジェントなインタラクションの実現:強化学習アプローチ

Enabling Intelligent Interactions between an Agent and an LLM: A Reinforcement Learning Approach ( http://arxiv.org/abs/2306.03604v4 )

ライセンス: Link先を確認
Bin Hu, Chenyang Zhao, Pu Zhang, Zihao Zhou, Yuanhang Yang, Zenglin Xu, Bin Liu(参考訳) 大規模言語モデル(llms)は、膨大なテキストデータセットから得られる膨大な量の知識を符号化する。 近年の研究では、LLMは高レベルの指示を提供することで複雑なシーケンシャルな意思決定タスクを解決するために、エンボディエージェントを補助できることが示されている。 しかし、LLMとの相互作用には時間がかかる。 多くの実用的なシナリオでは、リモートのクラウドサーバノードにのみデプロイ可能な、かなりの量のストレージスペースが必要です。 加えて、商用のLCMは使用頻度に応じて課金できるため、コストがかかる。 本稿では,エージェントとLLMのインテリジェントなコスト効率な相互作用を実現する方法について検討する。 本研究では,高レベルの命令をLLMに問い合わせて目的のタスクを遂行するために必要な,強化学習に基づくアプローチである When2Ask を提案する。 計画サブゴールを含むMiniGrid環境とHabitat環境の実験では、When2AskはLLMとほんの少しだけ必要なインタラクションでターゲットタスクを解くことを学習し、ベースライン手法と比較してテスト環境におけるインタラクションコストを大幅に削減する。 また, LLMと相互作用するメディエータモデルを学習することにより, エージェントの性能が環境の部分的可観測性に対してより堅牢になることが示唆された。 私たちのコードはhttps://github.com/ZJLAB-AMMI/LLM4RLで利用可能です。

Large language models (LLMs) encode a vast amount of world knowledge acquired from massive text datasets. Recent studies have demonstrated that LLMs can assist an embodied agent in solving complex sequential decision making tasks by providing high-level instructions. However, interactions with LLMs can be time-consuming. In many practical scenarios, they require a significant amount of storage space that can only be deployed on remote cloud server nodes. Additionally, using commercial LLMs can be costly since they may charge based on usage frequency. In this paper, we explore how to enable intelligent cost-effective interactions between the agent and an LLM. We propose When2Ask, a reinforcement learning based approach that learns when it is necessary to query LLMs for high-level instructions to accomplish a target task. Experiments on MiniGrid and Habitat environments that entail planning sub-goals demonstrate that When2Ask learns to solve target tasks with only a few necessary interactions with an LLM, and significantly reduces interaction costs in testing environments compared with baseline methods. Experiment results also suggest that by learning a mediator model to interact with the LLM, the agent's performance becomes more robust against partial observability of the environment. Our code is available at https://github.com/ZJLAB-AMMI/LLM4RL.
翻訳日:2023-09-01 19:58:20 公開日:2023-08-31
# ZXW計算における光物質相互作用

Light-Matter Interaction in the ZXW Calculus ( http://arxiv.org/abs/2306.02114v2 )

ライセンス: Link先を確認
Giovanni de Felice, Razin A. Shaikh, Boldizs\'ar Po\'or, Lia Yeh, Quanlong Wang, Bob Coecke(参考訳) 本稿では,光-物質相互作用と非線形光学効果を含むフォトニック回路を書き換えるグラフ計算法を開発した。 ボソニックフォック空間上の線形演算子のためのグラフィカル言語である無限ZW計算を導入し、線形および非線形フォトニック回路の両方をキャプチャする。 この計算は、線形光学のためのダイアグラム言語qpath calculusと、最近開発されたqudit zxw calculus、qudit間の線型写像の完全な公理化を組み合わせたものである。 この定理は、zxw計算で書き換えることで無限作用素間の等式を証明できる「リフト」定理を伴っている。 無限ZW計算におけるボゾンおよびフェルミオンハミルトニアンを表現する方法を提案する。 これにより、図式的推論によって指数関数を導出できる。 例えば、位相シフトやビームスプリッター、非線形カー媒体、ジェインズ・カミングス光物質相互作用などがある。

In this paper, we develop a graphical calculus to rewrite photonic circuits involving light-matter interactions and non-linear optical effects. We introduce the infinite ZW calculus, a graphical language for linear operators on the bosonic Fock space which captures both linear and non-linear photonic circuits. This calculus is obtained by combining the QPath calculus, a diagrammatic language for linear optics, and the recently developed qudit ZXW calculus, a complete axiomatisation of linear maps between qudits. It comes with a 'lifting' theorem allowing to prove equalities between infinite operators by rewriting in the ZXW calculus. We give a method for representing bosonic and fermionic Hamiltonians in the infinite ZW calculus. This allows us to derive their exponentials by diagrammatic reasoning. Examples include phase shifts and beam splitters, as well as non-linear Kerr media and Jaynes-Cummings light-matter interaction.
翻訳日:2023-09-01 19:57:58 公開日:2023-08-31
# 翻訳不変行列積状態と$W$状態のMPS表現の進歩について

On Translation-Invariant Matrix Product States and advances in MPS representations of the $W$-state ( http://arxiv.org/abs/2306.16456v2 )

ライセンス: Link先を確認
Petr Klimov, Richik Sengupta and Jacob Biamonte(参考訳) この研究は、周期境界条件 (PBC) を持つ量子状態の変換-不変 (TI) 行列積状態 (MPS) 表現の研究に費やされている。 我々は,ある種のTI状態のTI MPS表現を構築するための新しい手法を導入し,それらの結合次元の観点からそれらの最適性を研究する。 特に$n$-party $W$-state に注目し、結合次元の TI MPS 表現を$\left \lfloor \dfrac{n}{2} \right \rfloor +1$ で構成する。 このクラスの性質をさらに研究し、このクラスの状態の TI MPS 表現に対して、常に$n$ の結合次元を達成できることを示す。 PBC を用いて TI MPS 表現の最適性を研究する枠組みにおいて、与えられた状態に対する最適結合次元 $d(\psi)$ について研究する。 特に、任意状態に対して$d(\psi)$を探索するための決定論的アルゴリズムを導入する。 数値的手法を用いて、$n$-party $W$-state for small $n$に対する以前の構成の最適性を検証する。

This work is devoted to the study Translation-Invariant (TI) Matrix Product State (MPS) representations of quantum states with periodic boundary conditions (PBC). We pursue two directions: we introduce new methods for constructing TI MPS representations of a certain class of TI states and study their optimality in terms of their bond dimension. We pay particular attention to the $n$-party $W$-state and construct a TI MPS representation of bond dimension $\left \lfloor \dfrac{n}{2} \right \rfloor +1$ for it. We further study properties of this class and show that we can can always achieve a bond dimension of $n$ for TI MPS representation of states in this class. In the framework of studying optimality of TI MPS representations with PBC, we study the optimal bond dimension $d(\psi)$ for a given state $\psi$. In particular we introduce a deterministic algorithm for the search of $d(\psi)$ for an arbitary state. Using numerical methods, we verify the optimality of our previous construction for the $n$-party $W$-state for small $n$.
翻訳日:2023-09-01 19:51:52 公開日:2023-08-31
# 不平衡振幅をもつ和オーバーパスの完全等式理論

Complete Equational Theories for the Sum-Over-Paths with Unbalanced Amplitudes ( http://arxiv.org/abs/2306.16369v2 )

ライセンス: Link先を確認
Matthew Amy(参考訳) ヴィルマートは最近、トフォリ・アダマール回路と拡張クリフォード+Rz(2pi/2^k)回路によるバランスの取れた和-オーバーパスの完全な方程式理論を与えた。 それらの理論は、位相自由なZH-計算に基づいており、完全なZH-計算の平均的な規則を著しく省略し、振幅の局所的な和を許容しない。 ここでは局所和を自然に支持する不均衡経路和における完全性の問題を考察する。 非平衡和オーバーパスの具体的構文を示し、記号的多線型代数と干渉規則とともに、zh-係数の平均および正則の様々な定式化が任意の環と体上の完全な方程式論を与えるのに十分であることを示す。

Vilmart recently gave a complete equational theory for the balanced sum-over-paths over Toffoli-Hadamard circuits, and by extension Clifford+Rz(2pi/2^k) circuits. Their theory is based on the phase-free ZH-calculus which crucially omits the average rule of the full ZH-calculus, dis-allowing the local summation of amplitudes. Here we study the question of completeness in unbalanced path sums which naturally support local summation. We give a concrete syntax for the unbalanced sum-over-paths and show that, together with symbolic multilinear algebra and the interference rule, various formulations of the average and ortho rules of the ZH-calculus are sufficient to give complete equational theories over arbitrary rings and fields.
翻訳日:2023-09-01 19:51:34 公開日:2023-08-31
# C-PMI: ターンレベル対話評価のための条件点相互情報

C-PMI: Conditional Pointwise Mutual Information for Turn-level Dialogue Evaluation ( http://arxiv.org/abs/2306.15245v2 )

ライセンス: Link先を確認
Liliang Ren, Mankeerat Sidhu, Qi Zeng, Revanth Gangi Reddy, Heng Ji, ChengXiang Zhai(参考訳) 既存のチャットボットの参照フリーターンレベル評価メトリクスは、ユーザとシステム間のインタラクションを不十分に捉えている。 そのため、人間の評価と相関が低いことが多い。 本稿では,条件付きポイントワイズ相互情報(c-pmi)を利用して,与えられた評価次元に基づいて,システムとユーザとのターンレベル相互作用を測定する新しいモデル非依存手法を提案する。 広範に用いられているFED対話評価データセットの実験結果から,既存の評価システムと比較して,人間の判断との相関性を大幅に向上することが示された。 提案したC-PMIスコアラに負のログライクリフベースのスコアラを置き換えることで、FED評価基準の平均でスピアマン相関が60.5%高い値を得る。 私たちのコードはhttps://github.com/renll/C-PMIで公開されています。

Existing reference-free turn-level evaluation metrics for chatbots inadequately capture the interaction between the user and the system. Consequently, they often correlate poorly with human evaluations. To address this issue, we propose a novel model-agnostic approach that leverages Conditional Pointwise Mutual Information (C-PMI) to measure the turn-level interaction between the system and the user based on a given evaluation dimension. Experimental results on the widely used FED dialogue evaluation dataset demonstrate that our approach significantly improves the correlation with human judgment compared with existing evaluation systems. By replacing the negative log-likelihood-based scorer with our proposed C-PMI scorer, we achieve a relative 60.5% higher Spearman correlation on average for the FED evaluation metric. Our code is publicly available at https://github.com/renll/C-PMI.
翻訳日:2023-09-01 19:50:59 公開日:2023-08-31
# lranet:低ランク近似ネットワークを用いた高精度かつ効率的なシーンテキスト検出

LRANet: Towards Accurate and Efficient Scene Text Detection with Low-Rank Approximation Network ( http://arxiv.org/abs/2306.15142v2 )

ライセンス: Link先を確認
Yuchen Su, Zhineng Chen, Zhiwen Shao, Yuning Du, Zhilong Ji, Jinfeng Bai, Yong Zhou, Yu-Gang Jiang(参考訳) 近年,テキストローカライズのためのパラメータ化テキスト形状を予測する回帰法が,シーンテキスト検出において人気を博している。 しかし、既存のパラメータ化テキスト形状法は、テキスト固有の形状情報の利用を無視するため、任意の形状のテキストのモデリングに制限がある。 さらに、パイプライン全体の時間消費がほとんど見過ごされ、全体的な予測速度が最適を下回っている。 この問題に対処するために,まず,低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。 データ無関係なパラメータ化を用いる他の形状表現法とは異なり、本手法では特異値分解を用いてラベル付きテキスト輪郭から学習した数個の固有ベクトルを用いてテキスト形状を再構成する。 異なるテキスト輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。 次に,速度加速のための2重割当て方式を提案する。 推論速度を加速するためにスパース割り当てブランチを採用し、一方、密度の高い割り当てブランチを介してトレーニングするための十分な教師付き信号を提供する。 これらの設計に基づいて、LRANetと呼ばれる正確で効率的な任意の形状のテキスト検出器を実装した。 大規模な実験はいくつかの挑戦的なベンチマークで行われ、最先端の手法と比較してLRANetの精度と効率が優れていることを示した。 コードはまもなくリリースされる。

Recently, regression-based methods, which predict parameterized text shapes for text localization, have gained popularity in scene text detection. However, the existing parameterized text shape methods still have limitations in modeling arbitrary-shaped texts due to ignoring the utilization of text-specific shape information. Moreover, the time consumption of the entire pipeline has been largely overlooked, leading to a suboptimal overall inference speed. To address these issues, we first propose a novel parameterized text shape method based on low-rank approximation. Unlike other shape representation methods that employ data-irrelevant parameterization, our approach utilizes singular value decomposition and reconstructs the text shape using a few eigenvectors learned from labeled text contours. By exploring the shape correlation among different text contours, our method achieves consistency, compactness, simplicity, and robustness in shape representation. Next, we propose a dual assignment scheme for speed acceleration. It adopts a sparse assignment branch to accelerate the inference speed, and meanwhile, provides ample supervised signals for training through a dense assignment branch. Building upon these designs, we implement an accurate and efficient arbitrary-shaped text detector named LRANet. Extensive experiments are conducted on several challenging benchmarks, demonstrating the superior accuracy and efficiency of LRANet compared to state-of-the-art methods. Code will be released soon.
翻訳日:2023-09-01 19:50:43 公開日:2023-08-31
# 時間局所非リンドブラドマスター方程式の量子軌道

Quantum trajectories for time-local non-Lindblad master equations ( http://arxiv.org/abs/2306.14876v2 )

ライセンス: Link先を確認
Tobias Becker and Ch\'e Netzer and Andr\'e Eckardt(参考訳) 開量子系の効率的なシミュレーションには、基底となるマスター方程式の力学を解くために確率的に進化する純粋状態によって与えられる量子ジャンプ軌道を使うことが多い。 マルコフ系では、ダイナミクスがリンドブラッドマスター方程式によって記述されるとき、この手順はモンテカルロ波動関数(mcwf)アプローチとして知られている。 しかし、超弱系-バス結合を超えて、系の力学はリンドブラッド型の方程式ではなく、擬Lindblad形式に変換できるレッドフィールド方程式によって記述される。 ここで負の散逸強度は従来のアプローチを禁止する。 この問題を解決するために、擬似Lindblad quantum trajectory (PLQT) の解法を提案する。 他のアプローチと同様に、単一の古典的なビットを追加する以外は、状態空間の効果的な拡張を必要としない。 熱浴に結合した単一の量子ビットと相互作用するフェルミハバード鎖の永遠非マルコフマスター方程式に対するplqtをテストし、その計算労力を全マスター方程式の解と比較した。

For the efficient simulation of open quantum systems we often use quantum jump trajectories given by pure states that evolve stochastically to unravel the dynamics of the underlying master equation. In the Markovian regime, when the dynamics is described by a Lindblad master equation, this procedure is known as Monte Carlo wavefunction (MCWF) approach. However, beyond ultraweak system-bath coupling, the dynamics of the system is not described by an equation of Lindblad type, but rather by the Redfield equation, which can be brought into pseudo-Lindblad form. Here negative dissipation strengths prohibit the conventional approach. To overcome this problem, we propose a pseudo-Lindblad quantum trajectory (PLQT) unraveling. It does not require an effective extension of the state space, like other approaches, except for the addition of a single classical bit. We test the PLQT for the eternal non-Markovian master equation for a single qubit and an interacting Fermi Hubbard chain coupled to a thermal bath and discuss its computational effort compared to solving the full master equation.
翻訳日:2023-09-01 19:50:20 公開日:2023-08-31
# 開量子系における離散時間結晶相の創発と安定性

Emergence and stability of discrete time-crystalline phases in open quantum systems ( http://arxiv.org/abs/2306.14873v2 )

ライセンス: Link先を確認
Saptarshi Saha and Rangeet Bhattacharyya(参考訳) ここでは、オープン量子多体系における離散時間結晶相(DTC)を解析するための理論的枠組みを提供する。 特定の実現として、カスケード予熱を示す量子多体系を選択する。 解析にはゆらぎ制御量子マスター方程式を用いる。 マスター方程式は、熱揺らぎによって規則化されたダイナミクスに対する駆動と双極子カップリングの散逸効果をキャプチャする。 ドライブからの散逸体と双極子相互作用はダイナミクスに安定性を与え、ロバスト性に直接責任を負うことが判明した。 具体的には,より長いゆらぎ相関時間がdtcの安定性を高めることを見出した。 我々の結果は実験とよく一致している。 最後に,DTCの性能が温度とともに低下することを示す。

Here we provide a theoretical framework to analyze discrete time-crystalline phases (DTC) in open quantum many-body systems. As a particular realization, we choose a quantum many-body system that exhibits cascaded prethermalization . The analysis uses a fluctuation-regulated quantum master equation. The master equation captures the dissipative effects of the drive and dipolar coupling on the dynamics regularized by the thermal fluctuations. We find that the dissipators from the drive and the dipolar interactions lend stability to the dynamics and are directly responsible for the robustness. Specifically, we find that longer fluctuation correlation time enhances the stability of DTC. Our results are in good agreement with the experiments. Finally, we show and quantify how the DTC performance degrades with temperature.
翻訳日:2023-09-01 19:50:00 公開日:2023-08-31
# 絡み合い膜からのページ曲線

The Page curve from the entanglement membrane ( http://arxiv.org/abs/2306.13140v2 )

ライセンス: Link先を確認
Mike Blake and Anthony P. Thompson(参考訳) カオス多体量子系から構築されたブラックホール情報の玩具モデルにおけるエンタングルメントダイナミクスについて,'エンタングルメント膜'と呼ばれるシステムにおけるエンタングルメントダイナミクスの粗粒度記述を用いて検討した。 これらのモデルにおいて、ホーキング放射のエントロピーに関連するページ曲線は、半古典的重力下でページ曲線に繋がる量子極端曲面の変化と類似した方法で、ページ時間周りのエンタングルメント膜における遷移から生じる。 また,hayden-preskillプロトコルの研究には,エンタングルメント膜処方薬を用い,ブラックホールにエンコードされた情報がどのようにしてページタイム前後の放射線に急速に伝達されるかを実証した。 この結果は,近年のブラックホール情報とカオス多体量子系の絡み合い力学の一般的な特徴に関連している。

We study entanglement dynamics in toy models of black hole information built out of chaotic many-body quantum systems, by utilising a coarse-grained description of entanglement dynamics in such systems known as the `entanglement membrane'. We show that in these models the Page curve associated to the entropy of Hawking radiation arises from a transition in the entanglement membrane around the Page time, in an analogous manner to the change in quantum extremal surfaces that leads to the Page curve in semi-classical gravity. We also use the entanglement membrane prescription to study the Hayden-Preskill protocol, and demonstrate how information initially encoded in the black hole is rapidly transferred to the radiation around the Page time. Our results relate recent developments in black hole information to generic features of entanglement dynamics in chaotic many-body quantum systems.
翻訳日:2023-09-01 19:49:50 公開日:2023-08-31
# 衛星中継による量子メモリのないグローバル量子通信

Satellite Relayed Global Quantum Communication without Quantum Memory ( http://arxiv.org/abs/2306.12421v2 )

ライセンス: Link先を確認
Sumit Goswami, Sayandip Dhara(参考訳) 光子損失は量子通信の発展における根本的な問題である。 本稿では,光子損失を遠方でも軽減し,グローバルな量子通信アーキテクチャを構築することを提案する。 この提案では、光子は共動する低軌道衛星の連鎖を用いて、直接宇宙に送られる。 このサテライトチェーンは、光子を曲げて地球の曲率に沿って動き、回折による光子損失を制御し、光学テーブル上のレンズのように効果的に振る舞う。 これらの「衛星レンズ」による光子伝播の数値モデリングは、各衛星におけるビーム切断と異なる誤差の影響を考慮して、2万kmの距離でも、絡み合い分布の回折損失をほぼ排除できることを示した。 回折損失がない場合には、他の損失(特に反射損失)の影響が重要となり、詳細に研究される。 総損失は2万kmで30dB未満と推定され、他の損失が各衛星で2%に制限され、120kmの衛星分離と60cmの衛星望遠鏡が回折損失を排除している。 このような低損失衛星ベースの光リレープロトコルは、堅牢でマルチモードのグローバル量子通信を可能にし、量子メモリやリピータプロトコルは必要としない。 このプロトコルは、ほぼすべての距離範囲(200 - 20,000 km)で最小の損失となることもある。 近年の宇宙技術の進歩により、衛星中継ネットワークの打ち上げ施設が手頃な価格になる可能性がある。 さらに, 地上に残されている光子源と検出器の両方に対して, 長大なアドバンテージを持つ "qubit transmission" プロトコルについても紹介する。 特定のレンズの設定は、衛星アップリンクの大気乱流を含むシミュレーションでうまく機能する「量子伝送」プロトコルのために設計された。

Photon loss is the fundamental issue towards the development of quantum communication. We present a proposal to mitigate photon loss even at large distances and hence to create a global-scale quantum communication architecture. In this proposal, photons are sent directly through space, using a chain of co-moving low-earth orbit satellites. This satellite chain would bend the photons to move along the earth's curvature and control photon loss due to diffraction by effectively behaving like a set of lenses on an optical table. Numerical modeling of photon propagation through these "satellite lenses" shows that diffraction loss in entanglement distribution can be almost eliminated even at global distances of 20,000 km while considering beam truncation at each satellite and the effect of different errors. In the absence of diffraction loss, the effect of other losses (especially reflection loss) becomes important and they are investigated in detail. The total loss is estimated to be less than 30 dB at 20,000 km if other losses are constrained to 2% at each satellite, with 120 km satellite separation and 60 cm diameter satellite telescopes eliminating diffraction loss. Such low-loss satellite-based optical-relay protocol would enable robust, multi-mode global quantum communication and wouldn't require either quantum memories or repeater protocol. The protocol can also be the least lossy in almost all distance ranges available (200 - 20,000 km). Recent advances in space technologies may soon enable affordable launch facilities for such a satellite-relay network. We further introduce the "qubit transmission" protocol which has a plethora of advantages with both the photon source and the detector remaining on the ground. A specific lens setup was designed for the "qubit transmission" protocol which performed well in simulation that included atmospheric turbulence in the satellite uplink.
翻訳日:2023-09-01 19:49:30 公開日:2023-08-31
# Neural ShDF: 効率的で一貫性のあるメッシュセグメンテーション手法の復活

Neural ShDF: Reviving an Efficient and Consistent Mesh Segmentation Method ( http://arxiv.org/abs/2306.11737v2 )

ライセンス: Link先を確認
Bruno Roy(参考訳) 多角形メッシュを意味のある部分に分割することは難しい。 多くのアプリケーションはコンピュータグラフィックスのさらなる処理のためにそのような構造を分解する必要がある。 この10年間、集中計算時間を犠牲にして、この問題に取り組むためのいくつかの方法が提案された。 近年,3次元構造のセグメンテーション作業に機械学習が有効であることが証明されている。 それでも、これらの最先端のメソッドは、しばしば一般化しにくく、学習したモデルをオーバーフィッティングを避けるためにいくつかの特定のオブジェクトクラスに分割する必要がある。 複数のアプリケーションのためのメッシュセグメンテーションの前に,ディープラーニングを利用してマッピング関数を符号化する。 我々のネットワークは, 頂点近傍の類似性を利用した textsl{Shape Diameter Function} (SDF) 法の知識を用いて, 周辺地図を再現する。 我々のアプローチは、入力メッシュをサンプリングし、近所の貢献のみのために全解像度構造をクエリするので、解像度に依存しない。 予測したsdf値を用いることで、グラフカットアルゴリズムに構造を注入し、効率良くロバストなメッシュセグメンテーションを生成し、必要な計算時間をかなり削減できる。

Partitioning a polygonal mesh into meaningful parts can be challenging. Many applications require decomposing such structures for further processing in computer graphics. In the last decade, several methods were proposed to tackle this problem, at the cost of intensive computational times. Recently, machine learning has proven to be effective for the segmentation task on 3D structures. Nevertheless, these state-of-the-art methods are often hardly generalizable and require dividing the learned model into several specific classes of objects to avoid overfitting. We present a data-driven approach leveraging deep learning to encode a mapping function prior to mesh segmentation for multiple applications. Our network reproduces a neighborhood map using our knowledge of the \textsl{Shape Diameter Function} (SDF) method using similarities among vertex neighborhoods. Our approach is resolution-agnostic as we downsample the input meshes and query the full-resolution structure solely for neighborhood contributions. Using our predicted SDF values, we can inject the resulting structure into a graph-cut algorithm to generate an efficient and robust mesh segmentation while considerably reducing the required computation times.
翻訳日:2023-09-01 19:48:55 公開日:2023-08-31
# なぜ小さなロバストさが役に立つのか? 代理訓練による対向移動可能性の理解と改善

Why Does Little Robustness Help? Understanding and Improving Adversarial Transferability from Surrogate Training ( http://arxiv.org/abs/2307.07873v5 )

ライセンス: Link先を確認
Yechao Zhang, Shengshan Hu, Leo Yu Zhang, Junyu Shi, Minghui Li, Xiaogeng Liu, Wei Wan, Hai Jin(参考訳) DNNの逆例(AE)は転送可能であることが示されている: ホワイトボックスサロゲートモデルをうまく騙すAEは、異なるアーキテクチャで他のブラックボックスモデルを騙すこともできる。 多くの実験的な研究は、高度に伝達可能なAEを生成するためのガイダンスを提供してきたが、これらの発見の多くは説明に欠け、矛盾するアドバイスに至る。 本稿では,敵対的伝達可能性の理解に向けてさらなる一歩を踏み出し,サロゲート的な側面に焦点をあてる。 弱い摂動サンプルで逆向きに訓練されたモデルがより良い代理となるという、興味深い小さな堅牢性現象から始まり、モデルの滑らかさと勾配類似性という2つの主要な要因のトレードオフが原因と考えられる。 研究は, 移動可能性との相関性ではなく, 共同効果に焦点をあてた。 一連の理論的および経験的分析を通して、逆行訓練におけるデータ分布シフトが勾配類似性の低下を説明すると推測する。 これらの知見に基づいて,データ拡張と勾配正規化が伝達可能性に与える影響を考察し,そのトレードオフが様々なトレーニングメカニズムに一般的に存在していることを確認する。 最後に,入力勾配正則化とシャープネス認識最小化(sam)の組み合わせなど,モデルの滑らかさと勾配の類似性を同時に最適化するトランスファー性を高めるために,より優れたサロゲートを構築するための一般的な経路を提案する。 要約すると、我々は、一方を無視しながら一方を最適化するのではなく、他方を効果的に移動攻撃する2つの要因の統一的な影響に注意を向け、代理モデルを操作する重要な役割を強調している。

Adversarial examples (AEs) for DNNs have been shown to be transferable: AEs that successfully fool white-box surrogate models can also deceive other black-box models with different architectures. Although a bunch of empirical studies have provided guidance on generating highly transferable AEs, many of these findings lack explanations and even lead to inconsistent advice. In this paper, we take a further step towards understanding adversarial transferability, with a particular focus on surrogate aspects. Starting from the intriguing little robustness phenomenon, where models adversarially trained with mildly perturbed adversarial samples can serve as better surrogates, we attribute it to a trade-off between two predominant factors: model smoothness and gradient similarity. Our investigations focus on their joint effects, rather than their separate correlations with transferability. Through a series of theoretical and empirical analyses, we conjecture that the data distribution shift in adversarial training explains the degradation of gradient similarity. Building on these insights, we explore the impacts of data augmentation and gradient regularization on transferability and identify that the trade-off generally exists in the various training mechanisms, thus building a comprehensive blueprint for the regulation mechanism behind transferability. Finally, we provide a general route for constructing better surrogates to boost transferability which optimizes both model smoothness and gradient similarity simultaneously, e.g., the combination of input gradient regularization and sharpness-aware minimization (SAM), validated by extensive experiments. In summary, we call for attention to the united impacts of these two factors for launching effective transfer attacks, rather than optimizing one while ignoring the other, and emphasize the crucial role of manipulating surrogate models.
翻訳日:2023-09-01 19:41:03 公開日:2023-08-31
# 量子化有限時間協調によるオンライン分散学習

Online Distributed Learning with Quantized Finite-Time Coordination ( http://arxiv.org/abs/2307.06620v2 )

ライセンス: Link先を確認
Nicola Bastianello, Apostolos I. Rikos, Karl H. Johansson(参考訳) 本稿では,オンライン分散学習問題について考察する。 オンライン分散学習とは、分散データソース上で学習モデルをトレーニングする過程を指す。 私たちの設定では、一連のエージェントがストリーミングデータから学習モデルを協調的にトレーニングする必要があります。 連合学習とは異なり、提案手法は中央サーバに頼るのではなく、エージェント間のピアツーピア通信のみに依存する。 このアプローチは、プライバシやセキュリティ、コスト上の理由から、データが集中的な場所に移動できないシナリオでよく使用される。 中央サーバの欠如を克服するために,局所的に訓練されたモデルを集約するために,量子化された有限時間協調プロトコルに依存する分散アルゴリズムを提案する。 さらに,本アルゴリズムは局所学習における確率勾配の利用を可能にする。 確率的勾配は、ランダムにサンプリングされたローカルトレーニングデータのサブセットを用いて計算され、従来の勾配降下よりも効率的にスケーラブルなアルゴリズムが提案されている。 本稿では,提案アルゴリズムの性能を,オンラインソリューションからの平均距離の観点から解析する。 最後に,ロジスティック回帰タスクの数値計算結果を示す。

In this paper we consider online distributed learning problems. Online distributed learning refers to the process of training learning models on distributed data sources. In our setting a set of agents need to cooperatively train a learning model from streaming data. Differently from federated learning, the proposed approach does not rely on a central server but only on peer-to-peer communications among the agents. This approach is often used in scenarios where data cannot be moved to a centralized location due to privacy, security, or cost reasons. In order to overcome the absence of a central server, we propose a distributed algorithm that relies on a quantized, finite-time coordination protocol to aggregate the locally trained models. Furthermore, our algorithm allows for the use of stochastic gradients during local training. Stochastic gradients are computed using a randomly sampled subset of the local training data, which makes the proposed algorithm more efficient and scalable than traditional gradient descent. In our paper, we analyze the performance of the proposed algorithm in terms of the mean distance from the online solution. Finally, we present numerical results for a logistic regression task.
翻訳日:2023-09-01 19:40:32 公開日:2023-08-31
# オフライン強化学習における分散一般化のための拡散ポリシー

Diffusion Policies for Out-of-Distribution Generalization in Offline Reinforcement Learning ( http://arxiv.org/abs/2307.04726v2 )

ライセンス: Link先を確認
Suzan Ece Ada, Erhan Oztop, Emre Ugur(参考訳) オフライン強化学習(RL)手法は、過去の経験を活用して、データ収集に使用される行動ポリシーよりも優れたポリシーを学習する。 専門家によるデモンストレーションからデータを収集すると仮定する行動クローニングとは対照的に、オフラインのRLは非専門的なデータやマルチモーダルな行動ポリシーで動作する。 しかし、オフラインのRLアルゴリズムは、トレーニング中にオンラインインタラクションが欠如しているため、分散シフトの処理やポリシーの効果的表現において課題に直面している。 オフラインrlの以前の作業では、条件拡散モデルを使用してデータセット内のマルチモーダルな振る舞いを表現する。 しかしながら、これらの手法は分布外状態の一般化を緩和するためには適していない。 本稿では,最近の拡散政策のクラスに状態再構成機能学習を組み込んだ,拡散政策のための状態再構成法(state reconstruction for diffusion policy,srdp)を提案する。 状態再構成損失は、out-of-distribution(ood)状態によって引き起こされる分布シフトを軽減するために、状態のより記述的な表現学習を促進する。 我々は、SRDPのOOD一般化を従来のアルゴリズムと比較し、新しい2次元マルチモーダルコンテキスト帯域環境を設計する。 さらに,D4RL連続制御ベンチマーク,すなわち8-DoFアリのナビゲーションと半チーター,ホッパー,ウォーカー2dの前方移動の性能を評価し,最先端の結果を得た。

Offline Reinforcement Learning (RL) methods leverage previous experiences to learn better policies than the behavior policy used for data collection. In contrast to behavior cloning, which assumes the data is collected from expert demonstrations, offline RL can work with non-expert data and multimodal behavior policies. However, offline RL algorithms face challenges in handling distribution shifts and effectively representing policies due to the lack of online interaction during training. Prior work on offline RL uses conditional diffusion models to represent multimodal behavior in the dataset. Nevertheless, these methods are not tailored toward alleviating the out-of-distribution state generalization. We introduce a novel method, named State Reconstruction for Diffusion Policies (SRDP), incorporating state reconstruction feature learning in the recent class of diffusion policies to address the out-of-distribution generalization problem. State reconstruction loss promotes more descriptive representation learning of states to alleviate the distribution shift incurred by the out-of-distribution (OOD) states. We design a novel 2D Multimodal Contextual Bandit environment to illustrate the OOD generalization of SRDP compared to prior algorithms. In addition, we assess the performance of our model on D4RL continuous control benchmarks, namely the navigation of an 8-DoF ant and forward locomotion of half-cheetah, hopper, and walker2d, achieving state-of-the-art results.
翻訳日:2023-09-01 19:39:58 公開日:2023-08-31
# データ駆動型5g予測遅延:ネットワーク計測を用いた理論的および実験的解析

Data-driven Predictive Latency for 5G: A Theoretical and Experimental Analysis Using Network Measurements ( http://arxiv.org/abs/2307.02329v3 )

ライセンス: Link先を確認
Marco Skocaj, Francesca Conserva, Nicol Sarcone Grande, Andrea Orsi, Davide Micheli, Giorgio Ghinamo, Simone Bizzarri and Roberto Verdone(参考訳) バインディングレイテンシ要件と保証されたQuality of Service(QoS)を備えた,新たな5Gサービスとアプリケーションの出現により,ネットワーク管理手順に自律的かつ積極的な意思決定を組み込む必要性が高まった。 本研究の目的は,モバイルネットワークオペレータ(MNO)にアクセス可能な実世界のネットワークデータを利用することで,5Gネットワーク内の予測遅延を徹底的に解析することである。 特に (i)低指数分布としてのユーザ・プレーン・レイテンシの解析的定式化について,経験的測定との比較分析により検証する。 (II)ベイズ学習(BL)や機械学習・オン・グラフ(GML)といった機械学習(ML)の新興領域を利用した確率的回帰、異常検出、予測予測の実験結果を実行する。 我々は,車両移動,密集した都市交通,社会集団イベントのシナリオから収集したデータを用いて予測フレームワークをテストする。 本研究は,予測アルゴリズムの実用的有用性に関する貴重な知見を提供する。

The advent of novel 5G services and applications with binding latency requirements and guaranteed Quality of Service (QoS) hastened the need to incorporate autonomous and proactive decision-making in network management procedures. The objective of our study is to provide a thorough analysis of predictive latency within 5G networks by utilizing real-world network data that is accessible to mobile network operators (MNOs). In particular, (i) we present an analytical formulation of the user-plane latency as a Hypoexponential distribution, which is validated by means of a comparative analysis with empirical measurements, and (ii) we conduct experimental results of probabilistic regression, anomaly detection, and predictive forecasting leveraging on emerging domains in Machine Learning (ML), such as Bayesian Learning (BL) and Machine Learning on Graphs (GML). We test our predictive framework using data gathered from scenarios of vehicular mobility, dense-urban traffic, and social gathering events. Our results provide valuable insights into the efficacy of predictive algorithms in practical applications.
翻訳日:2023-09-01 19:39:35 公開日:2023-08-31
# CARE-MI:母子保健における誤情報評価のための中国のベンチマーク

CARE-MI: Chinese Benchmark for Misinformation Evaluation in Maternity and Infant Care ( http://arxiv.org/abs/2307.01458v2 )

ライセンス: Link先を確認
Tong Xiang, Liangzhi Li, Wangyue Li, Mingbai Bai, Lu Wei, Bowen Wang, Noa Garcia(参考訳) 自然言語処理(NLP)の最近の進歩は、大規模言語モデル(LLM)を現実のシナリオに適用する新たなトレンドにつながっている。 最新のLSMは、人間と対話するときに驚くほど流動的だが、意図せずに事実を偽造することによって誤情報問題に悩まされる。 これにより、特に医療などのセンシティブなコンテキストで生成された場合、有害な結果が発生する可能性がある。 しかし、LLMの長文(LF)世代における誤情報の評価、特に知識集約的な話題に焦点を当てた以前の研究はほとんどない。 さらに、LLMは様々な言語でうまく機能することが示されているが、誤情報評価は主に英語で行われている。 そこで本研究では,LCM誤情報評価のためのベンチマークCARE-MIを提案する。 1)敏感な話題、具体的には母性及び乳幼児ケア領域 2) 英語以外の言語,すなわち中国語。 最も重要なことは、他の知識集約型ドメインや低リソース言語に転送可能なLF生成評価ベンチマークを構築するための革新的なパラダイムを提供することです。 提案するベンチマークは,LLMの広範利用と,これらのモデルが生成した誤情報を評価するためのデータセットの欠如とのギャップを埋めるものである。 専門家による1,612の質問と、人間による参照が含まれている。 以上の結果から,現在の中国のLSMは母性や乳幼児ケアの分野では完璧とは程遠いことが判明した。 性能評価のための人的資源への依存を最小限に抑えるため,ベンチマーク質問に対するLLMのLF出力を自動評価するオフ・ザ・シェルフ判定モデルを提案する。 さらに、LF生成評価の潜在的なソリューションを比較し、より良い自動メトリクスを構築するための洞察を提供する。

The recent advances in natural language processing (NLP), have led to a new trend of applying large language models (LLMs) to real-world scenarios. While the latest LLMs are astonishingly fluent when interacting with humans, they suffer from the misinformation problem by unintentionally generating factually false statements. This can lead to harmful consequences, especially when produced within sensitive contexts, such as healthcare. Yet few previous works have focused on evaluating misinformation in the long-form (LF) generation of LLMs, especially for knowledge-intensive topics. Moreover, although LLMs have been shown to perform well in different languages, misinformation evaluation has been mostly conducted in English. To this end, we present a benchmark, CARE-MI, for evaluating LLM misinformation in: 1) a sensitive topic, specifically the maternity and infant care domain; and 2) a language other than English, namely Chinese. Most importantly, we provide an innovative paradigm for building LF generation evaluation benchmarks that can be transferred to other knowledge-intensive domains and low-resourced languages. Our proposed benchmark fills the gap between the extensive usage of LLMs and the lack of datasets for assessing the misinformation generated by these models. It contains 1,612 expert-checked questions, accompanied with human-selected references. Using our benchmark, we conduct extensive experiments and found that current Chinese LLMs are far from perfect in the topic of maternity and infant care. In an effort to minimize the reliance on human resources for performance evaluation, we offer off-the-shelf judgment models for automatically assessing the LF output of LLMs given benchmark questions. Moreover, we compare potential solutions for LF generation evaluation and provide insights for building better automated metrics.
翻訳日:2023-09-01 19:39:17 公開日:2023-08-31
# 学習可能な空間を持つ拡張畳み込みを用いたスパイクニューラルネットワークの学習遅延

Learning Delays in Spiking Neural Networks using Dilated Convolutions with Learnable Spacings ( http://arxiv.org/abs/2306.17670v2 )

ライセンス: Link先を確認
Ilyass Hammouamri, Ismail Khalfaoui-Hassani, Timoth\'ee Masquelier(参考訳) スパイキングニューラルネットワーク(SNN)は、特に音声認識などの時間的タスクにおいて、電力効率の高い情報処理システムを構築するための有望な研究方向である。 SNNでは、1つのスパイクが1つのニューロンから別のニューロンに移動するのに必要な時間を指す。 これらの遅延はスパイク到着時間に影響を与えるため重要であり、スパイクニューロンが一致した入力スパイクに強く反応することが知られている。 より正式には、プラスチックの遅延がSNNの表現性を大幅に増大させることが理論的に示されている。 しかし、これらの遅延を学習する効率的なアルゴリズムは不足している。 本稿では,バックプロパゲーションを用いたディープフィードフォワードsnsでこの問題をオフラインで解決する,新しい離散時間アルゴリズムを提案する。 連続する層間の遅延をシミュレートするために、1次元の畳み込みを用いる。 カーネルは数個の非ゼロ重み(シナプスあたり1つ)しか含んでおらず、その位置は遅延に対応する。 これらの位置は、最近提案されたDilated Convolution with Learnable Spacings (DCLS)を使って重みとともに学習される。 我々は,スパイキングハイデルベルクデータセット (SHD) とスパイキング音声コマンド (SSC) と,その非スパイキングバージョンであるGoogle Speech Commands v0.02 (GSC) ベンチマークを用いて,時間パターンの検出を必要とする3つのデータセットについて評価を行った。 完全結合層を2、3層に隠蔽したフィードフォワードSNNと,バニラ漏洩統合火災ニューロンを用いた。 固定されたランダム遅延が役に立ち、それらを学ぶことがさらに役立ちます。 さらに,本手法は,再帰的な接続を必要とせず,パラメータも大幅に少ない3つのデータセットにおいて最先端を上回った。 本研究では,時間的データ処理の正確かつ正確なモデル開発における遅延学習の可能性を示す。 私たちのコードはPyTorch / SpikingJellyをベースにしており、https://github.com/Thvnvtos/SNN-delaysで利用可能です。

Spiking Neural Networks (SNNs) are a promising research direction for building power-efficient information processing systems, especially for temporal tasks such as speech recognition. In SNNs, delays refer to the time needed for one spike to travel from one neuron to another. These delays matter because they influence the spike arrival times, and it is well-known that spiking neurons respond more strongly to coincident input spikes. More formally, it has been shown theoretically that plastic delays greatly increase the expressivity in SNNs. Yet, efficient algorithms to learn these delays have been lacking. Here, we propose a new discrete-time algorithm that addresses this issue in deep feedforward SNNs using backpropagation, in an offline manner. To simulate delays between consecutive layers, we use 1D convolutions across time. The kernels contain only a few non-zero weights - one per synapse - whose positions correspond to the delays. These positions are learned together with the weights using the recently proposed Dilated Convolution with Learnable Spacings (DCLS). We evaluated our method on three datasets: the Spiking Heidelberg Dataset (SHD), the Spiking Speech Commands (SSC) and its non-spiking version Google Speech Commands v0.02 (GSC) benchmarks, which require detecting temporal patterns. We used feedforward SNNs with two or three hidden fully connected layers, and vanilla leaky integrate-and fire neurons. We showed that fixed random delays help and that learning them helps even more. Furthermore, our method outperformed the state-of-the-art in the three datasets without using recurrent connections and with substantially fewer parameters. Our work demonstrates the potential of delay learning in developing accurate and precise models for temporal data processing. Our code is based on PyTorch / SpikingJelly and available at: https://github.com/Thvnvtos/SNN-delays
翻訳日:2023-09-01 19:38:13 公開日:2023-08-31
# RBSR:Burst Super-Resolutionのための効率よくフレキシブルなリカレントネットワーク

RBSR: Efficient and Flexible Recurrent Network for Burst Super-Resolution ( http://arxiv.org/abs/2306.17595v2 )

ライセンス: Link先を確認
Renlong Wu, Zhilu Zhang, Shuohao Zhang, Hongzhi Zhang and Wangmeng Zuo(参考訳) バースト超解像(BurstSR)は、低解像度(LR)とノイズ画像の連続から高解像度(HR)画像を再構成することを目的としている。 BurstSRの主な課題は、入力フレームからの補完情報を効果的に組み合わせることである。 本稿では,効率良くフレキシブルなリカレントネットワークを用いたフレームバイフレーム方式を提案する。 特に,ベースフレームの役割を強調し,再帰するたびに他のフレームからの知識獲得を誘導するキープロンプトとして活用する。 さらに,可変数の入力フレームに対してモデルの柔軟性を向上させるために,暗黙の重み付け損失を導入する。 合成データと実世界のデータセットの両方に関する広範な実験により,本手法は最先端データよりも優れた結果が得られることが示された。 コードと事前学習されたモデルはhttps://github.com/zcsrenlongz/rbsrで入手できる。

Burst super-resolution (BurstSR) aims at reconstructing a high-resolution (HR) image from a sequence of low-resolution (LR) and noisy images, which is conducive to enhancing the imaging effects of smartphones with limited sensors. The main challenge of BurstSR is to effectively combine the complementary information from input frames, while existing methods still struggle with it. In this paper, we suggest fusing cues frame-by-frame with an efficient and flexible recurrent network. In particular, we emphasize the role of the base-frame and utilize it as a key prompt to guide the knowledge acquisition from other frames in every recurrence. Moreover, we introduce an implicit weighting loss to improve the model's flexibility in facing input frames with variable numbers. Extensive experiments on both synthetic and real-world datasets demonstrate that our method achieves better results than state-of-the-art ones. Codes and pre-trained models are available at https://github.com/ZcsrenlongZ/RBSR.
翻訳日:2023-09-01 19:37:40 公開日:2023-08-31
# 混合精度によるフーリエニューラル演算子の高速化

Speeding up Fourier Neural Operators via Mixed Precision ( http://arxiv.org/abs/2307.15034v2 )

ライセンス: Link先を確認
Colin White, Renbo Tu, Jean Kossaifi, Gennady Pekhimenko, Kamyar Azizzadenesheli, Anima Anandkumar(参考訳) フーリエニューラル作用素 (FNO) は偏微分方程式 (PDE) 解作用素の代理写像を学習する強力な手法である。 高解像度のデータポイントを必要とする多くの現実世界アプリケーションにとって、トレーニング時間とメモリ使用量は重大なボトルネックとなる。 標準ニューラルネットワークには混合精度トレーニング技術があるが、有限次元の実数値データ型には適用できないため、(複素値)フーリエ領域や関数空間において重要な動作を行うfnoには直接適用できない。 一方、フーリエ変換はすでに近似(離散化誤差のため)であるため、完全精度で演算を行う必要はない。 この作品では、 (i)フルかつ混合精度のFNOのためのプロファイルメモリとランタイム。 (ii)fnoの混合精密訓練の数値的安定性についての研究、及び (iii)navier-stokes方程式とdarcy流方程式のトレーニング時間とメモリ使用量を大幅に削減するトレーニングルーチン(最大34%)を考案する。 最近提案されたテンソル化FNO(Kossaifi et al., 2023)と組み合わせることで、このモデルの性能は向上し、オリジナルのFNOよりも大幅に向上した。

The Fourier neural operator (FNO) is a powerful technique for learning surrogate maps for partial differential equation (PDE) solution operators. For many real-world applications, which often require high-resolution data points, training time and memory usage are significant bottlenecks. While there are mixed-precision training techniques for standard neural networks, those work for real-valued datatypes on finite dimensions and therefore cannot be directly applied to FNO, which crucially operates in the (complex-valued) Fourier domain and in function spaces. On the other hand, since the Fourier transform is already an approximation (due to discretization error), we do not need to perform the operation at full precision. In this work, we (i) profile memory and runtime for FNO with full and mixed-precision training, (ii) conduct a study on the numerical stability of mixed-precision training of FNO, and (iii) devise a training routine which substantially decreases training time and memory usage (up to 34%), with little or no reduction in accuracy, on the Navier-Stokes and Darcy flow equations. Combined with the recently proposed tensorized FNO (Kossaifi et al., 2023), the resulting model has far better performance while also being significantly faster than the original FNO.
翻訳日:2023-09-01 19:32:16 公開日:2023-08-31
# 量子ジャミングは、マクロスケールに量子力学をもたらす

Quantum jamming brings quantum mechanics to macroscopic scales ( http://arxiv.org/abs/2307.14979v2 )

ライセンス: Link先を確認
Maurizio Fagotti(参考訳) 軸対称の量子スピン=$\frac{1}{2}$鎖は通常、回転軸に沿って向き付けられたスピンに付随する準粒子によって記述される。 速度論的制約は、異なる準粒子種を分離することで、十分な密度で立ち往生し、ジャミングの量子類似性を実現することによって、そのような記述を豊かにすることができる。 単純な速度論的制約を満たす相互作用の族を同定し、それらから構築されたジェネリック翻訳不変モデルを検討する。 ジャム状態における局所的アンジャム摂動後のダイナミクスについて検討する。 通常の非拘束系の力学にマッピングできることが示されるが、写像の非局所性は現象自体が現れるスケールを変化させる。 準粒子の散乱、境界状態の形成、固有状態の局在は、全てマクロスケールで見ることができる。 対称性が存在するか否かによって、ジャム状態の顕微鏡的詳細は、限界効果か強い効果のいずれかを持つことがわかった。 前者の場合、または初期状態がほぼ均質である場合、積状態でさえも巨視的量子状態になることを示す。

A quantum spin-$\frac{1}{2}$ chain with an axial symmetry is normally described by quasiparticles associated with the spins oriented along the axis of rotation. Kinetic constraints can enrich such a description by setting apart different species of quasiparticles, which can get stuck at high enough density, realising the quantum analogue of jamming. We identify a family of interactions satisfying simple kinetic constraints and consider generic translationally invariant models built up from them. We study dynamics following a local unjamming perturbation in a jammed state. We show that they can be mapped into dynamics of ordinary unconstrained systems, but the nonlocality of the mapping changes the scales at which the phenomena manifest themselves. Scattering of quasiparticles, formation of bound states, eigenstate localisation become all visible at macroscopic scales. Depending on whether a symmetry is present or not, the microscopic details of the jammed state turn out to have either a marginal or a strong effect. In the former case or when the initial state is almost homogeneous, we show that even a product state is turned into a macroscopic quantum state.
翻訳日:2023-09-01 19:31:55 公開日:2023-08-31
# IML-ViT:視覚変換器による画像操作位置のベンチマーク

IML-ViT: Benchmarking Image Manipulation Localization by Vision Transformer ( http://arxiv.org/abs/2307.14863v3 )

ライセンス: Link先を確認
Xiaochen Ma, Bo Du, Zhuohang Jiang, Ahmed Y. Al Hammadi, Jizhe Zhou(参考訳) 高度な画像改ざん技術は、マルチメディアの信頼性にますます挑戦し、画像操作ローカライゼーション(IML)の開発につながっている。 しかし、優れたIMLモデルを作る理由は何ですか? 答えは、アーティファクトをキャプチャする方法にあります。 爆発するアーティファクトは、操作された領域と認証された領域の間に非意味的な不一致を抽出する必要がある。 自己認識機構を使えば、Transformerはアーティファクトをキャプチャするためのより良い候補になるはずだ。 しかし、データセットが限られているため、現在、IMLがベンチマークとして機能するための純粋なViTベースのアプローチは存在しない。 それでもCNNは、弱い長距離と非セマンティックモデリングに悩まされている。 このギャップを埋めるために,人工物が画像解像度に敏感であり,マルチスケールな特徴の下で増幅され,操作境界で巨大であるという事実に基づいて,高分解能のvitを構築すること,マルチスケールな特徴抽出能力,少量のデータに収束可能なマニピュレーションエッジの監督など,前者の質問に対する答えを定式化する。 我々は、この単純だが効果的なViTパラダイムであるIML-ViTを、IMLの新しいベンチマークとなる大きな可能性を秘めている。 5つのベンチマークデータセットに関する広範な実験により、このモデルが最先端の操作ローカライゼーションメソッドよりも優れていることが確認された。

Advanced image tampering techniques are increasingly challenging the trustworthiness of multimedia, leading to the development of Image Manipulation Localization (IML). But what makes a good IML model? The answer lies in the way to capture artifacts. Exploiting artifacts requires the model to extract non-semantic discrepancies between manipulated and authentic regions, necessitating explicit comparisons between the two areas. With the self-attention mechanism, naturally, the Transformer should be a better candidate to capture artifacts. However, due to limited datasets, there is currently no pure ViT-based approach for IML to serve as a benchmark, and CNNs dominate the entire task. Nevertheless, CNNs suffer from weak long-range and non-semantic modeling. To bridge this gap, based on the fact that artifacts are sensitive to image resolution, amplified under multi-scale features, and massive at the manipulation border, we formulate the answer to the former question as building a ViT with high-resolution capacity, multi-scale feature extraction capability, and manipulation edge supervision that could converge with a small amount of data. We term this simple but effective ViT paradigm IML-ViT, which has significant potential to become a new benchmark for IML. Extensive experiments on five benchmark datasets verified our model outperforms the state-of-the-art manipulation localization methods.Code and models are available at \url{https://github.com/SunnyHaze/IML-ViT}.
翻訳日:2023-09-01 19:31:39 公開日:2023-08-31
# ICF-SRSR:自己スーパービジョンされた実世界の単一画像超解のための可逆スケール導出関数

ICF-SRSR: Invertible scale-Conditional Function for Self-Supervised Real-world Single Image Super-Resolution ( http://arxiv.org/abs/2307.12751v2 )

ライセンス: Link先を確認
Reyhaneh Neshatavar, Mohsen Yavartanoo, Sanghyun Son, Kyoung Mu Lee(参考訳) 単一画像超解像(SISR)は、与えられた低解像度(LR)画像を高解像度(HR)にアップサンプリングすることを目的とした、困難な不適切な問題である。 実LR-HRトレーニングペアを得るのが難しいため、近年のアプローチは、単純化されたダウンサンプリング演算子、例えばバイコビックによって劣化したLR画像のシミュレーションに基づいて訓練されている。 このようなアプローチは、合成されたLR画像と実世界のLR画像の間に大きなギャップがあるため、実際には問題となる可能性がある。 問題を緩和するために,入力画像を拡大し,異なるスケール条件で元の入力を復元する,新しい非可逆スケール・コンディショナル関数(ICF)を提案する。 提案したICFを利用して、ペア/アンペアのトレーニングデータを用いることなく、現実のSRタスクを処理するための新しい自己教師型SISRフレームワーク(ICF-SRSR)を構築する。 さらに、我々のICF-SRSRは現実的で実現可能なLR-HRペアを生成することができ、既存のSISRネットワークをより堅牢にすることができる。 広範囲にわたる実験により, SISRを完全自己管理的に処理する手法の有効性が示された。 icf-srsrは実世界のシナリオで合成ペア画像にトレーニングされた既存の手法と比較して優れた性能を示し、パブリックベンチマークデータセットにおける最先端の教師なし/教師なしメソッドと比較して同等の性能を示す。

Single image super-resolution (SISR) is a challenging ill-posed problem that aims to up-sample a given low-resolution (LR) image to a high-resolution (HR) counterpart. Due to the difficulty in obtaining real LR-HR training pairs, recent approaches are trained on simulated LR images degraded by simplified down-sampling operators, e.g., bicubic. Such an approach can be problematic in practice because of the large gap between the synthesized and real-world LR images. To alleviate the issue, we propose a novel Invertible scale-Conditional Function (ICF), which can scale an input image and then restore the original input with different scale conditions. By leveraging the proposed ICF, we construct a novel self-supervised SISR framework (ICF-SRSR) to handle the real-world SR task without using any paired/unpaired training data. Furthermore, our ICF-SRSR can generate realistic and feasible LR-HR pairs, which can make existing supervised SISR networks more robust. Extensive experiments demonstrate the effectiveness of the proposed method in handling SISR in a fully self-supervised manner. Our ICF-SRSR demonstrates superior performance compared to the existing methods trained on synthetic paired images in real-world scenarios and exhibits comparable performance compared to state-of-the-art supervised/unsupervised methods on public benchmark datasets.
翻訳日:2023-09-01 19:31:08 公開日:2023-08-31
# Sensi-BERT:パラメータ効率の良いBERTの感度駆動微調整に向けて

Sensi-BERT: Towards Sensitivity Driven Fine-Tuning for Parameter-Efficient BERT ( http://arxiv.org/abs/2307.11764v2 )

ライセンス: Link先を確認
Souvik Kundu, Sharath Nittur Sridhar, Maciej Szankin, Sairam Sundaresan(参考訳) 大規模な事前学習型言語モデルは、テキスト分類や質問応答といった下流タスクのパフォーマンスが向上し、微調整がほとんど必要とされないため、最近大きな注目を集めている。 しかし、その大きなモデルサイズはリソース制約のあるエッジデバイスへの適用をしばしば禁止している。 既存のパラメータ効率の良いBERTモデルの解は、主に計算訓練と微調整に頼っている。 さらに、パフォーマンスギャップを軽減するために、追加の計算ヘビーモデルに依存することが多い。 本稿では,市販の事前学習されたbertモデルを取り込んで,下流タスクに高いパラメータ効率のモデルを与える,bertモデルの感度駆動効率の良い微調整であるsensi-bertを提案する。 特に,各パラメータテンソルをランク付けするために感度解析を行い,与えられたパラメータやフロップス予算の微調整時にそれに対応するために使用する。 実験により,MNLI,QQP,QNLI,SST-2,SQuADなどの下流タスクに対するSensi-BERTの有効性が示された。

Large pre-trained language models have recently gained significant traction due to their improved performance on various down-stream tasks like text classification and question answering, requiring only few epochs of fine-tuning. However, their large model sizes often prohibit their applications on resource-constrained edge devices. Existing solutions of yielding parameter-efficient BERT models largely rely on compute-exhaustive training and fine-tuning. Moreover, they often rely on additional compute heavy models to mitigate the performance gap. In this paper, we present Sensi-BERT, a sensitivity driven efficient fine-tuning of BERT models that can take an off-the-shelf pre-trained BERT model and yield highly parameter-efficient models for downstream tasks. In particular, we perform sensitivity analysis to rank each individual parameter tensor, that then is used to trim them accordingly during fine-tuning for a given parameter or FLOPs budget. Our experiments show the efficacy of Sensi-BERT across different downstream tasks including MNLI, QQP, QNLI, SST-2 and SQuAD, showing better performance at similar or smaller parameter budget compared to various alternatives.
翻訳日:2023-09-01 19:30:40 公開日:2023-08-31
# 色コードのフロッケ

Floquetifying the Colour Code ( http://arxiv.org/abs/2307.11136v2 )

ライセンス: Link先を確認
Alex Townsend-Teague, Julio Magdalena de la Fuente, Markus Kesselring(参考訳) フロッケ符号は、最近発見された量子誤り訂正符号の一種である。 それらは安定化器符号とサブシステム符号の一般化であり、コードの論理的なパウリ演算子を時間とともに動的に変化させることで考えられる。 本研究では、ZX計算を用いて、既知の安定化器符号と同等の定義可能な意味での新しいフロケ符号を生成する。 特に、色コードと同等のFloquetコードを見つけるが、それを実装するのに必要なすべての測定値が1つか2であるという利点がある。 特に、量子ビットは正方格子上にレイアウトすることもできる。 これは、色コードをフォールトトレラントに実装することの現在の困難を回避し、他のよく研究されたコードよりもその利点を保ちつつ、さらにフロッケコードのみに特有な機能から利益を得ることができる。 より高いレベルでは、arxiv:2303.08829のように、この研究は'静的'安定化コードとサブシステムコードと'動的'フローケットコードの関係に光を当てている。

Floquet codes are a recently discovered type of quantum error correction code. They can be thought of as generalising stabilizer codes and subsystem codes, by allowing the logical Pauli operators of the code to vary dynamically over time. In this work, we use the ZX-calculus to create new Floquet codes that are in a definable sense equivalent to known stabilizer codes. In particular, we find a Floquet code that is equivalent to the colour code, but has the advantage that all measurements required to implement it are of weight one or two. Notably, the qubits can even be laid out on a square lattice. This circumvents current difficulties with implementing the colour code fault-tolerantly, while preserving its advantages over other well-studied codes, and could furthermore allow one to benefit from extra features exclusive to Floquet codes. On a higher level, as in arXiv:2303.08829, this work shines a light on the relationship between 'static' stabilizer and subsystem codes and 'dynamic' Floquet codes; at first glance the latter seems a significant generalisation of the former, but in the case of the codes that we find here, the difference is essentially just a few basic ZX-diagram deformations.
翻訳日:2023-09-01 19:30:19 公開日:2023-08-31
# d$-dimensional bell状態に基づくサードパーティなしのマルチパーティ量子和法の改良

Improvements on "Multi-Party Quantum Summation without a Third Party based on $d$-Dimensional Bell States" ( http://arxiv.org/abs/2307.10908v2 )

ライセンス: Link先を確認
Xiaobing Li, Jiale Hou, Haozhen Situ, Cai Zhang(参考訳) 2021年、WuらはD次元ベル状態の絡み合い特性を利用した多次元量子和スキームを発表した(Wu et al. in Quantum Inf Process 20:200, 2021)。 特に、著者らは3つのパーティの量子和プロトコルを提案し、その成果をマルチパーティのケースに拡張した。 彼らのプロトコルは外部や参加者の攻撃に対して安全であると主張されている。 しかし、この研究はウーのプロトコルが抜け穴を持っていること、すなわち、特定の位置関係を満たしている2人以上の不正な参加者が、検出されずに一部の正直な参加者のプライベートな入力を得ることを意図していることを指摘している。 そのため、これらの問題に対処するための改善が提案されている。

In 2021, Wu et al. presented a multi-party quantum summation scheme exploiting the entanglement properties of d-dimensional Bell states (Wu et al. in Quantum Inf Process 20:200, 2021). In particular, the authors proposed a three-party quantum summation protocol and then extended their work to a multi-party case. It is claimed that their protocol is secure against outside and participants' attacks. However, this work points out that Wu's protocol has a loophole, i.e., two or more dishonest participants who meet a specific location relationship can conspire to obtain the private inputs of some honest participants without being detected. Accordingly, improvements are proposed to address these issues.
翻訳日:2023-09-01 19:29:58 公開日:2023-08-31
# 第二の心を持つように思える」:大規模言語モデルによる前書きにおける人間とAIの共創造性の検討

"It Felt Like Having a Second Mind": Investigating Human-AI Co-creativity in Prewriting with Large Language Models ( http://arxiv.org/abs/2307.10811v2 )

ライセンス: Link先を確認
Qian Wan, Siying Hu, Yu Zhang, Piaohong Wang, Bo Wen, Zhicong Lu(参考訳) プレライティング(prewriting)は、最初のドラフトの前にアイデアを発見し、開発するプロセスである。 大規模言語モデル(LLM)は、クリエイティブな記述を含む様々なタスクに有用であることが示されているが、ユーザーが事前記述をサポートするためにLLMとどのように協力するかは分かっていない。 このような創造的プロセスにおいてllmの望ましい協力的役割とイニシアティブもまた不明確である。 プリライティング中の人間-LLMのコラボレーションパターンとダイナミクスを調べるために,15人の参加者による3段階の質的研究を行った。 その結果,共同作業において,理想,照明,実施段階を含む3段階の反復的Human-AI共創造プロセスが存在することがわかった。 この協調プロセスは、人間とllmの間に存在する混合的かつシフト的なレベルのイニシアティブに加えて、人間を支配的な役割で擁護する。 本研究は、このプロセス中に発生するコラボレーションのブレークダウン、Human-AIコクリエーションにおける既存のLLMの使用に対するユーザ認識について報告し、このコクリエーションプロセスを支援するための設計上の意味について論じる。

Prewriting is the process of discovering and developing ideas before a first draft, which requires divergent thinking and often implies unstructured strategies such as diagramming, outlining, free-writing, etc. Although large language models (LLMs) have been demonstrated to be useful for a variety of tasks including creative writing, little is known about how users would collaborate with LLMs to support prewriting. The preferred collaborative role and initiative of LLMs during such a creativity process is also unclear. To investigate human-LLM collaboration patterns and dynamics during prewriting, we conducted a three-session qualitative study with 15 participants in two creative tasks: story writing and slogan writing. The findings indicated that during collaborative prewriting, there appears to be a three-stage iterative Human-AI Co-creativity process that includes Ideation, Illumination, and Implementation stages. This collaborative process champions the human in a dominant role, in addition to mixed and shifting levels of initiative that exist between humans and LLMs. This research also reports on collaboration breakdowns that occur during this process, user perceptions of using existing LLMs during Human-AI Co-creativity, and discusses design implications to support this co-creativity process.
翻訳日:2023-09-01 19:29:44 公開日:2023-08-31
# ELI-NPにおける真空相互作用過程の強磁場QEDアプローチ

The Strong Field QED approach of the vacuum interaction processes at ELI-NP ( http://arxiv.org/abs/2307.09315v2 )

ライセンス: Link先を確認
M.Pentia, C.R.Badita, D.Dumitriu, A.R.Ionescu, H.Petrascu(参考訳) 高出力レーザー施設extreme light infrastructure - nuclear physics (eli-np) at bucharest-magurele (romania) は強磁場量子電磁力学 (sf-qed) における非線形相互作用の深い研究を可能にする。 本稿では,ELI-NPで研究できるSF-QEDプロセスを分析する。 このような実験を実行することで、多くの基本的なQED質問に対する回答を見つけることができる。 レーザービームの光子と高エネルギー電子の非線形QED相互作用の存在を確かめた最初の実験(E-144 SLAC)の簡単なレビューの後、電子とのQED相互作用に使用されるレーザービームの特性パラメータとともに、多光子状態のELI-NPで研究できる基本QEDプロセスを紹介した。 ELI-NPの実験を準備するためには、相互作用の運動学と力学の両方を分析する必要がある。 そこで,まず線形qed過程とそれに対応するファインマン図形のキネマティックスを考察した。 非線形、非摂動多光子qed相互作用では、ファインマン図法を線形から非線形プロセスに適応させなければならない。 これは、強い電磁場(EM)の粒子のディラック=ヴォルコフ状態によって記述された量子場に切り替えることによって行われる。 これにより、物理過程の振幅を評価し、最終的にこれらの過程の断面を決定することができる。 強いレーザー場と多光子相互作用のSF-QEDプロセスは、電子-陽電子対とエネルギー的ガンマ線のQED真空対生成の文脈において、ELI-NP施設の特性を考慮することができる。 最後に,他の研究センターによる同様の実験プロジェクトについて,実装の異なる段階で紹介する。

The commissioning of the high power laser facility Extreme Light Infrastructure - Nuclear Physics (ELI-NP) at Bucharest-Magurele (Romania) allows the in-depth study of nonlinear interactions in Strong Field Quantum Electrodynamics (SF-QED). The present paper analyzes the SF-QED processes possible to study at ELI-NP. Carrying out such experiments will allow finding answers to many fundamental QED questions. After a brief review of the first experiment (E-144 SLAC) which confirmed the existence of nonlinear QED interactions of high-energy electrons with photons of a laser beam, we presented the fundamental QED processes that can be studied at ELI-NP in the multi-photon regime along with the characteristic parameters of the laser beam used in the QED interaction with electrons. To prepare an experiment at ELI-NP, it is necessary to analyze both the kinematics and the dynamics of the interactions. Therefore, we first reviewed the kinematics of linear QED processes and then the corresponding Feynman diagrams. For nonlinear, non-perturbative multi-photon QED interactions, the Feynman diagram technique must be adapted from linear to nonlinear processes. This is done by switching to quantum fields described by Dirac-Volkov dressed states, of particles in an intense electromagnetic (EM) field. This allows the evaluation of the amplitude of the physical processes and finally the determination of the cross-sections of these processes. SF-QED processes of multi-photon interactions with strong laser fields can be investigated taking into account the characteristics of the ELI-NP facility in the context of QED vacuum pair production of electron-positron pairs and energetic gamma rays. Finally, we present some similar experimental projects from other research centers, in different stages of implementation.
翻訳日:2023-09-01 19:29:22 公開日:2023-08-31
# マルチモーダルディスカッション変換器:ソーシャルメディア上でのヘイトスピーチ検出のためのテキスト・画像・グラフ変換器の統合

Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media ( http://arxiv.org/abs/2307.09312v2 )

ライセンス: Link先を確認
Liam Hebert, Gaurav Sahu, Yuxuan Guo, Nanda Kishore Sreenivas, Lukasz Golab, Robin Cohen(参考訳) Redditのようなオンラインソーシャルネットワークにおけるヘイトスピーチを検出するためのマルチモーダルグラフベースのトランスフォーマーモデルであるMulti-Modal discussion Transformer(mDT)を提案する。 従来のコメントのみの手法とは対照的に、ヘイトスピーチとしてコメントをラベル付けするアプローチには、議論の文脈に根ざしたテキストや画像の全体的分析が含まれる。 これは、グラフトランスフォーマーを活用して、コメントを取り巻く議論全体のコンテキスト関係をキャプチャし、個別のコメントのテキストと画像の埋め込みを別々に処理する代わりに組み合わせた相互融合層を基盤とする。 モデルの性能を,個々のコメントのみを処理し,広範なアブレーション研究を行うベースラインと比較する。 reddit上の複数のオンラインコミュニティによる、完全なマルチモーダルな議論からなる新しいデータセットであるhatefuldiscussionsを提案する。 オンラインの文脈における社会的価値を提供するためのマルチモーダル・ソリューションの今後の取り組みは、会話の全体像を捉えることは、反社会的行動を検出する努力を著しく前進させると主張している。

We present the Multi-Modal Discussion Transformer (mDT), a novel multi-modal graph-based transformer model for detecting hate speech in online social networks, such as Reddit discussions. In contrast to traditional comment-only methods, our approach to labelling a comment as hate speech involves a holistic analysis of text and images grounded in the discussion context. This is done by leveraging graph transformers to capture the contextual relationships in the entire discussion surrounding a comment and grounding the interwoven fusion layers that combine individual comments' text and image embeddings instead of processing modalities separately. We compare the performance of our model to baselines that only process individual comments and conduct extensive ablation studies. To evaluate our work, we present a new dataset, HatefulDiscussions, comprising complete multi-modal discussions from multiple online communities on Reddit. We conclude with future work for multimodal solutions to deliver social value in online contexts, arguing that capturing a holistic view of a conversation significantly advances the effort to detect anti-social behaviour.
翻訳日:2023-09-01 19:28:49 公開日:2023-08-31
# データ駆動型PDE探索のための適応的不確かさ誘導モデル選択

Adaptive Uncertainty-Guided Model Selection for Data-Driven PDE Discovery ( http://arxiv.org/abs/2308.10283v2 )

ライセンス: Link先を確認
Pongpisit Thanasutives, Takashi Morita, Masayuki Numao, Ken-ichi Fukui(参考訳) そこで本研究では,不確実性を考慮したベイズ情報量評価法 (ubic) を提案し, 雑音下での時間-時間的観測データを信頼度の低い条件で十分に制御するパリモニア偏微分方程式 (pde) の優先順位付けを行う。 モデル選択にBICを用いることで、望ましくない過剰適合PDEが得られることが知られているので、UBICは、発見されたPDEを複雑さだけでなく、確率論的視点におけるモデルの変動係数から導かれる量的不確実性によって罰する。 また、物理インフォームドニューラルネットワーク学習をシミュレーションベースのアプローチとして導入し、選択したPDEを他のPDEに対して柔軟に検証する。 数値的な結果は、UBICが真のPDEの特定に成功していることを裏付けるものである。 さらに,bicスコアとモデルの複雑さとのトレードオフを改善するために観測データに注意を向ける興味深い効果を示す。 コードはhttps://github.com/Pongpisit-Thanasutives/UBICで入手できる。

We propose a new parameter-adaptive uncertainty-penalized Bayesian information criterion (UBIC) to prioritize the parsimonious partial differential equation (PDE) that sufficiently governs noisy spatial-temporal observed data with few reliable terms. Since the naive use of the BIC for model selection has been known to yield an undesirable overfitted PDE, the UBIC penalizes the found PDE not only by its complexity but also the quantified uncertainty, derived from the model supports' coefficient of variation in a probabilistic view. We also introduce physics-informed neural network learning as a simulation-based approach to further validate the selected PDE flexibly against the other discovered PDE. Numerical results affirm the successful application of the UBIC in identifying the true governing PDE. Additionally, we reveal an interesting effect of denoising the observed data on improving the trade-off between the BIC score and model complexity. Code is available at https://github.com/Pongpisit-Thanasutives/UBIC.
翻訳日:2023-09-01 19:21:14 公開日:2023-08-31
# macformer:リアルタイムかつロバストな軌道予測のためのマップエージェント結合トランス

MacFormer: Map-Agent Coupled Transformer for Real-time and Robust Trajectory Prediction ( http://arxiv.org/abs/2308.10280v2 )

ライセンス: Link先を確認
Chen Feng, Hangning Zhou, Huadong Lin, Zhigang Zhang, Ziyao Xu, Chi Zhang, Boyu Zhou, Shaojie Shen(参考訳) 自律走行車分野におけるエージェントの将来行動予測は基本的な課題である。 正確な予測は、エージェントの振る舞いを著しく規則化する周囲の地図の解釈に依存する。 しかし、既存の手法では地図の利用に限界があり、歴史的軌道に強く依存しており、不満足な予測性能と堅牢性をもたらす。 さらに、彼らの重いネットワークアーキテクチャはリアルタイムアプリケーションを妨げる。 これらの問題に対処するために,実時間およびロバストな軌道予測のためのMap-Agent Coupled Transformer (MacFormer)を提案する。 このフレームワークは,結合マップと参照抽出という2つの注意深く設計されたモジュールを通じて,ネットワークにマップ制約を明示的に組み込む。 トポロジとルール制約の学習を促進するために,新しいマルチタスク最適化戦略(MTOS)を提案する。 さらに,より効率的で軽量なネットワークを実現するために,コンテキスト融合によるバイラテラルクエリスキームを考案する。 argoverse 1, argoverse 2, nuscenes実世界のベンチマークにおける我々のアプローチを評価した。 実験により、我々のフレームワークはトラックレット入力に不完全であることを示す。 さらに,提案手法を組み合わせることで,古典モデルがベースラインを上回り,フレームワークの汎用性をさらに検証できることを示す。

Predicting the future behavior of agents is a fundamental task in autonomous vehicle domains. Accurate prediction relies on comprehending the surrounding map, which significantly regularizes agent behaviors. However, existing methods have limitations in exploiting the map and exhibit a strong dependence on historical trajectories, which yield unsatisfactory prediction performance and robustness. Additionally, their heavy network architectures impede real-time applications. To tackle these problems, we propose Map-Agent Coupled Transformer (MacFormer) for real-time and robust trajectory prediction. Our framework explicitly incorporates map constraints into the network via two carefully designed modules named coupled map and reference extractor. A novel multi-task optimization strategy (MTOS) is presented to enhance learning of topology and rule constraints. We also devise bilateral query scheme in context fusion for a more efficient and lightweight network. We evaluated our approach on Argoverse 1, Argoverse 2, and nuScenes real-world benchmarks, where it all achieved state-of-the-art performance with the lowest inference latency and smallest model size. Experiments also demonstrate that our framework is resilient to imperfect tracklet inputs. Furthermore, we show that by combining with our proposed strategies, classical models outperform their baselines, further validating the versatility of our framework.
翻訳日:2023-09-01 19:20:55 公開日:2023-08-31
# ThermRad: 混在条件下でのロバスト3次元物体検出のためのマルチモーダルデータセット

ThermRad: A Multi-modal Dataset for Robust 3D Object Detection under Challenging Conditions ( http://arxiv.org/abs/2308.10161v2 )

ライセンス: Link先を確認
Qiao Yan, Yihan Wang(参考訳) 極度の天候と照明条件下でのロバストな3D物体検出は難しい課題である。 レーダーとサーマルカメラはこれらの条件に対する弾力性で知られているが、対応するデータセットがないため、レーダー熱融合の研究はほとんど行われていない。 このギャップに対処するために、まず3D LiDAR、4Dレーダー、RGBカメラ、サーマルカメラを含む、ThermRadと呼ばれる新しいマルチモーダルデータセットを提示する。 このデータセットは、極度の気象条件下で4つのセンサー全てからのデータを含んでいるため、この領域における将来の研究に貴重なリソースを提供する。 そこで本研究では, RTDF-RCNNと呼ばれる, 4次元レーダとサーマルカメラの相補的強度を利用して, 物体検出性能を向上させるマルチモーダル融合法を提案する。 提案手法の有効性をさらに証明するため, 評価のためのベンチマークとして, データセット上にSOTA(State-of-the-art)3D検出器を再実装した。 提案手法は,車,歩行者,自転車の検知において,それぞれ7.98%,24.27%,27.15%以上の改善を達成し,LiDARによるアプローチと同等の結果を得た。 ThermRadデータセットと新しいマルチモーダル融合法への我々の貢献は、悪天候や照明条件下での堅牢な3次元物体検出に新しいアプローチを提供する。 ThermRadデータセットがリリースされる。

Robust 3D object detection in extreme weather and illumination conditions is a challenging task. While radars and thermal cameras are known for their resilience to these conditions, few studies have been conducted on radar-thermal fusion due to the lack of corresponding datasets. To address this gap, we first present a new multi-modal dataset called ThermRad, which includes a 3D LiDAR, a 4D radar, an RGB camera and a thermal camera. This dataset is unique because it includes data from all four sensors in extreme weather conditions, providing a valuable resource for future research in this area. To validate the robustness of 4D radars and thermal cameras for 3D object detection in challenging weather conditions, we propose a new multi-modal fusion method called RTDF-RCNN, which leverages the complementary strengths of 4D radars and thermal cameras to boost object detection performance. To further prove the effectiveness of our proposed framework, we re-implement state-of-the-art (SOTA) 3D detectors on our dataset as benchmarks for evaluation. Our method achieves significant enhancements in detecting cars, pedestrians, and cyclists, with improvements of over 7.98%, 24.27%, and 27.15%, respectively, while achieving comparable results to LiDAR-based approaches. Our contributions in both the ThermRad dataset and the new multi-modal fusion method provide a new approach to robust 3D object detection in adverse weather and illumination conditions. The ThermRad dataset will be released.
翻訳日:2023-09-01 19:20:34 公開日:2023-08-31
# SAMedOCT:網膜OCTのためのセグメンテーションモデル(SAM)の適応

SAMedOCT: Adapting Segment Anything Model (SAM) for Retinal OCT ( http://arxiv.org/abs/2308.09331v2 )

ライセンス: Link先を確認
Botond Fazekas, Jos\'e Morano, Dmitrii Lachinov, Guilherme Aresta, Hrvoje Bogunovi\'c(参考訳) Segment Anything Model (SAM) はその印象的な機能とプロンプトベースのインターフェースにより、画像セグメンテーションの分野で大きな注目を集めている。 SAMはすでに様々な領域で広く評価されているが、網膜OCTスキャンへの適応は未発見である。 この研究ギャップを埋めるため,RETOUCHチャレンジによる大規模なOCTデータセット上でSAMとその適応を包括的に評価する。 評価は各種網膜疾患,流体コンパートメント,デバイスベンダーを対象とし,samを最先端の網膜液分画法と比較した。 網膜octスキャンにおける強力なセグメンテーションモデルとしてsamの有効性を検討したが,一部の状況では確立された方法に遅れをとっていた。 この知見はSAMの適応性と堅牢性を強調し、網膜CT画像解析における有用性を示し、この領域のさらなる進歩への道を開いた。

The Segment Anything Model (SAM) has gained significant attention in the field of image segmentation due to its impressive capabilities and prompt-based interface. While SAM has already been extensively evaluated in various domains, its adaptation to retinal OCT scans remains unexplored. To bridge this research gap, we conduct a comprehensive evaluation of SAM and its adaptations on a large-scale public dataset of OCTs from RETOUCH challenge. Our evaluation covers diverse retinal diseases, fluid compartments, and device vendors, comparing SAM against state-of-the-art retinal fluid segmentation methods. Through our analysis, we showcase adapted SAM's efficacy as a powerful segmentation model in retinal OCT scans, although still lagging behind established methods in some circumstances. The findings highlight SAM's adaptability and robustness, showcasing its utility as a valuable tool in retinal OCT image analysis and paving the way for further advancements in this domain.
翻訳日:2023-09-01 19:20:09 公開日:2023-08-31
# 非有界量子アドバンテージを用いた簡易情報処理タスク

Simple Information Processing Tasks with Unbounded Quantum Advantage ( http://arxiv.org/abs/2308.07727v2 )

ライセンス: Link先を確認
Teiko Heinosaari, Oskari Kerppo, Leevi Lepp\"aj\"arvi and Martin Pl\'avala(参考訳) 両者間の通信シナリオは、まず物理系の物理媒体として機能する物理系の状態にメッセージをエンコードし、次にシステムの状態を計測してメッセージの復号化を行うことによって実現される。 我々は、最も単純なシナリオでは、古典的システムよりも量子システムの定値、非有界な利点を検出できることを示した。 我々は,1つのキュービットだけで実装できるが,一方では古典的実装には無制限に大きい古典的システムを必要とする操作上有意義な通信タスク群を構築することにより,これを実現する。 さらに,共有ランダム性の付加的な資源により,提案する通信タスクは,同じ大きさの量子システムと古典システムの両方で実装できるが,古典的実装に必要な協調アクションの数も無制限に増加することを示した。 特に、古典的なシステムで可能なすべての量子通信タスクを実装するために必要なすべての協調アクションを格納するために、有限ストレージは使用できない。 その結果、共有ランダム性は自由資源と見なすことはできない。

Communication scenarios between two parties can be implemented by first encoding messages into some states of a physical system which acts as the physical medium of the communication and then decoding the messages by measuring the state of the system. We show that already in the simplest possible scenarios it is possible to detect a definite, unbounded advantage of quantum systems over classical systems. We do this by constructing a family of operationally meaningful communication tasks each of which on one hand can be implemented by using just a single qubit but which on the other hand require unboundedly larger classical system for classical implementation. Furthemore, we show that even though with the additional resource of shared randomness the proposed communication tasks can be implemented by both quantum and classical systems of the same size, the number of coordinated actions needed for the classical implementation also grows unboundedly. In particular, no finite storage can be used to store all the coordinated actions needed to implement all the possible quantum communication tasks with classical systems. As a consequence, shared randomness cannot be viewed as a free resource.
翻訳日:2023-09-01 19:19:52 公開日:2023-08-31
# 言葉遊び:ChatGPTと人間における語彙と語彙の富度の比較

Playing with Words: Comparing the Vocabulary and Lexical Richness of ChatGPT and Humans ( http://arxiv.org/abs/2308.07462v2 )

ライセンス: Link先を確認
Pedro Reviriego, Javier Conde, Elena Merino-G\'omez, Gonzalo Mart\'inez, Jos\'e Alberto Hern\'andez(参考訳) GPT(Generative Pre-trained Transformer)のような人工知能(AI)生成言語モデルの導入と、ChatGPTのようなツールが、テキストの生成方法を変える革命を引き起こした。 例えば、aiが生成したテキストがテキストのかなりの部分を占めるようになると、これは読者の言語能力や、新しいaiツールのトレーニングに影響を与えるだろうか? 言語の進化に影響を与えますか? 単語; ChatGPTのようなツールの使用は、使用する語彙や語彙の豊かさを増大または減少させるか? これは、AI生成コンテンツに含まれないコンテンツは、人気が減り、最終的には失われる傾向があるため、言葉に影響を及ぼす。 そこで本研究では,ChatGPTとヒトの語彙と語彙の富度を,同じタスクを行う場合の初期比較を行った。 より詳しくは、ChatGPTと人間によって回答された様々な種類の質問に対する回答を含む2つのデータセットと、ChatGPTが文と質問を言い換える第3のデータセットが使用される。 この分析は、ChatGPTが人間よりも少ない単語と低い語彙の富を使う傾向があることを示している。 これらの結果は極めて予備的であり、追加のデータセットとChatGPT構成はより一般的な結論を抽出するために評価されなければならない。 したがって、ChatGPTやより広範囲に生成するAIツールの使用が、異なるタイプのテキストや言語における語彙や語彙の豊かさにどのように影響するかを理解するためには、さらなる研究が必要である。

The introduction of Artificial Intelligence (AI) generative language models such as GPT (Generative Pre-trained Transformer) and tools such as ChatGPT has triggered a revolution that can transform how text is generated. This has many implications, for example, as AI-generated text becomes a significant fraction of the text, would this have an effect on the language capabilities of readers and also on the training of newer AI tools? Would it affect the evolution of languages? Focusing on one specific aspect of the language: words; will the use of tools such as ChatGPT increase or reduce the vocabulary used or the lexical richness? This has implications for words, as those not included in AI-generated content will tend to be less and less popular and may eventually be lost. In this work, we perform an initial comparison of the vocabulary and lexical richness of ChatGPT and humans when performing the same tasks. In more detail, two datasets containing the answers to different types of questions answered by ChatGPT and humans, and a third dataset in which ChatGPT paraphrases sentences and questions are used. The analysis shows that ChatGPT tends to use fewer distinct words and lower lexical richness than humans. These results are very preliminary and additional datasets and ChatGPT configurations have to be evaluated to extract more general conclusions. Therefore, further research is needed to understand how the use of ChatGPT and more broadly generative AI tools will affect the vocabulary and lexical richness in different types of text and languages.
翻訳日:2023-09-01 19:19:34 公開日:2023-08-31
# 任意の次元と異なる次元に対する絡み合い証人の簡単な構成

A simple construction of Entanglement Witnesses for arbitrary and different dimensions ( http://arxiv.org/abs/2308.07019v2 )

ライセンス: Link先を確認
Vahid Jannesary, Vahid Karimipour(参考訳) 異なる次元の空間間の様々な正の写像の集合を生成するための簡単なアプローチを提案する。 提案手法は,$d_1 \times d_2$次元を特徴とするシステムに適したエンタングルメントウィットネスの構築を可能にする。 また,これらの次元において,広い範囲の絡み合いウィットネスを直接生成するための代替論証も提示する。 この方法では、選択された所望の測定集合のみからなる絡み合い証人を構成できる。 具体例を用いて,本手法の有効性と一般性を示す。

We present a simple approach for generation of a diverse set of positive maps between spaces of different dimensions. The proposed method enables the construction of Entanglement Witnesses tailored for systems characterized by $d_1 \times d_2$ dimensions. We also present an alternative argument for directly generating a wide range of Entanglement Witnesses in these dimensions. With this method, it is possible to construct Entanglement Witnesses that consist solely of a chosen set of desired measurements. We demonstrate the effectiveness and generality of our approach using concrete examples.
翻訳日:2023-09-01 19:19:06 公開日:2023-08-31
# PV-SSD:プロジェクションとボクセルベースダブルブランチ3Dオブジェクト検出器

PV-SSD: A Projection and Voxel-based Double Branch Single-Stage 3D Object Detector ( http://arxiv.org/abs/2308.06791v2 )

ライセンス: Link先を確認
Yongxin Shao and Aihong Tan and Zhetao Sun and Enhui Zheng and Tianhong Yan(参考訳) LIDARに基づく3Dオブジェクトの検出と分類は、自動運転に不可欠である。 しかし、非常にスパースな3Dデータからリアルタイムに推論することは、恐ろしい挑戦だ。 この問題に対処するために、共通のアプローチは、鳥の目や視点に雲を投影し、効果的に画像のようなデータ形式に変換することである。 しかし、ポイントクラウドデータの過剰な圧縮は、しばしば情報の喪失につながる。 本稿では,情報損失問題に対処するため,voxel と projection double branch feature extract (PV-SSD) に基づく3次元物体検出器を提案する。 プロジェクションによって引き起こされる局所情報損失を低減するため,特徴抽出段階の投影特徴と完全に融合したリッチな局所的意味情報を含むボクセル特徴入力を付加する。 前の作品と比べて良いパフォーマンスが得られます。 また,本稿は以下の貢献をしている。 1) 可変受容場をもつボクセル特徴抽出法を提案する。 2) 重みサンプリングによる特徴点サンプリング手法を用いて,検出課題に対してより分かりやすい特徴点をフィルタリングする。 3)MSSFAモジュールはSSFAモジュールに基づいて提案される。 本手法の有効性を検証するために比較実験を行った。

LIDAR-based 3D object detection and classification is crucial for autonomous driving. However, inference in real-time from extremely sparse 3D data poses a formidable challenge. To address this issue, a common approach is to project point clouds onto a bird's-eye or perspective view, effectively converting them into an image-like data format. However, this excessive compression of point cloud data often leads to the loss of information. This paper proposes a 3D object detector based on voxel and projection double branch feature extraction (PV-SSD) to address the problem of information loss. We add voxel features input containing rich local semantic information, which is fully fused with the projected features in the feature extraction stage to reduce the local information loss caused by projection. A good performance is achieved compared to the previous work. In addition, this paper makes the following contributions: 1) a voxel feature extraction method with variable receptive fields is proposed; 2) a feature point sampling method by weight sampling is used to filter out the feature points that are more conducive to the detection task; 3) the MSSFA module is proposed based on the SSFA module. To verify the effectiveness of our method, we designed comparison experiments.
翻訳日:2023-09-01 19:18:58 公開日:2023-08-31
# ファンデーションモデルに基づくAIシステムの分散ガバナンス - 責任あるAIにおけるブロックチェーンの役割を探る

Decentralised Governance for Foundation Model based AI Systems: Exploring the Role of Blockchain in Responsible AI ( http://arxiv.org/abs/2308.05962v2 )

ライセンス: Link先を確認
Yue Liu, Qinghua Lu, Liming Zhu, Hye-Young Paik(参考訳) 大規模言語モデル(LLM)を含む基礎モデルは、その卓越した能力と幅広いタスクを実行する可能性によって、世界中で注目を集めている。 それでも、ファンデーションモデルベースのAIシステムが、ファンデーションモデルベースのAIシステムの信頼性を確保するために適切に管理されているか、人間、社会、環境を傷つける可能性のある誤用を防ぐために、人々は懸念している。 本稿では,財団モデルに基づくAIシステムのガバナンス課題として,意思決定権,インセンティブ,説明責任の3つの基本的側面について挙げる。 さらに,分散ガバナンスを促進する分散型台帳を提供することによって,課題に対処するソリューションとしてのブロックチェーンの可能性についても検討する。 基礎モデルに基づくAIシステムにおいて,ブロックチェーンをどのように活用してガバナンスを実現するかを示すアーキテクチャを提案する。

Foundation models including large language models (LLMs) are increasingly attracting interest worldwide for their distinguished capabilities and potential to perform a wide variety of tasks. Nevertheless, people are concerned about whether foundation model based AI systems are properly governed to ensure trustworthiness of foundation model based AI systems and to prevent misuse that could harm humans, society and the environment. In this paper, we identify eight governance challenges of foundation model based AI systems regarding the three fundamental dimensions of governance: decision rights, incentives, and accountability. Furthermore, we explore the potential of blockchain as a solution to address the challenges by providing a distributed ledger to facilitate decentralised governance. We present an architecture that demonstrates how blockchain can be leveraged to realise governance in foundation model based AI systems.
翻訳日:2023-09-01 19:18:17 公開日:2023-08-31
# 知識グラフ補完のための大規模言語モデル探索

Exploring Large Language Models for Knowledge Graph Completion ( http://arxiv.org/abs/2308.13916v2 )

ライセンス: Link先を確認
Liang Yao, Jiazhen Peng, Chengsheng Mao, Yuan Luo(参考訳) 知識グラフは多くの人工知能タスクにおいて重要な役割を果たすが、不完全性の問題にしばしば直面する。 本研究では,Large Language Models (LLM) を用いて知識グラフの補完を行う。 我々は知識グラフのトリプルをテキストシーケンスとみなし、これらのトリプルをモデル化するための知識グラフ LLM (KG-LLM) と呼ばれる革新的なフレームワークを導入する。 提案手法では,三重項の実体記述と関係記述を用いて,その応答を予測に利用する。 ベンチマークナレッジグラフを用いた実験により,トリプル分類や関係予測などのタスクにおいて,最先端の性能が得られることが示された。 また、微調整モデル(LLaMA-7B、ChatGLM-6B)が最近のChatGPTおよびGPT-4より優れていることも見出した。

Knowledge graphs play a vital role in numerous artificial intelligence tasks, yet they frequently face the issue of incompleteness. In this study, we explore utilizing Large Language Models (LLM) for knowledge graph completion. We consider triples in knowledge graphs as text sequences and introduce an innovative framework called Knowledge Graph LLM (KG-LLM) to model these triples. Our technique employs entity and relation descriptions of a triple as prompts and utilizes the response for predictions. Experiments on various benchmark knowledge graphs demonstrate that our method attains state-of-the-art performance in tasks such as triple classification and relation prediction. We also find that fine-tuning relatively smaller models (e.g., LLaMA-7B, ChatGLM-6B) outperforms recent ChatGPT and GPT-4.
翻訳日:2023-09-01 19:12:03 公開日:2023-08-31
# 産業人工知能のための確率的構成機械

Stochastic Configuration Machines for Industrial Artificial Intelligence ( http://arxiv.org/abs/2308.13570v2 )

ライセンス: Link先を確認
Dianhui Wang and Matthew J. Felicetti(参考訳) ニューラルネットワークが重要な役割を果たす産業人工知能(IAI)では、望ましい精度でリアルタイム予測モデルが期待されている。 iaiのニューラルネットワークは、大量の浮動小数点データを操作するために強力な高性能コンピューティングデバイスを必要とする。 本稿では,確率的構成ネットワーク(scns)に基づいて,産業用途に有用で有用な効率的なモデリングとデータサイズ削減を強調する,確率的構成マシン(scms)と呼ばれる新しいランダム化学習モデルを提案する。 SCN とランダムベクトル汎関数リンク (RVFL) ネットを二項化した実装と比較すると,SCM のモデル記憶は良好な予測性能を維持しつつ大幅に圧縮できる。 SCM学習者モデルとその学習アルゴリズムのアーキテクチャに加えて、この貢献の重要な部分として、モデルの複雑さを分析することによって、SCMの学習能力に関する理論的基盤を提供する。 いくつかのベンチマークデータセットと3つの産業応用で実験研究が行われている。 その結果,SCMは産業データ分析に大きく貢献する可能性が示唆された。

Real-time predictive modelling with desired accuracy is highly expected in industrial artificial intelligence (IAI), where neural networks play a key role. Neural networks in IAI require powerful, high-performance computing devices to operate a large number of floating point data. Based on stochastic configuration networks (SCNs), this paper proposes a new randomized learner model, termed stochastic configuration machines (SCMs), to stress effective modelling and data size saving that are useful and valuable for industrial applications. Compared to SCNs and random vector functional-link (RVFL) nets with binarized implementation, the model storage of SCMs can be significantly compressed while retaining favourable prediction performance. Besides the architecture of the SCM learner model and its learning algorithm, as an important part of this contribution, we also provide a theoretical basis on the learning capacity of SCMs by analysing the model's complexity. Experimental studies are carried out over some benchmark datasets and three industrial applications. The results demonstrate that SCM has great potential for dealing with industrial data analytics.
翻訳日:2023-09-01 19:11:48 公開日:2023-08-31
# 削除ネット:DNN指紋除去攻撃

RemovalNet: DNN Fingerprint Removal Attacks ( http://arxiv.org/abs/2308.12319v2 )

ライセンス: Link先を確認
Hongwei Yao, Zheng Li, Kunzhe Huang, Jian Lou, Zhan Qin, Kui Ren(参考訳) ディープニューラルネットワーク(DNN)の性能が著しく向上し、DNNは多くの分野で広く利用されている。 その結果、DNNモデルは貴重な資産となり、その知的財産は所有権認証技術(例えばDNNフィンガープリント)によって保護されている。 しかし、DNN指紋除去攻撃の可能性とその潜在的な影響は未解決のままである。 本稿では,dnn指紋除去攻撃に関する第1報を包括的に検討する。 一般的に、DNNモデルに含まれる知識は、一般的な意味と指紋固有の知識に分類することができる。 そこで本研究では,モデルオーナシップの検証を回避するため,min-maxバイレベル最適化に基づくDeleteNetと呼ばれるDNN指紋除去攻撃を提案する。 低レベルの最適化は、指紋特有の知識を取り除くように設計されている。 上位レベルの最適化では,サロゲートモデルの性能を維持するために,被害者モデルの一般的な意味知識を精査する。 我々は,6つの指標を用いた4つの先進防衛手法に対する除去網の忠実度,有効性,効率を評価するために,広範囲な実験を行った。 その結果,(1)除去ネットの有効性が示された。 dnn指紋除去攻撃後,ターゲットモデルとサロゲートモデルとのモデル距離は,ベースライン攻撃のx100倍であり,(2)除去ネットは効率的である。 代替データセットの0.2%(400サンプル)と1000回のイテレーションで攻撃を行います。 さらに、高度なモデル盗難攻撃と比較して、DeleteNetは最大で85%の計算資源を節約し、(3)DeleteNetはDNN指紋除去プロセス後に生成したサロゲートモデルが高い精度を維持することを達成している。 私たちのコードは、https://github.com/grasses/RemovalNet.comで利用可能です。

With the performance of deep neural networks (DNNs) remarkably improving, DNNs have been widely used in many areas. Consequently, the DNN model has become a valuable asset, and its intellectual property is safeguarded by ownership verification techniques (e.g., DNN fingerprinting). However, the feasibility of the DNN fingerprint removal attack and its potential influence remains an open problem. In this paper, we perform the first comprehensive investigation of DNN fingerprint removal attacks. Generally, the knowledge contained in a DNN model can be categorized into general semantic and fingerprint-specific knowledge. To this end, we propose a min-max bilevel optimization-based DNN fingerprint removal attack named RemovalNet, to evade model ownership verification. The lower-level optimization is designed to remove fingerprint-specific knowledge. While in the upper-level optimization, we distill the victim model's general semantic knowledge to maintain the surrogate model's performance. We conduct extensive experiments to evaluate the fidelity, effectiveness, and efficiency of the RemovalNet against four advanced defense methods on six metrics. The empirical results demonstrate that (1) the RemovalNet is effective. After our DNN fingerprint removal attack, the model distance between the target and surrogate models is x100 times higher than that of the baseline attacks, (2) the RemovalNet is efficient. It uses only 0.2% (400 samples) of the substitute dataset and 1,000 iterations to conduct our attack. Besides, compared with advanced model stealing attacks, the RemovalNet saves nearly 85% of computational resources at most, (3) the RemovalNet achieves high fidelity that the created surrogate model maintains high accuracy after the DNN fingerprint removal process. Our code is available at: https://github.com/grasses/RemovalNet.
翻訳日:2023-09-01 19:11:31 公開日:2023-08-31
# 2次量子相関理論における保存法則の導出

Derivation of Conservation Laws in 2nd order Quantum-Correlation Theory ( http://arxiv.org/abs/2308.11772v2 )

ライセンス: Link先を確認
Sobhan Sounda and Dibyendu jana(参考訳) 本稿では,2階量子相関テンソルに基礎概念を拡張し,強度-強度相関を表現し,その重要性を増す様々な光場実験への応用として,エネルギー,線形運動量,角運動量などの保存量を調査し,量子相関の動的性質を照らし出す。

This paper extends the foundational concept to second-order quantum correlation tensors, representing intensity-intensity correlations.As their application in diverse optical field experiments gaining importance, we investigate conserved quantities such as energy, linear and angular momentum and illuminate the dynamic nature of quantum correlations.
翻訳日:2023-09-01 19:11:03 公開日:2023-08-31
# 量子力学から見た量子化に基づく最適化

Quantization-based Optimization with Perspective of Quantum Mechanics ( http://arxiv.org/abs/2308.11594v2 )

ライセンス: Link先を確認
Jinwuk Seok, and Changsik Cho(参考訳) 熱力学に基づく統計的・確率的解析は、確率的大域的最適化の主要な分析フレームワークである。 近年,グローバル最適化のための量子アニーリングや量子トンネリングアルゴリズムが登場し,グローバル最適化アルゴリズムのための新たな研究フレームワークが求められている。 本稿では、量子力学のどの性質が大域的最適化を可能にするかを明らかにするために、Schr\"odinger方程式に基づく量子化に基づく最適化の解析を行う。 量子化に基づく最適化におけるschr\"odinger方程式によるトンネル効果は,局所最小値の回避を可能にする。 さらに, このトンネル効果が, 量子力学に基づく大域的最適化に含まれるのと同じ性質であることを確認した。 標準マルチモーダルベンチマーク関数を用いた実験は,提案手法が有効であることを示す。

Statistical and stochastic analysis based on thermodynamics has been the main analysis framework for stochastic global optimization. Recently, appearing quantum annealing or quantum tunneling algorithm for global optimization, we require a new researching framework for global optimization algorithms. In this paper, we provide the analysis for quantization-based optimization based on the Schr\"odinger equation to reveal what property in quantum mechanics enables global optimization. We present that the tunneling effect derived by the Schr\"odinger equation in quantization-based optimization enables to escape of a local minimum. Additionally, we confirm that this tunneling effect is the same property included in quantum mechanics-based global optimization. Experiments with standard multi-modal benchmark functions represent that the proposed analysis is valid.
翻訳日:2023-09-01 19:10:55 公開日:2023-08-31
# RBA-GCN:感情認識のためのリレーショナルバイレベルアグリゲーショングラフ畳み込みネットワーク

RBA-GCN: Relational Bilevel Aggregation Graph Convolutional Network for Emotion Recognition ( http://arxiv.org/abs/2308.11029v2 )

ライセンス: Link先を確認
Lin Yuan, Guoheng Huang, Fenghuan Li, Xiaochen Yuan, Chi-Man Pun, Guo Zhong(参考訳) Emotion recognition in conversation (ERC) has received increasing attention from researchers due to its wide range of applications.As conversation has a natural graph structure,numerous approaches used to model ERC based on graph convolutional networks (GCNs) have yielded significant results.However,the aggregation approach of traditional GCNs suffers from the node information redundancy problem,leading to node discriminant information loss.Additionally,single-layer GCNs lack the capacity to capture long-range contextual information from the graph. さらに、ほとんどのアプローチはテキストのモダリティに基づいており、異なるモダリティを縫い合わせることで、モダリティ間の相互作用を捉える能力は弱くなる。 これらの問題に対処するために,グラフ生成モジュール (ggm) と類似性に基づくクラスタ構築モジュール (scbm) とbilevel aggregation module (biam) の3つのモジュールからなる,リレーショナルバイレベルアグリゲーショングラフ畳み込みネットワーク (rba-gcn) を提案する。 まず、ggmは、ターゲットノード情報の冗長性を低減するための新しいグラフを構築し、scmmは、ターゲットノードとその構造近傍のノード類似度を算出し、そのノードの識別情報を保持するために、類似度の低いノイズ情報をフィルタアウトする。 一方、BiAMは集約プロセス中にノードの情報を保存できる新しい集約手法である。 このモジュールは、異なるモダリティ間の相互作用を構築し、類似性クラスタに基づく長距離コンテキスト情報をキャプチャすることができる。 当社のコードはhttps://github.com/luftmenscher/RBA-GCNで公開されており、同名の記事がIEEE/ACM Transactions on Audio,Speech,and Language Processing,vol.31,2023で公開されている。

Emotion recognition in conversation (ERC) has received increasing attention from researchers due to its wide range of applications.As conversation has a natural graph structure,numerous approaches used to model ERC based on graph convolutional networks (GCNs) have yielded significant results.However,the aggregation approach of traditional GCNs suffers from the node information redundancy problem,leading to node discriminant information loss.Additionally,single-layer GCNs lack the capacity to capture long-range contextual information from the graph. Furthermore,the majority of approaches are based on textual modality or stitching together different modalities, resulting in a weak ability to capture interactions between modalities. To address these problems, we present the relational bilevel aggregation graph convolutional network (RBA-GCN), which consists of three modules: the graph generation module (GGM), similarity-based cluster building module (SCBM) and bilevel aggregation module (BiAM). First, GGM constructs a novel graph to reduce the redundancy of target node information.Then,SCBM calculates the node similarity in the target node and its structural neighborhood, where noisy information with low similarity is filtered out to preserve the discriminant information of the node. Meanwhile, BiAM is a novel aggregation method that can preserve the information of nodes during the aggregation process. This module can construct the interaction between different modalities and capture long-range contextual information based on similarity clusters. On both the IEMOCAP and MELD datasets, the weighted average F1 score of RBA-GCN has a 2.17$\sim$5.21\% improvement over that of the most advanced method.Our code is available at https://github.com/luftmenscher/RBA-GCN and our article with the same name has been published in IEEE/ACM Transactions on Audio,Speech,and Language Processing,vol.31,2023
翻訳日:2023-09-01 19:10:23 公開日:2023-08-31
# DocPrompt: ゼロショットと少数ショットの文書質問応答のための大規模継続事前トレーニング

DocPrompt: Large-scale continue pretrain for zero-shot and few-shot document question answering ( http://arxiv.org/abs/2308.10959v2 )

ライセンス: Link先を確認
Sijin Wu, Dan Zhang, Teng Hu, Shikun Feng(参考訳) 本稿では,ゼロショットと少数ショットのパフォーマンスを持つ文書質問応答タスクのためのDocpromptを提案する。 本研究では,弱い教師付きデータ生成手法,新しいマルチステージ学習法,新しい理解モデル \&生成モデルアンサンブル法を提案する。 我々は4つの文書質問応答タスクで最先端のパフォーマンスを達成した。 この手法は、顧客プロジェクトに対する文書質問の配信効率とモデル性能を大幅に改善し、アノテーションコストと労力コストを削減する。 私たちのデモはhttps://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout.orgにある。

In this paper, we propose Docprompt for document question answering tasks with powerful zero-shot and few-shot performance. We proposed a novel weakly supervised data generation method, a novel multl-stage training method and a novel understanding model \& generation model ensemble method. We achieved state-of-the-art performance on 4 document question answering tasks. This method greatly improves the delivery efficiency and model performance of document question answering customer projects, reducing annotation costs and labor costs. Our demo can be found at https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout.
翻訳日:2023-09-01 19:09:50 公開日:2023-08-31
# 分離と位置付け:テキストベースのビジュアル質問応答におけるテキストの再検討

Separate and Locate: Rethink the Text in Text-based Visual Question Answering ( http://arxiv.org/abs/2308.16383v1 )

ライセンス: Link先を確認
Chengyang Fang, Jiangnan Li, Liang Li, Can Ma, Dayong Hu(参考訳) テキストベースのVisual Question Answering (TextVQA)は、画像中のテキストに関する質問に答えることを目的としている。 この分野での作業の多くは、ネットワーク構造や事前トレーニングタスクの設計に重点を置いている。 これらのメソッドはすべてocrテキストを(左から右へ、上から下へ)読み出し順にリストし、シーケンスを形成し、これは自然言語 `sentence'' として扱われる。 しかし、TextVQAタスクのほとんどのOCRワードが意味的文脈関係を持たないという事実を無視している。 さらに,OCRトークン間の空間的関係を連続的に構築するために1次元位置埋め込みを用いるが,これは妥当ではない。 1次元位置埋め込みは文中の単語間の左右のシーケンス関係を表現できるが、複雑な空間的位置関係は表現できない。 そこで本研究では,ocrテキスト間の空間的関係を構築するために,テキストの文脈的手がかりを探索し,空間的位置埋め込みをデザインするsal(dispartment and location)という新しい手法を提案する。 具体的には、単語が意味的文脈関係を持つかどうかをモデルが認識するのに役立つテキスト意味分離(TSS)モジュールを提案する。 次に、OCRテキスト間の空間的位置関係をよりよく構築し、推論するのに役立つ空間円位置(SCP)モジュールを提案する。 我々のSaLモデルは、TextVQAとST-VQAデータセットでベースラインモデルを4.44%、精度3.96%で上回る。 6600万の事前学習サンプルで事前学習した最先端の手法と比較して,本手法は未訓練作業なしで,TextVQAとST-VQAで2.68%,2.52%の精度向上を実現している。 私たちのコードとモデルはhttps://github.com/fangbufang/salでリリースされる予定です。

Text-based Visual Question Answering (TextVQA) aims at answering questions about the text in images. Most works in this field focus on designing network structures or pre-training tasks. All these methods list the OCR texts in reading order (from left to right and top to bottom) to form a sequence, which is treated as a natural language ``sentence''. However, they ignore the fact that most OCR words in the TextVQA task do not have a semantical contextual relationship. In addition, these approaches use 1-D position embedding to construct the spatial relation between OCR tokens sequentially, which is not reasonable. The 1-D position embedding can only represent the left-right sequence relationship between words in a sentence, but not the complex spatial position relationship. To tackle these problems, we propose a novel method named Separate and Locate (SaL) that explores text contextual cues and designs spatial position embedding to construct spatial relations between OCR texts. Specifically, we propose a Text Semantic Separate (TSS) module that helps the model recognize whether words have semantic contextual relations. Then, we introduce a Spatial Circle Position (SCP) module that helps the model better construct and reason the spatial position relationships between OCR texts. Our SaL model outperforms the baseline model by 4.44% and 3.96% accuracy on TextVQA and ST-VQA datasets. Compared with the pre-training state-of-the-art method pre-trained on 64 million pre-training samples, our method, without any pre-training tasks, still achieves 2.68% and 2.52% accuracy improvement on TextVQA and ST-VQA. Our code and models will be released at https://github.com/fangbufang/SaL.
翻訳日:2023-09-01 18:12:53 公開日:2023-08-31
# 属性ネットワークにおけるコミュニティ検出のための確率ブロックモデル

A stochastic block model for community detection in attributed networks ( http://arxiv.org/abs/2308.16382v1 )

ライセンス: Link先を確認
Xiao Wang, Fang Dai, Wenyan Guo, Junfeng Wang(参考訳) コミュニティ検出は複雑なネットワーク分析において重要なコンテンツである。 既存ネットワークにおける既存のコミュニティ検出手法はネットワーク構造のみに重点を置いているが、ノード属性を統合する手法は主に従来のコミュニティ構造を対象としており、ネットワーク内のマルチパーティタイト構造や混合構造は検出できない。 さらに,現在提案されている属性ネットワークに対するモデルベースコミュニティ検出手法は,ノード間の重心性やクラスタリング係数などのトポロジ情報を十分に考慮していない。 そこで本稿では,BCSBMと呼ばれる属性付きネットワークにおけるコミュニティ検出のためのノードの重心性とクラスタリング係数を統合した確率ブロックモデルを提案する。 属性ネットワークの他の生成モデルとは異なり、BCSBMモデルにおけるリンクと属性の生成プロセスはポアソン分布に従っており、確率ブロックモデルに基づいてコミュニティ間の確率が考慮される。 さらに、ノード間の重心性とクラスタリング係数をリンクと属性生成のプロセスに導入する。 最後に, 予測最大化アルゴリズムを用いてBCSBMモデルのパラメータを推定し, ノード・コミュニティ・メンバシップをハード・ディビジョン・プロセスを通じて取得し, コミュニティ検出を完了させる。 異なるネットワーク構造を含む6つの実ネットワーク上で実験を行い、5つのアルゴリズムのコミュニティ検出結果と比較することにより、BCSBMモデルは確率的ブロックモデルの利点を継承し、様々なネットワーク構造を検出できるだけでなく、ノード間の重心性やクラスタリング係数の導入によるデータ適合性も良好であることを示す。 全体として、このモデルの性能は他の5つの比較アルゴリズムよりも優れている。

Community detection is an important content in complex network analysis. The existing community detection methods in attributed networks mostly focus on only using network structure, while the methods of integrating node attributes is mainly for the traditional community structures, and cannot detect multipartite structures and mixture structures in network. In addition, the model-based community detection methods currently proposed for attributed networks do not fully consider unique topology information of nodes, such as betweenness centrality and clustering coefficient. Therefore, a stochastic block model that integrates betweenness centrality and clustering coefficient of nodes for community detection in attributed networks, named BCSBM, is proposed in this paper. Different from other generative models for attributed networks, the generation process of links and attributes in BCSBM model follows the Poisson distribution, and the probability between community is considered based on the stochastic block model. Moreover, the betweenness centrality and clustering coefficient of nodes are introduced into the process of links and attributes generation. Finally, the expectation maximization algorithm is employed to estimate the parameters of the BCSBM model, and the node-community memberships is obtained through the hard division process, so the community detection is completed. By experimenting on six real-work networks containing different network structures, and comparing with the community detection results of five algorithms, the experimental results show that the BCSBM model not only inherits the advantages of the stochastic block model and can detect various network structures, but also has good data fitting ability due to introducing the betweenness centrality and clustering coefficient of nodes. Overall, the performance of this model is superior to other five compared algorithms.
翻訳日:2023-09-01 18:12:21 公開日:2023-08-31
# 3次元視覚に基づく構造的石造損傷検出

3D vision-based structural masonry damage detection ( http://arxiv.org/abs/2308.16380v1 )

ライセンス: Link先を確認
Elmira Faraji Zonouz, Xiao Pan, Yu-Cheng Hsu, Tony Yang(参考訳) 石工の損傷の検出は、潜在的に悲惨な結果を引き起こすのを防ぐために不可欠である。 しかし、手動検査は長い時間がかかり、人間の検査者には危険である。 新たなコンピュータビジョンと機械学習アルゴリズムを用いた検査プロセスの自動化は、石工構造物のさらなる劣化を防止するため、より効率的で安全な解決策となり得る。 既存の2Dビジョンベースの手法の多くは、定性的損傷分類、2Dローカライゼーション、平面内定量化に限られている。 本研究では,より広い視野,視深度,複雑な環境下での故障検出機能を備えた,より堅牢なソリューションを提供する,正確な石英損傷検出のための3次元視覚ベースの方法論を提案する。 まず、石造標本の画像を収集し、3D点雲を生成する。 第2に, 石材損傷を評価するため, 3次元点雲処理法を開発した。 構造石英部品の実験を通して, 提案手法の有効性を実証する。 実験により, 本システムは損傷状態を効果的に分類し, 致命的な損傷特性を局所化し, 定量化できることを示した。 その結果,提案手法は石工構造物の点検時の自立度を向上させることができることがわかった。

The detection of masonry damage is essential for preventing potentially disastrous outcomes. Manual inspection can, however, take a long time and be hazardous to human inspectors. Automation of the inspection process using novel computer vision and machine learning algorithms can be a more efficient and safe solution to prevent further deterioration of the masonry structures. Most existing 2D vision-based methods are limited to qualitative damage classification, 2D localization, and in-plane quantification. In this study, we present a 3D vision-based methodology for accurate masonry damage detection, which offers a more robust solution with a greater field of view, depth of vision, and the ability to detect failures in complex environments. First, images of the masonry specimens are collected to generate a 3D point cloud. Second, 3D point clouds processing methods are developed to evaluate the masonry damage. We demonstrate the effectiveness of our approach through experiments on structural masonry components. Our experiments showed the proposed system can effectively classify damage states and localize and quantify critical damage features. The result showed the proposed method can improve the level of autonomy during the inspection of masonry structures.
翻訳日:2023-09-01 18:11:52 公開日:2023-08-31
# オフライン強化学習のための多目的決定トランスフォーマ

Multi-Objective Decision Transformers for Offline Reinforcement Learning ( http://arxiv.org/abs/2308.16379v1 )

ライセンス: Link先を確認
Abdelghani Ghanem, Philippe Ciblat, Mounir Ghogho(参考訳) オフライン強化学習(RL)は、リアルタイム環境相互作用を必要としない静的軌道データからポリシーを導出するように構成されている。 近年の研究では、オフラインRLのフレーミングがシーケンスモデリングタスクとして実現可能であることを示しており、トランスフォーマーアーキテクチャを用いて、事前のコンテキストに基づいてアクションを予測することが唯一の目的である。 しかし、この単一タスク学習アプローチの限界は、最適予測のために入力コンテキストにおける異なるトークン間の異なる注意重みを理想的に割り当てるトランスフォーマーモデルの注意メカニズムを損なう可能性である。 これを解決するために、オフラインRLを多目的最適化問題として再構成し、予測を状態に拡張して返却する。 また、状態と戻り分布をモデル化する際に不正確な結果が得られるような、シーケンスモデリングに使用される軌道表現の潜在的な欠陥も強調する。 これは行動政策によって引き起こされる軌道内の行動分布の非スムース性に起因する。 この問題を緩和するために、軌道表現にアクション空間領域を導入する。 D4RLベンチマークロコモーションタスクの実験により,提案手法はトランスフォーマーモデルにおけるアテンションメカニズムをより効果的に活用することができ,その結果,現在の最先端技術手法に適合または優れる性能が得られることが示された。

Offline Reinforcement Learning (RL) is structured to derive policies from static trajectory data without requiring real-time environment interactions. Recent studies have shown the feasibility of framing offline RL as a sequence modeling task, where the sole aim is to predict actions based on prior context using the transformer architecture. However, the limitation of this single task learning approach is its potential to undermine the transformer model's attention mechanism, which should ideally allocate varying attention weights across different tokens in the input context for optimal prediction. To address this, we reformulate offline RL as a multi-objective optimization problem, where the prediction is extended to states and returns. We also highlight a potential flaw in the trajectory representation used for sequence modeling, which could generate inaccuracies when modeling the state and return distributions. This is due to the non-smoothness of the action distribution within the trajectory dictated by the behavioral policy. To mitigate this issue, we introduce action space regions to the trajectory representation. Our experiments on D4RL benchmark locomotion tasks reveal that our propositions allow for more effective utilization of the attention mechanism in the transformer model, resulting in performance that either matches or outperforms current state-of-the art methods.
翻訳日:2023-09-01 18:11:38 公開日:2023-08-31
# 混合行列の予想外平均値

Unexpected Averages of Mixing Matrices ( http://arxiv.org/abs/2308.16378v1 )

ライセンス: Link先を確認
Pedro Baptista, Gabriel Coutinho, Vitor Marques(参考訳) 連続時間量子ウォークの(標準)平均混合行列は、実線上の一様サンプリング分布の下でウォークの混合行列の期待値を取ることにより計算される。 本稿では、離散的あるいは連続的な代替確率分布を考察し、まず、平均混合行列を保った代数的性質が、このより一般的な設定を保っていることを示す。 次に、平均混合行列が予期しない方法で振る舞うような分布のグラフと選択の例を示す: 例えば、3つまたは4つの頂点上の経路の平均混合行列が一定のエントリを持つ確率分布が存在することを示し、古典的な確率分布を用いて量子ウォークをサンプリングし、所望の量子効果を得る方法に関する重要な研究ラインを開く。 平均混合行列のトレースと量子ウォーク特性を繋ぐ結果を示し, 平均状態のグラム行列は関連する分布の平均混合行列であることを示した。 テキスト全体を通して、量子ウォークに関するテキストには通常見られない古典的確率論の概念を用いる。

The (standard) average mixing matrix of a continuous-time quantum walk is computed by taking the expected value of the mixing matrices of the walk under the uniform sampling distribution on the real line. In this paper we consider alternative probability distributions, either discrete or continuous, and first we show that several algebraic properties that hold for the average mixing matrix still stand for this more general setting. Then, we provide examples of graphs and choices of distributions where the average mixing matrix behaves in an unexpected way: for instance, we show that there are probability distributions for which the average mixing matrices of the paths on three or four vertices have constant entries, opening a significant line of investigation about how to use classical probability distributions to sample quantum walks and obtain desired quantum effects. We present results connecting the trace of the average mixing matrix and quantum walk properties, and we show that the Gram matrix of average states is the average mixing matrix of a certain related distribution. Throughout the text, we employ concepts of classical probability theory not usually seen in texts about quantum walks.
翻訳日:2023-09-01 18:11:15 公開日:2023-08-31
# 臨床部位にまたがる多発性硬化症病変の分節化の改善 : ノイズレジリエントトレーニングを用いた連合学習アプローチ

Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites: A Federated Learning Approach with Noise-Resilient Training ( http://arxiv.org/abs/2308.16376v1 )

ライセンス: Link先を確認
Lei Bai and Dongang Wang and Michael Barnett and Mariano Cabezas and Weidong Cai and Fernando Calamante and Kain Kyle and Dongnan Liu and Linda Ly and Aria Nguyen and Chun-Chien Shieh and Ryan Sullivan and Hengrui Wang and Geng Zhan and Wanli Ouyang and Chenyu Wang(参考訳) 多発性硬化症(MS)とMRI(MRI)の進化を正確に測定することは、疾患の進行を理解し、直接治療戦略に役立つ。 深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。 単一臨床現場から十分なデータを得ることは困難であり、モデルロバスト性の必要性には対処していない。 逆に、複数のサイトからのデータ収集は、さまざまなアノテーション標準によるデータプライバシの懸念と潜在的なラベルノイズを導入している。 このジレンマに対処するために,ラベルノイズを考慮したフェデレーション学習フレームワークの利用について検討する。 本手法は,ラベル修正に基づくノイズロバストトレーニング戦略を取り入れたフェデレート学習パラダイムの下で,データプライバシを損なうことなく,複数の臨床現場間のコラボレーションを可能にする。 具体的には,MS病変の不均衡分布とファジィ境界を考慮したDHLC(Decoupled Hard Label Correction)戦略を導入し,予測信頼度に基づく偽アノテーションの修正を可能にする。 また, 集約された中央モデルを全部位の補正教師として活用し, 補正プロセスの信頼性を高める中央拡張ラベル補正(CELC)戦略も導入した。 2つの多地点データセットを用いた広範囲な実験により,提案手法の有効性とロバスト性を示し,多地点共同研究における臨床応用の可能性を示した。

Accurately measuring the evolution of Multiple Sclerosis (MS) with magnetic resonance imaging (MRI) critically informs understanding of disease progression and helps to direct therapeutic strategy. Deep learning models have shown promise for automatically segmenting MS lesions, but the scarcity of accurately annotated data hinders progress in this area. Obtaining sufficient data from a single clinical site is challenging and does not address the heterogeneous need for model robustness. Conversely, the collection of data from multiple sites introduces data privacy concerns and potential label noise due to varying annotation standards. To address this dilemma, we explore the use of the federated learning framework while considering label noise. Our approach enables collaboration among multiple clinical sites without compromising data privacy under a federated learning paradigm that incorporates a noise-robust training strategy based on label correction. Specifically, we introduce a Decoupled Hard Label Correction (DHLC) strategy that considers the imbalanced distribution and fuzzy boundaries of MS lesions, enabling the correction of false annotations based on prediction confidence. We also introduce a Centrally Enhanced Label Correction (CELC) strategy, which leverages the aggregated central model as a correction teacher for all sites, enhancing the reliability of the correction process. Extensive experiments conducted on two multi-site datasets demonstrate the effectiveness and robustness of our proposed methods, indicating their potential for clinical applications in multi-site collaborations.
翻訳日:2023-09-01 18:10:56 公開日:2023-08-31
# グラフニューラルネットワークにおけるプライバシに関する調査--攻撃・保存・応用

A Survey on Privacy in Graph Neural Networks: Attacks, Preservation, and Applications ( http://arxiv.org/abs/2308.16375v1 )

ライセンス: Link先を確認
Yi Zhang, Yuying Zhao, Zhaoqing Li, Xueqi Cheng, Yu Wang, Olivera Kotevska, Philip S. Yu, Tyler Derr(参考訳) グラフニューラルネットワーク(gnns)は,グラフ構造化データの処理能力と実用的応用性の向上により,注目を集めている。 しかし、これらのモデルの多くは、プライバシへの配慮が欠如しているため、プライバシ攻撃が盛んである現代社会において、高いユーティリティパフォーマンスを優先している。 この問題に対処するため、研究者らはプライバシー保護のGNNの開発を開始した。 この進歩にもかかわらず、攻撃の包括的概要と、グラフドメインのプライバシを保存するためのテクニックが欠如している。 本調査では,対象情報に基づいてグラフデータに対する攻撃を要約し,GNNにおけるプライバシ保護手法を分類し,GNNにおけるプライバシ問題の分析・解決に使用できるデータセットやアプリケーションのレビューを行うことにより,このギャップに対処することを目的とする。 また、プライバシー保護のためのGNNを構築するための今後の研究の方向性についても概説する。

Graph Neural Networks (GNNs) have gained significant attention owing to their ability to handle graph-structured data and the improvement in practical applications. However, many of these models prioritize high utility performance, such as accuracy, with a lack of privacy consideration, which is a major concern in modern society where privacy attacks are rampant. To address this issue, researchers have started to develop privacy-preserving GNNs. Despite this progress, there is a lack of a comprehensive overview of the attacks and the techniques for preserving privacy in the graph domain. In this survey, we aim to address this gap by summarizing the attacks on graph data according to the targeted information, categorizing the privacy preservation techniques in GNNs, and reviewing the datasets and applications that could be used for analyzing/solving privacy issues in GNNs. We also outline potential directions for future research in order to build better privacy-preserving GNNs.
翻訳日:2023-09-01 18:10:13 公開日:2023-08-31
# 科学機械学習のための人工-スパイクニューラルネットワーク変換

Artificial to Spiking Neural Networks Conversion for Scientific Machine Learning ( http://arxiv.org/abs/2308.16372v1 )

ライセンス: Link先を確認
Qian Zhang, Chenxi Wu, Adar Kahana, Youngeun Kim, Yuhang Li and George Em Karniadakis, Priyadarshini Panda(参考訳) 本研究では,科学機械学習で一般的に使用される物理情報ニューラルネットワーク(PINN)を,従来のニューラルネットワーク(ANN)と比較してエネルギー効率の高いスパイキングニューラルネットワーク(SNN)に変換する手法を提案する。 まず、SNNのキャリブレーション手法をReLU以外の任意のアクティベーション関数に拡張し、より汎用性を高め、キャリブレーションの有効性を保証する定理を証明した。 我々はpinnをsnsに変換することに成功し,非定常navier-stokes方程式を含む複数の微分方程式の解法において,様々な回帰問題に対する計算効率が向上した。 トレーニングプロセスを加速する分離可能なPINN(SPINN)を含む、全体的な効率の面で大きな向上を示す。 全体として、これはこの種の最初の作業であり、提案手法は比較的精度が高くスパイク率が低い。

We introduce a method to convert Physics-Informed Neural Networks (PINNs), commonly used in scientific machine learning, to Spiking Neural Networks (SNNs), which are expected to have higher energy efficiency compared to traditional Artificial Neural Networks (ANNs). We first extend the calibration technique of SNNs to arbitrary activation functions beyond ReLU, making it more versatile, and we prove a theorem that ensures the effectiveness of the calibration. We successfully convert PINNs to SNNs, enabling computational efficiency for diverse regression tasks in solving multiple differential equations, including the unsteady Navier-Stokes equations. We demonstrate great gains in terms of overall efficiency, including Separable PINNs (SPINNs), which accelerate the training process. Overall, this is the first work of this kind and the proposed method achieves relatively good accuracy with low spike rates.
翻訳日:2023-09-01 18:09:45 公開日:2023-08-31
# 計測問題はバグではなく特徴である - オブザーバをポストとしてスケジューリングし、情報的(neo-)ボヘリア的(neo-)なアプローチに基づくオープンシステムの量子力学的概念

The Measurement Problem Is a Feature, Not a Bug -- Schematising the Observer as a Postulate and the Quantum-Mechanical Concept of an Open System on an Informational, or (neo-)Bohrian, Approach ( http://arxiv.org/abs/2308.16371v1 )

ライセンス: Link先を確認
Michael E. Cuffaro(参考訳) 量子力学を解釈する情報的アプローチは、pitowskyやbub、最近では多くの著者によって擁護されているように、(neo-)bohrianである。 このアプローチでは、量子力学はボーアが「通常の因果記述の自然な一般化」と呼ぶ概念を、理論を物理学の理論として理解するためには、量子力学において仮定のレベルまで高める必要があるという考え方(スタインのような科学の哲学者が実践的必要性を根拠として主張してきた)を表現していると論じている。 I argue that the approach's central concern is with the methodological question of how to assign physical properties to what one takes to be a system in a given experimental context, rather than the metaphysical question of what a given state vector represents independently of any context, and I show how the quantum generalisation of the concept of an open system may be used to assuage Einstein's complaint that the orthodox approach to quantum mechanics runs afoul of the supposedly fundamental methodological requirement to the effect that one must always be able, according to Einstein, to treat spatially separated systems as isolated from one another.

I flesh out the sense in which the informational approach to interpreting quantum mechanics, as defended by Pitowsky and Bub and lately by a number of other authors, is (neo-)Bohrian. I argue that on this approach, quantum mechanics represents what Bohr called a "natural generalisation of the ordinary causal description" in the sense that the idea (which philosophers of science like Stein have argued for on the grounds of practical necessity), that understanding a theory as a theory of physics requires that we be able to "schematise the observer" within it, is elevated in quantum mechanics to the level of a postulate. I argue that the approach's central concern is with the methodological question of how to assign physical properties to what one takes to be a system in a given experimental context, rather than the metaphysical question of what a given state vector represents independently of any context, and I show how the quantum generalisation of the concept of an open system may be used to assuage Einstein's complaint that the orthodox approach to quantum mechanics runs afoul of the supposedly fundamental methodological requirement to the effect that one must always be able, according to Einstein, to treat spatially separated systems as isolated from one another.
翻訳日:2023-09-01 18:09:14 公開日:2023-08-31
# SARATHI: チャンクプレフィルでデコードにピギーバックを施した効率的なLLM推論

SARATHI: Efficient LLM Inference by Piggybacking Decodes with Chunked Prefills ( http://arxiv.org/abs/2308.16369v1 )

ライセンス: Link先を確認
Amey Agrawal, Ashish Panwar, Jayashree Mohan, Nipun Kwatra, Bhargav S. Gulavani, Ramachandran Ramjee(参考訳) 大言語モデル(LLM)推論は、入力プロンプトを処理する2つの異なる位相準備フェーズと、出力トークンを自動回帰的に生成するデコードフェーズから構成される。 プリフィルフェーズはGPU計算を小さなバッチサイズで効果的に飽和させるが、デコードフェーズは要求毎に1つのトークンを生成するため、低い計算利用をもたらす。 プリフィルとデコード時間の変化は、パイプライン並列性を使用する場合のマイクロバッチ間の不均衡を招き、バブルによるさらなる非効率につながる。 これらの課題に対処するためにSARATHIを提示する。 SARATHIはチャンクプレフィルを使用して、プレフィルリクエストを同じサイズのチャンクに分割し、デコード-最大バッチ処理を使用してバッチを構築し、残りのスロットをデコードする。 推論中、プリフィルチャンクはGPU計算を飽和させ、デコードは'piggyback'を要求し、デコードのみのバッチに比べて桁違いのコストがかかる。 Chunked-prefillsは、単一のprefillリクエストから複数のdecode-maximalバッチを構築することができる。 さらに、これらのバッチの均一な計算設計は、マイクロバッチ間の不均衡を改善し、パイプラインバブルを著しく減少させる。 私たちの技術は、モデルとハードウェア間の推論性能を大幅に改善します。 A6000 GPU上のLLaMA-13Bモデルでは、SARATHIはデコードスループットを最大10倍改善し、エンドツーエンドスループットを最大1.33倍高速化する。 A100 GPU上のLLaMa-33Bでは、エンドツーエンドのスループットが1.25倍、デコードスループットが4.25倍になる。 GPT-3でパイプライン並列性を使用する場合、SARATHIはバブルを6.29倍に減らし、エンドツーエンドのスループットは1.91倍に向上する。

Large Language Model (LLM) inference consists of two distinct phases - prefill phase which processes the input prompt and decode phase which generates output tokens autoregressively. While the prefill phase effectively saturates GPU compute at small batch sizes, the decode phase results in low compute utilization as it generates one token at a time per request. The varying prefill and decode times also lead to imbalance across micro-batches when using pipeline parallelism, resulting in further inefficiency due to bubbles. We present SARATHI to address these challenges. SARATHI employs chunked-prefills, which splits a prefill request into equal sized chunks, and decode-maximal batching, which constructs a batch using a single prefill chunk and populates the remaining slots with decodes. During inference, the prefill chunk saturates GPU compute, while the decode requests 'piggyback' and cost up to an order of magnitude less compared to a decode-only batch. Chunked-prefills allows constructing multiple decode-maximal batches from a single prefill request, maximizing coverage of decodes that can piggyback. Furthermore, the uniform compute design of these batches ameliorates the imbalance between micro-batches, significantly reducing pipeline bubbles. Our techniques yield significant improvements in inference performance across models and hardware. For the LLaMA-13B model on A6000 GPU, SARATHI improves decode throughput by up to 10x, and accelerates end-to-end throughput by up to 1.33x. For LLaMa-33B on A100 GPU, we achieve 1.25x higher end-to-end-throughput and up to 4.25x higher decode throughput. When used with pipeline parallelism on GPT-3, SARATHI reduces bubbles by 6.29x, resulting in an end-to-end throughput improvement of 1.91x.
翻訳日:2023-09-01 18:08:42 公開日:2023-08-31
# CktGNN:電子設計自動化のための回路グラフニューラルネットワーク

CktGNN: Circuit Graph Neural Network for Electronic Design Automation ( http://arxiv.org/abs/2308.16406v1 )

ライセンス: Link先を確認
Zehao Dong, Weidong Cao, Muhan Zhang, Dacheng Tao, Yixin Chen, Xuan Zhang(参考訳) アナログ回路の電子的設計自動化は、回路仕様間の巨大な設計空間と複雑な設計トレードオフのため、集積回路分野における長年にわたる課題である。 過去数十年間、トランジスタサイズを所定の回路トポロジーで自動化するための集中的な研究努力がほとんどであった。 本稿では,回路のグラフ特性を認識することにより,回路トポロジ生成と,エンコーダ依存最適化サブルーチンに基づくデバイスサイズを同時に自動化する回路グラフニューラルネットワーク(cktgnn)を提案する。 特に、cktgnnは2レベルgnnフレームワーク(ネストgnn)を使用して回路グラフを符号化し、回路は既知のサブグラフベースでサブグラフの組み合わせとして表現される。 このようにして、メッセージパッシングを行うサブグラフの数を減らすことで、設計効率を大幅に向上する。 それでも、学習支援回路設計の自動化を進めるためのもう一つの重要な障害は、標準評価と再現可能な研究を行うための公開ベンチマークの欠如である。 この課題に対処するために、オープンサーキットベンチマーク(OCB)を紹介した。これは、慎重に抽出された回路仕様を持つ10ドルのオペレーショナルアンプを含むオープンソースデータセットである。 OCBは通信回路生成と評価機能を備えており、CktGNNを一般化して対応するデータセットを生成することで様々なアナログ回路を設計することができる。 OCBの実験は、最近の強力なGNNベースラインや人間の手作業による設計よりも、表現ベースの最適化フレームワークを通じてCktGNNの素晴らしい利点を示している。 我々の研究は、アナログ回路のための学習ベースのオープンソース設計自動化への道を開いた。 ソースコードは \url{https://github.com/zehao-dong/cktgnn} で入手できる。

The electronic design automation of analog circuits has been a longstanding challenge in the integrated circuit field due to the huge design space and complex design trade-offs among circuit specifications. In the past decades, intensive research efforts have mostly been paid to automate the transistor sizing with a given circuit topology. By recognizing the graph nature of circuits, this paper presents a Circuit Graph Neural Network (CktGNN) that simultaneously automates the circuit topology generation and device sizing based on the encoder-dependent optimization subroutines. Particularly, CktGNN encodes circuit graphs using a two-level GNN framework (of nested GNN) where circuits are represented as combinations of subgraphs in a known subgraph basis. In this way, it significantly improves design efficiency by reducing the number of subgraphs to perform message passing. Nonetheless, another critical roadblock to advancing learning-assisted circuit design automation is a lack of public benchmarks to perform canonical assessment and reproducible research. To tackle the challenge, we introduce Open Circuit Benchmark (OCB), an open-sourced dataset that contains $10$K distinct operational amplifiers with carefully-extracted circuit specifications. OCB is also equipped with communicative circuit generation and evaluation capabilities such that it can help to generalize CktGNN to design various analog circuits by producing corresponding datasets. Experiments on OCB show the extraordinary advantages of CktGNN through representation-based optimization frameworks over other recent powerful GNN baselines and human experts' manual designs. Our work paves the way toward a learning-based open-sourced design automation for analog circuits. Our source code is available at \url{https://github.com/zehao-dong/CktGNN}.
翻訳日:2023-09-01 18:00:10 公開日:2023-08-31
# 幾何学的先行による変形ロバストテキストスポッティング

Deformation Robust Text Spotting with Geometric Prior ( http://arxiv.org/abs/2308.16404v1 )

ライセンス: Link先を確認
Xixuan Hao, Aozhong Zhang, Xianze Meng and Bin Fu(参考訳) テキストスポッティングの目標は、テキストの検出と認識をエンドツーエンドで行うことである。 シーンテキストの明度と配向の多様性は広く研究されているが,近年では自然画像のほとんどの文字が標準フォントで表現されているため,同じ文字のフォントの多様性や形状のばらつきは無視されている。 この問題を解決するために,中国芸術データセット(ARText)を提案する。 本データベースでは,異なるフォントにおける文字の複雑な変形の認識問題を解決するために,変形頑健なテキストスポッティング法(DR TextSpotter)を開発した。 具体的には,教師なしランドマーク検出サブネットワークに基づく重要な特徴を強調する幾何学的事前モジュールを提案する。 グラフ畳み込みネットワークは、文字の特徴とランドマークの特徴を融合させ、その後、意味論的推論を行い、異なる文字の識別を強化する。 実験はARTextとIC19-ReCTSデータセットを用いて行われた。 提案手法の有効性を実証した。

The goal of text spotting is to perform text detection and recognition in an end-to-end manner. Although the diversity of luminosity and orientation in scene texts has been widely studied, the font diversity and shape variance of the same character are ignored in recent works, since most characters in natural images are rendered in standard fonts. To solve this problem, we present a Chinese Artistic Dataset, termed as ARText, which contains 33,000 artistic images with rich shape deformation and font diversity. Based on this database, we develop a deformation robust text spotting method (DR TextSpotter) to solve the recognition problem of complex deformation of characters in different fonts. Specifically, we propose a geometric prior module to highlight the important features based on the unsupervised landmark detection sub-network. A graph convolution network is further constructed to fuse the character features and landmark features, and then performs semantic reasoning to enhance the discrimination for different characters. The experiments are conducted on ARText and IC19-ReCTS datasets. Our results demonstrate the effectiveness of our proposed method.
翻訳日:2023-09-01 17:59:41 公開日:2023-08-31
# グラフ埋め込みにおける局所構造とグローバル構造(LGS)のバランス

Balancing between the Local and Global Structures (LGS) in Graph Embedding ( http://arxiv.org/abs/2308.16403v1 )

ライセンス: Link先を確認
Jacob Miller and Vahan Huroyan and Stephen Kobourov(参考訳) 本稿では,可変パラメータを用いて,グラフ埋め込みにおける局所構造と大域構造(lgs)のバランスをとる手法を提案する。 埋め込む方法は、グローバルな構造を捉えようとするものもあれば、地域の保存を目指すものもある。 両方を行おうとする手法はほとんどなく、局所的な情報と大域的な情報の両方を2次元で捉えることは必ずしも不可能である。 可視化のためにローカルまたはグローバル埋め込みを使うかの選択は、タスクだけでなく基礎となるデータの構造にも依存する。 所定のグラフに対して、lgsは保存するローカル構造とグローバル構造のバランスを良好に確保することを目指している。 我々は,LGSの性能を実世界のデータセットで評価し,ストレスや近隣保存などの確立した品質指標を用いて,最先端の手法と競合することを示す。 中間構造キャプチャーを評価するために,新しい品質指標,クラスタ距離保存を導入する。 ソースコード、データセット、実験、分析はすべてオンラインで利用可能だ。

We present a method for balancing between the Local and Global Structures (LGS) in graph embedding, via a tunable parameter. Some embedding methods aim to capture global structures, while others attempt to preserve local neighborhoods. Few methods attempt to do both, and it is not always possible to capture well both local and global information in two dimensions, which is where most graph drawing live. The choice of using a local or a global embedding for visualization depends not only on the task but also on the structure of the underlying data, which may not be known in advance. For a given graph, LGS aims to find a good balance between the local and global structure to preserve. We evaluate the performance of LGS with synthetic and real-world datasets and our results indicate that it is competitive with the state-of-the-art methods, using established quality metrics such as stress and neighborhood preservation. We introduce a novel quality metric, cluster distance preservation, to assess intermediate structure capture. All source-code, datasets, experiments and analysis are available online.
翻訳日:2023-09-01 17:59:23 公開日:2023-08-31
# 相関による複素量子運動量

Complex quantum momentum due to correlation ( http://arxiv.org/abs/2308.16399v1 )

ライセンス: Link先を確認
Matthew Albert, Xiaoyi Bao, Liang Chen(参考訳) 実数は古典物理学とすべての測定可能な現象について十分な記述を提供するが、複素数は計算を助けるために便利な数学的ツールとして時々利用される。 一方、量子力学の形式論はその基本原理の中で複素数を積分し、それが必要性から生じるかどうかは、多くの者が答えようと試みた重要な問題である。 ここでは、通常の反発性クーロンポテンシャルとは対照的に、2つの電子間の相互作用ポテンシャルが魅力的である1次元量子井戸内の2つの電子を考える。 このような効果的なアトラクションを示す電子対は、超伝導を含む他の設定で起こる。 この魅力的な相互作用が複素運動量解の必要性を導き、量子論における複素数の重要性をさらに強調する。 複素運動量解は、ニュートン法と連動して摂動解析法を用いて解く。 これらの複素運動量解から生じる確率密度は、標準反発相互作用ポテンシャルから生じる典型的な実運動量解の確率密度と比較することができる。

Real numbers provide a sufficient description of classical physics and all measurable phenomena; however, complex numbers are occasionally utilized as a convenient mathematical tool to aid our calculations. On the other hand, the formalism of quantum mechanics integrates complex numbers within its fundamental principles, and whether this arises out of necessity or not is an important question that many have attempted to answer. Here, we will consider two electrons in a one-dimensional quantum well where the interaction potential between the two electrons is attractive as opposed to the usual repulsive coulomb potential. Pairs of electrons exhibiting such effective attraction towards each other occur in other settings, namely within superconductivity. We will demonstrate that this attractive interaction leads to the necessity of complex momentum solutions, which further emphasizes the significance of complex numbers in quantum theory. The complex momentum solutions are solved using a perturbative analysis approach in tandem with Newton's method. The probability densities arising from these complex momentum solutions allow for a comparison with the probability densities of the typical real momentum solutions occurring from the standard repulsive interaction potential.
翻訳日:2023-09-01 17:59:07 公開日:2023-08-31
# パラメータ化多部絡み合い対策

Parameterized multipartite entanglement measures ( http://arxiv.org/abs/2308.16393v1 )

ライセンス: Link先を確認
Hui Li, Ting Gao, Fengli Yan(参考訳) 本稿では,k$-nonseparabilityの観点から,パラメータ化多成分絡み合い尺度について検討する。 n$-partiteシステムでは、$q$-$k$-me concurrence $(q\geq2,~2\leq k\leq n)$と$\alpha$-$k$-me concurrence $(0\leq\alpha\leq\frac{1}{2},~2\leq k\leq n)$という2つのタイプの絡み合い対策が提案されている。 厳密な証明は、提案された$k$-非分離測度が、絡み合いの単調、強い単調、凸性、すべての$k$-分離状態における消滅、およびすべての$k$-非分離状態における0よりも厳密に大きいことを含む、絡み合い測度に対する全ての要件を満たすことを示している。 特に、$q$-2-me concurrence と $\alpha$-2-me concurrence はそれぞれ$q$-gme concurrence と $\alpha$-gme concurrence と改名され、システムが二部構成 $(k=2)$ に分割される場合に対応する2種類の真の絡み合い測度である。 2つのクラス$k$-非分離測度の下限は、量子状態の置換不変部分を考慮に入れたアプローチを用いて得られる。 そして、$q$-$n$-MEコンカレンス(\alpha$-$n$-MEコンカレンス)とグローバル負性の関係を確立する。 また, 分離性の程度について検討し, 具体例による効果的な検出方法について詳しく述べる。 さらに、私たちが定義した$q$-GMEコンカレンスを、他の真の絡み合い対策と比較する。

We investigate parameterized multipartite entanglement measures from the perspective of $k$-nonseparability in this paper. We present two types of entanglement measures in $n$-partite systems, $q$-$k$-ME concurrence $(q\geq2,~2\leq k\leq n)$ and $\alpha$-$k$-ME concurrence $(0\leq\alpha\leq\frac{1}{2},~2\leq k\leq n)$, which unambiguously detect all $k$-nonseparable states in arbitrary $n$-partite systems. Rigorous proofs show that the proposed $k$-nonseparable measures satisfy all the requirements for being an entanglement measure including the entanglement monotone, strong monotone, convexity, vanishing on all $k$-separable states, and being strictly greater than zero for all $k$-nonseparable states. In particular, the $q$-2-ME concurrence and $\alpha$-2-ME concurrence, renamed as $q$-GME concurrence and $\alpha$-GME concurrence, respectively, are two kinds of genuine entanglement measures corresponding the case where the systems are divided into bipartition $(k=2)$. The lower bounds of two classes $k$-nonseparable measures are obtained by employing the approach that takes into account the permutationally invariant part of a quantum state. And the relations between $q$-$n$-ME concurrence ($\alpha$-$n$-ME concurrence) and global negativity are established. In addition, we discuss the degree of separability and elaborate on an effective detection method with concrete examples. Moreover, we compare the $q$-GME concurrence defined by us to other genuine entanglement measures.
翻訳日:2023-09-01 17:58:52 公開日:2023-08-31
# テンソルトレイン分解法によるペンタセンダイマーの単一分裂過程における非断熱ダイナミクスの研究

Studies of Nonadiabatic Dynamics in the Singlet Fission Processes of Pentacene Dimer via Tensor Train Decomposition Method ( http://arxiv.org/abs/2308.16392v1 )

ライセンス: Link先を確認
Jiawei Peng, Deping Hu, Hong Liu, Qiang Shi, Peng Bao, and Zhenggang Lan(参考訳) シングルト核分裂(SF)は非常に重要な光物理現象であり、潜在的な用途を持っている。 本研究では、高レベル量子化学計算とテンソルトレイン分解法に基づく量子力学シミュレーションを組み合わせることで、重畳されたポリアセン二量体におけるSF過程のより詳細な理論的研究を行おうとする。 線形ビブロニックカップリングモデルの構築から始まり、純粋な電子力学とSFプロセスにおけるビブロニックダイナミックスについて考察する。 nonadiabatic dynamicsにおける振動モードの役割について考察した。 その結果, 電荷移動状態を媒介とする超交換機構は, 純電子力学と非断熱力学の両方において見いだされることがわかった。 特に、断熱エネルギーギャップと周波数共鳴を伴う振動モードは、SF力学において非常に輸入的な役割を果たす。 この研究は、SFプロセスの深い詳細な理解を提供するだけでなく、複雑なシステムの動的挙動を研究するための参照力学法として機能するテンソルトレイン分解法の効率性を検証する。

Singlet fission (SF) is a very significant photophysical phenomenon and possesses potential applications. In this work, we try to give the rather detailed theoretical investigation of the SF process in the stacked polyacene dimer by combining the high-level quantum chemistry calculations, and the quantum dynamics simulations based on the tensor train decomposition method. Starting from the construction of the linear vibronic coupling model, we explore the pure electronic dynamics and the vibronic dynamics in the SF processes. The role of vibrational modes in nonadiabatic dynamics is addressed. The results show that the super-exchange mechanism mediated by the charge-transfer state is found in both pure electronic dynamics and the nonadiabatic dynamics. Particularly, the vibrational modes with the frequency resonance with the adiabatic energy gap play very import roles in the SF dynamics. This work not only provides a deep and detailed understanding of the SF process, but also verifies the efficiency of the tensor train decomposition method that can serve as the reference dynamics method to explore the dynamics behaviors of complex systems.
翻訳日:2023-09-01 17:58:08 公開日:2023-08-31
# 時間依存特徴を用いたEthereum上のポンジスキーム検出のロバストさと精度の改善

Improving Robustness and Accuracy of Ponzi Scheme Detection on Ethereum Using Time-Dependent Features ( http://arxiv.org/abs/2308.16391v1 )

ライセンス: Link先を確認
Phuong Duy Huynh, Son Hoang Dau, Xiaodong Li, Phuc Luong, Emanuele Viterbo(参考訳) ブロックチェーンの急速な発展により、暗号通貨市場への資金調達がますます増加し、近年はサイバー犯罪者の関心も高まっている。 昔ながらの詐欺であるPonziスキームがブロックチェーンで人気を博し、多くの暗号投資者にかなりの損失をもたらした。 文献ではいくつかのPonzi検出法が提案されており、そのほとんどはスマートコントラクトソースコードやオプコードに基づいてPonziスキームを検出するものである。 ひとつはEthereum上のほとんどのコントラクトのソースコードが利用できないこと、もうひとつは、Ponziの開発者がOpcodeを邪魔したり、検出できない新しい利益分配ロジックを発明したりすることで、コントラクトベースの検出モデルを騙すことができることです(これらのモデルは既存のPonziのロジックでのみトレーニングされています)。 スマートコントラクトとは異なり、トランザクションは操作が難しいため、トランザクションベースのアプローチは検出の堅牢性を向上させる可能性がある。 しかし、現在のトランザクションベースの検出モデルは、かなり精度が低い。 そこで本研究では,トランザクションのみに依存する新たな検出モデルを開発し,その頑健性を保証し,さらに,既存のトランザクションベースモデルよりも精度,精度,リコール,f1-scoreが大幅に向上した。 これは、XBlock-ETHレポジトリからのPonziデータおよび非Ponziデータに関する包括的データ解析から得られたPonziの挙動特性をキャプチャする、新しい時間依存機能の導入によって実現された。

The rapid development of blockchain has led to more and more funding pouring into the cryptocurrency market, which also attracted cybercriminals' interest in recent years. The Ponzi scheme, an old-fashioned fraud, is now popular on the blockchain, causing considerable financial losses to many crypto-investors. A few Ponzi detection methods have been proposed in the literature, most of which detect a Ponzi scheme based on its smart contract source code or opcode. The contract-code-based approach, while achieving very high accuracy, is not robust: first, the source codes of a majority of contracts on Ethereum are not available, and second, a Ponzi developer can fool a contract-code-based detection model by obfuscating the opcode or inventing a new profit distribution logic that cannot be detected (since these models were trained on existing Ponzi logics only). A transaction-based approach could improve the robustness of detection because transactions, unlike smart contracts, are harder to be manipulated. However, the current transaction-based detection models achieve fairly low accuracy. We address this gap in the literature by developing new detection models that rely only on the transactions, hence guaranteeing the robustness, and moreover, achieve considerably higher Accuracy, Precision, Recall, and F1-score than existing transaction-based models. This is made possible thanks to the introduction of novel time-dependent features that capture Ponzi behaviours characteristics derived from our comprehensive data analyses on Ponzi and non-Ponzi data from the XBlock-ETH repository
翻訳日:2023-09-01 17:57:52 公開日:2023-08-31
# MSD_AUDIO.ZIPのバイアスド・ジャーニー

The Biased Journey of MSD_AUDIO.ZIP ( http://arxiv.org/abs/2308.16389v1 )

ライセンス: Link先を確認
Haven Kim, Keunwoo Choi, Mateusz Modrzejewski, Cynthia C. S. Liem(参考訳) 学術データの公平な分配は、研究機会の均等化、そして究極的にはさらなる進歩に不可欠である。 しかし、Million Song Datasetに対応するオーディオデータにAPIを使用することの複雑さ(2016年以前)と、このAPIの廃止(2016年以降)により、このデータへのアクセスはピアツーピアに接続された特定のアフィリエイト内のものに限定されている。 そこで本稿では,データにアクセスしようとしたか,あるいはその作成に役割を果たした22人の個人の経験から,この問題を考察する。 これにより、MIRコミュニティにおけるアクセス権限に関して、より批判的な対話とより思慮深い考察を開始したいと思っています。

The equitable distribution of academic data is crucial for ensuring equal research opportunities, and ultimately further progress. Yet, due to the complexity of using the API for audio data that corresponds to the Million Song Dataset along with its misreporting (before 2016) and the discontinuation of this API (after 2016), access to this data has become restricted to those within certain affiliations that are connected peer-to-peer. In this paper, we delve into this issue, drawing insights from the experiences of 22 individuals who either attempted to access the data or played a role in its creation. With this, we hope to initiate more critical dialogue and more thoughtful consideration with regard to access privilege in the MIR community.
翻訳日:2023-09-01 17:57:21 公開日:2023-08-31
# マルチモーダル相互プロンプト学習によるRGB-T追跡

RGB-T Tracking via Multi-Modal Mutual Prompt Learning ( http://arxiv.org/abs/2308.16386v1 )

ライセンス: Link先を確認
Yang Luo, Xiqing Guo, Hui Feng, Lei Ao(参考訳) RGB-T追跡として知られる、可視・熱的瞬間の融合に基づく物体追跡は、近年、研究者から注目度が高まっている。 計算コストの少ない2つのモダリティからのより包括的な情報の融合を実現するには、re-searchersが検討している問題である。 近年,コンピュータビジョンにおけるプロンプト学習の台頭に伴い,視覚大モデルから下流タスクへの知識の伝達が容易になった。 可視性と熱的モダリティの強い相補性を考慮して,両モダリティ間の相互即学習に基づく追跡アーキテクチャを提案する。 また,2次元にアテンション機構を組み込んだ軽量なプロンプトを設計し,一方のモダリティから他方のモダリティへの情報をより少ない計算コストで伝達し,背骨の各層に埋め込む。 提案手法は,高走行速度を維持しつつ,最先端性能を実現し,効率的かつ効率的であることを示す。

Object tracking based on the fusion of visible and thermal im-ages, known as RGB-T tracking, has gained increasing atten-tion from researchers in recent years. How to achieve a more comprehensive fusion of information from the two modalities with fewer computational costs has been a problem that re-searchers have been exploring. Recently, with the rise of prompt learning in computer vision, we can better transfer knowledge from visual large models to downstream tasks. Considering the strong complementarity between visible and thermal modalities, we propose a tracking architecture based on mutual prompt learning between the two modalities. We also design a lightweight prompter that incorporates attention mechanisms in two dimensions to transfer information from one modality to the other with lower computational costs, embedding it into each layer of the backbone. Extensive ex-periments have demonstrated that our proposed tracking ar-chitecture is effective and efficient, achieving state-of-the-art performance while maintaining high running speeds.
翻訳日:2023-09-01 17:57:06 公開日:2023-08-31
# BenchTemp: 時間グラフニューラルネットワーク評価のための一般的なベンチマーク

BenchTemp: A General Benchmark for Evaluating Temporal Graph Neural Networks ( http://arxiv.org/abs/2308.16385v1 )

ライセンス: Link先を確認
Qiang Huang, Jiawei Jiang, Xi Susie Rao, Ce Zhang, Zhichao Han, Zitao Zhang, Xin Wang, Yongjun He, Quanqing Xu, Yang Zhao, Chuang Hu, Shuo Shang, Bo Du(参考訳) 時間とともに特徴やコネクティビティが進化するグラフを扱うために、一連の時間グラフニューラルネットワーク(tgnn)が提案されている。 これらのTGNNの成功にもかかわらず、以前のTGNN評価は4つの重要な問題に関していくつかの制限を明らかにしている。 1)一貫性のないデータセット 2)一貫性のない評価パイプライン。 3)ワークロードの多様性の欠如 4)効率比較の欠如。 全体としては、TGNNモデルを同じ場所に置き、それらを総合的に比較する実験的な研究が欠けている。 この目的のために,さまざまなワークロード上でTGNNモデルを評価するための一般的なベンチマークであるBenchTempを提案する。 benchtempはベンチマークデータセットを提供するので、異なるtgnnモデルをかなり比較することができる。 さらに、BenchTempはTGNN評価を統一する標準パイプラインを設計している。 benchtempでは、異なるタスク(リンク予測やノード分類など)と設定(トランスダクティブとインダクティブ)の代表的なtgnnモデルを、有効性と効率の指標の両方で広範囲に比較します。 我々はBenchTempをhttps://github.com/qianghuangwhu/benchtemp.comで公開しました。

To handle graphs in which features or connectivities are evolving over time, a series of temporal graph neural networks (TGNNs) have been proposed. Despite the success of these TGNNs, the previous TGNN evaluations reveal several limitations regarding four critical issues: 1) inconsistent datasets, 2) inconsistent evaluation pipelines, 3) lacking workload diversity, and 4) lacking efficient comparison. Overall, there lacks an empirical study that puts TGNN models onto the same ground and compares them comprehensively. To this end, we propose BenchTemp, a general benchmark for evaluating TGNN models on various workloads. BenchTemp provides a set of benchmark datasets so that different TGNN models can be fairly compared. Further, BenchTemp engineers a standard pipeline that unifies the TGNN evaluation. With BenchTemp, we extensively compare the representative TGNN models on different tasks (e.g., link prediction and node classification) and settings (transductive and inductive), w.r.t. both effectiveness and efficiency metrics. We have made BenchTemp publicly available at https://github.com/qianghuangwhu/benchtemp.
翻訳日:2023-09-01 17:56:49 公開日:2023-08-31
# 複数のノード中心部分グラフに基づくコントラスト表現学習

Contrastive Representation Learning Based on Multiple Node-centered Subgraphs ( http://arxiv.org/abs/2308.16441v1 )

ライセンス: Link先を確認
Dong Li, Wenjun Wang, Minglai Shao, Chen Zhao(参考訳) グラフ構造データの基本的な要素として、ノードはグラフ表現学習の主要な研究対象として認識されている。 単一のノードはグラフ全体から複数のノード中心のサブグラフを直感的に持つ(例えば、ソーシャルネットワークの1人は、異なる関係に基づいて複数のソーシャルサークルを持つ)。 本稿では,この直観をグラフのコントラスト学習の枠組みの下で研究し,グラフ上のノード表現を自己管理的に学習するためのノード中心のコントラスト表現学習法を提案する。 具体的には,ノード中心の地域サブグラフを注意深く設計する。 そして、コントラスト損失により、同一ノードの異なるサブグラフ間の相互情報を最大化する。 様々な実世界のデータセットと異なる下流タスクの実験は、我々のモデルが最先端の結果を得たことを示している。

As the basic element of graph-structured data, node has been recognized as the main object of study in graph representation learning. A single node intuitively has multiple node-centered subgraphs from the whole graph (e.g., one person in a social network has multiple social circles based on his different relationships). We study this intuition under the framework of graph contrastive learning, and propose a multiple node-centered subgraphs contrastive representation learning method to learn node representation on graphs in a self-supervised way. Specifically, we carefully design a series of node-centered regional subgraphs of the central node. Then, the mutual information between different subgraphs of the same node is maximized by contrastive loss. Experiments on various real-world datasets and different downstream tasks demonstrate that our model has achieved state-of-the-art results.
翻訳日:2023-09-01 17:51:02 公開日:2023-08-31
# 相互作用誘起フラットバンドによる局在遷移

Localizing Transitions via Interaction-Induced Flat Bands ( http://arxiv.org/abs/2308.16440v1 )

ライセンス: Link先を確認
Alireza Parhizkar, Victor Galitski(参考訳) 本稿では、強相関電子系における相互作用誘起バンドフラット化の理論を提案する。 まず、フラットバンドとインデックス定理の間に固有の関係を示し、局所ハミルトニアンの位相的ゼロモードを周期的に繰り返してフラットバンドを構築するための一般的な処方を提示する。 具体的には、外部の空間的に周期的な磁場中のディラック粒子をこの形で鋳造できることを実証する。 我々は、完全に平坦なバンドを生成する条件を導出し、フラットなバンドの波動関数に対して正確な解析解を提供する。 さらに,空間的不均質場におけるディラックフェルミオンの相互作用モデルについて検討する。 フィールド構成を 'rectify' してバンド平坦化を誘導するHubbard-Stratonovich 構成が存在することを示す。 我々は,この局所化シナリオがエネルギー的に有利な明示的なモデルを示す。特に,ほぼ平坦な帯を持つディラック系において,整定テクスチャのエネルギーコストは次数パラメータで2倍になるが,平坦化によるエネルギー利得は線形である。 結論として,これらの相互作用誘起バンドフラット化シナリオは,多くの強相関電子系に関連する自発的対称性破砕の汎用的非摂動的メカニズムであることを示す。

This paper presents a theory of interaction-induced band-flattening in strongly correlated electron systems. We begin by illustrating an inherent connection between flat bands and index theorems, and presenting a generic prescription for constructing flat bands by periodically repeating local Hamiltonians with topological zero modes. Specifically, we demonstrate that a Dirac particle in an external, spatially periodic magnetic field can be cast in this form. We derive a condition on the field to produce perfectly flat bands and provide an exact analytical solution for the flat band wave functions. Furthermore, we explore an interacting model of Dirac fermions in a spatially inhomogeneous field. We show that certain Hubbard-Stratonovich configurations exist that ``rectify'' the field configuration, inducing band flattening. We present an explicit model where this localization scenario is energetically favorable -- specifically in Dirac systems with nearly flat bands, where the energy cost of rectifying textures is quadratic in the order parameter, whereas the energy gain from flattening is linear. In conclusion, we discuss alternative symmetry-breaking channels, especially superconductivity, and propose that these interaction-induced band-flattening scenarios represent a generic non-perturbative mechanism for spontaneous symmetry breaking, pertinent to many strongly-correlated electron systems.
翻訳日:2023-09-01 17:50:50 公開日:2023-08-31
# 波長可変空間絡み合いを有するニオブ酸リチウムメタサーフェスからの光子対生成

Photon pair generation from lithium niobate metasurface with tunable spatial entanglement ( http://arxiv.org/abs/2308.16439v1 )

ライセンス: Link先を確認
Jihua Zhang, Jinyong Ma, Dragomir N. Neshev, Andrey A. Sukhorukov(参考訳) 空間的絡み合いを持つ2光子状態は、量子力学および様々な量子応用の基本法則をテストするための必須資源である。 その生成は通常、空間の絡み合いのチューナビリティが制限されたバルク状非線形結晶における自発的パラメトリックダウンコンバージョンに依存する。 ここでは,超薄型非線形ニオブ酸リチウムメタサーフェスが空間的に絡み合った光子対を生成し,多彩に調整できると予測する。 放射パターン、速度、空間エンタングルメントの度合いを含む光子の空間特性は、結合モード理論とシュミット分解法により理論的に解析される。 メタサーフェスの強い角分散を利用することで、ポンプレーザ波長とガウスビームサイズを変化させることでシュミット数で定量化された空間絡み合いの程度を減少または増加させることができることを示す。 この柔軟性は非線形な準曲面から生じる絡み合った光子状態の様々な量子応用を促進することができる。

Two-photon state with spatial entanglement is an essential resource for testing fundamental laws of quantum mechanics and various quantum applications. Its creation typically relies on spontaneous parametric down-conversion in bulky nonlinear crystals where the tunability of spatial entanglement is limited. Here, we predict that ultrathin nonlinear lithium niobate metasurfaces can generate and diversely tune spatially entangled photon pairs. The spatial properties of photons including the emission pattern, rate, and degree of spatial entanglement are analysed theoretically with the coupled mode theory and Schmidt decomposition method. We show that by leveraging the strong angular dispersion of the metasurface, the degree of spatial entanglement quantified by the Schmidt number can be decreased or increased by changing the pump laser wavelength and a Gaussian beam size. This flexibility can facilitate diverse quantum applications of entangled photon states generated from nonlinear metasurfaces.
翻訳日:2023-09-01 17:50:28 公開日:2023-08-31
# antm$^{2}$c:マルチscenarioマルチモーダルctr予測のための大規模データセット

AntM$^{2}$C: A Large Scale Dataset For Multi-Scenario Multi-Modal CTR Prediction ( http://arxiv.org/abs/2308.16437v1 )

ライセンス: Link先を確認
Zhaoxin Huan, Ke Ding, Ang Li, Xiaolu Zhang, Xu Min, Yong He, Liang Zhang, Jun Zhou, Linjian Mo, Jinjie Gu, Zhongyi Liu, Wenliang Zhong, Guannan Zhang(参考訳) クリックスルー率(CTR)予測はレコメンデーションシステムにおいて重要な問題である。 様々な公開CTRデータセットが出現している。 しかし、既存のデータセットは、主に以下の制限に苦しむ。 まず、ユーザーは複数のシナリオから異なるタイプのアイテムをクリックし、複数のシナリオからのモデリングはユーザーをより包括的に理解する。 既存のデータセットには、単一のシナリオから同じタイプのアイテムのデータしか含まれない。 第二に、異なるシナリオ間での一貫性のないIDエンコーディングの問題に対処するため、マルチモード機能はマルチシナリオ予測において不可欠である。 既存のデータセットはID機能に基づいており、マルチモーダル機能がない。 第三に、大規模データセットはモデル間のパフォーマンスの差異を完全に反映し、モデルのより信頼性の高い評価を提供することができる。 既存のデータセットの規模は約1億であり、実際のCTR予測に比べて比較的小さい。 これらの制約に対処するため、Alipayの産業データに基づくマルチシナリオマルチモーダルCTRデータセットAntM$^{2}$Cを提案する。 具体的には、antm$^{2}$cは以下の利点を提供する。 1)5種類の項目のCTRデータをカバーし,広告,ボイス,ミニプログラム,コンテンツ,ビデオなど,異なる項目に対するユーザの嗜好に関する洞察を提供する。 2) idベースの機能とは別に、antm$^{2}$cは2つのマルチモーダル機能、生のテキストと画像機能を提供し、異なるidを持つアイテム間の接続を効果的に確立する。 3) antm$^{2}$cは、2億人のユーザと600万のアイテムを含む2つの機能を備えた10億のctrデータを提供する。 現在は最大規模のCTRデータセットである。 AntM$^{2}$Cに基づいて、いくつかの典型的なCTRタスクを構築し、ベースライン手法との比較を行う。 datasetのホームページはhttps://www.atecup.cn/homeで入手できる。

Click-through rate (CTR) prediction is a crucial issue in recommendation systems. There has been an emergence of various public CTR datasets. However, existing datasets primarily suffer from the following limitations. Firstly, users generally click different types of items from multiple scenarios, and modeling from multiple scenarios can provide a more comprehensive understanding of users. Existing datasets only include data for the same type of items from a single scenario. Secondly, multi-modal features are essential in multi-scenario prediction as they address the issue of inconsistent ID encoding between different scenarios. The existing datasets are based on ID features and lack multi-modal features. Third, a large-scale dataset can provide a more reliable evaluation of models, fully reflecting the performance differences between models. The scale of existing datasets is around 100 million, which is relatively small compared to the real-world CTR prediction. To address these limitations, we propose AntM$^{2}$C, a Multi-Scenario Multi-Modal CTR dataset based on industrial data from Alipay. Specifically, AntM$^{2}$C provides the following advantages: 1) It covers CTR data of 5 different types of items, providing insights into the preferences of users for different items, including advertisements, vouchers, mini-programs, contents, and videos. 2) Apart from ID-based features, AntM$^{2}$C also provides 2 multi-modal features, raw text and image features, which can effectively establish connections between items with different IDs. 3) AntM$^{2}$C provides 1 billion CTR data with 200 features, including 200 million users and 6 million items. It is currently the largest-scale CTR dataset available. Based on AntM$^{2}$C, we construct several typical CTR tasks and provide comparisons with baseline methods. The dataset homepage is available at https://www.atecup.cn/home.
翻訳日:2023-09-01 17:50:12 公開日:2023-08-31
# Njobvu-AI: 協調画像ラベリングとコンピュータビジョンモデルの実装のためのオープンソースツール

Njobvu-AI: An open-source tool for collaborative image labeling and implementation of computer vision models ( http://arxiv.org/abs/2308.16435v1 )

ライセンス: Link先を確認
Jonathan S. Koning, Ashwin Subramanian, Mazen Alotaibi, Cara L. Appel, Christopher M. Sullivan, Thon Chao, Lisa Truong, Robyn L. Tanguay, Pankaj Jaiswal, Taal Levi, Damon B. Lesmeister(参考訳) コンピュータビジョンモデルの使用に関心を持つ実践者は、ユーザフレンドリでオープンソースのソフトウェアを欠き、複数のユーザに対してトレーニングデータのラベル付け、新しいアルゴリズムのトレーニング、アウトプットのレビュー、新しいモデルの実装を行うことができる。 画像などのトレーニングデータのラベル付けは、コンピュータビジョンを用いた正確な物体検出アルゴリズムを開発するための重要なステップである。 このステップは、世界中の多くの地域でインターネット帯域が限られているため、画像やビデオデータのマークやラベル付けのための多くのクラウドベースのサービスと互換性がないことが多い。 デスクトップツールは遠隔地で働くグループにとって有用なツールだが、複数の共同作業者がローカルに開発したプロジェクトを組み合わせる能力がないことが多い。 さらに、多くのツールは、データのラベル付けや分類に事前訓練されたモデルを使用する機能を提供している。 フリーで、オープンソースで、ユーザフレンドリーなソフトウェアは、コーディングスキルが限られているフィールド研究者や保全主義者にとって、完全な機能(例えば、ローカル、オンライン、カスタムモデルのトレーニングなど)を提供するのが望ましい。 私たちはNjobvu-AIを開発した。Njobvu-AIは、Node.jsを使ってデスクトップとサーバの両方のハードウェアで実行できる無料のオープンソースツールで、ユーザはデータをラベル付けしたり、コラボレーションとレビューのためのプロジェクトを組み合わせたり、カスタムアルゴリズムをトレーニングしたり、新しいコンピュータビジョンモデルを実装したりすることができる。 Njobvu-AI(N-joh-voo AI)という名前は、象の強力な記憶とコンピュータビジョンモデルの性質の類似性を参照しながら、このツールの開発の原動力となったマラウイの野生生物監視プログラムにヒントを得たものである。

Practitioners interested in using computer vision models lack user-friendly and open-source software that combines features to label training data, allow multiple users, train new algorithms, review output, and implement new models. Labeling training data, such as images, is a key step to developing accurate object detection algorithms using computer vision. This step is often not compatible with many cloud-based services for marking or labeling image and video data due to limited internet bandwidth in many regions of the world. Desktop tools are useful for groups working in remote locations, but users often do not have the capability to combine projects developed locally by multiple collaborators. Furthermore, many tools offer features for labeling data or using pre-trained models for classification, but few allow researchers to combine these steps to create and apply custom models. Free, open-source, and user-friendly software that offers a full suite of features (e.g., ability to work locally and online, and train custom models) is desirable to field researchers and conservationists that may have limited coding skills. We developed Njobvu-AI, a free, open-source tool that can be run on both desktop and server hardware using Node.js, allowing users to label data, combine projects for collaboration and review, train custom algorithms, and implement new computer vision models. The name Njobvu-AI (pronounced N-joh-voo AI), incorporating the Chichewa word for elephant, is inspired by a wildlife monitoring program in Malawi that was a primary impetus for the development of this tool and references similarities between the powerful memory of elephants and properties of computer vision models.
翻訳日:2023-09-01 17:49:43 公開日:2023-08-31
# 入射型ニューラルネットワークと明示型ニューラルネットワークの等価性について:高次元的視点から

On the Equivalence between Implicit and Explicit Neural Networks: A High-dimensional Viewpoint ( http://arxiv.org/abs/2308.16425v1 )

ライセンス: Link先を確認
Zenan Ling, Zhenyu Liao, Robert C. Qiu(参考訳) 暗黙のニューラルネットワークは様々なタスクで顕著な成功を収めた。 しかし、暗黙的ネットワークと暗黙的ネットワーク間の接続と差異に関する理論的分析が欠如している。 本稿では,高次元の暗黙的ニューラルネットワークを研究し,対応する共役核と神経接核の高次元等価性を提供する。 これに基づいて,高次元における暗黙的ネットワークと明示的ネットワークの等価性を確立する。

Implicit neural networks have demonstrated remarkable success in various tasks. However, there is a lack of theoretical analysis of the connections and differences between implicit and explicit networks. In this paper, we study high-dimensional implicit neural networks and provide the high dimensional equivalents for the corresponding conjugate kernels and neural tangent kernels. Built upon this, we establish the equivalence between implicit and explicit networks in high dimensions.
翻訳日:2023-09-01 17:49:10 公開日:2023-08-31
# 密度誘起トンネル系におけるリエントラント相挙動

Reentrant phase behavior in systems with density-induced tunneling ( http://arxiv.org/abs/2308.16423v1 )

ライセンス: Link先を確認
A. Krzywicka T. P. Polak(参考訳) 多くの天体量子系は、量子情報、非線形光学、凝縮物質といった物理学の様々な分野において重要な役割を果たす。 オープンシステムの消散的特性は、量子コヒーレンスや量子情報の前例のない安定化と、環境自由度を制御したいという願望から、特に量子光学の分野で多くの関心を集めている。 我々は、外部ソースに関連する典型的な散逸のメカニズムを超えて、強く相互作用する多くの粒子系が内部に量子デコヒーレンスを生じさせることを示す。 粒子間の相互作用を拡張した量子ボゾン2次元多体系について検討する。 解析計算により、システムはコヒーレントな状態から追い出され得ることが示され、これは一般的に使用される設定でよく見られる。 しかし, 十分に大きな相互作用強度を示すため, 同じ枠組み内での超流動相の回復も観察した。 量子コヒーレンスの崩壊は避けられないが、多くの粒子系の構成要素間の不適切な結合を仮定すると誤解される。 物理的に関連のある結果を取得するための適切な経路を示し,その限界を検討する。 このシステムは、超流動性の破壊を強制する自然な遮断を表示する。

Open many body quantum systems play a paramount role in various branches of physics, such as quantum information, nonlinear optics or condensed matter. The dissipative character of open systems has gained a lot of interest especially within the fields of quantum optics, due to unprecedented stabilization of quantum coherence, and quantum information, with its desire to control environmental degrees of freedom. We look beyond the typical mechanism of dissipation associated with an external source and show that strongly interacting many particle systems can create quantum decoherence within themselves. We study a quantum bosonic two-dimensional many body system with extended interactions between particles. Analytical calculations show that the system can be driven out of its coherent state, which is prevalent among commonly used setups. However, we also observe a revival of the superfluid phase within the same framework for sufficiently large interaction strength. The breakdown of quantum coherence is inevitable, but can be misinterpreted if one assumes improper coupling between the constituents of the many particle system. We show an adequate path to retrieve physically relevant results and consider its limitations. The system displays a natural cutoff that enforces the breakdown of superfluidity.
翻訳日:2023-09-01 17:49:02 公開日:2023-08-31
# decode: 拡張畳み込みニューラルネットワークによる極大比吸気の検出

DECODE: DilatEd COnvolutional neural network for Detecting Extreme-mass-ratio inspirals ( http://arxiv.org/abs/2308.16422v1 )

ライセンス: Link先を確認
Tianyu Zhao, Yue Zhou, Ruijun Shi, Zhoujian Cao, Zhixiang Ren(参考訳) EMRI(Extreme Mass Ratio Inspirals)の検出は、複雑な波形、持続時間、SNR(low signal-to-noise ratio)によって複雑化しており、コンパクトなバイナリコリゾネッセンスと比較して識別が困難である。 マッチングフィルタリングに基づく手法は計算要求で知られているが、既存のディープラーニングベースの手法は主に時間領域のデータを扱うものであり、データ持続時間やSNRによって制約されることが多い。 加えて、既存のほとんどの研究は時間遅延干渉法(TDI)を無視し、検出器応答計算に長波長近似を適用し、レーザー周波数ノイズを処理する能力を制限する。 本研究では,周波数領域におけるシーケンスモデリングによるEMRI信号検出に着目したエンドツーエンドモデルDECODEを提案する。 拡張された因果畳み込みニューラルネットワークを中心に、TDI-1.5検出応答を考慮した合成データに基づいてトレーニングされたDECODEは、約50のSNRで1年分のマルチチャネルTDIデータを効率的に処理することができる。 50~120のsnrを蓄積した1年間のデータからモデルを評価し,偽陽性率1%で96.3%の真陽性率を達成し,0.01秒未満の推測時間を保った。 解釈可能性と一般化のための3つのEMRI信号の可視化により、DECODEは将来の宇宙ベースの重力波データ解析に強い可能性を示す。

The detection of Extreme Mass Ratio Inspirals (EMRIs) is intricate due to their complex waveforms, extended duration, and low signal-to-noise ratio (SNR), making them more challenging to be identified compared to compact binary coalescences. While matched filtering-based techniques are known for their computational demands, existing deep learning-based methods primarily handle time-domain data and are often constrained by data duration and SNR. In addition, most existing work ignores time-delay interferometry (TDI) and applies the long-wavelength approximation in detector response calculations, thus limiting their ability to handle laser frequency noise. In this study, we introduce DECODE, an end-to-end model focusing on EMRI signal detection by sequence modeling in the frequency domain. Centered around a dilated causal convolutional neural network, trained on synthetic data considering TDI-1.5 detector response, DECODE can efficiently process a year's worth of multichannel TDI data with an SNR of around 50. We evaluate our model on 1-year data with accumulated SNR ranging from 50 to 120 and achieve a true positive rate of 96.3% at a false positive rate of 1%, keeping an inference time of less than 0.01 seconds. With the visualization of three showcased EMRI signals for interpretability and generalization, DECODE exhibits strong potential for future space-based gravitational wave data analyses.
翻訳日:2023-09-01 17:48:44 公開日:2023-08-31
# 補助非ストリーミング層を用いた非ストリーミングからストリーミングASRエンコーダへの知識蒸留

Knowledge Distillation from Non-streaming to Streaming ASR Encoder using Auxiliary Non-streaming Layer ( http://arxiv.org/abs/2308.16415v1 )

ライセンス: Link先を確認
Kyuhong Shim, Jinkyu Lee, Simyung Chang, Kyuwoong Hwang(参考訳) ストリーミング自動音声認識(asr)モデルは、将来のコンテキストへのアクセスを制限することで、非ストリーミングモデルに比べてパフォーマンスが悪化する。 ストリーミングASRの性能向上のために,非ストリーミングからストリーミングモデルへの知識蒸留(KD)について検討し,主に出力トークン確率の整合性に着目した。 本稿では,教師エンコーダから学生エンコーダへの層間kdを提案する。 特徴が同じ文脈で抽出されることを保証するため、学生に補助的な非ストリーミング分岐を挿入し、非ストリーミング教師層から非ストリーミング補助層にKDを実行する。 我々は,自動回帰予測符号化(autoregressive prediction coding, apc)機構を利用して,ストリーミングモデルに未知の将来の状況を予測するよう促す,特別なkd損失を設計する。 実験の結果, 従来のトークン確率蒸留法と比較して, 単語誤り率を有意に低減できることがわかった。

Streaming automatic speech recognition (ASR) models are restricted from accessing future context, which results in worse performance compared to the non-streaming models. To improve the performance of streaming ASR, knowledge distillation (KD) from the non-streaming to streaming model has been studied, mainly focusing on aligning the output token probabilities. In this paper, we propose a layer-to-layer KD from the teacher encoder to the student encoder. To ensure that features are extracted using the same context, we insert auxiliary non-streaming branches to the student and perform KD from the non-streaming teacher layer to the non-streaming auxiliary layer. We design a special KD loss that leverages the autoregressive predictive coding (APC) mechanism to encourage the streaming model to predict unseen future contexts. Experimental results show that the proposed method can significantly reduce the word error rate compared to previous token probability distillation methods.
翻訳日:2023-09-01 17:48:20 公開日:2023-08-31
# n$-qutrit系における真の絡み合いを持つ強量子非局所性

Strong quantum nonlocality with genuine entanglement in an $N$-qutrit system ( http://arxiv.org/abs/2308.16409v1 )

ライセンス: Link先を確認
Mengying Hu, Ting Gao, Fengli Yan(参考訳) 本論文では、すべての状態が一様状態であるような$(\mathbb{C}^{3})^{\otimes N}$ for $N\geq3$において、真に多部交絡基底を構成する。 この構成を改良することにより,halder $et~al によって引き起こされたオープン問題の解となる強非局所直交集合と強非局所直交真直交基底を得ることに成功した。 https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.122.040403} {Phy。 Rev. Lett. \textbf{122}, 040403 (2019)}]。 私たちが$(\mathbb{C}^{3})^{\otimes N}$で構築した強非局所直交真の絡み合い集合は、すべての既知のものよりもはるかに少ない量子状態を含む。 N>3$ の場合、この結果は Wang $et~al$ によって与えられる開問題に答える。 https://journals.aps.org/pra/abstract/10.1103/PhysRevA.104.012424} {Phys。 rev. a \textbf{104}, 012424 (2021)}]。

In this paper, we construct genuinely multipartite entangled bases in $(\mathbb{C}^{3})^{\otimes N}$ for $N\geq3$, where every state is one-uniform state. By modifying this construction, we successfully obtain strongly nonlocal orthogonal genuinely entangled sets and strongly nonlocal orthogonal genuinely entangled bases, which provide an answer to the open problem raised by Halder $et~al.$ [\href{https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.122.040403} {Phy. Rev. Lett. \textbf{122}, 040403 (2019)}]. The strongly nonlocal orthogonal genuine entangled set we constructed in $(\mathbb{C}^{3})^{\otimes N}$ contains much fewer quantum states than all known ones. When $N>3$, our result answers the open question given by Wang $et~al$. [\href{https://journals.aps.org/pra/abstract/10.1103/PhysRevA.104.012424} {Phys. Rev. A \textbf{104}, 012424 (2021)}].
翻訳日:2023-09-01 17:48:01 公開日:2023-08-31
# ドメイン適応型メッセージパッシンググラフニューラルネットワーク

Domain-adaptive Message Passing Graph Neural Network ( http://arxiv.org/abs/2308.16470v1 )

ライセンス: Link先を確認
Xiao Shen, Shirui Pan, Kup-Sze Choi, Xi Zhou(参考訳) 豊富なラベルを持つソースネットワークから知識を転送することで,ラベル不足対象ネットワーク内のノードを分類することを目的としたクロスネットワークノード分類(cnnc)が近年注目を集めている。 CNNCに対処するために,グラフニューラルネットワーク(GNN)と条件付き対向ドメイン適応を統合した領域適応型メッセージパッシンググラフニューラルネットワーク(DM-GNN)を提案する。 DM-GNNは、ネットワーク間で転送可能なノード分類のための情報表現を学ぶことができる。 まず、GNNエンコーダを二重特徴抽出器で構成し、隣接する埋め込み学習からエゴ埋め込み学習を分離し、接続ノード間の共通性と識別を共同で取得する。 次に,各ノードのラベル予測を改良するために,各ノードのラベル予測と隣接ノードの予測を組み合わせたラベル伝達ノード分類器を提案する。 さらに、ラベル付きソースネットワークに対して、クラス間伝播を回避しつつクラス内伝播を促進するラベル対応伝搬方式を考案し、ラベル対応ソース埋め込みを実現する。 第三に、ネットワーク間のクラス条件分布をよりよく一致させることができるように、条件付き対向ドメイン適応を行い、近傍修正されたクラスラベル情報を対向ドメイン適応時に考慮する。 11の最先端手法との比較により,dm-gnnの有効性が示された。

Cross-network node classification (CNNC), which aims to classify nodes in a label-deficient target network by transferring the knowledge from a source network with abundant labels, draws increasing attention recently. To address CNNC, we propose a domain-adaptive message passing graph neural network (DM-GNN), which integrates graph neural network (GNN) with conditional adversarial domain adaptation. DM-GNN is capable of learning informative representations for node classification that are also transferrable across networks. Firstly, a GNN encoder is constructed by dual feature extractors to separate ego-embedding learning from neighbor-embedding learning so as to jointly capture commonality and discrimination between connected nodes. Secondly, a label propagation node classifier is proposed to refine each node's label prediction by combining its own prediction and its neighbors' prediction. In addition, a label-aware propagation scheme is devised for the labeled source network to promote intra-class propagation while avoiding inter-class propagation, thus yielding label-discriminative source embeddings. Thirdly, conditional adversarial domain adaptation is performed to take the neighborhood-refined class-label information into account during adversarial domain adaptation, so that the class-conditional distributions across networks can be better matched. Comparisons with eleven state-of-the-art methods demonstrate the effectiveness of the proposed DM-GNN.
翻訳日:2023-09-01 17:40:39 公開日:2023-08-31
# 自然言語推論課題としてのウィキペディア記事のリンク予測

Link Prediction for Wikipedia Articles as a Natural Language Inference Task ( http://arxiv.org/abs/2308.16469v1 )

ライセンス: Link先を確認
Chau-Thang Phan, Quoc-Nam Nguyen, Kiet Van Nguyen(参考訳) リンク予測タスクは、大きな知識基盤の構造を自動的に理解するために不可欠である。 本稿では,この課題をデータサイエンス・アドバンスト・アナリティクス2023コンペティション「効率的かつ効果的なリンク予測」(dsaa-2023コンペティション)において、948,233のトレーニングと238,265の公開試験を含むコーパスを用いて解決するシステムを提案する。 本稿では、自然言語推論(NLI)タスクとして定式化することで、ウィキペディアの記事の予測をリンクする手法を提案する。 自然言語処理と理解の最近の進歩からインスピレーションを得て、リンク予測をNLIタスクとし、2つの記事間のリンクの存在を前提として扱い、この前提が記事に提示される情報に基づいて保持されるか否かを判断する。 ウィキペディア記事タスクのリンク予測のための文ペア分類に基づくシステムを実装した。 システムはそれぞれ0.99996マクロf1-scoreと1.00000マクロf1-scoreをパブリックおよびプライベートテストセットで達成した。 UIT-NLPチームは,1位と2位のスコアに匹敵する,プライベートテストセットで3位にランク付けした。 私たちのコードは研究目的で公開されています。

Link prediction task is vital to automatically understanding the structure of large knowledge bases. In this paper, we present our system to solve this task at the Data Science and Advanced Analytics 2023 Competition "Efficient and Effective Link Prediction" (DSAA-2023 Competition) with a corpus containing 948,233 training and 238,265 for public testing. This paper introduces an approach to link prediction in Wikipedia articles by formulating it as a natural language inference (NLI) task. Drawing inspiration from recent advancements in natural language processing and understanding, we cast link prediction as an NLI task, wherein the presence of a link between two articles is treated as a premise, and the task is to determine whether this premise holds based on the information presented in the articles. We implemented our system based on the Sentence Pair Classification for Link Prediction for the Wikipedia Articles task. Our system achieved 0.99996 Macro F1-score and 1.00000 Macro F1-score for the public and private test sets, respectively. Our team UIT-NLP ranked 3rd in performance on the private test set, equal to the scores of the first and second places. Our code is publicly for research purposes.
翻訳日:2023-09-01 17:40:15 公開日:2023-08-31
# 正規化流を用いた分子の励起状態の計算

Computing excited states of molecules using normalizing flows ( http://arxiv.org/abs/2308.16468v1 )

ライセンス: Link先を確認
Yahya Saleh, \'Alvaro Fern\'andez Corral, Armin Iske, Jochen K\"upper, and Andrey Yachmenev(参考訳) 量子系の基底状態と励起状態の同時計算のための新しい非線形変分フレームワークを提案する。 提案手法は,正規化フローを用いた拡張および最適化された基底関数の線形スパンにおける波動関数の近似に基づく。 本手法の精度と効率は, 水素原子, 水素イオン, 炭素原子を含む原型一電子系の励起電子状態と, 三原子H$2$S分子の多数の振動状態の計算において実証された。 その結果, パラメータの少ない正規化フローを用いた場合においても, エネルギー予測の精度が向上し, ベースセット収束が加速された。 このアプローチは、与えられた基底集合内の基礎物理学を最もよく捉える一連の内在座標の最適化としても見ることができる。

We present a new nonlinear variational framework for simultaneously computing ground and excited states of quantum systems. Our approach is based on approximating wavefunctions in the linear span of basis functions that are augmented and optimized \emph{via} composition with normalizing flows. The accuracy and efficiency of our approach are demonstrated in the calculations of a large number of vibrational states of the triatomic H$_2$S molecule as well as ground and several excited electronic states of prototypical one-electron systems including the hydrogen atom, the molecular hydrogen ion, and a carbon atom in a single-active-electron approximation. The results demonstrate significant improvements in the accuracy of energy predictions and accelerated basis-set convergence even when using normalizing flows with a small number of parameters. The present approach can be also seen as the optimization of a set of intrinsic coordinates that best capture the underlying physics within the given basis set.
翻訳日:2023-09-01 17:39:52 公開日:2023-08-31
# 自己サンプリング型メタSAM:メタラーニングによる医療画像の断片化

Self-Sampling Meta SAM: Enhancing Few-shot Medical Image Segmentation with Meta-Learning ( http://arxiv.org/abs/2308.16466v1 )

ライセンス: Link先を確認
Yiming Zhang, Tianang Leng, Kun Han, Xiaohui Xie(参考訳) SAM(Segment Anything Model)は汎用画像のセマンティックセグメンテーションに優れるが、医用画像に適用した場合、主に訓練データセットにおける医用画像の表現不足に起因するパフォーマンスが著しく低下する。 それでも、広く適用可能な包括的なデータセットやトレーニングモデルを集めることは、医用画像に共通する長い尾の問題のために特に困難である。 このギャップに対処するために、数ショットの医用画像分割のためのSelf-Sampling Meta SAM (SSM-SAM) フレームワークを提案する。 私たちのイノベーションは3つの重要なモジュールの設計にあります。 1) オンラインの高速勾配降下最適化器はメタラーナーによってさらに最適化され、新しいタスクへの迅速かつ堅牢な適応が保証される。 2)注意の配置を改善するために、よく整列した視覚プロンプトを提供するように設計された自己サンプリングモジュール 3) 異なるスライス間の関係を捉えるために, 医療用少数ショット学習用に設計された頑健な注意ベースデコーダ。 一般的な腹部CTデータセットとMRIデータセットの広範な実験により、提案手法は、数ショットのセグメンテーションにおいて最先端の手法よりも大幅に改善され、それぞれ10.21%と1.80%の改善が達成された。 そこで本研究では,対話型画像セグメンテーションにおけるオンライン適応の迅速化について,0.83分で新しい臓器に適応できる新しい手法を提案する。 コードは受け付け次第githubで公開されている。

While the Segment Anything Model (SAM) excels in semantic segmentation for general-purpose images, its performance significantly deteriorates when applied to medical images, primarily attributable to insufficient representation of medical images in its training dataset. Nonetheless, gathering comprehensive datasets and training models that are universally applicable is particularly challenging due to the long-tail problem common in medical images. To address this gap, here we present a Self-Sampling Meta SAM (SSM-SAM) framework for few-shot medical image segmentation. Our innovation lies in the design of three key modules: 1) An online fast gradient descent optimizer, further optimized by a meta-learner, which ensures swift and robust adaptation to new tasks. 2) A Self-Sampling module designed to provide well-aligned visual prompts for improved attention allocation; and 3) A robust attention-based decoder specifically designed for medical few-shot learning to capture relationship between different slices. Extensive experiments on a popular abdominal CT dataset and an MRI dataset demonstrate that the proposed method achieves significant improvements over state-of-the-art methods in few-shot segmentation, with an average improvements of 10.21% and 1.80% in terms of DSC, respectively. In conclusion, we present a novel approach for rapid online adaptation in interactive image segmentation, adapting to a new organ in just 0.83 minutes. Code is publicly available on GitHub upon acceptance.
翻訳日:2023-09-01 17:39:36 公開日:2023-08-31
# MaintainoMATE - メンテナンスアクティビティをインテリジェントに自動化するためのGitHubアプリ

MaintainoMATE: A GitHub App for Intelligent Automation of Maintenance Activities ( http://arxiv.org/abs/2308.16464v1 )

ライセンス: Link先を確認
Anas Nadeem, Muhammad Usman Sarwar, Muhammad Zubair Malik(参考訳) ソフトウェア開発プロジェクトは、バグ報告や強化要求といったメンテナンスタスクの追跡の中心にある問題追跡システムに依存している。 これらの問題追跡システムの課題報告を効果的に管理する必要がある。 まず、ラベル付けされ、関連する専門知識を持つ特定の開発者に割り当てられなければならない。 この発行レポートの処理は極めて重要であり、発行レポートに入力されたテキストを徹底的にスキャンする必要がある。 本稿では,それぞれのカテゴリのイシューレポートを自動的に分類し,関連する専門知識を持った開発者に対してイシューレポートを割り当てることのできる,containomateという統一フレームワークを提案する。 MaintainoMATEの基盤となるモデルとして,変換器からの双方向エンコーダ表現(BERT)を用いて,自動イシューレポートラベリングと代入タスクのコンテキスト情報を学習する。 この作業で使用されるフレームワークをGitHubアプリケーションとしてデプロイしています。 GitHubイシューレポートに対する我々のアプローチを実証的に評価し、イシューレポートにラベルを割り当てる能力を示す。 既存の最先端の結果に匹敵する80%に近いF1スコアを達成できたのです。 同様に、当社の初期の評価では、関連する開発者をF1スコア54 %でイシューレポートに割り当てることが可能であることを示しています。 初期の知見から,MateintainoMATEは,メンテナンスプロセスに関わるアクティビティを正確に自動化することにより,ソフトウェア品質の向上とメンテナンスコストの削減の可能性が示唆された。 今後の作業は、イシューアサインモジュールの改善に向けられます。

Software development projects rely on issue tracking systems at the core of tracking maintenance tasks such as bug reports, and enhancement requests. Incoming issue-reports on these issue tracking systems must be managed in an effective manner. First, they must be labelled and then assigned to a particular developer with relevant expertise. This handling of issue-reports is critical and requires thorough scanning of the text entered in an issue-report making it a labor-intensive task. In this paper, we present a unified framework called MaintainoMATE, which is capable of automatically categorizing the issue-reports in their respective category and further assigning the issue-reports to a developer with relevant expertise. We use the Bidirectional Encoder Representations from Transformers (BERT), as an underlying model for MaintainoMATE to learn the contextual information for automatic issue-report labeling and assignment tasks. We deploy the framework used in this work as a GitHub application. We empirically evaluate our approach on GitHub issue-reports to show its capability of assigning labels to the issue-reports. We were able to achieve an F1-score close to 80\%, which is comparable to existing state-of-the-art results. Similarly, our initial evaluations show that we can assign relevant developers to the issue-reports with an F1 score of 54\%, which is a significant improvement over existing approaches. Our initial findings suggest that MaintainoMATE has the potential of improving software quality and reducing maintenance costs by accurately automating activities involved in the maintenance processes. Our future work would be directed towards improving the issue-assignment module.
翻訳日:2023-09-01 17:39:04 公開日:2023-08-31
# Sparkles:マルチモーダルインストラクション追従モデルのための複数の画像間のチャットのアンロック

Sparkles: Unlocking Chats Across Multiple Images for Multimodal Instruction-Following Models ( http://arxiv.org/abs/2308.16463v1 )

ライセンス: Link先を確認
Yupan Huang and Zaiqiao Meng and Fangyu Liu and Yixuan Su and Nigel Collier and Yutong Lu(参考訳) 大きな言語モデルでは、命令追従データで微調整された場合、様々なタスクでゼロショット性能が向上する。 マルチモーダル命令追従モデルは、テキストと画像を統合することでこれらの機能を拡張する。 しかし、MiniGPT-4のような既存のモデルは、複数の画像を含むシナリオにおける対話コヒーレンスを維持する上で困難に直面している。 主な理由は、この重要なアプリケーションに特別なデータセットがないことである。 これらのギャップを埋めるために、複数の画像にまたがるオープンエンド対話のためのマルチモーダル命令追従モデルSparklesChatを提案する。 トレーニングを支援するために,単語レベルのインターリーブ・マルチイメージとテキストインタラクションに適した,最初の機械生成対話データセットであるSparklesDialogueを紹介した。 さらに,複数の画像と対話方向をまたいだモデルの会話能力を定量的に評価するためのGPT支援ベンチマークであるSparklesEvalを構築した。 実験では,複数の画像と対話の順番に対する理解と推論におけるsparkleschatの有効性を検証する。 特にsparkleschatは、bisonバイナリ画像選択タスクやnlvr2ビジュアル推論タスクなど、確立された視覚言語ベンチマークでminigpt-4を上回っている。 さらにSparklesChatはSparklesEvalで10点中8.56点を獲得し、MiniGPT-4のスコアは3.91点、GPT-4のスコアは9.26点に近かった。 質的評価は、現実世界のアプリケーションを扱う際のsparkleschatの汎用性をさらに示している。 すべてのリソースはhttps://github.com/HYPJUDY/Sparkles.comで入手できる。

Large language models exhibit enhanced zero-shot performance on various tasks when fine-tuned with instruction-following data. Multimodal instruction-following models extend these capabilities by integrating both text and images. However, existing models such as MiniGPT-4 face challenges in maintaining dialogue coherence in scenarios involving multiple images. A primary reason is the lack of a specialized dataset for this critical application. To bridge these gaps, we present SparklesChat, a multimodal instruction-following model for open-ended dialogues across multiple images. To support the training, we introduce SparklesDialogue, the first machine-generated dialogue dataset tailored for word-level interleaved multi-image and text interactions. Furthermore, we construct SparklesEval, a GPT-assisted benchmark for quantitatively assessing a model's conversational competence across multiple images and dialogue turns. Our experiments validate the effectiveness of SparklesChat in understanding and reasoning across multiple images and dialogue turns. Specifically, SparklesChat outperformed MiniGPT-4 on established vision-and-language benchmarks, including the BISON binary image selection task and the NLVR2 visual reasoning task. Moreover, SparklesChat scored 8.56 out of 10 on SparklesEval, substantially exceeding MiniGPT-4's score of 3.91 and nearing GPT-4's score of 9.26. Qualitative evaluations further demonstrate SparklesChat's generality in handling real-world applications. All resources will be available at https://github.com/HYPJUDY/Sparkles.
翻訳日:2023-09-01 17:38:43 公開日:2023-08-31
# 弱点アノテーションを用いたドメイン適応型シナプス検出

Domain Adaptive Synapse Detection with Weak Point Annotations ( http://arxiv.org/abs/2308.16461v1 )

ライセンス: Link先を確認
Qi Chen, Wei Huang, Yueyi Zhang, Zhiwei Xiong(参考訳) 学習に基づく手法の開発は、電子顕微鏡(em)画像からのシナプスの検出を大幅に改善した。 しかしながら、各データセットのモデルのトレーニングには時間がかかるため、広範なアノテーションが必要になる。 さらに、異なる脳領域のデータに学習モデルを適用することは、データ分布の変化によって困難である。 本稿では,弱点アノテーションを用いたドメイン適応シナプス検出のための2段階セグメンテーションに基づくフレームワークであるadasynを提案する。 第1段階では,セグメンテーションに基づくパイプラインを用いて検出問題に対処し,シナプス型インスタンスマスクを得る。 第2段階では、正方形マスクを再生して高品質な擬似ラベルを得ることにより、ターゲットデータに対するモデル一般化性を向上させる。 精度の高い検出結果から,前シナプスと後シナプスのペアに最も近い原理を導入する。 ISBI 2023のWASPSYNチャレンジでは、この手法が第1位にランクインした。

The development of learning-based methods has greatly improved the detection of synapses from electron microscopy (EM) images. However, training a model for each dataset is time-consuming and requires extensive annotations. Additionally, it is difficult to apply a learned model to data from different brain regions due to variations in data distributions. In this paper, we present AdaSyn, a two-stage segmentation-based framework for domain adaptive synapse detection with weak point annotations. In the first stage, we address the detection problem by utilizing a segmentation-based pipeline to obtain synaptic instance masks. In the second stage, we improve model generalizability on target data by regenerating square masks to get high-quality pseudo labels. Benefiting from our high-accuracy detection results, we introduce the distance nearest principle to match paired pre-synapses and post-synapses. In the WASPSYN challenge at ISBI 2023, our method ranks the 1st place.
翻訳日:2023-09-01 17:38:15 公開日:2023-08-31
# 汎用パイプラインと複数光源の回収によるレンズフレア除去の改善

Improving Lens Flare Removal with General Purpose Pipeline and Multiple Light Sources Recovery ( http://arxiv.org/abs/2308.16460v1 )

ライセンス: Link先を確認
Yuyan Zhou, Dong Liang, Songcan Chen, Sheng-Jun Huang, Shuo Yang, Chongyi Li(参考訳) 強い光源に対して画像を撮影する場合、得られた画像は異種のフレアアーティファクトを含むことが多い。 これらのアーティファクトは、画像の視覚品質と下流のコンピュータビジョンタスクに重要な影響を与える。 フレア除去モデルをトレーニングするためのフレア破損/フレアフリー画像の実際のデータ対の収集は困難であるが、現在の手法ではデータ合成に直接付加アプローチを採用している。 しかし、これらの手法は画像信号処理パイプライン(isp)における自動露光やトーンマッピングを考慮せず、そのようなデータを用いた深層モデルトレーニングの一般化能力に制限がかかっている。 既存の方法は、様々な光源のサイズ、形状、照度が異なるため、複数の光源を扱うのに苦労している。 本稿では,ispを再検討し,合成パイプラインにおける自動露光原理を再構成し,より信頼性の高い光源回収戦略を設計することにより,レンズフレア除去性能を向上させる方法を提案する。 新しいパイプラインは、凸結合による局所照明とグローバル照明を区別し、グローバル照明シフトと局所過飽和を回避し、現実的なイメージングにアプローチする。 複数光源を凸的に回収する戦略は,光度レベルに基づいてニューラルネットワークの入力と出力を平均化することにより,光源の識別に厳しいしきい値が不要になる。 また,10種類の家電製品から得られたフレア崩壊画像を含むフレア除去試験データセットを新たに提供した。 データセットはフレア除去法の一般化機能の検証を容易にする。 広範な実験により, レンズフレア除去性能を効果的に向上し, フロンティアをより一般的な状況に向かわせることができた。

When taking images against strong light sources, the resulting images often contain heterogeneous flare artifacts. These artifacts can importantly affect image visual quality and downstream computer vision tasks. While collecting real data pairs of flare-corrupted/flare-free images for training flare removal models is challenging, current methods utilize the direct-add approach to synthesize data. However, these methods do not consider automatic exposure and tone mapping in image signal processing pipeline (ISP), leading to the limited generalization capability of deep models training using such data. Besides, existing methods struggle to handle multiple light sources due to the different sizes, shapes and illuminance of various light sources. In this paper, we propose a solution to improve the performance of lens flare removal by revisiting the ISP and remodeling the principle of automatic exposure in the synthesis pipeline and design a more reliable light sources recovery strategy. The new pipeline approaches realistic imaging by discriminating the local and global illumination through convex combination, avoiding global illumination shifting and local over-saturation. Our strategy for recovering multiple light sources convexly averages the input and output of the neural network based on illuminance levels, thereby avoiding the need for a hard threshold in identifying light sources. We also contribute a new flare removal testing dataset containing the flare-corrupted images captured by ten types of consumer electronics. The dataset facilitates the verification of the generalization capability of flare removal methods. Extensive experiments show that our solution can effectively improve the performance of lens flare removal and push the frontier toward more general situations.
翻訳日:2023-09-01 17:38:03 公開日:2023-08-31
# BioCoder: 文脈論的知識を用いたバイオインフォマティクスコード生成ベンチマーク

BioCoder: A Benchmark for Bioinformatics Code Generation with Contextual Pragmatic Knowledge ( http://arxiv.org/abs/2308.16458v1 )

ライセンス: Link先を確認
Xiangru Tang, Bill Qian, Rick Gao, Jiakang Chen, Xinyun Chen, Mark Gerstein(参考訳) ChatGPTのような事前訓練された言語モデルは、コード生成を大幅に改善した。 これらのモデルが拡大するにつれて、より複雑なタスクを処理するためのアウトプットの必要性が増しています。 さらに、バイオインフォマティクスにおいて、機能プログラムの生成は、ドメイン知識の量、複雑なデータ操作の必要性、操作間の機能的依存関係の複雑化など、さらなる課題を引き起こす。 本稿では,バイオインフォマティクスコードの生成において,既存の事前学習モデルを評価するベンチマークであるBioCoderを提案する。 関数コード生成に関して、BioCoderは潜在的なパッケージ依存性、クラス宣言、グローバル変数をカバーしている。 GitHubから1026の関数と1243のメソッドをPythonとJavaに組み込んでおり、Rosalindプロジェクトから253の例がある。 BioCoderはファズテストフレームワークを組み込んで評価を行い、InCoder、CodeGen、CodeGen2、SantaCoder、StarCoder、StarCoder+、InstructCodeT5+、ChatGPTといった多くのモデルを評価しました。 これらのモデルの詳細な分析は、ドメイン知識、実用的なコード生成、コンテキスト理解の重要性を強調します。 テストに必要なデータセット、ベンチマーク、dockerイメージ、スクリプトはすべて、https://github.com/gersteinlab/biocoderで利用可能です。

Pre-trained language models like ChatGPT have significantly improved code generation. As these models scale up, there is an increasing need for the output to handle more intricate tasks. Moreover, in bioinformatics, generating functional programs poses additional notable challenges due to the amount of domain knowledge, the need for complicated data operations, and intricate functional dependencies between the operations. Here, we present BioCoder, a benchmark developed to evaluate existing pre-trained models in generating bioinformatics code. In relation to function-code generation, BioCoder covers potential package dependencies, class declarations, and global variables. It incorporates 1026 functions and 1243 methods in Python and Java from GitHub and 253 examples from the Rosalind Project. BioCoder incorporates a fuzz-testing framework for evaluation, and we have applied it to evaluate many models including InCoder, CodeGen, CodeGen2, SantaCoder, StarCoder, StarCoder+, InstructCodeT5+, and ChatGPT. Our detailed analysis of these models emphasizes the importance of domain knowledge, pragmatic code generation, and contextual understanding. Our dataset, benchmark, Docker images, and scripts required for testing are all available at https://github.com/gersteinlab/biocoder.
翻訳日:2023-09-01 17:37:36 公開日:2023-08-31
# 最小二乗最大および軽量一般化記憶装置

Least Squares Maximum and Weighted Generalization-Memorization Machines ( http://arxiv.org/abs/2308.16456v1 )

ライセンス: Link先を確認
Shuai Wang, Zhen Wang and Yuan-Hai Shao(参考訳) 本稿では,最小二乗支援ベクトルマシン (lssvm) のメモリ影響機構を導入することで,新たな記憶方法を提案する。 元のLSSVMの方程式制約を変更することなく、このメカニズムは過度に適合することなく、トレーニングセットの正確なパーティショニングを可能にする。 次に、最大メモリインパクトモデル(mimm)と重み付きインパクトメモリモデル(wimm)を提案する。 これらのモデルをLSSVMに分解できることが実証された。 さらに,MIMMとWIMMに対して異なるメモリ影響関数を提案する。 実験の結果,MIMM とWIMM は LSSVM よりも優れた一般化性能を示し,他のメモリモデルに比べて時間的利点が大きかった。

In this paper, we propose a new way of remembering by introducing a memory influence mechanism for the least squares support vector machine (LSSVM). Without changing the equation constraints of the original LSSVM, this mechanism, allows an accurate partitioning of the training set without overfitting. The maximum memory impact model (MIMM) and the weighted impact memory model (WIMM) are then proposed. It is demonstrated that these models can be degraded to the LSSVM. Furthermore, we propose some different memory impact functions for the MIMM and WIMM. The experimental results show that that our MIMM and WIMM have better generalization performance compared to the LSSVM and significant advantage in time cost compared to other memory models.
翻訳日:2023-09-01 17:37:12 公開日:2023-08-31
# 精度・ロバスト性トレードオフを緩和する潜在表現制約による逆調整

Adversarial Finetuning with Latent Representation Constraint to Mitigate Accuracy-Robustness Tradeoff ( http://arxiv.org/abs/2308.16454v1 )

ライセンス: Link先を確認
Satoshi Suzuki, Shin'ya Yamaguchi, Shoichiro Takeda, Sekitoshi Kanai, Naoki Makishima, Atsushi Ando, Ryo Masumura(参考訳) 本稿では、クリーンな例に対する標準的な精度と、ディープニューラルネットワーク(DNN)における敵の例に対する堅牢性とのトレードオフについて論じる。 対戦訓練(AT)は堅牢性を改善するが、標準精度を低下させ、トレードオフをもたらす。 このトレードオフを軽減するために、3つのコンポーネントからなるARRESTと呼ばれる新しいATメソッドを提案する。 (i)敵の微調整(AFT) (ii)表現誘導知識蒸留(rgkd)及び (iii)ノイズリプレイ(nr) AFTはDNNを敵の例で訓練し、パラメータをDNNで初期化する。 RGKDとNRはそれぞれ正規化項とアルゴリズムを持ち、AFT中のクリーンな例の潜在表現を保存する。 RGKDは、標準事前訓練されたDNNとAFT DNNの間の距離を罰する。 NRは、AFT中に表現が大きく変化すると、入力逆例を非逆例に切り替える。 これらのコンポーネントを組み合わせることで、ARRESTは高い標準精度と堅牢性の両方を達成する。 実験の結果、ARRESTは従来のATベースの手法よりも効果的にトレードオフを緩和することが示された。

This paper addresses the tradeoff between standard accuracy on clean examples and robustness against adversarial examples in deep neural networks (DNNs). Although adversarial training (AT) improves robustness, it degrades the standard accuracy, thus yielding the tradeoff. To mitigate this tradeoff, we propose a novel AT method called ARREST, which comprises three components: (i) adversarial finetuning (AFT), (ii) representation-guided knowledge distillation (RGKD), and (iii) noisy replay (NR). AFT trains a DNN on adversarial examples by initializing its parameters with a DNN that is standardly pretrained on clean examples. RGKD and NR respectively entail a regularization term and an algorithm to preserve latent representations of clean examples during AFT. RGKD penalizes the distance between the representations of the standardly pretrained and AFT DNNs. NR switches input adversarial examples to nonadversarial ones when the representation changes significantly during AFT. By combining these components, ARREST achieves both high standard accuracy and robustness. Experimental results demonstrate that ARREST mitigates the tradeoff more effectively than previous AT-based methods do.
翻訳日:2023-09-01 17:37:01 公開日:2023-08-31
# 小ささに耳を傾ける: クラス不均衡のための暗号化されたトラフィック分類

Listen to Minority: Encrypted Traffic Classification for Class Imbalance with Contrastive Pre-Training ( http://arxiv.org/abs/2308.16453v1 )

ライセンス: Link先を確認
Xiang Li, Juncheng Guo, Qige Song, Jiang Xie, Yafei Sang, Shuyuan Zhao, and Yongzheng Zhang(参考訳) モバイルインターネットは、様々な面で現代のライフスタイルを大きく変えてきた。 暗号化トラフィック分類(ETC)は、モバイルインターネットの管理において、特に暗号化通信を用いたモバイルアプリの爆発的な成長において、自然に重要な役割を果たす。 既存の学習ベースのETC手法では有望な結果を示しているが、現実のネットワーク環境では3倍の制限が残っている。 1)交通階級の不均衡によるラベルバイアス 2)部品共有による交通の均質性 3)十分なラベル付きトラフィックに依存したトレーニング。 既存のETCメソッドではこれらの制限に対処できない。 本稿では,新しい事前学習型etcフレームワークであるpassを提案する。 私たちの重要な洞察は、オリジナルのトレインデータセットを再サンプリングし、個々のアプリラベルを直接使用せずにコントラスト的な事前トレーニングを実行することで、クラス不均衡に起因するラベルバイアスの問題を回避すると同時に、前向きなトラフィックペアを近付け、負のペアを遠ざけることで、重複する同種トラフィックを区別する堅牢な特徴表現を得ることです。 一方,PASSは擬似ラベル反復と動的損失重み付けアルゴリズムに基づく半教師付き最適化戦略を設計し,大規模ラベル付きトラフィックデータを効果的に活用し,手動列車のデータセットアノテーションの作業量を軽減する。 PASSは、クラス不均衡とトラフィックの均一性の著しい4つの公開データセットに対して、最先端のETC法と一般的なサンプリング手法を上回り、Cross-Platform215のF1を1.31%、ICCX-17を9.12%で圧倒した。 さらに,様々な特徴抽出器を用いたetcメソッドを適応的に活用できるpassのコントラストプレトレーニングおよび擬似ラベル反復コンポーネントの汎用性を検証する。

Mobile Internet has profoundly reshaped modern lifestyles in various aspects. Encrypted Traffic Classification (ETC) naturally plays a crucial role in managing mobile Internet, especially with the explosive growth of mobile apps using encrypted communication. Despite some existing learning-based ETC methods showing promising results, three-fold limitations still remain in real-world network environments, 1) label bias caused by traffic class imbalance, 2) traffic homogeneity caused by component sharing, and 3) training with reliance on sufficient labeled traffic. None of the existing ETC methods can address all these limitations. In this paper, we propose a novel Pre-trAining Semi-Supervised ETC framework, dubbed PASS. Our key insight is to resample the original train dataset and perform contrastive pre-training without using individual app labels directly to avoid label bias issues caused by class imbalance, while obtaining a robust feature representation to differentiate overlapping homogeneous traffic by pulling positive traffic pairs closer and pushing negative pairs away. Meanwhile, PASS designs a semi-supervised optimization strategy based on pseudo-label iteration and dynamic loss weighting algorithms in order to effectively utilize massive unlabeled traffic data and alleviate manual train dataset annotation workload. PASS outperforms state-of-the-art ETC methods and generic sampling approaches on four public datasets with significant class imbalance and traffic homogeneity, remarkably pushing the F1 of Cross-Platform215 with 1.31%, ISCX-17 with 9.12%. Furthermore, we validate the generality of the contrastive pre-training and pseudo-label iteration components of PASS, which can adaptively benefit ETC methods with diverse feature extractors.
翻訳日:2023-09-01 17:36:44 公開日:2023-08-31
# in-class data analysis replications: テスト科学の学生に教える

In-class Data Analysis Replications: Teaching Students while Testing Science ( http://arxiv.org/abs/2308.16491v1 )

ライセンス: Link先を確認
Kristina Gligoric and Tiziano Piccardi and Jake Hofman and Robert West(参考訳) 科学は再現性危機に直面している。 従来の研究では、潜在的な解決策としてデータ分析レプリケーションを教室に組み込むことが提案されている。 しかし、潜在的な利益にもかかわらず、このアプローチが実現可能かどうかは不明であり、もしそうであれば、関与する利害関係者(学生、教育者、科学者)が何を期待するかは不明である。 生徒は授業中にデータ分析のレプリケーションを実行できますか? 教育者にとってのコストとメリットは何でしょう? そして、このソリューションは科学の状態のベンチマークと改善にどのように役立つのか? 本研究では,EPFL(N=354人)で教えられた応用データ分析コース(CS-401)のプロジェクトコンポーネントにデータ解析の複製を組み込んだ。 本報告では,全コースを通して実施した調査に基づいて,事前登録した知見を報告する。 まず, 学生が以前発行した科学論文を質的かつ正確に再現できることを実証する。 再現性に対する期待の変化とともに、学生がデータ分析の複製を期待していることと、学生の批判的思考を育むための態度転換の証拠として、学生が経験したこととの違いを見出した。 第2に,教室に複製を組み込むのに必要なオーバーヘッドに関する情報を教育者に提供し,従来の課題と比較して複製がもたらした懸念を特定する。 第3に, 科学的研究における複製レポートの収集や複製障壁に関する洞察など, 科学コミュニティにおけるデータ分析レプリケーションの目覚ましいメリットを明らかにし, 今後は避けるべきである。 全体として,大規模なデータサイエンスクラスにレプリケーションタスクを組み込むことで,データサイエンス指導の副産物としての科学的作業の再現性が向上し,科学と学生の両方にメリットがあることを示す。

Science is facing a reproducibility crisis. Previous work has proposed incorporating data analysis replications into classrooms as a potential solution. However, despite the potential benefits, it is unclear whether this approach is feasible, and if so, what the involved stakeholders-students, educators, and scientists-should expect from it. Can students perform a data analysis replication over the course of a class? What are the costs and benefits for educators? And how can this solution help benchmark and improve the state of science? In the present study, we incorporated data analysis replications in the project component of the Applied Data Analysis course (CS-401) taught at EPFL (N=354 students). Here we report pre-registered findings based on surveys administered throughout the course. First, we demonstrate that students can replicate previously published scientific papers, most of them qualitatively and some exactly. We find discrepancies between what students expect of data analysis replications and what they experience by doing them along with changes in expectations about reproducibility, which together serve as evidence of attitude shifts to foster students' critical thinking. Second, we provide information for educators about how much overhead is needed to incorporate replications into the classroom and identify concerns that replications bring as compared to more traditional assignments. Third, we identify tangible benefits of the in-class data analysis replications for scientific communities, such as a collection of replication reports and insights about replication barriers in scientific work that should be avoided going forward. Overall, we demonstrate that incorporating replication tasks into a large data science class can increase the reproducibility of scientific work as a by-product of data science instruction, thus benefiting both science and students.
翻訳日:2023-09-01 15:44:51 公開日:2023-08-31
# 潜伏画家

Latent Painter ( http://arxiv.org/abs/2308.16490v1 )

ライセンス: Link先を確認
Shih-Chieh Su(参考訳) ラテンディフューザーは生成的AIに革命を起こし、創造的芸術にインスピレーションを与えた。 潜伏音を消音するとき、各ステップの予測された原画像は、集合的に形成をアニミュレートする。 しかし、アニメーションはディフューザの難読化の性質によって制限され、シャープ化プロセスのみを描画する。 本書では,潜伏をキャンバスとして,ディフューザ予測を計画として,絵画アニメーションを生成する潜伏画家について紹介する。 潜伏画家はまた、生成した画像を別の画像に転送し、2つの異なるチェックポイントからのイメージ間で発生する。

Latent diffusers revolutionized the generative AI and inspired creative art. When denoising the latent, the predicted original image at each step collectively animates the formation. However, the animation is limited by the denoising nature of the diffuser, and only renders a sharpening process. This work presents Latent Painter, which uses the latent as the canvas, and the diffuser predictions as the plan, to generate painting animation. Latent Painter also transits one generated image to another, which can happen between images from two different sets of checkpoints.
翻訳日:2023-09-01 15:44:23 公開日:2023-08-31
# 夜間人物再同定のための照明蒸留フレームワークと新しいベンチマーク

Illumination Distillation Framework for Nighttime Person Re-Identification and A New Benchmark ( http://arxiv.org/abs/2308.16486v1 )

ライセンス: Link先を確認
Andong Lu, Zhang Zhang, Yan Huang, Yifan Zhang, Chenglong Li, Jin Tang, and Liang Wang(参考訳) 夜間人物Re-ID(夜間再識別)は視覚的監視にとって非常に重要かつ困難な課題であるが、徹底的に調査されていない。 低照度条件下では、人物再識別方式の性能は通常著しく低下する。 夜間におけるRe-IDの低照度化に対処するために,Re-IDモデルの学習を促進するために照明強化・照明蒸留方式を利用したイルミネーション蒸留フレームワーク(IDF)を提案する。 具体的には、IDFはマスターブランチ、照明増強ブランチ、照明蒸留モジュールから構成される。 マスターブランチは、夜間の画像から特徴を抽出するために使用される。 照明強調ブランチは、まず、非線形曲線マッピング法を用いた夜間画像から強調画像を推定し、その拡張特徴を抽出する。 しかし、夜間と強化された特徴は通常、不安定な照明条件と障害の強化によるデータノイズを含む。 データノイズを抑えつつ、夜間の相補的な利点と機能強化をフル活用するために、照明蒸留モジュールを提案する。 特に、照明蒸留モジュールは、ボトルネック融合モデルを介して2つの枝の特徴を融合させ、融合した特徴を用いて、両方の枝の学習を蒸留方法で導く。 さらに、複雑な屋外環境下で異なる視点から捉えた600のアイデンティティと夜間照明条件を含む実世界の夜間人物Re-IDデータセット、Night600を構築しました。 実験の結果, 夜間の2人のRe-IDデータセット(Night600とKnight)において, IDFは最先端の性能を達成できた。 コードとデータセットはhttps://github.com/Alexadlu/IDF.orgで公開します。

Nighttime person Re-ID (person re-identification in the nighttime) is a very important and challenging task for visual surveillance but it has not been thoroughly investigated. Under the low illumination condition, the performance of person Re-ID methods usually sharply deteriorates. To address the low illumination challenge in nighttime person Re-ID, this paper proposes an Illumination Distillation Framework (IDF), which utilizes illumination enhancement and illumination distillation schemes to promote the learning of Re-ID models. Specifically, IDF consists of a master branch, an illumination enhancement branch, and an illumination distillation module. The master branch is used to extract the features from a nighttime image. The illumination enhancement branch first estimates an enhanced image from the nighttime image using a nonlinear curve mapping method and then extracts the enhanced features. However, nighttime and enhanced features usually contain data noise due to unstable lighting conditions and enhancement failures. To fully exploit the complementary benefits of nighttime and enhanced features while suppressing data noise, we propose an illumination distillation module. In particular, the illumination distillation module fuses the features from two branches through a bottleneck fusion model and then uses the fused features to guide the learning of both branches in a distillation manner. In addition, we build a real-world nighttime person Re-ID dataset, named Night600, which contains 600 identities captured from different viewpoints and nighttime illumination conditions under complex outdoor environments. Experimental results demonstrate that our IDF can achieve state-of-the-art performance on two nighttime person Re-ID datasets (i.e., Night600 and Knight ). We will release our code and dataset at https://github.com/Alexadlu/IDF.
翻訳日:2023-09-01 15:44:14 公開日:2023-08-31
# メタラーニングを用いたポイントクラウドアップサンプリングのためのテスト時間適応

Test-Time Adaptation for Point Cloud Upsampling Using Meta-Learning ( http://arxiv.org/abs/2308.16484v1 )

ライセンス: Link先を確認
Ahmed Hatem, Yiming Qian, Yang Wang(参考訳) 拡張可能な3Dスキャナはしばしば、ロボットシステムにおける下流アプリケーションに悪影響を及ぼすスパースと非一様点雲を発生させる。 既存のポイントクラウドのアップサンプリングアーキテクチャは、標準ベンチマークで有望な結果を示しているが、テストデータがトレーニングデータと異なる分布を持つ場合、大きなパフォーマンス低下を経験する傾向にある。 そこで本研究では,点群アップサンプリングのモデル一般性を高めるためのテスト時間適応手法を提案する。 提案手法はメタラーニングを利用してテスト時間適応のためのネットワークパラメータを明示的に学習する。 我々の方法はテストデータに関する事前情報を必要としない。 メタトレーニングの間、モデルパラメータはインスタンスレベルのタスクの集合から学習される。 メタテスト中、トレーニングされたモデルは、各テストインスタンスに対してユニークなネットワークパラメータを生成するために、いくつかの勾配更新で微調整される。 更新されたモデルが最終予測に使用される。 私たちのフレームワークは汎用的で、ポイントクラウドアップサンプリングの既存のバックボーンネットワークとプラグ・アンド・プレイ方式で適用できます。 広範な実験により,我々のアプローチが最先端モデルの性能を向上させることを実証した。

Affordable 3D scanners often produce sparse and non-uniform point clouds that negatively impact downstream applications in robotic systems. While existing point cloud upsampling architectures have demonstrated promising results on standard benchmarks, they tend to experience significant performance drops when the test data have different distributions from the training data. To address this issue, this paper proposes a test-time adaption approach to enhance model generality of point cloud upsampling. The proposed approach leverages meta-learning to explicitly learn network parameters for test-time adaption. Our method does not require any prior information about the test data. During meta-training, the model parameters are learned from a collection of instance-level tasks, each of which consists of a sparse-dense pair of point clouds from the training data. During meta-testing, the trained model is fine-tuned with a few gradient updates to produce a unique set of network parameters for each test instance. The updated model is then used for the final prediction. Our framework is generic and can be applied in a plug-and-play manner with existing backbone networks in point cloud upsampling. Extensive experiments demonstrate that our approach improves the performance of state-of-the-art models.
翻訳日:2023-09-01 15:43:45 公開日:2023-08-31
# 心エコー図自動解析のための統合分布検出による心エコー図の分類

Echocardiographic View Classification with Integrated Out-of-Distribution Detection for Enhanced Automatic Echocardiographic Analysis ( http://arxiv.org/abs/2308.16483v1 )

ライセンス: Link先を確認
Jaeik Jeon, Seongmin Ha, Yeonyee E. Yoon, Jiyeon Kim, Hyunseok Jeong, Dawun Jeong, Yeonggul Jang, Youngtaek Hong and Hyuk-Jae Chang(参考訳) 心エコー図解析と解釈の急速に発展する分野において、心エコー図データの固有複雑さと変動性から、自動ビュー分類は極めて困難な課題である。 本研究は、31のクラスを分類し、過去の研究を超越し、広範囲の心エコー図像を扱う能力を示すことによって、この課題に効果的に対処する新しいディープラーニングベースのフレームワークであるECHO-VICODEを提案する。 さらに、ECHO-VICODEは、Mahalanobis距離を利用して、心エコーデータでよく見られる"near-OOD"インスタンスを効果的に識別する統合アウト・オブ・ディストリビューション(OOD)検出機能を組み込んでいる。 広範囲な実験を通じて,心エコー図解析における誤差の可能性を著しく低減し,視野分類とood検出の観点で,エコーvicodeの優れた性能を実証した。 この先駆的な研究は、自動心エコー解析の分野を著しく進歩させ、広範囲な臨床研究や実践において有望な応用の可能性を示している。

In the rapidly evolving field of automatic echocardiographic analysis and interpretation, automatic view classification is a critical yet challenging task, owing to the inherent complexity and variability of echocardiographic data. This study presents ECHOcardiography VIew Classification with Out-of-Distribution dEtection (ECHO-VICODE), a novel deep learning-based framework that effectively addresses this challenge by training to classify 31 classes, surpassing previous studies and demonstrating its capacity to handle a wide range of echocardiographic views. Furthermore, ECHO-VICODE incorporates an integrated out-of-distribution (OOD) detection function, leveraging the relative Mahalanobis distance to effectively identify 'near-OOD' instances commonly encountered in echocardiographic data. Through extensive experimentation, we demonstrated the outstanding performance of ECHO-VICODE in terms of view classification and OOD detection, significantly reducing the potential for errors in echocardiographic analyses. This pioneering study significantly advances the domain of automated echocardiography analysis and exhibits promising prospects for substantial applications in extensive clinical research and practice.
翻訳日:2023-09-01 15:43:27 公開日:2023-08-31
# point-tta: マルチタスクメタオーバリリー学習を用いたポイントクラウド登録のためのテスト時間適応

Point-TTA: Test-Time Adaptation for Point Cloud Registration Using Multitask Meta-Auxiliary Learning ( http://arxiv.org/abs/2308.16481v1 )

ライセンス: Link先を確認
Ahmed Hatem, Yiming Qian, Yang Wang(参考訳) 本稿では,ポイントクラウド登録(PCR)のための新しいテスト時間適応フレームワークであるPoint-TTAについて述べる。 学習ベースのアプローチは目覚ましい進歩を遂げているが、未知のテスト環境への一般化は、3Dスキャンのバリエーションのために大きな課題である。 既存のメソッドは通常、ジェネリックモデルをトレーニングし、テスト中に同じトレーニングされたモデルを各インスタンスに適用する。 これは、テスト中に同じモデルがすべてのバリエーションを処理することが難しいため、副最適かもしれない。 本稿ではPCRにおけるテスト時間適応手法を提案する。 このモデルは,テストデータの事前知識を必要とせずに,テスト時に未認識の分布に適応できる。 具体的には,PCRタスクと協調的に最適化された3つの自己監督補助タスクを設計する。 テストインスタンスが与えられた場合、これらの補助タスクを使用してモデルを適応させ、モデルを更新して推論を行う。 トレーニング中は,補助タスクによる適応モデルがプライマリタスクの精度を向上させるように,メタ副次学習アプローチを用いてトレーニングを行う。 実験結果は,ポイントクラウド登録の一般化と,他の最先端のアプローチに勝る手法の有効性を実証するものである。

We present Point-TTA, a novel test-time adaptation framework for point cloud registration (PCR) that improves the generalization and the performance of registration models. While learning-based approaches have achieved impressive progress, generalization to unknown testing environments remains a major challenge due to the variations in 3D scans. Existing methods typically train a generic model and the same trained model is applied on each instance during testing. This could be sub-optimal since it is difficult for the same model to handle all the variations during testing. In this paper, we propose a test-time adaptation approach for PCR. Our model can adapt to unseen distributions at test-time without requiring any prior knowledge of the test data. Concretely, we design three self-supervised auxiliary tasks that are optimized jointly with the primary PCR task. Given a test instance, we adapt our model using these auxiliary tasks and the updated model is used to perform the inference. During training, our model is trained using a meta-auxiliary learning approach, such that the adapted model via auxiliary tasks improves the accuracy of the primary task. Experimental results demonstrate the effectiveness of our approach in improving generalization of point cloud registration and outperforming other state-of-the-art approaches.
翻訳日:2023-09-01 15:43:04 公開日:2023-08-31
# PivotNet: エンドツーエンドHDマップ構築のためのベクトル化Pivot Learning

PivotNet: Vectorized Pivot Learning for End-to-end HD Map Construction ( http://arxiv.org/abs/2308.16477v1 )

ライセンス: Link先を確認
Wenjie Ding, Limeng Qiao, Xi Qiu, Chi Zhang(参考訳) ベクトル化された高精細マップのオンライン構築は、自動運転研究の分野でかなりの注目を集めている。 既存のほとんどのアプローチは、一定数の点を用いて変更可能なマップ要素をモデル化し、あるいは2段階の自己回帰的な方法で局所写像を予測する。 そこで本研究では,pivotnetという簡易かつ効果的なアーキテクチャを提案し,pivotベースの地図表現を統一し,直接集合予測パラダイムとして定式化する。 具体的には,まず,ネットワーク内の下位および幾何学的ポイントラインプリアーをエンコードする新しいポイント・ツー・ライン・マスクモジュールを提案する。 次に、よく設計されたピボット動的マッチングモジュールを提案し、シーケンスマッチングの概念を導入することにより、動的点列のトポロジーをモデル化する。 さらに,ベクトル化点予測の位置とトポロジを監督するために,動的ベクトル化シーケンス損失を提案する。 大規模な実験と改善により、PivotNetは少なくとも5.9 mAPのSOTAよりもはるかに優れていることが示されている。 コードはもうすぐ入手できる。

Vectorized high-definition map online construction has garnered considerable attention in the field of autonomous driving research. Most existing approaches model changeable map elements using a fixed number of points, or predict local maps in a two-stage autoregressive manner, which may miss essential details and lead to error accumulation. Towards precise map element learning, we propose a simple yet effective architecture named PivotNet, which adopts unified pivot-based map representations and is formulated as a direct set prediction paradigm. Concretely, we first propose a novel Point-to-Line Mask module to encode both the subordinate and geometrical point-line priors in the network. Then, a well-designed Pivot Dynamic Matching module is proposed to model the topology in dynamic point sequences by introducing the concept of sequence matching. Furthermore, to supervise the position and topology of the vectorized point predictions, we propose a Dynamic Vectorized Sequence loss. Extensive experiments and ablations show that PivotNet is remarkably superior to other SOTAs by 5.9 mAP at least. The code will be available soon.
翻訳日:2023-09-01 15:42:46 公開日:2023-08-31
# 部分空間投影による変圧器圧縮

Transformer Compression via Subspace Projection ( http://arxiv.org/abs/2308.16475v1 )

ライセンス: Link先を確認
Yuxuan Hu, Jing Zhang, Chen Zhao, Cuiping Li, Hong Chen(参考訳) 本稿では,モデルの大きさの隠蔽に着目し,トランスモデルを圧縮する新しい方法TCSPを提案する。 変換モデル全体を部分空間に投影することにより、モデル内の重み行列と縮小次元空間の特徴の間の行列演算を可能にし、モデルパラメータと計算資源の大幅な削減に繋がる。 この部分空間を確立するために、サンプルデータインスタンスの異なる層から派生した特徴行列を投影行列に分解する。 TCSP は GLUE と SQuAD ベンチマークで T5 と BERT モデルを圧縮するために用いられる。 実験の結果,TCSPの圧縮比は44 %であり,精度は1.6 %以上低下し,先行圧縮法を上回り,適合することがわかった。 さらに、TCSPはフィルタとアテンションヘッドサイズ圧縮をターゲットとする他の手法との互換性を示す。

We propose TCSP, a novel method for compressing a transformer model by focusing on reducing the hidden size of the model. By projecting the whole transform model into a subspace, we enable matrix operations between the weight matrices in the model and features in a reduced-dimensional space, leading to significant reductions in model parameters and computing resources. To establish this subspace, we decompose the feature matrix, derived from different layers of sampled data instances, into a projection matrix. For evaluation, TCSP is applied to compress T5 and BERT models on the GLUE and SQuAD benchmarks. Experimental results demonstrate that TCSP achieves a compression ratio of 44\% with at most 1.6\% degradation in accuracy, surpassing or matching prior compression methods. Furthermore, TCSP exhibits compatibility with other methods targeting filter and attention head size compression.
翻訳日:2023-09-01 15:42:28 公開日:2023-08-31
# マルチモーダル大規模言語モデルのサブタスク性能向上

Enhancing Subtask Performance of Multi-modal Large Language Model ( http://arxiv.org/abs/2308.16474v1 )

ライセンス: Link先を確認
Yongqiang Zhao, Zhenyu Li, Feng Zhang, Xinhai Xu, Donghong Liu(参考訳) MLLM(Multi-modal Large Language Model)は、マルチモーダルデータを扱う能力を持つLarge Language Model(LLM)から拡張されたモデルである。 現在のMLLMは、通常、LSMを使用してタスクを複数のサブタスクに分解し、個別のトレーニング済みモデルを使用して特定のサブタスクを完成させ、最終的に各サブタスクの結果を統合することでタスクの結果を得る。 現実のシナリオでは、大規模なプロジェクトを扱う場合、プロジェクトを小さなサブプロジェクトに分割し、異なるチームが対応するソリューションや結果を提供するのが一般的です。 プロジェクトオーナーは、どのソリューションまたは結果を使うかを決め、各サブタスクで最高の結果が得られ、その結果、プロジェクト全体の結果が得られます。 このことから着想を得た本研究では,複数の事前学習モデルを選択して同じサブタスクを完了させる。 複数の事前学習モデルの結果を組み合わせることで、最適サブタスク結果を得ることができ、MLLMの性能を向上させることができる。 具体的には、まず、異なる評価アプローチに基づいて、同一サブタスクに焦点を当てた複数の事前学習モデルを選択し、これらのモデルを並列に実行し、入力データを処理し、対応するサブタスク結果を生成する。 最後に、同一サブタスクに対する複数の事前学習モデルの結果をLLMを用いて比較し、そのサブタスクの結果として最良の結果を選択する。 GPT-4アノテートデータセットとヒトアノテートデータセットを用いた大規模な実験を行った。 本稿では,様々な評価指標の結果から,提案手法の有効性を十分に示す。

Multi-modal Large Language Model (MLLM) refers to a model expanded from a Large Language Model (LLM) that possesses the capability to handle and infer multi-modal data. Current MLLMs typically begin by using LLMs to decompose tasks into multiple subtasks, then employing individual pre-trained models to complete specific subtasks, and ultimately utilizing LLMs to integrate the results of each subtasks to obtain the results of the task. In real-world scenarios, when dealing with large projects, it is common practice to break down the project into smaller sub-projects, with different teams providing corresponding solutions or results. The project owner then decides which solution or result to use, ensuring the best possible outcome for each subtask and, consequently, for the entire project. Inspired by this, this study considers selecting multiple pre-trained models to complete the same subtask. By combining the results from multiple pre-trained models, the optimal subtask result is obtained, enhancing the performance of the MLLM. Specifically, this study first selects multiple pre-trained models focused on the same subtask based on distinct evaluation approaches, and then invokes these models in parallel to process input data and generate corresponding subtask results. Finally, the results from multiple pre-trained models for the same subtask are compared using the LLM, and the best result is chosen as the outcome for that subtask. Extensive experiments are conducted in this study using GPT-4 annotated datasets and human-annotated datasets. The results of various evaluation metrics adequately demonstrate the effectiveness of the proposed approach in this paper.
翻訳日:2023-09-01 15:42:13 公開日:2023-08-31
# 暗黙のマルチタスク強化学習問題に対するポリシー適応法

A Policy Adaptation Method for Implicit Multitask Reinforcement Learning Problems ( http://arxiv.org/abs/2308.16471v1 )

ライセンス: Link先を確認
Satoshi Yamamori, Jun Morimoto(参考訳) 接触や衝突を含む動的運動生成タスクでは、ポリシーパラメータの小さな変化は、非常に異なるリターンをもたらす。 例えば、サッカーでは、打球の位置や力がわずかに変化したり、ボールの摩擦が変化した場合に、ボールは同様の方向の動きで完全に異なる方向に飛べる。 しかし、異なる方向にボールを向くためには、全く異なるスキルが必要であると想像することは困難である。 本研究では,異なる報酬関数や環境パラメータを持つ単一動作カテゴリにおいて,目標や環境の暗黙的な変化にポリシーを適用するためのマルチタスク強化学習アルゴリズムを提案する。 単足ロボットモデルを用いて,ボール誘導作業における提案手法の評価を行った。 その結果,提案手法はゴール位置の暗黙的な変化やボールの再生係数に適応できるが,標準領域のランダム化手法では異なるタスク設定に対処できないことがわかった。

In dynamic motion generation tasks, including contact and collisions, small changes in policy parameters can lead to extremely different returns. For example, in soccer, the ball can fly in completely different directions with a similar heading motion by slightly changing the hitting position or the force applied to the ball or when the friction of the ball varies. However, it is difficult to imagine that completely different skills are needed for heading a ball in different directions. In this study, we proposed a multitask reinforcement learning algorithm for adapting a policy to implicit changes in goals or environments in a single motion category with different reward functions or physical parameters of the environment. We evaluated the proposed method on the ball heading task using a monopod robot model. The results showed that the proposed method can adapt to implicit changes in the goal positions or the coefficients of restitution of the ball, whereas the standard domain randomization approach cannot cope with different task settings.
翻訳日:2023-09-01 15:41:46 公開日:2023-08-31
# MS23D:マルチスケール意味的特徴点を用いた3次元物体検出手法

MS23D: A 3D Object Detection Method Using Multi-Scale Semantic Feature Points to Construct 3D Feature Layers ( http://arxiv.org/abs/2308.16518v1 )

ライセンス: Link先を確認
Yongxin Shao, Aihong Tan, Tianhong Yan, Zhetao Sun(参考訳) ライダー点雲は、正確な距離知覚を持つデータの一種であり、3次元空間における物体の動きと姿勢を効果的に表すことができる。 しかし、点雲の広がりや乱れは、それらから直接特徴を引き出すのを困難にしている。 多くの研究が点雲を正則なボクセル表現に変換することでこの問題に対処している。 しかし,これらの手法は,ダウンサンプリングによる局所特徴情報の微細化につながることが多い。 さらに,点雲のスパース性は,voxelに基づく2段法を用いて3次元特徴層の特徴を効率的に集約することは困難である。 そこで本研究では,MS$^{2}$3Dと呼ばれる2段階の3D検出フレームワークを提案する。 MS$^{2}$3Dでは、小型のボクセルを用いて微細な局所特徴と大型のボクセルを抽出し、長距離の局所特徴を捕捉する。 さらに,マルチスケールな意味的特徴点を用いた3次元特徴層の構築手法を提案し,スパースな3次元特徴層をよりコンパクトな表現に変換する。 さらに、3d特徴層の特徴点とオブジェクトのセンタロイドの間のオフセットを計算し、オブジェクトの中心にできるだけ近いものにすることを目指している。 これは特徴集約の効率を大幅に向上させる。 提案手法の有効性を検証するため,KITTIデータセットとONCEデータセットを併用して評価を行った。

Lidar point clouds, as a type of data with accurate distance perception, can effectively represent the motion and posture of objects in three-dimensional space. However, the sparsity and disorderliness of point clouds make it challenging to extract features directly from them. Many studies have addressed this issue by transforming point clouds into regular voxel representations. However, these methods often lead to the loss of fine-grained local feature information due to downsampling. Moreover, the sparsity of point clouds poses difficulties in efficiently aggregating features in 3D feature layers using voxel-based two-stage methods. To address these issues, this paper proposes a two-stage 3D detection framework called MS$^{2}$3D. In MS$^{2}$3D, we utilize small-sized voxels to extract fine-grained local features and large-sized voxels to capture long-range local features. Additionally, we propose a method for constructing 3D feature layers using multi-scale semantic feature points, enabling the transformation of sparse 3D feature layers into more compact representations. Furthermore, we compute the offset between feature points in the 3D feature layers and the centroid of objects, aiming to bring them as close as possible to the object's center. It significantly enhances the efficiency of feature aggregation. To validate the effectiveness of our method, we evaluated our method on the KITTI dataset and ONCE dataset together.
翻訳日:2023-09-01 15:37:34 公開日:2023-08-31
# グラフニューラルネットワーク内の曲率に基づくプール

Curvature-based Pooling within Graph Neural Networks ( http://arxiv.org/abs/2308.16516v1 )

ライセンス: Link先を確認
Cedric Sanders, Andreas Roth, Thomas Liebig(参考訳) オーバースカッシングとオーバースムーシングは2つの重要な問題であり、グラフニューラルネットワーク(GNN)の能力を制限する。 オーバースムーシングはノード間の差異をなくすが、オーバースキャッシングはGNNが長距離で情報を伝達できないことを指し、指数関数的に多くのノード状態が固定サイズ表現に切り替わる。 どちらもグラフトポロジーによって大きく誘導されるため、同様の原因を持つ。 グラフ分類タスクにおけるこれらの問題を緩和するために,新しいプーリング法であるcurvpoolを提案する。 CurvPoolはグラフの曲率の概念を利用して、オーバー・スムーシングとオーバー・スカッシングの両方の原因となる構造を適応的に識別する。 Balanced Forman曲線に基づくノードのクラスタリングにより、CurvPoolはより適切な構造を持つグラフを構築し、より深いモデルと遠い情報の組み合わせを可能にする。 他の最先端のプーリングアプローチと比較し、分類精度、計算複雑性、柔軟性の観点からその競争力を確立する。 curvpoolは、考慮されたすべてのタスクで比較可能なメソッドを数つ上回っている。 最も一貫した結果は、各プールの大きさに関する追加情報を可能にするため、総和アグリゲーションを用いて密結合クラスタをプールすることで達成される。

Over-squashing and over-smoothing are two critical issues, that limit the capabilities of graph neural networks (GNNs). While over-smoothing eliminates the differences between nodes making them indistinguishable, over-squashing refers to the inability of GNNs to propagate information over long distances, as exponentially many node states are squashed into fixed-size representations. Both phenomena share similar causes, as both are largely induced by the graph topology. To mitigate these problems in graph classification tasks, we propose CurvPool, a novel pooling method. CurvPool exploits the notion of curvature of a graph to adaptively identify structures responsible for both over-smoothing and over-squashing. By clustering nodes based on the Balanced Forman curvature, CurvPool constructs a graph with a more suitable structure, allowing deeper models and the combination of distant information. We compare it to other state-of-the-art pooling approaches and establish its competitiveness in terms of classification accuracy, computational complexity, and flexibility. CurvPool outperforms several comparable methods across all considered tasks. The most consistent results are achieved by pooling densely connected clusters using the sum aggregation, as this allows additional information about the size of each pool.
翻訳日:2023-09-01 15:37:13 公開日:2023-08-31
# MVDream:3次元生成のための多視点拡散

MVDream: Multi-view Diffusion for 3D Generation ( http://arxiv.org/abs/2308.16512v1 )

ライセンス: Link先を確認
Yichun Shi, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, Xiao Yang(参考訳) テキストプロンプトから幾何的に一貫した多視点画像を生成することができる多視点拡散モデルMVDreamを提案する。 大規模Webデータセットと3Dアセットからレンダリングされたマルチビューデータセットに事前トレーニングされた画像拡散モデルを利用することで、得られた多視点拡散モデルは2D拡散の一般化性と3Dデータの一貫性の両方を達成することができる。 このようなモデルは、スコア蒸留サンプリング(Score Distillation Sampling)により、3次元の一貫性問題を解くことで既存の2次元リフト法の安定性を大幅に向上する。 最後に,マルチビュー拡散モデルは,個人化された3d生成,すなわちdreambooth3dアプリケーションに対して,いくつかのショット設定の下でも微調整可能であることを示す。

We propose MVDream, a multi-view diffusion model that is able to generate geometrically consistent multi-view images from a given text prompt. By leveraging image diffusion models pre-trained on large-scale web datasets and a multi-view dataset rendered from 3D assets, the resulting multi-view diffusion model can achieve both the generalizability of 2D diffusion and the consistency of 3D data. Such a model can thus be applied as a multi-view prior for 3D generation via Score Distillation Sampling, where it greatly improves the stability of existing 2D-lifting methods by solving the 3D consistency problem. Finally, we show that the multi-view diffusion model can also be fine-tuned under a few shot setting for personalized 3D generation, i.e. DreamBooth3D application, where the consistency can be maintained after learning the subject identity.
翻訳日:2023-09-01 15:36:51 公開日:2023-08-31
# Robust GAN インバージョン

Robust GAN inversion ( http://arxiv.org/abs/2308.16510v1 )

ライセンス: Link先を確認
Egor Sevriugov, Ivan Oseledets(参考訳) 実画像編集の最近の進歩は、GAN(Generative Adversarial Networks)潜伏空間の探索によるものである。 しかし,この手法の主な課題はGANインバージョンであり,画像の潜在空間へのマッピングを正確に行うことを目的としている。 拡張潜在空間$w+$で動作する既存の方法は、低歪みと高い編集性を同時に達成できない。 この問題に対処するため,我々は,ネイティブな潜在空間である$w$で動作し,画像詳細を復元するためにジェネレータネットワークをチューニングする手法を提案する。 本稿では,ランダム化スタイルガン2モデル(wrangan)を学習可能な係数を用いた新しい正規化戦略を提案する。 この手法は, 復元品質と計算効率の点で従来の手法よりも優れ, 4倍のパラメータで最小歪みを達成できる。 さらに,バイナリ画像属性に対応するハイパープレーンの構築品質が若干改善されていることを観察した。 Flickr-Faces-HQ と LSUN Church の2つの複雑なデータセットに対するアプローチの有効性を示す。

Recent advancements in real image editing have been attributed to the exploration of Generative Adversarial Networks (GANs) latent space. However, the main challenge of this procedure is GAN inversion, which aims to map the image to the latent space accurately. Existing methods that work on extended latent space $W+$ are unable to achieve low distortion and high editability simultaneously. To address this issue, we propose an approach which works in native latent space $W$ and tunes the generator network to restore missing image details. We introduce a novel regularization strategy with learnable coefficients obtained by training randomized StyleGAN 2 model - WRanGAN. This method outperforms traditional approaches in terms of reconstruction quality and computational efficiency, achieving the lowest distortion with 4 times fewer parameters. Furthermore, we observe a slight improvement in the quality of constructing hyperplanes corresponding to binary image attributes. We demonstrate the effectiveness of our approach on two complex datasets: Flickr-Faces-HQ and LSUN Church.
翻訳日:2023-09-01 15:36:33 公開日:2023-08-31
# Recommender AI Agent:対話型レコメンデーションのための大規模言語モデルの統合

Recommender AI Agent: Integrating Large Language Models for Interactive Recommendations ( http://arxiv.org/abs/2308.16505v1 )

ライセンス: Link先を確認
Xu Huang, Jianxun Lian, Yuxuan Lei, Jing Yao, Defu Lian, Xing Xie(参考訳) Recommenderモデルは、広範囲なユーザー行動データを活用することで、ドメイン固有のアイテムレコメンデーションを提供する。 軽量なドメインエキスパートとして振る舞う能力にもかかわらず、説明の提供や会話への参加といった多彩なタスクをこなすのに苦労しています。 一方、大規模言語モデル(LLM)は、命令理解、常識推論、ヒューマンインタラクションにおいて顕著な能力を示す、人工知能への重要な一歩である。 しかしながら、llmにはドメイン固有の項目カタログや行動パターンに関する知識が欠けている。 各領域の微調整 LLM は経済的でも効率的でもない。 本稿では,レコメンダモデルとLLMのギャップを埋め,それぞれの強みを組み合わせ,多目的かつ対話的なレコメンダシステムを構築する。 llmを脳として,レコメンダモデルをツールとして使用する,recagentという効率的なフレームワークを導入する。 まず、LLMをRecAgentに変換するのに必要な最小限のツールについて概説する。 次に、メモリバス、動的デモ拡張タスク計画、リフレクションといった重要なコンポーネントを組み込んだタスク実行のためのRecAgent内の効率的なワークフローを提案する。 RecAgentは、これらのIDベースの行列因数分解モデルのような従来のレコメンデータシステムにおいて、LLMの統合を通じて自然言語インタフェースによる対話型システムを実現する。 複数の公開データセットに対する実験結果から、RecAgentは会話レコメンデータシステムとしての性能を達成し、汎用LLMよりも優れていることが示された。

Recommender models excel at providing domain-specific item recommendations by leveraging extensive user behavior data. Despite their ability to act as lightweight domain experts, they struggle to perform versatile tasks such as providing explanations and engaging in conversations. On the other hand, large language models (LLMs) represent a significant step towards artificial general intelligence, showcasing remarkable capabilities in instruction comprehension, commonsense reasoning, and human interaction. However, LLMs lack the knowledge of domain-specific item catalogs and behavioral patterns, particularly in areas that diverge from general world knowledge, such as online e-commerce. Finetuning LLMs for each domain is neither economic nor efficient. In this paper, we bridge the gap between recommender models and LLMs, combining their respective strengths to create a versatile and interactive recommender system. We introduce an efficient framework called RecAgent, which employs LLMs as the brain and recommender models as tools. We first outline a minimal set of essential tools required to transform LLMs into RecAgent. We then propose an efficient workflow within RecAgent for task execution, incorporating key components such as a memory bus, dynamic demonstration-augmented task planning, and reflection. RecAgent enables traditional recommender systems, such as those ID-based matrix factorization models, to become interactive systems with a natural language interface through the integration of LLMs. Experimental results on several public datasets show that RecAgent achieves satisfying performance as a conversational recommender system, outperforming general-purpose LLMs.
翻訳日:2023-09-01 15:36:15 公開日:2023-08-31
# ギブ・アンド・テイク交換による個別相対的協調車両ルーティング

Individually Rational Collaborative Vehicle Routing through Give-And-Take Exchanges ( http://arxiv.org/abs/2308.16501v1 )

ライセンス: Link先を確認
Paul Mingzheng Tang, Ba Phong Tran, Hoong Chuin Lau(参考訳) 本稿では,市場プラットフォームにおけるロジスティクス企業間の注文の自動交換による総収益の最適化について考察する。 本稿では, 協調車両ルーティング問題(CVRP)に焦点をあて, 個別の合理性のレンズによる新しいマルチエージェント手法を提案する。 提案アルゴリズムは,異なるロジスティクス企業の車両ペアに対して,車両ルーティング問題(VRP)の原則を適用し,標準のVRP制約と個別の合理性制約を考慮しつつ,全体の経路を最適化する。 Give-and-Takeアプローチにより,競合するロジスティクスエージェント間の協力を促進することにより,旅行距離の削減とシステム全体の運用効率の向上が可能であることを示す。 さらに重要なのは、マーケットプレースプラットフォームの長期的な持続可能性を保証する重要な特性である、個人の合理性と迅速な収束を保証することです。 本手法の有効性を,大手物流企業の実世界テストデータを用いて実証した。 以上の結果から,ロジスティクス産業を変革する可能性や実用性を踏まえた,多数の最適解を迅速に同定するアルゴリズムの能力が明らかとなった。

In this paper, we are concerned with the automated exchange of orders between logistics companies in a marketplace platform to optimize total revenues. We introduce a novel multi-agent approach to this problem, focusing on the Collaborative Vehicle Routing Problem (CVRP) through the lens of individual rationality. Our proposed algorithm applies the principles of Vehicle Routing Problem (VRP) to pairs of vehicles from different logistics companies, optimizing the overall routes while considering standard VRP constraints plus individual rationality constraints. By facilitating cooperation among competing logistics agents through a Give-and-Take approach, we show that it is possible to reduce travel distance and increase operational efficiency system-wide. More importantly, our approach ensures individual rationality and faster convergence, which are important properties of ensuring the long-term sustainability of the marketplace platform. We demonstrate the efficacy of our approach through extensive experiments using real-world test data from major logistics companies. The results reveal our algorithm's ability to rapidly identify numerous optimal solutions, underscoring its practical applicability and potential to transform the logistics industry.
翻訳日:2023-09-01 15:35:30 公開日:2023-08-31
# 一般化ウィノグラードスキーマとその文脈性

Generalised Winograd Schema and its Contextuality ( http://arxiv.org/abs/2308.16498v1 )

ライセンス: Link先を確認
Kin Ian Lo (University College London, London, UK), Mehrnoosh Sadrzadeh (University College London, London, UK), Shane Mansfield (Quandela, Paris, France)(参考訳) 自然言語の曖昧さは解釈よりも確率分布をもたらす。 分布は一度に複数の曖昧な単語にまたがることが多く、この多重性は量子文脈性の層理論モデルに適した話題となる。 これまでの研究では、文脈性の異なる定量的尺度は、語彙的曖昧性に関する心理学的な研究とよく相関していた。 本研究では,2011年にレレスケが提案した機械の知性評価試験であるWinograd Schema Challenge (WSC) について検討する。 WSCは、ウィノグラードスキーマに従って構築された文で不明瞭な代名詞を必要とする複数の選択質問の集合で構成されており、機械が正しい参照を判断することが困難であるが、人間の理解には直感的である。 本研究では,量子物理学の実験としてウィノグラードスキーマを類似的にモデル化する手法を提案する。 しかし、元のWinograd Schemaは本来、文脈性を促進するには単純すぎると論じる。 スキーマを一般化するための新しいメカニズムを導入し,bell-chsh測定シナリオと類似させる。 クラウドソーシングプラットフォームを通じて収集した人間の判断を補完する,この汎用スキーマの例を報告する。 その結果、ベル=チェシュの不等式は0.192で破られ、コリファレンス解像度設定において文脈性を示す。

Ambiguities in natural language give rise to probability distributions over interpretations. The distributions are often over multiple ambiguous words at a time; a multiplicity which makes them a suitable topic for sheaf-theoretic models of quantum contextuality. Previous research showed that different quantitative measures of contextuality correlate well with Psycholinguistic research on lexical ambiguities. In this work, we focus on coreference ambiguities and investigate the Winograd Schema Challenge (WSC), a test proposed by Levesque in 2011 to evaluate the intelligence of machines. The WSC consists of a collection of multiple-choice questions that require disambiguating pronouns in sentences structured according to the Winograd schema, in a way that makes it difficult for machines to determine the correct referents but remains intuitive for human comprehension. In this study, we propose an approach that analogously models the Winograd schema as an experiment in quantum physics. However, we argue that the original Winograd Schema is inherently too simplistic to facilitate contextuality. We introduce a novel mechanism for generalising the schema, rendering it analogous to a Bell-CHSH measurement scenario. We report an instance of this generalised schema, complemented by the human judgements we gathered via a crowdsourcing platform. The resulting model violates the Bell-CHSH inequality by 0.192, thus exhibiting contextuality in a coreference resolution setting.
翻訳日:2023-09-01 15:34:30 公開日:2023-08-31
# ホールを有するCNOT回路のグローバル合成

Global Synthesis of CNOT Circuits with Holes ( http://arxiv.org/abs/2308.16496v1 )

ライセンス: Link先を確認
Ewan Murphy (University of Oxford), Aleks Kissinger (University of Oxford)(参考訳) 量子回路変換の一般的なアプローチは、特定のゲートセットの特性を使用して、パリティ行列やスタビライザーテーブルーのような与えられた回路のユニタリの効率的な表現を作成し、改良された回路を再合成することである。 これらの手法は制限されたゲートセットに依存しているため、任意の回路への一般化は通常、回路を再合成してこれらを別々に扱うことのできる部品にスライスする。 ゲートがどのスライスに入るべきかの選択は、再合成の性能に大きな影響を与える可能性がある。 本稿では,これらの再合成アルゴリズムを一般量子回路に一般化するための代替手法を提案する。 回路をスライスに切る代わりに、量子回路に穴を開けて再合成できないゲートを「カット」します。 その結果は量子コムと呼ばれる2次過程となり、直接合成することができる。 このアイデアを、位相的に制約されたハードウェアに対してCNOT回路を再合成するRowColアルゴリズムに適用し、量子コムにどのように拡張できるかを説明する。 次に,本手法を用いたrowcolの一般化を,回路サイズとハードウェアトポロジの多様さを経験的に評価したnaive "slice and build"法と比較した。 最後に、量子コムが他の再合成アルゴリズムの一般化にどのように役立つかを概説する。

A common approach to quantum circuit transformation is to use the properties of a specific gate set to create an efficient representation of a given circuit's unitary, such as a parity matrix or stabiliser tableau, and then resynthesise an improved circuit, e.g. with fewer gates or respecting connectivity constraints. Since these methods rely on a restricted gate set, generalisation to arbitrary circuits usually involves slicing the circuit into pieces that can be resynthesised and working with these separately. The choices made about what gates should go into each slice can have a major effect on the performance of the resynthesis. In this paper we propose an alternative approach to generalising these resynthesis algorithms to general quantum circuits. Instead of cutting the circuit into slices, we "cut out" the gates we can't resynthesise leaving holes in our quantum circuit. The result is a second-order process called a quantum comb, which can be resynthesised directly. We apply this idea to the RowCol algorithm, which resynthesises CNOT circuits for topologically constrained hardware, explaining how we were able to extend it to work for quantum combs. We then compare the generalisation of RowCol using our method to the naive "slice and build" method empirically on a variety of circuit sizes and hardware topologies. Finally, we outline how quantum combs could be used to help generalise other resynthesis algorithms.
翻訳日:2023-09-01 15:33:51 公開日:2023-08-31
# 局所的トモグラフィー影(拡張抽象)

Locally Tomographic Shadows (Extended Abstract) ( http://arxiv.org/abs/2308.16494v1 )

ライセンス: Link先を確認
Howard Barnum, Matthew A. Graydon (Institute for Quantum Computing, University of Waterloo), Alex Wilce (Susquehanna University)(参考訳) Given a monoidal probabilistic theory -- a symmetric monoidal category $\mathcal{C}$ of systems and processes, together with a functor $\mathbf{V}$ assigning concrete probabilistic models to objects of $\mathcal{C}$ -- we construct a locally tomographic probabilistic theory LT$(\mathcal{C},\mathbf{V})$ -- the locally tomographic shadow of $(\mathcal{C},\mathbf{V})$ -- describing phenomena observable by local agents controlling systems in $\mathcal{C}$, and able to pool information about joint measurements made on those systems. いくつかのグローバルに異なる状態は lt$(\mathcal{c},\mathbf{v})$ において局所的に区別不能となり、この区別不能性を尊重する状態にプロセスの集合を限定する。 この構成は、実量子論のいくつかの詳細で研究されている。

Given a monoidal probabilistic theory -- a symmetric monoidal category $\mathcal{C}$ of systems and processes, together with a functor $\mathbf{V}$ assigning concrete probabilistic models to objects of $\mathcal{C}$ -- we construct a locally tomographic probabilistic theory LT$(\mathcal{C},\mathbf{V})$ -- the locally tomographic shadow of $(\mathcal{C},\mathbf{V})$ -- describing phenomena observable by local agents controlling systems in $\mathcal{C}$, and able to pool information about joint measurements made on those systems. Some globally distinct states become locally indistinguishable in LT$(\mathcal{C},\mathbf{V})$, and we restrict the set of processes to those that respect this indistinguishability. This construction is investigated in some detail for real quantum theory.
翻訳日:2023-09-01 15:33:29 公開日:2023-08-31
# トレーニングなしの凍結視覚言語モデルの拡張:ロボット知覚の改善に向けて

Expanding Frozen Vision-Language Models without Retraining: Towards Improved Robot Perception ( http://arxiv.org/abs/2308.16493v1 )

ライセンス: Link先を確認
Riley Tavassoli, Mani Amani, Reza Akhavian(参考訳) 視覚言語モデル(VLM)は、視覚的表現と、事前学習中に学習する抽象的な言語モデル(LLM)を組み合わせることで、視覚的質問応答や推論タスクにおいて強力な能力を示している。 視覚は、LLMを拡張するための最も一般的なモダリティであるが、シーンの1つの表現にすぎない。 人間とロボットの相互作用シナリオでは、ロボットの知覚はロボットによる正確なシーン理解を必要とする。 本稿では,異なるモダリティの埋め込み空間(この場合,慣性測定ユニット(IMU)データ)を教師付きおよびコントラスト的学習の組み合わせによって視覚埋め込み空間に整列させる手法を定義し,VLMがこれらの追加モダリティを再学習することなく理解し,推論できるようにする。 我々は、IMUデータを個別のアクティビティラベルにマッピングすることで失われるクエリ、画像、IMU信号間の非線形相互作用を許可するために、直接プロンプトにフィードする別個のヒューマンアクティビティ認識モデルを用いて、IMU埋め込みモデルを直接提供することを選択した。 さらに、IMUデータと視覚入力を用いた人間の活動認識実験を通して、方法論の有効性を実証する。 その結果,複数のモダリティを入力として使用することで,vlmのシーン理解が向上し,様々なタスクにおける全体的なパフォーマンスが向上し,マルチモーダルなコンテキストにおけるより汎用的で有能な言語モデルへの道が開けた。

Vision-language models (VLMs) have shown powerful capabilities in visual question answering and reasoning tasks by combining visual representations with the abstract skill set large language models (LLMs) learn during pretraining. Vision, while the most popular modality to augment LLMs with, is only one representation of a scene. In human-robot interaction scenarios, robot perception requires accurate scene understanding by the robot. In this paper, we define and demonstrate a method of aligning the embedding spaces of different modalities (in this case, inertial measurement unit (IMU) data) to the vision embedding space through a combination of supervised and contrastive training, enabling the VLM to understand and reason about these additional modalities without retraining. We opt to give the model IMU embeddings directly over using a separate human activity recognition model that feeds directly into the prompt to allow for any nonlinear interactions between the query, image, and IMU signal that would be lost by mapping the IMU data to a discrete activity label. Further, we demonstrate our methodology's efficacy through experiments involving human activity recognition using IMU data and visual inputs. Our results show that using multiple modalities as input improves the VLM's scene understanding and enhances its overall performance in various tasks, thus paving the way for more versatile and capable language models in multi-modal contexts.
翻訳日:2023-09-01 15:33:03 公開日:2023-08-31
# 微分ゲーム, 最適制御, エネルギーベースモデルによるマルチエージェント相互作用の関連について

On a Connection between Differential Games, Optimal Control, and Energy-based Models for Multi-Agent Interactions ( http://arxiv.org/abs/2308.16539v1 )

ライセンス: Link先を確認
Christopher Diehl and Tobias Klosek and Martin Kr\"uger and Nils Murzyn and Torsten Bertram(参考訳) ゲーム理論は多エージェント相互作用をモデル化するための解釈可能な数学的枠組みを提供する。 しかし、現実世界のロボット応用への適用性は、未知のエージェントの好みや目標など、いくつかの課題によって妨げられている。 これらの課題に対処するために, 微分ゲーム, 最適制御, エネルギーベースモデルとの関係を示し, 提案するエネルギーベースのポテンシャルゲーム定式化の下で既存のアプローチをどのように統一できるかを実証する。 この定式化に基づいて、本研究では、ゲームパラメータ推論のためのニューラルネットワークと、インダクティブバイアスとして働く微分可能ゲーム理論最適化層を組み合わせた、新しいエンドツーエンド学習アプリケーションを紹介する。 シミュレーションされた移動ロボット歩行者インタラクションと実世界の自動運転データを用いた実験は、ゲーム理論層が様々なニューラルネットワークバックボーンの予測性能を向上させることを示す実証的証拠を提供する。

Game theory offers an interpretable mathematical framework for modeling multi-agent interactions. However, its applicability in real-world robotics applications is hindered by several challenges, such as unknown agents' preferences and goals. To address these challenges, we show a connection between differential games, optimal control, and energy-based models and demonstrate how existing approaches can be unified under our proposed Energy-based Potential Game formulation. Building upon this formulation, this work introduces a new end-to-end learning application that combines neural networks for game-parameter inference with a differentiable game-theoretic optimization layer, acting as an inductive bias. The experiments using simulated mobile robot pedestrian interactions and real-world automated driving data provide empirical evidence that the game-theoretic layer improves the predictive performance of various neural network backbones.
翻訳日:2023-09-01 15:24:59 公開日:2023-08-31
# AI革命:金融セクターの機会と課題

The AI Revolution: Opportunities and Challenges for the Finance Sector ( http://arxiv.org/abs/2308.16538v1 )

ライセンス: Link先を確認
Carsten Maple, Lukasz Szpruch, Gregory Epiphaniou, Kalina Staykova, Simran Singh, William Penwarden, Yisi Wen, Zijian Wang, Jagdish Hariharan, Pavle Avramovic(参考訳) 本報告では、金融セクターにおける人工知能(AI)について検討し、業界に革命をもたらす可能性と課題を概説する。 それは、AIの精通した理解の重要性、その能力、そしてその潜在能力を効果的に活用し、関連するリスクを軽減している。 AIの可能性は、既存の業務の拡大から、金融セクターにおける新しい応用への道を開くまで拡大している。 金融セクターにおけるAIの応用は、業界を変えつつある。 利用範囲は、顧客のサービス強化、不正検出、リスク管理、クレジットアセスメント、高周波トレーディングなど多岐にわたる。 しかしながら、これらのメリットに加えて、AIはいくつかの課題も提示する。 これには透明性、解釈可能性、公平性、説明責任、信頼性に関する問題が含まれる。 金融セクターにおけるAIの使用は、データプライバシとセキュリティに関する重要な疑問をさらに引き起こす。 このレポートで明らかになった別の問題は、aiが金融セクターに導入できるシステミックリスクである。 エラーを起こしやすいAIは、既存のシステム的リスクを悪化させ、金融危機につながる可能性がある。 規制は、潜在的なリスクを軽減しつつ、AIの利点を活用するために不可欠である。 このニーズのグローバルな認識にもかかわらず、金融におけるAI使用に関する明確なガイドラインや法律はいまだに存在しない。 本報告では、リスクベースのアプローチの必要性、倫理的考察の取り入れ、イノベーションと消費者保護のバランスを維持することの重要性など、金融セクターにおける効果的なAI規制の形成を導く重要な原則について論じる。 報告書はアカデミア、金融業界、規制当局への勧告を提供している。

This report examines Artificial Intelligence (AI) in the financial sector, outlining its potential to revolutionise the industry and identify its challenges. It underscores the criticality of a well-rounded understanding of AI, its capabilities, and its implications to effectively leverage its potential while mitigating associated risks. The potential of AI potential extends from augmenting existing operations to paving the way for novel applications in the finance sector. The application of AI in the financial sector is transforming the industry. Its use spans areas from customer service enhancements, fraud detection, and risk management to credit assessments and high-frequency trading. However, along with these benefits, AI also presents several challenges. These include issues related to transparency, interpretability, fairness, accountability, and trustworthiness. The use of AI in the financial sector further raises critical questions about data privacy and security. A further issue identified in this report is the systemic risk that AI can introduce to the financial sector. Being prone to errors, AI can exacerbate existing systemic risks, potentially leading to financial crises. Regulation is crucial to harnessing the benefits of AI while mitigating its potential risks. Despite the global recognition of this need, there remains a lack of clear guidelines or legislation for AI use in finance. This report discusses key principles that could guide the formation of effective AI regulation in the financial sector, including the need for a risk-based approach, the inclusion of ethical considerations, and the importance of maintaining a balance between innovation and consumer protection. The report provides recommendations for academia, the finance industry, and regulators.
翻訳日:2023-09-01 15:24:43 公開日:2023-08-31
# smart data extractorは、臨床試験中にデータ収集を加速し改善する、クリニカルフレンドリーなソリューション

The Smart Data Extractor, a Clinician Friendly Solution to Accelerate and Improve the Data Collection During Clinical Trials ( http://arxiv.org/abs/2308.16537v1 )

ライセンス: Link先を確認
Sophie Quennelle (HeKA, UPCit\'e, CRC), Maxime Douillet (Imagine), Lisa Friedlander (UPCit\'e), Olivia Boyer (UPCit\'e), Anita Burgun (HeKA, UPCit\'e, CRC), Antoine Neuraz (HeKA, UPCit\'e, CRC), Nicolas Garcelon (HeKA, UPCit\'e, Imagine)(参考訳) 医学研究において、患者ファイルを閲覧する伝統的な方法では、バイアス、エラー、人的労働力、コストを誘導することが証明されている。 ノートを含むあらゆる種類のデータを抽出できる半自動システムを提案する。 スマートデータエクストラクタは、以下のルールで臨床研究フォームをプリポピュレートする。 半自動データ収集と手動データ収集を比較したクロステスト実験を行った。 対象患者79名を対象に20項目を収集しなければならなかった。 1つのフォームを完了する平均時間は、手動のデータ収集で6'81'、Smart Data Extractorで3'22'であった。 手動のデータ収集(コホート全体の163)の間にも、Smart Data Extractor(コホート全体の46)よりも多くの誤りがあった。 臨床研究フォームを埋めるために、使いやすく、理解しやすく、アジャイルなソリューションを提示します。 人的労力を削減し、データの再突入や疲労によるエラーを回避することにより、高品質なデータを提供する。

In medical research, the traditional way to collect data, i.e. browsing patient files, has been proven to induce bias, errors, human labor and costs. We propose a semi-automated system able to extract every type of data, including notes. The Smart Data Extractor pre-populates clinic research forms by following rules. We performed a cross-testing experiment to compare semi-automated to manual data collection. 20 target items had to be collected for 79 patients. The average time to complete one form was 6'81'' for manual data collection and 3'22'' with the Smart Data Extractor. There were also more mistakes during manual data collection (163 for the whole cohort) than with the Smart Data Extractor (46 for the whole cohort). We present an easy to use, understandable and agile solution to fill out clinical research forms. It reduces human effort and provides higher quality data, avoiding data re-entry and fatigue induced errors.
翻訳日:2023-09-01 15:24:20 公開日:2023-08-31
# ニューロシンボリック制約によるコンディショニングスコアベース生成モデル

Conditioning Score-Based Generative Models by Neuro-Symbolic Constraints ( http://arxiv.org/abs/2308.16534v1 )

ライセンス: Link先を確認
Davide Scassola, Sebastiano Saccani, Ginevra Carbone, Luca Bortolussi(参考訳) スコアベースおよび拡散モデルが条件付きおよび無条件生成の両方に有効なアプローチとして現れてきた。 条件付き生成は、条件付きモデルまたは分類器ガイダンスの特定のトレーニングに基づいているが、これは、制約のないデータの分類器が与えられた場合でも、ノイズ依存の分類器を訓練する必要がある。 任意の論理制約を強制する無条件スコアに基づく生成モデルから,追加のトレーニングを必要とせずにサンプルを採取する手法を提案する。 まず,ユーザ定義の制約に基づく非正規化分布条件からサンプルを採取するために,学習スコアの操作方法を示す。 次に,ソフト論理制約を符号化するための柔軟で数値的に安定なニューロシンボリックフレームワークを定義する。 これら2つの成分を組み合わせることで、一般的な、しかし近似的な条件付サンプリングアルゴリズムを得る。 我々はさらに近似の改善を目的とした効果的なヒューリスティックスを開発した。 最後に, 表データ, 画像, 時系列といった様々な制約とデータに対して, 提案手法の有効性を示す。

Score-based and diffusion models have emerged as effective approaches for both conditional and unconditional generation. Still conditional generation is based on either a specific training of a conditional model or classifier guidance, which requires training a noise-dependent classifier, even when the classifier for uncorrupted data is given. We propose an approach to sample from unconditional score-based generative models enforcing arbitrary logical constraints, without any additional training. Firstly, we show how to manipulate the learned score in order to sample from an un-normalized distribution conditional on a user-defined constraint. Then, we define a flexible and numerically stable neuro-symbolic framework for encoding soft logical constraints. Combining these two ingredients we obtain a general, but approximate, conditional sampling algorithm. We further developed effective heuristics aimed at improving the approximation. Finally, we show the effectiveness of our approach for various types of constraints and data: tabular data, images and time series.
翻訳日:2023-09-01 15:24:04 公開日:2023-08-31
# ポイントクラウド学習のための局所集約の分離

Decoupled Local Aggregation for Point Cloud Learning ( http://arxiv.org/abs/2308.16532v1 )

ライセンス: Link先を確認
Binjie Chen, Yunzhou Xia, Yu Zang, Cheng Wang, Jonathan Li(参考訳) 点雲の非構造的性質は、局所集合を異なる局所構造に適応させることを要求する。 以前の方法は、各集約プロセスに空間関係を明示的に埋め込むことでこれを満たす。 この結合したアプローチは明確な意味論を生成するのに有効であることが示されているが、関係学習の繰り返しと、方向と点を混合する冗長な計算により、集約は大幅に遅くすることができる。 本研究では,局所的な集合から空間関係を明確にモデル化することを提案する。 我々は,基本的空間情報が点特徴に符号化されている限り,特徴融合において明瞭さを損なうことなく,基本的近傍プール操作が機能しすぎることを理論的に証明する。 分離された局所集合のインスタンス化として,各学習段階で相対的な空間エンコーディングが最初に形成され,その際,局所集合にポイントワイド畳み込みとエッジマックスプールのみを用いる軽量な点ネットワークであるDeLAを提案する。 さらに、相対座標の予測により潜在的な曖昧さを減らすために正規化項が用いられる。 概念的にはシンプルだが、5つの古典的なベンチマークの実験結果から、delaは低レイテンシまたは同等のレイテンシで最先端のパフォーマンスを達成していることがわかる。 具体的には、DeLAはScanObjectNNで90%以上、S3DIS Area 5で74%mIoUを達成している。 私たちのコードはhttps://github.com/Matrix-ASC/DeLA で利用可能です。

The unstructured nature of point clouds demands that local aggregation be adaptive to different local structures. Previous methods meet this by explicitly embedding spatial relations into each aggregation process. Although this coupled approach has been shown effective in generating clear semantics, aggregation can be greatly slowed down due to repeated relation learning and redundant computation to mix directional and point features. In this work, we propose to decouple the explicit modelling of spatial relations from local aggregation. We theoretically prove that basic neighbor pooling operations can too function without loss of clarity in feature fusion, so long as essential spatial information has been encoded in point features. As an instantiation of decoupled local aggregation, we present DeLA, a lightweight point network, where in each learning stage relative spatial encodings are first formed, and only pointwise convolutions plus edge max-pooling are used for local aggregation then. Further, a regularization term is employed to reduce potential ambiguity through the prediction of relative coordinates. Conceptually simple though, experimental results on five classic benchmarks demonstrate that DeLA achieves state-of-the-art performance with reduced or comparable latency. Specifically, DeLA achieves over 90\% overall accuracy on ScanObjectNN and 74\% mIoU on S3DIS Area 5. Our code is available at https://github.com/Matrix-ASC/DeLA .
翻訳日:2023-09-01 15:23:50 公開日:2023-08-31
# 深層学習と行列分解による医用画像のプライバシー保護

Privacy-Preserving Medical Image Classification through Deep Learning and Matrix Decomposition ( http://arxiv.org/abs/2308.16530v1 )

ライセンス: Link先を確認
Andreea Bianca Popescu, Cosmin Ioan Nita, Ioana Antonia Taca, Anamaria Vizitiu, Lucian Mihai Itu(参考訳) 近年、深層学習(DL)ベースのソリューションが医学領域で広く研究され、診断、計画、治療の有効性が向上している。 健康関連データの使用は厳格に規制されているため、DLモデルの開発と使用のために病院外の医療記録を処理するためには、堅牢なデータ保護措置が必要である。 同時に、DLソリューションが特定のタスクのために特別に設計されることなく、セキュアなデータでトレーニングされたときに最小レベルのパフォーマンスを提供することを保証することは困難である。 本手法では, 特異値分解 (SVD) と主成分分析 (PCA) を用いて, DL解析に使用する前に, 医用画像の難読化を行う。 保護されたデータから関連する情報を抽出するDLアルゴリズムの能力は、難読化フレームに基づく血管造影ビュー分類のタスクに基づいて評価される。 セキュリティレベルは、ターゲットデータの事前知識が異なる2つの脅威アクターを考慮して、シミュレーション人工知能(AI)ベースの再構築攻撃によって調査される。 プライバシーの度合いは類似度指標を用いて定量的に測定される。 プライバシと精度のトレードオフを考慮する必要があるが、提案手法は、十分な性能と計算オーバーヘッド、モデル適応、ハイパーパラメータチューニングを伴わないセキュアなデータにのみ、アンジオグラフィックビュー分類器を訓練することができる。 難読化医療画像の内容は人間の知覚に対して良好に保護されているが、仮説再構築攻撃により、元のフレームの完全な情報の復元も困難であることが判明した。

Deep learning (DL)-based solutions have been extensively researched in the medical domain in recent years, enhancing the efficacy of diagnosis, planning, and treatment. Since the usage of health-related data is strictly regulated, processing medical records outside the hospital environment for developing and using DL models demands robust data protection measures. At the same time, it can be challenging to guarantee that a DL solution delivers a minimum level of performance when being trained on secured data, without being specifically designed for the given task. Our approach uses singular value decomposition (SVD) and principal component analysis (PCA) to obfuscate the medical images before employing them in the DL analysis. The capability of DL algorithms to extract relevant information from secured data is assessed on a task of angiographic view classification based on obfuscated frames. The security level is probed by simulated artificial intelligence (AI)-based reconstruction attacks, considering two threat actors with different prior knowledge of the targeted data. The degree of privacy is quantitatively measured using similarity indices. Although a trade-off between privacy and accuracy should be considered, the proposed technique allows for training the angiographic view classifier exclusively on secured data with satisfactory performance and with no computational overhead, model adaptation, or hyperparameter tuning. While the obfuscated medical image content is well protected against human perception, the hypothetical reconstruction attack proved that it is also difficult to recover the complete information of the original frames.
翻訳日:2023-09-01 15:23:25 公開日:2023-08-31
# 大規模言語モデルを用いた共感的非言語手がかりを用いたソーシャルロボットの開発

Developing Social Robots with Empathetic Non-Verbal Cues Using Large Language Models ( http://arxiv.org/abs/2308.16529v1 )

ライセンス: Link先を確認
Yoon Kyung Lee, Yoonwon Jung, Gyuyi Kang, Sowon Hahn(参考訳) 非言語的手がかりを統合することにより,社会ロボットの共感能力を高めることを提案する。 我々の主な貢献は、社会ロボットにおける4種類の共感的非言語的手がかり(SAFE: Speech, Action (gesture), Facial expression, Emotion)の設計とラベル付けである。 これらのキューはLarge Language Model (LLM)を使って生成される。 ロボットのためのLLMベースの会話システムを開発し,人間のカウンセラーが定義した社会的手がかりとの整合性を評価した。 予備的な結果は、ロボットの反応において「喜び」や「リリー」のような穏やかでポジティブな社会的感情の好みや、頻繁にうなずく動作など、異なるパターンを示す。 このような傾向にもかかわらず、我々のアプローチは文脈認識とより真正な相互作用が可能な社会ロボットの開発につながっている。 我々の研究は、言語と非言語の両方が社会的・共感的なロボットを作る上で不可欠な役割を強調し、人間とロボットの相互作用に関する将来の研究の基盤となる。

We propose augmenting the empathetic capacities of social robots by integrating non-verbal cues. Our primary contribution is the design and labeling of four types of empathetic non-verbal cues, abbreviated as SAFE: Speech, Action (gesture), Facial expression, and Emotion, in a social robot. These cues are generated using a Large Language Model (LLM). We developed an LLM-based conversational system for the robot and assessed its alignment with social cues as defined by human counselors. Preliminary results show distinct patterns in the robot's responses, such as a preference for calm and positive social emotions like 'joy' and 'lively', and frequent nodding gestures. Despite these tendencies, our approach has led to the development of a social robot capable of context-aware and more authentic interactions. Our work lays the groundwork for future studies on human-robot interactions, emphasizing the essential role of both verbal and non-verbal cues in creating social and empathetic robots.
翻訳日:2023-09-01 15:22:58 公開日:2023-08-31
# sa6d: 自己適応型少数ショット6dポーズ推定器

SA6D: Self-Adaptive Few-Shot 6D Pose Estimator for Novel and Occluded Objects ( http://arxiv.org/abs/2308.16528v1 )

ライセンス: Link先を確認
Ning Gao, Ngo Anh Vien, Hanna Ziesche, Gerhard Neumann(参考訳) 現実世界の物体の有意義なロボット操作を可能にするために、6Dポーズ推定は重要な側面の1つである。 既存のアプローチの多くは、新しいオブジェクトインスタンスが継続的に導入されるシナリオ、特に重いオクルージョンに予測を拡張するのが困難である。 本研究では, 自己適応型セグメンテーションモジュールを用いて, ターゲットオブジェクトを識別し, 少数のクラッタ付き参照画像のみを用いて対象オブジェクトの点クラウドモデルを構築するsa6dと呼ばれる数ショットポーズ推定(fspe)手法を提案する。 既存の方法とは異なり、sa6dはオブジェクト中心の参照画像や追加のオブジェクト情報を必要としない。 実世界のテーブルトップオブジェクトデータセット上でSA6Dを評価し,SA6Dが既存のFSPE手法よりも優れていることを示す。

To enable meaningful robotic manipulation of objects in the real-world, 6D pose estimation is one of the critical aspects. Most existing approaches have difficulties to extend predictions to scenarios where novel object instances are continuously introduced, especially with heavy occlusions. In this work, we propose a few-shot pose estimation (FSPE) approach called SA6D, which uses a self-adaptive segmentation module to identify the novel target object and construct a point cloud model of the target object using only a small number of cluttered reference images. Unlike existing methods, SA6D does not require object-centric reference images or any additional object information, making it a more generalizable and scalable solution across categories. We evaluate SA6D on real-world tabletop object datasets and demonstrate that SA6D outperforms existing FSPE methods, particularly in cluttered scenes with occlusions, while requiring fewer reference images.
翻訳日:2023-09-01 15:22:39 公開日:2023-08-31
# オープンワールド物体検出のための未知物体の教師なし認識

Unsupervised Recognition of Unknown Objects for Open-World Object Detection ( http://arxiv.org/abs/2308.16527v1 )

ライセンス: Link先を確認
Ruohuan Fang, Guansong Pang, Lei Zhou, Xiao Bai, Jin Zheng(参考訳) オープンワールドオブジェクト検出(owod)は、オブジェクト検出問題を現実的でダイナミックなシナリオに拡張し、既知のオブジェクトと未知のオブジェクトの両方を検出し、新たに導入された知識を段階的に学習する検出モデルが必要となる。 現在のOWODモデル、例えばOREやOW-DETRは、既知のオブジェクトの監督に大きく依存する未知の、高いオブジェクト性スコアを持つ擬似ラベル領域に焦点を当てている。 既知のオブジェクトに類似した特徴を示す未知の領域を検出できるが、既知のオブジェクトと異なるすべての領域(未知のオブジェクト領域を含む)をバックグラウンドの一部として検出する傾向があるという深刻なラベルバイアス問題に悩まされる。 ラベルバイアスを解消するために,非教師なし識別モデルを用いて,教師なし領域提案法によって生成された生の擬似ラベルから真の未知物体を識別する手法を提案する。 結果として得られたモデルは、擬似未知のオブジェクトをラベルなし領域に反復的に拡張する分類なし自己学習法によってさらに洗練することができる。 実験の結果, この手法は 1)MSCOCOデータセット上での既知のオブジェクトクラスの検出の競争性能を維持しつつ、未知のオブジェクトの検出において、以前のSOTAよりも大幅に向上する。 2) LVISとObjects365データセットのより優れた一般化能力を実現する。

Open-World Object Detection (OWOD) extends object detection problem to a realistic and dynamic scenario, where a detection model is required to be capable of detecting both known and unknown objects and incrementally learning newly introduced knowledge. Current OWOD models, such as ORE and OW-DETR, focus on pseudo-labeling regions with high objectness scores as unknowns, whose performance relies heavily on the supervision of known objects. While they can detect the unknowns that exhibit similar features to the known objects, they suffer from a severe label bias problem that they tend to detect all regions (including unknown object regions) that are dissimilar to the known objects as part of the background. To eliminate the label bias, this paper proposes a novel approach that learns an unsupervised discriminative model to recognize true unknown objects from raw pseudo labels generated by unsupervised region proposal methods. The resulting model can be further refined by a classification-free self-training method which iteratively extends pseudo unknown objects to the unlabeled regions. Experimental results show that our method 1) significantly outperforms the prior SOTA in detecting unknown objects while maintaining competitive performance of detecting known object classes on the MS COCO dataset, and 2) achieves better generalization ability on the LVIS and Objects365 datasets.
翻訳日:2023-09-01 15:22:19 公開日:2023-08-31
# 曲面時空における2つの超微粒子間の重力誘起絡み合い:I.シュワルツシルト背景

Gravity-induced entanglement between two massive microscopic particles in curved spacetime: I.The Schwarzschild background ( http://arxiv.org/abs/2308.16526v1 )

ライセンス: Link先を確認
Chi Zhang and Fu-Wen Shu(参考訳) 重力場による2つの大きな粒子の絡み合いを含む実験は、重力の量子特性を識別するために考案された。 本稿では、この実験をより一般化された曲線時空に適用し、より広い文脈で普遍的な量子重力を検証することを目的とする。 具体的には、星間物質を横切る粒子のような天体物理学現象において、質量の量子重力誘起絡み合い(QGEM)に注意を向ける。 特に、時空の重力場は、メソスコピック質量よりもかなり小さい粒子を扱う場合であっても、両方のシナリオで粒子対間の観測可能な絡み合いを誘導できる。 さらに,様々なシナリオにまたがるQGEMの特徴スペクトルを抽出し,今後の実験結果に光を当てる。 このアプローチは、重力の量子的影響を元々のスキームよりも明確で広範囲に表わすだけでなく、将来的な天文学実験への道を開く。 これらの実験は我々の仮定と一致し、量子重力の検出に多大な利点と意味を持ち、将来の設計に期待できる。

The experiment involving the entanglement of two massive particles through gravitational fields has been devised to discern the quantum attributes of gravity. In this paper, we present a scheme to extend this experiment's applicability to more generalized curved spacetimes, with the objective of validating universal quantum gravity within broader contexts. Specifically, we direct our attention towards the quantum gravity induced entanglement of mass (QGEM) in astrophysical phenomena, such as particles traversing the interstellar medium. Notably, we ascertain that the gravitational field within curved spacetime can induce observable entanglement between particle pairs in both scenarios, even when dealing with particles significantly smaller than mesoscopic masses. Furthermore, we obtain the characteristic spectra of QGEM across diverse scenarios, shedding light on potential future experimental examinations. This approach not only establishes a more pronounced and extensive manifestation of the quantum influences of gravity compared to the original scheme but also opens avenues for prospective astronomical experiments. These experiments, aligned with our postulates, hold immense advantages and implications for the detection of quantum gravity and can be envisioned for future design.
翻訳日:2023-09-01 15:21:56 公開日:2023-08-31
# scrollnet: 連続学習における動的重み付けの重要性

ScrollNet: Dynamic Weight Importance for Continual Learning ( http://arxiv.org/abs/2308.16567v1 )

ライセンス: Link先を確認
Fei Yang, Kai Wang, Joost van de Weijer(参考訳) 既存の継続学習(CL)手法の根底にある原則は、古いタスクに不可欠なパラメータの変化を罰し、他のパラメータの可塑性を許容することで安定性を優先することである。 各タスクの重みの重要性は、トレーニング中にタスク固有のマスク(例えばパラメータ分離ベースのアプローチ)を学習することで明示的に決定するか、正規化項(例えば正規化ベースのアプローチ)を導入することで暗黙的に決定できる。 しかし、これらの手法はすべて、各タスクの重み付けの重要性は、データ公開前に未知であると仮定する。 本稿では,連続学習のためのスクロールニューラルネットワークとしてScrrollNetを提案する。 scrollnetは、データ露出前に各タスクの重み付け重要度ランキングを割り当てるダイナミックネットワークと見なすことができ、このランキングを異なるタスクに再割り当てることで、シーケンシャルタスク学習中により有利な安定性と可塑性のトレードオフを実現することができる。 さらに,srollernet と様々な cl メソッドを組み合わせることで,レギュライゼーションベースやリプレイベースアプローチなどが可能になることを実証した。 CIFAR100およびTinyImagenetデータセットの実験結果から,提案手法の有効性が示された。 コードをhttps://github.com/FireFYF/ScrollNet.gitでリリースします。

The principle underlying most existing continual learning (CL) methods is to prioritize stability by penalizing changes in parameters crucial to old tasks, while allowing for plasticity in other parameters. The importance of weights for each task can be determined either explicitly through learning a task-specific mask during training (e.g., parameter isolation-based approaches) or implicitly by introducing a regularization term (e.g., regularization-based approaches). However, all these methods assume that the importance of weights for each task is unknown prior to data exposure. In this paper, we propose ScrollNet as a scrolling neural network for continual learning. ScrollNet can be seen as a dynamic network that assigns the ranking of weight importance for each task before data exposure, thus achieving a more favorable stability-plasticity tradeoff during sequential task learning by reassigning this ranking for different tasks. Additionally, we demonstrate that ScrollNet can be combined with various CL methods, including regularization-based and replay-based approaches. Experimental results on CIFAR100 and TinyImagenet datasets show the effectiveness of our proposed method. We release our code at https://github.com/FireFYF/ScrollNet.git.
翻訳日:2023-09-01 15:16:43 公開日:2023-08-31
# the power of meme: モデルベース強化学習による敵対的マルウェア生成

The Power of MEME: Adversarial Malware Creation with Model-Based Reinforcement Learning ( http://arxiv.org/abs/2308.16562v1 )

ライセンス: Link先を確認
Maria Rigaki, Sebastian Garcia(参考訳) マルウェアの拡散により、ディフェンダーはマルウェア検出ツールチェーンの一部として、自動化と機械学習へと向かっている。 しかし、機械学習モデルは敵対的な攻撃を受けやすく、モデルと製品の堅牢性をテストする必要がある。 一方、攻撃者はマルウェアの発生やウイルス対策の回避も自動化しようとしており、被告は彼らの方法に関する洞察を得ようとしている。 本研究は,Malware Evasion と Model extract (MEME) を併用した新しいアルゴリズムを提案する。 MEMEは、モデルベースの強化学習を使用して、Windowsの実行可能なバイナリサンプルを逆向きに修正し、同時にターゲットモデルと高い合意で代理モデルをトレーニングして回避する。 本手法を評価するために,3つの有名な公開モデルと1つのアンチウイルス製品を標的として,敵対的マルウェア生成における2つの最先端攻撃と比較した。 その結果、MEMEは、ほとんど全てのケースにおいて回避能力において最先端の手法よりも優れており、32~73%の範囲で回避率の高い回避マルウェアを生み出していることがわかった。 また、97~99%のターゲットモデルと予測ラベルが一致した代理モデルを生成する。 サーロゲートは、将来の蒸発速度を微調整し、改善するために使用できる。

Due to the proliferation of malware, defenders are increasingly turning to automation and machine learning as part of the malware detection tool-chain. However, machine learning models are susceptible to adversarial attacks, requiring the testing of model and product robustness. Meanwhile, attackers also seek to automate malware generation and evasion of antivirus systems, and defenders try to gain insight into their methods. This work proposes a new algorithm that combines Malware Evasion and Model Extraction (MEME) attacks. MEME uses model-based reinforcement learning to adversarially modify Windows executable binary samples while simultaneously training a surrogate model with a high agreement with the target model to evade. To evaluate this method, we compare it with two state-of-the-art attacks in adversarial malware creation, using three well-known published models and one antivirus product as targets. Results show that MEME outperforms the state-of-the-art methods in terms of evasion capabilities in almost all cases, producing evasive malware with an evasion rate in the range of 32-73%. It also produces surrogate models with a prediction label agreement with the respective target models between 97-99%. The surrogate could be used to fine-tune and improve the evasion rate in the future.
翻訳日:2023-09-01 15:16:20 公開日:2023-08-31
# MoMA: 病理画像解析のための多面的注意に基づく知識蒸留によるMomentum Contrastive Learning

MoMA: Momentum Contrastive Learning with Multi-head Attention-based Knowledge Distillation for Histopathology Image Analysis ( http://arxiv.org/abs/2308.16561v1 )

ライセンス: Link先を確認
Trinh Thi Le Vuong and Jin Tae Kwak(参考訳) 高度な人工知能モデルと高品質なデータが、計算病理学ツールの開発の成功の鍵であることは間違いない。 病理データの総量は増え続けているが、患者データに対するプライバシーや倫理的問題など、特定のタスクに関しては、品質データの欠如が一般的な問題である。 本研究では, 既存のモデルを用いて新たな対象モデルを学び, 計算病理学における課題を克服するために, 知識蒸留を利用する方法を提案する。 具体的には,教師が直接ソースデータにアクセスすることなく,学習対象モデルから学習し,マルチヘッド・アテンション・メカニズムを用いたモーメント・コントラッシブ・ラーニングを通じて関連する知識を抽出し,一貫したコンテキスト認識型特徴表現を提供する。 これにより、ターゲットモデルは、ターゲットデータのユニークなニュアンスにシームレスに対応しながら、教師モデルの情報表現を同化することができる。 提案手法は,教師モデルが対象モデルと同一で適切で無関係な分類タスクで訓練された様々なシナリオにおいて厳密に評価される。 実験結果は,知識を異なる領域やタスクに伝達する手法の精度と堅牢性を示し,他の手法よりも優れていることを示す。 さらに、計算病理学における様々なタスクやシナリオの学習戦略に関するガイドラインを提供する。 コードは \url{https://github.com/trinhvg/moma} で入手できる。

There is no doubt that advanced artificial intelligence models and high quality data are the keys to success in developing computational pathology tools. Although the overall volume of pathology data keeps increasing, a lack of quality data is a common issue when it comes to a specific task due to several reasons including privacy and ethical issues with patient data. In this work, we propose to exploit knowledge distillation, i.e., utilize the existing model to learn a new, target model, to overcome such issues in computational pathology. Specifically, we employ a student-teacher framework to learn a target model from a pre-trained, teacher model without direct access to source data and distill relevant knowledge via momentum contrastive learning with multi-head attention mechanism, which provides consistent and context-aware feature representations. This enables the target model to assimilate informative representations of the teacher model while seamlessly adapting to the unique nuances of the target data. The proposed method is rigorously evaluated across different scenarios where the teacher model was trained on the same, relevant, and irrelevant classification tasks with the target model. Experimental results demonstrate the accuracy and robustness of our approach in transferring knowledge to different domains and tasks, outperforming other related methods. Moreover, the results provide a guideline on the learning strategy for different types of tasks and scenarios in computational pathology. Code is available at: \url{https://github.com/trinhvg/MoMA}.
翻訳日:2023-09-01 15:15:59 公開日:2023-08-31
# E3CM: 極性制約のあるカスケード対応マッチング

E3CM: Epipolar-Constrained Cascade Correspondence Matching ( http://arxiv.org/abs/2308.16555v1 )

ライセンス: Link先を確認
Chenbo Zhou, Shuai Su, Qijun Chen, Rui Fan(参考訳) 高精度で堅牢な対応マッチングは、様々な3Dコンピュータビジョンタスクにおいて最も重要である。 しかし、従来の明示的なプログラミングベースの手法は、しばしば難しいシナリオに対処するのに苦労し、深層学習ベースの手法では、ネットワークトレーニングのために大きなラベル付きデータセットを必要とする。 本稿では,これらの制約に対処する新しいアプローチであるE3CM(Epipolar-Constrained Cascade Cor correspondingence)を紹介する。 従来の方法とは異なり、e3cmは事前学習された畳み込みニューラルネットワークを利用して対応を一致させる。 提案手法は, エピポーラ制約を利用してマッチングプロセスを導出し, マッチの進行的洗練のためのカスケード構造を組み込む。 我々は,e3cmの性能を包括的実験により広範囲に評価し,既存の手法よりも優れていることを示す。 さらなる研究を促進し再現性を促進するため、ソースコードをhttps://mias.group/E3CMで公開しています。

Accurate and robust correspondence matching is of utmost importance for various 3D computer vision tasks. However, traditional explicit programming-based methods often struggle to handle challenging scenarios, and deep learning-based methods require large well-labeled datasets for network training. In this article, we introduce Epipolar-Constrained Cascade Correspondence (E3CM), a novel approach that addresses these limitations. Unlike traditional methods, E3CM leverages pre-trained convolutional neural networks to match correspondence, without requiring annotated data for any network training or fine-tuning. Our method utilizes epipolar constraints to guide the matching process and incorporates a cascade structure for progressive refinement of matches. We extensively evaluate the performance of E3CM through comprehensive experiments and demonstrate its superiority over existing methods. To promote further research and facilitate reproducibility, we make our source code publicly available at https://mias.group/E3CM.
翻訳日:2023-09-01 15:15:34 公開日:2023-08-31
# テンポラルアクションセグメンテーションによる心肺蘇生指導の迅速強化型階層型トランスフォーマ

Prompt-enhanced Hierarchical Transformer Elevating Cardiopulmonary Resuscitation Instruction via Temporal Action Segmentation ( http://arxiv.org/abs/2308.16552v1 )

ライセンス: Link先を確認
Yang Liu, Xiaoyun Zhong, Shiyao Zhai, Zhicheng Du, Zhenyuan Gao, Qiming Huang, Canyang Zhang, Bin Jiang, Vijay Kumar Pandey, Sanyang Han, Runming Wang, Yuxing Han and Peiwu Qin(参考訳) 予期せぬ心停止に苦しむ人々の大多数は、通行人によって心肺蘇生(cpr)を行い、必死に生活を回復させようとするが、失格のために努力は実り得ない。 幸いなことに、規律ある訓練が蘇生の成功率を高めるのに役立ち、新しい技術のシームレスな組み合わせを常に望んでいます。 そこで,本研究では,提案するガイドラインに従わずにマネキンの蘇生行動に自力で努力するカスタムcprビデオデータセットを収集し,現代的深層学習手法による中間的潜在的な問題の監督・修正を支援する補助ツールボックスを開発した。 本研究は,非トリミング映像をフレームレベルで分割することを目的とした,コンピュータビジョンにおける時間的行動分節化(tas)タスクとしてこの問題を実証的に捉えている。 本稿では,PhiTrans(Prompt-enhanced Hierarchical Transformer)を提案する。テキストプロンプトベースのビデオ特徴抽出器(VFE),トランスフォーマーベースのアクションセグメンテーション実行器(ASE),レグレッションベースの予測リファインメントキャリブレータ(PRC)の3つの不必要なモジュールを統合する。 モデルのバックボーンは、3つの承認されたパブリックデータセット(GTEA、50Salads、Breakfast)で収集されたTASタスクのアプリケーションから優先的に派生している。 一般に、我々は、最先端の深層学習技術と合わせて、アクションセグメンテーションによるCPR指導資格を真に高めることが可能なパイプラインを探索する。 関連する実験では、複数のメトリクスで91.0%を超える実装を提唱しています。

The vast majority of people who suffer unexpected cardiac arrest are performed cardiopulmonary resuscitation (CPR) by passersby in a desperate attempt to restore life, but endeavors turn out to be fruitless on account of disqualification. Fortunately, many pieces of research manifest that disciplined training will help to elevate the success rate of resuscitation, which constantly desires a seamless combination of novel techniques to yield further advancement. To this end, we collect a custom CPR video dataset in which trainees make efforts to behave resuscitation on mannequins independently in adherence to approved guidelines, thereby devising an auxiliary toolbox to assist supervision and rectification of intermediate potential issues via modern deep learning methodologies. Our research empirically views this problem as a temporal action segmentation (TAS) task in computer vision, which aims to segment an untrimmed video at a frame-wise level. Here, we propose a Prompt-enhanced hierarchical Transformer (PhiTrans) that integrates three indispensable modules, including a textual prompt-based Video Features Extractor (VFE), a transformer-based Action Segmentation Executor (ASE), and a regression-based Prediction Refinement Calibrator (PRC). The backbone of the model preferentially derives from applications in three approved public datasets (GTEA, 50Salads, and Breakfast) collected for TAS tasks, which accounts for the excavation of the segmentation pipeline on the CPR dataset. In general, we unprecedentedly probe into a feasible pipeline that genuinely elevates the CPR instruction qualification via action segmentation in conjunction with cutting-edge deep learning techniques. Associated experiments advocate our implementation with multiple metrics surpassing 91.0%.
翻訳日:2023-09-01 15:15:17 公開日:2023-08-31
# 小児第一永久大臼歯におけるカリーまたはピットの物体検出と亀裂封止要件

Object Detection for Caries or Pit and Fissure Sealing Requirement in Children's First Permanent Molars ( http://arxiv.org/abs/2308.16551v1 )

ライセンス: Link先を確認
Chenyao Jiang, Shiyao Zhai, Hengrui Song, Yuqing Ma, Yachen Fan, Yancheng Fang, Dongmei Yu, Canyang Zhang, Sanyang Han, Runming Wang, Yong Liu, Jianbo Li, Peiwu Qin(参考訳) 歯科治療は、治療を受けていないと様々な口腔疾患を引き起こす最も一般的な口腔疾患の1つである。 主に臼歯の咬合/咬合/口蓋の孔や裂孔の内部で発生し、小児は永久臼歯の孔や裂孔の高リスク群である。 穴と亀裂のシールは、穴と亀裂の予防に広く使われている最も効果的な方法の1つである。 しかし、現在のピットや亀裂の検出は、通常親が持たない経験豊富な歯科医に主に依存しており、子供はタイムリーに検出することなくリメディカル治療を欠くことがある。 そこで本研究では,スマートフォンで撮影された口腔内写真を用いて,カリーやピット,亀裂を自動検出する手法を提案する。 我々は、YOLOv5 と YOLOX モデルを使用し、画像前処理時の情報損失を低減するためのタイリング戦略を採用する。 YOLOXsモデルにおけるタイリング戦略の最良の結果は72.3 mAP.5であり、タイリング戦略のない最良の結果は71.2である。 YOLOv5s6モデルはそれぞれ70.9/67.9 mAP.5に達する。 WeChatアプレットとしてモバイルデバイスに事前トレーニングされたネットワークをデプロイし、親や子供の保護者による家庭内検出を可能にします。

Dental caries is one of the most common oral diseases that, if left untreated, can lead to a variety of oral problems. It mainly occurs inside the pits and fissures on the occlusal/buccal/palatal surfaces of molars and children are a high-risk group for pit and fissure caries in permanent molars. Pit and fissure sealing is one of the most effective methods that is widely used in prevention of pit and fissure caries. However, current detection of pits and fissures or caries depends primarily on the experienced dentists, which ordinary parents do not have, and children may miss the remedial treatment without timely detection. To address this issue, we present a method to autodetect caries and pit and fissure sealing requirements using oral photos taken by smartphones. We use the YOLOv5 and YOLOX models and adopt a tiling strategy to reduce information loss during image pre-processing. The best result for YOLOXs model with tiling strategy is 72.3 mAP.5, while the best result without tiling strategy is 71.2. YOLOv5s6 model with/without tiling attains 70.9/67.9 mAP.5, respectively. We deploy the pre-trained network to mobile devices as a WeChat applet, allowing in-home detection by parents or children guardian.
翻訳日:2023-09-01 15:14:40 公開日:2023-08-31
# 論文蒸留 : NLPモデルにおけるバイアスのヘイトスピーチ検出への影響の検討

Thesis Distillation: Investigating The Impact of Bias in NLP Models on Hate Speech Detection ( http://arxiv.org/abs/2308.16549v1 )

ライセンス: Link先を確認
Fatma Elsafoury(参考訳) 本論文は,私の博士論文における研究の概要である。 そこで,NLPモデルにおけるバイアスがヘイトスピーチ検出の課題に及ぼす影響を,説明可能性,攻撃的ステレオタイピングバイアス,公平性の3つの視点から検討した。 私の論文の主な内容と、それが幅広いnlpコミュニティにどのように貢献できるかを議論します。 最後に、今後の重要な研究方針について論じる。 NLPモデルの偏見は,3つの観点からのヘイトスピーチ検出の課題に影響を及ぼすことが示唆された。 そして、NLPモデルにおけるバイアスの研究に社会科学を取り入れない限り、NLPモデルにおけるバイアスの測定と緩和の現在の限界を効果的に克服することはできません。

This paper is a summary of the work in my PhD thesis. In which, I investigate the impact of bias in NLP models on the task of hate speech detection from three perspectives: explainability, offensive stereotyping bias, and fairness. I discuss the main takeaways from my thesis and how they can benefit the broader NLP community. Finally, I discuss important future research directions. The findings of my thesis suggest that bias in NLP models impacts the task of hate speech detection from all three perspectives. And that unless we start incorporating social sciences in studying bias in NLP models, we will not effectively overcome the current limitations of measuring and mitigating bias in NLP models.
翻訳日:2023-09-01 15:14:16 公開日:2023-08-31
# 高度な機械学習モデルと多変量入力を用いた緊急部門群集予測

Forecasting Emergency Department Crowding with Advanced Machine Learning Models and Multivariable Input ( http://arxiv.org/abs/2308.16544v1 )

ライセンス: Link先を確認
Jalmari Tuominen, Eetu Pulkkinen, Jaakko Peltonen, Juho Kanniainen, Niku Oksala, Ari Palom\"aki, Antti Roine(参考訳) 救急部門(ED)の混雑は患者の安全にとって重大な脅威であり、死亡率の増加と繰り返し関連付けられている。 将来のサービス需要の予測は、潜在的に患者の結果をもたらす。 研究の活発さにもかかわらず、いくつかのギャップが残っている。 1)先進的機械学習モデル(ml)の急速な流入により,提案予測モデルが時代遅れとなった。 2)多変量入力データの量は制限されており、 3) 離散的なパフォーマンス指標が報告されることは稀である。 本研究では,先進的なMLモデルを用いて,約24時間前におけるED占有率の予測を行う。 我々は,大規模なEDと広範な説明変数を組み合わせた電子健康記録データを用いて,捕獲地域病院におけるベッドの利用状況,局地観測所からの交通データ,気象変数などについて検討した。 N-BEATSとLightGBMは、それぞれ11%と9パーセントの改善でベンチマークを上回り、DeepARは翌日のAUCが0.76(95 % CI 0.69-0.84)になると予測している。 我々の知る限りでは、ED予測の文脈における統計ベンチマークよりもLightGBMとN-BEATSの優位性を示す最初の研究である。

Emergency department (ED) crowding is a significant threat to patient safety and it has been repeatedly associated with increased mortality. Forecasting future service demand has the potential patient outcomes. Despite active research on the subject, several gaps remain: 1) proposed forecasting models have become outdated due to quick influx of advanced machine learning models (ML), 2) amount of multivariable input data has been limited and 3) discrete performance metrics have been rarely reported. In this study, we document the performance of a set of advanced ML models in forecasting ED occupancy 24 hours ahead. We use electronic health record data from a large, combined ED with an extensive set of explanatory variables, including the availability of beds in catchment area hospitals, traffic data from local observation stations, weather variables, etc. We show that N-BEATS and LightGBM outpeform benchmarks with 11 % and 9 % respective improvements and that DeepAR predicts next day crowding with an AUC of 0.76 (95 % CI 0.69-0.84). To the best of our knowledge, this is the first study to document the superiority of LightGBM and N-BEATS over statistical benchmarks in the context of ED forecasting.
翻訳日:2023-09-01 15:14:04 公開日:2023-08-31
# 構造アライメントを用いたスケーラブル不完全マルチビュークラスタリング

Scalable Incomplete Multi-View Clustering with Structure Alignment ( http://arxiv.org/abs/2308.16541v1 )

ライセンス: Link先を確認
Yi Wen, Siwei Wang, Ke Liang, Weixuan Liang, Xinhang Wan, Xinwang Liu, Suyuan Liu, Jiyuan Liu, En Zhu(参考訳) 既存のマルチビュークラスタリング(MVC)の成功は、すべてのビューが完成したという仮定に依存している。 しかし、サンプルは通常、データの破損やセンサーの故障によって部分的に利用でき、不完全なマルチビュークラスタリング(IMVC)の研究が進められる。 大規模な不完全データを処理するためにいくつかのアンカーベースIMVC法が提案されているが、それでも以下の欠点に悩まされている。 一 ほとんどの既存アプローチは、ビュー間の不一致を無視し、ビュー間の表現を一貫性を持たせ、モデルの表現能力を損なう。 二 異なる視点のサンプルの相違により、学習したアンカーが不完全データに対するアンカーアンペア問題(AUP-ID)と誤解される可能性がある。 このようなAUP-IDは不正確なグラフ融合を引き起こし、クラスタリング性能を低下させる。 そこで,本研究では,構造アライメントを用いたスケーラブル不完全マルチビュークラスタリング(simvc-sa)と呼ばれる新しいアンカーグラフ学習フレームワークを提案する。 具体的には、ビュー固有のアンカーグラフを構築し、異なるビューから補完情報をキャプチャする。 aup-idを解決するために,クロスビューアンカー対応を洗練するための新しい構造アライメントモジュールを提案する。 一方、アンカーグラフの構築とアライメントは、クラスタリング品質を高めるために、統合フレームワークで共同で最適化されています。 フルグラフの代わりにアンカーグラフを構築することにより、提案したSIMVC-SAの時間と空間の複雑さはサンプル数と線形に相関することが証明された。 7つの不完全なベンチマークデータセットに対する大規模な実験により,提案手法の有効性と有効性を示した。 私たちのコードはhttps://github.com/wy1019/simvc-saで公開されています。

The success of existing multi-view clustering (MVC) relies on the assumption that all views are complete. However, samples are usually partially available due to data corruption or sensor malfunction, which raises the research of incomplete multi-view clustering (IMVC). Although several anchor-based IMVC methods have been proposed to process the large-scale incomplete data, they still suffer from the following drawbacks: i) Most existing approaches neglect the inter-view discrepancy and enforce cross-view representation to be consistent, which would corrupt the representation capability of the model; ii) Due to the samples disparity between different views, the learned anchor might be misaligned, which we referred as the Anchor-Unaligned Problem for Incomplete data (AUP-ID). Such the AUP-ID would cause inaccurate graph fusion and degrades clustering performance. To tackle these issues, we propose a novel incomplete anchor graph learning framework termed Scalable Incomplete Multi-View Clustering with Structure Alignment (SIMVC-SA). Specially, we construct the view-specific anchor graph to capture the complementary information from different views. In order to solve the AUP-ID, we propose a novel structure alignment module to refine the cross-view anchor correspondence. Meanwhile, the anchor graph construction and alignment are jointly optimized in our unified framework to enhance clustering quality. Through anchor graph construction instead of full graphs, the time and space complexity of the proposed SIMVC-SA is proven to be linearly correlated with the number of samples. Extensive experiments on seven incomplete benchmark datasets demonstrate the effectiveness and efficiency of our proposed method. Our code is publicly available at https://github.com/wy1019/SIMVC-SA.
翻訳日:2023-09-01 15:13:43 公開日:2023-08-31
# 音声信号の正確なフォルマント追尾のための時変準閉位相解析

Time-Varying Quasi-Closed-Phase Analysis for Accurate Formant Tracking in Speech Signals ( http://arxiv.org/abs/2308.16540v1 )

ライセンス: Link先を確認
Dhananjaya Gowda, Sudarsana Reddy Kadiri, Brad Story, Paavo Alku(参考訳) 本稿では,時変準閉相解析(TVQCP)を用いた音声信号におけるフォルマントの正確な推定と追跡のための新しい手法を提案する。 従来のフォルマント追跡法は、2段階推定・追跡戦略を採用しており、最初のホルマント候補のセットは短時間解析(例えば10〜50ms)で推定され、その後動的計画法や線形状態空間モデルに基づく追跡段階が続く。 これらのアプローチの主な欠点の1つは、追跡段階が良いとはいえ、第1段のフォルマント推定精度では改善できないことである。 提案したTVQCP法は,推定と追跡の段階を1つにまとめた一段フォーマントトラッキングを提供する。 TVQCP analysis combines three approaches to improve formant estimation and tracking: (1) it uses temporally weighted quasi-closed-phase analysis to derive closed-phase estimates of the vocal tract with reduced interference from the excitation source, (2) it increases the residual sparsity by using the $L_1$ optimization and (3) it uses time-varying linear prediction analysis over long time windows (e.g., 100--200 ms) to impose a continuity constraint on the vocal tract model and hence on the formant trajectories. 様々な合成音声信号と自然な音声信号を用いたホルマント追跡実験により、提案手法は、WavesurferやPrat(動的プログラミングに基づく)、KARMAアルゴリズム(カルマンフィルタリングに基づく)、DeepFormants(教師付き方法で訓練されたディープニューラルネットワークに基づく)といった従来のフォーマント追跡ツールよりも優れた性能を示した。 提案されたメソッドのMatlabスクリプトは以下の通りである。

In this paper, we propose a new method for the accurate estimation and tracking of formants in speech signals using time-varying quasi-closed-phase (TVQCP) analysis. Conventional formant tracking methods typically adopt a two-stage estimate-and-track strategy wherein an initial set of formant candidates are estimated using short-time analysis (e.g., 10--50 ms), followed by a tracking stage based on dynamic programming or a linear state-space model. One of the main disadvantages of these approaches is that the tracking stage, however good it may be, cannot improve upon the formant estimation accuracy of the first stage. The proposed TVQCP method provides a single-stage formant tracking that combines the estimation and tracking stages into one. TVQCP analysis combines three approaches to improve formant estimation and tracking: (1) it uses temporally weighted quasi-closed-phase analysis to derive closed-phase estimates of the vocal tract with reduced interference from the excitation source, (2) it increases the residual sparsity by using the $L_1$ optimization and (3) it uses time-varying linear prediction analysis over long time windows (e.g., 100--200 ms) to impose a continuity constraint on the vocal tract model and hence on the formant trajectories. Formant tracking experiments with a wide variety of synthetic and natural speech signals show that the proposed TVQCP method performs better than conventional and popular formant tracking tools, such as Wavesurfer and Praat (based on dynamic programming), the KARMA algorithm (based on Kalman filtering), and DeepFormants (based on deep neural networks trained in a supervised manner). Matlab scripts for the proposed method can be found at: https://github.com/njaygowda/ftrack
翻訳日:2023-09-01 15:13:11 公開日:2023-08-31
# 理学療法後の5年間の体重軌跡予測のための解釈可能な機械学習ベースの計算機の開発と検証--多国的振り返りコホート・ソフィア研究

Development and validation of an interpretable machine learning-based calculator for predicting 5-year weight trajectories after bariatric surgery: a multinational retrospective cohort SOPHIA study ( http://arxiv.org/abs/2308.16585v1 )

ライセンス: Link先を確認
Patrick Saux (Scool, CRIStAL), Pierre Bauvin, Violeta Raverdy, Julien Teigny (Scool), H\'el\`ene Verkindt, Tomy Soumphonphakdy (Scool), Maxence Debert (Scool), Anne Jacobs, Daan Jacobs, Valerie Monpellier, Phong Ching Lee, Chin Hong Lim, Johanna C Andersson-Assarsson, Lena Carlsson, Per-Arne Svensson, Florence Galtier, Guelareh Dezfoulian, Mihaela Moldovanu, Severine Andrieux, Julien Couster, Marie Lepage, Erminia Lembo, Ornella Verrastro, Maud Robert, Paulina Salminen, Geltrude Mingrone, Ralph Peterli, Ricardo V Cohen, Carlos Zerrweck, David Nocca, Carel W Le Roux, Robert Caiazzo, Philippe Preux (Scool, CRIStAL), Fran\c{c}ois Pattou(参考訳) 手術前後の体重減少軌跡は個人によって大きく異なり, 術後の体重減少の予測は困難である。 術後5年間の減量軌跡の術前予測に機械学習を用いたモデルを開発することを目的とした。 Methods In this multinational retrospective observational study we enrolled adult participants (aged $\ge$18 years) from ten prospective cohorts (including ABOS [NCT01129297], BAREVAL [NCT02310178], the Swedish Obese Subjects study, and a large cohort from the Dutch Obesity Clinic [Nederlandse Obesitas Kliniek]) and two randomised trials (SleevePass [NCT00793143] and SM-BOSS [NCT00356213]) in Europe, the Americas, and Asia, with a 5 year followup after Roux-en-Y gastric bypass, sleeve gastrectomy, or gastric band. 来院予定日と来院の遅れが多かった症例は, 既往歴のある症例は除外された。 訓練コホートはフランスの2つのセンター(ABOSとBAREVAL)の患者で構成された。 主な結果は5年間のBMIであった。 変数選択のための最小絶対縮小と選択演算子と、解釈可能な回帰木を構築するための分類と回帰木アルゴリズムを用いてモデルを開発した。 モデルの性能は, 中央値の絶対偏差 (MAD) と根平均二乗誤差 (RMSE) を用いて評価した。 分析対象は10か国12か国231例で,30,602例であった。 12のコホートのうち7701 (75$\bullet$3%) は女性、2530 (24$\bullet$7%) は男性であった。 トレーニングコホートで利用可能な434の基準属性のうち,身長,体重,介入型,年齢,糖尿病状態,糖尿病期間,喫煙状況の7つの変数が選択された。 5年間で、外部テストコホート全体のMAD BMIの平均値は2$\bullet$8 kg/m${}^2$ (95% CI 2$\bullet$6-3$\bullet$0)、RMSE BMIは4$\bullet$7 kg/m${}^2$ (4$\bullet$4-5$\bullet$0)、予測と観測されたBMIの平均差は-0$\bullet$3 kg/m${}^2$ (SD 4$\bullet$7)であった。 このモデルは,手術前の臨床診断に有用なWebベースの予測ツールに組み込まれている。 解釈 われわれは,3回の冠状動脈の介入後,各5年間の体重減少軌跡を予測するための機械学習モデルを開発した。

Background Weight loss trajectories after bariatric surgery vary widely between individuals, and predicting weight loss before the operation remains challenging. We aimed to develop a model using machine learning to provide individual preoperative prediction of 5-year weight loss trajectories after surgery. Methods In this multinational retrospective observational study we enrolled adult participants (aged $\ge$18 years) from ten prospective cohorts (including ABOS [NCT01129297], BAREVAL [NCT02310178], the Swedish Obese Subjects study, and a large cohort from the Dutch Obesity Clinic [Nederlandse Obesitas Kliniek]) and two randomised trials (SleevePass [NCT00793143] and SM-BOSS [NCT00356213]) in Europe, the Americas, and Asia, with a 5 year followup after Roux-en-Y gastric bypass, sleeve gastrectomy, or gastric band. Patients with a previous history of bariatric surgery or large delays between scheduled and actual visits were excluded. The training cohort comprised patients from two centres in France (ABOS and BAREVAL). The primary outcome was BMI at 5 years. A model was developed using least absolute shrinkage and selection operator to select variables and the classification and regression trees algorithm to build interpretable regression trees. The performances of the model were assessed through the median absolute deviation (MAD) and root mean squared error (RMSE) of BMI. Findings10 231 patients from 12 centres in ten countries were included in the analysis, corresponding to 30 602 patient-years. Among participants in all 12 cohorts, 7701 (75$\bullet$3%) were female, 2530 (24$\bullet$7%) were male. Among 434 baseline attributes available in the training cohort, seven variables were selected: height, weight, intervention type, age, diabetes status, diabetes duration, and smoking status. At 5 years, across external testing cohorts the overall mean MAD BMI was 2$\bullet$8 kg/m${}^2$ (95% CI 2$\bullet$6-3$\bullet$0) and mean RMSE BMI was 4$\bullet$7 kg/m${}^2$ (4$\bullet$4-5$\bullet$0), and the mean difference between predicted and observed BMI was-0$\bullet$3 kg/m${}^2$ (SD 4$\bullet$7). This model is incorporated in an easy to use and interpretable web-based prediction tool to help inform clinical decision before surgery. InterpretationWe developed a machine learning-based model, which is internationally validated, for predicting individual 5-year weight loss trajectories after three common bariatric interventions.
翻訳日:2023-09-01 15:05:41 公開日:2023-08-31
# 深層生成モデルを用いた教師なしテキストスタイル転送

Unsupervised Text Style Transfer with Deep Generative Models ( http://arxiv.org/abs/2308.16584v1 )

ライセンス: Link先を確認
Zhongtao Jiang, Yuanzhe Zhang, Yiming Ju, and Kang Liu(参考訳) 深層生成モデルを用いた教師なしテキストスタイル転送のための汎用フレームワークを提案する。 フレームワークは、非並列コーパスの各文ラベル対を、コンテンツとスタイルを表す2つの潜在コードを含む完全四重項から部分的に観察するようにモデル化する。 これらのコードは、観測データ内の依存関係を悪用することで学習される。 そして、それを操作して文を転送する。 我々のフレームワークは、以前の埋め込みメソッドとプロトタイプメソッドを2つの特別な形式に統一することができる。 また、アライメントエンコーダや逆行訓練といった分野において、これまで提案されていたテクニックを説明するための原則的な視点も提供する。 さらに3つのベンチマークで実験を行う。 自動評価と人的評価の両方の結果から,本手法はいくつかの強力なベースラインと比較して,優れた,あるいは競争的な結果が得られることが示された。

We present a general framework for unsupervised text style transfer with deep generative models. The framework models each sentence-label pair in the non-parallel corpus as partially observed from a complete quadruplet which additionally contains two latent codes representing the content and style, respectively. These codes are learned by exploiting dependencies inside the observed data. Then a sentence is transferred by manipulating them. Our framework is able to unify previous embedding and prototype methods as two special forms. It also provides a principled perspective to explain previously proposed techniques in the field such as aligned encoder and adversarial training. We further conduct experiments on three benchmarks. Both automatic and human evaluation results show that our methods achieve better or competitive results compared to several strong baselines.
翻訳日:2023-09-01 15:04:45 公開日:2023-08-31
# any-size-diffusion:任意のサイズのhd画像の効率的なテキスト駆動合成に向けて

Any-Size-Diffusion: Toward Efficient Text-Driven Synthesis for Any-Size HD Images ( http://arxiv.org/abs/2308.16582v1 )

ライセンス: Link先を確認
Qingping Zheng, Yuanfan Guo, Jiankang Deng, Jianhua Han, Ying Li, Songcen Xu, Hang Xu(参考訳) テキストと画像の合成に使用される生成モデルである安定拡散は、様々なサイズの画像を生成する際にしばしば解像度による合成問題に遭遇する。 この問題は、主にシングルスケールイメージと対応するテキスト記述のペアでトレーニングされているモデルに起因している。 さらに、無制限サイズの画像の直接訓練は、膨大な数のテキストイメージペアが必要であり、かなりの計算コストを必要とするため、実現不可能である。 これらの課題を克服するために、高メモリGPUリソースの必要性を最小限に抑えつつ、任意のサイズのよく構成された画像を効率よく生成する、Any-Size-Diffusion (ASD)という2段階のパイプラインを提案する。 具体的には、ARAD(Any Ratio Adaptability Diffusion)と呼ばれる初期ステージでは、選択された画像セットに制限範囲を限定して、テキスト条件拡散モデルを最適化し、様々な画像サイズに対応するように構成を調整する能力を向上させる。 任意のサイズの画像の作成を支援するため,Fast Seamless Tiled Diffusion (FSTD) と呼ばれる手法をさらに導入する。 この方法では、シーミングアーティファクトやメモリ過負荷を避けるため、asd出力を任意の高解像度サイズに迅速に拡大することができる。 LAION-COCO と MM-CelebA-HQ のベンチマークによる実験結果から、ASD は任意の大きさのよく構造化された画像を生成でき、従来のタイル付きアルゴリズムと比較して推論時間を2倍削減できることが示された。

Stable diffusion, a generative model used in text-to-image synthesis, frequently encounters resolution-induced composition problems when generating images of varying sizes. This issue primarily stems from the model being trained on pairs of single-scale images and their corresponding text descriptions. Moreover, direct training on images of unlimited sizes is unfeasible, as it would require an immense number of text-image pairs and entail substantial computational expenses. To overcome these challenges, we propose a two-stage pipeline named Any-Size-Diffusion (ASD), designed to efficiently generate well-composed images of any size, while minimizing the need for high-memory GPU resources. Specifically, the initial stage, dubbed Any Ratio Adaptability Diffusion (ARAD), leverages a selected set of images with a restricted range of ratios to optimize the text-conditional diffusion model, thereby improving its ability to adjust composition to accommodate diverse image sizes. To support the creation of images at any desired size, we further introduce a technique called Fast Seamless Tiled Diffusion (FSTD) at the subsequent stage. This method allows for the rapid enlargement of the ASD output to any high-resolution size, avoiding seaming artifacts or memory overloads. Experimental results on the LAION-COCO and MM-CelebA-HQ benchmarks demonstrate that ASD can produce well-structured images of arbitrary sizes, cutting down the inference time by 2x compared to the traditional tiled algorithm.
翻訳日:2023-09-01 15:04:32 公開日:2023-08-31
# 多レベル文脈情報を用いたマンダリン韻律構造予測の改善

Improving Mandarin Prosodic Structure Prediction with Multi-level Contextual Information ( http://arxiv.org/abs/2308.16577v1 )

ライセンス: Link先を確認
Jie Chen, Changhe Song, Deyi Tuo, Xixin Wu, Shiyin Kang, Zhiyong Wu, Helen Meng(参考訳) テキスト音声合成(TTS)において,韻律構造予測(PSP)は自然かつ知性のある音声を生成する上で重要な役割を担っている。 発話間言語情報は、対象発話の音声解釈に影響を与える可能性があるが、PSPの以前の研究は、現在発話のみの発話内言語情報の利用に重点を置いていた。 本稿では,音声間言語情報を用いてpspの性能を向上させることを提案する。 入力テキストの文字レベル、発話レベル、談話レベルから階層エンコーダにより、発話間言語情報と発話間言語情報の両方を含む多レベルコンテキスト情報を抽出する。 次に、マルチタスク学習(MTL)デコーダが、マルチレベルコンテキスト情報から韻律境界を予測する。 2つのデータセットの客観的評価結果から, 韻律語(PW), 韻律語(PPH), 国語句(IPH)の予測において, より優れたF1スコアが得られた。 マルチレベル文脈情報を用いたPSPの有効性を示す。 また、主観的嗜好テストは、合成音声の自然性の向上を示す。

For text-to-speech (TTS) synthesis, prosodic structure prediction (PSP) plays an important role in producing natural and intelligible speech. Although inter-utterance linguistic information can influence the speech interpretation of the target utterance, previous works on PSP mainly focus on utilizing intrautterance linguistic information of the current utterance only. This work proposes to use inter-utterance linguistic information to improve the performance of PSP. Multi-level contextual information, which includes both inter-utterance and intrautterance linguistic information, is extracted by a hierarchical encoder from character level, utterance level and discourse level of the input text. Then a multi-task learning (MTL) decoder predicts prosodic boundaries from multi-level contextual information. Objective evaluation results on two datasets show that our method achieves better F1 scores in predicting prosodic word (PW), prosodic phrase (PPH) and intonational phrase (IPH). It demonstrates the effectiveness of using multi-level contextual information for PSP. Subjective preference tests also indicate the naturalness of synthesized speeches are improved.
翻訳日:2023-09-01 15:04:02 公開日:2023-08-31
# GHuNeRF:モノクラービデオから一般提供可能な人間のNeRF

GHuNeRF: Generalizable Human NeRF from a Monocular Video ( http://arxiv.org/abs/2308.16576v1 )

ライセンス: Link先を確認
Chen Li, Jihao Lin, Gim Hee Lee(参考訳) 本稿では,モノクロビデオから一般化可能なヒトNeRFモデルを学習する上での課題に取り組む。 既存の一般化可能な人間のNeRFは印象的な結果を得たが、常に利用できるとは限らないミューティビュー画像やビデオが必要である。 一方、モノクラービデオからの人間の自由視点レンダリングに関する研究は、目に見えないアイデンティティに一般化することはできない。 これらの制約を考慮し,GHuNeRFを提案し,人間の演奏者のモノクロ映像から一般化可能なNeRFモデルを学習する。 まず,3次元特徴量の構築に使用される頂点的特徴量を計算するために,可視性に着目したアグリゲーションスキームを導入する。 特徴ボリュームは、解像度が限られているため、人間のパフォーマーの全体的な形状を不十分な精度で表現できる。 これを解決するために,注意機構を用いて時間的に整列されたポイントワイドな特徴を持つボリューム機能をさらに強化する。 最後に、強化された機能は、各サンプル点の密度と色を予測するために使用される。 訓練と推論の両方の効率を改善するため、表面ガイドによるサンプリング戦略も導入された。 我々は,ZJU-MoCapデータセットに対するアプローチを検証し,既存のマルチビュービデオベースアプローチと同等のパフォーマンスを実現する。 また,単眼人スナップショットデータセット上でテストを行い,単眼映像のみを使用する場合の既存の作業よりも優れた性能を実現する。

In this paper, we tackle the challenging task of learning a generalizable human NeRF model from a monocular video. Although existing generalizable human NeRFs have achieved impressive results, they require muti-view images or videos which might not be always available. On the other hand, some works on free-viewpoint rendering of human from monocular videos cannot be generalized to unseen identities. In view of these limitations, we propose GHuNeRF to learn a generalizable human NeRF model from a monocular video of the human performer. We first introduce a visibility-aware aggregation scheme to compute vertex-wise features, which is used to construct a 3D feature volume. The feature volume can only represent the overall geometry of the human performer with insufficient accuracy due to the limited resolution. To solve this, we further enhance the volume feature with temporally aligned point-wise features using an attention mechanism. Finally, the enhanced feature is used for predicting density and color for each sampled point. A surface-guided sampling strategy is also introduced to improve the efficiency for both training and inference. We validate our approach on the widely-used ZJU-MoCap dataset, where we achieve comparable performance with existing multi-view video based approaches. We also test on the monocular People-Snapshot dataset and achieve better performance than existing works when only monocular video is used.
翻訳日:2023-09-01 15:03:46 公開日:2023-08-31
# 半監督医用画像分割のための擬似ラベルガイドデータ拡張によるデュアルデコーダの整合性

Dual-Decoder Consistency via Pseudo-Labels Guided Data Augmentation for Semi-Supervised Medical Image Segmentation ( http://arxiv.org/abs/2308.16573v1 )

ライセンス: Link先を確認
Yuanbin Chen, Tao Wang, Hui Tang, Longxuan Zhao, Ruige Zong, Tao Tan, Xinlin Zhang, Tong Tong(参考訳) 医用画像のセグメンテーション手法は、訓練用にラベル付き画像の広範なセットを持つことで、優れたパフォーマンスを達成するために、完全に教師されたアプローチに依存することが多い。 しかし、医用画像の注釈付けは高価かつ時間を要する。 セミ教師付き学習は、注釈付き画像の限られたセットとともに多くのラベルのない画像を活用することで、ソリューションを提供する。 本稿では,Pseudo-Labels Guided Data Augmentation (DCPA)を介して,Dual-Decoder Consistencyと呼ばれる平均教師モデルに基づく半教師付き医療画像分割手法を提案する。 この方法は、整合正則化、擬似ラベル、データ拡張を組み合わせ、半教師付きセグメンテーションの有効性を高める。 まず,提案モデルは,共用エンコーダを持つ生徒モデルと教師モデルの両方と,異なるアップサンプリング戦略を用いた2つの異なるデコーダから構成される。 デコーダ間の出力差を最小限に抑えることで一貫した表現が生成され、学生モデルのトレーニング中に正規化される。 次に,ラベル付きデータとラベル付きデータとを混合して混合データを生成し,データ拡張を実現する。 最後に、疑似ラベルは教師モデルによって生成され、教師なし損失を計算するために混合データのラベルとして利用される。 dcpaモデルのセグメンテーション結果と,3つの医療データセットにおける最先端の6つの半教師付き手法を比較した。 従来の10\%と20\%の半教師付き設定を超えて、より監督の少ないパフォーマンス(ラベル付きデータ)を調査する。 実験結果から,本手法は既存の半教師付き医用画像セグメンテーション法より常に優れていることが示された。

Medical image segmentation methods often rely on fully supervised approaches to achieve excellent performance, which is contingent upon having an extensive set of labeled images for training. However, annotating medical images is both expensive and time-consuming. Semi-supervised learning offers a solution by leveraging numerous unlabeled images alongside a limited set of annotated ones. In this paper, we introduce a semi-supervised medical image segmentation method based on the mean-teacher model, referred to as Dual-Decoder Consistency via Pseudo-Labels Guided Data Augmentation (DCPA). This method combines consistency regularization, pseudo-labels, and data augmentation to enhance the efficacy of semi-supervised segmentation. Firstly, the proposed model comprises both student and teacher models with a shared encoder and two distinct decoders employing different up-sampling strategies. Minimizing the output discrepancy between decoders enforces the generation of consistent representations, serving as regularization during student model training. Secondly, we introduce mixup operations to blend unlabeled data with labeled data, creating mixed data and thereby achieving data augmentation. Lastly, pseudo-labels are generated by the teacher model and utilized as labels for mixed data to compute unsupervised loss. We compare the segmentation results of the DCPA model with six state-of-the-art semi-supervised methods on three publicly available medical datasets. Beyond classical 10\% and 20\% semi-supervised settings, we investigate performance with less supervision (5\% labeled data). Experimental outcomes demonstrate that our approach consistently outperforms existing semi-supervised medical image segmentation methods across the three semi-supervised settings.
翻訳日:2023-09-01 15:03:27 公開日:2023-08-31
# CL-MAE:カリキュラム学習型マスクオートエンコーダ

CL-MAE: Curriculum-Learned Masked Autoencoders ( http://arxiv.org/abs/2308.16572v1 )

ライセンス: Link先を確認
Neelu Madan, Nicolae-Catalin Ristea, Kamal Nasrollahi, Thomas B. Moeslund, Radu Tudor Ionescu(参考訳) マスク付き画像モデリングは、複数の下流タスクで効果的に一般化できる堅牢な表現を生成するための強力なプリテキストタスクとして実証されている。 通常、このアプローチは入力画像のパッチ(トークン)をランダムにマスキングするが、トレーニング中にマスク戦略は変わらない。 本稿では,マスキング戦略をアップデートし,自己監督型再構築作業の複雑さを継続的に高めるカリキュラム学習手法を提案する。 タスクの複雑さを徐々に増大させることで、モデルはより高度で伝達可能な表現を学ぶことができると推測する。 これを容易にするために,異なる複雑なマスクを生成する能力を有する新しい学習可能なマスキングモジュールを導入し,提案モジュールをマスク付きオートエンコーダ(MAE)に統合する。 我々のモジュールは、トレーニング中の動作を調整しながら、MAEと共同でトレーニングされ、パートナーからMAEへ(同じ復元損失を最適化)、敵へ(反対損失を最適化)し、中立状態を通過する。 これらの挙動間の遷移は滑らかであり、マスキングモジュールの再構成損失に乗じる因子によって制御される。 得られたトレーニング手順は、難易度の高いカリキュラムを生成する。 我々は、ImageNet上でCL-MAE(Curriculum-Learned Masked Autoencoder)をトレーニングし、MAEよりも優れた表現学習能力を示すことを示す。 5つの下流タスクにおける実証的な結果から,カリキュラム学習が自己監督型オートエンコーダに有効であることを示す。

Masked image modeling has been demonstrated as a powerful pretext task for generating robust representations that can be effectively generalized across multiple downstream tasks. Typically, this approach involves randomly masking patches (tokens) in input images, with the masking strategy remaining unchanged during training. In this paper, we propose a curriculum learning approach that updates the masking strategy to continually increase the complexity of the self-supervised reconstruction task. We conjecture that, by gradually increasing the task complexity, the model can learn more sophisticated and transferable representations. To facilitate this, we introduce a novel learnable masking module that possesses the capability to generate masks of different complexities, and integrate the proposed module into masked autoencoders (MAE). Our module is jointly trained with the MAE, while adjusting its behavior during training, transitioning from a partner to the MAE (optimizing the same reconstruction loss) to an adversary (optimizing the opposite loss), while passing through a neutral state. The transition between these behaviors is smooth, being regulated by a factor that is multiplied with the reconstruction loss of the masking module. The resulting training procedure generates an easy-to-hard curriculum. We train our Curriculum-Learned Masked Autoencoder (CL-MAE) on ImageNet and show that it exhibits superior representation learning capabilities compared to MAE. The empirical results on five downstream tasks confirm our conjecture, demonstrating that curriculum learning can be successfully used to self-supervise masked autoencoders.
翻訳日:2023-09-01 15:02:55 公開日:2023-08-31
# BaDLADデータセットの文書レイアウト解析:総合的MViTv2に基づくアプローチ

Document Layout Analysis on BaDLAD Dataset: A Comprehensive MViTv2 Based Approach ( http://arxiv.org/abs/2308.16571v1 )

ライセンス: Link先を確認
Ashrafur Rahman Khan, Asif Azad(参考訳) 急速に発展するデジタル時代において、文書レイアウトの分析は、自動情報抽出と解釈において重要な役割を果たす。 本研究では,文書からテキストボックス,段落,画像,テーブルを抽出するために,BaDLADデータセット上にカスケードマスクR-CNNを用いたMViTv2トランスフォーマーモデルアーキテクチャを訓練した。 3相サイクルで36エポックの20365文書画像のトレーニングを行ったところ、0.2125のトレーニング損失と0.19のマスク損失が得られた。 私たちの仕事は、トレーニングを超えて、潜在的な拡張の道を探究しています。 本研究では, 回転とフリップの増大の影響, 入力画像のスライシング効果, トランスフォーマーバックボーンの解像度変化の影響, 欠落したテキストボックスを明らかにするためにデュアルパス推論を用いる可能性について検討した。 これらの調査を通じて、いくつかの変更が具体的なパフォーマンス改善をもたらすとともに、将来的な取り組みにユニークな洞察を与える結果のスペクトルを観察する。

In the rapidly evolving digital era, the analysis of document layouts plays a pivotal role in automated information extraction and interpretation. In our work, we have trained MViTv2 transformer model architecture with cascaded mask R-CNN on BaDLAD dataset to extract text box, paragraphs, images and tables from a document. After training on 20365 document images for 36 epochs in a 3 phase cycle, we achieved a training loss of 0.2125 and a mask loss of 0.19. Our work extends beyond training, delving into the exploration of potential enhancement avenues. We investigate the impact of rotation and flip augmentation, the effectiveness of slicing input images pre-inference, the implications of varying the resolution of the transformer backbone, and the potential of employing a dual-pass inference to uncover missed text-boxes. Through these explorations, we observe a spectrum of outcomes, where some modifications result in tangible performance improvements, while others offer unique insights for future endeavors.
翻訳日:2023-09-01 15:02:27 公開日:2023-08-31
# MONDEO:マルチステージボットネット検出

MONDEO: Multistage Botnet Detection ( http://arxiv.org/abs/2308.16570v1 )

ライセンス: Link先を確認
Duarte Dias, Bruno Sousa, Nuno Antunes(参考訳) モバイルデバイスは広く普及し、最も使われている技術となった。 その特徴から、ボットネット関連のマルウェアの主要なターゲットとなっている。 FluBotは、モバイルデバイスに感染するボットネットマルウェアの例である。 特にflubotはdnsベースのボットネットで、ドメイン生成アルゴリズム(dga)を使用してコマンド制御サーバ(c2)との通信を確立する。 MONDEOはDNSベースのボットネットマルウェアを検出するフレキシブルな設計の多段階機構である。 MONDEOは軽量で、ソフトウェア、エージェント、設定をモバイルデバイスに配置する必要なくデプロイできるため、コアネットワークへの統合が容易である。 MONDEOは、ブラックリスト/ホワイトリスト、クエリレート分析、DGA分析、機械学習評価の4つの検出ステージで構成されている。 パケットのストリームを処理して、異なるフェーズにおいて高い効率で攻撃を識別する目的で開発された。 MONDEOは効率と性能を測定するためにいくつかのデータセットに対してテストされ、RandomForestの分類器で高いパフォーマンスを実現した。 実装はgithubで公開されている。

Mobile devices have widespread to become the most used piece of technology. Due to their characteristics, they have become major targets for botnet-related malware. FluBot is one example of botnet malware that infects mobile devices. In particular, FluBot is a DNS-based botnet that uses Domain Generation Algorithms (DGA) to establish communication with the Command and Control Server (C2). MONDEO is a multistage mechanism with a flexible design to detect DNS-based botnet malware. MONDEO is lightweight and can be deployed without requiring the deployment of software, agents, or configuration in mobile devices, allowing easy integration in core networks. MONDEO comprises four detection stages: Blacklisting/Whitelisting, Query rate analysis, DGA analysis, and Machine learning evaluation. It was created with the goal of processing streams of packets to identify attacks with high efficiency, in the distinct phases. MONDEO was tested against several datasets to measure its efficiency and performance, being able to achieve high performance with RandomForest classifiers. The implementation is available at github.
翻訳日:2023-09-01 15:02:09 公開日:2023-08-31
# 心臓の形状:学習された距離関数による心臓モデル

Shape of my heart: Cardiac models through learned signed distance functions ( http://arxiv.org/abs/2308.16568v1 )

ライセンス: Link先を確認
Jan Verh\"ulsdonk, Thomas Grandits, Francisco Sahli Costabal, Rolf Krause, Angelo Auricchio, Gundolf Haase, Simone Pezzuto, Alexander Effland(参考訳) 解剖学的モデルの効率的な構築は、患者固有のヒト心臓のシリコン内モデルの主要な課題の1つである。 現在の手法は、しばしば線形統計モデルに頼り、高度なトポロジカルな変化を許さず、あるいは、画像解像度、品質、モダリティに強く依存するメッシュパイプラインが続く医療画像セグメンテーションを必要とする。 これらのアプローチは、他のイメージングドメインへの転送性に制限がある。 本研究では、リプシッツ正則性を持つ3次元深部符号距離関数を用いて心臓の形状を再構成する。 この目的のために、カルト空間内の複数のチャンバーの空間的関係をモデル化するために、パブリックデータベースから心臓MRIの形状を学習する。 また,本手法は,1つの心室からの点群や訓練されたMRIと異なるモダリティなどの部分的データから解剖モデルを再構成し,無作為な潜伏ベクトルをランダムにサンプリングすることで,新しい解剖形状を生成できることを実証した。

The efficient construction of an anatomical model is one of the major challenges of patient-specific in-silico models of the human heart. Current methods frequently rely on linear statistical models, allowing no advanced topological changes, or requiring medical image segmentation followed by a meshing pipeline, which strongly depends on image resolution, quality, and modality. These approaches are therefore limited in their transferability to other imaging domains. In this work, the cardiac shape is reconstructed by means of three-dimensional deep signed distance functions with Lipschitz regularity. For this purpose, the shapes of cardiac MRI reconstructions are learned from public databases to model the spatial relation of multiple chambers in Cartesian space. We demonstrate that this approach is also capable of reconstructing anatomical models from partial data, such as point clouds from a single ventricle, or modalities different from the trained MRI, such as electroanatomical mapping, and in addition, allows us to generate new anatomical shapes by randomly sampling latent vectors.
翻訳日:2023-09-01 15:01:53 公開日:2023-08-31
# 知識グラフ工学における大規模言語モデル評価のためのスケーラブルベンチマークの開発

Developing a Scalable Benchmark for Assessing Large Language Models in Knowledge Graph Engineering ( http://arxiv.org/abs/2308.16622v1 )

ライセンス: Link先を確認
Lars-Peter Meyer, Johannes Frey, Kurt Junghanns, Felix Brei, Kirill Bulert, Sabine Gr\"under-Fahrer, Michael Martin(参考訳) 大規模言語モデル(llm)の分野が加速ペースで進化するにつれて、その性能を評価し監視する必要性が出現する。 本稿では,知識グラフ工学(KGE)に焦点を当てたベンチマークフレームワークを紹介し,構文と誤り訂正,事実抽出,データセット生成の3つの課題について述べる。 LLMは有用なツールでありながら、ゼロショットプロンプトによる知識グラフ生成を支援するには相応しいものではない。 その結果, LLM-KG-Benchフレームワークは, LLM応答の自動評価と記憶, 統計データと可視化ツールにより, 迅速なエンジニアリングとモデル性能の追跡を支援する。

As the field of Large Language Models (LLMs) evolves at an accelerated pace, the critical need to assess and monitor their performance emerges. We introduce a benchmarking framework focused on knowledge graph engineering (KGE) accompanied by three challenges addressing syntax and error correction, facts extraction and dataset generation. We show that while being a useful tool, LLMs are yet unfit to assist in knowledge graph generation with zero-shot prompting. Consequently, our LLM-KG-Bench framework provides automatic evaluation and storage of LLM responses as well as statistical data and visualization tools to support tracking of prompt engineering and model performance.
翻訳日:2023-09-01 14:56:05 公開日:2023-08-31
# 自然言語処理を用いたソーシャルネットワークテキストからの高精度位置情報抽出

High Accuracy Location Information Extraction from Social Network Texts Using Natural Language Processing ( http://arxiv.org/abs/2308.16615v1 )

ライセンス: Link先を確認
Lossan Bonde, Severin Dembele(参考訳) テロは、国家の発展に深刻な結果をもたらす世界的な疫病となった。 毎日無実の人々を殺して教育活動を妨げているだけでなく、テロリズムは経済成長を妨げている。 機械学習(ML)と自然言語処理(NLP)は、正確なデータが利用可能であれば、リアルタイムのテロリスト攻撃を予測することによって、テロと戦うのに寄与する。 本稿では、ソーシャルネットワークからテキストを使って必要な情報を抽出し、テロ攻撃予測のための適切なデータセットを構築する研究プロジェクトの一部である。 私たちはブルキナファソでテロに関する3000のソーシャルネットワークのテキストを収集し、既存のNLPソリューションを試すためにサブセットを使用しました。 実験の結果,既存の解は位置認識の精度が低く,解法は解けることがわかった。 プロジェクトの目標を達成するために、日付とアクション情報を抽出するソリューションを拡張します。

Terrorism has become a worldwide plague with severe consequences for the development of nations. Besides killing innocent people daily and preventing educational activities from taking place, terrorism is also hindering economic growth. Machine Learning (ML) and Natural Language Processing (NLP) can contribute to fighting terrorism by predicting in real-time future terrorist attacks if accurate data is available. This paper is part of a research project that uses text from social networks to extract necessary information to build an adequate dataset for terrorist attack prediction. We collected a set of 3000 social network texts about terrorism in Burkina Faso and used a subset to experiment with existing NLP solutions. The experiment reveals that existing solutions have poor accuracy for location recognition, which our solution resolves. We will extend the solution to extract dates and action information to achieve the project's goal.
翻訳日:2023-09-01 14:55:52 公開日:2023-08-31
# 神経勾配調整剤

Neural Gradient Regularizer ( http://arxiv.org/abs/2308.16612v1 )

ライセンス: Link先を確認
Shuang Xu, Yifan Wang, Zixiang Zhao, Jiangjun Peng, Xiangyong Cao, Deyu Meng(参考訳) その大きな成功により、グラデーションマップへの事前の強制は、一貫して画像処理の分野で大きな関心を集めている。 最も代表的な正規化子の1つであるtotal variation (tv)は、勾配写像のスパーシティを捉える能力で知られている。 それにもかかわらず、テレビとその変種は、しばしば勾配写像を過小評価し、元の画像では勾配がゼロでないようなエッジや詳細が弱まる。 近年,特定のタスクの大規模データセットから学習したフレキシブルな正規化を提供する機能マップの幅を前提として,全深度変動(TDV)が導入されている。 しかし、TDVは画像やタスクが変更されたときに再トレーニングを必要とし、その汎用性を制限する。 本稿では、ニューラルネットワークの出力として勾配マップを表現するニューラルネットワーク勾配正規化器(NGR)を提案する。 既存の方法とは異なり、NGRは空間性仮定に頼らず、勾配写像の過小評価を避ける。 NGRは様々なイメージタイプや様々な画像処理タスクに適用でき、ゼロショット学習方式で機能し、汎用的でプラグアンドプレイのレギュレータである。 広範囲な実験結果から,NGRは様々なタスクに対する最先端のタスクよりも優れた性能を示し,その有効性と汎用性を検証した。

Owing to its significant success, the prior imposed on gradient maps has consistently been a subject of great interest in the field of image processing. Total variation (TV), one of the most representative regularizers, is known for its ability to capture the sparsity of gradient maps. Nonetheless, TV and its variants often underestimate the gradient maps, leading to the weakening of edges and details whose gradients should not be zero in the original image. Recently, total deep variation (TDV) has been introduced, assuming the sparsity of feature maps, which provides a flexible regularization learned from large-scale datasets for a specific task. However, TDV requires retraining when the image or task changes, limiting its versatility. In this paper, we propose a neural gradient regularizer (NGR) that expresses the gradient map as the output of a neural network. Unlike existing methods, NGR does not rely on the sparsity assumption, thereby avoiding the underestimation of gradient maps. NGR is applicable to various image types and different image processing tasks, functioning in a zero-shot learning fashion, making it a versatile and plug-and-play regularizer. Extensive experimental results demonstrate the superior performance of NGR over state-of-the-art counterparts for a range of different tasks, further validating its effectiveness and versatility.
翻訳日:2023-09-01 14:55:37 公開日:2023-08-31
# ニュースにおける文脈外画像キャプチャペアの検出:直感的手法

Detecting Out-of-Context Image-Caption Pairs in News: A Counter-Intuitive Method ( http://arxiv.org/abs/2308.16611v1 )

ライセンス: Link先を確認
Eivind Moholdt, Sohail Ahmed Khan, Duc-Tien Dang-Nguyen(参考訳) ソーシャルメディアやニュースにおける誤情報や再コンテキスト化メディアの成長は、ファクトチェック手法の必要性が高まっている。 同時に、生成モデルの進歩は、安価なフェイクとディープフェイクを容易に作成し、検出しやすくする。 本稿では,ニュースにおける画像キャプチャペアのooc(out-of-context-caption pair)使用を検出するために,生成画像モデルを用いた新しい手法を提案する。 我々は,(1) DALL-E 2 と (2) 安定拡散を含む2つの生成モデルを用いて,合計6800ドルの画像を生成する2つの新しいデータセットを提案する。 本稿では, 安価なフェイク検出分野における生成モデルをさらに研究し, 得られたデータセットを用いて, 安価なフェイク検出を目的とした新しいモデルを訓練し, 評価できることを確信する。 本課題における各画像生成モデルの性能評価のための予備的定性的・定量的解析を行い,画像類似性を計算するための一握りの手法を評価した。

The growth of misinformation and re-contextualized media in social media and news leads to an increasing need for fact-checking methods. Concurrently, the advancement in generative models makes cheapfakes and deepfakes both easier to make and harder to detect. In this paper, we present a novel approach using generative image models to our advantage for detecting Out-of-Context (OOC) use of images-caption pairs in news. We present two new datasets with a total of $6800$ images generated using two different generative models including (1) DALL-E 2, and (2) Stable-Diffusion. We are confident that the method proposed in this paper can further research on generative models in the field of cheapfake detection, and that the resulting datasets can be used to train and evaluate new models aimed at detecting cheapfakes. We run a preliminary qualitative and quantitative analysis to evaluate the performance of each image generation model for this task, and evaluate a handful of methods for computing image similarity.
翻訳日:2023-09-01 14:55:15 公開日:2023-08-31
# 協調専門家によるグラフ分類のロングテール認識に向けて

Towards Long-Tailed Recognition for Graph Classification via Collaborative Experts ( http://arxiv.org/abs/2308.16609v1 )

ライセンス: Link先を確認
Siyu Yi, Zhengyang Mao, Wei Ju, Yongdao Zhou, Luchen Liu, Xiao Luo, and Ming Zhang(参考訳) 効果的なクラス割り当てのためのグラフレベルの表現を学習することを目的としたグラフ分類は、優れた成果を得ている。 実際、ほとんどの実世界のグラフデータには自然に長い尾を持つ形式があり、ヘッドクラスはテールクラスよりもはるかに多くのサンプルを占有しているため、長い尾を持つデータよりもグラフレベルの分類を研究することが不可欠であり、まだほとんど探索されていないままである。 しかし、既存の視覚における長い尾の学習方法のほとんどは、表現学習と分類器訓練を共同で最適化するだけでなく、分類の難しいクラスのマイニングを無視する。 グラフに既存の手法を直接適用すると、複雑な位相特性のためにグラフで訓練されたモデルの方が長い尾の分布に敏感になるので、準最適性能が得られる。 そこで本研究では,協調型多専門家学習(come)を用いた,新しい長尾グラフレベル分類フレームワークを提案する。 頭と尾の授業のコントリビューションを均等化するために,まず表現学習の観点からコントラスト学習のバランスを保ち,硬質クラスマイニングに基づく個人専門家分類器のトレーニングを設計する。 さらに,複数の専門家間でゲート融合と異種知識蒸留を行い,複数専門家による協調を促進する。 7つのベンチマークデータセットで包括的な実験を行い、最先端のベースラインよりも優れた方法を示す。

Graph classification, aiming at learning the graph-level representations for effective class assignments, has received outstanding achievements, which heavily relies on high-quality datasets that have balanced class distribution. In fact, most real-world graph data naturally presents a long-tailed form, where the head classes occupy much more samples than the tail classes, it thus is essential to study the graph-level classification over long-tailed data while still remaining largely unexplored. However, most existing long-tailed learning methods in visions fail to jointly optimize the representation learning and classifier training, as well as neglect the mining of the hard-to-classify classes. Directly applying existing methods to graphs may lead to sub-optimal performance, since the model trained on graphs would be more sensitive to the long-tailed distribution due to the complex topological characteristics. Hence, in this paper, we propose a novel long-tailed graph-level classification framework via Collaborative Multi-expert Learning (CoMe) to tackle the problem. To equilibrate the contributions of head and tail classes, we first develop balanced contrastive learning from the view of representation learning, and then design an individual-expert classifier training based on hard class mining. In addition, we execute gated fusion and disentangled knowledge distillation among the multiple experts to promote the collaboration in a multi-expert framework. Comprehensive experiments are performed on seven widely-used benchmark datasets to demonstrate the superiority of our method CoMe over state-of-the-art baselines.
翻訳日:2023-09-01 14:54:57 公開日:2023-08-31
# 都市形状の持続的移動性学習のための因果発見手法

A Causal Discovery Approach To Learn How Urban Form Shapes Sustainable Mobility Across Continents ( http://arxiv.org/abs/2308.16599v1 )

ライセンス: Link先を確認
Felix Wagner and Florian Nachtigall and Lukas Franken and Nikola Milojevic-Dupont and Rafael H.M. Pereira and Nicolas Koch and Jakob Runge and Marta Gonzalez and Felix Creutzig(参考訳) グローバルサステナビリティは、適切なインフラ、低炭素輸送モードの配備、移動行動の変化によって形成される低炭素都市輸送システムを必要とする。 インフラの変更を適切に実装するためには、建設環境が走行する場所固有の原因と効果のメカニズムを理解することが不可欠である。 しかし、現在の研究は、6次元都市形態変数と旅行の因果関係の表現に乏しく、地域によって一般化され、高空間分解能で都市形態効果をモデル化している。 ここでは,3大陸6都市を対象とした高解像度モビリティデータに基づいて,因果発見と説明可能な機械学習フレームワークを用いて都市内移動に対する都市形態の影響を検出する。 都市中心部,人口統計,人口密度の双方が間接的に他の都市形態に影響を及ぼすことを示す。 因果関係を考慮すると、位置特異的な影響は都市間で一致しているが、規模は様々である。 加えて、市の広がりと市内の雇用の広がりは、旅行に関連した排出の最も強い要因であり、コンパクトな開発と関連する利益の利点を浮き彫りにしている。 都市全体の都市形態効果の違いは、6d測度をより包括的に定義することを要求する。 本研究は,大陸横断の都市計画者や自治体に非常に関係のある因果探索手法を用いて,都市形態が移動行動に与える影響の地域別分析の出発点である。

Global sustainability requires low-carbon urban transport systems, shaped by adequate infrastructure, deployment of low-carbon transport modes and shifts in travel behavior. To adequately implement alterations in infrastructure, it's essential to grasp the location-specific cause-and-effect mechanisms that the constructed environment has on travel. Yet, current research falls short in representing causal relationships between the 6D urban form variables and travel, generalizing across different regions, and modeling urban form effects at high spatial resolution. Here, we address all three gaps by utilizing a causal discovery and an explainable machine learning framework to detect urban form effects on intra-city travel based on high-resolution mobility data of six cities across three continents. We show that both distance to city center, demographics and density indirectly affect other urban form features. By considering the causal relationships, we find that location-specific influences align across cities, yet vary in magnitude. In addition, the spread of the city and the coverage of jobs across the city are the strongest determinants of travel-related emissions, highlighting the benefits of compact development and associated benefits. Differences in urban form effects across the cities call for a more holistic definition of 6D measures. Our work is a starting point for location-specific analysis of urban form effects on mobility behavior using causal discovery approaches, which is highly relevant for city planners and municipalities across continents.
翻訳日:2023-09-01 14:54:30 公開日:2023-08-31
# 腫瘍切開用視覚変換器の最適パッチサイズ化に向けて

Towards Optimal Patch Size in Vision Transformers for Tumor Segmentation ( http://arxiv.org/abs/2308.16598v1 )

ライセンス: Link先を確認
Ramtin Mojtahedi, Mohammad Hamghalam, Richard K. G. Do, and Amber L. Simpson(参考訳) 転移性大腸癌(mcrc)における腫瘍の検出は肝癌の早期診断と治療において重要な役割を担っている。 完全畳み込みニューラルネットワーク(FCNN)によってバックボンドされたディープラーニングモデルは、3Dコンピュータ断層撮影(CT)スキャンを分割する主要なモデルとなっている。 しかし、畳み込み層はカーネルサイズが制限されているため、長距離の依存関係やグローバルコンテキストをキャプチャできない。 この制限に対処するため、FCNNの受容野の局所性を解決するために視覚変換器が導入された。 トランスは長距離の特徴を捉えることができるが、そのセグメンテーション性能は入力パッチサイズに対するモデル感度のため、様々な腫瘍サイズで低下する。 最適なパッチサイズを見つけることで、セグメンテーションタスクにおけるビジョントランスフォーマーベースのモデルの性能が向上するが、それは時間がかかり、困難な手順である。 本稿では,転移病変の平均容積サイズに基づいて視覚トランスフォーマの最適入力多解像度画像パッチサイズを選択する手法を提案する。 さらに,提案フレームワークをトランスファー・ラーニング手法を用いて検証し,提案する理想パッチサイズを用いて腫瘍体積の大きいトレーニングデータを事前トレーニングし,より小さいトレーニングを行った結果,dsc(dice similarity coefficient)性能が得られたことを実証した。 我々は,マルチレゾリューション・パブリックデータセット上でモデルを事前学習することにより,この概念を実験的に評価する。 平均腫瘍容積が小さいプライベート・マルチレゾリューションmCRCデータセットに適用すると,一貫した改善が得られた。 本研究は,視覚トランスフォーマーを用いた小型物体の意味セグメンテーションの最適化のための基礎研究である。 実装ソースコードは:https://github.com/ramtin-mojtahedi/ovtps。

Detection of tumors in metastatic colorectal cancer (mCRC) plays an essential role in the early diagnosis and treatment of liver cancer. Deep learning models backboned by fully convolutional neural networks (FCNNs) have become the dominant model for segmenting 3D computerized tomography (CT) scans. However, since their convolution layers suffer from limited kernel size, they are not able to capture long-range dependencies and global context. To tackle this restriction, vision transformers have been introduced to solve FCNN's locality of receptive fields. Although transformers can capture long-range features, their segmentation performance decreases with various tumor sizes due to the model sensitivity to the input patch size. While finding an optimal patch size improves the performance of vision transformer-based models on segmentation tasks, it is a time-consuming and challenging procedure. This paper proposes a technique to select the vision transformer's optimal input multi-resolution image patch size based on the average volume size of metastasis lesions. We further validated our suggested framework using a transfer-learning technique, demonstrating that the highest Dice similarity coefficient (DSC) performance was obtained by pre-training on training data with a larger tumour volume using the suggested ideal patch size and then training with a smaller one. We experimentally evaluate this idea through pre-training our model on a multi-resolution public dataset. Our model showed consistent and improved results when applied to our private multi-resolution mCRC dataset with a smaller average tumor volume. This study lays the groundwork for optimizing semantic segmentation of small objects using vision transformers. The implementation source code is available at:https://github.com/Ramtin-Mojtahedi/OVTPS.
翻訳日:2023-09-01 14:54:04 公開日:2023-08-31
# 二重降下をまき散らすための解毒剤を見つける探求

The Quest of Finding the Antidote to Sparse Double Descent ( http://arxiv.org/abs/2308.16596v1 )

ライセンス: Link先を確認
Victor Qu\'etu and Marta Milovanovi\'c(参考訳) エネルギー効率の高いスキームでは、ディープラーニングモデルの最適サイズを見つけることが非常に重要であり、幅広い影響を与える。 一方、最近の研究では予期せぬ現象が報告されており、モデルのスパーシティが増加するにつれて、パフォーマンスがまず悪化し、その後改善され、最終的に低下する。 このような非単調な振る舞いは、高パフォーマンスを維持するために最適なモデルのサイズに関する深刻な疑問を提起する。 本稿では,効率的に最良のトレードオフを見つけることを目的とする。 より正確には、スパース二重降下の発生に取り組み、それを避けるためのいくつかの解決策を示す。 第一に、単純な$\ell_2$正規化手法は、この現象を緩和するのに役立つが、パフォーマンス/スパーシティの妥協を犠牲にする。 そこで,本研究では,知識を蒸留して学生モデルを正規化する学習手法を提案する。 典型的な画像分類装置を用いて得られた実験結果から,本手法がこのような現象の回避に繋がることを示す。

In energy-efficient schemes, finding the optimal size of deep learning models is very important and has a broad impact. Meanwhile, recent studies have reported an unexpected phenomenon, the sparse double descent: as the model's sparsity increases, the performance first worsens, then improves, and finally deteriorates. Such a non-monotonic behavior raises serious questions about the optimal model's size to maintain high performance: the model needs to be sufficiently over-parametrized, but having too many parameters wastes training resources. In this paper, we aim to find the best trade-off efficiently. More precisely, we tackle the occurrence of the sparse double descent and present some solutions to avoid it. Firstly, we show that a simple $\ell_2$ regularization method can help to mitigate this phenomenon but sacrifices the performance/sparsity compromise. To overcome this problem, we then introduce a learning scheme in which distilling knowledge regularizes the student model. Supported by experimental results achieved using typical image classification setups, we show that this approach leads to the avoidance of such a phenomenon.
翻訳日:2023-09-01 14:53:36 公開日:2023-08-31
# 会話音声合成のための半教師付き事前学習による自発的スタイルモデリング

Towards Spontaneous Style Modeling with Semi-supervised Pre-training for Conversational Text-to-Speech Synthesis ( http://arxiv.org/abs/2308.16593v1 )

ライセンス: Link先を確認
Weiqin Li, Shun Lei, Qiaochu Huang, Yixuan Zhou, Zhiyong Wu, Shiyin Kang, Helen Meng(参考訳) 会話でしばしば起こる自発的な行動は、読書スタイルに比べて、発話をより人間らしくする。 しかし、高品質な自発的データセットの欠如や、自然行動のラベル付けのコストが高いため、自然発話の合成は困難である。 本稿では,自発的音声と自発的行動ラベルの量を増やすための半教師付き事前学習法を提案する。 半教師付き学習の過程では、音声中の自発的な行動ラベルを検出するために、テキスト情報と音声情報の両方が考慮される。 さらに、会話中の各文間の関係をモデル化するために言語認識エンコーダを用いる。 提案手法は,自然発話における自発行動をモデル化し,テキストから合理的な自発行動を予測することで,表現力の高い音声合成性能が得られることを示す。

The spontaneous behavior that often occurs in conversations makes speech more human-like compared to reading-style. However, synthesizing spontaneous-style speech is challenging due to the lack of high-quality spontaneous datasets and the high cost of labeling spontaneous behavior. In this paper, we propose a semi-supervised pre-training method to increase the amount of spontaneous-style speech and spontaneous behavioral labels. In the process of semi-supervised learning, both text and speech information are considered for detecting spontaneous behaviors labels in speech. Moreover, a linguistic-aware encoder is used to model the relationship between each sentence in the conversation. Experimental results indicate that our proposed method achieves superior expressive speech synthesis performance with the ability to model spontaneous behavior in spontaneous-style speech and predict reasonable spontaneous behavior from text.
翻訳日:2023-09-01 14:53:17 公開日:2023-08-31
# 潜在意味木を用いた感情構成の解釈

Interpreting Sentiment Composition with Latent Semantic Tree ( http://arxiv.org/abs/2308.16588v1 )

ライセンス: Link先を確認
Zhongtao Jiang, Yuanzhe Zhang, Cao Liu, Jiansong Chen, Jun Zhao, Kang Liu(参考訳) 感情分析の鍵として、感情構成は、そのサブ構成成分の分類とそれらに基づいて操作される規則によって構成成分の分類を考える。 このような構成性は, 従来, 直交木や感情木などの階層木の形態で広く研究されてきた。 そこで本研究では,感情構成を原理的に解釈可能な新しい木形式であるセマンティクスツリーを提案する。 セマンティックツリー(Semantic tree)は、文脈自由文法(CFG)から派生したもので、意味的役割の違いに関する特定の構成規則を記述する。 しかし、セマンティクスツリーは通常のデータセットにそのアノテーションがないため、潜在変数である。 そこで,本手法では,内部アルゴリズムを用いて疎外し,分類性能の最適化を学習する。 定量的・定性的な結果から,本手法は正規および領域適応分類の設定において,ベースラインよりも優れた,あるいは競争的な結果が得られるだけでなく,妥当なツリー説明を生成する。

As the key to sentiment analysis, sentiment composition considers the classification of a constituent via classifications of its contained sub-constituents and rules operated on them. Such compositionality has been widely studied previously in the form of hierarchical trees including untagged and sentiment ones, which are intrinsically suboptimal in our view. To address this, we propose semantic tree, a new tree form capable of interpreting the sentiment composition in a principled way. Semantic tree is a derivation of a context-free grammar (CFG) describing the specific composition rules on difference semantic roles, which is designed carefully following previous linguistic conclusions. However, semantic tree is a latent variable since there is no its annotation in regular datasets. Thus, in our method, it is marginalized out via inside algorithm and learned to optimize the classification performance. Quantitative and qualitative results demonstrate that our method not only achieves better or competitive results compared to baselines in the setting of regular and domain adaptation classification, and also generates plausible tree explanations.
翻訳日:2023-09-01 14:53:00 公開日:2023-08-31
# 量子畳み込みニューラルネットワークから何が学べるのか?

What can we learn from quantum convolutional neural networks? ( http://arxiv.org/abs/2308.16664v1 )

ライセンス: Link先を確認
Chukwudubem Umeano, Annie E. Paine, Vincent E. Elfving, Oleksandr Kyriienko(参考訳) 量子畳み込みニューラルネットワーク(QCNN)の分析から学ぶことができる。 1) 量子データを扱うことは,隠れた特徴写像を通じて物理系パラメータを埋め込んだものとみなすことができる。 2) 量子位相認識の高性能は,スピンモデルの量子臨界性が急速に変化する基底関数につながる基底状態埋め込み中に,非常に適切な基底集合を生成することに起因している。 3)QCNNのプール層は,高性能な意思決定境界の形成に寄与する基本関数の選択に責任を負い,学習プロセスは,少数のキュービット演算子をフル登録可能な観測値にマッピングするように,測定に適応する。 4) QCNNモデルの一般化は埋め込み型に強く依存しており, フーリエ基底を持つ回転型特徴写像は注意深い特徴工学を必要とする。 5) 有限ショット数に基づく読み出し付きQCNNの精度と一般化は, 基底状態埋め込みと関連する物理インフォームドモデルを好む。 我々はこれらの点をシミュレーションで示し、その結果、センシングの応用に関係した物理過程の分類に光を当てた。 最後に, 適切に選択された基底状態埋め込みを持つQCNNを流体力学問題に適用し, 優れた一般化と訓練性を有する衝撃波解を表現する。

We can learn from analyzing quantum convolutional neural networks (QCNNs) that: 1) working with quantum data can be perceived as embedding physical system parameters through a hidden feature map; 2) their high performance for quantum phase recognition can be attributed to generation of a very suitable basis set during the ground state embedding, where quantum criticality of spin models leads to basis functions with rapidly changing features; 3) pooling layers of QCNNs are responsible for picking those basis functions that can contribute to forming a high-performing decision boundary, and the learning process corresponds to adapting the measurement such that few-qubit operators are mapped to full-register observables; 4) generalization of QCNN models strongly depends on the embedding type, and that rotation-based feature maps with the Fourier basis require careful feature engineering; 5) accuracy and generalization of QCNNs with readout based on a limited number of shots favor the ground state embeddings and associated physics-informed models. We demonstrate these points in simulation, where our results shed light on classification for physical processes, relevant for applications in sensing. Finally, we show that QCNNs with properly chosen ground state embeddings can be used for fluid dynamics problems, expressing shock wave solutions with good generalization and proven trainability.
翻訳日:2023-09-01 14:46:02 公開日:2023-08-31
# オートエンコーダを用いたCMS電磁計のオンラインデータ品質モニタリング

Autoencoder-based Online Data Quality Monitoring for the CMS Electromagnetic Calorimeter ( http://arxiv.org/abs/2308.16659v1 )

ライセンス: Link先を確認
Abhirami Harilal, Kyungmin Park, Michael Andrews and Manfred Paulini (on behalf of the CMS Collaboration)(参考訳) CMS電磁カロリー計(ECAL)のオンラインデータ品質モニタリングシステム(DQM)は、ECALの専門家が物理品質のデータ取得を妨げる幅広い検出問題を素早く特定し、ローカライズし、診断するための重要な操作ツールである。 既存のECAL DQMシステムは、新しい問題に対応するために継続的に更新されているが、新しい、予期せぬ問題に一歩遅れている。 教師なしディープラーニングを用いて、過去のデータにないECAL異常を検出するリアルタイムオートエンコーダに基づく異常検出システムを開発した。 ECALの応答の空間的変動と異常の時間的進化を考慮し、新しいシステムは10^{-2}$から10^{-4}$の間で推定された偽発見率を維持しながら、異常を効率的に検出し、既存のベンチマークを約2桁の精度で上回った。 実世界のシステムの性能は、2018年と2022年のlhc衝突データに見られる異常を用いて検証される。 さらに、LHCのRun 3中にECALバレル用のCMSオンラインDQMワークフローにオートエンコーダベースのシステムをデプロイした最初の結果が提示され、既存のDQMシステムで見逃された可能性のある不明瞭な問題を検出する上で有望なパフォーマンスを示している。

The online Data Quality Monitoring system (DQM) of the CMS electromagnetic calorimeter (ECAL) is a crucial operational tool that allows ECAL experts to quickly identify, localize, and diagnose a broad range of detector issues that would otherwise hinder physics-quality data taking. Although the existing ECAL DQM system has been continuously updated to respond to new problems, it remains one step behind newer and unforeseen issues. Using unsupervised deep learning, a real-time autoencoder-based anomaly detection system is developed that is able to detect ECAL anomalies unseen in past data. After accounting for spatial variations in the response of the ECAL and the temporal evolution of anomalies, the new system is able to efficiently detect anomalies while maintaining an estimated false discovery rate between $10^{-2}$ to $10^{-4}$, beating existing benchmarks by about two orders of magnitude. The real-world performance of the system is validated using anomalies found in 2018 and 2022 LHC collision data. Additionally, first results from deploying the autoencoder-based system in the CMS online DQM workflow for the ECAL barrel during Run 3 of the LHC are presented, showing its promising performance in detecting obscure issues that could have been missed in the existing DQM system.
翻訳日:2023-09-01 14:45:36 公開日:2023-08-31
# SoccerNet 2023 Tracking Challenge -- 3位MOT4MOTチーム技術レポート

SoccerNet 2023 Tracking Challenge -- 3rd place MOT4MOT Team Technical Report ( http://arxiv.org/abs/2308.16651v1 )

ライセンス: Link先を確認
Gal Shitrit, Ishay Be'ery, Ido Yerhushalmy(参考訳) サッカーネット2023トラッキングチャレンジは、サッカー選手とボールの検出と追跡を必要とする。 本稿では,これらのタスクを個別に扱う手法を提案する。 我々は、現在最先端のオンラインマルチオブジェクトトラッカーと、現代のオブジェクト検出装置をプレイヤー追跡に使用しています。 オンラインアプローチの限界を克服するために,補間と外観のないトラックマージを用いたポストプロセッシングステージを組み込んだ。 さらに、画像境界から離れたトラックの終了と生成を扱うために、外観に基づくトラックマージ技術が用いられている。 ボール追跡は単一物体検出として定式化され、独自のフィルター付き細調整のYOLOv8l検出器により検出精度が向上する。 提案手法は, HOTAスコア66.27で, SoccerNet 2023の3位を獲得した。

The SoccerNet 2023 tracking challenge requires the detection and tracking of soccer players and the ball. In this work, we present our approach to tackle these tasks separately. We employ a state-of-the-art online multi-object tracker and a contemporary object detector for player tracking. To overcome the limitations of our online approach, we incorporate a post-processing stage using interpolation and appearance-free track merging. Additionally, an appearance-based track merging technique is used to handle the termination and creation of tracks far from the image boundaries. Ball tracking is formulated as single object detection, and a fine-tuned YOLOv8l detector with proprietary filtering improves the detection precision. Our method achieves 3rd place on the SoccerNet 2023 tracking challenge with a HOTA score of 66.27.
翻訳日:2023-09-01 14:45:09 公開日:2023-08-31
# 説明可能な合成画像検索のためのマルチモーダル勾配注意による学習

Learning with Multi-modal Gradient Attention for Explainable Composed Image Retrieval ( http://arxiv.org/abs/2308.16649v1 )

ライセンス: Link先を確認
Prateksha Udhayanan, Srikrishna Karanam, and Balaji Vasan Srinivasan(参考訳) 画像と画像に所望の変更を示す修正文からなる入力クエリを取り込んで、これらの変更に合致した画像を検索する画像検索の問題点について考察する。 この問題に対処する現在の最先端技術では、検索にグローバル特徴を使用するため、実際の実世界のインザワイルド画像の場合よりも、その特徴のグローバル性のため、変更対象領域が不正確な配置となる。 修飾子テキストは通常、画像の特定の局所的な変化に対応するため、モデルが局所的な特徴を学習し、よりよくローカライズおよび検索できることが重要である。 この目的を達成するために,我々は,各検索ステップで変更対象の局所領域に明示的に焦点を合わせるようにモデルに強制する,新しいグラデーション・アテンションに基づく学習目標を提案する。 まず,修正文に明示的に条件づけされたマルチモーダルグラデーションアテンション(mmgrad)と呼ばれる新しい視覚画像アテンション計算手法を提案する。 次にmmgradをエンドツーエンドモデルトレーニング戦略に組み込む方法について,これらのmmgradアテンションマップに対して,修飾子テキストに対応する適切な局所領域を明示的に強調するように強制する,新たな学習目標を用いて実証する。 この新たな損失関数を用いて検索モデルをトレーニングすることにより,視覚注意マップの改善による接地精度の向上が期待できるとともに,標準ベンチマークデータセットにおける定量的検索性能の向上が期待できる。

We consider the problem of composed image retrieval that takes an input query consisting of an image and a modification text indicating the desired changes to be made on the image and retrieves images that match these changes. Current state-of-the-art techniques that address this problem use global features for the retrieval, resulting in incorrect localization of the regions of interest to be modified because of the global nature of the features, more so in cases of real-world, in-the-wild images. Since modifier texts usually correspond to specific local changes in an image, it is critical that models learn local features to be able to both localize and retrieve better. To this end, our key novelty is a new gradient-attention-based learning objective that explicitly forces the model to focus on the local regions of interest being modified in each retrieval step. We achieve this by first proposing a new visual image attention computation technique, which we call multi-modal gradient attention (MMGrad) that is explicitly conditioned on the modifier text. We next demonstrate how MMGrad can be incorporated into an end-to-end model training strategy with a new learning objective that explicitly forces these MMGrad attention maps to highlight the correct local regions corresponding to the modifier text. By training retrieval models with this new loss function, we show improved grounding by means of better visual attention maps, leading to better explainability of the models as well as competitive quantitative retrieval performance on standard benchmark datasets.
翻訳日:2023-09-01 14:44:55 公開日:2023-08-31
# スコットランドの衛星画像の生成:地図で条件づけ

Generate Your Own Scotland: Satellite Image Generation Conditioned on Maps ( http://arxiv.org/abs/2308.16648v1 )

ライセンス: Link先を確認
Miguel Espinosa, Elliot J. Crowley(参考訳) 最近の画像生成の進歩にもかかわらず、拡散モデルはまだ地球観測においてほとんど未調査のままである。 本稿では,現在最先端の事前学習拡散モデルを地図データに条件付けして,現実的な衛星画像を生成する方法を示す。 2つの大きなOpenStreetMapイメージのデータセットと、メインランド・スコットランドとセントラル・ベルト地域の衛星ビューを提供する。 ControlNetモデルをトレーニングし、その結果を質的に評価し、画像の品質とマップの忠実度の両方が可能であることを示す。 最後に,これらのモデルをリモートセンシングに適用する機会と課題について,いくつかの知見を提供する。 データセットを作成するためのモデルウェイトとコードは、https://github.com/miquel-espinosa/map-satで公開されています。

Despite recent advancements in image generation, diffusion models still remain largely underexplored in Earth Observation. In this paper we show that state-of-the-art pretrained diffusion models can be conditioned on cartographic data to generate realistic satellite images. We provide two large datasets of paired OpenStreetMap images and satellite views over the region of Mainland Scotland and the Central Belt. We train a ControlNet model and qualitatively evaluate the results, demonstrating that both image quality and map fidelity are possible. Finally, we provide some insights on the opportunities and challenges of applying these models for remote sensing. Our model weights and code for creating the dataset are publicly available at https://github.com/miquel-espinosa/map-sat.
翻訳日:2023-09-01 14:44:26 公開日:2023-08-31
# 単一量子メモリを用いた高精度観測量推定

High-Precision Observable Estimation with Single Qubit Quantum Memory ( http://arxiv.org/abs/2308.16642v1 )

ライセンス: Link先を確認
L.A. Markovich and J. Borregaard(参考訳) マルチキュービットオブザーバブルの推定は、量子情報科学における重要な課題である。 標準的なアプローチは、マルチキュービット可観測物をパウリ弦の重み付き和に分解することである。 可観測性は、パウリ弦に従って射影的単量子ビット測定から推定され、古典的総和が続く。 分解におけるパウリ弦の数が増えるにつれて、ショットノイズは劇的に増加し、そのような推定の精度は著しく損なわれる。 単一の量子ビットメモリにアクセスし、測定データを格納して蓄積することで、ショットノイズの蓄積を回避できる。 本稿では,マルチキュービットデバイスと単一キュービットメモリとのインタラクションを従来よりも少ない数で実現するための多量子ビット可観測推定手法について述べる。 我々のアルゴリズムは、観測可能な分解において、パウリ弦数$N$で$N^{\frac{2}{3}}$をスケールする、所定の目標分散に対する必要な測定数の削減を提供する。 ノイズの多い中間規模量子デバイスでは、マルチキュービットデバイスとメモリ間の低数の相互作用が望ましい。

The estimation of multi-qubit observables is a key task in quantum information science. The standard approach is to decompose a multi-qubit observable into a weighted sum of Pauli strings. The observable can then be estimated from projective single qubit measurements according to the Pauli strings followed by a classical summation. As the number of Pauli strings in the decomposition increases, shot-noise drastically builds up, and the accuracy of such estimation can be considerably compromised. Access to a single qubit quantum memory, where measurement data may be stored and accumulated can circumvent the build-up of shot noise. Here, we describe a many-qubit observable estimation approach to achieve this with a much lower number of interactions between the multi-qubit device and the single qubit memory compared to previous approaches. Our algorithm offers a reduction in the required number of measurements for a given target variance that scales $N^{\frac{2}{3}}$ with the number of Pauli strings $N$ in the observable decomposition. The low number of interactions between the multi-qubit device and the memory is desirable for noisy intermediate-scale quantum devices.
翻訳日:2023-09-01 14:44:17 公開日:2023-08-31
# 解釈可能なディープインプットチャネル混在を用いた高コンテンツイメージングのための学習チャネルの重要性

Learning Channel Importance for High Content Imaging with Interpretable Deep Input Channel Mixing ( http://arxiv.org/abs/2308.16637v1 )

ライセンス: Link先を確認
Daniel Siegismund, Mario Wieser, Stephan Heyse, Stephan Steigele(参考訳) 複雑な疾患を治療するための新しい薬物候補を明らかにすることは、初期の発見研究において最も困難な課題である。 この課題に取り組むために、biopharma researchは、画像チャネルごとに異なるセルコンパートメントをタグ付けする標準化されたハイコンテントイメージングプロトコルを確立した。 実験結果を判断するために、科学者は基礎となる生物学を解読するために特定の表現型に関してチャネルの重要性について知識を必要とする。 従来の画像解析のアプローチとは対照的に、これらの実験は、チャンネルの重要性に関する重要な情報を持たない深層学習に基づくアプローチによって、好ましくは分析される。 この制限を克服するために,高画質画像のマルチスペクトル情報を用いて細胞生物学の特定の側面を解釈する手法を提案する。 そこで我々は,任意の数のチャネルに対してアルファ合成による画像ブレンディングの概念を基礎にしている。 より具体的には、軽量でスケール可能な、エンドツーエンドのトレーニング可能な混合層であるdcmixを紹介し、ディープラーニングベースの方法の利点を保ちながら、ハイコンテントイメージングにおける解釈可能な予測を可能にする。 我々は、MNISTとRXRX1データセットの両方で広範な実験を行い、DCMIXが予測性能を損なうことなく生物学的に関連するチャネルの重要性を学習することを示した。

Uncovering novel drug candidates for treating complex diseases remain one of the most challenging tasks in early discovery research. To tackle this challenge, biopharma research established a standardized high content imaging protocol that tags different cellular compartments per image channel. In order to judge the experimental outcome, the scientist requires knowledge about the channel importance with respect to a certain phenotype for decoding the underlying biology. In contrast to traditional image analysis approaches, such experiments are nowadays preferably analyzed by deep learning based approaches which, however, lack crucial information about the channel importance. To overcome this limitation, we present a novel approach which utilizes multi-spectral information of high content images to interpret a certain aspect of cellular biology. To this end, we base our method on image blending concepts with alpha compositing for an arbitrary number of channels. More specifically, we introduce DCMIX, a lightweight, scaleable and end-to-end trainable mixing layer which enables interpretable predictions in high content imaging while retaining the benefits of deep learning based methods. We employ an extensive set of experiments on both MNIST and RXRX1 datasets, demonstrating that DCMIX learns the biologically relevant channel importance without scarifying prediction performance.
翻訳日:2023-09-01 14:43:58 公開日:2023-08-31
# MFR-Net: denoising Diffusion Modelによる多面応答型リスニングヘッド生成

MFR-Net: Multi-faceted Responsive Listening Head Generation via Denoising Diffusion Model ( http://arxiv.org/abs/2308.16635v1 )

ライセンス: Link先を確認
Jin Liu, Xi Wang, Xiaomeng Fu, Yesheng Chai, Cai Yu, Jiao Dai, Jizhong Han(参考訳) 対面コミュニケーションは、話者やリスナーの役割を含む一般的なシナリオである。 既存の研究手法の多くは、話者ビデオの制作に重点を置いているが、リスナーヘッドの生成はほとんど見過ごされている。 応答型リスナーヘッド生成は,話者映像とリスナーヘッド画像が与えられたリスナーヘッド映像を生成し,対面コミュニケーションのシナリオをモデル化することを目的とした重要な課題である。 理想的な応答型リスニングビデオは、リスナーのアイデンティティ情報において、対話パターンの多様性と精度を維持しつつ、姿勢や視点を表現した話者に応答するべきである。 この目的を達成するため,我々は,textbf{m}ulti-\textbf{f}aceted \textbf{r}esponsive listening head generation network (mfr-net)を提案する。 具体的には、MFR-Netは様々な頭部のポーズと表情の特徴を予測するために確率的偏差拡散モデルを用いている。 話者ビデオに対する多面応答を行うため,リスナ識別の精度を維持しつつ,リスナ識別機能を強化し,他の話者関連機能と融合する機能集約モジュールを設計した。 最後に、アイデンティティの整合性が失われるレンダラーが最終的なリスニングヘッドビデオを生成する。 MFR-Netは,多様性や話者識別情報の多面的応答だけでなく,姿勢や視点表現も達成できることを示す。

Face-to-face communication is a common scenario including roles of speakers and listeners. Most existing research methods focus on producing speaker videos, while the generation of listener heads remains largely overlooked. Responsive listening head generation is an important task that aims to model face-to-face communication scenarios by generating a listener head video given a speaker video and a listener head image. An ideal generated responsive listening video should respond to the speaker with attitude or viewpoint expressing while maintaining diversity in interaction patterns and accuracy in listener identity information. To achieve this goal, we propose the \textbf{M}ulti-\textbf{F}aceted \textbf{R}esponsive Listening Head Generation Network (MFR-Net). Specifically, MFR-Net employs the probabilistic denoising diffusion model to predict diverse head pose and expression features. In order to perform multi-faceted response to the speaker video, while maintaining accurate listener identity preservation, we design the Feature Aggregation Module to boost listener identity features and fuse them with other speaker-related features. Finally, a renderer finetuned with identity consistency loss produces the final listening head videos. Our extensive experiments demonstrate that MFR-Net not only achieves multi-faceted responses in diversity and speaker identity information but also in attitude and viewpoint expression.
翻訳日:2023-09-01 14:43:35 公開日:2023-08-31
# トランスダクティブ補助セグメントを用いたセミスーパービジョンSAR ATRフレームワーク

Semi-Supervised SAR ATR Framework with Transductive Auxiliary Segmentation ( http://arxiv.org/abs/2308.16633v1 )

ライセンス: Link先を確認
Chenwei Wang, Xiaoyu Liu, Yulin Huang, Siyi Luo, Jifang Pei, Jianyu Yang, Deqing Mao(参考訳) 畳み込みニューラルネットワーク(CNN)は合成開口レーダ(SAR)自動目標認識(ATR)において高い性能を達成している。 しかし、cnnの性能は大量のトレーニングデータに大きく依存している。 ラベル付きトレーニングsar画像の不足は認識性能を制限し、いくつかのatr手法を無効にする。 さらに、ラベル付きトレーニングデータが少ないと、既存のCNNの多くは効果がありません。 これらの課題に対処するために,トランスダクティブ補助セグメント(SFAS)を用いた半教師付きSAR ATRフレームワークを提案する。 提案手法は, 補助損失を正規化器として用いることで, 利用可能なラベルなしサンプルにおけるトランスダクティブ一般化の活用に焦点をあてている。 未ラベルSARサンプルの補助的セグメンテーションとトレーニングにおける情報残留損失(IRL)により、提案したトレーニングループプロセスを用いて、認識とセグメンテーションの情報コンパイルを段階的に活用し、有益な帰納バイアスを構築し、高い性能を達成する。 MSTARデータセットを用いた実験により,提案したSFASの有効性が示された。 94.18\%の認識性能は、各クラスの20のトレーニングサンプルで同時に正確なセグメンテーション結果が得られる。 eocのばらつきに直面すると、各クラス10のトレーニングサンプルの認識率は88.00\%以上になる。

Convolutional neural networks (CNNs) have achieved high performance in synthetic aperture radar (SAR) automatic target recognition (ATR). However, the performance of CNNs depends heavily on a large amount of training data. The insufficiency of labeled training SAR images limits the recognition performance and even invalidates some ATR methods. Furthermore, under few labeled training data, many existing CNNs are even ineffective. To address these challenges, we propose a Semi-supervised SAR ATR Framework with transductive Auxiliary Segmentation (SFAS). The proposed framework focuses on exploiting the transductive generalization on available unlabeled samples with an auxiliary loss serving as a regularizer. Through auxiliary segmentation of unlabeled SAR samples and information residue loss (IRL) in training, the framework can employ the proposed training loop process and gradually exploit the information compilation of recognition and segmentation to construct a helpful inductive bias and achieve high performance. Experiments conducted on the MSTAR dataset have shown the effectiveness of our proposed SFAS for few-shot learning. The recognition performance of 94.18\% can be achieved under 20 training samples in each class with simultaneous accurate segmentation results. Facing variances of EOCs, the recognition ratios are higher than 88.00\% when 10 training samples each class.
翻訳日:2023-09-01 14:42:59 公開日:2023-08-31
# 3D-STMN: end-to-End 3D Referring Expression Segmentation のための依存性駆動型スーパーポイントテキストマッチングネットワーク

3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation ( http://arxiv.org/abs/2308.16632v1 )

ライセンス: Link先を確認
Changli Wu, Yiwei Ma, Qi Chen, Haowei Wang, Gen Luo, Jiayi Ji, Xiaoshuai Sun(参考訳) 3d参照式セグメンテーション(3d-res)では、以前のアプローチは2段階のパラダイムを採用し、セグメンテーションの提案を抽出し、それらを参照表現とマッチングする。 しかし、この従来のパラダイムは大きな課題に直面する。特に、未成熟な初期提案の生成と推論速度の顕著な減速についてである。 これらの制約を認識し、依存関係駆動の洞察に富む革新的なエンドツーエンドのSuperpoint-Text Matching Network(3D-STMN)を導入する。 私たちのモデルのキーストーンのひとつは、Superpoint-Text Matching(STM)メカニズムです。 インスタンスの提案をナビゲートする従来の方法とは異なり、STMは言語指示をそれぞれのスーパーポイント、意味論的に関連付けられた点のクラスタと直接関連付ける。 このアーキテクチャ上の決定は、よりスパースなインスタンス-テキストペアとは対照的に、主に密に注釈されたスーパーポイント-テキストペアを活用することで、クロスモーダルなセマンティクス関係を効率的に活用するモデルに力を与えます。 セグメンテーションプロセスの誘導におけるテキストの役割の強化を追求するため,我々はさらに依存性駆動インタラクション(ddi)モジュールを組み込んで,ネットワークの参照表現の意味理解を深める。 このモジュールは、依存木をビーコンとして使用し、表現における一次項とその関連記述子間の複雑な関係を識別し、モデルの局在性とセグメンテーション能力を高める。 総合的なscanreferベンチマーク実験の結果,miouゲインが11.7ポイントの新たな性能基準を設定できるだけでなく,従来の手法を95.7倍も上回って,推論速度が大幅に向上していることが明らかとなった。 コードとモデルはhttps://github.com/sosppxo/3d-stmnで入手できる。

In 3D Referring Expression Segmentation (3D-RES), the earlier approach adopts a two-stage paradigm, extracting segmentation proposals and then matching them with referring expressions. However, this conventional paradigm encounters significant challenges, most notably in terms of the generation of lackluster initial proposals and a pronounced deceleration in inference speed. Recognizing these limitations, we introduce an innovative end-to-end Superpoint-Text Matching Network (3D-STMN) that is enriched by dependency-driven insights. One of the keystones of our model is the Superpoint-Text Matching (STM) mechanism. Unlike traditional methods that navigate through instance proposals, STM directly correlates linguistic indications with their respective superpoints, clusters of semantically related points. This architectural decision empowers our model to efficiently harness cross-modal semantic relationships, primarily leveraging densely annotated superpoint-text pairs, as opposed to the more sparse instance-text pairs. In pursuit of enhancing the role of text in guiding the segmentation process, we further incorporate the Dependency-Driven Interaction (DDI) module to deepen the network's semantic comprehension of referring expressions. Using the dependency trees as a beacon, this module discerns the intricate relationships between primary terms and their associated descriptors in expressions, thereby elevating both the localization and segmentation capacities of our model. Comprehensive experiments on the ScanRefer benchmark reveal that our model not only set new performance standards, registering an mIoU gain of 11.7 points but also achieve a staggering enhancement in inference speed, surpassing traditional methods by 95.7 times. The code and models are available at https://github.com/sosppxo/3D-STMN.
翻訳日:2023-09-01 14:42:23 公開日:2023-08-31
# 大規模言語モデルを用いた科学論文のカテゴリー分析とトレンド分析:眼科への応用

Using Large Language Models to Automate Category and Trend Analysis of Scientific Articles: An Application in Ophthalmology ( http://arxiv.org/abs/2308.16688v1 )

ライセンス: Link先を確認
Hina Raja, Asim Munawar, Mohammad Delsoz, Mohammad Elahi, Yeganeh Madadi, Amr Hassan, Hashem Abu Serhan, Onur Inam, Luis Hermandez, Sang Tran, Wuqas Munir, Alaa Abd-Alrazaq, Hao Chen, and SiamakYousefi(参考訳) 目的:本稿では,大規模言語モデル(llm)のパワーを活用した記事分類の自動化手法を提案する。 主な焦点は眼科の分野であるが、モデルは他の分野にも拡張可能である。 方法:我々は,学術論文のテキスト内容の処理と解析を行うために,高度LLMを含む自然言語処理(NLP)技術に基づくモデルを開発した。 具体的には、ゼロショット学習(ZSL)LLMモデルを用いて、双方向・自動回帰変換器(BART)とその変種と、変換器(BERT)からの双方向エンコーダ表現と、 distilBERT, SciBERT, PubmedBERT, BioBERTなどの変種を比較した。 結果: 分類結果は, 人間の介入なしに多数の眼科用紙を分類する上で, LLMsの有効性を示した。 結果: llmを評価するために,6人の専門家からなるパネルによって15のカテゴリに分類された1000の眼疾患関連論文のデータセット (rend) を編集した。 このモデルは、rendデータセットに基づく平均精度0.86、平均f1.85を達成した。 結論:提案フレームワークは精度と効率の両方において顕著な改善を達成している。 眼科領域におけるその応用は、他の領域における知識の組織化と検索の可能性を示している。 論文の分類と検索,文献レビューや情報収集に要する時間と労力の節約,分野による新たな科学的傾向の特定など,研究者や臨床医が容易に対応できる傾向分析を行った。 さらに、このモデルの他の科学分野への拡張性は、様々な分野にわたる研究とトレンド分析の促進にその影響を広げる。

Purpose: In this paper, we present an automated method for article classification, leveraging the power of Large Language Models (LLM). The primary focus is on the field of ophthalmology, but the model is extendable to other fields. Methods: We have developed a model based on Natural Language Processing (NLP) techniques, including advanced LLMs, to process and analyze the textual content of scientific papers. Specifically, we have employed zero-shot learning (ZSL) LLM models and compared against Bidirectional and Auto-Regressive Transformers (BART) and its variants, and Bidirectional Encoder Representations from Transformers (BERT), and its variant such as distilBERT, SciBERT, PubmedBERT, BioBERT. Results: The classification results demonstrate the effectiveness of LLMs in categorizing large number of ophthalmology papers without human intervention. Results: To evalute the LLMs, we compiled a dataset (RenD) of 1000 ocular disease-related articles, which were expertly annotated by a panel of six specialists into 15 distinct categories. The model achieved mean accuracy of 0.86 and mean F1 of 0.85 based on the RenD dataset. Conclusion: The proposed framework achieves notable improvements in both accuracy and efficiency. Its application in the domain of ophthalmology showcases its potential for knowledge organization and retrieval in other domains too. We performed trend analysis that enables the researchers and clinicians to easily categorize and retrieve relevant papers, saving time and effort in literature review and information gathering as well as identification of emerging scientific trends within different disciplines. Moreover, the extendibility of the model to other scientific fields broadens its impact in facilitating research and trend analysis across diverse disciplines.
翻訳日:2023-09-01 14:36:15 公開日:2023-08-31
# DictaBERT:現代ヘブライ語のための最先端のBERTスイート

DictaBERT: A State-of-the-Art BERT Suite for Modern Hebrew ( http://arxiv.org/abs/2308.16687v1 )

ライセンス: Link先を確認
Shaltiel Shmidman, Avi Shmidman, Moshe Koppel(参考訳) DictaBERTは、最新のヘブライ語のための最先端の事前訓練されたBERTモデルであり、ほとんどのベンチマークで既存のモデルよりも優れています。 さらに,このモデルの微調整版を2つリリースし,ヘブライ語テキストの分析において2つの特別な基礎的タスク,すなわちプレフィックスセグメンテーションと形態的タグ付けを行うように設計した。 これらの微調整されたモデルにより、開発者は追加のライブラリやコードを統合することなく、HuggingFaceモデルへの単一の呼び出しで、Hebrew文のプレフィックスセグメンテーションと形態的タグ付けを実行することができる。 本稿では、トレーニングの詳細と、異なるベンチマークの結果について述べる。 モデルをコミュニティにリリースし、その使用例をサンプルコードで示しています。 ヘブライNLPのさらなる研究と開発を支援することを目的として,これらのモデルをリリースする。

We present DictaBERT, a new state-of-the-art pre-trained BERT model for modern Hebrew, outperforming existing models on most benchmarks. Additionally, we release two fine-tuned versions of the model, designed to perform two specific foundational tasks in the analysis of Hebrew texts: prefix segmentation and morphological tagging. These fine-tuned models allow any developer to perform prefix segmentation and morphological tagging of a Hebrew sentence with a single call to a HuggingFace model, without the need to integrate any additional libraries or code. In this paper we describe the details of the training as well and the results on the different benchmarks. We release the models to the community, along with sample code demonstrating their use. We release these models as part of our goal to help further research and development in Hebrew NLP.
翻訳日:2023-09-01 14:35:45 公開日:2023-08-31
# 誰でも攻撃できる! 自然のバックドア攻撃の「Lossy Compression」

Everyone Can Attack: Repurpose Lossy Compression as a Natural Backdoor Attack ( http://arxiv.org/abs/2308.16684v1 )

ライセンス: Link先を確認
Sze Jue Yang and Quang Nguyen and Chee Seng Chan and Khoa Doan(参考訳) バックドア攻撃の脆弱性は最近、実用的なアプリケーションにおける機械学習モデルの信頼性を脅かしている。 トリガー生成アルゴリズムを設計するプロセスには、攻撃のステルス性と有効性を確保するために、かなりの労力と広範囲な実験が必要となることが多いからだ。 あるいは、誰でも簡単にアクセス可能なアルゴリズムを使ってサイレントバックドア攻撃を行うことができるという、より厳しいバックドアの脅威が存在することを示す。 特に、この攻撃者は、多数の圧縮ツールから広く使用されているロスリーな画像圧縮を使用して、目に見える痕跡を残さずに画像にトリガーパターンを無力に注入することができる。 画像圧縮のツールを使いながら"convert"ボタンや"save as"ボタンをクリックするには、広範な知識を必要としない。 この攻撃によって、敵は以前の作業で見られるようにトリガージェネレータを設計する必要はなく、データに毒を盛るのみである。 実験上,提案手法はmnist,cifar-10,gtsrb,celebaなどのベンチマークデータセットにおいて,100%のアタック成功率を達成している。 さらに、提案した攻撃は、クリーンラベル設定で非常に小さな(約10%)中毒率で、ほぼ100%の攻撃成功率を達成することができる。 1つの損失のある圧縮アルゴリズムを用いて提案された攻撃のトリガは、他の関連する圧縮アルゴリズム間で転送可能である。 この研究は、バックドア攻撃の広範囲なリスクを理解するための重要な一歩を踏み出し、実践者に同様の攻撃と関連するバックドア緩和方法を調査するよう促す。

The vulnerabilities to backdoor attacks have recently threatened the trustworthiness of machine learning models in practical applications. Conventional wisdom suggests that not everyone can be an attacker since the process of designing the trigger generation algorithm often involves significant effort and extensive experimentation to ensure the attack's stealthiness and effectiveness. Alternatively, this paper shows that there exists a more severe backdoor threat: anyone can exploit an easily-accessible algorithm for silent backdoor attacks. Specifically, this attacker can employ the widely-used lossy image compression from a plethora of compression tools to effortlessly inject a trigger pattern into an image without leaving any noticeable trace; i.e., the generated triggers are natural artifacts. One does not require extensive knowledge to click on the "convert" or "save as" button while using tools for lossy image compression. Via this attack, the adversary does not need to design a trigger generator as seen in prior works and only requires poisoning the data. Empirically, the proposed attack consistently achieves 100% attack success rate in several benchmark datasets such as MNIST, CIFAR-10, GTSRB and CelebA. More significantly, the proposed attack can still achieve almost 100% attack success rate with very small (approximately 10%) poisoning rates in the clean label setting. The generated trigger of the proposed attack using one lossy compression algorithm is also transferable across other related compression algorithms, exacerbating the severity of this backdoor threat. This work takes another crucial step toward understanding the extensive risks of backdoor attacks in practice, urging practitioners to investigate similar attacks and relevant backdoor mitigation methods.
翻訳日:2023-09-01 14:35:29 公開日:2023-08-31
# 拡散慣性電位:任意スパースIMU構成による人間の運動再構成

Diffusion Inertial Poser: Human Motion Reconstruction from Arbitrary Sparse IMU Configurations ( http://arxiv.org/abs/2308.16682v1 )

ライセンス: Link先を確認
Tom Van Wouwe, Seunghwan Lee, Antoine Falisse, Scott Delp, C. Karen Liu(参考訳) 限られた数の慣性測定ユニット(IMU)からのモーションキャプチャは、健康、人間のパフォーマンス、バーチャルリアリティーに重要な応用がある。 現実世界の制限とアプリケーション固有のゴールは、異なるIMU構成(IMUの数と選択されたアタッチメントボディセグメント)を規定し、正確性と実用性をトレードオフする。 最近の研究は、6つのIMUからボディ全体の動きを正確に再構築することに成功したが、これらのシステムは特定のIMU構成でのみ動作する。 本稿では、任意のIMU構成から人体の動きをリアルタイムに再構成する拡散慣性ポサー(DiffIP)の1つの拡散生成モデルを提案する。 DiffIPはIMU構成に関して柔軟性の利点があり、一般的な6つのIMU構成の最先端技術と同じくらい正確であることを示す。 本システムでは,モデルを再トレーニングすることなく,異なるアプリケーションに対して最適な構成を選択することができる。 例えば、4つのIMUしか利用できない場合、DiffIPは関節キネマティクスの誤差を最小限に抑える構成は、大腿と前腕を計測する。 しかし、大腿の代わりに足の計測を行う場合、グローバル翻訳の再構築が優れている。 本手法は基礎となるモデルとは無関係であるが,生理的・現実的な筋骨格モデルに基づいてDiffIPを構築し,バイオメディカル研究や健康への応用を可能にした。

Motion capture from a limited number of inertial measurement units (IMUs) has important applications in health, human performance, and virtual reality. Real-world limitations and application-specific goals dictate different IMU configurations (i.e., number of IMUs and chosen attachment body segments), trading off accuracy and practicality. Although recent works were successful in accurately reconstructing whole-body motion from six IMUs, these systems only work with a specific IMU configuration. Here we propose a single diffusion generative model, Diffusion Inertial Poser (DiffIP), which reconstructs human motion in real-time from arbitrary IMU configurations. We show that DiffIP has the benefit of flexibility with respect to the IMU configuration while being as accurate as the state-of-the-art for the commonly used six IMU configuration. Our system enables selecting an optimal configuration for different applications without retraining the model. For example, when only four IMUs are available, DiffIP found that the configuration that minimizes errors in joint kinematics instruments the thighs and forearms. However, global translation reconstruction is better when instrumenting the feet instead of the thighs. Although our approach is agnostic to the underlying model, we built DiffIP based on physiologically realistic musculoskeletal models to enable use in biomedical research and health applications.
翻訳日:2023-09-01 14:35:02 公開日:2023-08-31
# すべて, すべて 1 つの評価: モデル設計決定がアルゴリズム的公正性に及ぼす影響を評価するために多元的分析を用いる

Everything, Everywhere All in One Evaluation: Using Multiverse Analysis to Evaluate the Influence of Model Design Decisions on Algorithmic Fairness ( http://arxiv.org/abs/2308.16681v1 )

ライセンス: Link先を確認
Jan Simson and Florian Pfisterer and Christoph Kern(参考訳) 世界中の多くのシステムがアルゴリズムによる意思決定(ADM)を使用して、これまで人間が行ってきた決定を(部分的に)自動化しています。 うまく設計されると、これらのシステムは大量のリソースを節約し、人間の時間を解放しながら、より客観的な決定を約束します。 しかし、ADMシステムが十分に設計されていない場合、社会集団を差別する不公平な判断につながる可能性がある。 ADMの下流効果は、データ内のバイアスがモデリングパイプラインに沿って緩和または強化されるため、システムの設計と実装の間の決定に大きく依存する。 これらの設計決定の多くは、最終的なシステムにどのように影響するかを正確に知ることなく、暗黙的に行われます。 したがって、ADMシステムの設計中に行われた決定を明確にし、これらの決定が結果のシステムの公平性にどのように影響するかを理解することが重要である。 この問題を研究するために,心理学の分野から洞察を導き,アルゴリズム的公正性に対する多元的分析手法を導入する。 提案手法では,暗黙の設計決定を明示的な決定とし,その公平性を示す。 決定を組み合わせることで、可能なすべての"一元的"な決定の組み合わせのグリッドを作ります。 これらの宇宙のそれぞれについて、フェアネスとパフォーマンスのメトリクスを計算します。 結果として得られたデータセットを使用することで、公平性にどのように影響するかを確認できる。 本稿では, アルゴリズムフェアネスの多様性と堅牢性をよりよく理解するために, 脆弱性のある集団の公衆衛生カバレッジを予測するための例を用いて, マルチバース分析をいかに活用できるかを実証する。 本研究は,機械学習システムの設計における決定が,その公平性に驚くべき影響を与え得ること,多元解析を用いてこれらの影響を検出する方法を示す。

A vast number of systems across the world use algorithmic decision making (ADM) to (partially) automate decisions that have previously been made by humans. When designed well, these systems promise more objective decisions while saving large amounts of resources and freeing up human time. However, when ADM systems are not designed well, they can lead to unfair decisions which discriminate against societal groups. The downstream effects of ADMs critically depend on the decisions made during the systems' design and implementation, as biases in data can be mitigated or reinforced along the modeling pipeline. Many of these design decisions are made implicitly, without knowing exactly how they will influence the final system. It is therefore important to make explicit the decisions made during the design of ADM systems and understand how these decisions affect the fairness of the resulting system. To study this issue, we draw on insights from the field of psychology and introduce the method of multiverse analysis for algorithmic fairness. In our proposed method, we turn implicit design decisions into explicit ones and demonstrate their fairness implications. By combining decisions, we create a grid of all possible "universes" of decision combinations. For each of these universes, we compute metrics of fairness and performance. Using the resulting dataset, one can see how and which decisions impact fairness. We demonstrate how multiverse analyses can be used to better understand variability and robustness of algorithmic fairness using an exemplary case study of predicting public health coverage of vulnerable populations for potential interventions. Our results illustrate how decisions during the design of a machine learning system can have surprising effects on its fairness and how to detect these effects using multiverse analysis.
翻訳日:2023-09-01 14:34:36 公開日:2023-08-31
# 木の枝:高エネルギー物理学における離散的および分岐的ランダム性を持つプログラムの微分を取る

Branches of a Tree: Taking Derivatives of Programs with Discrete and Branching Randomness in High Energy Physics ( http://arxiv.org/abs/2308.16680v1 )

ライセンス: Link先を確認
Michael Kagan and Lukas Heinrich(参考訳) 本稿では,高エネルギー物理学における離散ランダム性プログラムの微分を可能にするために,いくつかの勾配推定手法を提案する。 このようなプログラムは、分岐プロセスとクラスタリングに基づく分析の存在により、高エネルギー物理学において一般的である。 このようなプログラムの差別化は、検出器設計の最適化、シミュレータチューニング、データ解析と再構築の最適化といった文脈において、勾配に基づく最適化の道を開くことができる。 本稿では,最近の確率的ad法を含む傾斜推定手法について検討し,簡易型検出器設計実験で比較する。 そうすることで、私たちの知る限りでは、最初の完全に差別化可能な分岐プログラムを開発します。

We propose to apply several gradient estimation techniques to enable the differentiation of programs with discrete randomness in High Energy Physics. Such programs are common in High Energy Physics due to the presence of branching processes and clustering-based analysis. Thus differentiating such programs can open the way for gradient based optimization in the context of detector design optimization, simulator tuning, or data analysis and reconstruction optimization. We discuss several possible gradient estimation strategies, including the recent Stochastic AD method, and compare them in simplified detector design experiments. In doing so we develop, to the best of our knowledge, the first fully differentiable branching program.
翻訳日:2023-09-01 14:34:07 公開日:2023-08-31
# 動的nsNet2:早期消音による高効率ディープノイズ抑制

Dynamic nsNet2: Efficient Deep Noise Suppression with Early Exiting ( http://arxiv.org/abs/2308.16678v1 )

ライセンス: Link先を確認
Riccardo Miccini, Alaa Zniber, Cl\'ement Laroche, Tobias Piechowiak, Martin Schoeberl, Luca Pezzarossa, Ouassim Karrakchou, Jens Spars{\o}, Mounir Ghogho(参考訳) ディープラーニングは、深いノイズ抑制の分野において進歩を遂げてきたが、リソースに制約されたデバイス上でのディープアーキテクチャの活用は依然として困難である。 そこで我々は,異なる段階の計算を停止させることにより,様々なレベルの精度と資源節約を提供するnsNet2に基づく早期終了モデルを提案する。 さらに,インジェクションされたダイナミズムを考慮した情報フローを分割することで,元のアーキテクチャを適応させる。 確立したメトリクスに基づいて,パフォーマンスと計算複雑性のトレードオフを示す。

Although deep learning has made strides in the field of deep noise suppression, leveraging deep architectures on resource-constrained devices still proved challenging. Therefore, we present an early-exiting model based on nsNet2 that provides several levels of accuracy and resource savings by halting computations at different stages. Moreover, we adapt the original architecture by splitting the information flow to take into account the injected dynamism. We show the trade-offs between performance and computational complexity based on established metrics.
翻訳日:2023-09-01 14:33:54 公開日:2023-08-31
# 量子場論における超光的局所演算:ピンポン球試験

Superluminal local operations in quantum field theory: A ping-pong ball test ( http://arxiv.org/abs/2308.16673v1 )

ライセンス: Link先を確認
Albert Much and Rainer Verch(参考訳) 場の量子論において、局所可観測代数におけるユニタリ作用素によって与えられる局所化作用素は、その局所化領域内での非因果的あるいは超光的状態変化をもたらすことが知られている。 本稿では、量子場論と古典相対論的場論の両方において、「即時」空間回転に対応する局所化演算(局所化領域を不変に残す)が存在し、局所化領域内で超光効果をもたらすことを示す。 このことは、文献で研究され、その局所化領域内で超光効果を特徴とする局所化演算の存在に依存する「不可能な測定シナリオ」が、場の量子論だけでなく古典場理論においても起こることを示している。

It is known that in quantum field theory, localized operations, e.g.\ given by unitary operators in local observable algebras, may lead to non-causal, or superluminal, state changes within their localization region. In this article, it is shown that both in quantum field theory as well as in classical relativistic field theory, there are localized operations which correspond to ``instantaneous'' spatial rotations (leaving the localization region invariant) leading to superluminal effects within the localization region. This shows that ``impossible measurement scenarios'' which have been investigated in the literature, and which rely on the presence of localized operations that feature superluminal effects within their localization region, do not only occur in quantum field theory, but also in classical field theory.
翻訳日:2023-09-01 14:33:45 公開日:2023-08-31
# 1ビット圧縮センシングによるコミュニケーション効率の良い分散フェデレーション学習

Communication-Efficient Decentralized Federated Learning via One-Bit Compressive Sensing ( http://arxiv.org/abs/2308.16671v1 )

ライセンス: Link先を確認
Shenglong Zhou, Kaidi Xu, Geoffrey Ye Li(参考訳) 分散フェデレーション学習(dfl)は様々なアプリケーションで実用性が高まり,広く普及している。 集中型バージョンと比較して、DFLの多数のノード間で共有モデルをトレーニングするのは、トレーニングプロセスを調整する中央サーバがないため、より難しい。 特に分散ノードが通信や計算リソースの制限に悩まされている場合、DFLは極めて非効率で不安定なトレーニングを受ける。 本稿では,これらの課題に動機づけられた新しいアルゴリズムとして,iadm法(inexact alternating direction method)の枠組みを提案する。 一方、私たちのゴールは、疎結合の制約で共有モデルをトレーニングすることです。 この制約により、1ビット圧縮センシング(1BCS)を利用でき、近隣ノード間で1ビット情報の伝送が可能となる。 一方、隣接ノード間の通信は特定のステップでのみ行われ、通信ラウンドの数を減少させる。 したがって、このアルゴリズムは顕著な通信効率を示す。 さらに、各ノードがトレーニングに参加するために隣人のサブセットのみを選択するため、アルゴリズムはストラグラーに対して堅牢である。 さらに、複雑な項目は数ステップで1回だけ計算され、サブプロブレムは閉じた解を用いて不正確に解決され、計算効率が高い。 最後に,数値実験により,コミュニケーションと計算の両方におけるアルゴリズムの有効性を示す。

Decentralized federated learning (DFL) has gained popularity due to its practicality across various applications. Compared to the centralized version, training a shared model among a large number of nodes in DFL is more challenging, as there is no central server to coordinate the training process. Especially when distributed nodes suffer from limitations in communication or computational resources, DFL will experience extremely inefficient and unstable training. Motivated by these challenges, in this paper, we develop a novel algorithm based on the framework of the inexact alternating direction method (iADM). On one hand, our goal is to train a shared model with a sparsity constraint. This constraint enables us to leverage one-bit compressive sensing (1BCS), allowing transmission of one-bit information among neighbour nodes. On the other hand, communication between neighbour nodes occurs only at certain steps, reducing the number of communication rounds. Therefore, the algorithm exhibits notable communication efficiency. Additionally, as each node selects only a subset of neighbours to participate in the training, the algorithm is robust against stragglers. Additionally, complex items are computed only once for several consecutive steps and subproblems are solved inexactly using closed-form solutions, resulting in high computational efficiency. Finally, numerical experiments showcase the algorithm's effectiveness in both communication and computation.
翻訳日:2023-09-01 14:33:31 公開日:2023-08-31
# 組込みニューラルネットワークにおける欠陥注入 : 単一命令スキップの影響

Fault Injection on Embedded Neural Networks: Impact of a Single Instruction Skip ( http://arxiv.org/abs/2308.16665v1 )

ライセンス: Link先を確認
Clement Gaine, Pierre-Alain Moellic, Olivier Potin, Jean-Max Dutertre(参考訳) 大規模統合とニューラルネットワークモデルの利用、特に重要な組み込みシステムでは、信頼性を保証するためのセキュリティアセスメントが緊急の要求となっている。 特に、32ビットマイクロコントローラなどの組み込みプラットフォームにデプロイされたモデルは、敵によって物理的にアクセス可能であり、そのためハードウェア障害に弱い。 本稿では,cortex m4 32ビットマイクロコントローラプラットフォームに埋め込まれたニューラルネットワークモデルに対して,電磁およびレーザーによる2つの故障注入手段を用いた最初の実験を行う。 内部パラメータや入力値の変更を専門とする最先端の作業の多くとは対照的に、私たちの目標は、命令スキップ中の特定の障害モデルの影響をシミュレートし、実験的に示すことです。 そこで我々は,ニューラルネットワークの制御フローに対するいくつかの修正攻撃を評価した。 我々は,一般的な畳み込みニューラルネットワークモデルの推論プログラムにおいて,目標モデルの予測を異なる目標で変更するために攻撃者が悪用する可能性のあるいくつかのステップを目標として,整合性の脅威を明らかにする。

With the large-scale integration and use of neural network models, especially in critical embedded systems, their security assessment to guarantee their reliability is becoming an urgent need. More particularly, models deployed in embedded platforms, such as 32-bit microcontrollers, are physically accessible by adversaries and therefore vulnerable to hardware disturbances. We present the first set of experiments on the use of two fault injection means, electromagnetic and laser injections, applied on neural networks models embedded on a Cortex M4 32-bit microcontroller platform. Contrary to most of state-of-the-art works dedicated to the alteration of the internal parameters or input values, our goal is to simulate and experimentally demonstrate the impact of a specific fault model that is instruction skip. For that purpose, we assessed several modification attacks on the control flow of a neural network inference. We reveal integrity threats by targeting several steps in the inference program of typical convolutional neural network models, which may be exploited by an attacker to alter the predictions of the target models with different adversarial goals.
翻訳日:2023-09-01 14:33:09 公開日:2023-08-31
# フェデレーション学習とソースターゲットリモートグラデーションアライメントによるソースデータへのアクセスによるデプロイ後の適応化

Post-Deployment Adaptation with Access to Source Data via Federated Learning and Source-Target Remote Gradient Alignment ( http://arxiv.org/abs/2308.16735v1 )

ライセンス: Link先を確認
Felix Wagner, Zeju Li, Pramit Saha, Konstantinos Kamnitsas(参考訳) 医療画像におけるディープニューラルネットワークの展開は、トレーニングデータとデプロイ後に処理されたデータの分散シフトによって妨げられ、パフォーマンスが低下する。 デプロイ後適応(PDA)は、プライバシの懸念と大きなサイズのため、モデルでデプロイできないソーストレーニングデータへのアクセスを前提としながら、ラベル付きまたは完全にラベル付けされていないターゲットデータを使用して、トレーニング済み、デプロイ済みのモデルをターゲットデータディストリビューションに調整することで、この問題に対処する。 これにより、限られた学習信号のため、信頼性の高い適応が困難になる。 本稿では、この仮定に挑戦し、フェデレートラーニングの遠隔データからPDAに学習の有用性をもたらす新しい適応フレームワークであるFedPDAを紹介する。 FedPDAにより、デプロイされたモデルは、ターゲットドメインに特化してモデルを最適化しながら、リモート勾配交換を通じてソースデータから情報を取得することができる。 FedPDA用に開発されたStarAlign (Source-Target Remote Gradient Alignment)は、ソースとターゲットのドメインペア間の勾配を最適化し、内部積を最大化し、ターゲット固有のモデルの学習を容易にする。 がん転移検出および皮膚病変分類のタスクにマルチセンターデータベースを用いて,本手法の有効性を実証した。 コードは、https://github.com/FelixWag/StarAlignで入手できる。

Deployment of Deep Neural Networks in medical imaging is hindered by distribution shift between training data and data processed after deployment, causing performance degradation. Post-Deployment Adaptation (PDA) addresses this by tailoring a pre-trained, deployed model to the target data distribution using limited labelled or entirely unlabelled target data, while assuming no access to source training data as they cannot be deployed with the model due to privacy concerns and their large size. This makes reliable adaptation challenging due to limited learning signal. This paper challenges this assumption and introduces FedPDA, a novel adaptation framework that brings the utility of learning from remote data from Federated Learning into PDA. FedPDA enables a deployed model to obtain information from source data via remote gradient exchange, while aiming to optimize the model specifically for the target domain. Tailored for FedPDA, we introduce a novel optimization method StarAlign (Source-Target Remote Gradient Alignment) that aligns gradients between source-target domain pairs by maximizing their inner product, to facilitate learning a target-specific model. We demonstrate the method's effectiveness using multi-center databases for the tasks of cancer metastases detection and skin lesion classification, where our method compares favourably to previous work. Code is available at: https://github.com/FelixWag/StarAlign
翻訳日:2023-09-01 14:24:46 公開日:2023-08-31
# ディープラーニングの証明 - アプローチ,課題,今後の方向性

Proof of Deep Learning: Approaches, Challenges, and Future Directions ( http://arxiv.org/abs/2308.16730v1 )

ライセンス: Link先を確認
Mahmoud Salhab and Khaleel Mershad(参考訳) 計算能力の高まりは、ディープラーニングモデルの前例のないパフォーマンス向上につながった。 より多くのデータが利用可能になり、モデルアーキテクチャがより複雑になるにつれて、より多くの計算能力の必要性が高まる。 一方で、ビットコインを最初の暗号通貨として導入し、ブロックチェーンの概念を分散台帳として確立して以来、多くの変種やアプローチが提案されてきた。 しかし、それらの多くはひとつの共通点を持ち、これはpow( proof of work)コンセンサスメカニズムである。 PoWは主に、新しいブロック生成プロセスをサポートするために使用される。 PoWはその堅牢性を証明する一方で、ブロックチェーンのセキュリティと整合性を維持するためには、かなりの量の処理能力が必要になる。 これは、ハッシュパズルを解くためにブルートフォースを適用するためである。 ブロックチェーンを安全に保ちながら有用かつ有意義な作業で利用可能な計算能力を活用するために、多くの技術が提案されている。 PoDLは、ディープラーニングモデルをトレーニングする過程を、ブロックチェーンに新しいブロックを追加する作業の証明として使用するコンセンサスメカニズムである。 本稿では,PoDLの様々なアプローチについて検討する。 本稿では,様々な種類のPoDLアルゴリズム,その利点と欠点,潜在的な応用について論じる。 また,PoDL導入の課題と今後の研究方向性についても論じる。

The rise of computational power has led to unprecedented performance gains for deep learning models. As more data becomes available and model architectures become more complex, the need for more computational power increases. On the other hand, since the introduction of Bitcoin as the first cryptocurrency and the establishment of the concept of blockchain as a distributed ledger, many variants and approaches have been proposed. However, many of them have one thing in common, which is the Proof of Work (PoW) consensus mechanism. PoW is mainly used to support the process of new block generation. While PoW has proven its robustness, its main drawback is that it requires a significant amount of processing power to maintain the security and integrity of the blockchain. This is due to applying brute force to solve a hashing puzzle. To utilize the computational power available in useful and meaningful work while keeping the blockchain secure, many techniques have been proposed, one of which is known as Proof of Deep Learning (PoDL). PoDL is a consensus mechanism that uses the process of training a deep learning model as proof of work to add new blocks to the blockchain. In this paper, we survey the various approaches for PoDL. We discuss the different types of PoDL algorithms, their advantages and disadvantages, and their potential applications. We also discuss the challenges of implementing PoDL and future research directions.
翻訳日:2023-09-01 14:24:16 公開日:2023-08-31
# 地形拡散ネットワーク:地質図指導による気候対応地形生成

Terrain Diffusion Network: Climatic-Aware Terrain Generation with Geological Sketch Guidance ( http://arxiv.org/abs/2308.16725v1 )

ライセンス: Link先を確認
Zexin Hu, Kun Hu, Clinton Mo, Lei Pan, Zhiyong Wang(参考訳) スケッチベースの地形生成は、コンピュータゲーム、アニメーション、バーチャルリアリティーといった様々なアプリケーションにおける仮想環境の現実的な風景を創造することを目指している。 近年,特にgan(generative adversarial networks)に基づく深層学習による地形生成が出現している。 しかし、これらの方法はしばしば柔軟なユーザー制御の要件を満たすのに苦労し、現実的な地形に対する生成的多様性を維持する。 そこで本稿では,河川,尾根,盆地,ピークなどの地形特性を考慮した,制御性向上のためのユーザガイダンスを積極的に取り入れた,新しい拡散ベース手法である地形拡散ネットワーク(tdn)を提案する。 地形の詳細の忠実さやユーザ制御との整合をしばしば損なう従来のモノリシックな分別処理に固執する代わりに、細かな細部、特に侵食やテクトニック活動の影響を受ける気候パターンに関連することを考慮し、より現実的な地形を生成するマルチレベル分別スキームが提案されている。 特に、3つの地形合成器は構造的、中間的、細粒度レベルの分別目的のために設計されており、各合成器は異なる地形の側面に集中することができる。 さらに,TDNの効率を最大化するために,事前学習した地形オートエンコーダを用いた合成器の地形や潜伏空間のスケッチも導入する。 nasaトポロジー画像から構築した新しいデータセットに関する包括的な実験は、提案手法の有効性を明確に示し、最先端のパフォーマンスを達成する。 コードとデータセットは公開されます。

Sketch-based terrain generation seeks to create realistic landscapes for virtual environments in various applications such as computer games, animation and virtual reality. Recently, deep learning based terrain generation has emerged, notably the ones based on generative adversarial networks (GAN). However, these methods often struggle to fulfill the requirements of flexible user control and maintain generative diversity for realistic terrain. Therefore, we propose a novel diffusion-based method, namely terrain diffusion network (TDN), which actively incorporates user guidance for enhanced controllability, taking into account terrain features like rivers, ridges, basins, and peaks. Instead of adhering to a conventional monolithic denoising process, which often compromises the fidelity of terrain details or the alignment with user control, a multi-level denoising scheme is proposed to generate more realistic terrains by taking into account fine-grained details, particularly those related to climatic patterns influenced by erosion and tectonic activities. Specifically, three terrain synthesisers are designed for structural, intermediate, and fine-grained level denoising purposes, which allow each synthesiser concentrate on a distinct terrain aspect. Moreover, to maximise the efficiency of our TDN, we further introduce terrain and sketch latent spaces for the synthesizers with pre-trained terrain autoencoders. Comprehensive experiments on a new dataset constructed from NASA Topology Images clearly demonstrate the effectiveness of our proposed method, achieving the state-of-the-art performance. Our code and dataset will be publicly available.
翻訳日:2023-09-01 14:23:55 公開日:2023-08-31
# 信頼できない部分ラベル学習のためのロバスト表現学習

Robust Representation Learning for Unreliable Partial Label Learning ( http://arxiv.org/abs/2308.16718v1 )

ライセンス: Link先を確認
Yu Shi, Dong-Dong Wu, Xin Geng, Min-Ling Zhang(参考訳) 部分ラベル学習(英: partial label learning、pll)は、各トレーニングインスタンスが候補ラベルのセットに割り当てられる、弱教師付き学習の一種である。 しかし、この理想主義的な仮定は、潜在的なアノテーションの不正確さのために常に成り立つとは限りません。 これはUnreliable partial Label Learning (UPLL)として知られており、これは部分ラベルの固有の不信頼性と曖昧さによってさらに複雑になり、しばしば既存の手法による準最適性能をもたらす。 この課題に対処するために,我々は,unreliability-robust contrastive learningを活用したunreliability-robust representation learning framework (urrl)を提案する。 同時に、KNNベースの候補ラベルセットの修正と整合性規則化に基づくラベルの曖昧さを組み合わせ、ラベルの品質を向上し、URRLフレームワーク内での表現学習能力を高める2つの戦略を提案する。 広範囲な実験により,提案手法は信頼性と曖昧さの異なる様々なデータセット上で,最先端のPLL法より優れていることが示された。 さらに,予測最大化(EM)アルゴリズムの観点から,提案手法の理論的解析を行う。 受け入れられると、コードを公開することを約束します。

Partial Label Learning (PLL) is a type of weakly supervised learning where each training instance is assigned a set of candidate labels, but only one label is the ground-truth. However, this idealistic assumption may not always hold due to potential annotation inaccuracies, meaning the ground-truth may not be present in the candidate label set. This is known as Unreliable Partial Label Learning (UPLL) that introduces an additional complexity due to the inherent unreliability and ambiguity of partial labels, often resulting in a sub-optimal performance with existing methods. To address this challenge, we propose the Unreliability-Robust Representation Learning framework (URRL) that leverages unreliability-robust contrastive learning to help the model fortify against unreliable partial labels effectively. Concurrently, we propose a dual strategy that combines KNN-based candidate label set correction and consistency-regularization-based label disambiguation to refine label quality and enhance the ability of representation learning within the URRL framework. Extensive experiments demonstrate that the proposed method outperforms state-of-the-art PLL methods on various datasets with diverse degrees of unreliability and ambiguity. Furthermore, we provide a theoretical analysis of our approach from the perspective of the expectation maximization (EM) algorithm. Upon acceptance, we pledge to make the code publicly accessible.
翻訳日:2023-09-01 14:23:26 公開日:2023-08-31
# 車から全車への自動運転に向けて:協調的知覚に関する調査

Towards Vehicle-to-everything Autonomous Driving: A Survey on Collaborative Perception ( http://arxiv.org/abs/2308.16714v1 )

ライセンス: Link先を確認
Si Liu, Chen Gao, Yuan Chen, Xingyu Peng, Xianghao Kong, Kun Wang, Runsheng Xu, Wentao Jiang, Hao Xiang, Jiaqi Ma, Miao Wang(参考訳) 自動運転車(V2X)は、新しい世代のインテリジェント交通システムを開発する上で有望な方向を開く。 V2Xを実現するための重要な要素として協調的知覚(CP)は、咬合や長距離知覚を含む個々の知覚の固有の限界を克服することができる。 本調査では,V2Xシナリオに対するCP手法の総合的なレビューを行い,コミュニティに深い深い理解をもたらす。 具体的には、V2Xシステム全体のアーキテクチャとワークフローについて紹介し、V2Xシステム全体と、その中のCPの役割を理解するためのより広い視点を提供する。 そして,既存のV2X知覚データセットとCP手法を徹底的に要約し,解析する。 特に,コラボレーションステージ,道路センサ配置,遅延補償,パフォーマンス帯域幅トレードオフ,アタック/ディフェンス,ポーズアライメントなど,さまざまな重要な観点からのCP手法を紹介する。 さらに,現在のcp法との比較・検討のために広範な実験分析を行い,本質的かつ未検討な知見を明らかにした。 具体的には、異なる帯域幅で異なるメソッドのパフォーマンス変化を分析し、パフォーマンス-帯域幅トレードオフ問題に関する深い洞察を提供する。 また、異なるLiDAR範囲での手法についても検討する。 モデルロバスト性について検討するため,様々なCP法の性能に及ぼす実環境騒音の影響について検討し,通信遅延,通信損失,局所誤差,混合雑音について検討した。 さらに、既存のCP手法のsim-to-real一般化能力について考察する。 最後に、私たちは問題と課題を徹底的に議論し、今後の取り組みの有望な方向性を強調します。 実験分析のコードはhttps://github.com/memberRE/Collaborative-Perception.comで公開されます。

Vehicle-to-everything (V2X) autonomous driving opens up a promising direction for developing a new generation of intelligent transportation systems. Collaborative perception (CP) as an essential component to achieve V2X can overcome the inherent limitations of individual perception, including occlusion and long-range perception. In this survey, we provide a comprehensive review of CP methods for V2X scenarios, bringing a profound and in-depth understanding to the community. Specifically, we first introduce the architecture and workflow of typical V2X systems, which affords a broader perspective to understand the entire V2X system and the role of CP within it. Then, we thoroughly summarize and analyze existing V2X perception datasets and CP methods. Particularly, we introduce numerous CP methods from various crucial perspectives, including collaboration stages, roadside sensors placement, latency compensation, performance-bandwidth trade-off, attack/defense, pose alignment, etc. Moreover, we conduct extensive experimental analyses to compare and examine current CP methods, revealing some essential and unexplored insights. Specifically, we analyze the performance changes of different methods under different bandwidths, providing a deep insight into the performance-bandwidth trade-off issue. Also, we examine methods under different LiDAR ranges. To study the model robustness, we further investigate the effects of various simulated real-world noises on the performance of different CP methods, covering communication latency, lossy communication, localization errors, and mixed noises. In addition, we look into the sim-to-real generalization ability of existing CP methods. At last, we thoroughly discuss issues and challenges, highlighting promising directions for future efforts. Our codes for experimental analysis will be public at https://github.com/memberRE/Collaborative-Perception.
翻訳日:2023-09-01 14:23:02 公開日:2023-08-31
# 推論手法による工学専攻における初年度承認遅延の因果解析

Causal Analysis of First-Year Course Approval Delays in an Engineering Major Through Inference Techniques ( http://arxiv.org/abs/2308.16707v1 )

ライセンス: Link先を確認
Hugo Roger Paz(参考訳) この研究は、アルゼンチンのトゥクムアン国立大学(英語版)の土木工学専攻の1年制コースの承認の遅れの問題に対処する。 学生はこれらの科目を通すのに平均5年かかる。 DoWhyとCausal Discovery Toolboxツールを使用して、これらの遅延の原因を特定することを検討した。 解析の結果,プログラムの制御構造と評価手法が,この遅延に重要な役割を果たすことが明らかとなった。 具体的には,最終試験に合格しない正規被験者の蓄積が重要な要因であった。 これらの知見は、学生の成功率と教育システム全般の有効性を改善するための介入を導くことができる。

The study addresses the problem of delays in the approval of first-year courses in the Civil Engineering Major at the National University of Tucum\'an, Argentina. Students take an average of 5 years to pass these subjects. Using the DoWhy and Causal Discovery Toolbox tools, we looked to identify the underlying causes of these delays. The analysis revealed that the regulatory structure of the program and the evaluation methods play a crucial role in this delay. Specifically, the accumulation of regular subjects without passing a final exam was identified as a key factor. These findings can guide interventions to improve student success rates and the effectiveness of the education system in general.
翻訳日:2023-09-01 14:22:36 公開日:2023-08-31
# CReHate: 英語のヘイトスピーチデータセットの異文化的再注釈

CReHate: Cross-cultural Re-annotation of English Hate Speech Dataset ( http://arxiv.org/abs/2308.16705v1 )

ライセンス: Link先を確認
Nayeon Lee, Chani Jung, Junho Myung, Jiho Jin, Juho Kim, Alice Oh(参考訳) 英語のデータセットは、主に特定の国籍の視点を反映しており、モデルやデータセットの文化的バイアスにつながる可能性がある。 これは、ヘイトスピーチ検出のような主観性に強く影響されたタスクにおいて特に問題となる。 異なる国の個人がヘイトスピーチをどのように感じているかを調べるために、サンプルSBICデータセットの異文化間の再注釈であるCReHateを紹介します。 このデータセットにはオーストラリア、シンガポール、南アフリカ、イギリス、米国という5つの国からのアノテーションが含まれている。 徹底的な統計分析では、国籍による有意な差異が強調され、全国でコンセンサスに達するサンプルは59.4%に過ぎなかった。 また,文化に敏感なヘイトスピーチ分類器も導入し,異なる民族の視点を捉えたトランスファーラーニングを行った。 これらの結果は、特に英語におけるヘイトスピーチのニュアンスな性質に関して、NLP研究の特定の側面を再評価する必要性を浮き彫りにした。

English datasets predominantly reflect the perspectives of certain nationalities, which can lead to cultural biases in models and datasets. This is particularly problematic in tasks heavily influenced by subjectivity, such as hate speech detection. To delve into how individuals from different countries perceive hate speech, we introduce CReHate, a cross-cultural re-annotation of the sampled SBIC dataset. This dataset includes annotations from five distinct countries: Australia, Singapore, South Africa, the United Kingdom, and the United States. Our thorough statistical analysis highlights significant differences based on nationality, with only 59.4% of the samples achieving consensus among all countries. We also introduce a culturally sensitive hate speech classifier via transfer learning, adept at capturing perspectives of different nationalities. These findings underscore the need to re-evaluate certain aspects of NLP research, especially with regard to the nuanced nature of hate speech in the English language.
翻訳日:2023-09-01 14:22:26 公開日:2023-08-31
# 組み込みニューラルネットワークモデル抽出のためのフォールトインジェクションとセーフエラーアタック

Fault Injection and Safe-Error Attack for Extraction of Embedded Neural Network Models ( http://arxiv.org/abs/2308.16703v1 )

ライセンス: Link先を確認
Kevin Hector, Pierre-Alain Moellic, Mathieu Dumont, Jean-Max Dutertre(参考訳) モデル抽出は、アルゴリズムと実装ベースのアプローチの両方を利用した攻撃ベクトルによる重要なセキュリティ脅威として出現する。 攻撃者の主な目標は、保護された被害者モデルについてできるだけ多くの情報を盗み、同様のトレーニングデータへのアクセスが制限された場合でも、代替モデルでそれを模倣することである。 近年,フォールトインジェクションなどの物理的攻撃は,組込みモデルの完全性と機密性に対する効率を懸念している。 我々は、32ビットマイクロコントローラ上の組み込みディープニューラルネットワークモデル、IoTの幅広いハードウェアプラットフォーム、および標準的なフォールトインジェクション戦略であるセーフエラーアタック(SEA)を使用して、トレーニングデータに限られたアクセス権を持つ敵によるモデル抽出攻撃を実行することに重点を置いている。 攻撃は入力クエリに強く依存するため,攻撃セットを成功させるためにブラックボックスアプローチを提案する。 古典的畳み込みニューラルネットワークでは,約1500個の入力を用いた最重要ビットの少なくとも90%の復元に成功している。 これらの情報は、被害者モデルとほぼ同一の精度で高い忠実度に達するトレーニングデータセットの8%しか持たない代替モデルを効率的に訓練することができる。

Model extraction emerges as a critical security threat with attack vectors exploiting both algorithmic and implementation-based approaches. The main goal of an attacker is to steal as much information as possible about a protected victim model, so that he can mimic it with a substitute model, even with a limited access to similar training data. Recently, physical attacks such as fault injection have shown worrying efficiency against the integrity and confidentiality of embedded models. We focus on embedded deep neural network models on 32-bit microcontrollers, a widespread family of hardware platforms in IoT, and the use of a standard fault injection strategy - Safe Error Attack (SEA) - to perform a model extraction attack with an adversary having a limited access to training data. Since the attack strongly depends on the input queries, we propose a black-box approach to craft a successful attack set. For a classical convolutional neural network, we successfully recover at least 90% of the most significant bits with about 1500 crafted inputs. These information enable to efficiently train a substitute model, with only 8% of the training dataset, that reaches high fidelity and near identical accuracy level than the victim model.
翻訳日:2023-09-01 14:22:09 公開日:2023-08-31
# speechtokenizer: 音声大言語モデルのための統一音声トークン化子

SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models ( http://arxiv.org/abs/2308.16692v1 )

ライセンス: Link先を確認
Xin Zhang, Dong Zhang, Shimin Li, Yaqian Zhou, Xipeng Qiu(参考訳) 現在の音声大言語モデルは、個別の音声表現に基づいて構築されており、意味トークンと音響トークンに分類することができる。 しかし、既存の音声トークンは、特に言語モデリングのために設計されていない。 音声言語モデル構築における音声トークンの適合性を評価するため,最初のベンチマークslmtokbenchを開発した。 その結果,この目的のために意味トークンや音響トークンは理想的ではないことがわかった。 そこで本稿では,大言語モデルのための統一音声トークンであるSpeechTokenizerを提案する。 SpeechTokenizerは、残差ベクトル量子化(RVQ)を備えたEncoder-Decoderアーキテクチャを採用している。 意味的および音響的トークンを統一するSpeechTokenizerは、異なるRVQ層に階層的に音声情報の異なる側面を分離する。 さらに,SpeechTokenizerを利用した統一音声言語モデル(USLM)を構築した。 実験により,SpeechTokenizerは音声再構成においてEnCodecと相容れない性能を示し,SLMTokBenchベンチマークで強い性能を示す。 また、USLMはゼロショットテキスト音声タスクにおいてVALL-Eより優れている。 コードとモデルはhttps://github.com/zhangxinfd/speechtokenizer/で入手できる。

Current speech large language models build upon discrete speech representations, which can be categorized into semantic tokens and acoustic tokens. However, existing speech tokens are not specifically designed for speech language modeling. To assess the suitability of speech tokens for building speech language models, we established the first benchmark, SLMTokBench. Our results indicate that neither semantic nor acoustic tokens are ideal for this purpose. Therefore, we propose SpeechTokenizer, a unified speech tokenizer for speech large language models. SpeechTokenizer adopts the Encoder-Decoder architecture with residual vector quantization (RVQ). Unifying semantic and acoustic tokens, SpeechTokenizer disentangles different aspects of speech information hierarchically across different RVQ layers. Furthermore, We construct a Unified Speech Language Model (USLM) leveraging SpeechTokenizer. Experiments show that SpeechTokenizer performs comparably to EnCodec in speech reconstruction and demonstrates strong performance on the SLMTokBench benchmark. Also, USLM outperforms VALL-E in zero-shot Text-to-Speech tasks. Code and models are available at https://github.com/ZhangXInFD/SpeechTokenizer/.
翻訳日:2023-09-01 14:21:51 公開日:2023-08-31
# vilta: テキスト拡張による視覚言語事前学習の強化

ViLTA: Enhancing Vision-Language Pre-training through Textual Augmentation ( http://arxiv.org/abs/2308.16689v1 )

ライセンス: Link先を確認
Weihan Wang, Zhen Yang, Bin Xu, Juanzi Li, Yankui Sun(参考訳) ビジョン言語事前学習(VLP)メソッドが最近普及しており、その重要な目標は、トランスフォーマーベースのアーキテクチャを通じて視覚的およびテキスト的特徴を共同学習することであり、様々な視覚言語タスクにおいて有望な改善を示すことである。 先行技術は通常、視覚的特徴とテキスト的特徴の整合性に重点を置いているが、モデルの堅牢性を改善し、モデルの収束をスピードアップするための戦略は不十分なままである。 本稿では,画像とテキストのペア間の微細な表現をより容易に学習するための,2つのコンポーネントからなる新しい手法であるViLTAを提案する。 Masked Language Modeling (MLM) では,モデルの堅牢性を高めるためにソフトラベルを生成するクロス蒸留法を提案し,マスク付き単語の同義語を1ホットラベルの負のサンプルとして扱うという問題を緩和する。 画像テキストマッチング(ITM)では、現在の言語エンコーダを利用して、言語入力のコンテキストに基づいてハードネガティブを合成し、IMMタスクの難易度を高めて高品質な表現を学習するようモデルに促す。 上記の手法を利用することで、視覚言語タスクにおけるVLTAの性能を向上させることができる。 ベンチマークデータセットの大規模な実験は、ViLTAの有効性とビジョン言語による事前学習の可能性を示している。

Vision-language pre-training (VLP) methods are blossoming recently, and its crucial goal is to jointly learn visual and textual features via a transformer-based architecture, demonstrating promising improvements on a variety of vision-language tasks. Prior arts usually focus on how to align visual and textual features, but strategies for improving the robustness of model and speeding up model convergence are left insufficiently explored. In this paper, we propose a novel method ViLTA, comprising of two components to further facilitate the model to learn fine-grained representations among image-text pairs. For Masked Language Modeling (MLM), we propose a cross-distillation method to generate soft labels to enhance the robustness of model, which alleviates the problem of treating synonyms of masked words as negative samples in one-hot labels. For Image-Text Matching (ITM), we leverage the current language encoder to synthesize hard negatives based on the context of language input, encouraging the model to learn high-quality representations by increasing the difficulty of the ITM task. By leveraging the above techniques, our ViLTA can achieve better performance on various vision-language tasks. Extensive experiments on benchmark datasets demonstrate that the effectiveness of ViLTA and its promising potential for vision-language pre-training.
翻訳日:2023-09-01 14:21:35 公開日:2023-08-31
# 位置ラベルのない屋内地域無線マップの構築

Constructing Indoor Region-based Radio Map without Location Labels ( http://arxiv.org/abs/2308.16759v1 )

ライセンス: Link先を確認
Zheng Xing and Junting Chen(参考訳) 無線マップの構築には、位置ラベルによる大量のラジオ計測データが必要であるため、高い展開コストがかかる。 本稿では、位置ラベルを使わずに受信信号強度(RSS)測定から地域無線マップを開発する。 構築は、足跡やタイムスタンプが記録されていない屋内エリアの各地域を正確に1回訪問するデバイスから、盲目的に収集されたRSS測定データに基づいて行われる。 主な課題は、RSSデータをクラスタ化し、物理的なリージョンとクラスタをマッチングすることだ。 古典的なクラスタリングアルゴリズムは、RSSデータが自然にマルチパスとノイズのためにクラスタ化されていないように見えるため、機能しない。 本稿では,rssデータに対して逐次的に先行する信号部分空間モデルを構築し,特別な場合においてグローバル最適解を求めるための統合セグメンテーション・クラスタリングアルゴリズムを開発した。 さらに、グラフベースアプローチを用いて、クラスタ化されたデータを物理領域とマッチングする。 オフィス空間からの実測値に基づいて、提案手法は、重み付きセントロイドローカライゼーション(WCL)ベースラインと比較して、領域のローカライゼーション誤差を約50%削減し、トレーニングにラベル付きデータを必要とするk-nearest neighbor(KNN)、サポートベクターマシン(SVM)、ディープニューラルネットワーク(DNN)など、いくつかの教師付きローカライゼーションスキームよりも優れている。

Radio map construction requires a large amount of radio measurement data with location labels, which imposes a high deployment cost. This paper develops a region-based radio map from received signal strength (RSS) measurements without location labels. The construction is based on a set of blindly collected RSS measurement data from a device that visits each region in an indoor area exactly once, where the footprints and timestamps are not recorded. The main challenge is to cluster the RSS data and match clusters with the physical regions. Classical clustering algorithms fail to work as the RSS data naturally appears as non-clustered due to multipaths and noise. In this paper, a signal subspace model with a sequential prior is constructed for the RSS data, and an integrated segmentation and clustering algorithm is developed, which is shown to find the globally optimal solution in a special case. Furthermore, the clustered data is matched with the physical regions using a graph-based approach. Based on real measurements from an office space, the proposed scheme reduces the region localization error by roughly 50% compared to a weighted centroid localization (WCL) baseline, and it even outperforms some supervised localization schemes, including k-nearest neighbor (KNN), support vector machine (SVM), and deep neural network (DNN), which require labeled data for training.
翻訳日:2023-09-01 14:16:30 公開日:2023-08-31
# 画像のみを用いた高忠実度テキスト誘導3d顔生成と操作

Towards High-Fidelity Text-Guided 3D Face Generation and Manipulation Using only Images ( http://arxiv.org/abs/2308.16758v1 )

ライセンス: Link先を確認
Cuican Yu, Guansong Lu, Yihan Zeng, Jian Sun, Xiaodan Liang, Huibin Li, Zongben Xu, Songcen Xu, Wei Zhang, Hang Xu(参考訳) テキスト記述から3D顔を生成するには、ゲーム、映画、ロボット工学など、数多くの応用がある。 最近の進歩は、無条件の3D顔生成とテキストから3D形状生成の成功を示している。 しかし、テキスト3Dの顔データペアが限られているため、テキスト駆動の3D顔生成は未解決の問題である。 本稿では,テキストガイダンスを用いたリアルな3次元顔を生成するための3次元顔生成手法TG-3DFaceを提案する。 具体的には、無条件の3D顔生成フレームワークを採用し、テキスト2D顔データのみを用いてテキスト誘導された3D顔生成を学習する。 さらに,大域的コントラスト学習と細粒度アライメントモジュールを含む2つのテキスト対面アライメント手法を提案し,生成した3次元顔と入力テキストのセマンティック一貫性を高める。 さらに、推論プロセス中に方向分類器の指導を行い、ドメイン外世代に対する創造性を促進する。 既存の方法と比較して、TG-3DFaceはより現実的で美的な3D顔を生成し、ラテント3Dよりも9%のマルチビュー一貫性(MVIC)を高めている。 TG-3DFaceによって生成された描画顔画像は、テキストから2Dの顔/画像生成モデルよりも高いFIDとCLIPスコアを実現し、現実的でセマンティックなテクスチャを生成する上での優位性を実証した。

Generating 3D faces from textual descriptions has a multitude of applications, such as gaming, movie, and robotics. Recent progresses have demonstrated the success of unconditional 3D face generation and text-to-3D shape generation. However, due to the limited text-3D face data pairs, text-driven 3D face generation remains an open problem. In this paper, we propose a text-guided 3D faces generation method, refer as TG-3DFace, for generating realistic 3D faces using text guidance. Specifically, we adopt an unconditional 3D face generation framework and equip it with text conditions, which learns the text-guided 3D face generation with only text-2D face data. On top of that, we propose two text-to-face cross-modal alignment techniques, including the global contrastive learning and the fine-grained alignment module, to facilitate high semantic consistency between generated 3D faces and input texts. Besides, we present directional classifier guidance during the inference process, which encourages creativity for out-of-domain generations. Compared to the existing methods, TG-3DFace creates more realistic and aesthetically pleasing 3D faces, boosting 9% multi-view consistency (MVIC) over Latent3D. The rendered face images generated by TG-3DFace achieve higher FID and CLIP score than text-to-2D face/image generation models, demonstrating our superiority in generating realistic and semantic-consistent textures.
翻訳日:2023-09-01 14:15:47 公開日:2023-08-31
# カーネル空間補間とモデル縮小を用いたニューラルネットワークの訓練

Training Neural Networks Using Reproducing Kernel Space Interpolation and Model Reduction ( http://arxiv.org/abs/2308.16754v1 )

ライセンス: Link先を確認
Eric Arthur Werneburg(参考訳) 本稿では,カーネルヒルベルト空間理論の補間手法を用いてニューラルネットワークを訓練する理論を紹介し,研究する。 本手法をクレイン空間に一般化し,広く使用されているニューラルネットワークアーキテクチャがカーネルクレイン空間(rkk)を再現する部分集合であることを示す。 我々は、RKKSの「関連ヒルベルト空間」の概念を研究し、様々な活性化関数の表現性を改善する技術を開発した。 次に、いくつかの複素変数の関数の理論の概念を用いて、有名なadamjan-arov-krein(aak)定理の計算学的に適用可能な多次元一般化を証明する。 この定理は、Prolongation Neural Networks (PNN)と呼ばれる新しいニューラルネットワークのクラスを生成する。 我々は,多次元 aak 定理を pnn に応用することにより,ノイズの多い環境では補間法と現状法の両方よりも優れた性能が得られることを示す。 私たちは実際、この方法の有用なイラストを提供している。

We introduce and study the theory of training neural networks using interpolation techniques from reproducing kernel Hilbert space theory. We generalize the method to Krein spaces, and show that widely-used neural network architectures are subsets of reproducing kernel Krein spaces (RKKS). We study the concept of "associated Hilbert spaces" of RKKS and develop techniques to improve upon the expressivity of various activation functions. Next, using concepts from the theory of functions of several complex variables, we prove a computationally applicable, multidimensional generalization of the celebrated Adamjan- Arov-Krein (AAK) theorem. The theorem yields a novel class of neural networks, called Prolongation Neural Networks (PNN). We demonstrate that, by applying the multidimensional AAK theorem to gain a PNN, one can gain performance superior to both our interpolatory methods and current state-of-the-art methods in noisy environments. We provide useful illustrations of our methods in practice.
翻訳日:2023-09-01 14:15:21 公開日:2023-08-31
# LLMを用いたテキストランカのコンテキストアウェアクエリ書き換え

Context Aware Query Rewriting for Text Rankers using LLM ( http://arxiv.org/abs/2308.16753v1 )

ライセンス: Link先を確認
Abhijit Anand, Venktesh V, Vinay Setty, Avishek Anand(参考訳) クエリ書き換えは、文書のランク付けにおける語彙ミスマッチ問題を克服するために、不特定であいまいなクエリに適用される、確立されたアプローチのファミリーを指す。 クエリは通常、ダウンストリームローダのクエリモデリングを改善するためにクエリ処理時間中に書き直される。 大規模言語モデル (LLMs) の出現に伴い、この固有語彙ギャップに対処するために擬似文書を生成するために生成的アプローチを用いた研究が始められた。 本研究では,テキストランキングタスクのクエリ書き換え改善のためのLCMの有用性を解析する。 クエリリライタとしてLLMを使用するには,2つの固有の制限がある – クエリのみをプロンプトとして使用する場合のコンセプトドリフトと,クエリ処理時の推論コストが大きいのだ。 我々は、クエリ理解にLLMの利点を活用するために、コンテキスト対応クエリ書き換え(CAR)と呼ばれるシンプルだが驚くほど効果的なアプローチを採用する。 まず,関連する文書のみをコンテキストとして使用するllmのコンテキスト認識プロンプトによって,曖昧なトレーニングクエリを書き換える。既存のアプローチとは異なり,トレーニングフェーズ中にのみ,llmベースのクエリリライトを使用する。 最終的に、ローダはトレーニング中に元のクエリの代わりに書き直されたクエリで微調整される。 広範な実験により,再書き込みクエリを用いたランカの微調整により,パッセージランキングタスクでは最大33%,文書ランク付けタスクでは28%の大幅な改善が得られた。

Query rewriting refers to an established family of approaches that are applied to underspecified and ambiguous queries to overcome the vocabulary mismatch problem in document ranking. Queries are typically rewritten during query processing time for better query modelling for the downstream ranker. With the advent of large-language models (LLMs), there have been initial investigations into using generative approaches to generate pseudo documents to tackle this inherent vocabulary gap. In this work, we analyze the utility of LLMs for improved query rewriting for text ranking tasks. We find that there are two inherent limitations of using LLMs as query re-writers -- concept drift when using only queries as prompts and large inference costs during query processing. We adopt a simple, yet surprisingly effective, approach called context aware query rewriting (CAR) to leverage the benefits of LLMs for query understanding. Firstly, we rewrite ambiguous training queries by context-aware prompting of LLMs, where we use only relevant documents as context.Unlike existing approaches, we use LLM-based query rewriting only during the training phase. Eventually, a ranker is fine-tuned on the rewritten queries instead of the original queries during training. In our extensive experiments, we find that fine-tuning a ranker using re-written queries offers a significant improvement of up to 33% on the passage ranking task and up to 28% on the document ranking task when compared to the baseline performance of using original queries.
翻訳日:2023-09-01 14:15:02 公開日:2023-08-31
# 分散弱凸最適化のためのモローエンベロープADMM

Moreau Envelope ADMM for Decentralized Weakly Convex Optimization ( http://arxiv.org/abs/2308.16752v1 )

ライセンス: Link先を確認
Reza Mirzaeifard, Naveen K. D. Venkategowda, Alexander Jung, Stefan Werner(参考訳) 本稿では,分散最適化のための乗算器の交互方向法(ADMM)の近位変種を提案する。 ADMMアルゴリズムの現在のバージョンは、多くの凸および非凸最適化問題に対して最適に近い解を生成する上で有望な数値結果を提供するが、弱凸および局所非滑らかな関数の定常点に収束できるかどうかは不明である。 モローエンベロープ関数を用いて解析することにより,MADMが穏やかな条件下で定常点に収束できることを実証する。 また、モローエンベロープ関数の勾配を近位関数に関連付けることにより、二重変数更新ステップの変化量に関する境界を計算することを含む。 さらに, 数値実験の結果から, 提案手法は広く用いられている手法よりも高速かつ堅牢であることが示唆された。

This paper proposes a proximal variant of the alternating direction method of multipliers (ADMM) for distributed optimization. Although the current versions of ADMM algorithm provide promising numerical results in producing solutions that are close to optimal for many convex and non-convex optimization problems, it remains unclear if they can converge to a stationary point for weakly convex and locally non-smooth functions. Through our analysis using the Moreau envelope function, we demonstrate that MADM can indeed converge to a stationary point under mild conditions. Our analysis also includes computing the bounds on the amount of change in the dual variable update step by relating the gradient of the Moreau envelope function to the proximal function. Furthermore, the results of our numerical experiments indicate that our method is faster and more robust than widely-used approaches.
翻訳日:2023-09-01 14:14:37 公開日:2023-08-31
# 二重領域における拡散前処理による非教師付きCT金属アーチファクトの低減

Unsupervised CT Metal Artifact Reduction by Plugging Diffusion Priors in Dual Domains ( http://arxiv.org/abs/2308.16742v1 )

ライセンス: Link先を確認
Xuan Liu, Yaoqin Xie, Songhui Diao, Shan Tan, and Xiaokun Liang(参考訳) CT(Computed tomography)の過程において、金属インプラントはしばしば再構成画像に破壊的なアーティファクトを引き起こし、正確な診断を妨げる。 金属アーティファクト(MAR)を減らすための教師付きディープラーニングベースのアプローチがいくつか提案されている。 しかし、これらの手法は、臨床現場で一対の金属アーティファクトctとクリーンctデータを得ることが困難であるため、シミュレーションデータによるトレーニングに大きく依存している。 この制限は、臨床にこれらの方法を適用する際のパフォーマンスを低下させる可能性がある。 既存の教師なしのMARメソッドは、学習するかどうかに関わらず、通常、イメージドメインまたはシングラムドメインのいずれかで単一のドメイン内で動作する。 本稿では,データ分布を表現する能力の高い生成モデルである拡散モデルに基づく教師なしmar法を提案する。 具体的には,金属加工品を使わずにCT画像を用いて拡散モデルを訓練する。 次に,事前学習した拡散モデルに埋め込まれたプリエントをシンノグラムと画像領域の両方で反復的に活用し,金属アーティファクトによる劣化部分の復元を行う。 このデュアルドメイン処理により、我々は既存の教師なしmarメソッドよりも優れており、また拡散モデルに基づく他のmarメソッドは、合成データセットを用いて定性的かつ定量的に検証されている。 さらに, 臨床データを用いた教師なし, 教師なしの方法と比較して, 視覚的に優れた結果を示した。

During the process of computed tomography (CT), metallic implants often cause disruptive artifacts in the reconstructed images, impeding accurate diagnosis. Several supervised deep learning-based approaches have been proposed for reducing metal artifacts (MAR). However, these methods heavily rely on training with simulated data, as obtaining paired metal artifact CT and clean CT data in clinical settings is challenging. This limitation can lead to decreased performance when applying these methods in clinical practice. Existing unsupervised MAR methods, whether based on learning or not, typically operate within a single domain, either in the image domain or the sinogram domain. In this paper, we propose an unsupervised MAR method based on the diffusion model, a generative model with a high capacity to represent data distributions. Specifically, we first train a diffusion model using CT images without metal artifacts. Subsequently, we iteratively utilize the priors embedded within the pre-trained diffusion model in both the sinogram and image domains to restore the degraded portions caused by metal artifacts. This dual-domain processing empowers our approach to outperform existing unsupervised MAR methods, including another MAR method based on the diffusion model, which we have qualitatively and quantitatively validated using synthetic datasets. Moreover, our method demonstrates superior visual results compared to both supervised and unsupervised methods on clinical datasets.
翻訳日:2023-09-01 14:14:23 公開日:2023-08-31
# socratis: 大規模なマルチモーダルモデルは感情的に認識されているか?

Socratis: Are large multimodal models emotionally aware? ( http://arxiv.org/abs/2308.16741v1 )

ライセンス: Link先を確認
Katherine Deng, Arijit Ray, Reuben Tan, Saadia Gabriel, Bryan A. Plummer, Kate Saenko(参考訳) 既存の感情予測ベンチマークには、さまざまな理由で画像やテキストが人間にもたらす感情の多様性を考慮しない粗い感情ラベルが含まれている。 マルチモーダルコンテンツに対する多様な反応を学習することは、インテリジェントマシンが社会へのコンテンツの生成と配信において中心的な役割を果たすため重要である。 このギャップに対処するために、我々は、各イメージキャプチャ(ic)ペアに複数の感情とそれらを感じる理由を付記した、counderline{soc}ietal \underline{r}e\underline{a}c\underline{ti}on\underline{s}ベンチマークであるsocratisを提案する。 Socratisには、広く読まれている5つのニュースおよび画像キャプチャ(IC)データセットから、2075のイメージキャプチャペア上での980の感情に対する18Kのフリーフォーム反応が含まれている。 我々は、ICペアが与えられた感情を感じる理由を生成するために、最先端のマルチモーダル言語モデルの能力をベンチマークする。 予備的な人間の研究に基づいて、人間は機械生成の2倍の頻度で人間が書いた理由を好む。 これは、例えば、人間が機械と人書きのニュース記事を区別できない最近の発見とは対照的に、私たちのタスクが通常の生成タスクよりも難しいことを示している。 大規模視覚言語モデルに基づく現在のキャプション指標は,人間の好みにも相関しない。 これらの発見とベンチマークが、感情に敏感なモデルをトレーニングするためのさらなる研究を促すことを期待しています。

Existing emotion prediction benchmarks contain coarse emotion labels which do not consider the diversity of emotions that an image and text can elicit in humans due to various reasons. Learning diverse reactions to multimodal content is important as intelligent machines take a central role in generating and delivering content to society. To address this gap, we propose Socratis, a \underline{soc}ietal \underline{r}e\underline{a}c\underline{ti}on\underline{s} benchmark, where each image-caption (IC) pair is annotated with multiple emotions and the reasons for feeling them. Socratis contains 18K free-form reactions for 980 emotions on 2075 image-caption pairs from 5 widely-read news and image-caption (IC) datasets. We benchmark the capability of state-of-the-art multimodal large language models to generate the reasons for feeling an emotion given an IC pair. Based on a preliminary human study, we observe that humans prefer human-written reasons over 2 times more often than machine-generated ones. This shows our task is harder than standard generation tasks because it starkly contrasts recent findings where humans cannot tell apart machine vs human-written news articles, for instance. We further see that current captioning metrics based on large vision-language models also fail to correlate with human preferences. We hope that these findings and our benchmark will inspire further research on training emotionally aware models.
翻訳日:2023-09-01 14:14:00 公開日:2023-08-31
# 自然界における正確な歩行認識に必要な構文解析

Parsing is All You Need for Accurate Gait Recognition in the Wild ( http://arxiv.org/abs/2308.16739v1 )

ライセンス: Link先を確認
Jinkai Zheng, Xinchen Liu, Shuai Wang, Lihao Wang, Chenggang Yan, Wu Liu(参考訳) 二分シルエットとキーポイントベースの骨格は、ビデオフレームから簡単に抽出できるため、数十年間、人間の歩行認識研究を支配してきた。 ラボ内環境における歩行認識の成功にもかかわらず、通常は実際のシナリオでは歩行表現に対する情報エントロピーが低いため失敗する。 本稿では,野生で正確な歩行認識を実現するために,GPS(Gait Parsing Sequence)という新しい歩行表現を提案する。 gpsは、ビデオフレームから抽出されたきめ細かい人間のセグメンテーション、すなわち人間の解析のシーケンスであるため、歩行中のきめ細かい人間の部分の形状やダイナミクスをエントロピーでエントロピーしている。 さらに,GPS表現の能力を効果的に探求するために,ParsingGaitという新しい人間のパーシングに基づく歩行認識フレームワークを提案する。 ParsingGaitには、CNNベースのバックボーンと2つの軽量ヘッドが含まれている。 最初のヘッドはGPSからグローバルな意味的特徴を抽出し、もう1つはグラフ畳み込みネットワークを通じて部分レベルの特徴の相互情報を学び、人間の歩行の詳細なダイナミクスをモデル化する。 さらに,適切なデータセットの欠如により,大規模かつ課題の多いgait3dデータセットを拡張して,gait3d-parsingと呼ばれる,野生での歩行認識のための最初のパースベースデータセットを構築した。 Gait3D-Parsingに基づいて,提案手法と既存の歩行認識手法を総合的に評価する。 実験結果から,GPS表現による精度の向上とParsingGaitの優越性が示唆された。 コードとデータセットはhttps://gait3d.github.io/gait3d-parsing-hp で公開されている。

Binary silhouettes and keypoint-based skeletons have dominated human gait recognition studies for decades since they are easy to extract from video frames. Despite their success in gait recognition for in-the-lab environments, they usually fail in real-world scenarios due to their low information entropy for gait representations. To achieve accurate gait recognition in the wild, this paper presents a novel gait representation, named Gait Parsing Sequence (GPS). GPSs are sequences of fine-grained human segmentation, i.e., human parsing, extracted from video frames, so they have much higher information entropy to encode the shapes and dynamics of fine-grained human parts during walking. Moreover, to effectively explore the capability of the GPS representation, we propose a novel human parsing-based gait recognition framework, named ParsingGait. ParsingGait contains a Convolutional Neural Network (CNN)-based backbone and two light-weighted heads. The first head extracts global semantic features from GPSs, while the other one learns mutual information of part-level features through Graph Convolutional Networks to model the detailed dynamics of human walking. Furthermore, due to the lack of suitable datasets, we build the first parsing-based dataset for gait recognition in the wild, named Gait3D-Parsing, by extending the large-scale and challenging Gait3D dataset. Based on Gait3D-Parsing, we comprehensively evaluate our method and existing gait recognition methods. The experimental results show a significant improvement in accuracy brought by the GPS representation and the superiority of ParsingGait. The code and dataset are available at https://gait3d.github.io/gait3d-parsing-hp .
翻訳日:2023-09-01 14:13:32 公開日:2023-08-31
# US-SFNet:超音波画像における頸リンパ節病変診断のための空間周波数領域ベースマルチブランチネットワーク

US-SFNet: A Spatial-Frequency Domain-based Multi-branch Network for Cervical Lymph Node Lesions Diagnoses in Ultrasound Images ( http://arxiv.org/abs/2308.16738v1 )

ライセンス: Link先を確認
Yubiao Yue, Jun Xue, Haihua Liang, Bingchun Luo, Zhenzhang Li(参考訳) 超音波画像は頸部リンパ節病変を診断するための重要なツールである。 しかし、これらの画像の診断は医療従事者の専門知識に大きく依存しており、誤診の可能性が強い。 急激な深層学習は様々な超音波画像の診断を著しく改善したものの、頸部リンパ節に関する顕著な研究のギャップが残っている。 本研究の目的は深層学習モデルを用いて頸部リンパ節病変を正確に診断することである。 この目的のために, 正常リンパ節, 良性リンパ節病変, 悪性原発リンパ節病変, および悪性転移性リンパ節病変を含む3392例の画像を収集した。 超音波画像が様々な生体組織にまたがる音波の反射・散乱によって生成されることを考慮し,conv-fftブロックを提案した。 畳み込み操作と高速フーリエ変換を統合し、画像をより正確にモデル化する。 この基盤に基づいて、US-SFNetという新しいアーキテクチャを設計しました。 このアーキテクチャは、空間領域から超音波画像のばらつきを識別するだけでなく、周波数領域の様々な病変の微構造変化を十分に捉えている。 US-SFNetの可能性を確認するため、私たちは5倍のクロスバリデーションを通じて、12のポピュラーアーキテクチャに対してベンチマークを行った。 その結果、US-SFNetはSOTAであり、92.89%の精度、90.46%の精度、89.95%の感度、97.49%の特異性を達成した。

Ultrasound imaging serves as a pivotal tool for diagnosing cervical lymph node lesions. However, the diagnoses of these images largely hinge on the expertise of medical practitioners, rendering the process susceptible to misdiagnoses. Although rapidly developing deep learning has substantially improved the diagnoses of diverse ultrasound images, there remains a conspicuous research gap concerning cervical lymph nodes. The objective of our work is to accurately diagnose cervical lymph node lesions by leveraging a deep learning model. To this end, we first collected 3392 images containing normal lymph nodes, benign lymph node lesions, malignant primary lymph node lesions, and malignant metastatic lymph node lesions. Given that ultrasound images are generated by the reflection and scattering of sound waves across varied bodily tissues, we proposed the Conv-FFT Block. It integrates convolutional operations with the fast Fourier transform to more astutely model the images. Building upon this foundation, we designed a novel architecture, named US-SFNet. This architecture not only discerns variances in ultrasound images from the spatial domain but also adeptly captures microstructural alterations across various lesions in the frequency domain. To ascertain the potential of US-SFNet, we benchmarked it against 12 popular architectures through five-fold cross-validation. The results show that US-SFNet is SOTA and can achieve 92.89% accuracy, 90.46% precision, 89.95% sensitivity and 97.49% specificity, respectively.
翻訳日:2023-09-01 14:13:05 公開日:2023-08-31
# ローカル化のためのロバストネットワークフェデレーション学習

Robust Networked Federated Learning for Localization ( http://arxiv.org/abs/2308.16737v1 )

ライセンス: Link先を確認
Reza Mirzaeifard, Naveen K. D. Venkategowda, Stefan Werner(参考訳) 本稿では,複数のデバイスに分散するフェデレーション環境において,本質的に非凸,非スムースである局所化の問題に対処する。 連合環境の分散した性質のため、分散学習はスケーラビリティと適応性に不可欠である。 さらに、これらの環境はしばしば外れたデータに苦しめられ、従来の手法、特に推定精度の維持とアルゴリズムの収束の確保に重大な課題がある。 これらの課題を軽減するために,分散サブ段階フレームワークに$L_1$-normのロバストな定式化を導入する手法を提案する。 提案手法は, 反復的な単純化や近似を使わずに, 計算効率を向上し, 推定精度を向上する。 提案手法は定常点に収束し,その有効性と信頼性を明らかにする。 数値シミュレーションにより,本手法の優れた性能,特に既往の最先端のローカライズ手法を超越した外乱環境において確認した。

This paper addresses the problem of localization, which is inherently non-convex and non-smooth in a federated setting where the data is distributed across a multitude of devices. Due to the decentralized nature of federated environments, distributed learning becomes essential for scalability and adaptability. Moreover, these environments are often plagued by outlier data, which presents substantial challenges to conventional methods, particularly in maintaining estimation accuracy and ensuring algorithm convergence. To mitigate these challenges, we propose a method that adopts an $L_1$-norm robust formulation within a distributed sub-gradient framework, explicitly designed to handle these obstacles. Our approach addresses the problem in its original form, without resorting to iterative simplifications or approximations, resulting in enhanced computational efficiency and improved estimation accuracy. We demonstrate that our method converges to a stationary point, highlighting its effectiveness and reliability. Through numerical simulations, we confirm the superior performance of our approach, notably in outlier-rich environments, which surpasses existing state-of-the-art localization methods.
翻訳日:2023-09-01 14:12:39 公開日:2023-08-31
# 簡単なLLMプロンプトはロバストおよび多言語対話評価の最先端である

Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation ( http://arxiv.org/abs/2308.16797v1 )

ライセンス: Link先を確認
John Mendon\c{c}a, Patr\'icia Pereira, Jo\~ao Paulo Carvalho, Alon Lavie, Isabel Trancoso(参考訳) 自動対話評価尺度の開発に多大な研究努力を払っているが、英語以外の対話を評価することはほとんど考えていない。 同時に、メトリクスが意味的に類似した応答に不変であることを保証することも見過ごされているトピックである。 対話評価指標の頑健性と多言語性の望ましい特性を達成するために,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを新たに確立した枠組みを提案する。 実験結果から,dstc11トラック4「オープンドメイン対話システムのための自動評価指標」のロバストタスクと多言語タスクにおいて,複数のベンチマークとランキングで平均スピアマン相関スコアを用いて,評価結果が得られた。

Despite significant research effort in the development of automatic dialogue evaluation metrics, little thought is given to evaluating dialogues other than in English. At the same time, ensuring metrics are invariant to semantically similar responses is also an overlooked topic. In order to achieve the desired properties of robustness and multilinguality for dialogue evaluation metrics, we propose a novel framework that takes advantage of the strengths of current evaluation models with the newly-established paradigm of prompting Large Language Models (LLMs). Empirical results show our framework achieves state of the art results in terms of mean Spearman correlation scores across several benchmarks and ranks first place on both the Robust and Multilingual tasks of the DSTC11 Track 4 "Automatic Evaluation Metrics for Open-Domain Dialogue Systems", proving the evaluation capabilities of prompted LLMs.
翻訳日:2023-09-01 14:04:17 公開日:2023-08-31
# 多言語自動対話評価に向けて

Towards Multilingual Automatic Dialogue Evaluation ( http://arxiv.org/abs/2308.16795v1 )

ライセンス: Link先を確認
John Mendon\c{c}a, Alon Lavie, Isabel Trancoso(参考訳) 堅牢な多言語対話評価指標の開発における主な制限要因は、多言語データの欠如と、オープンソース多言語対話システムの可用性の制限である。 本研究では,強い多言語事前学習 LLM を活用し,機械翻訳を用いて既存の英会話データを増大させることにより,このデータ不足の回避策を提案する。 本稿では,事前学習された多言語エンコーダモデルと翻訳データとの微調整手法が,ソースデータのみを用いた多言語モデルの微調整の強いベースラインを上回らせるには不十分であることを示す。 代わりに、最良のアプローチは、MT品質推定指標を使用して、そのパフォーマンスを妨げる低品質な翻訳を除いて、翻訳データの慎重なキュレーションである。

The main limiting factor in the development of robust multilingual dialogue evaluation metrics is the lack of multilingual data and the limited availability of open sourced multilingual dialogue systems. In this work, we propose a workaround for this lack of data by leveraging a strong multilingual pretrained LLM and augmenting existing English dialogue data using Machine Translation. We empirically show that the naive approach of finetuning a pretrained multilingual encoder model with translated data is insufficient to outperform the strong baseline of finetuning a multilingual model with only source data. Instead, the best approach consists in the careful curation of translated data using MT Quality Estimation metrics, excluding low quality translations that hinder its performance.
翻訳日:2023-09-01 14:03:58 公開日:2023-08-31
# 最小単純構造を用いた意味的対話と推論

Joint Semantic-Native Communication and Inference via Minimal Simplicial Structures ( http://arxiv.org/abs/2308.16789v1 )

ライセンス: Link先を確認
Qiyang Zhao, Hang Zou, Mehdi Bennis, Merouane Debbah, Ebtesam Almazrouei, Faouzi Bader(参考訳) 本研究では,学生エージェント(すなわちモバイルデバイス)が教師エージェント(すなわちクラウドセマンティクス)に問い合わせて,単純化された複合空間に住む高次データセマンティクスを生成する,意味コミュニケーションと推論の問題について検討する。 具体的には、教師はまずデータをk次単純複体にマッピングし、その高次相関を学習する。 効果的なコミュニケーションと推論のために、教師は情報を伝える前に、最小限の十分な不変な意味構造を求める。 これらの極小簡約構造は、推論クエリの精度を損なうことなく、ホッジラプラシアンによって選択された簡約を取り除くことによって見出される。 その後、学生は、ローカルとリモートの両方の教師の知識を活用して、マスク付きsimplicial convolutional autoencoder(SCAE)に基づいて、独自のクエリを実行する。 提案手法の有効性を,異なるチャネル条件と簡素な構造における推論クエリの精度向上の観点から検証した。 共同オーサシップデータセットの実験では、ラプラシアン値のランク付けによる単純化の除去は、精度を犠牲にすることなくペイロードサイズを85%削減することを示した。 マスク付きSCAEによる共同セマンティックコミュニケーションと推論により、ローカルの学生によるクエリに比べてクエリ精度が25%向上し、リモートの教師によるクエリに比べて15%向上した。 最後に、チャネルセマンティクスを取り入れることで、特に低SNR値において、推論精度を効果的に向上することを示す。

In this work, we study the problem of semantic communication and inference, in which a student agent (i.e. mobile device) queries a teacher agent (i.e. cloud sever) to generate higher-order data semantics living in a simplicial complex. Specifically, the teacher first maps its data into a k-order simplicial complex and learns its high-order correlations. For effective communication and inference, the teacher seeks minimally sufficient and invariant semantic structures prior to conveying information. These minimal simplicial structures are found via judiciously removing simplices selected by the Hodge Laplacians without compromising the inference query accuracy. Subsequently, the student locally runs its own set of queries based on a masked simplicial convolutional autoencoder (SCAE) leveraging both local and remote teacher's knowledge. Numerical results corroborate the effectiveness of the proposed approach in terms of improving inference query accuracy under different channel conditions and simplicial structures. Experiments on a coauthorship dataset show that removing simplices by ranking the Laplacian values yields a 85% reduction in payload size without sacrificing accuracy. Joint semantic communication and inference by masked SCAE improves query accuracy by 25% compared to local student based query and 15% compared to remote teacher based query. Finally, incorporating channel semantics is shown to effectively improve inference accuracy, notably at low SNR values.
翻訳日:2023-09-01 14:03:45 公開日:2023-08-31
# エージェントチームリング状況認識(ATSA) : ヒューマンAIチームのための状況認識フレームワーク

Agent Teaming Situation Awareness (ATSA): A Situation Awareness Framework for Human-AI Teaming ( http://arxiv.org/abs/2308.16785v1 )

ライセンス: Link先を確認
Qi Gao, Wei Xu, Mowei Shen, Zaifeng Gao(参考訳) 人工知能(AI)の急速な進歩は、様々な分野における人間とAIのチームリング(HAT)の増大に繋がった。 機械が単なる自動化から自律状態へと進化し続けるにつれ、状況認識(SA)など、予期せぬ行動や人間のような認知/知能がますます現れている。 このシフトは、人間とマシン間の動的なSAインタラクションをより深く理解する必要性を強調し、人間とAIの混在するチームのパフォーマンスを高める可能性がある。 この目的のために、我々は、HATの重要な特徴とプロセスに基づいて、先導的なSA理論モデルと、HATコンテキストにおけるSAの新しいフレームワークについてレビューする。 Agent Teaming situation Awareness (ATSA)フレームワークは、人間とAIの振る舞いを統一し、双方向、動的相互作用を含む。 このフレームワークは個人とチームsaモデルに基づいており、モデリングハットの認知メカニズムについて詳述している。 同様の知覚サイクルは、HATコンテキストのユニークな要件に合わせて、個人(人間とAIの両方を含む)とチーム全体に対して採用されます。 ATSAは、チームリング理解、チームリング制御、世界、および接着活性部分を含む構造や構成要素を通して、凝集性で効果的なHATを強調している。 さらに,ATSAの特有な貢献を拡大し,具体的かつ推進的な次のステップに対処するための今後の研究指針を提案する。

The rapid advancements in artificial intelligence (AI) have led to a growing trend of human-AI teaming (HAT) in various fields. As machines continue to evolve from mere automation to a state of autonomy, they are increasingly exhibiting unexpected behaviors and human-like cognitive/intelligent capabilities, including situation awareness (SA). This shift has the potential to enhance the performance of mixed human-AI teams over all-human teams, underscoring the need for a better understanding of the dynamic SA interactions between humans and machines. To this end, we provide a review of leading SA theoretical models and a new framework for SA in the HAT context based on the key features and processes of HAT. The Agent Teaming Situation Awareness (ATSA) framework unifies human and AI behavior, and involves bidirectional, and dynamic interaction. The framework is based on the individual and team SA models and elaborates on the cognitive mechanisms for modeling HAT. Similar perceptual cycles are adopted for the individual (including both human and AI) and the whole team, which is tailored to the unique requirements of the HAT context. ATSA emphasizes cohesive and effective HAT through structures and components, including teaming understanding, teaming control, and the world, as well as adhesive transactive part. We further propose several future research directions to expand on the distinctive contributions of ATSA and address the specific and pressing next steps.
翻訳日:2023-09-01 14:03:19 公開日:2023-08-31
# StratMed:低リソース医療勧告のための関連戦略

StratMed: Relevance Stratification for Low-resource Medication Recommendation ( http://arxiv.org/abs/2308.16781v1 )

ライセンス: Link先を確認
Xiang Li(参考訳) 限られた医療資源と需要の増大の間の不均衡が増し、AIベースの臨床タスクが最重要になっている。 医薬推奨は、医療知識と縦断患者の歴史を融合させることを目的としており、医師がより安全で正確な薬品の組み合わせを処方するのを手助けしている。 既存の手法では、頭部と尾部のデータのバランスの取れた表現が無く、医用データの固有長テール分布を見落としている。 この課題に対処するために、革新的な関連性階層化機構を組み込んだモデルであるStratMedを紹介する。 データの長期分布における相違を調和させ、医薬品の組み合わせの安全性と精度のバランスをとる。 具体的には,まず,深層学習ネットワークを用いた事前学習手法を構築し,エンティティ表現を得る。 その後,不人気エンティティの特徴を補強することにより,より一般化したエンティティ関係を得るために,ピラミッド型データ階層化手法を設計する。 この関係に基づき,医薬の精度と安全性を同時に表現し,訪問表現を得るための2つのグラフ構造を設計した。 最後に、患者の過去の臨床情報は、現在の健康状態の薬剤の組み合わせを生成するために適合する。 MIMIC-IIIデータセットを用いた実験により,本手法は4つの評価指標(安全性と精度を含む)において,最先端の手法よりも優れていることが示された。

With the growing imbalance between limited medical resources and escalating demands, AI-based clinical tasks have become paramount. Medication recommendation, as a sub-domain, aims to amalgamate longitudinal patient history with medical knowledge, assisting physicians in prescribing safer and more accurate medication combinations. Existing methods overlook the inherent long-tail distribution in medical data, lacking balanced representation between head and tail data, which leads to sub-optimal model performance. To address this challenge, we introduce StratMed, a model that incorporates an innovative relevance stratification mechanism. It harmonizes discrepancies in data long-tail distribution and strikes a balance between the safety and accuracy of medication combinations. Specifically, we first construct a pre-training method using deep learning networks to obtain entity representation. After that, we design a pyramid-like data stratification method to obtain more generalized entity relationships by reinforcing the features of unpopular entities. Based on this relationship, we designed two graph structures to express medication precision and safety at the same level to obtain visit representations. Finally, the patient's historical clinical information is fitted to generate medication combinations for the current health condition. Experiments on the MIMIC-III dataset demonstrate that our method has outperformed current state-of-the-art methods in four evaluation metrics (including safety and accuracy).
翻訳日:2023-09-01 14:02:54 公開日:2023-08-31
# Ref-Diff:生成モデルを用いたゼロショット参照画像セグメンテーション

Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models ( http://arxiv.org/abs/2308.16777v1 )

ライセンス: Link先を確認
Minheng Ni, Yabo Zhang, Kailai Feng, Xiaoming Li, Yiwen Guo, Wangmeng Zuo(参考訳) ゼロショット参照画像セグメンテーションは、与えられた参照記述に基づいたインスタンスセグメンテーションマスクを、このタイプのペアデータにトレーニングすることなく発見することを目的としているため、難しい課題である。 現在のゼロショット法は主に事前訓練された識別モデル(例えばCLIP)の使用に焦点を当てている。 しかし, 生成モデル(例えば, 安定拡散)は, 様々な視覚要素とテキスト記述の関係を理解できた可能性があり, この課題ではめったに研究されていない。 本研究では, 生成モデルからの微細なマルチモーダル情報を活用するReferring Diffusional segmentor (Ref-Diff) を提案する。 提案生成器がなければ、生成モデルだけで既存のSOTAの弱教師付きモデルに匹敵する性能が得られることを示す。 生成モデルと識別モデルの両方を組み合わせると、Ref-Diffはこれらの競合する手法をかなりの差で上回ります。 このことは、生成モデルがこのタスクに有益であり、より優れたセグメンテーションを参照するために識別モデルを補完できることを示している。 私たちのコードはhttps://github.com/kodenii/Ref-Diff.comで公開されています。

Zero-shot referring image segmentation is a challenging task because it aims to find an instance segmentation mask based on the given referring descriptions, without training on this type of paired data. Current zero-shot methods mainly focus on using pre-trained discriminative models (e.g., CLIP). However, we have observed that generative models (e.g., Stable Diffusion) have potentially understood the relationships between various visual elements and text descriptions, which are rarely investigated in this task. In this work, we introduce a novel Referring Diffusional segmentor (Ref-Diff) for this task, which leverages the fine-grained multi-modal information from generative models. We demonstrate that without a proposal generator, a generative model alone can achieve comparable performance to existing SOTA weakly-supervised models. When we combine both generative and discriminative models, our Ref-Diff outperforms these competing methods by a significant margin. This indicates that generative models are also beneficial for this task and can complement discriminative models for better referring segmentation. Our code is publicly available at https://github.com/kodenii/Ref-Diff.
翻訳日:2023-09-01 14:02:32 公開日:2023-08-31
# ゼロショットNASパラダイムに対するニューラル予測に基づくNASの有効性

Efficacy of Neural Prediction-Based NAS for Zero-Shot NAS Paradigm ( http://arxiv.org/abs/2308.16775v1 )

ライセンス: Link先を確認
Minh Le, Nhan Nguyen, and Ngoc Hoang Luong(参考訳) 予測に基づくニューラルアーキテクチャサーチ(NAS)では,グラフ畳み込みネットワークによる性能指標が大きな成功を収めている。 これらの指標は、フィードフォワード構造を1ホット符号化によるコンポーネントグラフとして表現することで達成され、様々な検索空間でアーキテクチャ性能を評価することができない限界に直面している。 対照的に、ランダムな初期化を伴う同じアーキテクチャを使用する手作りパフォーマンスインジケータ(ゼロショットNAS)は、複数の検索空間にまたがって一般化することができる。 この制限に対処し、ディープラーニングを用いたゼロショットNASの新しいアプローチを提案する。 提案手法では,畳み込みカーネルを符号化した罪のフーリエ和を用いて,アーキテクチャに類似した構造を持つ計算フィードフォワードグラフの構築を可能にする。 これらのエンコーディングは学習可能であり、アーキテクチャのトポロジー情報の包括的なビューを提供する。 付随する多層パーセプトロン(MLP)は、それらのエンコーディングに基づいてこれらのアーキテクチャをランク付けする。 実験の結果,NAS-Bench-201データセットの相関関係から,グラフ畳み込みネットワークを用いた従来の手法よりも高い収束率を示した。 さらに,各NASベンチマークで訓練した特徴表現を他のNASベンチマークに転送可能とし,複数の検索空間にまたがる有望な一般化性を示す。 https://github.com/minh1409/DFT-NPZS-NAS

In prediction-based Neural Architecture Search (NAS), performance indicators derived from graph convolutional networks have shown significant success. These indicators, achieved by representing feed-forward structures as component graphs through one-hot encoding, face a limitation: their inability to evaluate architecture performance across varying search spaces. In contrast, handcrafted performance indicators (zero-shot NAS), which use the same architecture with random initialization, can generalize across multiple search spaces. Addressing this limitation, we propose a novel approach for zero-shot NAS using deep learning. Our method employs Fourier sum of sines encoding for convolutional kernels, enabling the construction of a computational feed-forward graph with a structure similar to the architecture under evaluation. These encodings are learnable and offer a comprehensive view of the architecture's topological information. An accompanying multi-layer perceptron (MLP) then ranks these architectures based on their encodings. Experimental results show that our approach surpasses previous methods using graph convolutional networks in terms of correlation on the NAS-Bench-201 dataset and exhibits a higher convergence rate. Moreover, our extracted feature representation trained on each NAS-Benchmark is transferable to other NAS-Benchmarks, showing promising generalizability across multiple search spaces. The code is available at: https://github.com/minh1409/DFT-NPZS-NAS
翻訳日:2023-09-01 14:02:14 公開日:2023-08-31
# インストラクションベースファインタニングとルール付きプロンプトチューニングによる労働市場課題におけるPLMパフォーマンス向上

Enhancing PLM Performance on Labour Market Tasks via Instruction-based Finetuning and Prompt-tuning with Rules ( http://arxiv.org/abs/2308.16770v1 )

ライセンス: Link先を確認
Jarno Vrolijk and David Graus(参考訳) 労働市場のデジタル化が進み、研究者、教育者、企業が労働市場の分析と理解を深める手段となった。 しかし, 労働市場資源は, 大量生産でも非構造化されがちであり, 実体の識別, リンク, 抽出の方法論に関する研究がますます重要になっている。 労働市場の表現の改善というこの探求の背景に対して、資源の制約と大規模な注釈付きデータの有効性は、人間のドメインの専門家に頼らざるを得ない。 労働市場特化アプリケーションにおけるプレトレーニング言語モデル(PLM)の即時チューニングの有効性を実証する。 以上の結果から,ptrやインストラクションチューニングなどのコスト効率の高い手法は,モデルレイヤや手動アノテーション,データ拡張を必要とせずに,下流の労働市場アプリケーションにおけるplmの性能を大幅に向上させることができることが示唆された。

The increased digitization of the labour market has given researchers, educators, and companies the means to analyze and better understand the labour market. However, labour market resources, although available in high volumes, tend to be unstructured, and as such, research towards methodologies for the identification, linking, and extraction of entities becomes more and more important. Against the backdrop of this quest for better labour market representations, resource constraints and the unavailability of large-scale annotated data cause a reliance on human domain experts. We demonstrate the effectiveness of prompt-based tuning of pre-trained language models (PLM) in labour market specific applications. Our results indicate that cost-efficient methods such as PTR and instruction tuning without exemplars can significantly increase the performance of PLMs on downstream labour market applications without introducing additional model layers, manual annotations, and data augmentation.
翻訳日:2023-09-01 14:01:51 公開日:2023-08-31
# 低障壁サイバーセキュリティ研究と産業制御システム教育に向けて

Towards Low-Barrier Cybersecurity Research and Education for Industrial Control Systems ( http://arxiv.org/abs/2308.16769v1 )

ライセンス: Link先を確認
Colman McGuan, Chansu Yu, Qin Lin(参考訳) 公共の重要インフラで使用される産業制御システム(ICS)の保護は、サイバー攻撃が引き起こす破滅的な物理的損害のために非常に重要である。 調査コミュニティはICSを保護するために、様々な侵入検出アルゴリズムを検証および比較するためにテストベッドを必要とする。 しかし、高価なハードウェア、ソフトウェア、そして現実世界のシステムを操作できる固有の危険のために、ICSサイバーセキュリティ分野の研究と教育の参入には高い障壁がある。 最近開発された3d高忠実度シミュレータをベースにしたこのギャップを埋めるため、サイバー攻撃を自動的に起動し、データを収集し、機械学習モデルを訓練し、実用的な化学および製造プロセスを評価するための統合フレームワークをさらに紹介します。 テストベッド上では,スライディングウィンドウと分類しきい値を組み合わせた一クラスSVMを介して教師なし機械学習を利用するMinTWin SVM(Minmal Threshold and Window SVM)と呼ばれる侵入検出モデルの有効性を検証する。 その結果、MinTWin SVMは偽陽性を最小限に抑え、物理的プロセス異常に応答することを示した。 さらに, 学生が実践的なicデータセットを用いて機械学習理論を実践する実践的経験を積んだ学習コースにおいて, 当社のデータセットを用いて, icサイバーセキュリティ教育の枠組みを取り入れる。 すべての実装がオープンソース化されました。

The protection of Industrial Control Systems (ICS) that are employed in public critical infrastructures is of utmost importance due to catastrophic physical damages cyberattacks may cause. The research community requires testbeds for validation and comparing various intrusion detection algorithms to protect ICS. However, there exist high barriers to entry for research and education in the ICS cybersecurity domain due to expensive hardware, software, and inherent dangers of manipulating real-world systems. To close the gap, built upon recently developed 3D high-fidelity simulators, we further showcase our integrated framework to automatically launch cyberattacks, collect data, train machine learning models, and evaluate for practical chemical and manufacturing processes. On our testbed, we validate our proposed intrusion detection model called Minimal Threshold and Window SVM (MinTWin SVM) that utilizes unsupervised machine learning via a one-class SVM in combination with a sliding window and classification threshold. Results show that MinTWin SVM minimizes false positives and is responsive to physical process anomalies. Furthermore, we incorporate our framework with ICS cybersecurity education by using our dataset in an undergraduate machine learning course where students gain hands-on experience in practicing machine learning theory with a practical ICS dataset. All of our implementations have been open-sourced.
翻訳日:2023-09-01 14:01:35 公開日:2023-08-31
# Ladder-of-Thought:知識をスタンス検出のステップとして使う

Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection ( http://arxiv.org/abs/2308.16763v1 )

ライセンス: Link先を確認
Kairui Hu, Ming Yan, Joey Tianyi Zhou, Ivor W. Tsang, Wen Haw Chong, Yong Keong Yap(参考訳) CoT(Chain-of-Thought Prompting)は、中間論理の生成を通じて、LLM(Large Language Models)の推論能力を強化する。 しかし、これらの拡張は大規模モデルに大きく貢献し、CoTを直接適用する場合、小さなLMは大幅な性能改善を伴わないままであった。 LLMの高度な推論能力にもかかわらず、CoTは主に訓練済みの内部知識に依存している。 それまでモデルに知られていない外部の知識は未解明のままである。 この省略は、外部の背景知識が重要な役割を果たすスタンス検出のようなタスクで顕著になる。 加えて、LLMの大規模アーキテクチャは、デプロイメント中の効率上の課題を必然的に提示する。 これらの課題に対処するため,姿勢検出のためのLadder-of-Thought(LoT)を導入する。 二相カスケード最適化フレームワークを基盤として、LoTはモデルに高品質な外部知識を取り入れ、生成する中間的論理性を高めるよう指示する。 これらの確固たる合理性は、その後、より正確な予測の基礎となる。 LoTは効率と精度のバランスを保ち、スタンス検出のための適応的で効率的なフレームワークとなる。 実験結果では,チャットgptよりも16%改善し,cotを用いたチャットgptと比較して10%向上した。

Chain-of-Thought Prompting (CoT) reinforces the reasoning capabilities of Large Language Models (LLMs) through the generation of intermediate rationales. However, these enhancements predominantly benefit large-scale models, leaving small LMs without significant performance improvements when directly applying CoT. Despite the advanced reasoning capabilities of LLMs, CoT relies primarily on their pre-trained internal knowledge. The external knowledge that is previously unknown to the model remains unexploited. This omission becomes pronounced in tasks such as stance detection, where the external background knowledge plays a pivotal role. Additionally, the large-scale architecture of LLMs inevitably present efficiency challenges during deployment. To address these challenges, we introduce the Ladder-of-Thought (LoT) for stance detection. Grounded in a dual-phase Cascaded Optimization framework, LoT directs the model to incorporate high-quality external knowledge, enhancing the intermediate rationales it generates. These bolstered rationales subsequently serve as the foundation for more precise predictions - akin to how a ladder facilitates reaching elevated goals. LoT achieves a balance between efficiency and accuracy, making it an adaptable and efficient framework for stance detection. Our empirical evaluations underscore LoT's effectiveness, marking a 16% improvement over ChatGPT and a 10% enhancement compared to ChatGPT with CoT.
翻訳日:2023-09-01 14:01:13 公開日:2023-08-31
# BERT派生意味情報を用いた歌声合成の表現性向上に向けて

Towards Improving the Expressiveness of Singing Voice Synthesis with BERT Derived Semantic Information ( http://arxiv.org/abs/2308.16836v1 )

ライセンス: Link先を確認
Shaohuan Zhou, Shun Lei, Weiya You, Deyi Tuo, Yuren You, Zhiyong Wu, Shiyin Kang, Helen Meng(参考訳) 本稿では、変換器(BERT)から派生したセマンティック埋め込みから双方向エンコーダ表現を用いた、エンドツーエンドの高品質な歌声合成(SVS)システムを提案する。 近年提案されているVISingerの主アーキテクチャに基づいて,表現型歌唱音声合成のための特殊設計をいくつか提案した。 まず、従来のSVSモデルとは異なり、事前学習したBERTから抽出した歌詞のテキスト表現をモデルに追加入力として使用する。 この表現には歌詞の意味に関する情報が含まれており、SVSシステムがより表現的で自然な音声を生成するのに役立つ。 第2に,合成音声の安定化と,歌唱音声の表現性に寄与するエネルギー変動の広い範囲をモデル化するためのエネルギー予測器を提案する。 最後に、オフキー問題を軽減するために、ピッチ予測器を再設計し、リアルとノートのピッチ比を予測する。 主観的および主観的な実験結果から,提案したSVSシステムは,より高品質なVISingerで歌声を生成できることが示唆された。

This paper presents an end-to-end high-quality singing voice synthesis (SVS) system that uses bidirectional encoder representation from Transformers (BERT) derived semantic embeddings to improve the expressiveness of the synthesized singing voice. Based on the main architecture of recently proposed VISinger, we put forward several specific designs for expressive singing voice synthesis. First, different from the previous SVS models, we use text representation of lyrics extracted from pre-trained BERT as additional input to the model. The representation contains information about semantics of the lyrics, which could help SVS system produce more expressive and natural voice. Second, we further introduce an energy predictor to stabilize the synthesized voice and model the wider range of energy variations that also contribute to the expressiveness of singing voice. Last but not the least, to attenuate the off-key issues, the pitch predictor is re-designed to predict the real to note pitch ratio. Both objective and subjective experimental results indicate that the proposed SVS system can produce singing voice with higher-quality outperforming VISinger.
翻訳日:2023-09-01 13:55:57 公開日:2023-08-31
# FedDD: 異なるパラメータをドロップアウトしたコミュニケーション効率のフェデレーション学習を目指して

FedDD: Toward Communication-efficient Federated Learning with Differential Parameter Dropout ( http://arxiv.org/abs/2308.16835v1 )

ライセンス: Link先を確認
Zhiying Feng, Xu Chen, Qiong Wu, Wen Wu, Xiaoxi Zhang, and Qianyi Huang(参考訳) フェデレーション学習(fl)は、モデルパラメータの頻繁な交換を必要とするため、特にクライアントのネットワーク環境が大きく変化する場合、通信遅延が長くなる。 さらにパラメータサーバは、パラメータをアップロードするために最も遅いクライアント(モデルサイズが最大で、計算能力が最低、ネットワーク状態が最悪)を待つ必要があるため、通信効率が著しく低下する可能性がある。 部分的なクライアント選択のような一般的なクライアント選択手法は、計算リソースの浪費を招き、グローバルモデルの一般化を弱める。 この問題に対処するため,本論文では,クライアント選択ではなくモデルパラメータドロップアウトのアプローチを提唱すると共に,差分パラメータドロップアウトを用いたフェデレート学習方式(feddd)の新たな枠組みを提案する。 異なるクライアントの不均一な条件に合わせたモデルパラメータのアップロード比率を最適化すると同時に、クライアントのドロップアウトレート制約に従属するオブジェクトをアップロードするための重要なモデルパラメータの適切なセットを選択する。 具体的には、システム不均一性、データ不均一性、およびクライアント間のモデル不均一性を考慮した凸最適化問題として、ドロップアウトレートの割り当てを定式化する。 アップロードされたパラメータ選択戦略は、アップロードする重要なパラメータをスピードアップ収束に優先する。 さらに,提案するfedddスキームの収束を理論的に解析する。 広範な性能評価により、提案手法は通信効率とモデル収束性の両方において優れた性能を達成でき、またレアクラスのデータに対して強い一般化能力を持つことが示された。

Federated Learning (FL) requires frequent exchange of model parameters, which leads to long communication delay, especially when the network environments of clients vary greatly. Moreover, the parameter server needs to wait for the slowest client (i.e., straggler, which may have the largest model size, lowest computing capability or worst network condition) to upload parameters, which may significantly degrade the communication efficiency. Commonly-used client selection methods such as partial client selection would lead to the waste of computing resources and weaken the generalization of the global model. To tackle this problem, along a different line, in this paper, we advocate the approach of model parameter dropout instead of client selection, and accordingly propose a novel framework of Federated learning scheme with Differential parameter Dropout (FedDD). FedDD consists of two key modules: dropout rate allocation and uploaded parameter selection, which will optimize the model parameter uploading ratios tailored to different clients' heterogeneous conditions and also select the proper set of important model parameters for uploading subject to clients' dropout rate constraints. Specifically, the dropout rate allocation is formulated as a convex optimization problem, taking system heterogeneity, data heterogeneity, and model heterogeneity among clients into consideration. The uploaded parameter selection strategy prioritizes on eliciting important parameters for uploading to speedup convergence. Furthermore, we theoretically analyze the convergence of the proposed FedDD scheme. Extensive performance evaluations demonstrate that the proposed FedDD scheme can achieve outstanding performances in both communication efficiency and model convergence, and also possesses a strong generalization capability to data of rare classes.
翻訳日:2023-09-01 13:55:38 公開日:2023-08-31
# グラフ理論からの1要素化を用いた斜め問題の量子スピードアップ

Using 1-Factorization from Graph Theory for Quantum Speedups on Clique Problems ( http://arxiv.org/abs/2308.16827v1 )

ライセンス: Link先を確認
Ali Hadizadeh Moghadam, Payman Kazemikhah, Hossein Aghababa(参考訳) k$-CLIQUE や Triangle Finding といったclique の問題は計算問題の重要なクラスを形成し、前者はNP完全問題であり、後者は行列乗法に下位境界を与える。 Amplitude Amplification(振幅増幅)のような量子コンピューティングの手法でこれらの問題にアプローチした。 本稿では,完備グラフの1因子化に基づく新しい量子オラクル設計を提案し,これらはすべて,以前の研究で提示された$O(n^2)$の代わりに深さ$O(n)$を持つ。 また、これらのオラクルの1つを使って、古典レコードの$O(n^{2.38})と比較して、Triangle Findingの時間複雑性を$O(n^{2.25} poly(log n))$に下げる方法について論じる。 最後に、$k$-CLIQUEを解くために、別のオラクルに対して必要な振幅増幅イテレーションの数をベンチマークする。

The clique problems, including $k$-CLIQUE and Triangle Finding, form an important class of computational problems; the former is an NP-complete problem, while the latter directly gives lower bounds for Matrix Multiplication. A number of previous efforts have approached these problems with Quantum Computing methods, such as Amplitude Amplification. In this paper, we provide new Quantum oracle designs based on the 1-factorization of complete graphs, all of which have depth $O(n)$ instead of the $O(n^2)$ presented in previous studies. Also, we discuss the usage of one of these oracles in bringing the Triangle Finding time complexity down to $O(n^{2.25} poly(log n))$, compared to the $O(n^{2.38})$ classical record. Finally, we benchmark the number of required Amplitude Amplification iterations for another presented oracle, for solving $k$-CLIQUE.
翻訳日:2023-09-01 13:55:10 公開日:2023-08-31
# 形状に先立つ粗大なアモーダルセグメンテーション

Coarse-to-Fine Amodal Segmentation with Shape Prior ( http://arxiv.org/abs/2308.16825v1 )

ライセンス: Link先を確認
Jianxiong Gao, Xuelin Qian, Yikai Wang, Tianjun Xiao, Tong He, Zheng Zhang and Yanwei Fu(参考訳) アモーダルオブジェクトのセグメンテーションは、オブジェクトの可視部分と遮蔽部分の両方をセグメンテーションする難しいタスクである。 本稿では,アモーダルセグメンテーション(C2F-Seg)を段階的にモデル化することで,この問題に対処する新しい手法を提案する。 C2F-Segは最初、学習空間をピクセルレベルの画像空間からベクトル量子化された潜在空間に還元する。 これにより、長い範囲の依存関係をよりうまく処理し、視覚的特徴や目に見えるセグメントから粗い粒度のアモーダルセグメントを学習できます。 しかし、この潜伏空間にはオブジェクトに関する詳細な情報がないため、正確なセグメンテーションを直接提供することは困難である。 この問題に対処するために、細粒度情報を注入する畳み込み精細モジュールを提案し、視覚特徴と粗い予測セグメンテーションに基づくより正確なアモーダルオブジェクトセグメンテーションを提供する。 アモーダルオブジェクトのセグメンテーションの研究を支援するために、movid-amodal(movid-a)という合成アモーダルデータセットを作成し、画像とビデオアモーダルオブジェクトセグメンテーションの両方に使用することができる。 このモデルをkinsとcoco-aという2つのベンチマークデータセットで広範囲に評価しました。 実験結果はc2f-segの優位を示す。 さらに,魚介類におけるビデオアモーダルオブジェクトセグメンテーションタスクと提案するmovid-aに対するアプローチの可能性を示す。 プロジェクトページ: http://jianxgao.github.io/c2f-seg。

Amodal object segmentation is a challenging task that involves segmenting both visible and occluded parts of an object. In this paper, we propose a novel approach, called Coarse-to-Fine Segmentation (C2F-Seg), that addresses this problem by progressively modeling the amodal segmentation. C2F-Seg initially reduces the learning space from the pixel-level image space to the vector-quantized latent space. This enables us to better handle long-range dependencies and learn a coarse-grained amodal segment from visual features and visible segments. However, this latent space lacks detailed information about the object, which makes it difficult to provide a precise segmentation directly. To address this issue, we propose a convolution refine module to inject fine-grained information and provide a more precise amodal object segmentation based on visual features and coarse-predicted segmentation. To help the studies of amodal object segmentation, we create a synthetic amodal dataset, named as MOViD-Amodal (MOViD-A), which can be used for both image and video amodal object segmentation. We extensively evaluate our model on two benchmark datasets: KINS and COCO-A. Our empirical results demonstrate the superiority of C2F-Seg. Moreover, we exhibit the potential of our approach for video amodal object segmentation tasks on FISHBOWL and our proposed MOViD-A. Project page at: http://jianxgao.github.io/C2F-Seg.
翻訳日:2023-09-01 13:54:50 公開日:2023-08-31
# プログラミング言語は命令チューニングによって互いに強化できるのか?

Can Programming Languages Boost Each Other via Instruction Tuning? ( http://arxiv.org/abs/2308.16824v1 )

ライセンス: Link先を確認
Daoguang Zan, Ailun Yu, Bo Shen, Jiaxin Zhang, Taihong Chen, Bing Geng, Bei Chen, Jichuan Ji, Yafen Yao, Yongji Wang, Qianxiang Wang(参考訳) 人間のプログラマがプログラミング言語を習得すれば、新しいプログラミング言語を学ぶのがより簡単になるでしょう。 本稿では,コード大言語モデルの微調整段階において,プログラミング言語が相互に強化できるかどうかを検討する。 StarCoder上で8つの人気のあるプログラミング言語(Python、JavaScript、TypeScript、C、C++、Java、Go、HTML)の広範な実験を行います。 結果は、プログラミング言語が互いに著しく改善できることを示しています。 例えば、pythonでトレーニングされたcodem-python 15bは、humaneval-x上で絶対17.95% pass@1でjavaを増やせる。 さらに驚くことに、htmlコーパスでトレーニングされたcodem-html 7bは、絶対15.24%のpass@1でjavaを改善することができる。 トレーニングデータはhttps://github.com/nl2code/codemで公開しています。

When human programmers have mastered a programming language, it would be easier when they learn a new programming language. In this report, we focus on exploring whether programming languages can boost each other during the instruction fine-tuning phase of code large language models. We conduct extensive experiments of 8 popular programming languages (Python, JavaScript, TypeScript, C, C++, Java, Go, HTML) on StarCoder. Results demonstrate that programming languages can significantly improve each other. For example, CodeM-Python 15B trained on Python is able to increase Java by an absolute 17.95% pass@1 on HumanEval-X. More surprisingly, we found that CodeM-HTML 7B trained on the HTML corpus can improve Java by an absolute 15.24% pass@1. Our training data is released at https://github.com/NL2Code/CodeM.
翻訳日:2023-09-01 13:54:24 公開日:2023-08-31
# 階層的データセットに対する潜在変数多出力ガウス過程

Latent Variable Multi-output Gaussian Processes for Hierarchical Datasets ( http://arxiv.org/abs/2308.16822v1 )

ライセンス: Link先を確認
Chunchao Ma, Arthur Leroy, Mauricio Alvarez(参考訳) 多出力ガウス過程(MOGP)は、異なる出力間の相関を利用して複数のタスクに対処するために導入された。 一般に、MOGPモデルは出力間の平坦な相関構造を仮定する。 しかし、そのような定式化は、例えば、各アウトプットに対して複数の複製が観測された場合(生物学的実験の典型的な設定である)、より精巧な関係を説明できない。 本稿では階層型データセット(すなわち、観測間の関係をツリー構造内で表現できるデータセット)のためのmogpsの拡張を提案する。 我々のモデルは、データ内の階層構造を考慮に入れたカーネル関数を定義し、異なるレベルの相関関係を捉えながら、専用カーネルを通して出力間の基盤となる依存関係を表現する潜伏変数の導入を活用している。 後者の機能では,タスク数の増加に伴い,スケーラビリティが大幅に向上することが期待されている。 ゲノミクスとモーションキャプチャから得られる合成データと実世界のデータの両方を包含する広範囲な実験的研究が提案されている。

Multi-output Gaussian processes (MOGPs) have been introduced to deal with multiple tasks by exploiting the correlations between different outputs. Generally, MOGPs models assume a flat correlation structure between the outputs. However, such a formulation does not account for more elaborate relationships, for instance, if several replicates were observed for each output (which is a typical setting in biological experiments). This paper proposes an extension of MOGPs for hierarchical datasets (i.e. datasets for which the relationships between observations can be represented within a tree structure). Our model defines a tailored kernel function accounting for hierarchical structures in the data to capture different levels of correlations while leveraging the introduction of latent variables to express the underlying dependencies between outputs through a dedicated kernel. This latter feature is expected to significantly improve scalability as the number of tasks increases. An extensive experimental study involving both synthetic and real-world data from genomics and motion capture is proposed to support our claims.
翻訳日:2023-09-01 13:54:07 公開日:2023-08-31
# BTSeg: セマンティックセグメンテーションにおけるドメイン適応のためのBarlow Twins正規化

BTSeg: Barlow Twins Regularization for Domain Adaptation in Semantic Segmentation ( http://arxiv.org/abs/2308.16819v1 )

ライセンス: Link先を確認
Johannes K\"unzel, Anna Hilsmann, Peter Eisert(参考訳) セマンティック画像分割は、自動運転など多くのコンピュータビジョンシステムにおいて重要な要素である。 このようなアプリケーションでは、悪条件(重雨、夜間、雪、極端な照明)が特定の課題を引き起こすが、通常は利用可能なデータセットでは表現できない。 より多くのトレーニングデータを生成するのは面倒で費用がかかります。 この課題に対処するために,画像レベルの対応を弱い監視信号として活用して,悪条件に非依存なセグメンテーションモデルを学習するBTSegを提案する。 この目的のために、本手法では教師なし学習の分野でのBarlow twinsの損失を利用して、同じ場所で撮影された画像を扱うが、同じ基盤画像の「増大」と異なる条件下で処理する。 これにより、異なる悪条件によって引き起こされる外観変化にロバストなセグメンテーションモデルのトレーニングが可能になる。 ACDC に対する我々のアプローチと新たな ACG ベンチマークを評価し,その堅牢性と一般化能力を実証した。 我々の手法は、現在の最先端の手法と比較して好適に機能すると同時に、実装や訓練も簡単である。 コードは受理後にリリースされます。

Semantic image segmentation is a critical component in many computer vision systems, such as autonomous driving. In such applications, adverse conditions (heavy rain, night time, snow, extreme lighting) on the one hand pose specific challenges, yet are typically underrepresented in the available datasets. Generating more training data is cumbersome and expensive, and the process itself is error-prone due to the inherent aleatoric uncertainty. To address this challenging problem, we propose BTSeg, which exploits image-level correspondences as weak supervision signal to learn a segmentation model that is agnostic to adverse conditions. To this end, our approach uses the Barlow twins loss from the field of unsupervised learning and treats images taken at the same location but under different adverse conditions as "augmentations" of the same unknown underlying base image. This allows the training of a segmentation model that is robust to appearance changes introduced by different adverse conditions. We evaluate our approach on ACDC and the new challenging ACG benchmark to demonstrate its robustness and generalization capabilities. Our approach performs favorably when compared to the current state-of-the-art methods, while also being simpler to implement and train. The code will be released upon acceptance.
翻訳日:2023-09-01 13:53:51 公開日:2023-08-31
# 非同期時空間グラフ畳み込みネットワークによる不規則交通時系列予測

Irregular Traffic Time Series Forecasting Based on Asynchronous Spatio-Temporal Graph Convolutional Network ( http://arxiv.org/abs/2308.16818v1 )

ライセンス: Link先を確認
Weijia Zhang, Le Zhang, Jindong Han, Hao Liu, Jingbo Zhou, Yu Mei, Hui Xiong(参考訳) 知的交通信号が支配する交差点における正確な交通予測は,効果的な知的交通信号制御システムの発展に不可欠である。 しかし、知的交差点が生み出す不規則な交通時系列により、交通予測タスクはずっと難解になり、3つの大きな課題が課せられる。 1)非同期空間依存性 2)交通データ間の不規則な時間依存、及び 3) 予測すべき可変長シーケンスは,現在のトラヒック予測手法の性能を著しく損なう。 この目的のために、将来の時間窓にインテリジェントな交差点に入るレーンの交通状態を予測するために、非同期時空間グラフ畳み込み nEtwoRk (ASeer) を提案する。 具体的には、交通拡散グラフを介してレーンをリンクすることにより、まず非同期グラフ拡散ネットワークを提案し、レーンの時間的ミスアラインな交通状態測定間の非同期空間依存性をモデル化する。 その後、不規則なトラフィック状態シーケンス内の時間依存性をキャプチャするために、各レーンの連続時間を埋め込むために学習可能なパーソナライズされた時間符号化を考案する。 次に,変換可能なフィルタサイズを有する時間対応畳み込みフィルタを導出するために,メタフィルタを学習する変換可能な時間対応畳み込みネットワークを提案する。 さらに、状態進化単位と半自己回帰予測器からなる半自己回帰予測ネットワークは、可変長のトラフィック状態列を効果的に効率的に予測するように設計されている。 2つの実世界のデータセットに対する大規模な実験は、6つのメトリクスでASeerの有効性を示している。

Accurate traffic forecasting at intersections governed by intelligent traffic signals is critical for the advancement of an effective intelligent traffic signal control system. However, due to the irregular traffic time series produced by intelligent intersections, the traffic forecasting task becomes much more intractable and imposes three major new challenges: 1) asynchronous spatial dependency, 2) irregular temporal dependency among traffic data, and 3) variable-length sequence to be predicted, which severely impede the performance of current traffic forecasting methods. To this end, we propose an Asynchronous Spatio-tEmporal graph convolutional nEtwoRk (ASeer) to predict the traffic states of the lanes entering intelligent intersections in a future time window. Specifically, by linking lanes via a traffic diffusion graph, we first propose an Asynchronous Graph Diffusion Network to model the asynchronous spatial dependency between the time-misaligned traffic state measurements of lanes. After that, to capture the temporal dependency within irregular traffic state sequence, a learnable personalized time encoding is devised to embed the continuous time for each lane. Then we propose a Transformable Time-aware Convolution Network that learns meta-filters to derive time-aware convolution filters with transformable filter sizes for efficient temporal convolution on the irregular sequence. Furthermore, a Semi-Autoregressive Prediction Network consisting of a state evolution unit and a semiautoregressive predictor is designed to effectively and efficiently predict variable-length traffic state sequences. Extensive experiments on two real-world datasets demonstrate the effectiveness of ASeer in six metrics.
翻訳日:2023-09-01 13:53:28 公開日:2023-08-31
# 人の動き予測のためのグラフ畳み込みシーケンスチャンクのマルチスケール残差学習

Multiscale Residual Learning of Graph Convolutional Sequence Chunks for Human Motion Prediction ( http://arxiv.org/abs/2308.16801v1 )

ライセンス: Link先を確認
Mohsen Zand, Ali Etemad, Michael Greenspan(参考訳) 時間的および空間的依存性を学習し,人間の運動予測のための新しい手法を提案する。 近年,高い抽象度で人体をモデル化する多スケールグラフが開発され,より安定した運動予測が実現されている。 しかし、現在の手法では、異なる動きのパターンが異なり、空間的に接続されたジョイントの固定グラフに完全に準拠していないにもかかわらず、所定のスケールレベルと空間的近位ジョイントを組み合わせて、人間の前兆に基づいて粗いスケールを生成する。 グラフ畳み込み手法のもう一つの問題は、予測されたポーズが、特に長期予測において識別可能な動きのない平均ポーズの周りに収束するモード崩壊である。 これらの課題に対処するために、各配列のすべての関節間の対関係に基づいて動的に相関する身体成分を探索するエンドツーエンドネットワークResChunkを提案する。 reschunkは、ターゲットシーケンスチャンク間の残差を自己回帰的に学習し、連続したチャンク間の時間的接続性を強化するように訓練される。 したがって、複数のレベルのシーケンスの動的時空間的特徴を考慮したシーケンス対シーケンス予測ネットワークである。 cmu mocap と human3.6m の2つの難解なベンチマークデータセットにおける実験により,提案手法が動作予測のためのシーケンス情報を効果的にモデル化し,新たな最先端設定のための他の手法よりも優れることを示した。 私たちのコードはhttps://github.com/MohsenZand/ResChunk.comで利用可能です。

A new method is proposed for human motion prediction by learning temporal and spatial dependencies. Recently, multiscale graphs have been developed to model the human body at higher abstraction levels, resulting in more stable motion prediction. Current methods however predetermine scale levels and combine spatially proximal joints to generate coarser scales based on human priors, even though movement patterns in different motion sequences vary and do not fully comply with a fixed graph of spatially connected joints. Another problem with graph convolutional methods is mode collapse, in which predicted poses converge around a mean pose with no discernible movements, particularly in long-term predictions. To tackle these issues, we propose ResChunk, an end-to-end network which explores dynamically correlated body components based on the pairwise relationships between all joints in individual sequences. ResChunk is trained to learn the residuals between target sequence chunks in an autoregressive manner to enforce the temporal connectivities between consecutive chunks. It is hence a sequence-to-sequence prediction network which considers dynamic spatio-temporal features of sequences at multiple levels. Our experiments on two challenging benchmark datasets, CMU Mocap and Human3.6M, demonstrate that our proposed method is able to effectively model the sequence information for motion prediction and outperform other techniques to set a new state-of-the-art. Our code is available at https://github.com/MohsenZand/ResChunk.
翻訳日:2023-09-01 13:53:00 公開日:2023-08-31
# グラフニューラルネットワークにおけるランク崩壊と過度相関

Rank Collapse Causes Over-Smoothing and Over-Correlation in Graph Neural Networks ( http://arxiv.org/abs/2308.16800v1 )

ライセンス: Link先を確認
Andreas Roth, Thomas Liebig(参考訳) 本研究では,ディープグラフニューラルネットワークにおけるオーバースムーシングに関する新たな理論的知見と,オーバー相関を特徴とする。 本稿では,不変部分空間の発生率を示し,特徴変換に影響を受けない固定相対挙動を示す。 本研究は,部分空間の増幅は凝集関数のスペクトルにのみ依存するため,定数状態への収束とノード状態の潜在的オーバー分離に関する最近の観測を明確にする。 線形シナリオでは、ノード表現は特徴変換とは無関係に漸近収束率を持つ低次元部分空間によって支配される。 これによりノード表現のランクが崩壊し、滑らかなベクトルがこの部分空間にまたがる場合のオーバースモーシングと、オーバースモーシングを避ける場合であってもオーバー相関が発生する。 本理論に導かれたクロネッカー積の和は, 過剰なスムーシング, 過剰相関, ランク崩壊を確実に防止する有益な性質として提案する。 我々は経験的に洞察を非線形の場合にまで拡張し、既存のモデルが線形独立な特徴をキャプチャできないことを示す。

Our study reveals new theoretical insights into over-smoothing and feature over-correlation in deep graph neural networks. We show the prevalence of invariant subspaces, demonstrating a fixed relative behavior that is unaffected by feature transformations. Our work clarifies recent observations related to convergence to a constant state and a potential over-separation of node states, as the amplification of subspaces only depends on the spectrum of the aggregation function. In linear scenarios, this leads to node representations being dominated by a low-dimensional subspace with an asymptotic convergence rate independent of the feature transformations. This causes a rank collapse of the node representations, resulting in over-smoothing when smooth vectors span this subspace, and over-correlation even when over-smoothing is avoided. Guided by our theory, we propose a sum of Kronecker products as a beneficial property that can provably prevent over-smoothing, over-correlation, and rank collapse. We empirically extend our insights to the non-linear case, demonstrating the inability of existing models to capture linearly independent features.
翻訳日:2023-09-01 13:52:27 公開日:2023-08-31
# 平面上の新しい4値ウェーブレットを用いたカラー画像のホロスティック処理

Holistic Processing of Colour Images Using Novel Quaternion-Valued Wavelets on the Plane ( http://arxiv.org/abs/2308.16875v1 )

ライセンス: Link先を確認
Neil D. Dizon and Jeffrey A. Hogan(参考訳) 平面上の四元値ウェーブレットの総合的なカラー画像処理への適用性について検討した。 本稿では,最近開発された4価ウェーブレットに付随する4価ウェーブレットフィルタを用いてカラー画像の分解と再構成を行う手法を提案する。 本稿では,4値ウェーブレットの圧縮,強調,分節化,分節化技術について,カラー画像処理の有望なツールとして考察する。

We investigate the applicability of quaternion-valued wavelets on the plane to holistic colour image processing. We present a methodology for decomposing and reconstructing colour images using quaternionic wavelet filters associated to recently developed quaternion-valued wavelets on the plane. We consider compression, enhancement, segmentation, and denoising techniques to demonstrate quaternion-valued wavelets as a promising tool for holistic colour image processing.
翻訳日:2023-09-01 13:44:04 公開日:2023-08-31
# 量子ビットの少ない量子化学

More Quantum Chemistry with Fewer Qubits ( http://arxiv.org/abs/2308.16873v1 )

ライセンス: Link先を確認
Jakob G\"unther, Alberto Baiardi, Markus Reiher, Matthias Christandl(参考訳) 量子計算は、電子と原子核からなる物理系のシミュレーションのための最も有望な新しいパラダイムである。 化学、固体物理学、材料科学、分子生物学における原子論的な問題は(デジタル)量子コンピュータ上の表現にマッピングすることができる。 そのような表現は、例えば、能動軌道空間のアプローチによって達成されるような次元を縮小する。 原理的には、より多くの軌道を含むことによって表現を改善する方法が明確であるが、実際には(例えば量子コンピュータで利用可能な量子ビットの数が限られているため)実現不可能であり、得られた結果の精度を著しく損なう。 本稿では,二階摂動理論を用いて物理問題の表現を改善する量子アルゴリズムを提案する。 特に、量子アルゴリズムは、摂動しないハミルトニアン(h$)の下で一連の時間変化ステップを通じて二階のエネルギー補正を評価します。 多参照摂動理論では、$H$は仮想軌道の対角線であり、量子ビットの数は仮想軌道の数とは独立であることを示す。 さらに、我々の摂動理論量子アルゴリズムは、対称性適応摂動理論(SAPT)に適用できる。 ここでは、$H$が2つの通勤単量体ハミルトンの和であるという事実を用いて、SAPTの2階エネルギー補正を計算でき、同時に1つの単量体の状態にのみアクセスすることができる。 したがって、摂動理論を利用して量子化学の量子ハードウェア要件を低減できる。

Quantum computation is the most promising new paradigm for the simulation of physical systems composed of electrons and atomic nuclei. An atomistic problem in chemistry, solid-state physics, materials science, or molecular biology can be mapped to a representation on a (digital) quantum computer. Any such representation will be reduced dimensional as, for instance, accomplished by active-orbital-space approaches. While it is, in principle, obvious how to improve on the representation by including more orbitals, this is usually unfeasible in practice (e.g., because of the limited number of qubits available on a quantum computer) and severely compromises the accuracy of the obtained results. Here, we propose a quantum algorithm that improves on the representation of the physical problem by virtue of second-order perturbation theory. In particular, our quantum algorithm evaluates the second-order energy correction through a series of time-evolution steps under the unperturbed Hamiltonian ($H$), which allows us to take advantage of an underlying structure that $H$ might have. For multireference perturbation theory, we exploit that $H$ is diagonal for virtual orbitals and show that the number of qubits is independent of the number of virtual orbitals. Moreover, our perturbation theory quantum algorithm can be applied to Symmetry-Adapted Perturbation Theory (SAPT). Here, we use the fact that $H$ is the sum of two commuting monomer Hamiltonians, which makes it possible to calculate the full second-order energy correction of SAPT while only having access to the state of one of the monomers at a time. As such, we reduce the quantum hardware requirements for quantum chemistry by leveraging perturbation theory.
翻訳日:2023-09-01 13:43:55 公開日:2023-08-31
# ジェンダー・ギャップパイプライン:55言語における性特徴化のためのジェンダー対応多言語パイプライン

The Gender-GAP Pipeline: A Gender-Aware Polyglot Pipeline for Gender Characterisation in 55 Languages ( http://arxiv.org/abs/2308.16871v1 )

ライセンス: Link先を確認
Benjamin Muller, Belen Alastruey, Prangthip Hansanti, Elahe Kalbassi, Christophe Ropers, Eric Michael Smith, Adina Williams, Luke Zettlemoyer, Pierre Andrews and Marta R. Costa-juss\`a(参考訳) 言語生成システムのジェンダーバイアスは軽減が難しい。 これらのバイアスの原因の1つは、トレーニングおよび評価データにおける性別表現の相違である。 この問題の文書化の最近の進歩と、それを緩和しようとする多くの試みにもかかわらず、大きなデータセットでジェンダー表現を報告するための共有方法論やツールがまだ欠けている。 このような定量的な報告は、例えばデータ拡張によるさらなる緩和を可能にする。 本稿では,55言語を対象とした大規模データセットにおけるジェンダー表現を特徴付ける自動パイプラインであるGender-GAP Pipelineについて述べる。 このパイプラインは、性別付き人称名詞の多言語語彙を用いて、テキスト中の性別表現を定量化する。 wmtトレーニングデータとニュースタスクの開発データで性別表現を報告し,現在のデータが男性表現に偏っていることを確認した。 バランスの取れないデータセットを持つことは、システムを間接的に最適化し、他よりも1つの性別を上回ります。 我々は、現在のデータセットに性別定量化パイプラインを導入し、理想的にはバランスの取れた表現に修正することを提案する。

Gender biases in language generation systems are challenging to mitigate. One possible source for these biases is gender representation disparities in the training and evaluation data. Despite recent progress in documenting this problem and many attempts at mitigating it, we still lack shared methodology and tooling to report gender representation in large datasets. Such quantitative reporting will enable further mitigation, e.g., via data augmentation. This paper describes the Gender-GAP Pipeline (for Gender-Aware Polyglot Pipeline), an automatic pipeline to characterize gender representation in large-scale datasets for 55 languages. The pipeline uses a multilingual lexicon of gendered person-nouns to quantify the gender representation in text. We showcase it to report gender representation in WMT training data and development data for the News task, confirming that current data is skewed towards masculine representation. Having unbalanced datasets may indirectly optimize our systems towards outperforming one gender over the others. We suggest introducing our gender quantification pipeline in current datasets and, ideally, modifying them toward a balanced representation.
翻訳日:2023-09-01 13:43:29 公開日:2023-08-31
# 知識共有とパーソナライゼーションによる自動運転車の学習ドライバモデル

Learning Driver Models for Automated Vehicles via Knowledge Sharing and Personalization ( http://arxiv.org/abs/2308.16870v1 )

ライセンス: Link先を確認
Wissam Kontar, Xinzhi Zhong, Soyoung Ahn(参考訳) 本稿では、車両間の知識共有とパーソナライズによる自動走行車(AV)ドライバモデル学習フレームワークについて述べる。 輸送システムの自然変動は、経験的な実験やテストの間、あらゆる可能な運転シナリオにAVを露出させることを非常に困難にしている。 その結果、AVは安全で効率的な運用に有害とされる特定の遭遇に盲目になる可能性がある。 そして、現実の世界で起きている運転シナリオへの露出を増加させるAVの知識を共有することが重要である。 本稿では,車両のユニークな状況や特性に合わせたパーソナライズされたモデルを維持しながら,車両間の知識共有と力を借りて,運転者のモデルを協調的に訓練する方法を検討する。 当社のモデルでは、複数の車両が連携して生データを共有する必要性を避けながら、連携学習アプローチを導入しています。 本手法の性能を実験シミュレーションで紹介する。 このような学習アプローチは、インテリジェントな交通システム、交通管理、車間通信など、輸送工学全般に応用されている。 コードとサンプルデータセットは、プロジェクトページhttps://github.com/wissamkontar.comで入手できる。

This paper describes a framework for learning Automated Vehicles (AVs) driver models via knowledge sharing between vehicles and personalization. The innate variability in the transportation system makes it exceptionally challenging to expose AVs to all possible driving scenarios during empirical experimentation or testing. Consequently, AVs could be blind to certain encounters that are deemed detrimental to their safe and efficient operation. It is then critical to share knowledge across AVs that increase exposure to driving scenarios occurring in the real world. This paper explores a method to collaboratively train a driver model by sharing knowledge and borrowing strength across vehicles while retaining a personalized model tailored to the vehicle's unique conditions and properties. Our model brings a federated learning approach to collaborate between multiple vehicles while circumventing the need to share raw data between them. We showcase our method's performance in experimental simulations. Such an approach to learning finds several applications across transportation engineering including intelligent transportation systems, traffic management, and vehicle-to-vehicle communication. Code and sample dataset are made available at the project page https://github.com/wissamkontar.
翻訳日:2023-09-01 13:43:11 公開日:2023-08-31
# 脳mri画像からの多発性硬化症における炎症性疾患活動予測のためのセルフプルーニンググラフニューラルネットワーク

Self-pruning Graph Neural Network for Predicting Inflammatory Disease Activity in Multiple Sclerosis from Brain MR Images ( http://arxiv.org/abs/2308.16863v1 )

ライセンス: Link先を確認
Chinmay Prabhakar, Hongwei Bran Li, Johannes C. Paetzold, Timo Loehr, Chen Niu, Mark M\"uhlau, Daniel Rueckert, Benedikt Wiestler, Bjoern Menze(参考訳) 多発性硬化症(Multiple Sclerosis, MS)は、中枢神経系の炎症性病変を特徴とする重度の神経疾患である。 したがって、炎症性疾患の活動を予測することは、疾患の評価と治療に不可欠である。 しかし、MS病変は脳全体に発生し、患者の形状、大きさ、総数によって異なる。 病変の負荷と位置のばらつきが高いため、機械学習手法が脳全体のMRIスキャンをグローバルに効果的に表現して疾患を評価し予測することは困難である。 技術的には、病変の負荷や空間的近接といった必須のバイオマーカーを組み込むことは非自明である。 我々の研究は、グラフニューラルネットワーク(GNN)を用いてこれらのバイオマーカーを新しいグローバル表現に集約する最初の試みである。 2段階のMS炎症性疾患活動予測手法を提案する。 まず、3Dセグメンテーションネットワークが病変を検出し、自己監督アルゴリズムが画像の特徴を抽出する。 次に、検出された病変を用いて患者グラフを構築する。 病変はグラフのノードとして機能し、第1段階で画像の特徴を抽出して初期化される。 最後に、病変を空間的近接度に基づいて連結し、炎症性疾患活動予測をグラフ分類タスクとして定式化する。 さらに, 予測のために最も重要な病変を自動選択するセルフプルーニング戦略を提案する。 提案法は,1年間および2年間の炎症性疾患活動において,AUCが0.67対0.61,0.66対0.60であった。 最後に,提案手法では,各病変に重要度スコアを割り当てて総合的な予測を行う。 コードはhttps://github.com/chinmay5/ms_ida.gitで入手できる。

Multiple Sclerosis (MS) is a severe neurological disease characterized by inflammatory lesions in the central nervous system. Hence, predicting inflammatory disease activity is crucial for disease assessment and treatment. However, MS lesions can occur throughout the brain and vary in shape, size and total count among patients. The high variance in lesion load and locations makes it challenging for machine learning methods to learn a globally effective representation of whole-brain MRI scans to assess and predict disease. Technically it is non-trivial to incorporate essential biomarkers such as lesion load or spatial proximity. Our work represents the first attempt to utilize graph neural networks (GNN) to aggregate these biomarkers for a novel global representation. We propose a two-stage MS inflammatory disease activity prediction approach. First, a 3D segmentation network detects lesions, and a self-supervised algorithm extracts their image features. Second, the detected lesions are used to build a patient graph. The lesions act as nodes in the graph and are initialized with image features extracted in the first stage. Finally, the lesions are connected based on their spatial proximity and the inflammatory disease activity prediction is formulated as a graph classification task. Furthermore, we propose a self-pruning strategy to auto-select the most critical lesions for prediction. Our proposed method outperforms the existing baseline by a large margin (AUCs of 0.67 vs. 0.61 and 0.66 vs. 0.60 for one-year and two-year inflammatory disease activity, respectively). Finally, our proposed method enjoys inherent explainability by assigning an importance score to each lesion for the overall prediction. Code is available at https://github.com/chinmay5/ms_ida.git
翻訳日:2023-09-01 13:42:51 公開日:2023-08-31
# 学習動的有向非巡回グラフの理論的に最適なサンプル複雑性

Information Theoretically Optimal Sample Complexity of Learning Dynamical Directed Acyclic Graphs ( http://arxiv.org/abs/2308.16859v1 )

ライセンス: Link先を確認
Mishfad Shaikh Veedu, Deepjyoti Deka, and Murti V. Salapaka(参考訳) 本稿では,直交非巡回グラフ(DAG)上での線形力学系(LDS)の相互作用/依存性を学習する際の最適なサンプル複雑性について検討する。 dagの構造を学習するサンプルの複雑さは、ノード状態のサンプルが独立かつ同一に分散する静的システムではよく研究されている(i.i.d.)。 しかし, 動的系を持つDAGでは, 正弦波状態が時間的に相関しているため, そのような研究は少ない。 LDS の基盤となる DAG を \emph{dynamical} DAG (DDAG) と呼ぶ。 特に、時間的に広義の定常(wss)でありながら相互に相関のない非観測外因性ノイズ源によってノーダルダイナミクスが駆動されるddagを考えると、同じ<power spectral density(psd)" を持つ。 DDAGを再構築するために、静的設定にインスパイアされた観測時系列のPSD行列に基づくメトリックとアルゴリズムを提案する。 等価ノイズPSD仮定は、DDAG再構成の識別可能性条件が違反しないように緩和することができる。 WSS (sub) Gaussian exogenous noise source を持つ LDS の場合、DDAG を学ぶのに必要なサンプルの複雑さ(あるいは状態軌跡の長さ)は$n=\Theta(q\log(p/q))$であり、$p$ はノード数、$q$ はノード当たりの親数である。 試料の複雑さ上限を証明するために,2つの異なるサンプリング戦略の下でPSD推定のための濃度境界を導出する。 一般化されたファノの不等式を用いたマッチング min-max 下限も提供され、提案アルゴリズムの順序最適性を示す。

In this article, the optimal sample complexity of learning the underlying interaction/dependencies of a Linear Dynamical System (LDS) over a Directed Acyclic Graph (DAG) is studied. The sample complexity of learning a DAG's structure is well-studied for static systems, where the samples of nodal states are independent and identically distributed (i.i.d.). However, such a study is less explored for DAGs with dynamical systems, where the nodal states are temporally correlated. We call such a DAG underlying an LDS as \emph{dynamical} DAG (DDAG). In particular, we consider a DDAG where the nodal dynamics are driven by unobserved exogenous noise sources that are wide-sense stationary (WSS) in time but are mutually uncorrelated, and have the same {power spectral density (PSD)}. Inspired by the static settings, a metric and an algorithm based on the PSD matrix of the observed time series are proposed to reconstruct the DDAG. The equal noise PSD assumption can be relaxed such that identifiability conditions for DDAG reconstruction are not violated. For the LDS with WSS (sub) Gaussian exogenous noise sources, it is shown that the optimal sample complexity (or length of state trajectory) needed to learn the DDAG is $n=\Theta(q\log(p/q))$, where $p$ is the number of nodes and $q$ is the maximum number of parents per node. To prove the sample complexity upper bound, a concentration bound for the PSD estimation is derived, under two different sampling strategies. A matching min-max lower bound using generalized Fano's inequality also is provided, thus showing the order optimality of the proposed algorithm.
翻訳日:2023-09-01 13:42:24 公開日:2023-08-31
# スパースSVMの磁化最小化

Majorization-Minimization for sparse SVMs ( http://arxiv.org/abs/2308.16858v1 )

ライセンス: Link先を確認
Alessandro Benfenati, Emilie Chouzenoux, Giorgia Franchini, Salla Latva-Aijo, Dominik Narnhofer, Jean-Christophe Pesquet, Sebastian J. Scott, Mahsa Yousefi(参考訳) 数十年前、SVM(Support Vector Machines)は、教師付きフレームワークの下でバイナリ分類タスクを実行するために導入された。 今日では、彼らはしばしば他の教師付き手法よりも優れており、機械学習分野において最も人気のあるアプローチの1つである。 本研究では,スムーズなスパースプロモーティング型正方形ヒンジ損失最小化によるSVMのトレーニングについて検討する。 この選択は、メジャー化最小化アプローチに基づいた素早いトレーニング手法の適用への道を開き、損失関数のリプシッツ微分の恩恵を受ける。 さらに,提案手法により,最も重要な特徴の選択を促進するスパルシリティ保存レギュラライザの処理が可能となり,性能が向上した。 3つの異なるデータセットで行った数値実験と比較は、定性的な指標(精度、精度、リコール、F1スコア)と計算コストの観点から提案手法の優れた性能を示す。

Several decades ago, Support Vector Machines (SVMs) were introduced for performing binary classification tasks, under a supervised framework. Nowadays, they often outperform other supervised methods and remain one of the most popular approaches in the machine learning arena. In this work, we investigate the training of SVMs through a smooth sparse-promoting-regularized squared hinge loss minimization. This choice paves the way to the application of quick training methods built on majorization-minimization approaches, benefiting from the Lipschitz differentiabililty of the loss function. Moreover, the proposed approach allows us to handle sparsity-preserving regularizers promoting the selection of the most significant features, so enhancing the performance. Numerical tests and comparisons conducted on three different datasets demonstrate the good performance of the proposed methodology in terms of qualitative metrics (accuracy, precision, recall, and F 1 score) as well as computational cost.
翻訳日:2023-09-01 13:41:52 公開日:2023-08-31
# iomt-blockchainを用いた神経刺激装置の遠隔患者監視フレームワーク

IoMT-Blockchain based Secured Remote Patient Monitoring Framework for Neuro-Stimulation Device ( http://arxiv.org/abs/2308.16857v1 )

ライセンス: Link先を確認
Md Sakib Ullah Sourav, Mohammad Sultan Mahmud, Md Simul Hasan Talukder, Rejwan Bin Sulaiman, Abdullah Yasin(参考訳) バイオメディカル・エンジニアリングのIoMT(Internet of Medical Things)は、医療分野における電子機器の正確性、信頼性、生産性の向上を支援する。 患者からのリアルタイムの知覚データは、様々な機能を持つ神経刺激デバイスのようなウェアラブルIoMTデバイスの迅速な開発を通じて配信され、分析される。 モノのインターネットからのデータは収集され、分析され、単一の場所に保存される。 しかしながら、単一ポイントの障害、データ操作、プライバシの困難、その他の課題は、集中化の結果生じる可能性がある。 分散的な性質から、ブロックチェーン(bc)はこれらの問題を緩和することができる。 IoMTを用いた経頭蓋直流刺激を用いた非侵襲的遠隔神経刺激システムの構築の可能性について検討した。 ハードウェアベースのプロトタイプ tDCS デバイスが開発され,アンドロイドアプリケーションを用いてインターネット上で動作可能である。 提案フレームワークは,IoMTBCに基づくシステムの問題に対処し,リアルタイム遠隔患者監視システムの基準を満たし,文献のベストプラクティスを関連分野に組み込む。

Biomedical Engineering's Internet of Medical Things (IoMT) is helping to improve the accuracy, dependability, and productivity of electronic equipment in the healthcare business. Real-time sensory data from patients may be delivered and subsequently analyzed through rapid development of wearable IoMT devices, such as neuro-stimulation devices with a range of functions. Data from the Internet of Things is gathered, analyzed, and stored in a single location. However, single-point failure, data manipulation, privacy difficulties, and other challenges might arise as a result of centralization. Due to its decentralized nature, blockchain (BC) can alleviate these issues. The viability of establishing a non-invasive remote neurostimulation system employing IoMT-based transcranial Direct Current Stimulation is investigated in this work (tDCS). A hardware-based prototype tDCS device has been developed that can be operated over the internet using an android application. Our suggested framework addresses the problems of IoMTBC-based systems, meets the criteria of real-time remote patient monitoring systems, and incorporates literature best practices in the relevant fields.
翻訳日:2023-09-01 13:41:34 公開日:2023-08-31
# 励起状態の自然量子モンテカルロ計算

Natural Quantum Monte Carlo Computation of Excited States ( http://arxiv.org/abs/2308.16848v1 )

ライセンス: Link先を確認
David Pfau and Simon Axelrod and Halvard Sutterud and Ingrid von Glehn and James S. Spencer(参考訳) 本稿では,基底状態推定の自然な一般化である量子システムの最小励起状態推定のための変分モンテカルロアルゴリズムを提案する。 この方法は自由パラメータを持たず、異なる状態の明示的な直交化を必要とせず、代わりに与えられた系の励起状態を見つける問題を拡張系の基底状態を見つける問題に変換する。 任意の観測可能量の期待値は、遷移双極子モーメントのような異なる状態間の非対角予測を含む計算可能である。 本手法は完全に汎用的ではあるが, ニューラルネットワークを多電子系における変分アンサツェとして利用する最近の研究と組み合わせて, この手法をFermiNetおよびPsiformer Ansatzeと組み合わせることで, ベンゼンほどの大きさの分子の垂直励起エネルギーと振動強度を正確に回復できることが示されている。 ここで示される分子の例の他に、この手法が原子、原子、凝縮物質物理学への変分量子モンテカルロの応用に大きな関心を持つだろう。

We present a variational Monte Carlo algorithm for estimating the lowest excited states of a quantum system which is a natural generalization of the estimation of ground states. The method has no free parameters and requires no explicit orthogonalization of the different states, instead transforming the problem of finding excited states of a given system into that of finding the ground state of an expanded system. Expected values of arbitrary observables can be calculated, including off-diagonal expectations between different states such as the transition dipole moment. Although the method is entirely general, it works particularly well in conjunction with recent work on using neural networks as variational Ansatze for many-electron systems, and we show that by combining this method with the FermiNet and Psiformer Ansatze we can accurately recover vertical excitation energies and oscillator strengths on molecules as large as benzene. Beyond the examples on molecules presented here, we expect this technique will be of great interest for applications of variational quantum Monte Carlo to atomic, nuclear and condensed matter physics.
翻訳日:2023-09-01 13:41:14 公開日:2023-08-31
# 干渉型衛星開口レーダの拡散モデル

Diffusion Models for Interferometric Satellite Aperture Radar ( http://arxiv.org/abs/2308.16847v1 )

ライセンス: Link先を確認
Alexandre Tuel and Thomas Kerdreux and Claudia Hulbert and Bertrand Rouet-Leduc(参考訳) PDM(probabilistic Diffusion Models)は、最近、自然画像生成において高い性能を達成するために、非常に有望な生成モデルのクラスとして登場した。 しかし、レーダーベースの衛星データのような非自然画像と比較しての性能はほとんど不明である。 大量の合成(特にラベル付き)衛星データを生成することは、(インターフェロメトリ)衛星開口レーダデータの処理と解析のためのディープラーニングアプローチを実装するために重要である。 ここでは、PDMを利用して複数のレーダベースの衛星画像データセットを生成する。 PDMは複雑で現実的な構造を持つ画像を生成するのに成功するが、サンプリング時間は依然として問題である。 実際、mnistのような単純な画像データセットでうまく機能する加速サンプリング戦略は、我々のレーダーデータセットでは失敗する。 単一のGPU上のデータセットを使用して、PDMをトレーニング、サンプリング、評価するための、シンプルで汎用的なオープンソースhttps://github.com/thomaskerdreux/PDM_SAR_gene。

Probabilistic Diffusion Models (PDMs) have recently emerged as a very promising class of generative models, achieving high performance in natural image generation. However, their performance relative to non-natural images, like radar-based satellite data, remains largely unknown. Generating large amounts of synthetic (and especially labelled) satellite data is crucial to implement deep-learning approaches for the processing and analysis of (interferometric) satellite aperture radar data. Here, we leverage PDMs to generate several radar-based satellite image datasets. We show that PDMs succeed in generating images with complex and realistic structures, but that sampling time remains an issue. Indeed, accelerated sampling strategies, which work well on simple image datasets like MNIST, fail on our radar datasets. We provide a simple and versatile open-source https://github.com/thomaskerdreux/PDM_SAR_InSAR_generation to train, sample and evaluate PDMs using any dataset on a single GPU.
翻訳日:2023-09-01 13:40:56 公開日:2023-08-31
# 言語記述パスプランニング

Language-Conditioned Path Planning ( http://arxiv.org/abs/2308.16893v1 )

ライセンス: Link先を確認
Amber Xie, Youngwoon Lee, Pieter Abbeel, Stephen James(参考訳) 接触はロボット操作の中核にある。 時には(操作や把持など)望んでおり、時には(障害物を避ける場合など)有害である。 しかし、従来の経路計画アルゴリズムは衝突のない経路のみに重点を置いており、接触に富むタスクに適用性を制限する。 この制限に対処するため、我々は、経路計画問題に接触認識を組み込む言語定義経路計画の領域を提案する。 この領域の最初のステップとして,単一視点画像,言語プロンプト,ロボット構成のみを用いて衝突関数を学習する新しいアプローチであるLanguage-Conditioned Collision Function (LACO)を提案する。 LACOはロボットと環境の衝突を予測し、手動のオブジェクトアノテーション、ポイントクラウドデータ、地平線のオブジェクトメッシュを必要としない柔軟な条件付きパス計画を可能にする。 シミュレーションと実世界の両方において、LACOは衝突を禁止せず、衝突の安全な物体との相互作用を可能にする複雑な、ニュアンスのある経路計画を促進することを実証している。

Contact is at the core of robotic manipulation. At times, it is desired (e.g. manipulation and grasping), and at times, it is harmful (e.g. when avoiding obstacles). However, traditional path planning algorithms focus solely on collision-free paths, limiting their applicability in contact-rich tasks. To address this limitation, we propose the domain of Language-Conditioned Path Planning, where contact-awareness is incorporated into the path planning problem. As a first step in this domain, we propose Language-Conditioned Collision Functions (LACO) a novel approach that learns a collision function using only a single-view image, language prompt, and robot configuration. LACO predicts collisions between the robot and the environment, enabling flexible, conditional path planning without the need for manual object annotations, point cloud data, or ground-truth object meshes. In both simulation and the real world, we demonstrate that LACO can facilitate complex, nuanced path plans that allow for interaction with objects that are safe to collide, rather than prohibiting any collision.
翻訳日:2023-09-01 13:35:09 公開日:2023-08-31
# ReZero: 地域音の除去

ReZero: Region-customizable Sound Extraction ( http://arxiv.org/abs/2308.16892v1 )

ライセンス: Link先を確認
Rongzhi Gu, Yi Luo(参考訳) 本稿では,マルチチャネル領域ワイド音声抽出(R-SE)タスクのための汎用かつ柔軟なフレームワークReZeroを紹介する。 R-SEタスクは、視覚的分離や固定された空間的領域が典型的に想定される従来のタスクとは異なる、特定のユーザ定義空間領域内で、アクティブなターゲット音(例えば、ヒューマンスピーチ)を抽出することを目的としている。 空間領域は、角窓、球面、円錐、その他の幾何学的パターンとして定義することができる。 R-SEタスクの解法として、(1)異なる空間領域の定義、(2)特徴抽出と集約のための方法、(3)R-SEタスクで指定された帯域分割RNN(BSRNN)モデルのマルチチャネル拡張を含むReZeroフレームワークを提案する。 我々は,様々なマイクロホンアレイ測地,異なるタイプの空間領域,および異なるシステム構成に関する包括的アブレーション実験を設計した。 シミュレーションデータと実記録データの両方の実験結果から,ReZeroの有効性が示された。 デモはhttps://innerselfm.github.io/rezero/で見ることができる。

We introduce region-customizable sound extraction (ReZero), a general and flexible framework for the multi-channel region-wise sound extraction (R-SE) task. R-SE task aims at extracting all active target sounds (e.g., human speech) within a specific, user-defined spatial region, which is different from conventional and existing tasks where a blind separation or a fixed, predefined spatial region are typically assumed. The spatial region can be defined as an angular window, a sphere, a cone, or other geometric patterns. Being a solution to the R-SE task, the proposed ReZero framework includes (1) definitions of different types of spatial regions, (2) methods for region feature extraction and aggregation, and (3) a multi-channel extension of the band-split RNN (BSRNN) model specified for the R-SE task. We design experiments for different microphone array geometries, different types of spatial regions, and comprehensive ablation studies on different system configurations. Experimental results on both simulated and real-recorded data demonstrate the effectiveness of ReZero. Demos are available at https://innerselfm.github.io/rezero/.
翻訳日:2023-09-01 13:34:49 公開日:2023-08-31
# GNFactor: 一般化可能なニューラルネットワークを用いたマルチタスクリアルロボット学習

GNFactor: Multi-Task Real Robot Learning with Generalizable Neural Feature Fields ( http://arxiv.org/abs/2308.16891v1 )

ライセンス: Link先を確認
Yanjie Ze, Ge Yan, Yueh-Hua Wu, Annabella Macaluso, Yuying Ge, Jianglong Ye, Nicklas Hansen, Li Erran Li, Xiaolong Wang(参考訳) ロボット工学における長年の問題であり、非構造化現実環境における視覚的な観察から多様な操作タスクを実行することができるエージェントを開発する。 この目的を達成するには、ロボットはシーンの3D構造と意味を包括的に理解する必要がある。 本稿では,マルチタスクロボット操作のための視覚行動クローニングエージェントである$\textbf{gnfactor}$,$\textbf{g}$eneralizable $\textbf{n}$eural feature $\textbf{f}$ields を提案する。 GNFactorは、再構成モジュールとしての一般化可能なニューラルネットワーク(GNF)と決定モジュールとしてのPerceiver Transformerを共同で最適化し、共有された深部3Dボクセル表現を活用する。 セマンティクスを3Dに組み込むため、再構成モジュールは視覚言語基盤モデル(\textit{e.g.}$, Stable Diffusion)を使用して、豊富なセマンティクス情報を深部3Dボクセルに蒸留する。 GNFactorを3つの実ロボットタスクで評価し、10のRLBenchタスクの詳細な改善を行い、限られた数の実演を行った。 GNFactorの強い一般化能力を実証し、現状の課題や目に見えない課題に対するGNFactorの大幅な改善を観察する。 プロジェクトのWebサイトはhttps://yanjieze.com/GNFactor/。

It is a long-standing problem in robotics to develop agents capable of executing diverse manipulation tasks from visual observations in unstructured real-world environments. To achieve this goal, the robot needs to have a comprehensive understanding of the 3D structure and semantics of the scene. In this work, we present $\textbf{GNFactor}$, a visual behavior cloning agent for multi-task robotic manipulation with $\textbf{G}$eneralizable $\textbf{N}$eural feature $\textbf{F}$ields. GNFactor jointly optimizes a generalizable neural field (GNF) as a reconstruction module and a Perceiver Transformer as a decision-making module, leveraging a shared deep 3D voxel representation. To incorporate semantics in 3D, the reconstruction module utilizes a vision-language foundation model ($\textit{e.g.}$, Stable Diffusion) to distill rich semantic information into the deep 3D voxel. We evaluate GNFactor on 3 real robot tasks and perform detailed ablations on 10 RLBench tasks with a limited number of demonstrations. We observe a substantial improvement of GNFactor over current state-of-the-art methods in seen and unseen tasks, demonstrating the strong generalization ability of GNFactor. Our project website is https://yanjieze.com/GNFactor/ .
翻訳日:2023-09-01 13:34:29 公開日:2023-08-31
# TouchStone: 言語モデルによる視覚言語モデルの評価

TouchStone: Evaluating Vision-Language Models by Language Models ( http://arxiv.org/abs/2308.16890v1 )

ライセンス: Link先を確認
Shuai Bai, Shusheng Yang, Jinze Bai, Peng Wang, Xingxuan Zhang, Junyang Lin, Xinggang Wang, Chang Zhou, Jingren Zhou(参考訳) 大規模視覚言語モデル(LVLM)は近年急速に進歩し、視覚受容体と大きな言語モデル(LLM)を接続することで視覚情報の認識、理解、処理に顕著な能力を発揮している。 しかし、現在の評価は、主に認識能力と推論能力、会話スキルの直接評価の欠如、視覚的ストーリーテリング能力の欠如に焦点を当てている。 本稿では,LVLMの様々な能力を総合的に評価するために,強力なLLMを裁判官として利用する評価手法を提案する。 まず,オープンワールド画像と質問からなる総合的なビジュアル対話データセット touchstone を構築し,5つの主要な能力カテゴリと27のサブタスクをカバーする。 このデータセットは基本的な認識と理解だけでなく、文学的創造にまで及ぶ。 次に、詳細な画像アノテーションを統合することで、マルチモーダル入力コンテンツをllmsで理解可能な形式に効果的に変換する。 これにより、人間の介入を必要とせずに、マルチモーダル対話の品質を直接評価するための高度なllmが利用できる。 検証を通じて,gpt-4などの強力なlvlmが,人間の好みに合わせて,テキスト能力のみを活用して対話品質を効果的に評価できることを実証する。 我々の研究がLVLMの評価の基礎となり、より強力なLVLMの構築の道を開くことを願っている。 評価コードはhttps://github.com/ofa-sys/touchstoneで入手できる。

Large vision-language models (LVLMs) have recently witnessed rapid advancements, exhibiting a remarkable capacity for perceiving, understanding, and processing visual information by connecting visual receptor with large language models (LLMs). However, current assessments mainly focus on recognizing and reasoning abilities, lacking direct evaluation of conversational skills and neglecting visual storytelling abilities. In this paper, we propose an evaluation method that uses strong LLMs as judges to comprehensively evaluate the various abilities of LVLMs. Firstly, we construct a comprehensive visual dialogue dataset TouchStone, consisting of open-world images and questions, covering five major categories of abilities and 27 subtasks. This dataset not only covers fundamental recognition and comprehension but also extends to literary creation. Secondly, by integrating detailed image annotations we effectively transform the multimodal input content into a form understandable by LLMs. This enables us to employ advanced LLMs for directly evaluating the quality of the multimodal dialogue without requiring human intervention. Through validation, we demonstrate that powerful LVLMs, such as GPT-4, can effectively score dialogue quality by leveraging their textual capabilities alone, aligning with human preferences. We hope our work can serve as a touchstone for LVLMs' evaluation and pave the way for building stronger LVLMs. The evaluation code is available at https://github.com/OFA-Sys/TouchStone.
翻訳日:2023-09-01 13:34:02 公開日:2023-08-31
# uav強化ネットワークにおける連合学習:ジョイントカバレッジと収束時間最適化

Federated Learning in UAV-Enhanced Networks: Joint Coverage and Convergence Time Optimization ( http://arxiv.org/abs/2308.16889v1 )

ライセンス: Link先を確認
Mariam Yahya, Setareh Maghsudi, and Slawomir Stanczak(参考訳) フェデレートラーニング(FL)には、ローカルデータを転送することなく共有モデルを協調的にトレーニングする複数のデバイスが含まれる。 FLは通信のオーバーヘッドを減らし、エネルギー資源の少ないUAV強化無線ネットワークにおいて有望な学習方法となる。 この可能性にもかかわらず、UAVに強化されたネットワークにFLを実装することは困難であり、カバー範囲を最大化する従来のUAV配置手法はFL遅延を著しく増加させる。 さらに、チャネル品質などの重要な変数に関する事前情報の不確実性と欠如が問題を悪化させる。 本稿では,UAV強化無線センサネットワーク(WSN)のエネルギー回収による統計的特性を初めて解析する。 次に,多目的多腕バンディット理論に基づくモデルと解法を開発し,fl遅延を最小限に抑えながらネットワークカバレッジを最大化する。 さらに,UAVにおける大きなアクションセットと厳密なエネルギー制約に特に有用である別の方法を提案する。 提案手法は,各ラウンドの1つ以上のアームを順次除去することにより,期待する報酬と期待エネルギーコストの比率を最大化する最適アームを求めるために,スカラー化されたベストアーム識別アルゴリズムを用いる。 次に,多目的・コスト対応アルゴリズムの誤差確率の上限を導出する。 数値実験の結果,本手法の有効性が示された。

Federated learning (FL) involves several devices that collaboratively train a shared model without transferring their local data. FL reduces the communication overhead, making it a promising learning method in UAV-enhanced wireless networks with scarce energy resources. Despite the potential, implementing FL in UAV-enhanced networks is challenging, as conventional UAV placement methods that maximize coverage increase the FL delay significantly. Moreover, the uncertainty and lack of a priori information about crucial variables, such as channel quality, exacerbate the problem. In this paper, we first analyze the statistical characteristics of a UAV-enhanced wireless sensor network (WSN) with energy harvesting. We then develop a model and solution based on the multi-objective multi-armed bandit theory to maximize the network coverage while minimizing the FL delay. Besides, we propose another solution that is particularly useful with large action sets and strict energy constraints at the UAVs. Our proposal uses a scalarized best-arm identification algorithm to find the optimal arms that maximize the ratio of the expected reward to the expected energy cost by sequentially eliminating one or more arms in each round. Then, we derive the upper bound on the error probability of our multi-objective and cost-aware algorithm. Numerical results show the effectiveness of our approach.
翻訳日:2023-09-01 13:33:40 公開日:2023-08-31
# 機械学習によるブロック共重合体の形態予測

Prediction of Diblock Copolymer Morphology via Machine Learning ( http://arxiv.org/abs/2308.16886v1 )

ライセンス: Link先を確認
Hyun Park, Boyuan Yu, Juhae Park, Ge Sun, Emad Tajkhorshid, Juan J. de Pablo, and Ludwig Schneider(参考訳) 長期にわたる大規模ドメインに対するブロックポリマーのモルフォロジー進化の計算を高速化する機械学習手法を提案する。 この戦略は, モノマースケールにおける粗粒粒子の粒度変化と, メソスコピックスケールにおけるスローモルフォロジー進化の分離を生かしている。 経験的連続体モデルとは対照的に,提案手法は粒子シミュレーションから直接確率論的に駆動された欠陥消滅過程を学習する。 異なる境界条件を尊重するunetアーキテクチャを採用し、任意の形状の周期的および固定的な基板境界条件を許容する。 物理概念は損失関数を通しても導入され、対称性はデータ拡張によって取り入れられる。 モデルは3つの異なるユースケースで検証される。 説明可能な人工知能手法を用いて、時間とともに形態の進化を可視化する。 このアプローチにより、大きなシステムサイズと長い軌道を生成して、異なる種類の閉じ込め下で欠陥密度とその進化を調査することができる。 応用として,1ブロック内の粒子拡散を理解するために,後期形態素にアクセスすることの重要性を示す。 この研究は、指向的な自己組織化とマイクロエレクトロニクス、電池材料、膜の設計に影響を及ぼす。

A machine learning approach is presented to accelerate the computation of block polymer morphology evolution for large domains over long timescales. The strategy exploits the separation of characteristic times between coarse-grained particle evolution on the monomer scale and slow morphological evolution over mesoscopic scales. In contrast to empirical continuum models, the proposed approach learns stochastically driven defect annihilation processes directly from particle-based simulations. A UNet architecture that respects different boundary conditions is adopted, thereby allowing periodic and fixed substrate boundary conditions of arbitrary shape. Physical concepts are also introduced via the loss function and symmetries are incorporated via data augmentation. The model is validated using three different use cases. Explainable artificial intelligence methods are applied to visualize the morphology evolution over time. This approach enables the generation of large system sizes and long trajectories to investigate defect densities and their evolution under different types of confinement. As an application, we demonstrate the importance of accessing late-stage morphologies for understanding particle diffusion inside a single block. This work has implications for directed self-assembly and materials design in micro-electronics, battery materials, and membranes.
翻訳日:2023-09-01 13:33:15 公開日:2023-08-31
# Belebeleベンチマーク:122の言語変数における並列読み込みデータセット

The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants ( http://arxiv.org/abs/2308.16884v1 )

ライセンス: Link先を確認
Lucas Bandarkar, Davis Liang, Benjamin Muller, Mikel Artetxe, Satya Narayan Shukla, Donald Husa, Naman Goyal, Abhinandan Krishnan, Luke Zettlemoyer, Madian Khabsa(参考訳) 本稿では,122言語にまたがるMultiple-choice Machine read comprehension (MRC)データセットについて述べる。 このデータセットは、自然言語理解(NLU)ベンチマークの言語カバレッジを著しく拡大し、高、中、低リソース言語におけるテキストモデルの評価を可能にする。 各質問はFlores-200データセットからの短いパスに基づいており、複数の回答が4つある。 質問は、言語理解のレベルが異なるモデル間で識別するために慎重に収集された。 英語のデータセット自体が、最先端の言語モデルに挑戦するのは難しいことを証明している。 完全な並列性を持つこのデータセットは、すべての言語でモデルパフォーマンスを直接比較することができる。 このデータセットを用いて、多言語マスキング言語モデル(MLM)と大規模言語モデル(LLM)の機能を評価する。 英語中心のllmでは言語間移動が著しいにもかかわらず、バランスのとれた多言語データに基づいて事前学習されたmlmは、まだまだ多くの言語を理解できていることが判明した。 また,より大きい語彙サイズと意識的な語彙構成は,低リソース言語の性能と相関することを示した。 全体として、BelebeleはNLPシステムの多言語機能の評価と解析のための新しい道を開く。

We present Belebele, a multiple-choice machine reading comprehension (MRC) dataset spanning 122 language variants. Significantly expanding the language coverage of natural language understanding (NLU) benchmarks, this dataset enables the evaluation of text models in high-, medium-, and low-resource languages. Each question is based on a short passage from the Flores-200 dataset and has four multiple-choice answers. The questions were carefully curated to discriminate between models with different levels of general language comprehension. The English dataset on its own proves difficult enough to challenge state-of-the-art language models. Being fully parallel, this dataset enables direct comparison of model performance across all languages. We use this dataset to evaluate the capabilities of multilingual masked language models (MLMs) and large language models (LLMs). We present extensive results and find that despite significant cross-lingual transfer in English-centric LLMs, much smaller MLMs pretrained on balanced multilingual data still understand far more languages. We also observe that larger vocabulary size and conscious vocabulary construction correlate with better performance on low-resource languages. Overall, Belebele opens up new avenues for evaluating and analyzing the multilingual capabilities of NLP systems.
翻訳日:2023-09-01 13:32:58 公開日:2023-08-31
# Text2Scene: パーツを意識したテキスト駆動型屋内スタイリング

Text2Scene: Text-driven Indoor Scene Stylization with Part-aware Details ( http://arxiv.org/abs/2308.16880v1 )

ライセンス: Link先を確認
Inwoo Hwang, Hyeonwoo Kim, Young Min Kim(参考訳) 複数のオブジェクトからなる仮想シーンの現実的なテクスチャを自動生成するText2Sceneを提案する。 参照画像とテキスト記述に導かれたパイプラインでは,部屋内のラベル付き3dジオメトリに詳細なテクスチャを追加して,生成した色が,しばしば類似する材料で構成される階層構造や意味部品を尊重する。 1つのステップでシーン全体にフラットなスタイリングを適用する代わりに、幾何学的セグメンテーションから弱いセグメンテーションの手がかりを得る。 次に,個々のオブジェクトに対してテクスチャの詳細を付加し,画像空間上の投影が入力の埋め込みと整合した特徴埋め込みを示す。 この分解により、パイプライン全体が適度な量の計算リソースとメモリに牽引可能である。 我々のフレームワークは既存の画像やテキストの埋め込みの資源を利用するため、熟練アーティストがデザインした高品質なテクスチャを備えた専用のデータセットを必要としない。 私たちの知る限りでは、複数のオブジェクトを持つシーンの構造的コンテキストを維持するために、望ましいスタイルの詳細的で現実的なテクスチャを作成できる、初めての実用的でスケーラブルなアプローチです。

We propose Text2Scene, a method to automatically create realistic textures for virtual scenes composed of multiple objects. Guided by a reference image and text descriptions, our pipeline adds detailed texture on labeled 3D geometries in the room such that the generated colors respect the hierarchical structure or semantic parts that are often composed of similar materials. Instead of applying flat stylization on the entire scene at a single step, we obtain weak semantic cues from geometric segmentation, which are further clarified by assigning initial colors to segmented parts. Then we add texture details for individual objects such that their projections on image space exhibit feature embedding aligned with the embedding of the input. The decomposition makes the entire pipeline tractable to a moderate amount of computation resources and memory. As our framework utilizes the existing resources of image and text embedding, it does not require dedicated datasets with high-quality textures designed by skillful artists. To the best of our knowledge, it is the first practical and scalable approach that can create detailed and realistic textures of the desired style that maintain structural context for scenes with multiple objects.
翻訳日:2023-09-01 13:32:37 公開日:2023-08-31
# フェアネス認識因果モデルに対する適応速度解析

Adaptation Speed Analysis for Fairness-aware Causal Models ( http://arxiv.org/abs/2308.16879v1 )

ライセンス: Link先を確認
Yujie Lin, Chen Zhao, Minglai Shao, Xujiang Zhao, Haifeng Chen(参考訳) 例えば、機械翻訳タスクでは、2つの言語間の双方向翻訳を達成するために、ソースコーパスがターゲットコーパスとしてよく使われ、これは反対方向の2つのモデルのトレーニングを伴う。 ドメインシフトに最も早く適応できるかという問題は、多くの分野において非常に重要である。 特に、未知の介入によって変化する元の分布 p を考えると、修正された分布 p* が得られる。 p を p* に合わせる場合、p の変数間の因果依存性を含むいくつかの因子が適応率に影響を与える。 しかし、実際のシナリオでは、トレーニングプロセスの公平性を考慮する必要があり、特に、原因と効果変数の間にある敏感な変数(バイアス)を関与させることが重要である。 このシナリオを考察するために、変数Aが原因(X)と影響(Y)の間の敏感な変数として機能する原因バイアス効果構造を持つ単純な構造因果モデル(SCM)について検討する。 2つのモデルはそれぞれ、原因バイアス効果SCMにおいて、一貫性と反対の原因影響方向を示す。 SCM内の変数に対する未知の介入を行った後、分析のためにある種のドメインシフトをシミュレートすることができる。 次に,2つのモデルの適応速度を4つのシフトシナリオで比較する。 さらに,全ての介入における2つのモデルの適応速度の関連性を証明する。

For example, in machine translation tasks, to achieve bidirectional translation between two languages, the source corpus is often used as the target corpus, which involves the training of two models with opposite directions. The question of which one can adapt most quickly to a domain shift is of significant importance in many fields. Specifically, consider an original distribution p that changes due to an unknown intervention, resulting in a modified distribution p*. In aligning p with p*, several factors can affect the adaptation rate, including the causal dependencies between variables in p. In real-life scenarios, however, we have to consider the fairness of the training process, and it is particularly crucial to involve a sensitive variable (bias) present between a cause and an effect variable. To explore this scenario, we examine a simple structural causal model (SCM) with a cause-bias-effect structure, where variable A acts as a sensitive variable between cause (X) and effect (Y). The two models, respectively, exhibit consistent and contrary cause-effect directions in the cause-bias-effect SCM. After conducting unknown interventions on variables within the SCM, we can simulate some kinds of domain shifts for analysis. We then compare the adaptation speeds of two models across four shift scenarios. Additionally, we prove the connection between the adaptation speeds of the two models across all interventions.
翻訳日:2023-09-01 13:32:16 公開日:2023-08-31
# SportsSloMo:人間中心のビデオフレーム補間のためのベンチマークとベースライン

SportsSloMo: A New Benchmark and Baselines for Human-centric Video Frame Interpolation ( http://arxiv.org/abs/2308.16876v1 )

ライセンス: Link先を確認
Jiaben Chen, Huaizu Jiang(参考訳) 人間中心のビデオフレーム補間は、人々のエンターテイメント体験を改善し、スローモーションビデオの合成などスポーツ分析業界における商業的応用を見つける大きな可能性を秘めている。 コミュニティには複数のベンチマークデータセットがあるが、人間中心のシナリオに特化したものはない。 このギャップを埋めるために、私たちはsportsslomoを紹介します。これは130万以上のビデオクリップと、youtubeからクロールされた高解像度(約720p)のスローモーションスポーツビデオの100万フレームからなるベンチマークです。 ベンチマークでは,いくつかの最先端手法を再トレーニングし,他のデータセットと比較して精度が低下することを示した。 これは我々のベンチマークの難しさを強調するものであり、人体は変形性が高く、オクルージョンはスポーツビデオで頻繁に見られるため、最もパフォーマンスの良い方法であっても重大な課題をもたらすことを示唆する。 精度を向上させるために,人間の認識前処理を考慮した2つの損失項を導入し,それぞれパノプティカルセグメンテーションとヒューマンキーポイント検出に補助的監督を加える。 損失項はモデル非依存であり、任意のビデオフレーム補間アプローチに簡単に接続できる。 実験の結果,提案した損失項の有効性が検証され,既存の5つのモデルに対して一貫した性能向上が達成された。 データセットとコードは、https://neu-vi.github.io/sportsslomo/で見ることができる。

Human-centric video frame interpolation has great potential for improving people's entertainment experiences and finding commercial applications in the sports analysis industry, e.g., synthesizing slow-motion videos. Although there are multiple benchmark datasets available in the community, none of them is dedicated for human-centric scenarios. To bridge this gap, we introduce SportsSloMo, a benchmark consisting of more than 130K video clips and 1M video frames of high-resolution ($\geq$720p) slow-motion sports videos crawled from YouTube. We re-train several state-of-the-art methods on our benchmark, and the results show a decrease in their accuracy compared to other datasets. It highlights the difficulty of our benchmark and suggests that it poses significant challenges even for the best-performing methods, as human bodies are highly deformable and occlusions are frequent in sports videos. To improve the accuracy, we introduce two loss terms considering the human-aware priors, where we add auxiliary supervision to panoptic segmentation and human keypoints detection, respectively. The loss terms are model agnostic and can be easily plugged into any video frame interpolation approaches. Experimental results validate the effectiveness of our proposed loss terms, leading to consistent performance improvement over 5 existing models, which establish strong baseline models on our benchmark. The dataset and code can be found at: https://neu-vi.github.io/SportsSlomo/.
翻訳日:2023-09-01 13:31:55 公開日:2023-08-31
# 高コントラストイメージングにおけるKarhunen-Lo\eveデータ計算

Karhunen-Lo\`eve Data Imputation in High Contrast Imaging ( http://arxiv.org/abs/2308.16912v1 )

ライセンス: Link先を確認
Bin B. Ren(参考訳) 拡張構造の検出とキャラクタリゼーションは、高コントラストイメージングの重要な目標である。 しかし、これらの構造はデータ削減の課題に直面し、スペックルからの過剰な減算や既存の手法での自己減算に繋がる。 反復的な後処理手法は有望な結果をもたらすが、既存のパイプラインへの統合は選択アルゴリズム、高い計算コスト、アルゴリズム正規化によって妨げられる。 本稿では、参照微分イメージング(RDI)のために、標準のKarhunen-Lo\`eve画像投影(KLIP)法における2つのステップを修正して、データ計算の概念をKarhunen-Lo\`eve変換(DIKL)に提案する。 具体的には,DIKL係数を得るためにスペックルのみに焦点をあてるアンカー行列と,DIKL成分を用いたスペックル除去のための天体物理学的関心領域に焦点をあてるボート行列の2つの行列に分割する。 解析的なアプローチとして、DIKLは計算コストを著しく削減した高品質な結果を得る(反復法よりも約3桁少ない)。 KLIPの微分法であるDIKLは、RDI観測のための高コントラスト撮像パイプラインにシームレスに積分可能である。

Detection and characterization of extended structures is a crucial goal in high contrast imaging. However, these structures face challenges in data reduction, leading to over-subtraction from speckles and self-subtraction with most existing methods. Iterative post-processing methods offer promising results, but their integration into existing pipelines is hindered by selective algorithms, high computational cost, and algorithmic regularization. To address this for reference differential imaging (RDI), here we propose the data imputation concept to Karhunen-Lo\`eve transform (DIKL) by modifying two steps in the standard Karhunen-Lo\`eve image projection (KLIP) method. Specifically, we partition an image to two matrices: an anchor matrix which focuses only on the speckles to obtain the DIKL coefficients, and a boat matrix which focuses on the regions of astrophysical interest for speckle removal using DIKL components. As an analytical approach, DIKL achieves high-quality results with significantly reduced computational cost (~3 orders of magnitude less than iterative methods). Being a derivative method of KLIP, DIKL is seamlessly integrable into high contrast imaging pipelines for RDI observations.
翻訳日:2023-09-01 13:24:45 公開日:2023-08-31
# pointllm: 大きな言語モデルにポイントクラウドを理解する権限を与える

PointLLM: Empowering Large Language Models to Understand Point Clouds ( http://arxiv.org/abs/2308.16911v1 )

ライセンス: Link先を確認
Runsen Xu, Xiaolong Wang, Tai Wang, Yilun Chen, Jiangmiao Pang, Dahua Lin(参考訳) 大規模言語モデル(LLM)における前例のない進歩は、自然言語処理に大きな影響を与えたが、3D理解の領域を完全には受け入れていない。 本稿では,このギャップを埋めるための予備的な取り組みであるpointllmについて紹介する。 pointllmは、色付きのオブジェクトポイント雲を人間の指示で処理し、コンテキスト的に適切な応答を生成し、ポイントクラウドと常識の把握を示す。 具体的には、ポイントクラウドエンコーダと強力なLCMを利用して、幾何学、外観、言語情報を効果的に融合する。 660Kの単純および70Kの複雑な点文命令ペアからなる新しいデータセットを収集し、2段階のトレーニング戦略を実現する。 モデルの知覚能力とその一般化能力を厳密に評価するために,生成的3dオブジェクト分類と3dオブジェクトキャプションの2つのベンチマークを,人間評価,gpt-4/chatgpt評価,従来型メトリクスの3つの手法で評価した。 実験の結果,PointLLMは既存の2次元ベースラインよりも優れた性能を示した。 驚くべきことに、人間の評価対象キャプションタスクでは、pointllmは50%以上のサンプルで人間の注釈を上回っている。 コード、データセット、ベンチマークはhttps://github.com/OpenRobotLab/PointLLM で公開されている。

The unprecedented advancements in Large Language Models (LLMs) have created a profound impact on natural language processing but are yet to fully embrace the realm of 3D understanding. This paper introduces PointLLM, a preliminary effort to fill this gap, thereby enabling LLMs to understand point clouds and offering a new avenue beyond 2D visual data. PointLLM processes colored object point clouds with human instructions and generates contextually appropriate responses, illustrating its grasp of point clouds and common sense. Specifically, it leverages a point cloud encoder with a powerful LLM to effectively fuse geometric, appearance, and linguistic information. We collect a novel dataset comprising 660K simple and 70K complex point-text instruction pairs to enable a two-stage training strategy: initially aligning latent spaces and subsequently instruction-tuning the unified model. To rigorously evaluate our model's perceptual abilities and its generalization capabilities, we establish two benchmarks: Generative 3D Object Classification and 3D Object Captioning, assessed through three different methods, including human evaluation, GPT-4/ChatGPT evaluation, and traditional metrics. Experiment results show that PointLLM demonstrates superior performance over existing 2D baselines. Remarkably, in human-evaluated object captioning tasks, PointLLM outperforms human annotators in over 50% of the samples. Codes, datasets, and benchmarks are available at https://github.com/OpenRobotLab/PointLLM .
翻訳日:2023-09-01 13:24:24 公開日:2023-08-31
# StyleInV:無条件ビデオ生成のためのテンポラルスタイル変調インバージョンネットワーク

StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation ( http://arxiv.org/abs/2308.16909v1 )

ライセンス: Link先を確認
Yuhan Wang, Liming Jiang, Chen Change Loy(参考訳) 非条件のビデオ生成は、コヒーレントで長寿命の高品質なビデオを合成する難題である。 この課題に対処するために、研究者は高品質なフレーム合成のために事前訓練されたStyleGANイメージジェネレータを使用し、モーションジェネレータの設計に焦点を当てた。 動画生成時の動作コヒーレンスを確保するために、重い3D畳み込みディスクリミネータを用いて自己回帰的にトレーニングする。 本稿では,GANのための学習型インバージョンネットワークを用いた新しいモーションジェネレータの設計を提案する。 提案手法のエンコーダは,画像からレイトントへの符号化から,リッチでスムーズな先行情報をキャプチャし,初期生成フレームの潜時をガイダンスとして与えることで,インバージョンエンコーダを時間的に調整することで,スムーズな未来潜時を生成することができる。 本手法はスパーストレーニングの利点を享受し,初期フレームに誘導された逆ネットワークにより運動発生器の生成空間を自然に制約し,重い判別器を不要にする。 さらに,エンコーダを事前学習したStyleGANジェネレータと組み合わせた場合,簡単な微調整でスタイル転送をサポートする。 様々なベンチマークで実施した大規模な実験は, 良好な単フレーム品質と時間的整合性を有する長大・高精細ビデオの生成において, 提案手法の優位性を示すものである。

Unconditional video generation is a challenging task that involves synthesizing high-quality videos that are both coherent and of extended duration. To address this challenge, researchers have used pretrained StyleGAN image generators for high-quality frame synthesis and focused on motion generator design. The motion generator is trained in an autoregressive manner using heavy 3D convolutional discriminators to ensure motion coherence during video generation. In this paper, we introduce a novel motion generator design that uses a learning-based inversion network for GAN. The encoder in our method captures rich and smooth priors from encoding images to latents, and given the latent of an initially generated frame as guidance, our method can generate smooth future latent by modulating the inversion encoder temporally. Our method enjoys the advantage of sparse training and naturally constrains the generation space of our motion generator with the inversion network guided by the initial frame, eliminating the need for heavy discriminators. Moreover, our method supports style transfer with simple fine-tuning when the encoder is paired with a pretrained StyleGAN generator. Extensive experiments conducted on various benchmarks demonstrate the superiority of our method in generating long and high-resolution videos with decent single-frame quality and temporal consistency.
翻訳日:2023-09-01 13:23:58 公開日:2023-08-31
# 相関認識ホモグラフィ推定器を用いた細粒度クロスビュージオローカライズ

Fine-Grained Cross-View Geo-Localization Using a Correlation-Aware Homography Estimator ( http://arxiv.org/abs/2308.16906v1 )

ライセンス: Link先を確認
Xiaolong Wang, Runsen Xu, Zuofan Cui, Zeyu Wan, Yu Zhang(参考訳) 本稿では,細粒度断面地形定位に対する新しいアプローチを提案する。 提案手法は,同領域をカバーするGPSタグ付き衛星画像と,同領域をホログラフィー推定により照合する。 まず,幾何学的原理に準拠した微分可能な球面変換を用い,地上画像の視点を衛星地図と正確に一致させる。 この変換は、地上と空中の画像を同一のビューと同一平面に効果的に配置し、タスクを画像アライメント問題に還元する。 閉塞, 重複範囲の縮小, 季節変動などの課題に対処するため, 衛星画像と変換された地上画像の類似部分を調整するためのロバストな相関認識ホモグラフィ推定器を提案する。 本手法は,ホモグラフィマトリクスを用いて変換された地上画像の中心点を衛星画像にマッピングし,中央軸上の点を用いて地上カメラの向きを決定することで,サブピクセル分解能とメータレベルのgps精度を実現する。 提案手法は30FPSの速度で動作し,平均値の局所化誤差を21.3%,32.4%,VIGORベンチマークで32.4%,KITTIベンチマークで34.4%低減する。

In this paper, we introduce a novel approach to fine-grained cross-view geo-localization. Our method aligns a warped ground image with a corresponding GPS-tagged satellite image covering the same area using homography estimation. We first employ a differentiable spherical transform, adhering to geometric principles, to accurately align the perspective of the ground image with the satellite map. This transformation effectively places ground and aerial images in the same view and on the same plane, reducing the task to an image alignment problem. To address challenges such as occlusion, small overlapping range, and seasonal variations, we propose a robust correlation-aware homography estimator to align similar parts of the transformed ground image with the satellite image. Our method achieves sub-pixel resolution and meter-level GPS accuracy by mapping the center point of the transformed ground image to the satellite image using a homography matrix and determining the orientation of the ground camera using a point above the central axis. Operating at a speed of 30 FPS, our method outperforms state-of-the-art techniques, reducing the mean metric localization error by 21.3% and 32.4% in same-area and cross-area generalization tasks on the VIGOR benchmark, respectively, and by 34.4% on the KITTI benchmark in same-area evaluation.
翻訳日:2023-09-01 13:23:30 公開日:2023-08-31
# InterDiff:物理インフォームド拡散による3次元物体相互作用の生成

InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion ( http://arxiv.org/abs/2308.16905v1 )

ライセンス: Link先を確認
Sirui Xu, Zhengyuan Li, Yu-Xiong Wang, Liang-Yan Gui(参考訳) 本稿では,3次元物体相互作用(HOI)を予測できる新しい課題について述べる。 hoi合成に関する既存の研究のほとんどは、動的オブジェクトとの包括的な全身的相互作用を欠いている。 様々な形状の動的物体をモデル化し、全身の動きをキャプチャし、物理的に有効な相互作用を確保する必要がある。 この目的のために,2つの重要なステップからなるフレームワークであるInterDiffを提案する。 (i)人間と物体の相互作用の分布を符号化するために拡散モデルを利用する相互作用拡散 (II) 相互作用補正では, 物理インフォームド予測器を導入し, 拡散段階における解像HOIを補正する。 我々の重要な洞察は、接触点に対する参照下の相互作用が単純なパターンに従い、容易に予測可能であるという事前知識を注入することである。 複数の人-物間相互作用データセットを用いた実験は,本手法の有効性を実証し,現実的で,鮮明で,かつ,極めて長期にわたる3D HOI予測を実現する。

This paper addresses a novel task of anticipating 3D human-object interactions (HOIs). Most existing research on HOI synthesis lacks comprehensive whole-body interactions with dynamic objects, e.g., often limited to manipulating small or static objects. Our task is significantly more challenging, as it requires modeling dynamic objects with various shapes, capturing whole-body motion, and ensuring physically valid interactions. To this end, we propose InterDiff, a framework comprising two key steps: (i) interaction diffusion, where we leverage a diffusion model to encode the distribution of future human-object interactions; (ii) interaction correction, where we introduce a physics-informed predictor to correct denoised HOIs in a diffusion step. Our key insight is to inject prior knowledge that the interactions under reference with respect to contact points follow a simple pattern and are easily predictable. Experiments on multiple human-object interaction datasets demonstrate the effectiveness of our method for this task, capable of producing realistic, vivid, and remarkably long-term 3D HOI predictions.
翻訳日:2023-09-01 13:23:05 公開日:2023-08-31
# 二重雑音線形システムのランダム化Kaczmarzアルゴリズムに関する一考察

A Note on Randomized Kaczmarz Algorithm for Solving Doubly-Noisy Linear Systems ( http://arxiv.org/abs/2308.16904v1 )

ライセンス: Link先を確認
El Houcine Bergou, Soumia Boucherouite, Aritra Dutta, Xin Li, Anna Ma(参考訳) 大規模線形システムである$Ax=b$は、実際にしばしば発生し、効果的な反復解法を必要とする。 これらのシステムは、運用上のエラーや故障したデータ収集プロセスのため、しばしばうるさい。 過去10年間、ランダム化カッツマルツ(RK)アルゴリズムは、そのようなシステムに対する効率的な反復解法として広く研究されてきた。 しかし、雑音系におけるRKの収束の研究は限定的であり、右辺ベクトルの計測ノイズを$b$とみなす。 残念ながら、実際にはそれは必ずしもそうではない。係数行列 $a$ もまた騒がしい。 本稿では,係数行列の$A$が,雑音ベクトルの$b$とともに加法雑音と乗法雑音の両方で劣化した場合に,雑音線形系に対するRKの収束を解析する。 我々の分析では、$\tilde R=\| \tilde A^{\dagger} \|_2^2 \|\tilde A \|_F^2$ が RK の収束に影響を与える。 我々はノイズレス係数行列($A$)に関する情報を必要とせず、ノイズの異なる条件を考慮してRKの収束を制御することができるので、我々の分析は堅牢で現実的に適用できると主張する。 総合的な数値実験を行うことで理論的知見を裏付ける。

Large-scale linear systems, $Ax=b$, frequently arise in practice and demand effective iterative solvers. Often, these systems are noisy due to operational errors or faulty data-collection processes. In the past decade, the randomized Kaczmarz (RK) algorithm has been studied extensively as an efficient iterative solver for such systems. However, the convergence study of RK in the noisy regime is limited and considers measurement noise in the right-hand side vector, $b$. Unfortunately, in practice, that is not always the case; the coefficient matrix $A$ can also be noisy. In this paper, we analyze the convergence of RK for noisy linear systems when the coefficient matrix, $A$, is corrupted with both additive and multiplicative noise, along with the noisy vector, $b$. In our analyses, the quantity $\tilde R=\| \tilde A^{\dagger} \|_2^2 \|\tilde A \|_F^2$ influences the convergence of RK, where $\tilde A$ represents a noisy version of $A$. We claim that our analysis is robust and realistically applicable, as we do not require information about the noiseless coefficient matrix, $A$, and considering different conditions on noise, we can control the convergence of RK. We substantiate our theoretical findings by performing comprehensive numerical experiments.
翻訳日:2023-09-01 13:22:45 公開日:2023-08-31
# 味を学習する:マルチモーダルワインデータセット

Learning to Taste: A Multimodal Wine Dataset ( http://arxiv.org/abs/2308.16900v1 )

ライセンス: Link先を確認
Thoranna Bender, Simon M{\o}e S{\o}rensen, Alireza Kashani, K. Eldjarn Hjorleifsson, Grethe Hyldig, S{\o}ren Hauberg, Serge Belongie and Frederik Warburg(参考訳) 我々は,視覚知覚,言語,風味の関係を研究するための大規模マルチモーダルワインデータセットである winesensed を提案する。 データセットには、ワインラベルの897k画像と、ヴィヴィノプラットフォームから収集されたワインの824kレビューが含まれている。 年間、地域、格付け、アルコール度数、価格、ブドウの組成でアノテートされた350k以上のユニークなビンテージを持つ。 味覚の類似性に基づいてワインのランク付けを依頼された256人の被験者を対象に, ワイン味覚実験を行い, 5k以上の香味距離が得られた。 人間の経験と自動機械類似性カーネルを組み合わせた低次元概念埋め込みアルゴリズムを提案する。 この共有概念埋め込み空間は,粗いフレーバー分類(アルコールパーセンテージ,国,ブドウ,価格,レーティング)のための別個の埋め込み空間を改良し,複雑なフレーバーの人間知覚に適合することを示す。

We present WineSensed, a large multimodal wine dataset for studying the relations between visual perception, language, and flavor. The dataset encompasses 897k images of wine labels and 824k reviews of wines curated from the Vivino platform. It has over 350k unique vintages, annotated with year, region, rating, alcohol percentage, price, and grape composition. We obtained fine-grained flavor annotations on a subset by conducting a wine-tasting experiment with 256 participants who were asked to rank wines based on their similarity in flavor, resulting in more than 5k pairwise flavor distances. We propose a low-dimensional concept embedding algorithm that combines human experience with automatic machine similarity kernels. We demonstrate that this shared concept embedding space improves upon separate embedding spaces for coarse flavor classification (alcohol percentage, country, grape, price, rating) and aligns with the intricate human perception of flavor.
翻訳日:2023-09-01 13:22:20 公開日:2023-08-31
# サポートベクターマシンとしてのトランスフォーマー

Transformers as Support Vector Machines ( http://arxiv.org/abs/2308.16898v1 )

ライセンス: Link先を確認
Davoud Ataee Tarzanagh, Yingcong Li, Christos Thrampoulidis, Samet Oymak(参考訳) Attention Is All You Need"の発端から、トランスフォーマーアーキテクチャはNLPの革命的な進歩につながっている。 変換器内のアテンション層は入力トークンのシーケンスを$X$として、Softmax$(XQK^\top X^\top)$として計算されたペアの類似性を通じて相互作用させる。 本研究では,トークンペアの外積に対する線形制約を用いた最適入力トークンと最適入力トークンを分離する,自己アテンションの最適化手法とハードマージンSVM問題との形式的等価性を確立する。 この定式化により、勾配降下に最適化された1層トランスフォーマーの暗黙バイアスを特徴づけることができる: 1) パラメータを$(K,Q)$でパラメータ化した注意層を、組み合わせたパラメータ$W=KQ^\top$の核ノルムを最小化するSVMソリューションに収束させる。 その代わり、$W$による直接パラメータ化はフロベニウスノルムの目的を最小化する。 我々はこの収束を特徴付け、グローバルな方向ではなく、局所的な最適方向に向けて起こることを強調した。 2) これの補足として, 幾何条件下での勾配降下の局所的・言語的方向収束を証明した。 さらに, 過パラメータ化はsvm問題の実現可能性を確保し, 静止点のない良性最適化景観を保証し, 大域的収束を触媒することを示す。 3) この理論は主に線形予測ヘッドに適用できるが, 非線形ヘッドによる暗黙バイアスを予測するより一般的なsvm等価性を提案する。 本研究は任意のデータセットに適用でき,その妥当性を実験により検証する。 オープンな問題や研究の方向性も紹介する。 これらの発見は、最適なトークンを分離し、選択するSVMの階層としてのトランスフォーマーの解釈を促していると信じている。

Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax$(XQK^\top X^\top)$, where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.
翻訳日:2023-09-01 13:22:03 公開日:2023-08-31
# PointOcc:ポイントベース3次元セマンティックアクシデント予測のための円筒型立体視

PointOcc: Cylindrical Tri-Perspective View for Point-based 3D Semantic Occupancy Prediction ( http://arxiv.org/abs/2308.16896v1 )

ライセンス: Link先を確認
Sicheng Zuo, Wenzhao Zheng, Yuanhui Huang, Jie Zhou, Jiwen Lu(参考訳) 自律運転におけるセマンティクスセグメンテーションは、スパースポイントセグメンテーションから密集したボクセルセグメンテーションへと進化し、対象とする3次元空間における各ボクセルの意味的占有率を予測することを目的としている。 予測空間の密集した性質は、3Dシーンのサブスペースしか記述できないため、既存の効率的な2Dプロジェクションベースの方法(例えば、鳥の目視、レンジビューなど)を非効率にしている。 そこで本研究では,点雲を効果的かつ包括的に表現する円筒型三重対視ビューと,それを効率的に処理するPointOccモデルを提案する。 ライダー点雲の距離分布を考慮し, 近接領域のより細かなモデリングのために, 円柱座標系における三面ビューを構築した。 プロジェクション中に構造の詳細を維持するために空間群プーリングを使用し、各TPV平面を効率的に処理するために2次元バックボーンを採用する。 最後に,処理後処理を必要とせず,各処理済みtpv平面に投影された特徴を集約することで,各点の特徴を得る。 3次元占有率予測とlidarセグメンテーションベンチマークの両方に関する広範囲な実験により、提案するpointoccはより高速で最先端のパフォーマンスを達成できることが示されている。 具体的には、LiDARのみを使用するにもかかわらず、PointOccはOpenOccupancyベンチマークにおいて大きなマージンを持つマルチモーダルメソッドを含む他のすべてのメソッドよりも大幅に優れている。 コード: https://github.com/wzzheng/pointocc。

Semantic segmentation in autonomous driving has been undergoing an evolution from sparse point segmentation to dense voxel segmentation, where the objective is to predict the semantic occupancy of each voxel in the concerned 3D space. The dense nature of the prediction space has rendered existing efficient 2D-projection-based methods (e.g., bird's eye view, range view, etc.) ineffective, as they can only describe a subspace of the 3D scene. To address this, we propose a cylindrical tri-perspective view to represent point clouds effectively and comprehensively and a PointOcc model to process them efficiently. Considering the distance distribution of LiDAR point clouds, we construct the tri-perspective view in the cylindrical coordinate system for more fine-grained modeling of nearer areas. We employ spatial group pooling to maintain structural details during projection and adopt 2D backbones to efficiently process each TPV plane. Finally, we obtain the features of each point by aggregating its projected features on each of the processed TPV planes without the need for any post-processing. Extensive experiments on both 3D occupancy prediction and LiDAR segmentation benchmarks demonstrate that the proposed PointOcc achieves state-of-the-art performance with much faster speed. Specifically, despite only using LiDAR, PointOcc significantly outperforms all other methods, including multi-modal methods, with a large margin on the OpenOccupancy benchmark. Code: https://github.com/wzzheng/PointOcc.
翻訳日:2023-09-01 13:21:28 公開日:2023-08-31
# EMDB:地球規模の3次元人球と野生の形状の電磁データベース

EMDB: The Electromagnetic Database of Global 3D Human Pose and Shape in the Wild ( http://arxiv.org/abs/2308.16894v1 )

ライセンス: Link先を確認
Manuel Kaufmann, Jie Song, Chen Guo, Kaiyue Shen, Tianjian Jiang, Chengcheng Tang, Juan Zarate, Otmar Hilliges(参考訳) 我々は,野生の3次元人間のポーズと形状の電磁的データベースであるemdbを提案する。 emdbは、高品質な3d smplのポーズと形状パラメータを含む新しいデータセットで、グローバルボディと、wildビデオ用のカメラトラジェクタを備えている。 ボディウーン、無線電磁(EM)センサーとハンドヘルドiPhoneを使って、合計58分間のモーションデータを記録し、81の屋内および屋外シーケンスと10の参加者に配布した。 正確なボディポーズや形状とともに、グローバルカメラのポーズやボディルートの軌道も提供する。 emdbを構築するために、まず6自由度em測定にsmplを適合させ、次に画像観察によりポーズを洗練する多段階最適化手法を提案する。 高品質な結果を得るために,我々はニューラル暗黙アバターモデルを用いて詳細な人間の表面形状と外観を再構築し,高密度画素レベルの目的によってアライメントと滑らかさを向上させる。 マルチビューボリュームキャプチャシステムを用いて行った評価では、emdbは2.3cmの位置誤差と10.6°角誤差の予測精度があり、以前のin-the-wildデータセットの精度を上回っていることを示している。 EMDBにおけるカメラ相対性およびグローバルポーズ推定のための既存モノクルRGB手法の評価を行った。 EMDBはhttps://ait.ethz.ch/emdbで公開されている。

We present EMDB, the Electromagnetic Database of Global 3D Human Pose and Shape in the Wild. EMDB is a novel dataset that contains high-quality 3D SMPL pose and shape parameters with global body and camera trajectories for in-the-wild videos. We use body-worn, wireless electromagnetic (EM) sensors and a hand-held iPhone to record a total of 58 minutes of motion data, distributed over 81 indoor and outdoor sequences and 10 participants. Together with accurate body poses and shapes, we also provide global camera poses and body root trajectories. To construct EMDB, we propose a multi-stage optimization procedure, which first fits SMPL to the 6-DoF EM measurements and then refines the poses via image observations. To achieve high-quality results, we leverage a neural implicit avatar model to reconstruct detailed human surface geometry and appearance, which allows for improved alignment and smoothness via a dense pixel-level objective. Our evaluations, conducted with a multi-view volumetric capture system, indicate that EMDB has an expected accuracy of 2.3 cm positional and 10.6 degrees angular error, surpassing the accuracy of previous in-the-wild datasets. We evaluate existing state-of-the-art monocular RGB methods for camera-relative and global pose estimation on EMDB. EMDB is publicly available under https://ait.ethz.ch/emdb
翻訳日:2023-09-01 13:20:58 公開日:2023-08-31
# コードセマンティクス学習のための対称性保存プログラム表現

Symmetry-Preserving Program Representations for Learning Code Semantics ( http://arxiv.org/abs/2308.03312v5 )

ライセンス: Link先を確認
Kexin Pei, Weichen Li, Qirui Jin, Shuyang Liu, Scott Geng, Lorenzo Cavallaro, Junfeng Yang, Suman Jana(参考訳) 大規模言語モデル(llm)は、多くのセキュリティタスクの重要な側面である自動プログラム推論において、約束を示している。 しかし、既存のコード用のllmアーキテクチャは、自然言語処理のような他のドメインから借用されることが多く、コードの一般化と堅牢性に懸念を抱いている。 鍵となる一般化の課題は、制御やデータフローを含むコードセマンティクスの知識をllmアーキテクチャに組み込むことである。 変換対称性を利用した畳み込み層の例からインスピレーションを得て、コード対称性がプログラム解析とモデリングのためにllmアーキテクチャをどのように強化できるかを考察する。 本稿では,コード対称性を意味論的保存変換として正式に定義する厳密なグループ理論フレームワークを提案する。 本フレームワークを用いて,プログラムの対称性を保存し,その一般化とロバスト性を示す新たな自己注意法を導入し,異なるバイナリおよびソースコード解析タスクの詳細な実験評価を行った。 全体として、我々のコード対称性フレームワークは厳格で強力な推論技術を提供しており、コードのための特殊なLCMの開発をガイドし、LLM誘導プログラム推論タスクを前進させる。

Large Language Models (LLMs) have shown promise in automated program reasoning, a crucial aspect of many security tasks. However, existing LLM architectures for code are often borrowed from other domains like natural language processing, raising concerns about their generalization and robustness to unseen code. A key generalization challenge is to incorporate the knowledge of code semantics, including control and data flow, into the LLM architectures. Drawing inspiration from examples of convolution layers exploiting translation symmetry, we explore how code symmetries can enhance LLM architectures for program analysis and modeling. We present a rigorous group-theoretic framework that formally defines code symmetries as semantics-preserving transformations and provides techniques for precisely reasoning about symmetry preservation within LLM architectures. Using this framework, we introduce a novel variant of self-attention that preserves program symmetries, demonstrating its effectiveness in generalization and robustness through detailed experimental evaluations across different binary and source code analysis tasks. Overall, our code symmetry framework offers rigorous and powerful reasoning techniques that can guide the future development of specialized LLMs for code and advance LLM-guided program reasoning tasks.
翻訳日:2023-09-01 11:39:41 公開日:2023-08-31
# ONCE: オープンソースとオープンソースの両方の大規模言語モデルによるコンテンツベース勧告の強化

ONCE: Boosting Content-based Recommendation with Both Open- and Closed-source Large Language Models ( http://arxiv.org/abs/2305.06566v4 )

ライセンス: Link先を確認
Qijiong Liu, Nuo Chen, Tetsuya Sakai, Xiao-Ming Wu(参考訳) パーソナライズされたコンテンツベースのレコメンデーションシステムは、ユーザーが毎日のニュースウェブサイトや書籍レコメンデーションサービスのようなプラットフォームで利用可能な膨大なコンテンツをナビゲートするために欠かせないツールになっている。 しかし、既存の推奨者は、アイテムの内容を理解する上で重大な課題に直面している。 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて、深い意味理解と事前学習からの広範な知識を有することが証明されている。 本研究では,コンテンツベースのレコメンデーションを強化するために,オープンソース LLM とクローズドソース LLM の両方を活用する可能性を検討する。 オープンソースのllmでは、その深層をコンテンツエンコーダとして利用し、埋め込みレベルでコンテンツの表現を強化しています。 クローズドソース LLM では,トークンレベルでのトレーニングデータを強化するためのプロンプト技術を採用している。 総合的な実験を通じて,両タイプのLLMの有効性を実証し,両者の相乗的関係を示す。 注目すべきは,既存の推奨モデルと比較して,最大19.32%の相対的な改善が見られたことだ。 これらの知見は、コンテンツベースレコメンデーションシステムの強化において、LLMのオープンソースとクローズドソースの両方が大きな可能性を示している。 コードとLLM生成データを他の研究者が利用できるようにし、その結果を再現します。

Personalized content-based recommender systems have become indispensable tools for users to navigate through the vast amount of content available on platforms like daily news websites and book recommendation services. However, existing recommenders face significant challenges in understanding the content of items. Large language models (LLMs), which possess deep semantic comprehension and extensive knowledge from pretraining, have proven to be effective in various natural language processing tasks. In this study, we explore the potential of leveraging both open- and closed-source LLMs to enhance content-based recommendation. With open-source LLMs, we utilize their deep layers as content encoders, enriching the representation of content at the embedding level. For closed-source LLMs, we employ prompting techniques to enrich the training data at the token level. Through comprehensive experiments, we demonstrate the high effectiveness of both types of LLMs and show the synergistic relationship between them. Notably, we observed a significant relative improvement of up to 19.32% compared to existing state-of-the-art recommendation models. These findings highlight the immense potential of both open- and closed-source of LLMs in enhancing content-based recommendation systems. We will make our code and LLM-generated data available for other researchers to reproduce our results.
翻訳日:2023-09-01 11:39:19 公開日:2023-08-31
# OLISIA:音声対話状態追跡のためのカスケードシステム

OLISIA: a Cascade System for Spoken Dialogue State Tracking ( http://arxiv.org/abs/2304.11073v3 )

ライセンス: Link先を確認
L\'eo Jacqmin, Lucas Druart (LIA), Yannick Est\`eve (LIA), Beno\^it Favre, Lina Maria Rojas-Barahona, Valentin Vielzeuf(参考訳) 対話状態追跡(DST)は音声対話システムの中核的な要素であるが,近年の作業はチャットコーパスを主に扱い,音声と文字の相違を無視するものである。本稿では,自動音声認識(ASR)モデルとDSTモデルを統合するカスケードシステムであるOLISIAを提案する。 本研究では,音声対話に対する統合性と堅牢性を向上させるために,ASRおよびDSTモジュールにいくつかの適応を導入し,DSTC11 Track 3 にランク付けした。 結果の詳細な分析を行い、asr出力の正規化とデータ拡張によるdst入力の適応、および事前学習されたモデルサイズの増加が、文字と音声の対話におけるパフォーマンスのばらつきを軽減する上で重要な役割を果たすことを見出した。

Though Dialogue State Tracking (DST) is a core component of spoken dialogue systems, recent work on this task mostly deals with chat corpora, disregarding the discrepancies between spoken and written language.In this paper, we propose OLISIA, a cascade system which integrates an Automatic Speech Recognition (ASR) model and a DST model. We introduce several adaptations in the ASR and DST modules to improve integration and robustness to spoken conversations.With these adaptations, our system ranked first in DSTC11 Track 3, a benchmark to evaluate spoken DST. We conduct an in-depth analysis of the results and find that normalizing the ASR outputs and adapting the DST inputs through data augmentation, along with increasing the pre-trained models size all play an important role in reducing the performance discrepancy between written and spoken conversations.
翻訳日:2023-09-01 11:38:58 公開日:2023-08-31
# ボソニックジョセフソン接合における量子効果の解明:マルチコンフィグレーション原子コヒーレント状態アプローチ

Revealing quantum effects in bosonic Josephson junctions: a multi-configuration atomic coherent states approach ( http://arxiv.org/abs/2302.05349v3 )

ライセンス: Link先を確認
Yulong Qiao and Frank Grossmann(参考訳) 2サイトBose-Hubbard系に対する平均場アプローチは十分に確立されており、人口不均衡と位相差に対する非線形古典的な運動方程式をもたらす。 例えば、1つのグラウバー状態または1つの原子(su(2))コヒーレント状態(s. wimberger et al., phys. rev. a 103, 023326 (2021)]による時間依存シュロディンガー方程式の解の表現に基づくことができる。 平均場近似を超えた量子効果が容易に発見できることを示し、代わりに、時間依存の SU(2) 基底関数を持つ多重構成アンザッツが変分原理で用いられる。 プラズマ振動の場合、時間依存パラメータが変動的に決定される2つの基底状態を用いると、位相空間力学と数値的に正確な量子解との良好な定性的な一致が得られる。 マクロな量子自己トラップのような非自明な効果を正しく説明するためには、適度に多くの基底状態が必要である。 しかし、自発的対称性の破れの開始に関心があるなら、2の多重性は既に正確な結果に対して大きな改善をもたらす。 いずれにせよ、完全な量子結果との良好な一致に必要な変分軌道の数は、複数の平均場軌道に基づく半古典的な場合よりも桁違いに小さい。

The mean-field approach to two-site Bose-Hubbard systems is well established and leads to nonlinear classical equations of motion for the population imbalance and the phase difference. It can, e.g., be based on the representation of the solution of the time-dependent Schrodinger equation either by a single Glauber state or by a single atomic (SU(2)) coherent state [S. Wimberger et al., Phys. Rev. A 103, 023326 (2021)]. We demonstrate that quantum effects beyond the mean-field approximation are easily uncovered if, instead, a multi-configuration ansatz with a few time-dependent SU(2) basis functions is used in the variational principle. For the case of plasma oscillations, the use of just two basis states, whose time-dependent parameters are determined variationally, already gives good qualitative agreement of the phase space dynamics with numerically exact quantum solutions. In order to correctly account for more non-trivial effects, like macroscopic quantum self trapping, moderately more basis states are needed. If one is interested in the onset of spontaneous symmetry breaking, however, a multiplicity of two gives a big improvement towards the exact result already. In any case, the number of variational trajectories needed for good agreement with full quantum results is orders of magnitude smaller than in the semiclassical case, which is based on multiple mean-field trajectories.
翻訳日:2023-09-01 11:38:42 公開日:2023-08-31
# 量子状態とSPAMノイズの同時トモグラフィのための普遍的枠組み

Universal framework for simultaneous tomography of quantum states and SPAM noise ( http://arxiv.org/abs/2308.15648v2 )

ライセンス: Link先を確認
Abhijith Jayakumar, Stefano Chessa, Carleton Coffrin, Andrey Y. Lokhov, Marc Vuffray, Sidhant Misra(参考訳) 本稿では,量子状態と測定ノイズの同時トモグラフィを行う一般的な分別アルゴリズムを提案する。 このアルゴリズムにより、任意の量子系に存在する状態準備測定(SPAM)誤差を完全に特徴づけることができる。 本手法は、ユニタリ演算によって誘導される線形作用素空間の特性の解析に基づく。 ノイズ測定装置を備えた任意の量子系が与えられた場合、本手法は検出器の量子状態とノイズ行列を1ゲージ自由度まで出力することができる。 一般の場合、このゲージの自由度は避けられないが、この縮退度は、状態やノイズ特性の事前知識を用いて一般に破られるため、ノイズ強度を前提とせずに、複数の種類の状態-雑音の組み合わせのゲージを固定する。 このような組み合わせには、任意の相関エラーを持つ純粋量子状態と、独立エラーをブロックする任意の状態が含まれる。 このフレームワークは、設定に関する事前情報をさらに活用して、状態およびノイズ検出に必要な観測と測定の数を体系的に削減することができる。 本手法は,既存の手法を効果的に一般化し,非相関・非可逆雑音行列や特定のプローブ状態を必要とする文献において考慮される特別な場合を含む。

We present a general denoising algorithm for performing simultaneous tomography of quantum states and measurement noise. This algorithm allows us to fully characterize state preparation and measurement (SPAM) errors present in any quantum system. Our method is based on the analysis of the properties of the linear operator space induced by unitary operations. Given any quantum system with a noisy measurement apparatus, our method can output the quantum state and the noise matrix of the detector up to a single gauge degree of freedom. We show that this gauge freedom is unavoidable in the general case, but this degeneracy can be generally broken using prior knowledge on the state or noise properties, thus fixing the gauge for several types of state-noise combinations with no assumptions about noise strength. Such combinations include pure quantum states with arbitrarily correlated errors, and arbitrary states with block independent errors. This framework can further use available prior information about the setting to systematically reduce the number of observations and measurements required for state and noise detection. Our method effectively generalizes existing approaches to the problem, and includes as special cases common settings considered in the literature requiring an uncorrelated or invertible noise matrix, or specific probe states.
翻訳日:2023-09-01 11:33:08 公開日:2023-08-31
# 高調波発生における半古典的画像の限界について

On the limitations of the semi-classical picture in high harmonic generation ( http://arxiv.org/abs/2308.15087v2 )

ライセンス: Link先を確認
Philipp Stammer(参考訳) 高調波発生過程の量子光学的定式化の最近の進歩は、成功した半古典的モデルがその限界を示す点に達した。 最近まで、この過程を駆動する光源は、古典的な画像と一致してレーザーによって提供されると考えられていた。 しかし、量子光学は、明るい圧縮真空やフォック状態のような古典的領域を超えた光場を考えることができる。 両方の磁場状態は電場振幅を消失させるが、十分な高強度の高調波放射を発生させる可能性がある。 これは、ここで議論されるような半古典的図の妥当性に関する新たな疑問を提起する。

The recent progress in the quantum optical formulation of the process of high harmonic generation has reached a point where the successful semi-classical model shows its limitations. Until recently the light source which drives the process was considered to be provided by a laser, in agreement with the classical picture. However, quantum optics allows to consider light fields beyond the classical realm, such as bright squeezed vacuum or Fock states. Both field states have vanishing electric field amplitudes, but can still lead to the generation of high harmonic radiation for sufficiently high intensities. This poses new questions about the range of validity of the semi-classical picture, which is the matter discussed here.
翻訳日:2023-09-01 11:32:19 公開日:2023-08-31
# DeepHealthNet:ディープラーニングフレームワークに基づく青年期の肥満予測システム

DeepHealthNet: Adolescent Obesity Prediction System Based on a Deep Learning Framework ( http://arxiv.org/abs/2308.14657v2 )

ライセンス: Link先を確認
Ji-Hoon Jeong, In-Gyu Lee, Sung-Kyung Kim, Tae-Eui Kam, Seong-Whan Lee, Euijong Lee(参考訳) 小児および青年の肥満率は、慢性疾患や長期健康リスクに関連するため、世界的に懸念されている。 人工知能技術は、肥満率を正確に予測し、青少年にパーソナライズされたフィードバックを提供する、有望なソリューションとして登場した。 本研究は,肥満関連疾患の早期発見と予防の重要性を強調する。 肥満率の予測とパーソナライズされたフィードバックを提供するためのロバストなアルゴリズムを開発するには,身長,体重,腰回り,カロリー摂取量,身体活動レベル,その他の関連する健康情報などの要因を考慮する必要がある。 そこで, 青少年321人の健康データセットを収集し, 個人別予測と情報的健康判断支援を行う青年期の肥満予測システムを提案した。 提案するディープラーニングフレームワークであるDeepHealthNetは,日々の健康データが制限されている場合でも,データ拡張技術を用いてモデルを効果的に訓練し,予測精度を向上する(acc: 0.8842)。 さらに,男児の肥満率 (acc: 0.9320) と女児の肥満率 (acc: 0.9163) の予測に違いがあることが判明した。 提案するシステムは,小児および青年の肥満に効果的に対処できる可能性が示唆されている。

Childhood and adolescent obesity rates are a global concern because obesity is associated with chronic diseases and long-term health risks. Artificial intelligence technology has emerged as a promising solution to accurately predict obesity rates and provide personalized feedback to adolescents. This study emphasizes the importance of early identification and prevention of obesity-related health issues. Factors such as height, weight, waist circumference, calorie intake, physical activity levels, and other relevant health information need to be considered for developing robust algorithms for obesity rate prediction and delivering personalized feedback. Hence, by collecting health datasets from 321 adolescents, we proposed an adolescent obesity prediction system that provides personalized predictions and assists individuals in making informed health decisions. Our proposed deep learning framework, DeepHealthNet, effectively trains the model using data augmentation techniques, even when daily health data are limited, resulting in improved prediction accuracy (acc: 0.8842). Additionally, the study revealed variations in the prediction of the obesity rate between boys (acc: 0.9320) and girls (acc: 0.9163), allowing the identification of disparities and the determination of the optimal time to provide feedback. The proposed system shows significant potential in effectively addressing childhood and adolescent obesity.
翻訳日:2023-09-01 11:31:44 公開日:2023-08-31
# SAM-PARSER:パラメータ空間再構成によるファインチューニングSAM

SAM-PARSER: Fine-tuning SAM Efficiently by Parameter Space Reconstruction ( http://arxiv.org/abs/2308.14604v2 )

ライセンス: Link先を確認
Zelin Peng, Zhengqin Xu, Zhilin Zeng, Xiaokang Yang, Wei Shen(参考訳) Segment Anything Model (SAM)は、画像中のオブジェクトのセグメンテーションに強力で汎用的なソリューションを提供するため、注目されている。 しかし、異なるシナリオにおける下流セグメンテーションタスクのための微調整SAMは、様々なシナリオの特徴が自然に多様なモデルパラメータ空間を必要とするため、依然として課題である。 既存の微調整手法の多くは、SAMの元々のパラメータ空間を変更するための新しいパラメータセットを導入することで、異なるシナリオ間のギャップを埋めようとしている。 本稿では,パラメータ空間再構成 (SAM-PARSER) により, 微調整時のほぼゼロなパラメータを導入し, SAMを効率的に微調整する手法を提案する。 SAM-PARSER では,SAM の原パラメータ空間は比較的完全であり,その基底が新しいシナリオのパラメータ空間を再構成することができると仮定する。 行列分解により基底を求め、その係数を微調整し、基底の最適線形結合により新しいシナリオに合わせたパラメータ空間を再構成する。 実験の結果,SAM-PARSERは様々なシナリオにおいて優れたセグメンテーション性能を示し,既存のパラメータ効率の微調整法と比較してトレーニング可能なパラメータの数を290ドル程度削減できることがわかった。

Segment Anything Model (SAM) has received remarkable attention as it offers a powerful and versatile solution for object segmentation in images. However, fine-tuning SAM for downstream segmentation tasks under different scenarios remains a challenge, as the varied characteristics of different scenarios naturally requires diverse model parameter spaces. Most existing fine-tuning methods attempt to bridge the gaps among different scenarios by introducing a set of new parameters to modify SAM's original parameter space. Unlike these works, in this paper, we propose fine-tuning SAM efficiently by parameter space reconstruction (SAM-PARSER), which introduce nearly zero trainable parameters during fine-tuning. In SAM-PARSER, we assume that SAM's original parameter space is relatively complete, so that its bases are able to reconstruct the parameter space of a new scenario. We obtain the bases by matrix decomposition, and fine-tuning the coefficients to reconstruct the parameter space tailored to the new scenario by an optimal linear combination of the bases. Experimental results show that SAM-PARSER exhibits superior segmentation performance across various scenarios, while reducing the number of trainable parameters by $\approx 290$ times compared with current parameter-efficient fine-tuning methods.
翻訳日:2023-09-01 11:31:20 公開日:2023-08-31
# LAC:スケルトンに基づくアクションセグメンテーションのための潜在アクション組成

LAC: Latent Action Composition for Skeleton-based Action Segmentation ( http://arxiv.org/abs/2308.14500v3 )

ライセンス: Link先を確認
Di Yang, Yaohui Wang, Antitza Dantcheva, Quan Kong, Lorenzo Garattoni, Gianpiero Francesca, Francois Bremond(参考訳) スケルトンベースのアクションセグメンテーションは、未トリミングビデオにおける合成可能なアクションを認識する必要がある。 現在のアプローチでは、まずスケルトン配列から局所的な視覚的特徴を抽出し、時間モデルで処理し、フレームワイズアクションを分類することでこの問題を分離している。 しかし、視覚機能は構成可能なアクションを十分に表現できないため、パフォーマンスは限られている。 本研究では,骨格をベースとしたアクションセグメンテーションのための合成可能な動作から学習することを目的とした,新しい自己教師型フレームワークであるLatent Action composition (LAC)を提案する。 LACは新規な生成モジュールからなり、新しい配列を合成する。 具体的には、原始運動を表現するために発電機内の線形潜在空間を設計する。 複数入力スケルトンシーケンスの潜在表現を算術演算することで、新しい合成動作を合成することができる。 LACは、大きな多様性と複雑さを持つ合成配列を利用して、コントラスト学習を通じて、シーケンスとフレーム空間の両方における骨格の視覚的表現を学習する。 生成したビジュアルエンコーダは表現力が高く、追加の時間モデルを必要としないエンドツーエンドの微調整によりアクションセグメンテーションタスクに効果的に転送できる。 トランスファーラーニングに着目した研究を行い,前訓練されたlacから得られた表現が,津,チャレード,pku-mmdデータセットにおいて,最先端技術よりも大きなマージンを持つことを示した。

Skeleton-based action segmentation requires recognizing composable actions in untrimmed videos. Current approaches decouple this problem by first extracting local visual features from skeleton sequences and then processing them by a temporal model to classify frame-wise actions. However, their performances remain limited as the visual features cannot sufficiently express composable actions. In this context, we propose Latent Action Composition (LAC), a novel self-supervised framework aiming at learning from synthesized composable motions for skeleton-based action segmentation. LAC is composed of a novel generation module towards synthesizing new sequences. Specifically, we design a linear latent space in the generator to represent primitive motion. New composed motions can be synthesized by simply performing arithmetic operations on latent representations of multiple input skeleton sequences. LAC leverages such synthesized sequences, which have large diversity and complexity, for learning visual representations of skeletons in both sequence and frame spaces via contrastive learning. The resulting visual encoder has a high expressive power and can be effectively transferred onto action segmentation tasks by end-to-end fine-tuning without the need for additional temporal models. We conduct a study focusing on transfer-learning and we show that representations learned from pre-trained LAC outperform the state-of-the-art by a large margin on TSU, Charades, PKU-MMD datasets.
翻訳日:2023-09-01 11:30:56 公開日:2023-08-31
# スパースペナルティによるビクラスタリング法

Biclustering Methods via Sparse Penalty ( http://arxiv.org/abs/2308.14388v2 )

ライセンス: Link先を確認
Jiqiang Wang(参考訳) 本稿では,遺伝子発現データにおいて最も重要なクラスターを同定するために用いられる複数のバイクラスタ法を初めて検討した。 そこで我々は主にSSVD(sparse SVD)法に焦点をあて,スパース解析にのみ用いられる「プレネットペナルティ」という新たなスパースペナルティを試行した。 次に, シミュレーション研究において, 異なる種類の生成データセットを実験し, 非オーバーラップデータに対して, 混合プリネットペナルティが極めて有効であることを示すk層に対して, 1層近似を試みた。 最後に,本手法の動作を示すために,実際の遺伝子発現データを用いた。

In this paper, we first reviewed several biclustering methods that are used to identify the most significant clusters in gene expression data. Here we mainly focused on the SSVD(sparse SVD) method and tried a new sparse penalty named "Prenet penalty" which has been used only in factor analysis to gain sparsity. Then in the simulation study, we tried different types of generated datasets (with different sparsity and dimension) and tried 1-layer approximation then for k-layers which shows the mixed Prenet penalty is very effective for non-overlapped data. Finally, we used some real gene expression data to show the behavior of our methods.
翻訳日:2023-09-01 11:30:29 公開日:2023-08-31
# スムーズな事前データからのハイパーグラフ構造推定

Hypergraph Structure Inference From Data Under Smoothness Prior ( http://arxiv.org/abs/2308.14172v2 )

ライセンス: Link先を確認
Bohan Tang, Siheng Chen, Xiaowen Dong(参考訳) ハイパーグラフは、2つ以上のエンティティを含む高次関係を持つデータを処理する上で重要である。 明示的なハイパーグラフが容易に利用できないシナリオでは、ノードの特徴から有意義なハイパーグラフ構造を推測し、データ内の内在的な関係を捉えることが望ましい。 しかしながら、既存の手法では、潜在的なハイパーグラフ構造の分布を正確に把握できない単純な事前定義ルールを採用するか、ハイパーグラフ構造とノード特徴のマッピングを学ぶか、トレーニングのために大量のラベル付きデータ、すなわち既存のハイパーグラフ構造が必要となる。 どちらも実用的なシナリオでアプリケーションを制限する。 このギャップを埋めるために,ラベル付きデータを監視対象とせずに,各潜在的なハイパーエッジの確率を推定する手法を設計できる新しいスムーズさを提案する。 提案手法により,ハイパーエッジのノードの特徴は,それらを含むハイパーエッジの特徴と強く相関していることがわかった。 本稿では,この手法を用いてハイパーグラフ構造とノード特徴の関係を確率論的モデリングにより導出する。 これにより,解析解を持つ最適化問題を解くことにより,各ポテンシャルハイパーエッジの確率を推定する教師なし推論手法を開発することができる。 本手法は,既存のハイパーグラフ構造推定法よりも効率的にデータから有意義なハイパーグラフ構造を学習できることを示す。

Hypergraphs are important for processing data with higher-order relationships involving more than two entities. In scenarios where explicit hypergraphs are not readily available, it is desirable to infer a meaningful hypergraph structure from the node features to capture the intrinsic relations within the data. However, existing methods either adopt simple pre-defined rules that fail to precisely capture the distribution of the potential hypergraph structure, or learn a mapping between hypergraph structures and node features but require a large amount of labelled data, i.e., pre-existing hypergraph structures, for training. Both restrict their applications in practical scenarios. To fill this gap, we propose a novel smoothness prior that enables us to design a method to infer the probability for each potential hyperedge without labelled data as supervision. The proposed prior indicates features of nodes in a hyperedge are highly correlated by the features of the hyperedge containing them. We use this prior to derive the relation between the hypergraph structure and the node features via probabilistic modelling. This allows us to develop an unsupervised inference method to estimate the probability for each potential hyperedge via solving an optimisation problem that has an analytical solution. Experiments on both synthetic and real-world data demonstrate that our method can learn meaningful hypergraph structures from data more efficiently than existing hypergraph structure inference methods.
翻訳日:2023-09-01 11:30:16 公開日:2023-08-31
# トレンドフィルタリングによる時間空間モデル

Temporal-spatial model via Trend Filtering ( http://arxiv.org/abs/2308.16172v2 )

ライセンス: Link先を確認
Carlos Misael Madrid Padilla, Oscar Hernan Madrid Padilla, Daren Wang(参考訳) 本研究では,同時時間と空間依存性を考慮した非パラメトリック回帰関数の推定に着目する。 このような文脈で、Trend Filteringは、 \cite{mammen 1997locally} と \cite{rudin 1992nonlinear} によって導入された非パラメトリック推定器である。 不平等な設定の場合、我々が考慮する信号は、有界な全変動を持つkth弱微分を持つと仮定され、一般的な滑らかさの程度を許容する。 多変量解析のシナリオでは,一括リプシッツ連続性基準に準拠した有界変動を持つ信号に適合するADMMアルゴリズムを用いて,$K$-Nearest Neighbor fused lasso estimator を \cite{padilla2018adaptive} で検討する。 下界に合わせることにより、推定器の最小最適度が検証される。 傾向フィルタリング研究に従来未記載であった一意な相転移現象が,本解析によって明らかにされる。 シミュレーション研究と実データ応用はどちらも,既存の文献で確立された手法と比較して,本手法の優れた性能を示している。

This research focuses on the estimation of a non-parametric regression function designed for data with simultaneous time and space dependencies. In such a context, we study the Trend Filtering, a nonparametric estimator introduced by \cite{mammen1997locally} and \cite{rudin1992nonlinear}. For univariate settings, the signals we consider are assumed to have a kth weak derivative with bounded total variation, allowing for a general degree of smoothness. In the multivariate scenario, we study a $K$-Nearest Neighbor fused lasso estimator as in \cite{padilla2018adaptive}, employing an ADMM algorithm, suitable for signals with bounded variation that adhere to a piecewise Lipschitz continuity criterion. By aligning with lower bounds, the minimax optimality of our estimators is validated. A unique phase transition phenomenon, previously uncharted in Trend Filtering studies, emerges through our analysis. Both Simulation studies and real data applications underscore the superior performance of our method when compared with established techniques in the existing literature.
翻訳日:2023-09-01 11:24:55 公開日:2023-08-31
# MMVP:モーションマトリックスによる映像予測

MMVP: Motion-Matrix-based Video Prediction ( http://arxiv.org/abs/2308.16154v2 )

ライセンス: Link先を確認
Yiqi Zhong, Luming Liang, Ilya Zharkov, Ulrich Neumann(参考訳) ビデオ予測の中心的な課題は、システムがフレーム間の外観の一貫性を保ちながら、画像フレームからオブジェクトの将来の動きを推論しなければならないところにある。 この課題に対処するために、エンドツーエンドのトレーニング可能な2ストリームビデオ予測フレームワークであるMotion-Matrix-based Video Prediction (MMVP)を導入する。 動作予測と外観維持を同じモジュールセット内で行う従来の方法とは異なり、MMVPは外見に依存しない動き行列を構築して動きと外観情報を分離する。 動き行列は、入力フレーム内の各および各特徴パッチの時間的類似性を表し、mmvpにおける動き予測モジュールの唯一の入力である。 この設計は、精度と効率の両方で映像予測を改善し、モデルサイズを小さくする。 広範な実験の結果、mmvpは、非無視可能な大きなマージン(psnr、utfスポーツの約1db)によって、公開データセットの最先端システムよりもかなり小さいモデルサイズ(84%または小さい)で優れていることが証明された。

A central challenge of video prediction lies where the system has to reason the objects' future motions from image frames while simultaneously maintaining the consistency of their appearances across frames. This work introduces an end-to-end trainable two-stream video prediction framework, Motion-Matrix-based Video Prediction (MMVP), to tackle this challenge. Unlike previous methods that usually handle motion prediction and appearance maintenance within the same set of modules, MMVP decouples motion and appearance information by constructing appearance-agnostic motion matrices. The motion matrices represent the temporal similarity of each and every pair of feature patches in the input frames, and are the sole input of the motion prediction module in MMVP. This design improves video prediction in both accuracy and efficiency, and reduces the model size. Results of extensive experiments demonstrate that MMVP outperforms state-of-the-art systems on public data sets by non-negligible large margins (about 1 db in PSNR, UCF Sports) in significantly smaller model sizes (84% the size or smaller).
翻訳日:2023-09-01 11:24:35 公開日:2023-08-31
# CircleFormer:丸いクエリと注意を伴う全スライド画像における円核検出

CircleFormer: Circular Nuclei Detection in Whole Slide Images with Circle Queries and Attention ( http://arxiv.org/abs/2308.16145v2 )

ライセンス: Link先を確認
Hengxu Zhang, Pengpeng Liang, Zhiyong Sun, Bo Song, Erkang Cheng(参考訳) コンピュータビジョンと医用画像解析において, CNN と Transformer による境界ボックス表現による物体検出が広く研究されているが, 医用画像の円形物体検出はいまだに未調査である。 本稿では,腎病理学における球状糸球体検出のための最近のアンカーフリー cnn-based circular object detection (circlenet) 法に触発されたcircleformerについて紹介する。 具体的には、変圧器デコーダ内の円表現を用いたクエリを反復的に円形物体検出結果を洗練し、円クロスアテンションモジュールを導入し、円クエリと画像特徴の類似度を算出する。 一般化円 IoU (gCIoU) は、新たに円形物体検出の回帰損失を生じさせるものとして提案されている。 さらに,circleformerに単純なセグメンテーションブランチを追加することで,セグメンテーションタスクへの一般化が容易になる。 本手法は,公開monusegデータセット上での円核検出とセグメンテーションにおける評価を行い,最新手法と比較して有望な性能が得られることを示す。 それぞれの成分の有効性はアブレーション研究によって検証される。 私たちのコードはhttps://github.com/zhanghx-iim-ahu/CircleFormerで公開されています。

Both CNN-based and Transformer-based object detection with bounding box representation have been extensively studied in computer vision and medical image analysis, but circular object detection in medical images is still underexplored. Inspired by the recent anchor free CNN-based circular object detection method (CircleNet) for ball-shape glomeruli detection in renal pathology, in this paper, we present CircleFormer, a Transformer-based circular medical object detection with dynamic anchor circles. Specifically, queries with circle representation in Transformer decoder iteratively refine the circular object detection results, and a circle cross attention module is introduced to compute the similarity between circular queries and image features. A generalized circle IoU (gCIoU) is proposed to serve as a new regression loss of circular object detection as well. Moreover, our approach is easy to generalize to the segmentation task by adding a simple segmentation branch to CircleFormer. We evaluate our method in circular nuclei detection and segmentation on the public MoNuSeg dataset, and the experimental results show that our method achieves promising performance compared with the state-of-the-art approaches. The effectiveness of each component is validated via ablation studies as well. Our code is released at https://github.com/zhanghx-iim-ahu/CircleFormer.
翻訳日:2023-09-01 11:24:14 公開日:2023-08-31
# MedShapeNet - コンピュータビジョンのための3D医療形状の大規模データセット

MedShapeNet -- A Large-Scale Dataset of 3D Medical Shapes for Computer Vision ( http://arxiv.org/abs/2308.16139v2 )

ライセンス: Link先を確認
Jianning Li, Antonio Pepe, Christina Gsaxner, Gijs Luijten, Yuan Jin, Narmada Ambigapathy, Enrico Nasca, Naida Solak, Gian Marco Melito, Afaque R. Memon, Xiaojun Chen, Jan Stefan Kirschke, Ezequiel de la Rosa, Patrich Ferndinand Christ, Hongwei Bran Li, David G. Ellis, Michele R. Aizenberg, Sergios Gatidis, Thomas Kuestner, Nadya Shusharina, Nicholas Heller, Vincent Andrearczyk, Adrien Depeursinge, Mathieu Hatt, Anjany Sekuboyina, Maximilian Loeffler, Hans Liebl, Reuben Dorent, Tom Vercauteren, Jonathan Shapey, Aaron Kujawa, Stefan Cornelissen, Patrick Langenhuizen, Achraf Ben-Hamadou, Ahmed Rekik, Sergi Pujades, Edmond Boyer, Federico Bolelli, Costantino Grana, Luca Lumetti, Hamidreza Salehi, Jun Ma, Yao Zhang, Ramtin Gharleghi, Susann Beier, Arcot Sowmya, Eduardo A. Garza-Villarreal, Thania Balducci, Diego Angeles-Valdez, Roberto Souza, Leticia Rittner, Richard Frayne, Yuanfeng Ji, Soumick Chatterjee, Andreas Nuernberger, Joao Pedrosa, Carlos Ferreira, Guilherme Aresta, Antonio Cunha, Aurelio Campilho, Yannick Suter, Jose Garcia, Alain Lalande, Emmanuel Audenaert, Claudia Krebs, Timo Van Leeuwen, Evie Vereecke, Rainer Roehrig, Frank Hoelzle, Vahid Badeli, Kathrin Krieger, Matthias Gunzer, Jianxu Chen, Amin Dada, Miriam Balzer, Jana Fragemann, Frederic Jonske, Moritz Rempe, Stanislav Malorodov, Fin H. Bahnsen, Constantin Seibold, Alexander Jaus, Ana Sofia Santos, Mariana Lindo, Andre Ferreira, Victor Alves, Michael Kamp, Amr Abourayya, Felix Nensa, Fabian Hoerst, Alexander Brehmer, Lukas Heine, Lars E. Podleska, Matthias A. Fink, Julius Keyl, Konstantinos Tserpes, Moon-Sung Kim, Shireen Elhabian, Hans Lamecker, Dzenan Zukic, Beatriz Paniagua, Christian Wachinger, Martin Urschler, Luc Duong, Jakob Wasserthal, Peter F. Hoyer, Oliver Basu, Thomas Maal, Max J. H. Witjes, Ping Luo, Bjoern Menze, Mauricio Reyes, Christos Davatzikos, Behrus Puladi, Jens Kleesiek, Jan Egger(参考訳) 今回我々は,解剖学的形状(骨,臓器,血管など)と3次元手術器具モデルからなるmedshapenetを提案する。 深層学習に先立ち、医学画像解析における統計的形状モデル(SSM)の幅広い応用は、形状が医学データを記述するために一般的に用いられている証拠である。 しかし今日では、医療画像における最先端(SOTA)ディープラーニングアルゴリズムは、主にボキセルベースである。 コンピュータビジョンでは、コンピュータビジョン研究においてShapeNet(約51,300モデル)やプリンストンモデルNet(約127,915モデル)が増加し、IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR)のような主要なビジョンカンファレンスにおける多くの形状関連出版物から見られるように、形状(ボクセル占有グリッド、メッシュ、点雲、暗示表面モデルを含む)が3Dにおけるデータ表現として好ましい。 MedShapeNetは、データ駆動型ビジョンアルゴリズムの医療アプリケーションへの翻訳を容易にするために、これらの一般的な形状ベンチマークの代替として作成されており、重要な医療問題を解決するためにSOTAビジョンアルゴリズムを適用する機会を広げている。 さらに、MedShapeNetの医療用形状の大部分は、実際の患者の画像データに基づいて直接モデル化されており、コンピュータ支援設計(CAD)モデルからなる既存の形状ベンチマークを補完する。 現在MedShapeNetには10万以上の医療用形状が含まれており、ペアデータ形式でアノテーションを提供している。 そのため、拡張現実(virtual reality - vr, augmented reality - ar, mixed reality - mr)と医療用3dプリンティングのための3dモデルの無料リポジトリでもある。 このホワイトペーパーでは、medshapenetの背景にある動機、形状取得手順、ユースケース、オンラインシェイプ検索ポータルの使用について詳細に説明している。

We present MedShapeNet, a large collection of anatomical shapes (e.g., bones, organs, vessels) and 3D surgical instrument models. Prior to the deep learning era, the broad application of statistical shape models (SSMs) in medical image analysis is evidence that shapes have been commonly used to describe medical data. Nowadays, however, state-of-the-art (SOTA) deep learning algorithms in medical imaging are predominantly voxel-based. In computer vision, on the contrary, shapes (including, voxel occupancy grids, meshes, point clouds and implicit surface models) are preferred data representations in 3D, as seen from the numerous shape-related publications in premier vision conferences, such as the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), as well as the increasing popularity of ShapeNet (about 51,300 models) and Princeton ModelNet (127,915 models) in computer vision research. MedShapeNet is created as an alternative to these commonly used shape benchmarks to facilitate the translation of data-driven vision algorithms to medical applications, and it extends the opportunities to adapt SOTA vision algorithms to solve critical medical problems. Besides, the majority of the medical shapes in MedShapeNet are modeled directly on the imaging data of real patients, and therefore it complements well existing shape benchmarks comprising of computer-aided design (CAD) models. MedShapeNet currently includes more than 100,000 medical shapes, and provides annotations in the form of paired data. It is therefore also a freely available repository of 3D models for extended reality (virtual reality - VR, augmented reality - AR, mixed reality - MR) and medical 3D printing. This white paper describes in detail the motivations behind MedShapeNet, the shape acquisition procedures, the use cases, as well as the usage of the online shape search portal: https://medshapenet.ikim.nrw/
翻訳日:2023-09-01 11:23:49 公開日:2023-08-31
# RoboTAP: 眼球運動の視覚的模倣のための任意点追跡

RoboTAP: Tracking Arbitrary Points for Few-Shot Visual Imitation ( http://arxiv.org/abs/2308.15975v2 )

ライセンス: Link先を確認
Mel Vecerik and Carl Doersch and Yi Yang and Todor Davchev and Yusuf Aytar and Guangyao Zhou and Raia Hadsell and Lourdes Agapito and Jon Scholz(参考訳) ロボットが外部の研究室や専門工場で役に立つためには、新しい有用な行動を素早く教える方法が必要だ。 現在のアプローチでは、タスク固有のエンジニアリングを使わずに新しいタスクをオンボードする一般性が欠如しているか、あるいは実用的な使用を可能にするデータ効率が欠如している。 本研究では,より速く,より汎用的な実演学習を可能にする表現型車両として,密集した追跡について検討する。 提案手法では,トラック・ナッシング・ポイント(tap)モデルを用いて実演中の関連する動きを分離し,低レベルコントローラをパラメータ化し,シーン構成の変化にまたがってこの動きを再現する。 この結果から,形状マッチングや積み重ね,さらには接着剤や付着物などの完全な経路追従作業といった複雑な物体配置タスクを,数分で収集可能なデモから解決できるロバストなロボットポリシが示される。

For robots to be useful outside labs and specialized factories we need a way to teach them new useful behaviors quickly. Current approaches lack either the generality to onboard new tasks without task-specific engineering, or else lack the data-efficiency to do so in an amount of time that enables practical use. In this work we explore dense tracking as a representational vehicle to allow faster and more general learning from demonstration. Our approach utilizes Track-Any-Point (TAP) models to isolate the relevant motion in a demonstration, and parameterize a low-level controller to reproduce this motion across changes in the scene configuration. We show this results in robust robot policies that can solve complex object-arrangement tasks such as shape-matching, stacking, and even full path-following tasks such as applying glue and sticking objects together, all from demonstrations that can be collected in minutes.
翻訳日:2023-09-01 11:23:12 公開日:2023-08-31
# WALL-E:大規模言語モデルを用いたロボットウェイタ負荷リフティング

WALL-E: Embodied Robotic WAiter Load Lifting with Large Language Model ( http://arxiv.org/abs/2308.15962v2 )

ライセンス: Link先を確認
Tianyu Wang, Yifan Li, Haitao Lin, Xiangyang Xue, Yanwei Fu(参考訳) ロボットによる言語指導の理解と視覚的認識への対応は、ロボット研究コミュニティにおける長年の目標である。 この目標を達成するには、自然言語処理、コンピュータビジョン、ロボット工学の最先端の進歩が必要である。 そこで本稿では,最新の大規模言語モデル(llms)と既存の視覚接地・ロボット把持システムを統合し,人間とロボットのインタラクションの有効性を高める可能性について検討する。 本稿では,この統合の例としてWALL-E (Embodied Robotic WAiter load lifting with Large Language model)を紹介する。 このシステムは、ChatGPTのLLMを利用して、マルチラウンド対話によるターゲット命令として、ユーザの嗜好対象を要約する。 そして、対象指示をオブジェクトポーズとサイズ推定のための視覚的接地システムに転送し、ロボットがそれに従ってオブジェクトを把握する。 我々は,このLCMを利用したシステムを物理ロボットに展開し,よりユーザフレンドリなインタフェースで指導誘導型把握タスクを実現する。 実世界シナリオのさらなる実験結果から,提案手法の有効性と有効性が示された。 プロジェクトのWebサイトは、https://star-uu-wang.github.io/WALL-E/を参照してください。

Enabling robots to understand language instructions and react accordingly to visual perception has been a long-standing goal in the robotics research community. Achieving this goal requires cutting-edge advances in natural language processing, computer vision, and robotics engineering. Thus, this paper mainly investigates the potential of integrating the most recent Large Language Models (LLMs) and existing visual grounding and robotic grasping system to enhance the effectiveness of the human-robot interaction. We introduce the WALL-E (Embodied Robotic WAiter load lifting with Large Language model) as an example of this integration. The system utilizes the LLM of ChatGPT to summarize the preference object of the users as a target instruction via the multi-round interactive dialogue. The target instruction is then forwarded to a visual grounding system for object pose and size estimation, following which the robot grasps the object accordingly. We deploy this LLM-empowered system on the physical robot to provide a more user-friendly interface for the instruction-guided grasping task. The further experimental results on various real-world scenarios demonstrated the feasibility and efficacy of our proposed framework. See the project website at: https://star-uu-wang.github.io/WALL-E/
翻訳日:2023-09-01 11:22:53 公開日:2023-08-31
# 局所エネルギー欠陥を媒介とする最適励起子輸送--強調存在下での最適化則の存続

Optimized excitonic transport mediated by local energy defects: survival of optimization laws in the presence of dephasing ( http://arxiv.org/abs/2308.15857v2 )

ライセンス: Link先を確認
Lucie Pepe, Vincent Pouthier, Saad Yalouz(参考訳) 周囲の欠陥とトラップによって占有されたコアを持つ拡張星では、周囲からコアへのエキシトンによるエネルギー輸送が最適化可能であることが示されている(S. Yalouz et al. Phys. E 106, 064313 (2022))。 欠陥が任意に選択された場合、励起子ダイナミクスは非対称鎖のそれと同型であり、励起子伝播のスピードアップが観察される。 ここでは、拡張された恒星と非対称鎖の両方の励起子が、強調された環境の存在によって摂動していることを考慮し、この前の研究を拡張する。 Lindbladマスター方程式を用いて力学をシミュレートすると、2つの疑問が解決される: この2つのネットワークの環境はどのようにエネルギー輸送に影響を与えるのか? そして、この2つのシステムはいまだに軽蔑の存在下で同等に振る舞うのか? その結果,エキシトンダイナミクスの時間スケールはネットワークの性質に大きく依存していることが判明した。 しかし驚くべきことに、この2つのネットワークは最適化法則の存続に関して同じように振る舞う。 どちらの場合でも、デファスメントが弱いままである限り、エネルギー欠陥のオリジナルの最適チューニングを用いてエネルギー輸送を改善することができる。 しかし、中等度/強度デフォーカスでは、量子ゼノ効果により最適化法則が失われる。

In an extended star with peripheral defects and a core occupied by a trap, it has been shown that exciton-mediated energy transport from the periphery to the core can be optimized [S. Yalouz et al. Phys. Rev. E 106, 064313 (2022)]. If the defects are judiciously chosen, the exciton dynamics is isomorphic to that of an asymmetric chain and a speedup of the excitonic propagation is observed. Here, we extend this previous work by considering that the exciton in both an extended star and an asymmetric chain, is perturbed by the presence of a dephasing environment. Simulating the dynamics using a Lindblad master equation, two questions are addressed: how does the environment affect the energy transport on these two networks? And, do the two systems still behave equivalently in the presence of dephasing? Our results reveal that the time-scale for the exciton dynamics strongly depends on the nature of the network. But quite surprisingly, the two networks behave similarly regarding the survival of their optimization law. In both cases, the energy transport can be improved using the same original optimal tuning of energy defects as long as the dephasing remains weak. However, for moderate/strong dephasing, the optimization law is lost due to quantum Zeno effect.
翻訳日:2023-09-01 11:22:33 公開日:2023-08-31
# 大規模データセットと画像強調による水中視覚追跡の改善

Improving Underwater Visual Tracking With a Large Scale Dataset and Image Enhancement ( http://arxiv.org/abs/2308.15816v2 )

ライセンス: Link先を確認
Basit Alawode, Fayaz Ali Dharejo, Mehnaz Ummar, Yuhang Guo, Arif Mahmood, Naoufel Werghi, Fahad Shahbaz Khan, Jiri Matas, Sajid Javed(参考訳) 本稿では,水中ビジュアルオブジェクト追跡(UVOT)のための新しいデータセットと汎用トラッカー拡張手法を提案する。 その重要性にもかかわらず、データにアクセスできないため、水中追跡は未調査のままである。 水中環境は、一様でない照明条件、視界の低さ、鋭さの欠如、コントラストの低さ、カモフラージュ、懸濁粒子からの反射を示す。 地上・屋外のシナリオを主目的とした従来の追跡手法の性能が低下する。 本研究では,トラッキング品質の向上を目的とした水中画像強調アルゴリズムを提案する。 この手法により、最先端(SOTA)ビジュアルトラッカーの最大5.0%のAUCの性能が向上した。 堅牢で正確なUVOT手法を開発するには、大規模なデータセットが必要である。 そこで本研究では,400個のビデオセグメントと275,000個の手動アノテートフレームからなる大規模UVOTベンチマークデータセットを導入する。 ビデオには水中に特有のトラッキング属性として、水色の変化、ターゲットの邪魔、カモフラージュ、ターゲットの相対サイズ、視認性の低い条件などが含まれている。 UVOT400データセット、追跡結果、およびコードは、https://github.com/BasitAlawode/UWVOT400で公開されている。

This paper presents a new dataset and general tracker enhancement method for Underwater Visual Object Tracking (UVOT). Despite its significance, underwater tracking has remained unexplored due to data inaccessibility. It poses distinct challenges; the underwater environment exhibits non-uniform lighting conditions, low visibility, lack of sharpness, low contrast, camouflage, and reflections from suspended particles. Performance of traditional tracking methods designed primarily for terrestrial or open-air scenarios drops in such conditions. We address the problem by proposing a novel underwater image enhancement algorithm designed specifically to boost tracking quality. The method has resulted in a significant performance improvement, of up to 5.0% AUC, of state-of-the-art (SOTA) visual trackers. To develop robust and accurate UVOT methods, large-scale datasets are required. To this end, we introduce a large-scale UVOT benchmark dataset consisting of 400 video segments and 275,000 manually annotated frames enabling underwater training and evaluation of deep trackers. The videos are labelled with several underwater-specific tracking attributes including watercolor variation, target distractors, camouflage, target relative size, and low visibility conditions. The UVOT400 dataset, tracking results, and the code are publicly available on: https://github.com/BasitAlawode/UWVOT400.
翻訳日:2023-09-01 11:22:10 公開日:2023-08-31
# 時間的階層型bフレーム符号化によるニューラルビデオ圧縮

Neural Video Compression with Temporal Layer-Adaptive Hierarchical B-frame Coding ( http://arxiv.org/abs/2308.15791v2 )

ライセンス: Link先を確認
Yeongwoong Kim, Suyong Bahk, Seungeon Kim, Won Hee Lee, Dokwan Oh, Hui Yong Kim(参考訳) neural video compression (nvc) は急速に発展するビデオ符号化研究分野であり、最新のビデオ符号化標準であるvvc (vvc) よりも優れた符号化効率を達成するモデルもある。 従来のビデオ符号化では、高圧縮のために双方向予測構造を利用する階層的Bフレーム符号化がよく研究され、利用されてきた。 しかし、NVCでは、階層的Bスキームの研究が限られている。 本稿では,階層的Bフレーム符号化と時間層適応最適化を用いたNVCモデルを提案する。 まず、既存の一方向NVCモデルを双方向モデルに拡張し、一方向ベースラインモデルに対して-21.13%のBDレートゲインを達成する。 しかし、このモデルは複雑な動きや大きな動きのシーケンスに適用すると問題に直面し、パフォーマンスが低下する。 そこで我々は,時間層適応品質スケーリング(TAQS)や時間層適応遅延スケーリング(TALS)などの手法を取り入れ,時間層適応最適化を導入する。 提案手法による最終モデルは、ベースラインに対して-39.86%のBDレート向上を達成した。 また、単純な双方向拡張よりも最大-49.13%のBDレートゲインを持つ大きなあるいは複雑な動きを持つシーケンスの課題も解決する。 この改善は、下位の時間層により多くのビットを割り当てることによるものであり、これにより、より小さなビットで全体の再構築品質が向上する。 提案手法は特定のNVCモデルアーキテクチャにはほとんど依存しないため,一方向NVCモデルを階層的Bフレーム符号化に拡張するための汎用ツールとして機能する。

Neural video compression (NVC) is a rapidly evolving video coding research area, with some models achieving superior coding efficiency compared to the latest video coding standard Versatile Video Coding (VVC). In conventional video coding standards, the hierarchical B-frame coding, which utilizes a bidirectional prediction structure for higher compression, had been well-studied and exploited. In NVC, however, limited research has investigated the hierarchical B scheme. In this paper, we propose an NVC model exploiting hierarchical B-frame coding with temporal layer-adaptive optimization. We first extend an existing unidirectional NVC model to a bidirectional model, which achieves -21.13% BD-rate gain over the unidirectional baseline model. However, this model faces challenges when applied to sequences with complex or large motions, leading to performance degradation. To address this, we introduce temporal layer-adaptive optimization, incorporating methods such as temporal layer-adaptive quality scaling (TAQS) and temporal layer-adaptive latent scaling (TALS). The final model with the proposed methods achieves an impressive BD-rate gain of -39.86% against the baseline. It also resolves the challenges in sequences with large or complex motions with up to -49.13% more BD-rate gains than the simple bidirectional extension. This improvement is attributed to the allocation of more bits to lower temporal layers, thereby enhancing overall reconstruction quality with smaller bits. Since our method has little dependency on a specific NVC model architecture, it can serve as a general tool for extending unidirectional NVC models to the ones with hierarchical B-frame coding.
翻訳日:2023-09-01 11:21:49 公開日:2023-08-31
# CongNaMul:大豆スプラッツの高度な画像処理のためのデータセット

CongNaMul: A Dataset for Advanced Image Processing of Soybean Sprouts ( http://arxiv.org/abs/2308.15690v2 )

ライセンス: Link先を確認
Byunghyun Ban, Donghun Ryu, Su-won Hwang(参考訳) ダイズ発芽画像解析における様々なタスクを対象とした包括的データセット「CongNaMul」を提案する。 congnamulデータセットは、画像分類、セマンティックセグメンテーション、分解、長さと重量の測定などのタスクを容易にするためにキュレートされる。 分類タスクは、ai支援自動品質検査技術の開発のために、大豆芽の品質を決定する4つのクラス(正常、破砕、斑点、破砕、斑点)を提供する。 セマンティックセグメンテーションには、単一のスプルート画像から複数のスプルート画像までの様々な複雑さを持つ画像と、人間のラベル付きマスク画像が含まれる。 レーベルには、バックグラウンド、ヘッド、ボディ、テールの4つのクラスがある。 データセットは画像分解タスク用のイメージとマスクも提供しており、2つのsproutイメージとそれらの組み合わせフォームを含んでいる。 最後に, 頭部, 体長, 体厚, 尾長, 体重の5つの物理的特徴が, 画像に基づく計測作業のために提供される。 このデータセットは、大豆の発芽画像の高度な解析において、幅広い研究や応用のための貴重な資源として期待されている。 また,本データセットは,他の産業分野における分類,セマンティックセグメンテーション,分解,物理的特徴測定の研究者によるモデル評価を支援することを期待する。 データセットは著者のリポジトリから入手可能だ。 (https://bhban.kr/data)

We present 'CongNaMul', a comprehensive dataset designed for various tasks in soybean sprouts image analysis. The CongNaMul dataset is curated to facilitate tasks such as image classification, semantic segmentation, decomposition, and measurement of length and weight. The classification task provides four classes to determine the quality of soybean sprouts: normal, broken, spotted, and broken and spotted, for the development of AI-aided automatic quality inspection technology. For semantic segmentation, images with varying complexity, from single sprout images to images with multiple sprouts, along with human-labelled mask images, are included. The label has 4 different classes: background, head, body, tail. The dataset also provides images and masks for the image decomposition task, including two separate sprout images and their combined form. Lastly, 5 physical features of sprouts (head length, body length, body thickness, tail length, weight) are provided for image-based measurement tasks. This dataset is expected to be a valuable resource for a wide range of research and applications in the advanced analysis of images of soybean sprouts. Also, we hope that this dataset can assist researchers studying classification, semantic segmentation, decomposition, and physical feature measurement in other industrial fields, in evaluating their models. The dataset is available at the authors' repository. (https://bhban.kr/data)
翻訳日:2023-09-01 11:21:21 公開日:2023-08-31