このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230509となっている論文です。

PDF登録状況(公開日: 20230509)

TitleAuthorsAbstract論文公表日・翻訳日
# オープンソースパッケージの脆弱性と露出の測定に向けて

Towards Measuring Vulnerabilities and Exposures in Open-Source Packages ( http://arxiv.org/abs/2206.14527v2 )

ライセンス: Link先を確認
Tobias Dam and Sebastian Neumaier(参考訳) 現在のソフトウェアの多くはオープンソースコンポーネントに依存しており、他のオープンソースライブラリに複雑な依存関係がある。 したがって、オープンソースにおける脆弱性は大きな影響を与える可能性がある。 この作業の目標は、人気のあるソフトウェアリポジトリやパッケージマネージャにおける既存の脆弱性の頻度と進化を定量的に把握することにある。 この目的のために、我々はオープンソースランドスケープの最新の概要と最も人気のあるパッケージマネージャを提供し、common vulnerabilities and exposures(cve)リストのエントリをオープンソースライブラリにマップするアプローチを議論し、人気のあるプログラミング言語に関して既存のcveエントリの頻度と分布を示す。

Much of the current software depends on open-source components, which in turn have complex dependencies on other open-source libraries. Vulnerabilities in open source therefore have potentially huge impacts. The goal of this work is to get a quantitative overview of the frequency and evolution of existing vulnerabilities in popular software repositories and package managers. To this end, we provide an up-to-date overview of the open source landscape and its most popular package managers, we discuss approaches to map entries of the Common Vulnerabilities and Exposures (CVE) list to open-source libraries and we show the frequency and distribution of existing CVE entries with respect to popular programming languages.
翻訳日:2023-10-24 15:29:03 公開日:2023-05-09
# 手動テストは不要か? 単体テスト生成のためのChatGPTの評価と改善

No More Manual Tests? Evaluating and Improving ChatGPT for Unit Test Generation ( http://arxiv.org/abs/2305.04207v2 )

ライセンス: Link先を確認
Zhiqiang Yuan, Yiling Lou, Mingwei Liu, Shiji Ding, Kaixin Wang, Yixuan Chen, Xin Peng(参考訳) 単体テストは、機能的に異なるプログラムユニットのバグを検出するのに不可欠である。 手動で高品質な単体テストを書くのは時間と労力を要する。 従来のテクニックは適切なカバレッジでテストを生成することができるが、可読性は低く、開発者が直接採用することはできない。 最近の研究は、ユニットテスト生成における大規模言語モデル(LLM)の大きな可能性を示しており、より人間らしく有意義なテストコードを生成することができる。 指導指導と強化学習を取り入れた最新のLLMであるChatGPTは、様々な領域でよく機能している。 しかし、ユニットテスト生成においてchatgptがどの程度効果的かは不明だ。 本研究では,ChatGPTの単体テスト生成能力を評価するための実験的検討を行った。 具体的には, 精度, 有効性, 可読性, ユーザビリティについて, 定量的分析とユーザスタディを行い, 生成したテストの品質を体系的に調査する。 ChatGPTが生成したテストは、さまざまなコンパイルエラーや実行障害など、依然として正確性の問題に悩まされている。 それでもChatGPTが生成したパステストは、同等のカバレッジ、可読性、時には開発者の好みを達成することで、手書きのテストに似ている。 以上の結果から,ChatGPTを用いた単体テストの精度向上が期待できる可能性が示唆された。 以上の知見にインスパイアされたChatTESTERは、ChatGPT自体を活用して生成されたテストの品質を向上させる、新しいChatGPTベースの単体テスト生成手法である。 ChatTESTERは初期テストジェネレータと反復テスト精錬器を内蔵している。 評価では、34.3%以上のコンパイル可能なテストと18.7%の正確なアサーションによるテストを生成し、ChatTESTERの有効性を示す。

Unit testing is essential in detecting bugs in functionally-discrete program units. Manually writing high-quality unit tests is time-consuming and laborious. Although traditional techniques can generate tests with reasonable coverage, they exhibit low readability and cannot be directly adopted by developers. Recent work has shown the large potential of large language models (LLMs) in unit test generation, which can generate more human-like and meaningful test code. ChatGPT, the latest LLM incorporating instruction tuning and reinforcement learning, has performed well in various domains. However, It remains unclear how effective ChatGPT is in unit test generation. In this work, we perform the first empirical study to evaluate ChatGPT's capability of unit test generation. Specifically, we conduct a quantitative analysis and a user study to systematically investigate the quality of its generated tests regarding the correctness, sufficiency, readability, and usability. The tests generated by ChatGPT still suffer from correctness issues, including diverse compilation errors and execution failures. Still, the passing tests generated by ChatGPT resemble manually-written tests by achieving comparable coverage, readability, and even sometimes developers' preference. Our findings indicate that generating unit tests with ChatGPT could be very promising if the correctness of its generated tests could be further improved. Inspired by our findings above, we propose ChatTESTER, a novel ChatGPT-based unit test generation approach, which leverages ChatGPT itself to improve the quality of its generated tests. ChatTESTER incorporates an initial test generator and an iterative test refiner. Our evaluation demonstrates the effectiveness of ChatTESTER by generating 34.3% more compilable tests and 18.7% more tests with correct assertions than the default ChatGPT.
翻訳日:2023-10-24 12:04:50 公開日:2023-05-09
# 効果的な要件工学によるソフトウェア開発のリスク軽減

Mitigating Risks in Software Development through Effective Requirements Engineering ( http://arxiv.org/abs/2305.05800v1 )

ライセンス: Link先を確認
Valentin Burkin(参考訳) 本稿では,セキュアなソフトウェア開発における要件収集の重要性について概説する。 要件エンジニアが顧客のニーズと欲求を定義し、理解する上で果たす重要な役割と、開発チームとの連絡に関する責任について説明している。 この記事では、ウォーターフォール、スパイラル、アジャイルモデルなど、さまざまなソフトウェア開発ライフサイクルとそのメリットとデメリットについても取り上げる。 さらに、システム目標と堅固な要件を特定する上で、ドメイン知識と利害関係者主導の啓発の重要性を説明します。 この記事は、早くから曖昧さと曖昧さのリスクを軽減する必要性を強調し、要件の評価、交渉、優先順位付けのテクニックを提供する。 最後に、これらの要件を自然を用いて完全で簡潔で一貫したドキュメントに変換することの重要性について論じる。 この記事では、顧客のニーズと期待を満たすセキュアで成功したソフトウェア製品を作成する上で、要求収集が果たす重要な役割を強調します。

This article provides an overview of the importance of requirements gathering in secure software development. It explains the crucial role of Requirements Engineers in defining and understanding the customer's needs and desires, as well as their responsibilities in liaising with the development team. The article also covers various software development life cycles, such as waterfall, spiral, and agile models, and their advantages and disadvantages. Additionally, it explains the importance of domain knowledge and stakeholder-driven elicitation in identifying system goals and firm requirements. The article emphasizes the need to mitigate the risks of vagueness and ambiguity early on and provides techniques for evaluating, negotiating, and prioritizing requirements. Finally, it discusses the importance of turning these requirements into complete, concise, and consistent documents using natural. Overall, this article highlights the critical role of requirements gathering in creating secure and successful software products that meet the customer's needs and expectations.
翻訳日:2023-10-24 09:15:41 公開日:2023-05-09
# コードレビューの速度は、アクティビティや使用状況、コード品質に影響されますか?

How is the speed of code review affected by activity, usage and code quality? ( http://arxiv.org/abs/2305.05770v1 )

ライセンス: Link先を確認
William Brown (University of Aberdeen BSc student)(参考訳) 本稿では,MediaWiki拡張の文脈におけるコード品質,アクティビティ,使用状況がコードレビューの速度に与える影響について検討する。 マージの中央値は、さまざまな手動メソッドとapiを使用して収集される他のいくつかの変数と比較される。 結果は可能な場所でグラフ化され、統計分析によって結果の意義が決定される。 この論文は、コードで投票するレビュアーの数と、スチュワードを持つかどうかがマージの中央値に影響することを見出している。 最後に結論が導き出され、さらなる研究トピックが推奨される。

This paper investigates how the speed of code review is affected by the code quality, activity and usage in the context of MediaWiki extensions. The median time to merge is compared against several other variables which are collected using a variety of manual methods and APIs. The results are graphed where possible and statistical analysis is used to determine the significance of the results. The paper finds that the number of reviewers voting on code and whether the extension has a steward affects the median time to merge. Finally, conclusions are drawn and further research topics are recommended.
翻訳日:2023-10-24 09:15:26 公開日:2023-05-09
# プログラミング言語の知識単位を用いてプルリクエストのレビュアーを推薦する:実証的研究

Using Knowledge Units of Programming Languages to Recommend Reviewers for Pull Requests: An Empirical Study ( http://arxiv.org/abs/2305.05654v1 )

ライセンス: Link先を確認
Md Ahasanuzzaman, Gustavo A. Oliva and Ahmed E. Hassan(参考訳) コードレビューは、ソフトウェア開発における品質保証の重要な要素です。 与えられたコード変更に対する適切なレビュアーを決定するには、変更したコードの特徴を理解し、潜在的なレビュアー(専門家プロファイル)のスキルを特定し、両者の適切な一致を見つける必要がある。 この作業を容易にするために,プログラミング言語の知識単位(KU)で動作するコードレビュアレコメンデータを設計する。 我々は、あるプログラミング言語の1つ以上のビルディングブロックによって提供される重要な機能の集合としてKUを定義する。 Java プログラミング言語の認定試験を使って KU を運用しています。 githubからアクティブにメンテナンスされた10のjavaプロジェクトからkusを検出し、290kコミットと65kプルリクエスト(prs)にまたがる。 次に、検出されたkusに基づいて、開発者専門知識プロファイルを作成する。 最後に、これらのKUベースの専門プロファイルを使用して、コードレビュアレコメンデータ(KUREC)を構築する。 RQ1では、KURECは最高性能のベースラインレコメンデータ(RF)と同様に機能する。 実用的な観点からは、kurecのパフォーマンスはrfよりも安定している(低四分位域)ため、より一貫性があり、潜在的に信頼性が高いことを強調する。 次に、RQ2では、KURECとベースラインレコメンデータを組み合わせて、3つの新しいレコメンデータを設計します。 これらの新しい組み合わせレコメンデーターは、KURECと個々のベースラインの両方を上回っている。 最後に、RQ3において、KURECとコメンデーターの組み合わせによる推奨が、根本から逸脱した時にどれほど妥当かを評価する。 すべてのRQの結果をまとめて、KURECと複合推薦者(AD_FREQ)は、私たちが研究したベースライン推薦者よりも総合的に優れていると結論づける。 そのため、地域における今後の仕事 (i)KUベースのレコメンデーターをベースラインとみなし、 (二)複合推薦者による実験。

Code review is a key element of quality assurance in software development. Determining the right reviewer for a given code change requires understanding the characteristics of the changed code, identifying the skills of each potential reviewer (expertise profile), and finding a good match between the two. To facilitate this task, we design a code reviewer recommender that operates on the knowledge units (KUs) of a programming language. We define a KU as a cohesive set of key capabilities that are offered by one or more building blocks of a given programming language. We operationalize our KUs using certification exams for the Java programming language. We detect KUs from 10 actively maintained Java projects from GitHub, spanning 290K commits and 65K pull requests (PRs). Next, we generate developer expertise profiles based on the detected KUs. Finally, these KU-based expertise profiles are used to build a code reviewer recommender (KUREC). In RQ1, we observe that KUREC performs as well as the top-performing baseline recommender (RF). From a practical standpoint, we highlight that KUREC's performance is more stable (lower interquartile range) than that of RF, thus making it more consistent and potentially more trustworthy. Next, in RQ2 we design three new recommenders by combining KUREC with our baseline recommenders. These new combined recommenders outperform both KUREC and the individual baselines. Finally, in RQ3 we evaluate how reasonable the recommendations from KUREC and the combined recommenders are when those deviate from the ground truth. Taking together the results from all RQs, we conclude that KUREC and one of the combined recommenders (AD_FREQ) are overall superior to the baseline recommenders that we studied. Future work in the area should thus (i) consider KU-based recommenders as baselines and (ii) experiment with combined recommenders.
翻訳日:2023-10-24 09:15:16 公開日:2023-05-09
# 振る舞い駆動開発: システムマッピングによる研究

Behaviour Driven Development: A Systematic Mapping Study ( http://arxiv.org/abs/2305.05567v1 )

ライセンス: Link先を確認
Leonard Peter Binamungu and Salome Maro(参考訳) コンテキスト: 振る舞い駆動開発(BDD)は、ソフトウェア要件をすべてのステークホルダーが理解できる方法で表現するために、半構造化された自然言語で書かれたシナリオを使用します。 結果の自然言語仕様も実行でき、ソフトウェアの正確で問題のある部分を明らかにすることができる。 BDDは約20年前に導入されたが、査読された科学文献には二次的な研究が欠如している。 目的: 2006年から2021年にかけて出版された研究を対象とするシステマティックマッピング研究を通じて,bdd研究の現状を理解すること。 方法: ソフトウェア工学における体系的なマッピング研究を行うためのガイドラインに従うことで,BDD論文が公開された場所の種類,研究,コントリビューション,トピックとその進化の研究,公開BDD研究で使用される評価方法などについて,研究の質問に答えることができた。 結果: 調査では166の論文がマッピングされた。 Key results include the following: the dominance of conference papers; scarcity of research with insights from the industry; shortage of philosophical papers on BDD; acute shortage of metrics for measuring various aspects of BDD specifications and the processes for producing BDD specifications; the dominance of studies on using BDD for facilitating various software development endeavours, improving the BDD process and associated artefacts, and applying BDD in different contexts; scarcity of studies on using BDD alongside other software techniques and technologies; increase in diversity of studied BDD topics; and notable use of case studies and experiments to study different BDD aspects. 結論: この論文はBDDの最先端に対する私たちの理解を改善し、将来のBDD研究における重要な領域を強調します。

Context: Behaviour Driven Development (BDD) uses scenarios written in semi-structured natural language to express software requirements in a way that can be understood by all stakeholders. The resulting natural language specifications can also be executed to reveal correct and problematic parts of a software. Although BDD was introduced about two decades ago, there is a lack of secondary studies in peer-reviewed scientific literature. Objective: To understand the current state of BDD research by conducting a systematic mapping study that covers studies published from 2006 to 2021. Method: By following the guidelines for conducting systematic mapping studies in software engineering, we sought to answer research questions on types of venues in which BDD papers have been published, research, contributions, studied topics and their evolution, and evaluation methods used in published BDD research. Results: The study identified 166 papers which were mapped. Key results include the following: the dominance of conference papers; scarcity of research with insights from the industry; shortage of philosophical papers on BDD; acute shortage of metrics for measuring various aspects of BDD specifications and the processes for producing BDD specifications; the dominance of studies on using BDD for facilitating various software development endeavours, improving the BDD process and associated artefacts, and applying BDD in different contexts; scarcity of studies on using BDD alongside other software techniques and technologies; increase in diversity of studied BDD topics; and notable use of case studies and experiments to study different BDD aspects. Conclusion: The paper improves our understanding of the state of the art of BDD, and highlights important areas of focus for future BDD research.
翻訳日:2023-10-24 09:14:45 公開日:2023-05-09
# BadCS: コード検索のためのバックドアアタックフレームワーク

BadCS: A Backdoor Attack Framework for Code search ( http://arxiv.org/abs/2305.05503v1 )

ライセンス: Link先を確認
Shiyi Qi and Yuanhang Yang and Shuzhzeng Gao and Cuiyun Gao and Zenglin Xu(参考訳) ディープラーニング(DL)の開発により、DLベースのコード検索モデルは最先端のパフォーマンスを達成し、ソフトウェア開発において広く使用されている。 しかし、脆弱性のあるコードを推奨するセキュリティ問題は十分な注意を払わず、ソフトウェア開発に潜在的に害をもたらす可能性がある。 毒物ベースのバックドア攻撃は、トレーニングデータセットに毒物サンプルを注入することでdlベースのモデルを攻撃するのに有効であることが証明されている。 しかし、以前の研究は、攻撃手法が全てのDLベースのコード検索モデルでうまく動作せず、トランスフォーマーベースのモデル、特に事前訓練されたモデルで失敗する傾向があることを示している。 さらに、感染したモデルは、一般的に良質なモデルよりもパフォーマンスが悪く、攻撃が十分にステルスにならず、開発者による採用を妨げる。 この2つの問題に対処するために,BadCSというコード検索モデルのための新しいバックドア攻撃フレームワークを提案する。 BadCSは主に有毒試料生成と再加重知識蒸留を含む2つの成分を含む。 有毒試料生成成分は、選択された有毒試料を提供することを目的とする。 再加重知識蒸留成分は、知識蒸留によるモデルの有効性を保ち、さらに有毒試料により多くの重量を割り当てることで攻撃を改善する。 DLベースの4つの一般的なモデルと2つのベンチマークデータセットの実験は、既存のコード検索システムがBadCSによって容易に攻撃されることを示した。 例えば、BadCSは、PythonとJavaのデータセットでそれぞれ83.03%-99.98%と75.98%-99.90%の改善を行った。 一方、BadCSは良質なモデルよりも比較的優れた性能を達成し、それぞれ平均で0.49%、0.46%のベースラインモデルを増やしている。

With the development of deep learning (DL), DL-based code search models have achieved state-of-the-art performance and have been widely used by developers during software development. However, the security issue, e.g., recommending vulnerable code, has not received sufficient attention, which will bring potential harm to software development. Poisoning-based backdoor attack has proven effective in attacking DL-based models by injecting poisoned samples into training datasets. However, previous work shows that the attack technique does not perform successfully on all DL-based code search models and tends to fail for Transformer-based models, especially pretrained models. Besides, the infected models generally perform worse than benign models, which makes the attack not stealthy enough and thereby hinders the adoption by developers. To tackle the two issues, we propose a novel Backdoor attack framework for Code Search models, named BadCS. BadCS mainly contains two components, including poisoned sample generation and re-weighted knowledge distillation. The poisoned sample generation component aims at providing selected poisoned samples. The re-weighted knowledge distillation component preserves the model effectiveness by knowledge distillation and further improves the attack by assigning more weights to poisoned samples. Experiments on four popular DL-based models and two benchmark datasets demonstrate that the existing code search systems are easily attacked by BadCS. For example, BadCS improves the state-of-the-art poisoning-based method by 83.03%-99.98% and 75.98%-99.90% on Python and Java datasets, respectively. Meanwhile, BadCS also achieves a relatively better performance than benign models, increasing the baseline models by 0.49% and 0.46% on average, respectively.
翻訳日:2023-10-24 09:13:49 公開日:2023-05-09
# ENCOVIZ: オープンソースのセキュアでマルチロールエネルギー消費可視化プラットフォーム

ENCOVIZ: An open-source, secure and multi-role energy consumption visualisation platform ( http://arxiv.org/abs/2305.05303v1 )

ライセンス: Link先を確認
Efstratios Voulgaris, Ilias Dimitriadis, Dimitrios P. Giakatos, Athena Vakali, Athanasios Papakonstantinou, Dimitris Chatzigiannis(参考訳) よりエネルギー効率の良い未来の必要性はかつてないほど明らかになり、スマートな建物やエネルギー消費メーターといった省エネの可能性をもったセクターの継続的な成長につながっている。 大量のエネルギー関連データが生成されることは大きなアドバンテージですが、同時に、この意味のある情報を構造化し、整理し、効率的に提示する必要性という新しい問題を生み出します。 本稿では,マルチロール,拡張性,セキュア,エネルギー消費の可視化プラットフォームであるencoviz platformを提案する。 ENCOVIZは、オープンソース技術の上に、最高のビジュアライゼーションプラクティスに従って構築され、含まれています。 (i)マルチロール機能。 (ii)エネルギー消費データの自動取り込み及び 三 エネルギー事業者及び消費者の効果的な意思決定を支援するための適切な可視化及び情報

The need for a more energy efficient future is now more evident than ever and has led to the continuous growth of sectors with greater potential for energy savings, such as smart buildings, energy consumption meters, etc. The large volume of energy related data produced is a huge advantage but, at the same time, it creates a new problem; The need to structure, organize and efficiently present this meaningful information. In this context, we present the ENCOVIZ platform, a multi-role, extensible, secure, energy consumption visualization platform with built-in analytics. ENCOVIZ has been built in accordance with the best visualisation practices, on top of open source technologies and includes (i) multi-role functionalities, (ii) the automated ingestion of energy consumption data and (iii) proper visualisations and information to support effective decision making both for energy providers and consumers.
翻訳日:2023-10-24 09:13:20 公開日:2023-05-09
# ナイジェリア・ラゴスにおける抗議運動におけるソーシャルメディアの影響力

Investigation of how social media influenced the endsars protests in Lagos, Nigeria ( http://arxiv.org/abs/2305.18300v1 )

ライセンス: Link先を確認
Christopher Augustine(参考訳) この研究は、ナイジェリアにおけるエンサーズデモの展開におけるソーシャルメディアの役割を評価した。 この研究は、社会メディアプラットフォームを厳格に規制するよう政府から要請されたため必要だった。 これは、ソーシャルメディアが誤用されているという政府の主張だ。 しかし、この研究は、ソーシャルメディアの利用が、政府によって引き起こされたものを含むユーザーの社会的経験によって決定されることを明らかにした。

The research assessed the role of social media in the unfolding of the EndSARS demonstrations in Nigeria. The study was necessary given the persistent call by governments for the strict regulation of social medium platforms. This is given governments' claim that social media is being misused. The study, however, reveals that social media use is determined by users' social experiences, including those caused by governments.
翻訳日:2023-06-04 11:38:58 公開日:2023-05-09
# より強固な連携:MLにおける倫理憲章、法律ツール、技術文書のアーティキュレーションについて

Stronger Together: on the Articulation of Ethical Charters, Legal Tools, and Technical Documentation in ML ( http://arxiv.org/abs/2305.18615v1 )

ライセンス: Link先を確認
Giada Pistilli, Carlos Munoz Ferrandis, Yacine Jernite, Margaret Mitchell(参考訳) AIシステムの背後にいる人々の説明責任の必要性の増大は、倫理、法、コンピュータサイエンスの3つの分野のプロセスを活用することで対処できる。 これらの分野は独立して考えることが多いが、解釈と実装において相補的な概念に依存している。 本稿では、この相互依存を詳述し、AIのポジティブな進化を形作る上で、協調ガバナンスツールに必要な役割を動機付けます。 まず、倫理的、法的、技術的分野におけるコンプライアンスの概念を対比し、それらの相違点と相補点の両方を概説し、これらの相互作用における倫理的チャーター、ライセンスおよび技術文書の役割に特に焦点をあてる。 次に,フィールド間の相乗効果の表現における価値の役割に注目し,実際にそれらの相互作用の具体的メカニズムを概説する。 オープン・コラボレーティブ・ワークショップ、責任あるライセンシング・イニシアティブ、提案された規制フレームワークなどだ。 これら3つの領域におけるコンプライアンスの相補的な概念を活用することで、技術的能力、社会への影響、そして技術的な仕様が関連する規制にどのように影響するかを共同で考慮する、より包括的なAIシステム管理フレームワークを構築することができます。 したがって、我々の分析は、AIシステムを管理するために大規模に使用される倫理的、法的、技術的、AI倫理の枠組みを共同で検討することの必要性と、これらの領域における思考が他の領域にどのように影響するかを明確にしている。

The growing need for accountability of the people behind AI systems can be addressed by leveraging processes in three fields of study: ethics, law, and computer science. While these fields are often considered in isolation, they rely on complementary notions in their interpretation and implementation. In this work, we detail this interdependence and motivate the necessary role of collaborative governance tools in shaping a positive evolution of AI. We first contrast notions of compliance in the ethical, legal, and technical fields; we outline both their differences and where they complement each other, with a particular focus on the roles of ethical charters, licenses, and technical documentation in these interactions. We then focus on the role of values in articulating the synergies between the fields and outline specific mechanisms of interaction between them in practice. We identify how these mechanisms have played out in several open governance fora: an open collaborative workshop, a responsible licensing initiative, and a proposed regulatory framework. By leveraging complementary notions of compliance in these three domains, we can create a more comprehensive framework for governing AI systems that jointly takes into account their technical capabilities, their impact on society, and how technical specifications can inform relevant regulations. Our analysis thus underlines the necessity of joint consideration of the ethical, legal, and technical in AI ethics frameworks to be used on a larger scale to govern AI systems and how the thinking in each of these areas can inform the others.
翻訳日:2023-06-04 11:09:02 公開日:2023-05-09
# 既存の分類学を用いたチームワークフィードバックの分析におけるChatGPTの有効性の検討

Exploring the Efficacy of ChatGPT in Analyzing Student Teamwork Feedback with an Existing Taxonomy ( http://arxiv.org/abs/2305.11882v1 )

ライセンス: Link先を確認
Andrew Katz, Siqing Wei, Gaurav Nanda, Christopher Brinton, Matthew Ohland(参考訳) チームワークは多くの学術的、専門的な設定の重要なコンポーネントです。 このような状況において、チームメンバ間のフィードバックは、成功と持続可能なチームワークを促進する上で重要な要素です。 しかし、教室では、チームやチームメンバーの数や評価の頻度が増加するにつれて、インストラクターが読み書きをするのはコメントの量が圧倒的になり、学生改善のパターンや領域を特定するのが難しくなる。 この課題に対処するために、生成AIモデル、特にChatGPTを使用して、チームベースの学習コンテキストにおける学生のコメントを分析した。 本研究の目的は, 肯定的および否定的なコメントからなる既存の枠組みに基づいて, 学生コメント中のトピックを正確に識別するChatGPTの能力を評価することである。 その結果,chatgptは学生コメントのラベル付けにおいて90%以上の精度を達成でき,チームプロジェクトにおけるフィードバックの分析に有用である可能性が示唆された。 この研究は、AIモデルを用いた教育的文脈における研究の活発化に寄与し、学生コメントの分析を容易にするためのChatGPTの可能性を強調している。

Teamwork is a critical component of many academic and professional settings. In those contexts, feedback between team members is an important element to facilitate successful and sustainable teamwork. However, in the classroom, as the number of teams and team members and frequency of evaluation increase, the volume of comments can become overwhelming for an instructor to read and track, making it difficult to identify patterns and areas for student improvement. To address this challenge, we explored the use of generative AI models, specifically ChatGPT, to analyze student comments in team based learning contexts. Our study aimed to evaluate ChatGPT's ability to accurately identify topics in student comments based on an existing framework consisting of positive and negative comments. Our results suggest that ChatGPT can achieve over 90\% accuracy in labeling student comments, providing a potentially valuable tool for analyzing feedback in team projects. This study contributes to the growing body of research on the use of AI models in educational contexts and highlights the potential of ChatGPT for facilitating analysis of student comments.
翻訳日:2023-05-28 05:29:30 公開日:2023-05-09
# 顔画像に基づく音声制御によるゼロショットパーソナライズされた音声合成

Zero-shot personalized lip-to-speech synthesis with face image based voice control ( http://arxiv.org/abs/2305.14359v1 )

ライセンス: Link先を確認
Zheng-Yan Sheng, Yang Ai, Zhen-Hua Ling(参考訳) 顔画像から対応する音声を予測するLip-to-Speech(Lip2Speech)合成は、様々なモデルや訓練戦略において、一連の独立した研究で大きく進歩している。 しかし,自然参照音声から余分な話者埋め込みを抽出する必要があるため,無声話者の無声映像のみを付与した場合は使用できないため,ゼロショット条件下での音声制御は不可能である。 本稿では,顔画像が話者識別を制御できるゼロショットパーソナライズされたlip2speech合成法を提案する。 変分オートエンコーダを用いて話者識別と言語コンテンツ表現をアンタングルし、話者埋め込みにより、未知話者に対する合成音声の音声特性を制御できる。 さらに,音声制御におけるfse(face-based speaker embeddeds)の能力向上を目的としたクロスモーダル表現学習を提案する。 提案手法の有効性を総合実験により検証し, 合成発話がより自然であり, 比較手法よりも入力映像の性格に適合することを示した。 本論文は,音声の特徴を制御するための参照音声ではなく,顔画像を用いたゼロショットパーソナライズされたLip2Speech合成の試みである。

Lip-to-Speech (Lip2Speech) synthesis, which predicts corresponding speech from talking face images, has witnessed significant progress with various models and training strategies in a series of independent studies. However, existing studies can not achieve voice control under zero-shot condition, because extra speaker embeddings need to be extracted from natural reference speech and are unavailable when only the silent video of an unseen speaker is given. In this paper, we propose a zero-shot personalized Lip2Speech synthesis method, in which face images control speaker identities. A variational autoencoder is adopted to disentangle the speaker identity and linguistic content representations, which enables speaker embeddings to control the voice characteristics of synthetic speech for unseen speakers. Furthermore, we propose associated cross-modal representation learning to promote the ability of face-based speaker embeddings (FSE) on voice control. Extensive experiments verify the effectiveness of the proposed method whose synthetic utterances are more natural and matching with the personality of input video than the compared methods. To our best knowledge, this paper makes the first attempt on zero-shot personalized Lip2Speech synthesis with a face image rather than reference audio to control voice characteristics.
翻訳日:2023-05-28 05:01:50 公開日:2023-05-09
# 新しいモビリティの時代:自律車体システムにおけるディジタル双極子応用の探求

A New Era of Mobility: Exploring Digital Twin Applications in Autonomous Vehicular Systems ( http://arxiv.org/abs/2305.16158v1 )

ライセンス: Link先を確認
S M Mostaq Hossain, Sohag Kumar Saha, Shampa Banik, Trapa Banik(参考訳) デジタルツイン(Digital Twins、DT)は、物理的オブジェクトやプロセスの仮想表現で、実際の環境から情報を収集して、物理双生児の現在と将来の振る舞いを表現、検証、再現することができる。 DTは、製造業、自動車、医療、スマートシティなど、さまざまな分野において、ますます普及しつつある。 本稿では,自律車両産業におけるdtsの体系的評価について述べる。 我々はDTとその重要な特徴に対処し、正確なデータ収集、リアルタイム分析、効率的なシミュレーション機能を強調し、性能と信頼性の向上におけるそれらの役割を強調した。 次に、dtsの技術課題と中央技術について検討した。 我々は,スマートシティにおける自動運転車における様々な手法の比較分析を行った。 最後に,自動運転車産業におけるdtsの適用課題と限界について論じた。

Digital Twins (DTs) are virtual representations of physical objects or processes that can collect information from the real environment to represent, validate, and replicate the physical twin's present and future behavior. The DTs are becoming increasingly prevalent in a variety of fields, including manufacturing, automobiles, medicine, smart cities, and other related areas. In this paper, we presented a systematic reviews on DTs in the autonomous vehicular industry. We addressed DTs and their essential characteristics, emphasized on accurate data collection, real-time analytics, and efficient simulation capabilities, while highlighting their role in enhancing performance and reliability. Next, we explored the technical challenges and central technologies of DTs. We illustrated the comparison analysis of different methodologies that have been used for autonomous vehicles in smart cities. Finally, we addressed the application challenges and limitations of DTs in the autonomous vehicular industry.
翻訳日:2023-05-28 04:31:16 公開日:2023-05-09
# QVoice:アラビア語の発音学習アプリケーション

QVoice: Arabic Speech Pronunciation Learning Application ( http://arxiv.org/abs/2305.07445v1 )

ライセンス: Link先を確認
Yassine El Kheir, Fouad Khnaisser, Shammur Absar Chowdhury, Hamdy Mubarak, Shazia Afzal, Ahmed Ali(参考訳) 本稿では、エンドツーエンドの誤発音検出とフィードバック生成モジュールを利用したアラビア語発音学習アプリケーションQVoiceを紹介する。 このアプリケーションは、非ネイティブアラビア語話者が発音スキルを向上させるのを支援すると同時に、ネイティブ話者が現代標準アラビア語(msa)の発音に地域方言の影響を軽減できるように設計されている。 QVoiceは、学習者が意味を理解し、既存の英語の知識とつながりを描き、発音補正のための詳細なフィードバックと、文脈的な単語使用例を提供するために様々な学習方法を採用している。 QVoiceで特徴付けられる学習の手がかりは、フレーズや単語の可視化や翻訳、音素の書き起こしや翻訳など、幅広い意味のある情報を含んでいる。 QVoiceは文字レベルで発音フィードバックを提供し、単語レベルでのパフォーマンスを評価する。

This paper introduces a novel Arabic pronunciation learning application QVoice, powered with end-to-end mispronunciation detection and feedback generator module. The application is designed to support non-native Arabic speakers in enhancing their pronunciation skills, while also helping native speakers mitigate any potential influence from regional dialects on their Modern Standard Arabic (MSA) pronunciation. QVoice employs various learning cues to aid learners in comprehending meaning, drawing connections with their existing knowledge of English language, and offers detailed feedback for pronunciation correction, along with contextual examples showcasing word usage. The learning cues featured in QVoice encompass a wide range of meaningful information, such as visualizations of phrases/words and their translations, as well as phonetic transcriptions and transliterations. QVoice provides pronunciation feedback at the character level and assesses performance at the word level.
翻訳日:2023-05-21 11:12:48 公開日:2023-05-09
# 高次元多変量モデルのためのコピュラ変分LSTM

Copula Variational LSTM for High-dimensional Cross-market Multivariate Dependence Modeling ( http://arxiv.org/abs/2305.08778v1 )

ライセンス: Link先を確認
Jia Xu and Longbing Cao(参考訳) ヘテロジニアス市場における金融指標などの多変数間の高次元依存関係をモデル化する、重要な課題に対処する。 現実には、市場は時間とともに互いに結合し、影響し、市場の金融変数も結合している。 本稿では,変分逐次ニューラルネットワークをコプラに基づく依存モデルと統合し,非正規多変数間の時間的可観測性と潜在変数に基づく依存度と構造を特徴付ける最初の試みを行う。 我々の変異型ニューラルネットワークWPVC-VLSTMは、変動型長期記憶ネットワークと正規ブドウコンパウラによる多変量時系列の連続的依存度と構造をモデル化する。 正規 vine copula は複数の動的変数をまたいだ非正規分布結合と長距離分布結合をモデル化する。 WPVC-VLSTMは、技術的重要性とポートフォリオ予測性能の両方の観点から検証される。 線形モデル、確率的ボラティリティモデル、ディープニューラルネットワーク、市場横断ポートフォリオ予測における変動的リカレントネットワークなど、ベンチマークを上回っている。

We address an important yet challenging problem - modeling high-dimensional dependencies across multivariates such as financial indicators in heterogeneous markets. In reality, a market couples and influences others over time, and the financial variables of a market are also coupled. We make the first attempt to integrate variational sequential neural learning with copula-based dependence modeling to characterize both temporal observable and latent variable-based dependence degrees and structures across non-normal multivariates. Our variational neural network WPVC-VLSTM models variational sequential dependence degrees and structures across multivariate time series by variational long short-term memory networks and regular vine copula. The regular vine copula models nonnormal and long-range distributional couplings across multiple dynamic variables. WPVC-VLSTM is verified in terms of both technical significance and portfolio forecasting performance. It outperforms benchmarks including linear models, stochastic volatility models, deep neural networks, and variational recurrent networks in cross-market portfolio forecasting.
翻訳日:2023-05-21 11:03:14 公開日:2023-05-09
# 金融時系列予測のための時間的・異種グラフニューラルネットワーク

Temporal and Heterogeneous Graph Neural Network for Financial Time Series Prediction ( http://arxiv.org/abs/2305.08740v1 )

ライセンス: Link先を確認
Sheng Xiang, Dawei Cheng, Chencheng Shang, Ying Zhang, Yuqi Liang(参考訳) 株式市場の価格変動予測は、経済学者とコンピュータ科学者の双方の関心を惹きつけながら、古典的かつ困難な問題であった。 近年,グラフニューラルネットワークによる企業関係の深層学習による予測性能の向上が進んでいる。 しかし、既存の関係グラフは通常、大量のリソース要求と低い精度に苦しむ手作りの人間のラベル付けや自然言語処理によって構築される。 さらに、関係グラフの動的変化に効果的に対応できない。 そこで本稿では,金融時系列における価格変動の動的関係を学習するための時間的・不均質グラフニューラルネットワーク(thgnn)アプローチを提案する。 特に,まず,取引日毎の企業関係グラフを,その歴史的価格に応じて生成する。 次に,トランスコーダを利用して価格移動情報を時間表現に符号化する。 その後、変換器エンコーダによる財務時系列データの埋め込みを共同で最適化し、目標運動の確率を推定する異種グラフアテンションネットワークを提案する。 最後に、米国と中国における株式市場に関する広範な実験を実施します。 その結果,提案手法の有効性と性能を最先端のベースラインと比較した。 さらに,提案手法により得られたポートフォリオリターンが,他のベースラインを大きく上回る実世界の定量的アルゴリズム取引システムにおいて,提案手法のthgnnを展開する。

The price movement prediction of stock market has been a classical yet challenging problem, with the attention of both economists and computer scientists. In recent years, graph neural network has significantly improved the prediction performance by employing deep learning on company relations. However, existing relation graphs are usually constructed by handcraft human labeling or nature language processing, which are suffering from heavy resource requirement and low accuracy. Besides, they cannot effectively response to the dynamic changes in relation graphs. Therefore, in this paper, we propose a temporal and heterogeneous graph neural network-based (THGNN) approach to learn the dynamic relations among price movements in financial time series. In particular, we first generate the company relation graph for each trading day according to their historic price. Then we leverage a transformer encoder to encode the price movement information into temporal representations. Afterward, we propose a heterogeneous graph attention network to jointly optimize the embeddings of the financial time series data by transformer encoder and infer the probability of target movements. Finally, we conduct extensive experiments on the stock market in the United States and China. The results demonstrate the effectiveness and superior performance of our proposed methods compared with state-of-the-art baselines. Moreover, we also deploy the proposed THGNN in a real-world quantitative algorithm trading system, the accumulated portfolio return obtained by our method significantly outperforms other baselines.
翻訳日:2023-05-21 11:02:45 公開日:2023-05-09
# バイオメディカル意思決定支援における空間コンピューティングの可能性:Atlas-EHRビジョン

Spatial Computing Opportunities in Biomedical Decision Support: The Atlas-EHR Vision ( http://arxiv.org/abs/2305.09675v1 )

ライセンス: Link先を確認
Majid Farhadloo, Arun Sharma, Shashi Shekhar and Svetomir N. Markovic(参考訳) 医療従事者が次世代のバイオメディカル意思決定支援を通じて患者の医療史を理解するために必要な時間を短縮する問題を考察する。 この問題は、医療の質と患者の結果を改善する可能性があるため、社会的に重要である。 しかし,高ドクター比,潜在的な長期医療史,いくつかの医療状況に対する治療の緊急性,患者の変動性などにより困難である。 現在のシステムは、閲覧に時間がかかる患者の医療履歴の縦断的なビューを提供しており、医師は初期分析のために看護師や住民などと関わりを持つ必要があることが多い。 この限界を克服するために、私たちのビジョンであるAtlas EHRは、患者の履歴(例えば、電子健康記録(EHR))やその他の生体医学データ)の代替空間表現である。 Google Mapsがグローバル、ナショナル、地域、ローカルのビューを可能にするように、Atlas-EHRは、患者の解剖学と歴史の概要から始まり、空間解剖学的サブシステム、個々のコンポーネント、またはサブコンポーネントにドリルダウンする。 また、直感的な地図(緊急色、病気のアイコン、シンボルなど)を使用して、タスク固有の地図を設計するのと同様に、タスク効率と意思決定品質を改善するための重要な情報を強調する。 Atlas-EHRは、健康が米国の経済のほぼ5分の1であるため、空間コンピューティングの魅力的な機会を提供する。 しかし、地理的ユースケース(ナビゲーション、土地調査、マッピングなど)のために設計された伝統的な空間コンピューティングは、生物医学領域における多くのハードルに直面し、いくつかの研究課題を提示している。 本稿では,空間コンピューティングの幅広い分野において,このテーマに基づくオープンリサーチの問題をいくつか提示する。

Consider the problem of reducing the time needed by healthcare professionals to understand patient medical history via the next generation of biomedical decision support. This problem is societally important because it has the potential to improve healthcare quality and patient outcomes. However, it is challenging due to the high patient-doctor ratio, the potential long medical histories, the urgency of treatment for some medical conditions, and patient variability. The current system provides a longitudinal view of patient medical history, which is time-consuming to browse, and doctors often need to engage nurses, residents, and others for initial analysis. To overcome this limitation, our vision, Atlas EHR, is an alternative spatial representation of patients' histories (e.g., electronic health records (EHRs)) and other biomedical data. Just like Google Maps allows a global, national, regional, and local view, the Atlas-EHR may start with the overview of the patient's anatomy and history before drilling down to spatially anatomical sub-systems, their individual components, or sub-components. It will also use thoughtful cartography (e.g., urgency color, disease icons, and symbols) to highlight critical information for improving task efficiency and decision quality, analogous to how it is used in designing task-specific maps. Atlas-EHR presents a compelling opportunity for spatial computing since health is almost a fifth of the US economy. However, the traditional spatial computing designed for geographic use cases (e.g., navigation, land survey, mapping) faces many hurdles in the biomedical domain, presenting several research questions. This paper presents some open research questions under this theme in broad areas of spatial computing.
翻訳日:2023-05-21 10:55:50 公開日:2023-05-09
# マルウェア分類のための量子機械学習

Quantum Machine Learning for Malware Classification ( http://arxiv.org/abs/2305.09674v1 )

ライセンス: Link先を確認
Gr\'egoire Barru\'e and Tony Quertier(参考訳) 悪意のあるソフトウェア検出の文脈では、機械学習(ML)は新しいマルウェアに一般化するために広く使われている。 しかし、MLモデルは、これまで見たことのないマルウェアに対して、騙されたり、一般化の問題を抱える可能性があることが示されている。 分類タスクにおける量子アルゴリズムの利点について検討する。 量子機械学習アルゴリズムの2つのモデルを実装し、悪意のあるファイルと良質なファイルからなるデータセットの分類のために、それらを古典的なモデルと比較する。 文献にみられた手法に基づいてアルゴリズムを最適化し、探索的な方法で結果を解析し、将来を探究する最も興味深い方向を特定する。

In a context of malicious software detection, machine learning (ML) is widely used to generalize to new malware. However, it has been demonstrated that ML models can be fooled or may have generalization problems on malware that has never been seen. We investigate the possible benefits of quantum algorithms for classification tasks. We implement two models of Quantum Machine Learning algorithms, and we compare them to classical models for the classification of a dataset composed of malicious and benign executable files. We try to optimize our algorithms based on methods found in the literature, and analyze our results in an exploratory way, to identify the most interesting directions to explore for the future.
翻訳日:2023-05-21 10:55:21 公開日:2023-05-09
# 信号処理のための凸四元数最適化:理論と応用

Convex Quaternion Optimization for Signal Processing: Theory and Applications ( http://arxiv.org/abs/2305.06879v1 )

ライセンス: Link先を確認
Shuning Sun, Qiankun Diao, Dongpo Xu, Pauline Bourigault and Danilo P. Mandic(参考訳) 凸最適化法は、通信や信号処理の分野で広く用いられている。 しかし、四元数最適化の理論は現在、複雑で実際の最適化ほど完全には開発されておらず体系的ではない。 この目的のために,一般化ハミルトン実数計算(ghr)に基づく信号処理における凸四元数最適化の本質理論を確立する。 これは従来の複素および実最適化理論に従う方法で達成される。 厳密な場合には、凸四元関数に対する5つの判別定理と、強凸四元関数に対する4つの判別基準を示す。 さらに,凸四元数最適化問題の最適性に関する基礎定理を提案し,四元数信号処理における3つの応用によりその有用性を示す。 これらの結果は、凸四元数最適化のための確かな理論基盤と、信号処理応用のさらなる発展のための開放経路を提供する。

Convex optimization methods have been extensively used in the fields of communications and signal processing. However, the theory of quaternion optimization is currently not as fully developed and systematic as that of complex and real optimization. To this end, we establish an essential theory of convex quaternion optimization for signal processing based on the generalized Hamilton-real (GHR) calculus. This is achieved in a way which conforms with traditional complex and real optimization theory. For rigorous, We present five discriminant theorems for convex quaternion functions, and four discriminant criteria for strongly convex quaternion functions. Furthermore, we provide a fundamental theorem for the optimality of convex quaternion optimization problems, and demonstrate its utility through three applications in quaternion signal processing. These results provide a solid theoretical foundation for convex quaternion optimization and open avenues for further developments in signal processing applications.
翻訳日:2023-05-12 14:23:16 公開日:2023-05-09
# Pseudo-Hamilton システム同定

Pseudo-Hamiltonian system identification ( http://arxiv.org/abs/2305.06920v1 )

ライセンス: Link先を確認
Sigurd Holmsen, S{\o}lve Eidnes and Signe Riemer-S{\o}rensen(参考訳) 物理システムの基盤となるダイナミクスを特定することは、観測データのみを提供する場合、困難である。 本研究では、一階常微分方程式としてモデル化できるシステムを考える。 ある擬似ハミルトニアン公式を仮定することで、モデルが未知の減衰や外乱の影響を受けるデータに基づいて訓練されている場合でも、内部力学の解析的用語を学ぶことができる。 乱れの分析的な用語を見つけることが難しい場合、ニューラルネットワークを使って学習するハイブリッドモデルは、理想的な条件の下でシステムのダイナミクスを正確に識別することができる。 これにより、他のシステム識別モデルが失敗する状況に適用できる。 さらに,損失関数における4次対称積分スキームの利用と,トレーニングにおける実際の統合を避けることを提案し,ノイズデータの性能向上につながる様々な例を示す。

Identifying the underlying dynamics of physical systems can be challenging when only provided with observational data. In this work, we consider systems that can be modelled as first-order ordinary differential equations. By assuming a certain pseudo-Hamiltonian formulation, we are able to learn the analytic terms of internal dynamics even if the model is trained on data where the system is affected by unknown damping and external disturbances. In cases where it is difficult to find analytic terms for the disturbances, a hybrid model that uses a neural network to learn these can still accurately identify the dynamics of the system as if under ideal conditions. This makes the models applicable in situations where other system identification models fail. Furthermore, we propose to use a fourth-order symmetric integration scheme in the loss function and avoid actual integration in the training, and demonstrate on varied examples how this leads to increased performance on noisy data.
翻訳日:2023-05-12 14:16:05 公開日:2023-05-09
# 画像ワッサースタイン攻撃と防御の改善

Improved Image Wasserstein Attacks and Defenses ( http://arxiv.org/abs/2004.12478v2 )

ライセンス: Link先を確認
Edward J. Hu, Adith Swaminathan, Hadi Salman, Greg Yang(参考訳) $\ell_p$ボールで束縛された画像摂動に対するロバスト性は近年よく研究されている。 しかし実世界の摂動は、$\ell_p$の脅威モデルが想定するピクセル独立性を示すことは滅多にない。 最近提案されたwasserstein distance-bounded threatモデルは、ピクセルの質量移動に対する摂動を制限する有望な代替案である。 我々は、ワッサースタイン脅威モデルの以前の定義の欠陥を指摘し、修正し、より優れた枠組みの下でより強力な攻撃と防御を探求する。 最後に,現在のwasserstein-robustモデルでは,現実世界に見られる摂動に対する防御ができないことを論じる。 私たちのコードとトレーニングされたモデルは、https://github.com/edwardjhu/improved_wassersteinで利用可能です。

Robustness against image perturbations bounded by a $\ell_p$ ball have been well-studied in recent literature. Perturbations in the real-world, however, rarely exhibit the pixel independence that $\ell_p$ threat models assume. A recently proposed Wasserstein distance-bounded threat model is a promising alternative that limits the perturbation to pixel mass movements. We point out and rectify flaws in previous definition of the Wasserstein threat model and explore stronger attacks and defenses under our better-defined framework. Lastly, we discuss the inability of current Wasserstein-robust models in defending against perturbations seen in the real world. Our code and trained models are available at https://github.com/edwardjhu/improved_wasserstein .
翻訳日:2023-05-11 18:39:37 公開日:2023-05-09
# ビルホフ・フォン・ノイマンの定理に合致する共同測定可能性

Joint measurability meets Birkhoff-von Neumann's theorem ( http://arxiv.org/abs/1809.07366v5 )

ライセンス: Link先を確認
Leonardo Guerini and Alexandre Baraviera(参考訳) 量子測定は確率ベクトルの一般化と解釈でき、非負の実数は正の半定値作用素に置き換えられる。 このアナロジーを外挿して、二重正規化テンソル (DNT) と呼ばれる二重確率行列の一般化を定義し、バーコフ・ヴォン・ノイマンの定理(英語版)(Birkhoff-von Neumann's theorem)の対応するバージョンを定式化する。 我々は、この文脈でDNTの数学的特徴として関節測度が生じることを証明し、バーホフ=ヴォン・ノイマン(Birkhoff-von Neumann)と同様の性格化を確立する必要がある。 逆に、DNTは、一般作用素理論におけるその関連性に言及しながら、結合可測性問題の特定の事例から自然に現れることを示す。

Quantum measurements can be interpreted as a generalisation of probability vectors, in which non-negative real numbers are replaced by positive semi-definite operators. We extrapolate this analogy to define a generalisation of doubly stochastic matrices that we call doubly normalised tensors (DNTs), and formulate a corresponding version of Birkhoff-von Neumann's theorem, which states that permutations are the extremal points of the set of doubly stochastic matrices. We prove that joint measurability arises as a mathematical feature of DNTs in this context, needed to establish a characterisation similar to Birkhoff-von Neumann's. Conversely, we also show that DNTs emerge naturally from a particular instance of a joint measurability problem, remarking its relevance in general operator theory.
翻訳日:2023-05-11 18:39:00 公開日:2023-05-09
# 近似制約最適化のための非構造探索におけるQAOAの指数速度アップの数値的エビデンス

Numerical Evidence for Exponential Speed-up of QAOA over Unstructured Search for Approximate Constrained Optimization ( http://arxiv.org/abs/2202.00648v3 )

ライセンス: Link先を確認
John Golden, Andreas B\"artschi, Stephan Eidenbenz, Daniel O'Malley(参考訳) 最近の研究にもかかわらず、量子交換演算子 Ansatz (QAOA) の真の可能性と限界は明らかでない。 QAOAに関する重要な問題は、その性能が問題インスタンスの入力サイズとどの程度スケールするか、特に高い近似比に達するために必要なQAOAラウンド数の増加である。 本稿では,Grover-style unstructured searchによるQAOAの指数的高速化の数値的証明を行い,制約付き最適化問題の近似解を求める。 この結果から,QAOAが最適化問題の構造を活かし,非構造探索の下位境界を克服できることが示唆された。 この目的のために、ハミング重み付き最適化問題の総合的な数値計算を行い、標準的なミキサーとフェーズセパレータの組合せであるハミルトニアス(リングミキサー、クリッドミキサー、オブジェクト値位相セパレータ)と、量子最小フィンディングにインスパイアされたハミルトニアス(グラバーミキサー、スレッショルドベースの位相セパレータ)を組み合わせた。 我々は,Clique-Objective-QAOAをGrover-Threshold-QAOAよりも指数的なスピードアップで同定し,後者のスケーリングを非構造化検索に結びつける。 以上の結果から,QAOA性能の最大化にはミキサと相分離器の任意選択が必要であることが示唆された。

Despite much recent work, the true promise and limitations of the Quantum Alternating Operator Ansatz (QAOA) are unclear. A critical question regarding QAOA is to what extent its performance scales with the input size of the problem instance, in particular the necessary growth in the number of QAOA rounds to reach a high approximation ratio. We present numerical evidence for an exponential speed-up of QAOA over Grover-style unstructured search in finding approximate solutions to constrained optimization problems. Our result provides a strong hint that QAOA is able to exploit the structure of an optimization problem and thus overcome the lower bound for unstructured search. To this end, we conduct a comprehensive numerical study on several Hamming-weight constrained optimization problems for which we include combinations of all standardly studied mixer and phase separator Hamiltonians (Ring mixer, Clique mixer, Objective Value phase separator) as well as quantum minimum-finding inspired Hamiltonians (Grover mixer, Threshold-based phase separator). We identify Clique-Objective-QAOA with an exponential speed-up over Grover-Threshold-QAOA and tie the latter's scaling to that of unstructured search, with all other QAOA combinations coming in at a distant third. Our result suggests that maximizing QAOA performance requires a judicious choice of mixer and phase separator, and should trigger further research into other QAOA variations.
翻訳日:2023-05-11 18:07:14 公開日:2023-05-09
# プライバシ保存型ロジスティック回帰トレーニングの高速化

Privacy-Preserving Logistic Regression Training with A Faster Gradient Variant ( http://arxiv.org/abs/2201.10838v4 )

ライセンス: Link先を確認
John Chiang(参考訳) 暗号化データによるロジスティック回帰トレーニングは,セキュリティ上の懸念に対して,長年にわたって魅力的なアイデアだった。 本稿では,プライバシー保護ロジスティック回帰トレーニングのために,$\texttt{quadratic gradient}$という高速勾配変種を提案する。 $\texttt{quadratic gradient}$ の中核は、単純化された固定 Hessian の拡張と見なすことができる。 我々はNesterovの加速勾配(NAG)と適応勾配アルゴリズム(Adagrad)を$\texttt{quadratic gradient}$でそれぞれ拡張し、複数のデータセット上で拡張アルゴリズムを評価する。 この勾配は、2017年のidashコンペティションやその他のデータセットによって提供された遺伝子データセットにある。 実験により,改良した手法は,第1次勾配法と比較して収束速度が向上することを示した。 次に、同型ロジスティック回帰トレーニングを実装するために拡張NAG法を採用し、わずか3ドル反復で同等の結果を得る。 一般的な数値最適化問題に対して、$\texttt{quadratic gradient}$が他の一階勾配法を拡張できる可能性はある。

Logistic regression training over encrypted data has been an attractive idea to security concerns for years. In this paper, we propose a faster gradient variant called $\texttt{quadratic gradient}$ for privacy-preserving logistic regression training. The core of $\texttt{quadratic gradient}$ can be seen as an extension of the simplified fixed Hessian. We enhance Nesterov's accelerated gradient (NAG) and Adaptive Gradient Algorithm (Adagrad) respectively with $\texttt{quadratic gradient}$ and evaluate the enhanced algorithms on several datasets. %gradient $ascent$ methods with this gradient variant on the gene dataset provided by the 2017 iDASH competition and other datasets. Experiments show that the enhanced methods have a state-of-the-art performance in convergence speed compared to the raw first-order gradient methods. We then adopt the enhanced NAG method to implement homomorphic logistic regression training, obtaining a comparable result by only $3$ iterations. There is a promising chance that $\texttt{quadratic gradient}$ could be used to enhance other first-order gradient methods for general numerical optimization problems.
翻訳日:2023-05-11 18:06:43 公開日:2023-05-09
# 決定論的有限状態オートマトンによるmpeの高速化と制約付き最適化

Faster Exact MPE and Constrained Optimization with Deterministic Finite State Automata ( http://arxiv.org/abs/2108.03899v3 )

ライセンス: Link先を確認
Filippo Bistaffa(参考訳) 本稿では,グラフィカルモデルにおける最も可能性の高い説明と制約付き最適化タスクのための決定論的有限状態オートマトンに基づく簡潔な関数表現を提案する。 次に、Bucket Elimination(BE)内の簡潔な表現を活用します。 BE のバージョンを FABE と表現します。 FABEは、冗長性を最小化することで、実行時およびメモリ要求の観点からBEのパフォーマンスを大幅に改善する。 最も可能性の高い説明と重み付けされた制約満足度ベンチマークの結果は、fabeがしばしば最先端を上回っており、実行時の大幅な改善(テストで最大5桁まで)をもたらしていることを示している。

We propose a concise function representation based on deterministic finite state automata for exact most probable explanation and constrained optimization tasks in graphical models. We then exploit our concise representation within Bucket Elimination (BE). We denote our version of BE as FABE. FABE significantly improves the performance of BE in terms of runtime and memory requirements by minimizing redundancy. Results on most probable explanation and weighted constraint satisfaction benchmarks show that FABE often outperforms the state of the art, leading to significant runtime improvements (up to 5 orders of magnitude in our tests).
翻訳日:2023-05-11 18:05:00 公開日:2023-05-09
# 一般化された削減:階層的クラスタリングを公平にし、低コストでバランスをとる

Generalized Reductions: Making any Hierarchical Clustering Fair and Balanced with Low Cost ( http://arxiv.org/abs/2205.14198v2 )

ライセンス: Link先を確認
Marina Knittel, Max Springer, John P. Dickerson, MohammadTaghi Hajiaghayi(参考訳) クラスタリングは、最新の統計分析パイプラインの基本構成要素である。 公正なクラスタリングは、近年、機械学習コミュニティから多くの注目を集めている。 私たちは、2020年にNeurIPSからAhmadianらによって得られた結果に続いて、階層的クラスタリングの文脈でフェアネスを研究した最初の人です。 dasguptaのコスト関数(おそらく最も一般的な階層的クラスタリング評価の理論的指標の1つ)を用いて結果を評価した。 我々の研究は、これまでの$o(n^{5/6}poly\log(n))$フェア近似を、任意の定数$\delta\in(0,1)$に対してほぼ多対数な$o(n^\delta poly\log(n))$フェア近似に大幅に改善した。 この結果は、コストフェアネスのトレードオフを確立し、以前の作業よりも広い公正性の制約にまで拡張します。 また,既存の階層的クラスタリングを変更する方法を示し,階層内の任意のレベルにわたって公平性とクラスタバランスを保証する。

Clustering is a fundamental building block of modern statistical analysis pipelines. Fair clustering has seen much attention from the machine learning community in recent years. We are some of the first to study fairness in the context of hierarchical clustering, after the results of Ahmadian et al. from NeurIPS in 2020. We evaluate our results using Dasgupta's cost function, perhaps one of the most prevalent theoretical metrics for hierarchical clustering evaluation. Our work vastly improves the previous $O(n^{5/6}poly\log(n))$ fair approximation for cost to a near polylogarithmic $O(n^\delta poly\log(n))$ fair approximation for any constant $\delta\in(0,1)$. This result establishes a cost-fairness tradeoff and extends to broader fairness constraints than the previous work. We also show how to alter existing hierarchical clusterings to guarantee fairness and cluster balance across any level in the hierarchy.
翻訳日:2023-05-11 17:57:13 公開日:2023-05-09
# 表現射影不変性は表現の崩壊を軽減する

Representation Projection Invariance Mitigates Representation Collapse ( http://arxiv.org/abs/2205.11603v2 )

ライセンス: Link先を確認
Anastasia Razdaibiedina, Ashish Khetan, Zohar Karnin, Daniel Khashabi, Vishaal Kapoor, Vivek Madan(参考訳) 事前訓練された言語モデルによって学習された微調整された文脈表現は、現在でもNLPにおいて一般的である。 しかし、微調整は表現劣化(表現崩壊とも呼ばれる)を引き起こし、不安定性、準最適性能、弱一般化をもたらす。 本稿では,表現の意図しない変化を回避し,微調整中の表現内容の保持と表現崩壊を低減するための新しい正規化手法であるRepresentation Projection Invariance (REPINA)を提案する。 13言語理解タスク(GLUEベンチマークと6つの追加データセット)にまたがる5つの同等のベースラインと比較して,提案した正規化の実証的挙動について検討した。 ドメイン内のパフォーマンスを評価する場合、REPINAは、ほとんどのタスク(13点中10点)において、他のベースラインよりも一貫して優れています。 また,ラベル摂動に対する数ショット設定の有効性と頑健性を示す。 副産物として,表現の崩壊に関する先行研究を拡張し,定量化のためのいくつかの指標を提案する。 実験結果から,提案手法は表現崩壊の緩和に有効であることが示唆された。

Fine-tuning contextualized representations learned by pre-trained language models remains a prevalent practice in NLP. However, fine-tuning can lead to representation degradation (also known as representation collapse), which may result in instability, sub-optimal performance, and weak generalization. In this paper, we propose Representation Projection Invariance (REPINA), a novel regularization method to maintain the information content of representation and reduce representation collapse during fine-tuning by discouraging undesirable changes in the representations. We study the empirical behavior of the proposed regularization in comparison to 5 comparable baselines across 13 language understanding tasks (GLUE benchmark and six additional datasets). When evaluating in-domain performance, REPINA consistently outperforms other baselines on most tasks (10 out of 13). We also demonstrate its effectiveness in few-shot settings and robustness to label perturbation. As a by-product, we extend previous studies of representation collapse and propose several metrics to quantify it. Our empirical findings show that our approach is significantly more effective at mitigating representation collapse.
翻訳日:2023-05-11 17:56:37 公開日:2023-05-09
# 現代CNNから視覚トランスフォーマーへ:病理学における深層学習モデルの性能・ロバスト性・分類戦略の評価

From Modern CNNs to Vision Transformers: Assessing the Performance, Robustness, and Classification Strategies of Deep Learning Models in Histopathology ( http://arxiv.org/abs/2204.05044v2 )

ライセンス: Link先を確認
Maximilian Springenberg, Annika Frommholz, Markus Wenzel, Eva Weicken, Jackie Ma, and Nils Strodthoff(参考訳) 機械学習は現在、病理学の分野を変えつつあるが、この領域は、単なる分類精度を超えた、必須だが相補的な品質要件に基づく最先端モデルの包括的な評価を欠いている。 このギャップを埋めるために,最近のビジョントランスフォーマーや,convnext,resnet (bit),inception,vit,swinなどの畳み込みニューラルネットワークなど,教師付きあるいは自己教師付き事前学習の有無に関わらず,幅広い分類モデルを評価するための新しい手法を開発した。 胸部, 胃, 大腸癌のスライド画像全体を含む5種類の病理組織学的データセットを用いて, 画像から画像への翻訳モデルを用いて, 染色変化に対する癌分類モデルの堅牢性を評価する手法を開発した。 さらに,既存の解釈可能性手法を未熟なモデルに拡張し,今後のモデルアーキテクチャに移管可能なモデルの分類戦略の知見を体系的に明らかにする。

While machine learning is currently transforming the field of histopathology, the domain lacks a comprehensive evaluation of state-of-the-art models based on essential but complementary quality requirements beyond a mere classification accuracy. In order to fill this gap, we developed a new methodology to extensively evaluate a wide range of classification models, including recent vision transformers, and convolutional neural networks such as: ConvNeXt, ResNet (BiT), Inception, ViT and Swin transformer, with and without supervised or self-supervised pretraining. We thoroughly tested the models on five widely used histopathology datasets containing whole slide images of breast, gastric, and colorectal cancer and developed a novel approach using an image-to-image translation model to assess the robustness of a cancer classification model against stain variations. Further, we extended existing interpretability methods to previously unstudied models and systematically reveal insights of the models' classifications strategies that can be transferred to future model architectures.
翻訳日:2023-05-11 17:55:37 公開日:2023-05-09
# フェデレーション学習における毒素攻撃検出のための異常検出法

Using Anomaly Detection to Detect Poisoning Attacks in Federated Learning Applications ( http://arxiv.org/abs/2207.08486v2 )

ライセンス: Link先を確認
Ali Raza, Shujun Li, Kim-Phuc Tran, and Ludovic Koehl(参考訳) 毒殺などの敵対的な攻撃は多くの機械学習研究者の注目を集めている。 伝統的に、毒殺攻撃は訓練されたモデルを操作するために敵の訓練データを注入しようとする。 フェデレーション学習(fl)では、データ中毒攻撃をモデル化するために一般化することができるが、検出者がローカルトレーニングデータにアクセスできないため、単純な方法では検出できない。 FLの最先端の中毒攻撃検出手法には様々な弱点があり、例えば、攻撃者の数は、i.d.データのみを使用し、高い計算複雑性を持つ。 以上の弱点を克服するために,公的なデータセットと監査者モデルに基づく参照モデルを用いて悪意のある更新を検知するFLの有害な攻撃を検出する新しいフレームワークを提案する。 提案したフレームワークをベースとした1クラスサポートベクトルマシン(OC-SVM)を用いて,Kがクライアント数である最小計算複雑性O(K)に到達した。 心電図(ECG)分類と人的活動認識(HAR)の2つの典型的な適用例に対して,本検出器の性能評価を行った。 実験の結果,他のSOTA検出法に比べて検出性能が向上した。

Adversarial attacks such as poisoning attacks have attracted the attention of many machine learning researchers. Traditionally, poisoning attacks attempt to inject adversarial training data in order to manipulate the trained model. In federated learning (FL), data poisoning attacks can be generalized to model poisoning attacks, which cannot be detected by simpler methods due to the lack of access to local training data by the detector. State-of-the-art poisoning attack detection methods for FL have various weaknesses, e.g., the number of attackers has to be known or not high enough, working with i.i.d. data only, and high computational complexity. To overcome above weaknesses, we propose a novel framework for detecting poisoning attacks in FL, which employs a reference model based on a public dataset and an auditor model to detect malicious updates. We implemented a detector based on the proposed framework and using a one-class support vector machine (OC-SVM), which reaches the lowest possible computational complexity O(K) where K is the number of clients. We evaluated our detector's performance against state-of-the-art (SOTA) poisoning attacks for two typical applications of FL: electrocardiograph (ECG) classification and human activity recognition (HAR). Our experimental results validated the performance of our detector over other SOTA detection methods.
翻訳日:2023-05-11 17:48:25 公開日:2023-05-09
# トポロジカルエッジモードテーパ

Topological Edge Mode Tapering ( http://arxiv.org/abs/2206.07056v2 )

ライセンス: Link先を確認
Christopher J. Flower, Sabyasachi Barik, Sunil Mittal, and Mohammad Hafezi(参考訳) モードテーパリング(英: Mode tapering)またはモードサイズを段階的に操作することは、モードサイズが異なる2つ以上のサブシステムに効率的に接続することを目的としたシステムにおいて必要である。 高い効率のテーパが実証されている一方で、大きなデバイスフットプリントや難しい製造コストがかかることが多い。 位相フォトニクスは、ある種の障害やキラリティーに頑健性を提供するが、近年では多くの応用に適した設計原理であることが証明されている。 ここではトポロジカルバンドギャップ技術により実現された新しいモードテーパを提案する。 光領域におけるほぼ一様効率の非常にコンパクトな8$\mu$m距離におけるモード幅の6倍の変化を数値的に示す。 後方散乱の抑制と高次モードの励起がないことにより、古典光学および量子光学におけるスケーラブルで多成分系の開発における新たな進歩を可能にすることができる。

Mode tapering, or the gradual manipulation of the size of some mode, is a requirement for any system that aims to efficiently interface two or more subsystems of different mode sizes. While high efficiency tapers have been demonstrated, they often come at the cost of a large device footprint or challenging fabrication. Topological photonics, offering robustness to certain types of disorder as well as chirality, has proved to be a well-suited design principle for numerous applications in recent years. Here we present a new kind of mode taper realized through topological bandgap engineering. We numerically demonstrate a sixfold change in mode width over an extremely compact 8$\mu$m distance with near unity efficiency in the optical domain. With suppressed backscattering and no excitation of higher-order modes, such a taper could enable new progress in the development of scalable, multi-component systems in classical and quantum optics.
翻訳日:2023-05-11 17:46:17 公開日:2023-05-09
# 深層強化学習を用いたブレード通路最適メッシュの非イテレーティブ生成

Non-iterative generation of an optimal mesh for a blade passage using deep reinforcement learning ( http://arxiv.org/abs/2209.05280v2 )

ライセンス: Link先を確認
Innyoung Kim, Sejin Kim, and Donghyun You(参考訳) 任意のブレード通路に対する最適メッシュを非定常的に生成するための深部強化学習(DRL)法を開発した。 経験的アプローチか最適化アルゴリズムを使ったメッシュ生成の自動化にもかかわらず、新しい幾何学にはメッシュパラメータの繰り返しチューニングが必要である。 本稿では,drlを用いたマルチコンディション最適化手法を用いて,ブレード形状の関数として最適なメッシュパラメータを定義し,自動化,介入の最小化,計算効率を実現する。 メッシュパラメータは、任意のブレード形状を持つブレード通路のための構造化メッシュを生成する楕円メッシュジェネレータを訓練することにより最適化される。 drl工程の各エピソードにおいて、ジャコビアン行列の行列式と歪度との比で測定されるように、メッシュ品質までメッシュパラメータを更新することにより、ランダムに選択されたブレード通路の最適なメッシュを生成するようにメッシュ生成装置を訓練する。 トレーニングが完了すると、メッシュ生成器は、スクラッチからメッシュ生成のためのパラメータチューニングの繰り返しプロセスなしで、新たな任意のブレード通路のための最適なメッシュを1回の試行で作成する。 提案手法の有効性とロバスト性は, 各種ブレード通路のメッシュ生成によって実証される。

A method using deep reinforcement learning (DRL) to non-iteratively generate an optimal mesh for an arbitrary blade passage is developed. Despite automation in mesh generation using either an empirical approach or an optimization algorithm, repeated tuning of meshing parameters is still required for a new geometry. The method developed herein employs a DRL-based multi-condition optimization technique to define optimal meshing parameters as a function of the blade geometry, attaining automation, minimization of human intervention, and computational efficiency. The meshing parameters are optimized by training an elliptic mesh generator which generates a structured mesh for a blade passage with an arbitrary blade geometry. During each episode of the DRL process, the mesh generator is trained to produce an optimal mesh for a randomly selected blade passage by updating the meshing parameters until the mesh quality, as measured by the ratio of determinants of the Jacobian matrices and the skewness, reaches the highest level. Once the training is completed, the mesh generator create an optimal mesh for a new arbitrary blade passage in a single try without an repetitive process for the parameter tuning for mesh generation from the scratch. The effectiveness and robustness of the proposed method are demonstrated through the generation of meshes for various blade passages.
翻訳日:2023-05-11 17:36:54 公開日:2023-05-09
# メソスコピックフロケット系の熱化の普遍クラス

Universality classes of thermalization for mesoscopic Floquet systems ( http://arxiv.org/abs/2210.13444v3 )

ライセンス: Link先を確認
Alan Morningstar, David A. Huse, Vedika Khemani(参考訳) 孤立的,周期的に駆動される(フレケット)メソスコピック量子カオス系における挙動のレジームを記述する熱化のいくつかのフェーズを同定する。 また、新しいフロケット熱アンサンブル(はしごアンサンブル)を定性的に区別し、駆動系の平衡を記述するとしばしば仮定される特徴のない無限温度状態と区別する。 相は粗く分類できるので (i)そのシステムが非可逆的に$\omega$のエネルギーをドライブ、すなわちフロッケの熱化と交換するか否か (ii)フロッケを熱化する系における最終平衡を記述するアンサンブル。 これらのフェーズはメソスコピックシステムにおける振る舞いのレジームを表しているが、ドライブ周波数である$\omega$がシステムサイズでスケールアップする大きなシステム限界において鋭く定義されている: $n\to\infty$制限が取られる: 弱い$\omega \sim \log n$ から$\omega \sim \sqrt{n}$ から $\omega \sim n$ までのより強力なスケーリングまで、周波数スケーリングを調べる。 Floquet熱化が崩壊する遷移は$\omega\sim N$で起こり、それ以外はFloquet熱化を行わない系は、Floquet帯のレア共鳴の有無によって区別される。 我々はフロッケ系の数値研究と小規模量子シミュレータの実験に関係のある熱化相図を作成し、どちらもn$ と $\omega$ のスケールの分離を欠いている。 我々の研究の顕著な予測は、完全な隔離の下では、単純な純粋な初期状態からのある種の現実的なクエンチプロトコルは、異なる温度で状態のグローバルな重ね合わせである新しいタイプのシュロディンガー・キャット状態へのフロケ熱化を示すことができるということである。 我々の研究は、フロケの熱化、加熱、平衡の理論をメソスコピック量子系の設定に拡張し、整理する。

We identify several phases of thermalization that describe regimes of behavior in isolated, periodically driven (Floquet), mesoscopic quantum chaotic systems. We also identify a new Floquet thermal ensemble -- the ladder ensemble -- that is qualitatively distinct from the featureless infinite-temperature state that is often assumed to describe the equilibrium of driven systems. The phases can be coarsely classified by (i) whether or not the system irreversibly exchanges energy of order $\omega$ with the drive, i.e., Floquet thermalizes, and (ii) the ensemble describing the final equilibrium in systems that do Floquet thermalize. These phases represent regimes of behavior in mesoscopic systems, but they are sharply defined in a large-system limit where the drive frequency $\omega$ scales up with system size $N$ as the $N\to\infty$ limit is taken: we examine frequency scalings ranging from a weak $\omega \sim \log N$, to stronger scalings ranging from $\omega \sim \sqrt{N}$ to $\omega \sim N$. We show that the transition where Floquet thermalization breaks down occurs at $\omega\sim N$ and, beyond that, systems that do not Floquet thermalize are distinguished based on the presence or absence of rare resonances across Floquet zones. We produce a thermalization phase diagram that is relevant for numerical studies of Floquet systems and experimental studies on small-scale quantum simulators, both of which lack a separation of scales between $N$ and $\omega$. A striking prediction of our work is that, under perfect isolation, certain realistic quench protocols from simple pure initial states can show Floquet thermalization to a novel type of Schrodinger-cat state that is a global superposition of states at distinct temperatures. Our work extends and organizes the theory of Floquet thermalization, heating, and equilibrium into the setting of mesoscopic quantum systems.
翻訳日:2023-05-11 17:29:34 公開日:2023-05-09
# C2KD:多言語テキストビデオ検索のための言語間クロスモーダル知識蒸留

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval ( http://arxiv.org/abs/2210.03625v2 )

ライセンス: Link先を確認
Andrew Rouditchenko, Yung-Sung Chuang, Nina Shvetsova, Samuel Thomas, Rogerio Feris, Brian Kingsbury, Leonid Karlinsky, David Harwath, Hilde Kuehne, James Glass(参考訳) 近年,多言語テキスト・ビデオ検索法は大幅に改善されているが,他の言語も英語に遅れている。 多言語テキスト・ビデオ検索を改善するために,言語間クロスモーダル知識蒸留法を提案する。 英語のテキストビデオ検索が他の言語より優れているという事実に触発されて、異なる言語の入力テキストを用いて学生モデルを訓練し、英語の入力テキストを用いた教師モデルからの相互モーダル予測に適合させる。 本研究では,生徒のテキスト・ビデオ類似度スコアの分布を教師モデルに類似させるクロスエントロピーに基づく目標を提案する。 我々は、YouCook2ビデオデータセットの英語字幕を8言語に翻訳することで、新しい多言語ビデオデータセット、Multi-YouCook2を導入する。 提案手法は,Multi-YouCook2およびMulti-MSRVTTやVATEXなどの他のデータセット上での多言語テキストビデオ検索性能を向上させる。 また,教師としての多言語テキストモデルの有効性について分析を行った。 コード、モデル、データセットはhttps://github.com/roudimit/c2kdで利用可能である。

Multilingual text-video retrieval methods have improved significantly in recent years, but the performance for other languages lags behind English. We propose a Cross-Lingual Cross-Modal Knowledge Distillation method to improve multilingual text-video retrieval. Inspired by the fact that English text-video retrieval outperforms other languages, we train a student model using input text in different languages to match the cross-modal predictions from teacher models using input text in English. We propose a cross entropy based objective which forces the distribution over the student's text-video similarity scores to be similar to those of the teacher models. We introduce a new multilingual video dataset, Multi-YouCook2, by translating the English captions in the YouCook2 video dataset to 8 other languages. Our method improves multilingual text-video retrieval performance on Multi-YouCook2 and several other datasets such as Multi-MSRVTT and VATEX. We also conducted an analysis on the effectiveness of different multilingual text models as teachers. The code, models, and dataset are available at https://github.com/roudimit/c2kd.
翻訳日:2023-05-11 17:27:09 公開日:2023-05-09
# アナログ量子変分埋め込み分類器

Analog quantum variational embedding classifier ( http://arxiv.org/abs/2211.02748v2 )

ライセンス: Link先を確認
Rui Yang, Samuel Bosch, Bobak Kiani, Seth Lloyd, and Adrian Lupascu(参考訳) 量子機械学習は、人工知能に強力なアルゴリズムを提供する可能性がある。 量子機械学習における量子優位の追求は、活発な研究分野である。 現在のノイズの多い中間スケール量子(nisq)コンピュータでは、様々な量子古典ハイブリッドアルゴリズムが提案されている。 このようなハイブリッドアルゴリズムの1つは、古典的ニューラルネットワークとパラメータ化ゲートベースの量子回路からなるゲートベース変分埋め込み分類器である。 本稿では,制御信号が連続的に変化するアナログ量子コンピュータに基づく量子変分埋め込み分類器を提案する。 このアルゴリズムでは,古典的データは線形変換により,アナログ量子コンピュータの時間変化ハミルトニアンのパラメータに変換される。 非線形分類問題に必要な非線形性は、ハミルトニアンの制御パラメータに対する最終量子状態の非線形依存を通じてアナログ量子コンピュータによって純粋に与えられる。 我々は,同心円やMNIST桁などの線形分離不能なデータセットに対して,二進分類と多進分類のアルゴリズムの有効性を示す数値シミュレーションを行った。 我々の分類器は最高の古典的分類器に匹敵する精度に到達できる。 性能が飽和し変動するまでのキュービット数を増やすことで分類器の性能を向上させることができる。 さらに,分類器の最適化パラメータ数は,キュービット数に線形にスケールする。 したがって、サイズが大きくなるとトレーニングパラメータの数が増えることは、ニューラルネットワークほど高速ではない。 本アルゴリズムは,現在の量子アニーラを用いた実用的な機械学習問題を解く可能性を示し,量子機械学習における量子アドバンテージを探求する上で有用である。

Quantum machine learning has the potential to provide powerful algorithms for artificial intelligence. The pursuit of quantum advantage in quantum machine learning is an active area of research. For current noisy, intermediate-scale quantum (NISQ) computers, various quantum-classical hybrid algorithms have been proposed. One such previously proposed hybrid algorithm is a gate-based variational embedding classifier, which is composed of a classical neural network and a parameterized gate-based quantum circuit. We propose a quantum variational embedding classifier based on an analog quantum computer, where control signals vary continuously in time. In our algorithm, the classical data is transformed into the parameters of the time-varying Hamiltonian of the analog quantum computer by a linear transformation. The nonlinearity needed for a nonlinear classification problem is purely provided by the analog quantum computer through the nonlinear dependence of the final quantum state on the control parameters of the Hamiltonian. We performed numerical simulations that demonstrate the effectiveness of our algorithm for performing binary and multi-class classification on linearly inseparable datasets such as concentric circles and MNIST digits. Our classifier can reach accuracy comparable with the best classical classifiers. We find the performance of our classifier can be increased by increasing the number of qubits until the performance saturates and fluctuates. Moreover, the number of optimization parameters of our classifier scales linearly with the number of qubits. The increase of number of training parameters when the size increases is therefore not as fast as that of neural network. Our algorithm presents the possibility of using current quantum annealers for solving practical machine-learning problems, and it could also be useful to explore quantum advantage in quantum machine learning.
翻訳日:2023-05-11 17:18:24 公開日:2023-05-09
# 位相検索のためのインシシットデノイザプリミティブを用いた交互位相ランゲヴィンサンプリング

Alternating Phase Langevin Sampling with Implicit Denoiser Priors for Phase Retrieval ( http://arxiv.org/abs/2211.00884v2 )

ライセンス: Link先を確認
Rohun Agrawal, Oscar Leong(参考訳) 位相検索は、そのフーリエマグニチュード測定から真の信号を回復する非線形逆問題である。 天文学的イメージング、X線結晶学、顕微鏡などの多くの応用に現れる。 この問題は、位相誘起な曖昧さと、与えられた測定値に適合する可能性のある多数の画像のため、非常に不適切である。 このように、疎結合やディープラーニングベースの生成モデルを含むソリューションを改善するために構造的事前を強制する歴史は豊富です。 しかし、そのような事前性は、しばしばその表現能力やわずかに異なる分布への一般化性に制限される。 非凸最適化アルゴリズムの正則化としてデノイザを用いた最近の進歩は、有望な性能と一般化を示している。 古典的交互最小化の枠組みに組み込んで位相探索問題を解くために,denoiserが暗黙的に学習した手法を提案する。 位相探索のための弁別アルゴリズムと比較し,分布画像のフーリエ計測による競合性能と分布画像の大幅な改善を示す。

Phase retrieval is the nonlinear inverse problem of recovering a true signal from its Fourier magnitude measurements. It arises in many applications such as astronomical imaging, X-Ray crystallography, microscopy, and more. The problem is highly ill-posed due to the phase-induced ambiguities and the large number of possible images that can fit to the given measurements. Thus, there's a rich history of enforcing structural priors to improve solutions including sparsity priors and deep-learning-based generative models. However, such priors are often limited in their representational capacity or generalizability to slightly different distributions. Recent advancements in using denoisers as regularizers for non-convex optimization algorithms have shown promising performance and generalization. We present a way of leveraging the prior implicitly learned by a denoiser to solve phase retrieval problems by incorporating it in a classical alternating minimization framework. Compared to performant denoising-based algorithms for phase retrieval, we showcase competitive performance with Fourier measurements on in-distribution images and notable improvement on out-of-distribution images.
翻訳日:2023-05-11 17:17:29 公開日:2023-05-09
# 時間変動特徴変調によるブラックボックス音響効果のモデル化

Modelling black-box audio effects with time-varying feature modulation ( http://arxiv.org/abs/2211.00497v2 )

ライセンス: Link先を確認
Marco Comunit\`a, Christian J. Steinmetz, Huy Phan, Joshua D. Reiss(参考訳) 音声効果のブラックボックスモデリングのためのディープラーニングアプローチは期待されているが、既存の研究の大部分は、ギターアンプや歪みといった比較的短い時間スケールでの振る舞いを伴う非線形効果に焦点を当てている。 再帰的および畳み込み的アーキテクチャは、より長い時間スケールで振る舞いを捉えるために理論的に拡張できるが、既存のアーキテクチャの幅、深さ、拡張係数を単純にスケーリングするだけでは、ファズやダイナミックレンジ圧縮のようなオーディオ効果をモデル化する場合には、十分な性能が得られないことを示す。 そこで本研究では,時間変化による特徴量線形変調を時間的畳み込みバックボーンに統合し,中間アクティベーションの学習可能な適応を可能にする手法を提案する。 提案手法は,時間領域と周波数領域の両方で,ファズ・コンプレッサー実装の長距離依存性をより正確に把握する。 再現性を高めるために、音響サンプル、ソースコード、事前訓練されたモデルを提供する。

Deep learning approaches for black-box modelling of audio effects have shown promise, however, the majority of existing work focuses on nonlinear effects with behaviour on relatively short time-scales, such as guitar amplifiers and distortion. While recurrent and convolutional architectures can theoretically be extended to capture behaviour at longer time scales, we show that simply scaling the width, depth, or dilation factor of existing architectures does not result in satisfactory performance when modelling audio effects such as fuzz and dynamic range compression. To address this, we propose the integration of time-varying feature-wise linear modulation into existing temporal convolutional backbones, an approach that enables learnable adaptation of the intermediate activations. We demonstrate that our approach more accurately captures long-range dependencies for a range of fuzz and compressor implementations across both time and frequency domain metrics. We provide sound examples, source code, and pretrained models to faciliate reproducibility.
翻訳日:2023-05-11 17:17:11 公開日:2023-05-09
# FLSTRA: 成層圏におけるフェデレーションラーニング

FLSTRA: Federated Learning in Stratosphere ( http://arxiv.org/abs/2302.00163v2 )

ライセンス: Link先を確認
Amin Farajzadeh, Animesh Yadav, Omid Abbasi, Wael Jaafar, Halim Yanikomeroglu(参考訳) 成層圏(FLSTRA)における統合学習(FL)を提案し,高高度プラットフォームステーション(HAPS)が多数の地球規模のクライアントに対して,トレーニングデータを共有せずに協調的にグローバルモデルを学習できるようにする。 FLSTRAは、クライアント参加の制限やマルチホップ通信による収束の遅さや通信遅延などの、地上ネットワークにおけるFLが直面する課題を克服する。 HAPSはその高度とサイズを活用し、LOS(Line-of-sight)リンクと強力なサーバの配置によるより多くのクライアントの参加を可能にする。 しかし、多くのクライアントを同時に扱うと、計算と送信の遅延が発生する。 そこで我々は、FLSTRAの遅延精度トレードオフを得る。 具体的には,エネルギー・サービス品質(qos)制約によるfl遅延を最小限に抑えるため,まず,アップリンク・ダウンリンクのためのクライアント選択・リソース割り当てアルゴリズムを開発した。 次に,通信・計算資源認識アルゴリズム(CCRA-FL)を提案し,その収束率の上限を導出しながら目標FL精度を実現する。 定式化問題は非凸であり,その解法として反復アルゴリズムを提案する。 シミュレーション結果は、FL遅延と精度の観点から、地上ベンチマークと比較して提案したFLSTRAシステムの有効性を示す。

We propose a federated learning (FL) in stratosphere (FLSTRA) system, where a high altitude platform station (HAPS) facilitates a large number of terrestrial clients to collaboratively learn a global model without sharing the training data. FLSTRA overcomes the challenges faced by FL in terrestrial networks, such as slow convergence and high communication delay due to limited client participation and multi-hop communications. HAPS leverages its altitude and size to allow the participation of more clients with line-of-sight (LOS) links and the placement of a powerful server. However, handling many clients at once introduces computing and transmission delays. Thus, we aim to obtain a delay-accuracy trade-off for FLSTRA. Specifically, we first develop a joint client selection and resource allocation algorithm for uplink and downlink to minimize the FL delay subject to the energy and quality-of-service (QoS) constraints. Second, we propose a communication and computation resource-aware (CCRA-FL) algorithm to achieve the target FL accuracy while deriving an upper bound for its convergence rate. The formulated problem is non-convex; thus, we propose an iterative algorithm to solve it. Simulation results demonstrate the effectiveness of the proposed FLSTRA system, compared to terrestrial benchmarks, in terms of FL delay and accuracy.
翻訳日:2023-05-11 16:59:28 公開日:2023-05-09
# 確率列型マルチエージェント意思決定のための因果説明法

Causal Explanations for Stochastic Sequential Multi-Agent Decision-Making ( http://arxiv.org/abs/2302.10809v2 )

ライセンス: Link先を確認
Balint Gyevnar, Cheng Wang, Christopher G. Lucas, Shay B. Cohen, Stefano V. Albrecht(参考訳) 本稿では,多エージェント意思決定のための因果説明システム(CEMA: Causal Explanations for Multi-Agent decision-making)を提案する。 CEMAのコアは、特定の因果構造を仮定する以前の作業とは異なり、環境の将来状態を予測する確率モデルが利用可能である場合、適用可能な、新しい因果選択法である。 このモデルでは、意思決定の背後にある健全な原因を特定し、ランク付けするために使用される。 また、社会説明可能なAIの要件を満たすためにCEMAを設計した。 選択された原因に基づいて対照的な説明を生成でき、ユーザとのインタラクションループとして機能し、それらの関連性と知性を保証する。 自律走行のための動作計画のためのCEMAを実装し,4つのシミュレーションシナリオでテストする。 本稿では,CEMAが意思決定の背景にある原因を正しくかつ確実に識別し,ユーザのクエリに関連性のある説明を提供することを示す。

We present CEMA: Causal Explanations for Multi-Agent decision-making; a system to generate causal explanations for agents' decisions in stochastic sequential multi-agent environments. The core of CEMA is a novel causal selection method which, unlike prior work that assumes a specific causal structure, is applicable whenever a probabilistic model for predicting future states of the environment is available. We sample counterfactual worlds with this model which are used to identify and rank the salient causes behind decisions. We also designed CEMA to meet the requirements of social explainable AI. It can generate contrastive explanations based on selected causes and it works as an interaction loop with users to assure relevance and intelligibility for them. We implement CEMA for motion planning for autonomous driving and test it in four diverse simulated scenarios. We show that CEMA correctly and robustly identifies the relevant causes behind decisions and delivers relevant explanations to users' queries.
翻訳日:2023-05-11 16:51:13 公開日:2023-05-09
# get your act together: ai act and technologyにおける透明性に関する比較見解

Get Your Act Together: A Comparative View on Transparency in the AI Act and Technology ( http://arxiv.org/abs/2302.10766v3 )

ライセンス: Link先を確認
Balint Gyevnar, Nick Ferguson, and Burkhard Schafer(参考訳) 欧州連合は、透明性と説明可能性に関する詳細な要件を含むAI規制に比例するリスクベースのアプローチを導入する人工知能法を提案した。 これらの要件の多くは、実際に説明可能なAI(XAI)の分野によって解決されるかもしれないが、透明性と説明可能性について、XAIと法の間には根本的な違いがある。 これらの基本的な定義は、規制が継続的に適切な技術的プラクティスに変換されることを保証するために一致すべきである。 この調整を容易にするために、まず、AI法と関連する一般データ保護規則(GDPR)に特に焦点をあてて、XAIと欧州の規制が透明性の基本的な定義をどのように見ているかの概要を示す。 次に、XAIと規制アプローチを比較して、透明性の範囲の明確化、XAIの法的地位、整合性評価の問題の監視、データセット関連透明性といった分野間の整合性を改善する主要なポイントを特定する。

The European Union has proposed the Artificial Intelligence Act which introduces a proportional risk-based approach to AI regulation including detailed requirements for transparency and explainability. Many of these requirements may be addressed in practice by the field of explainable AI (XAI), however, there are fundamental differences between XAI and the Act regarding what transparency and explainability are. These basic definitions should be aligned to assure that regulation continually translates into appropriate technical practices. To facilitate this alignment, we first give an overview of how XAI and European regulation view basic definitions of transparency with a particular focus on the AI Act and the related General Data Protection Regulation (GDPR). We then present a comparison of XAI and regulatory approaches to identify the main points that would improve alignment between the fields: clarification of the scope of transparency, the legal status of XAI, oversight issues in conformity assessments, and dataset-related transparency.
翻訳日:2023-05-11 16:50:57 公開日:2023-05-09
# 解釈可能なモデルの混合に対するブラックボックスの分割とクエリ:経路、解釈、繰り返し

Dividing and Conquering a BlackBox to a Mixture of Interpretable Models: Route, Interpret, Repeat ( http://arxiv.org/abs/2302.10289v4 )

ライセンス: Link先を確認
Shantanu Ghosh, Ke Yu, Forough Arabshahi, Kayhan Batmanghelich(参考訳) mlモデル設計は解釈可能なモデルかブラックボックスから始まり、ポストホックであると説明する。 ブラックボックスモデルは柔軟だが説明が難しいが、解釈可能なモデルは本質的に説明可能である。 しかし、解釈可能なモデルは広範なml知識を必要とし、ブラックボックスの変種よりも柔軟性とパフォーマンスが低い傾向がある。 本稿では,ブラックボックスのポストホックな説明と解釈可能なモデルの構築の区別を曖昧にすることを目的とする。 ブラックボックスから始めると、解釈可能な専門家(moie)と残りのネットワークの混合を反復的に作り出す。 各解釈可能なモデルはサンプルのサブセットを専門とし、一階述語論理(fol)を用いて説明し、ブラックボックスの概念に関する基本的な推論を提供する。 残りのサンプルを柔軟な残留物にルーティングします。 すべての解釈可能なモデルが所望のデータの割合を説明するまで、残差ネットワーク上のメソッドを繰り返す。 以上の結果から,本手法では,提案手法は,性能を損なうことなく,MoIEによる高概念完全性を備えた多種多様なインスタンス固有概念の集合を同定し,残差による説明が比較的難しいサンプルを同定し,テスト時間介入時にかなりのマージンで解釈可能な設計モデルを上回り,(4)元のBlackboxで学んだショートカットを修正した。 MoIEのコードは、https://github.com/batmanlab/ICML-2023-Route-interpret-repeatで公開されている。

ML model design either starts with an interpretable model or a Blackbox and explains it post hoc. Blackbox models are flexible but difficult to explain, while interpretable models are inherently explainable. Yet, interpretable models require extensive ML knowledge and tend to be less flexible and underperforming than their Blackbox variants. This paper aims to blur the distinction between a post hoc explanation of a Blackbox and constructing interpretable models. Beginning with a Blackbox, we iteratively carve out a mixture of interpretable experts (MoIE) and a residual network. Each interpretable model specializes in a subset of samples and explains them using First Order Logic (FOL), providing basic reasoning on concepts from the Blackbox. We route the remaining samples through a flexible residual. We repeat the method on the residual network until all the interpretable models explain the desired proportion of data. Our extensive experiments show that our route, interpret, and repeat approach (1) identifies a diverse set of instance-specific concepts with high concept completeness via MoIE without compromising in performance, (2) identifies the relatively harder samples to explain via residuals, (3) outperforms the interpretable by-design models by significant margins during test-time interventions, and (4) fixes the shortcut learned by the original Blackbox. The code for MoIE is publicly available at: https://github.com/batmanlab/ICML-2023-Route-interpret-repeat.
翻訳日:2023-05-11 16:50:18 公開日:2023-05-09
# 概略ベイズ最適擬似ラベル選択

Approximately Bayes-Optimal Pseudo Label Selection ( http://arxiv.org/abs/2302.08883v4 )

ライセンス: Link先を確認
Julian Rodemann, Jann Goschenhofer, Emilio Dorigatti, Thomas Nagler, Thomas Augustin(参考訳) 自己学習による半教師付き学習は擬似ラベル選択(pls)に大きく依存する。 選択はしばしばラベル付きデータに適合する初期モデルに依存する。 したがって、初期オーバーフィッティングは、しばしば確認バイアスと呼ばれる過信だが誤った予測を持つインスタンスを選択することで最終モデルに伝播する可能性がある。 本稿では,この問題の緩和を目的としたBPLSについて述べる。 その核となるのは、ラベルのインスタンスを選択するための基準である:擬似サンプルの後方予測の解析的近似である。 この選択基準を疑似サンプルの後方予測のベイズ最適性を証明することによって導出する。 さらに、評価基準を解析的に近似することで計算ハードルを克服する。 その限界確率との関係により、ラプラスの方法とガウス積分に基づく近似を導き出すことができる。 シミュレーションおよび実世界のデータに基づいて,パラメトリック一般化線形および非パラメトリック一般化加法モデルに対してBPLSを実験的に評価する。 高次元データに直面すると、BPLSは従来のPLS法よりも優れている。

Semi-supervised learning by self-training heavily relies on pseudo-label selection (PLS). The selection often depends on the initial model fit on labeled data. Early overfitting might thus be propagated to the final model by selecting instances with overconfident but erroneous predictions, often referred to as confirmation bias. This paper introduces BPLS, a Bayesian framework for PLS that aims to mitigate this issue. At its core lies a criterion for selecting instances to label: an analytical approximation of the posterior predictive of pseudo-samples. We derive this selection criterion by proving Bayes optimality of the posterior predictive of pseudo-samples. We further overcome computational hurdles by approximating the criterion analytically. Its relation to the marginal likelihood allows us to come up with an approximation based on Laplace's method and the Gaussian integral. We empirically assess BPLS for parametric generalized linear and non-parametric generalized additive models on simulated and real-world data. When faced with high-dimensional data prone to overfitting, BPLS outperforms traditional PLS methods.
翻訳日:2023-05-11 16:49:29 公開日:2023-05-09
# ディープラーニングにおける一般化の検証

Verifying Generalization in Deep Learning ( http://arxiv.org/abs/2302.05745v2 )

ライセンス: Link先を確認
Guy Amir, Osher Maayan, Tom Zelazny, Guy Katz and Michael Schapira(参考訳) ディープニューラルネットワーク(dnn)は、ディープラーニングのワークホースであり、多くのアプリケーションドメインにおける最先端の技術を構成する。 しかし、DNNに基づく決定規則は、一般化の貧弱さ、すなわちトレーニング中に遭遇しない入力が不十分であることを示すことが知られている。 この制限は、ミッションクリティカルなタスクや、高い可変性を示す実環境において、ディープラーニングを採用する上で大きな障害となる。 本稿では,新しい入力領域によく適応するDNNに基づく決定ルールを識別するための,検証駆動型手法を提案する。 本手法は,独立に訓練されたDNNが入力に対してどのような決定を下すかによって,入力領域への一般化を定量化する。 DNN検証の力を利用して、我々のアプローチを効率的に効果的に実現できることを示す。 インターネットの混雑制御を含む3つの深層強化学習(DRL)ベンチマークに対する検証に基づくアプローチの評価を行った。 結果は我々のアプローチの有用性を立証する。 より広範に、我々の研究は、DNNベースのシステムを野生に展開する際のリスクを軽減するために、新たな形式検証の目標を掲げています。

Deep neural networks (DNNs) are the workhorses of deep learning, which constitutes the state of the art in numerous application domains. However, DNN-based decision rules are notoriously prone to poor generalization, i.e., may prove inadequate on inputs not encountered during training. This limitation poses a significant obstacle to employing deep learning for mission-critical tasks, and also in real-world environments that exhibit high variability. We propose a novel, verification-driven methodology for identifying DNN-based decision rules that generalize well to new input domains. Our approach quantifies generalization to an input domain by the extent to which decisions reached by independently trained DNNs are in agreement for inputs in this domain. We show how, by harnessing the power of DNN verification, our approach can be efficiently and effectively realized. We evaluate our verification-based approach on three deep reinforcement learning (DRL) benchmarks, including a system for Internet congestion control. Our results establish the usefulness of our approach. More broadly, our work puts forth a novel objective for formal verification, with the potential for mitigating the risks associated with deploying DNN-based systems in the wild.
翻訳日:2023-05-11 16:48:45 公開日:2023-05-09
# 同周波数信号ポート、200mhz帯域、高ダイナミックレンジを有するジョセフソンパラメトリック循環器

Josephson parametric circulator with same-frequency signal ports, 200 MHz bandwidth, and high dynamic range ( http://arxiv.org/abs/2303.06757v3 )

ライセンス: Link先を確認
Randy Kwende, Theodore White, Ofer Naaman(参考訳) 2次chebyshevネットワークを用いて3ポートジョセフソンパラメトリック循環器を50オームに一致させた。 このデバイスは、同じ周波数で2つの信号ポートで動作し、単一の周波数で2つの相外ポンプのみを使用する。 その結果、アイソレータとして動作した場合、ポンプと信号の位相コヒーレンスを必要としないため、標準分散キュービット読み出し設定への統合要件が単純化される。 パラメトリック結合と高ダイナミックレンジを提供するrf-SQUIDアレイのバランスの取れたブリッジに基づいてパラメトリックカプラを利用する。 両ポンプ間の周波数と相対位相の関数として,その全3x3 S行列を計測して特徴付けする。 200MHzの信号帯域で最大15dBの非相互性、ポートマッチが10dB以上、挿入損失が0.6dB以下、飽和電力が-80dBm以上である。

We demonstrate a 3-port Josephson parametric circulator, matched to 50 Ohm using second order Chebyshev networks. The device notably operates with two of its signal ports at the same frequency and uses only two out-of-phase pumps at a single frequency. As a consequence, when operated as an isolator it does not require phase coherence between the pumps and the signal, thus simplifying the requirements for its integration into standard dispersive qubit readout setups. The device utilizes parametric couplers based on a balanced bridge of rf-SQUID arrays, which offer purely parametric coupling and high dynamic range. We characterize the device by measuring its full 3x3 S-matrix as a function of frequency and the relative phase between the two pumps. We find up to 15 dB nonreciprocity over a 200 MHz signal band, port match better than 10 dB, low insertion loss of 0.6 dB, and saturation power exceeding -80 dBm.
翻訳日:2023-05-11 16:41:13 公開日:2023-05-09
# SALSA PICANTE: バイナリシークレットを持つLWEに対する機械学習攻撃

SALSA PICANTE: a machine learning attack on LWE with binary secrets ( http://arxiv.org/abs/2303.04178v2 )

ライセンス: Link先を確認
Cathy Li, Jana Sot\'akov\'a, Emily Wenger, Mohamed Malhou, Evrard Garcelon, Francois Charton, Kristin Lauter(参考訳) learning with error (lwe) は、量子後暗号 (pqc) システムの多くを支える難しい数学問題である。 NISTによって標準化された唯一のPQC鍵交換機構(KEM)はモジュール~LWEに基づいており、現在公開されているPQホモモルフィック暗号化(HE)ライブラリはリングLWEに基づいている。 LWEベースのPQ暗号システムのセキュリティは重要であるが、特定の実装選択はそれらを弱める可能性がある。 そのような選択の1つは疎二項秘密であり、効率上の理由からPQ HEスキームに望ましい。 以前の作業であるSALSAは、小さな次元(n \le 128$)と低いハミング重量(h \le 4$)の少ないバイナリシークレットによるLWEに対する機械学習ベースの攻撃をデモした。 しかし、この攻撃は数百万の盗聴されたLWEサンプルへのアクセスを前提としており、ハミング級の重量や寸法で失敗する。 PICANTEは、LWEに対する強化された機械学習攻撃であり、より大きな次元(最大$n=350$)で秘密を回復し、より大きなハミング重み(約$n/10$、最大$n=350$)を持つ。 この劇的な改善は、新しい前処理のステップによって達成され、複数のeavesdroped LWEサンプル(4n$)からトレーニングデータを生成し、データ分布を変更してトランスフォーマートレーニングを改善することができる。 また,SALSAのシークレットリカバリ手法の改良や,トレーニングされたモデルから直接シークレットを読み取るための新しいクロスアテンションリカバリ機構を導入する。 PICANTEは、NISTが提案したLWE標準を脅かすものではないが、SALSAよりも大幅に改善され、さらに拡張可能であることを示し、スパースバイナリシークレットによるLWEに対する機械学習攻撃に関する将来の調査の必要性を強調している。

Learning with Errors (LWE) is a hard math problem underpinning many proposed post-quantum cryptographic (PQC) systems. The only PQC Key Exchange Mechanism (KEM) standardized by NIST is based on module~LWE, and current publicly available PQ Homomorphic Encryption (HE) libraries are based on ring LWE. The security of LWE-based PQ cryptosystems is critical, but certain implementation choices could weaken them. One such choice is sparse binary secrets, desirable for PQ HE schemes for efficiency reasons. Prior work, SALSA, demonstrated a machine learning-based attack on LWE with sparse binary secrets in small dimensions ($n \le 128$) and low Hamming weights ($h \le 4$). However, this attack assumes access to millions of eavesdropped LWE samples and fails at higher Hamming weights or dimensions. We present PICANTE, an enhanced machine learning attack on LWE with sparse binary secrets, which recovers secrets in much larger dimensions (up to $n=350$) and with larger Hamming weights (roughly $n/10$, and up to $h=60$ for $n=350$). We achieve this dramatic improvement via a novel preprocessing step, which allows us to generate training data from a linear number of eavesdropped LWE samples ($4n$) and changes the distribution of the data to improve transformer training. We also improve the secret recovery methods of SALSA and introduce a novel cross-attention recovery mechanism allowing us to read off the secret directly from the trained models. While PICANTE does not threaten NIST's proposed LWE standards, it demonstrates significant improvement over SALSA and could scale further, highlighting the need for future investigation into machine learning attacks on LWE with sparse binary secrets.
翻訳日:2023-05-11 16:40:39 公開日:2023-05-09
# 注意を急ぐには境界のあるエントリが必要です

Fast Attention Requires Bounded Entries ( http://arxiv.org/abs/2302.13214v2 )

ライセンス: Link先を確認
Josh Alman, Zhao Song(参考訳) 現代の機械学習では、内部製品注意計算はTransformer, GPT-1, BERT, GPT-2, GPT-3, ChatGPTなどの大規模言語モデルを訓練するための基本的なタスクである。 形式的には、この問題では、入力 3 つの行列 $q, k, v \in [-b,b]^{n \times d}$ として与えられるが、目的は行列 $\mathrm{att}(q,k,v) := \mathrm{diag}(a {\bf 1}_n)^{-1} a v \in \mathbb{r}^{n \times d}$ を構成することである。 この問題のストラテフォワード法は、明示的に$n \times n$ attention matrix $A$を計算し、$d = n^{o(1)}$が小さい場合でも、時間$\Omega(n^2)$を必要とする。 本稿では,行列の$A$を暗黙的に利用することで,より高速なアルゴリズムが可能かどうかを検討する。 2つの結果を示し、$b = \theta(\sqrt{\log n})$ の鋭い遷移が存在することを示した。 $\bullet$ if $d = o(\log n)$ and $b = o(\sqrt{\log n})$, $n^{1+o(1)}$ timeアルゴリズムは$\mathrm{att}(q,k,v)$を1/\mathrm{poly}(n)$に近似する。 $\bullet$ if $d = o(\log n)$ and $b = \theta (\sqrt{\log n})$ きめ細かな複雑性理論から強い指数時間仮説を仮定すると、$\mathrm{att}(q,k,v)$を1/\mathrm{poly}(n)$ 真の準次時間$n^{2 - \omega(1)}$ で近似することは不可能である。 これは、実際に観測される現象の理論的な説明であり、入力行列がより小さいエントリを持つ場合、注意計算はずっと効率的である。

In modern machine learning, inner product attention computation is a fundamental task for training large language models such as Transformer, GPT-1, BERT, GPT-2, GPT-3 and ChatGPT. Formally, in this problem, one is given as input three matrices $Q, K, V \in [-B,B]^{n \times d}$, and the goal is to construct the matrix $\mathrm{Att}(Q,K,V) := \mathrm{diag}(A {\bf 1}_n)^{-1} A V \in \mathbb{R}^{n \times d}$, where $A = \exp(QK^\top/d)$ is the `attention matrix', and $\exp$ is applied entry-wise. Straightforward methods for this problem explicitly compute the $n \times n$ attention matrix $A$, and hence require time $\Omega(n^2)$ even when $d = n^{o(1)}$ is small. In this paper, we investigate whether faster algorithms are possible by implicitly making use of the matrix $A$. We present two results, showing that there is a sharp transition at $B = \Theta(\sqrt{\log n})$. $\bullet$ If $d = O(\log n)$ and $B = o(\sqrt{\log n})$, there is an $n^{1+o(1)}$ time algorithm to approximate $\mathrm{Att}(Q,K,V)$ up to $1/\mathrm{poly}(n)$ additive error. $\bullet$ If $d = O(\log n)$ and $B = \Theta (\sqrt{\log n})$, assuming the Strong Exponential Time Hypothesis from fine-grained complexity theory, it is impossible to approximate $\mathrm{Att}(Q,K,V)$ up to $1/\mathrm{poly}(n)$ additive error in truly subquadratic time $n^{2 - \Omega(1)}$. This gives a theoretical explanation for the phenomenon observed in practice that attention computation is much more efficient when the input matrices have smaller entries.
翻訳日:2023-05-11 16:39:50 公開日:2023-05-09
# トランスファーラーニングによるプライバシー保護型CNNトレーニング

Privacy-Preserving CNN Training with Transfer Learning ( http://arxiv.org/abs/2304.03807v2 )

ライセンス: Link先を確認
John Chiang(参考訳) 本稿では,ただの同型暗号化(HE)技術に基づくプライバシー保護型CNNトレーニングを実現するための実践的ソリューションを提案する。 私たちの知る限りでは、これはこのナットを突破する最初の試みであり、これまでこの目標を達成した作業はありません。 Several techniques combine to accomplish the task:: (1) with transfer learning, privacy-preserving CNN training can be reduced to homomorphic neural network training, or even multiclass logistic regression (MLR) training; (2) via a faster gradient variant called $\texttt{Quadratic Gradient}$, an enhanced gradient method for MLR with a state-of-the-art performance in convergence speed is applied in this work to achieve high performance; (3) we employ the thought of transformation in mathematics to transform approximating Softmax function in the encryption domain to the approximation of the Sigmoid function. この変更に合わせて、$\texttt{squared likelihood error}$と呼ばれる新しいタイプの損失関数が開発された。 ; と (4) は、暗号文内のデータフローを管理するために$\texttt{volley revolver}$という、単純で柔軟なマトリックスエンコーディングメソッドを使用します。 私たちの作業を実装するための完全な実行可能なC++コードは、以下のとおりである。 転送学習のための事前学習モデルとして$\texttt{REGNET\_X\_400MF}$を選択する。 最初の128のMNISTトレーニングイメージをトレーニングデータとして、MNISTテストデータセット全体をテストデータとして使用します。 クライアントは6つの暗号文をクラウドにアップロードするだけでよく、64のvCPUを持つクラウド上で2つのイテレーションを実行するのに$\sim 21$ minsの費用がかかる。

In this paper, we present a practical solution to implement privacy-preserving CNN training based on mere Homomorphic Encryption (HE) technique. To our best knowledge, this is the first attempt successfully to crack this nut and no work ever before has achieved this goal. Several techniques combine to accomplish the task:: (1) with transfer learning, privacy-preserving CNN training can be reduced to homomorphic neural network training, or even multiclass logistic regression (MLR) training; (2) via a faster gradient variant called $\texttt{Quadratic Gradient}$, an enhanced gradient method for MLR with a state-of-the-art performance in convergence speed is applied in this work to achieve high performance; (3) we employ the thought of transformation in mathematics to transform approximating Softmax function in the encryption domain to the approximation of the Sigmoid function. A new type of loss function termed $\texttt{Squared Likelihood Error}$ has been developed alongside to align with this change.; and (4) we use a simple but flexible matrix-encoding method named $\texttt{Volley Revolver}$ to manage the data flow in the ciphertexts, which is the key factor to complete the whole homomorphic CNN training. The complete, runnable C++ code to implement our work can be found at: \href{https://github.com/petitioner/HE.CNNtraining}{$\texttt{https://github.com/petitioner/HE.CNNtraining}$}. We select $\texttt{REGNET\_X\_400MF}$ as our pre-trained model for transfer learning. We use the first 128 MNIST training images as training data and the whole MNIST testing dataset as the testing data. The client only needs to upload 6 ciphertexts to the cloud and it takes $\sim 21$ mins to perform 2 iterations on a cloud with 64 vCPUs, resulting in a precision of $21.49\%$.
翻訳日:2023-05-11 16:32:16 公開日:2023-05-09
# ユニタリ量子ゲートに対する制御ハミルトンアプローチのロバスト性

Robustness of controlled Hamiltonian approaches to unitary quantum gates ( http://arxiv.org/abs/2304.14667v2 )

ライセンス: Link先を確認
Eoin Carolan, Bar{\i}\c{s} \c{C}akmak, Steve Campbell(参考訳) 本稿では,反断熱駆動,フロッケ工学,逆工学の3つの手法を用いて,量子ゲートの実現の有効性とレジリエンスについて検討する。 我々は,ゲートの不忠実さ,エネルギーコストに基づく資源オーバーヘッド,時間的誤差への感受性,環境騒音による劣化などの観点から,それらの性能を批判的に分析する。 動的経路に顕著な違いがあるにもかかわらず、ターゲットゲートの実装とリソースオーバーヘッドの有効性の観点から、三つのアプローチにまたがる幅広い一貫した挙動を見出した。 さらに,制御フィールドの機能形式が,ゲート操作の忠実性を決定する上で重要な役割を担っていることを確認した。 我々は,1つのキュービットゲート,特にアダマールゲートについて実演し,n$-qubit 演算の拡張について検討した。

We examine the effectiveness and resilience of achieving quantum gates employing three approaches stemming from quantum control methods: counterdiabatic driving, Floquet engineering, and inverse engineering. We critically analyse their performance in terms of the gate infidelity, the associated resource overhead based on energetic cost, the susceptibility to time-keeping errors, and the degradation under environmental noise. Despite significant differences in the dynamical path taken, we find a broadly consistent behavior across the three approaches in terms of the efficacy of implementing the target gate and the resource overhead. Furthermore, we establish that the functional form of the control fields plays a crucial role in determining how faithfully a gate operation is achieved. Our results are demonstrated for single qubit gates, with particular focus on the Hadamard gate, and we discuss the extension to $N$-qubit operations.
翻訳日:2023-05-11 16:21:40 公開日:2023-05-09
# 神経進化による脳誘発小世界スパイクニューラルネットの創発

Emergence of Brain-inspired Small-world Spiking Neural Network through Neuroevolution ( http://arxiv.org/abs/2304.10749v2 )

ライセンス: Link先を確認
Wenxuan Pan, Feifei Zhao, Bing Han, Yiting Dong, Yi Zeng(参考訳) 人間の脳は何百万年もの間進化の産物であり、エネルギー消費の少ない複数の高度な認知機能に関与することができる。 脳にインスパイアされた人工知能は、この自然な進化過程の計算的継続に役立ち、脳の構造と機能の進化的メカニズムから着想を得ることが不可欠である。 研究は、人間の脳の高効率と低エネルギー消費は、その小世界のトポロジーと臨界ダイナミクスと密接に関連していることを示唆している。 しかしながら、スパイキングニューラルネットワーク(SNN)の性能指向構造進化に対する既存の取り組みは、脳の中核構造特性を無視し、時間を要する。 本稿では,スモールワールド係数と臨界性を組み合わせた多目的進化液体状態機械(elsm)を進化目標として提案し,スパイクニューラルネットワークの位相特性を静的および動的視点から統合し,脳にインスパイアされた効率的な構造の出現を導く。

Human brain is the product of evolution during hundreds over millions of years and can engage in multiple advanced cognitive functions with low energy consumption. Brain-inspired artificial intelligence serves as a computational continuation of this natural evolutionary process, is imperative to take inspiration from the evolutionary mechanisms of brain structure and function. Studies suggest that the human brain's high efficiency and low energy consumption may be closely related to its small-world topology and critical dynamics. However, existing efforts on the performance-oriented structural evolution of spiking neural networks (SNNs) are time-consuming and ignore the core structural properties of the brain. In this paper, we propose a multi-objective Evolutionary Liquid State Machine (ELSM) with the combination of small-world coefficient and criticality as evolution goals and simultaneously integrate the topological properties of spiking neural networks from static and dynamic perspectives to guide the emergence of brain-inspired efficient structures.
翻訳日:2023-05-11 16:20:06 公開日:2023-05-09
# 強化学習における教師から学習者への知識伝達

Knowledge Transfer from Teachers to Learners in Growing-Batch Reinforcement Learning ( http://arxiv.org/abs/2305.03870v2 )

ライセンス: Link先を確認
Patrick Emedom-Nnamdi, Abram L. Friesen, Bobak Shahriari, Nando de Freitas, Matt W. Hoffman(参考訳) シーケンシャルな意思決定に対する標準的なアプローチは、エージェントが環境と継続的に対話し、コントロールポリシーを改善する能力を利用する。 しかし、安全、倫理、実用性の制約のため、この種の試行錯誤実験は医療やロボティクスといった現実世界の多くの領域で実施できないことが多い。 代わりに、これらのドメインの制御ポリシーは、通常、以前ログしたデータからオフラインでトレーニングされる。 この設定では、固定されたポリシーが環境にデプロイされ、過去のバッチに集約される前に新しいデータのバッチ全体を収集し、ポリシーを更新するために使用される。 この改善サイクルを複数回繰り返すことができる。 このようなサイクルの限られた数が現実のドメインで実現可能であるが、結果として得られるデータの品質と多様性は、標準的な継続的な相互作用アプローチよりもはるかに低い。 しかしながら、これらの領域のデータ収集は、収集したデータのラベル付けや注釈付けが可能な人間の専門家と共同で行われることが多い。 本稿では,まず,この成長段階におけるトレードオフを調査し,教師が提供する情報(デモ,エキスパートアクション,グラデーション情報など)をトレーニング時に活用し,アクタ-批判的手法のサンプル複雑性やカバレッジ要件を緩和する方法について検討する。 DeepMind Control Suiteのタスクに対するコントリビューションを検証する。

Standard approaches to sequential decision-making exploit an agent's ability to continually interact with its environment and improve its control policy. However, due to safety, ethical, and practicality constraints, this type of trial-and-error experimentation is often infeasible in many real-world domains such as healthcare and robotics. Instead, control policies in these domains are typically trained offline from previously logged data or in a growing-batch manner. In this setting a fixed policy is deployed to the environment and used to gather an entire batch of new data before being aggregated with past batches and used to update the policy. This improvement cycle can then be repeated multiple times. While a limited number of such cycles is feasible in real-world domains, the quality and diversity of the resulting data are much lower than in the standard continually-interacting approach. However, data collection in these domains is often performed in conjunction with human experts, who are able to label or annotate the collected data. In this paper, we first explore the trade-offs present in this growing-batch setting, and then investigate how information provided by a teacher (i.e., demonstrations, expert actions, and gradient information) can be leveraged at training time to mitigate the sample complexity and coverage requirements for actor-critic methods. We validate our contributions on tasks from the DeepMind Control Suite.
翻訳日:2023-05-11 16:12:27 公開日:2023-05-09
# 密度行列のブロッホ表現に基づく二部分離性基準の一家系

A Family of Bipartite Separability Criteria Based on Bloch Representation of Density Matrices ( http://arxiv.org/abs/2305.00460v2 )

ライセンス: Link先を確認
Xue-Na Zhu and Jing Wang and Gui Bao and Ming Li and Shu-Qian Shen and Shao-Ming Fei(参考訳) 密度行列のブロッホ表現に基づく任意の次元における二部量子系の分離性について検討する。 我々は、ブロッホ表現の相関テンソルから構築した行列 $t_{\alpha\beta}(\rho)$ と $w_{ab,\alpha\beta}(\rho)$ の2つの量子状態の分離可能性基準を示す。 これらの分離性基準は、以前の分離性基準よりも単純化され、より絡み合うものを検出することができる。 詳細な例は、結果の利点を説明するために示される。

We study the separability of bipartite quantum systems in arbitrary dimensions based on the Bloch representation of density matrices. We present two separability criteria for quantum states in terms of the matrices $T_{\alpha\beta}(\rho)$ and $W_{ab,\alpha\beta}(\rho)$ constructed from the correlation tensors in the Bloch representation. These separability criteria can be simplified and detect more entanglement than the previous separability criteria. Detailed examples are given to illustrate the advantages of results.
翻訳日:2023-05-11 16:10:18 公開日:2023-05-09
# 平面におけるダンケル振動子の有理拡大と例外直交多項式

Rational extensions of the Dunkl oscillator in the plane and exceptional orthogonal polynomials ( http://arxiv.org/abs/2305.05476v1 )

ライセンス: Link先を確認
C. Quesne(参考訳) 平面における等方性ダンケル発振器の合理的拡張は、放射状方程式または極座標アプローチで得られる角式のいずれかにいくつかの項を加えることで得られることが示されている。 前者の場合、等方調和振動子は等方性非調和振動子に置き換えられ、その波動関数は$x_m$-laguerre の例外直交多項式で表される。 後者では、x_1$-ジャコビ例外直交多項式に関連する最も単純な場合において明示的な形式が発見されている異方性ポテンシャルとなる。

It is shown that rational extensions of the isotropic Dunkl oscillator in the plane can be obtained by adding some terms either to the radial equation or to the angular one obtained in the polar coordinates approach. In the former case, the isotropic harmonic oscillator is replaced by an isotropic anharmonic one, whose wavefunctions are expressed in terms of $X_m$-Laguerre exceptional orthogonal polynomials. In the latter, it becomes an anisotropic potential, whose explicit form has been found in the simplest case associated with $X_1$-Jacobi exceptional orthogonal polynomials.
翻訳日:2023-05-11 15:53:08 公開日:2023-05-09
# 言語モデルは、XYZ、CIF、PDBファイルとして3次元で分子、材料、タンパク質結合部位を直接生成できる

Language models can generate molecules, materials, and protein binding sites directly in three dimensions as XYZ, CIF, and PDB files ( http://arxiv.org/abs/2305.05708v1 )

ライセンス: Link先を確認
Daniel Flam-Shepherd and Al\'an Aspuru-Guzik(参考訳) 言語モデルは分子設計の強力なツールである。 現在、主要なパラダイムは、容易に訓練できる線形文字列表現に分子グラフを解析することである。 このアプローチは非常に成功しているが、有機分子のようなグラフで完全に表現できる化学構造に限られている一方、タンパク質結合部位のような物質や生体分子構造は、宇宙における原子の相対的な位置を含むより完全な表現を必要とする。 In this work, we show how language models, without any architecture modifications, trained using next-token prediction -- can generate novel and valid structures in three dimensions from various substantially different distributions of chemical structures. In particular, we demonstrate that language models trained directly on sequences derived directly from chemical file formats like XYZ files, Crystallographic Information files (CIFs), or Protein Data Bank files (PDBs) can directly generate molecules, crystals, and protein binding sites in three dimensions. Furthermore, despite being trained on chemical file sequences -- language models still achieve performance comparable to state-of-the-art models that use graph and graph-derived string representations, as well as other domain-specific 3D generative models. このような場合、単純化された分子表現を用いて化学言語モデルを訓練する必要はなく、非常に異なる構造のために3次元の化学空間を直接探索できる強力な生成モデルであることを示す。

Language models are powerful tools for molecular design. Currently, the dominant paradigm is to parse molecular graphs into linear string representations that can easily be trained on. This approach has been very successful, however, it is limited to chemical structures that can be completely represented by a graph -- like organic molecules -- while materials and biomolecular structures like protein binding sites require a more complete representation that includes the relative positioning of their atoms in space. In this work, we show how language models, without any architecture modifications, trained using next-token prediction -- can generate novel and valid structures in three dimensions from various substantially different distributions of chemical structures. In particular, we demonstrate that language models trained directly on sequences derived directly from chemical file formats like XYZ files, Crystallographic Information files (CIFs), or Protein Data Bank files (PDBs) can directly generate molecules, crystals, and protein binding sites in three dimensions. Furthermore, despite being trained on chemical file sequences -- language models still achieve performance comparable to state-of-the-art models that use graph and graph-derived string representations, as well as other domain-specific 3D generative models. In doing so, we demonstrate that it is not necessary to use simplified molecular representations to train chemical language models -- that they are powerful generative models capable of directly exploring chemical space in three dimensions for very different structures.
翻訳日:2023-05-11 15:44:29 公開日:2023-05-09
# DexArt: Articulated Objectsによる一般化可能なデクサラスマニピュレーションのベンチマーク

DexArt: Benchmarking Generalizable Dexterous Manipulation with Articulated Objects ( http://arxiv.org/abs/2305.05706v1 )

ライセンス: Link先を確認
Chen Bao, Helin Xu, Yuzhe Qin, Xiaolong Wang(参考訳) 汎用ロボットを実現するためには、ロボットが人間のように日常的に操作する必要がある。 現在のロボット操作は、ロボットが限られた対象物に制限される並列グリップを使用することに大きく依存している。 一方、マルチフィンガーロボットの操作は、人間の行動により良い近似を可能にし、ロボットが多様な関節の物体で操作できるようにする。 そこで本研究では,物理シミュレータにおけるArticulated ObjectによるDexterous操作を含む,DexArtと呼ばれる新しいベンチマークを提案する。 私たちのベンチマークでは、複数の複雑な操作タスクを定義し、ロボットハンドは各タスク内の様々な関節オブジェクトを操作する必要があります。 我々の主な焦点は,未認識の明瞭な対象に対する学習方針の一般化可能性を評価することである。 両手と物体の高度な自由度を考えると、これは非常に難しい。 一般化を実現するために3次元表現学習を用いた強化学習を用いる。 広範にわたる研究を通じて,3次元クラウド入力を用いたRLにおける3次元表現学習が意思決定に与える影響について,新たな知見を提供する。 詳細はhttps://www.chenbao.tech/dexart/にある。

To enable general-purpose robots, we will require the robot to operate daily articulated objects as humans do. Current robot manipulation has heavily relied on using a parallel gripper, which restricts the robot to a limited set of objects. On the other hand, operating with a multi-finger robot hand will allow better approximation to human behavior and enable the robot to operate on diverse articulated objects. To this end, we propose a new benchmark called DexArt, which involves Dexterous manipulation with Articulated objects in a physical simulator. In our benchmark, we define multiple complex manipulation tasks, and the robot hand will need to manipulate diverse articulated objects within each task. Our main focus is to evaluate the generalizability of the learned policy on unseen articulated objects. This is very challenging given the high degrees of freedom of both hands and objects. We use Reinforcement Learning with 3D representation learning to achieve generalization. Through extensive studies, we provide new insights into how 3D representation learning affects decision making in RL with 3D point cloud inputs. More details can be found at https://www.chenbao.tech/dexart/.
翻訳日:2023-05-11 15:43:53 公開日:2023-05-09
# 視覚的位置認識改善のための異なる投票方式の評価とランク付け

An Evaluation and Ranking of Different Voting Schemes for Improved Visual Place Recognition ( http://arxiv.org/abs/2305.05705v1 )

ライセンス: Link先を確認
Maria Waheed, Michael Milford, Xiaojun Zhai, Klaus McDonald-Maier and Shoaib Ehsan(参考訳) 視覚的位置認識は、VPR性能を改善するために異なるアンサンブルアプローチを利用する取り組みが最近急増している。 マルチプロセス融合やスイッチングのようなアイデアは、異なるvpr技術を組み合わせることで異なる戦略を利用する。 これらの戦略の多くに共通する主な側面は投票である。 投票は多くのアンサンブル法で広く使われているため、VPRの性能向上に寄与する可能性があり、その応用と意義を探求する上で重要な課題である。 本稿では,アンサンブルVPRの設定に最適な投票手法を評価するために,様々な投票方式を詳細に検討し,分析する。 我々は、政治や社会学などの他の研究分野で広く採用されている様々な投票方式から着想を得ている。 この考え方は、異なる投票方法が同じ種類のデータに対して異なる結果をもたらすという観察に着想を得ており、それぞれの投票方式は異なる学術分野の特定のケースに利用される。 これらの投票方式には、コンドルセット投票、ブロダカウント、複数投票が含まれる。 あらゆる面で投票を行うには、公正なシステムが確立され、VPRのパフォーマンス向上に関わる最良の結果と最も好ましい結果が出力される必要がある。 様々なVPRデータセットを用いて,様々なVPR手法の標準化試験において,これらの投票手法の評価を行った。 我々は,一つの最適な投票方式が存在するか,あるいは他の研究分野と同様,投票手法の選択はその適用と環境に比例したものであるかを決定することを目的とする。 また, 投票方式の選び方の改善が期待できるため, 投票方法のランク付けを最善から最悪の順に進めることも目指している。

Visual Place Recognition has recently seen a surge of endeavours utilizing different ensemble approaches to improve VPR performance. Ideas like multi-process fusion or switching involve combining different VPR techniques together, utilizing different strategies. One major aspect often common to many of these strategies is voting. Voting is widely used in many ensemble methods, so it is potentially a relevant subject to explore in terms of its application and significance for improving VPR performance. This paper attempts to looks into detail and analyze a variety of voting schemes to evaluate which voting technique is optimal for an ensemble VPR set up. We take inspiration from a variety of voting schemes that exist and are widely employed in other research fields such as politics and sociology. The idea is inspired by an observation that different voting methods result in different outcomes for the same type of data and each voting scheme is utilized for specific cases in different academic fields. Some of these voting schemes include Condorcet voting, Broda Count and Plurality voting. Voting employed in any aspect requires that a fair system be established, that outputs the best and most favourable results which in our case would involve improving VPR performance. We evaluate some of these voting techniques in a standardized testing of different VPR techniques, using a variety of VPR data sets. We aim to determine whether a single optimal voting scheme exists or, much like in other fields of research, the selection of a voting technique is relative to its application and environment. We also aim to propose a ranking of these different voting methods from best to worst according to our results as this will allow for better selection of voting schemes.
翻訳日:2023-05-11 15:43:34 公開日:2023-05-09
# 完全混合多部製品状態における分離性ボール

Separable Ball around any Fully Mixed Multipartite Product State ( http://arxiv.org/abs/2305.05686v1 )

ライセンス: Link先を確認
Robin Yunfei Wen, Achim Kempf(参考訳) 任意の$m$-partite 積状態 $\rho_{\rm prod}=\rho_1\otimes ...\otimes\rho_m$ が完全に混合であることを示し、すべての固有値が消滅しないという意味では、その半径が$\rho_{\rm prod}$ の最小固有値に比例する、$\rho_{\rm prod}$ を中心とする分離状態の有限サイズの球が存在する。 我々は全ヒルベルト空間が有限次元であると仮定し、フロベニウスノルムによって誘導される距離の概念を用いる。 また、二成分の場合、この半径はすべてのエルミート行列の空間において最大であり、密度行列の空間における最大半径に近いことも示している。

We show that around any $m$-partite product state $\rho_{\rm prod}=\rho_1\otimes...\otimes\rho_m$ that is fully mixed, in the sense that all its eigenvalues are non-vanishing, there exists a finite-sized ball of separable states centered around $\rho_{\rm prod}$ whose radius is proportional to the smallest eigenvalue of $\rho_{\rm prod}$. We are assuming that the total Hilbert space is finite dimensional and we use the notion of distance induced by the Frobenius norm. We also show that, in the bipartite case, this radius is the largest in the space of all Hermitian matrices and that it is close to the largest radius in the space of density matrices.
翻訳日:2023-05-11 15:43:09 公開日:2023-05-09
# 非線形キラル磁気波

Non-linear chiral magnetic waves ( http://arxiv.org/abs/2305.05685v1 )

ライセンス: Link先を確認
Kazuki Ikeda, Dmitri E. Kharzeev, Shuzhe Shi(参考訳) カイラル磁気波(英: chiral magnetic wave、CMW)は、カイラル異常によって誘起される電気とカイラル電荷の振動の混合によって生じるマクロ量子現象である。 本研究では,シュウィンガーモデルにおけるcmwsのリアルタイムダイナミクスに関する最初の量子シミュレーション(古典的ハードウェア上で)について報告する。 当社のクエンチプロトコルは以下の通りです。$t=0$では、格子の中央に突然電気ダイポールを配置します。 キラルな異常のため、この双極子は格子の端に向かって伝播するCMWを励起する。 共形臨界点にチューニングされたシュウィンガーモデル($\theta = \pi$, $m/g \simeq 0.2$)では、光速で伝播するギャップのない線形cmwを見つける。 質量を持たないシュウィンガーモデル (\theta =0, m=0$) では、以前の解析分析に従ってガッピング線形cmwを求める。 大規模シュウィンガーモデル(強く相互作用するボソニック理論と双対である)では、非線形cmwsの新しいレジームに入り、サプライズを見いだす。 具体的には、$m/g > 1$ の場合、電荷振動の周波数はキラル電荷の振動の周波数よりもはるかに小さくなる。 m/g = 4$ の場合、キラル電荷の高速な振動を伴うほぼ静的な電気双極子に対応する解を求める。 我々はこの解を「thumper」と呼び、その性質を詳細に研究する。

The chiral magnetic wave (CMW) is a macroscopic quantum phenomenon that arises due to the mixing of the electric and chiral charge oscillations induced by the chiral anomaly. In this study we report the first quantum simulation (on classical hardware) of the real-time dynamics of CMWs in Schwinger model. Our quench protocol is the following: at $t=0$ we suddenly place an electric dipole at the middle of our lattice. Due to chiral anomaly, this dipole excites the CMW that propagates towards the edges of the lattice. In Schwinger model tuned to the conformal critical point (at $\theta = \pi$, $m/g \simeq 0.2$), we find a gapless linear CMW that propagates with the speed of light. For massless Schwinger model ($\theta =0, m=0$), we find a gapped linear CMW, in accord with previous analytical analyses. For massive Schwinger model (that is dual to strongly interacting bosonic theory), we enter the new regime of nonlinear CMWs, where we find a surprise. Specifically, for $m/g > 1$, the frequency of electric charge oscillations becomes much smaller than the frequency of the oscillations of the chiral charge. For $m/g =4$, we find a solution corresponding to a nearly static electric dipole with fast oscillations of the chiral charge confined within. We call this solution a "thumper" and study its properties in detail.
翻訳日:2023-05-11 15:42:50 公開日:2023-05-09
# 光学格子におけるドープハバードモデルにおける長岡強磁性

Nagaoka ferromagnetism in doped Hubbard models in optical lattices ( http://arxiv.org/abs/2305.05683v1 )

ライセンス: Link先を確認
Rhine Samajdar and R. N. Bhatt(参考訳) ハバード模型における強磁性の探索は、1966年の長岡の最初の提案以来、大きな関心事となっている。 量子シミュレーションの最近の進歩により、超低温原子系におけるチューナブルドープハバードモデルの研究が可能になった。 ここでは、単一格子上の第2電子が第1電子に比べて弱結合であるようなモデルの現実的な変種について検討する。 大規模密度行列再正規化群計算を用いて,正方形および三角形格子上の高スピン基底状態の存在を確立し,その背後にある微視的メカニズムを分析し,強磁性とストライプなどの競合する秩序との相互作用を考察する。 また,最近の光学格子実験における強磁性相関の興味深い観測値である$\unicode{x2014}$について解説した。

The search for ferromagnetism in the Hubbard model has been a problem of outstanding interest since Nagaoka's original proposal in 1966. Recent advances in quantum simulation have today enabled the study of tunable doped Hubbard models in ultracold atomic systems. Here, we examine a realistic variant of such a model wherein any second electron on a single lattice site is weakly bound compared to the first one. Employing large-scale density-matrix renormalization group calculations, we establish the existence of high-spin ground states on square and triangular lattices, analyze the microscopic mechanisms behind their origin, and investigate the interplay between ferromagnetism and other competing orders, such as stripes. Our results also explain$\unicode{x2014}$and shed new light on$\unicode{x2014}$the intriguing observations of ferromagnetic correlations in recent optical-lattice experiments.
翻訳日:2023-05-11 15:42:26 公開日:2023-05-09
# 機械学習を用いた意思決定システムにおけるデータ時間ラグの豚肉価格予測に及ぼす影響

Effects of data time lag in a decision-making system using machine learning for pork price prediction ( http://arxiv.org/abs/2305.05677v1 )

ライセンス: Link先を確認
Mario Suaza-Medina, F. Javier Zarazaga-Soria, Jorge Pinilla-Lopez, Francisco J. L\'opez-Pellicer, Javier Lacasta(参考訳) スペインは世界第3位の豚肉生産国であり、いくつかの地域の多くの農場はこの市場の進化に依存している。 しかし、現在の価格体系は不公平であり、一部の俳優は他の業者よりも優れた市場情報を持っている。 この文脈では、歴史的価格設定は簡単で手頃な価格なデータソースであり、すべてのエージェントにより良い情報を提供するのに役立つ。 しかし、データ取得の遅れが価格決定に影響を及ぼす可能性がある。 本稿では,複数の予測アルゴリズムを用いて,データ取得遅延が価格予測システムに与える影響について検討する。 本稿では,最適な提案を意思決定支援システムのプロトタイプに統合し,実際のシナリオでテストする。 具体的には、農務省が発行したスペインの最も重要な地域豚肉市場の公開データを用いて、同日に取得した同市場の2週間の遅延とサブスクリプションベースのデータを用いている。 その結果,最高のパブリックモデルとデータサブスクリプションモデルとの誤差差は0.6ユーロであり,遅延のないデータに有利であることがわかった。 市場規模はこれらの違いをサプライチェーンにおいて重要なものにし、市場価格を交渉するためのより良いツールを提供する。

Spain is the third-largest producer of pork meat in the world, and many farms in several regions depend on the evolution of this market. However, the current pricing system is unfair, as some actors have better market information than others. In this context, historical pricing is an easy-to-find and affordable data source that can help all agents to be better informed. However, the time lag in data acquisition can affect their pricing decisions. In this paper, we study the effect that data acquisition delay has on a price prediction system using multiple prediction algorithms. We describe the integration of the best proposal into a decision support system prototype and test it in a real-case scenario. Specifically, we use public data from the most important regional pork meat markets in Spain published by the Ministry of Agriculture with a two-week delay and subscription-based data of the same markets obtained on the same day. The results show that the error difference between the best public and data subscription models is 0.6 Euro cents in favor of the data without delay. The market dimension makes these differences significant in the supply chain, giving pricing agents a better tool to negotiate market prices.
翻訳日:2023-05-11 15:42:13 公開日:2023-05-09
# UAdam:非凸確率最適化のための統一Adam型アルゴリズムフレームワーク

UAdam: Unified Adam-Type Algorithmic Framework for Non-Convex Stochastic Optimization ( http://arxiv.org/abs/2305.05675v1 )

ライセンス: Link先を確認
Yiming Jiang, Jinlan Liu, Dongpo Xu, Danilo P. Mandic(参考訳) アダム型アルゴリズムは、ディープラーニング環境では最適化の選択肢として好まれているが、成功にもかかわらず、その収束性はまだよく分かっていない。 この目的のために,Adam型アルゴリズム(UAdam)の統一フレームワークを導入する。 これは2階のモーメントの一般的な形式を備えており、NAdam、AMSGrad、AdaBound、AdaFom、AdanといったAdamとその変種を特別なケースとして含めることができる。 これは、非凸確率環境でのUAdamの厳密な収束解析によって支えられ、UAdamが$\mathcal{O}(1/T)$の確率で定常点の近傍に収束することを示す。 さらに、$\beta$が増加すると、近傍の大きさが減少する。 重要視されるのは, 1次運動量係数が 1 に近いことのみであり, 2次運動量係数に制限がないことである。 理論的な結果は、バニラ・アダムが適切なハイパーパラメータを選択することで収束し、アダム型アルゴリズムのクラス全体の解析、応用、さらなる発展の理論的保証を提供することを示している。

Adam-type algorithms have become a preferred choice for optimisation in the deep learning setting, however, despite success, their convergence is still not well understood. To this end, we introduce a unified framework for Adam-type algorithms (called UAdam). This is equipped with a general form of the second-order moment, which makes it possible to include Adam and its variants as special cases, such as NAdam, AMSGrad, AdaBound, AdaFom, and Adan. This is supported by a rigorous convergence analysis of UAdam in the non-convex stochastic setting, showing that UAdam converges to the neighborhood of stationary points with the rate of $\mathcal{O}(1/T)$. Furthermore, the size of neighborhood decreases as $\beta$ increases. Importantly, our analysis only requires the first-order momentum factor to be close enough to 1, without any restrictions on the second-order momentum factor. Theoretical results also show that vanilla Adam can converge by selecting appropriate hyperparameters, which provides a theoretical guarantee for the analysis, applications, and further developments of the whole class of Adam-type algorithms.
翻訳日:2023-05-11 15:41:56 公開日:2023-05-09
# 2 * n$は$n^2$より優れている:イベントコリファレンスの解決を2つの扱いやすい問題に分解する

$2 * n$ is better than $n^2$: Decomposing Event Coreference Resolution into Two Tractable Problems ( http://arxiv.org/abs/2305.05672v1 )

ライセンス: Link先を確認
Shafiuddin Rehan Ahmed, Abhijnan Nath, James H. Martin, Nikhil Krishnaswamy(参考訳) イベント参照解決(ECR)は、ドキュメント内またはドキュメント間で同じイベントの参照をリンクするタスクである。 ほとんどの参照ペアはコアフェレントではないが、コアフェレントであるものの多くは、イベントトリガーのレムママッチングやそれらが現れる文のような単純なテクニックによって識別することができる。 既存のコリファレンスシステムのトレーニング方法は、ほとんど歪んだ分布からサンプルを採取するので、アルゴリズムが表面マッチングを超えてコリファレンスを学ぶことは困難である。 さらに、これらの方法は二次演算が必要なため難解である。 これらの課題に対処するため、私たちはECRの問題を2つに分けました。 a)多数の非干渉対を効率的にフィルターするヒューリスティック,及び b) コアフェレント及び非コアフェレント参照ペアのバランスの取れたセットに対するトレーニングアプローチ このアプローチに従うことで、計算要求を大幅に削減しつつ、2つの人気のあるECRデータセット上で、最先端の成果が得られることを示す。 また,coreferent または non-coreferent と正確に分類するために "hard" である参照ペアも分析する。 コード: https://github.com/ahmeshaf/lemma_ce_coref

Event Coreference Resolution (ECR) is the task of linking mentions of the same event either within or across documents. Most mention pairs are not coreferent, yet many that are coreferent can be identified through simple techniques such as lemma matching of the event triggers or the sentences in which they appear. Existing methods for training coreference systems sample from a largely skewed distribution, making it difficult for the algorithm to learn coreference beyond surface matching. Additionally, these methods are intractable because of the quadratic operations needed. To address these challenges, we break the problem of ECR into two parts: a) a heuristic to efficiently filter out a large number of non-coreferent pairs, and b) a training approach on a balanced set of coreferent and non-coreferent mention pairs. By following this approach, we show that we get comparable results to the state of the art on two popular ECR datasets while significantly reducing compute requirements. We also analyze the mention pairs that are "hard" to accurately classify as coreferent or non-coreferent. Code at https://github.com/ahmeshaf/lemma_ce_coref
翻訳日:2023-05-11 15:41:33 公開日:2023-05-09
# 交通予測のためのメッセージパッシングニューラルネットワーク

Message Passing Neural Networks for Traffic Forecasting ( http://arxiv.org/abs/2305.05740v1 )

ライセンス: Link先を確認
Arian Prabowo, Hao Xue, Wei Shao, Piotr Koniusz, Flora D. Salim(参考訳) 道路ネットワークは、トラフィック予測の文脈では通常、ノードがその場所の交通メトリクス(速度など)を測定するセンサーであるグラフとしてモデル化される。 道路の将来の速度は様々な要因に依存するため、交通予測は複雑であるため興味深い。 したがって、トラフィックを適切に予測するには、これらの異なる要因をすべて把握できるモデルが必要である。 既存の作業から欠けている要因は、ノードの相互作用係数である。 本稿では,ノード間通信において,ノード間通信が重要となる道路交通において,GNNのメッセージパッシングフレーバーが最適であることを示すとともに,ノード間通信に最も適したGNNフレーバーがメッセージパッシングであることを論じる。 実世界のデータから、交通予測におけるメッセージ通過フレーバーの優位性を示す。 合成データを用いた別の実験では、メッセージパスするフレーバーは他のフレーバーよりもノード間の相互作用を捉えることができる。

A road network, in the context of traffic forecasting, is typically modeled as a graph where the nodes are sensors that measure traffic metrics (such as speed) at that location. Traffic forecasting is interesting because it is complex as the future speed of a road is dependent on a number of different factors. Therefore, to properly forecast traffic, we need a model that is capable of capturing all these different factors. A factor that is missing from the existing works is the node interactions factor. Existing works fail to capture the inter-node interactions because none are using the message-passing flavor of GNN, which is the one best suited to capture the node interactions This paper presents a plausible scenario in road traffic where node interactions are important and argued that the most appropriate GNN flavor to capture node interactions is message-passing. Results from real-world data show the superiority of the message-passing flavor for traffic forecasting. An additional experiment using synthetic data shows that the message-passing flavor can capture inter-node interaction better than other flavors.
翻訳日:2023-05-11 15:35:40 公開日:2023-05-09
# パラメトリックおよび重み付きMDPのグラフベース削減

Graph-Based Reductions for Parametric and Weighted MDPs ( http://arxiv.org/abs/2305.05739v1 )

ライセンス: Link先を確認
Kasper Engelen, Guillermo A. P\'erez, and Shrisha Rao(参考訳) パラメトリックマルコフ決定過程における重み付き到達可能性の低減の複雑さについて検討する。 すなわち、多項式のすべての評価値が不定となるとき、状態 p が q よりも悪いことはないと言うのは、p から到達可能な最大期待重量が q から同じ値より大きい場合である。 計算複雑性の観点では、p が q よりも悪くないかを決定することは coETR 完全である。 正の側では、マルコフ連鎖の研究する順序の同値類を計算する多項式時間アルゴリズムを与える。 さらに,never-worse関係をほぼ満たさない2つの推論ルールを記述・実装し,大規模マルコフ決定過程の解析に効率的な前処理ステップとして使用できることを示す。

We study the complexity of reductions for weighted reachability in parametric Markov decision processes. That is, we say a state p is never worse than q if for all valuations of the polynomial indeterminates it is the case that the maximal expected weight that can be reached from p is greater than the same value from q. In terms of computational complexity, we establish that determining whether p is never worse than q is coETR-complete. On the positive side, we give a polynomial-time algorithm to compute the equivalence classes of the order we study for Markov chains. Additionally, we describe and implement two inference rules to under-approximate the never-worse relation and empirically show that it can be used as an efficient preprocessing step for the analysis of large Markov decision processes.
翻訳日:2023-05-11 15:35:22 公開日:2023-05-09
# DOCTOR:ウェアラブル・メディカル・センサを用いたマルチ障害検出連続学習フレームワーク

DOCTOR: A Multi-Disease Detection Continual Learning Framework Based on Wearable Medical Sensors ( http://arxiv.org/abs/2305.05738v1 )

ライセンス: Link先を確認
Chia-Hao Li and Niraj K. Jha(参考訳) エッジデバイスにおける機械学習(ML)とウェアラブル医療センサ(WMS)の最近の進歩により、スマートヘルスケアのためのML駆動型疾患検出が可能になった。 従来のML駆動型疾患検出法は、各疾患の個々のモデルとその対応するWMSデータのカスタマイズに依存している。 しかし、このような方法は分散シフトや新しいタスク分類クラスへの適応性に欠ける。 また、新しい疾患ごとに再設計し、スクラッチから再訓練する必要がある。 さらに、エッジデバイスに複数のMLモデルをインストールすると、過剰なメモリを消費し、バッテリのドレインが速くなり、検出プロセスが複雑になる。 これらの課題に対処するために,WMSに基づく多相検出連続学習(CL)フレームワークであるDOCTORを提案する。 マルチヘッドディープニューラルネットワーク(DNN)と、模範再生スタイルのCLアルゴリズムを採用している。 clアルゴリズムは、異なるデータ分布、分類クラス、病気検出タスクが順次導入される新しいミッションを継続的に学習することを可能にする。 データ保存方法と合成データ生成モジュールとで壊滅的な忘れを相殺する。 データ保存方法は、各データインスタンスの平均トレーニング損失に基づいて、前回のミッションからのトレーニングデータの最も有益なサブセットを効率的に保存する。 合成データ生成モジュールは、実際のトレーニングデータの確率分布をモデル化し、データプライバシを維持しながら再生に必要な量の合成データを生成する。 マルチヘッドDNNにより、DOCTORはユーザWMSデータに基づいて複数の疾患を同時に検出できる。 様々なcl実験において,単一のdnnモデルを用いて高いマルチディセーゼ分類精度を維持するための医師の有効性を示す。 DOCTORは、小さなモデルサイズを維持しながら、理想的な共同トレーニングフレームワークと比較して、すべてのCLシナリオで非常に競争力のあるパフォーマンスを実現している。

Modern advances in machine learning (ML) and wearable medical sensors (WMSs) in edge devices have enabled ML-driven disease detection for smart healthcare. Conventional ML-driven disease detection methods rely on customizing individual models for each disease and its corresponding WMS data. However, such methods lack adaptability to distribution shifts and new task classification classes. Also, they need to be rearchitected and retrained from scratch for each new disease. Moreover, installing multiple ML models in an edge device consumes excessive memory, drains the battery faster, and complicates the detection process. To address these challenges, we propose DOCTOR, a multi-disease detection continual learning (CL) framework based on WMSs. It employs a multi-headed deep neural network (DNN) and an exemplar-replay-style CL algorithm. The CL algorithm enables the framework to continually learn new missions where different data distributions, classification classes, and disease detection tasks are introduced sequentially. It counteracts catastrophic forgetting with a data preservation method and a synthetic data generation module. The data preservation method efficiently preserves the most informative subset of training data from previous missions based on the average training loss of each data instance. The synthetic data generation module models the probability distribution of the real training data and then generates as much synthetic data as needed for replays while maintaining data privacy. The multi-headed DNN enables DOCTOR to detect multiple diseases simultaneously based on user WMS data. We demonstrate DOCTOR's efficacy in maintaining high multi-disease classification accuracy with a single DNN model in various CL experiments. DOCTOR achieves very competitive performance across all CL scenarios relative to the ideal joint-training framework while maintaining a small model size.
翻訳日:2023-05-11 15:35:08 公開日:2023-05-09
# アクセス不能な情報の理論

A Theory of Inaccessible Information ( http://arxiv.org/abs/2305.05734v1 )

ライセンス: Link先を確認
Jacopo Surace(参考訳) 世界を実験的に探究する能力に根本的な限界があれば、どうなるのか? 本研究ではこの問題を真剣に検討する。 真理値が実験的にアクセスできないステートメントが存在すると仮定する。 つまり、理論上でさえ、これらの文が真か偽かを直接検査する方法は存在しない。 さらに、実験的にアクセス可能なステートメントが一定数の到達不能ステートメントの和となる理論を発展させる。 例えば、文 "a" と "b" の真理の値はアクセスできないが、文 "a or b" の真理の値はアクセス可能である。 我々は直接確率論を仮定せず、実験的にアクセス不能なステートメントを排他的に定義し、これらの概念を古典論理の規則を用いて構築する。 興味深い構造が生まれています この理論を発展させ、論理構造を確率論的に緩和し、「到達不能情報の理論」と呼ばれる構造に富んだ理論を得る。 驚くべきことに、到達不能情報の理論の最も単純なモデルは量子力学における量子ビットである。 この理論の構築の道筋に沿って、我々は「アクセシビリティ対策」と呼ぶ乗法的情報尺度の族を特徴づけ、研究する。

What would be the consequences if there were fundamental limits to our ability to experimentally explore the world? In this work we seriously consider this question. We assume the existence of statements whose truth value is not experimentally accessible. That is, there is no way, not even in theory, to directly test if these statements are true or false. We further develop a theory in which experimentally accessible statements are a union of a fixed minimum number of inaccessible statements. For example, the value of truth of the statements "a" and "b" is not accessible, but the value of truth of the statement "a or b" is accessible. We do not directly assume probability theory, we exclusively define experimentally accessible and inaccessible statements and build on these notions using the rules of classical logic. We find that an interesting structure emerges. Developing this theory, we relax the logical structure to a probabilistic one, obtaining a theory rich in structure that we call "theory of inaccessible information". Surprisingly, the simplest model of theory of inaccessible information is the qubit in quantum mechanics. Along the path for the construction of this theory, we characterise and study a family of multiplicative information measures that we call "inaccessibility measures".
翻訳日:2023-05-11 15:34:43 公開日:2023-05-09
# 社会生態工学システムとしてのアルゴリズム--アルゴリズム監査に関する環境正義レンズ

Algorithms as Social-Ecological-Technological Systems: an Environmental Justice Lens on Algorithmic Audits ( http://arxiv.org/abs/2305.05733v1 )

ライセンス: Link先を確認
Bogdana Rakova, Roel Dobbe(参考訳) 本稿では,社会・生態システムと密接に結びついているアルゴリズムシステムを再構成し,環境正義指向のアルゴリズム監査のための一級方法論を提案する。 アルゴリズムシステムの設計、開発、展開の仕方について、環境と気候の正義の次元をどう考えるか? これらの影響は本質的に創発的であり、アルゴリズムシステムと社会(制度を含む)と生態系の生態的構成要素との関係のレベルにおいてのみ理解され、対処することができる。 その結果、アルゴリズムシステムに対する積分オントロジーが存在しない場合、アルゴリズムシステムとその基礎となる計算基盤の広範な環境影響の創発的性質を正当化することはできないと主張している。 本稿では,アルゴリズムが統合・運用される幅広いファブリックの社会的,生態学的,技術的構成要素間の結合として,創発的含意を浮き彫りにする,社会生態工学システム(SETS)とは無関係なアルゴリズムシステムを定義することを提案する。 我々は、SETS分析に関する先行研究と、アルゴリズムの影響を概念化し評価するための環境正義(EJ)の文献と実践における新たなテーマについて述べる。 次に, アルゴリズム監査に対するSETSベースのEJアプローチの確立を支援するための3つの政策勧告を提案する。(1) インプットを広げ, 監査のアウトプットを開放すること,(2) レッドレスへの有意義なアクセスを可能にすること,(3) 影響評価プロセスにおける場所ベースおよびリレーショナルアプローチを保証すること。 私たちはこれらを、さまざまなステークホルダーの質問の質的枠組みとして運用します。 本稿は、政策立案者、研究者、実践者、市民社会、草の根コミュニティ間のより強く頻繁な交流を促すことを目的としている。

This paper reframes algorithmic systems as intimately connected to and part of social and ecological systems, and proposes a first-of-its-kind methodology for environmental justice-oriented algorithmic audits. How do we consider environmental and climate justice dimensions of the way algorithmic systems are designed, developed, and deployed? These impacts are inherently emergent and can only be understood and addressed at the level of relations between an algorithmic system and the social (including institutional) and ecological components of the broader ecosystem it operates in. As a result, we claim that in absence of an integral ontology for algorithmic systems, we cannot do justice to the emergent nature of broader environmental impacts of algorithmic systems and their underlying computational infrastructure. We propose to define algorithmic systems as ontologically indistinct from Social-Ecological-Technological Systems (SETS), framing emergent implications as couplings between social, ecological, and technical components of the broader fabric in which algorithms are integrated and operate. We draw upon prior work on SETS analysis as well as emerging themes in the literature and practices of Environmental Justice (EJ) to conceptualize and assess algorithmic impact. We then offer three policy recommendations to help establish a SETS-based EJ approach to algorithmic audits: (1) broaden the inputs and open-up the outputs of an audit, (2) enable meaningful access to redress, and (3) guarantee a place-based and relational approach to the process of evaluating impact. We operationalize these as a qualitative framework of questions for a spectrum of stakeholders. Doing so, this article aims to inspire stronger and more frequent interactions across policymakers, researchers, practitioners, civil society, and grassroots communities.
翻訳日:2023-05-11 15:34:22 公開日:2023-05-09
# Duke Spleen Data Set: トレーニングセグメンテーションのための公開Spleen MRIとCTデータセット

Duke Spleen Data Set: A Publicly Available Spleen MRI and CT dataset for Training Segmentation ( http://arxiv.org/abs/2305.05732v1 )

ライセンス: Link先を確認
Yuqi Wang, Jacob A. Macdonald, Katelyn R. Morgan, Danielle Hom, Sarah Cubberley, Kassi Sollace, Nicole Casasanto, Islam H. Zaki, Kyle J. Lafata, Mustafa R. Bashir(参考訳) 脾臓容積は、主に慢性肝疾患や門脈圧亢進症に苦しむ患者と関連しており、しばしば異常な形状と大きさの脾臓を持つ。 しかし、手動で脾臓を分別して容積を得るのは時間を要するプロセスである。 深層学習アルゴリズムは脾臓セグメンテーションの自動化に有効であることが証明されているが、そのようなアルゴリズムのトレーニングには適切なデータセットが必要である。 我々の知る限り、脾臓分画のための数少ない公開データセットは、腹水や腹部静脈瘤のような異常な特徴を欠いている。 この問題に対処するため、Duke Spleen Data Set (DSDS) が開発され、慢性肝疾患と門脈圧亢進症患者109例のCTおよびMRIボリュームが提供されている。 データセットには、さまざまなイメージタイプ、ベンダー、プレーン、コントラスト、および下層の疾患状態によるさまざまな脾臓の形状とサイズが含まれている。 DSDSは、これらのバリエーションや要因を考慮に入れた堅牢な脾分割モデルの作成を容易にすることを目的としている。

Spleen volumetry is primarily associated with patients suffering from chronic liver disease and portal hypertension, as they often have spleens with abnormal shapes and sizes. However, manually segmenting the spleen to obtain its volume is a time-consuming process. Deep learning algorithms have proven to be effective in automating spleen segmentation, but a suitable dataset is necessary for training such algorithms. To our knowledge, the few publicly available datasets for spleen segmentation lack confounding features such as ascites and abdominal varices. To address this issue, the Duke Spleen Data Set (DSDS) has been developed, which includes 109 CT and MRI volumes from patients with chronic liver disease and portal hypertension. The dataset includes a diverse range of image types, vendors, planes, and contrasts, as well as varying spleen shapes and sizes due to underlying disease states. The DSDS aims to facilitate the creation of robust spleen segmentation models that can take into account these variations and confounding factors.
翻訳日:2023-05-11 15:33:51 公開日:2023-05-09
# スタンドに車を停める」:SMTベースのオラクルが意思決定を調査

'Put the Car on the Stand': SMT-based Oracles for Investigating Decisions ( http://arxiv.org/abs/2305.05731v1 )

ライセンス: Link先を確認
Samuel Judson and Matthew Elacqua and Filip Cano C\'ordoba and Timos Antonopoulos and Bettina K\"onighofer and Scott J. Shapiro and Ruzica Piskac(参考訳) 害の余波における原則的説明責任は、アルゴリズムによる意思決定の信頼できる設計とガバナンスに不可欠である。 法哲学は、エージェントをスタンドに置き、彼らの行動と横断的な検査の意図を従わせること。 最小の仮定の下では、自動推論は、法的事実発見の敵対的プロセスのように、アルゴリズムの振る舞いを厳格に問うことができる。 我々は、試験やレビューボードなどの説明責任プロセスを、対実ガイド型論理探索と抽象リファインメント(CLEAR)ループとしてモデル化する。 我々は,SMTに基づくオラクルを用いて,エージェントの行動に関する質問を,人間研究者によって適応的に定式化されるように現実的および反現実的なシナリオで発信する。 決定アルゴリズム $\mathcal{a}$ に対して、決定可能理論 $\texttt{qf_fpbv}$ において、その論理を$\pi$ として表現するために記号的実行を使用する。 当社のフレームワークを,付属のGUIを備えた$\textsf{soid}$というツールで実装し,その実用性を実証的な自動車事故シナリオで実証する。

Principled accountability in the aftermath of harms is essential to the trustworthy design and governance of algorithmic decision making. Legal philosophy offers a paramount method for assessing culpability: putting the agent 'on the stand' to subject their actions and intentions to cross-examination. We show that under minimal assumptions automated reasoning can rigorously interrogate algorithmic behaviors as in the adversarial process of legal fact finding. We model accountability processes, such as trials or review boards, as Counterfactual-Guided Logic Exploration and Abstraction Refinement (CLEAR) loops. We use an SMT-based oracle to discharge queries about agent behavior in factual and counterfactual scenarios, as adaptively formulated by a human investigator. For a decision algorithm $\mathcal{A}$, we use symbolic execution to represent its logic as a statement $\Pi$ in the decidable theory $\texttt{QF_FPBV}$. We implement our framework in a tool called $\textsf{soid}$ with an accompanying GUI, and demonstrate its utility on an illustrative car crash scenario.
翻訳日:2023-05-11 15:33:33 公開日:2023-05-09
# リモートセンシングにおける視覚言語モデルの現状と将来動向

Vision-Language Models in Remote Sensing: Current Progress and Future Trends ( http://arxiv.org/abs/2305.05726v1 )

ライセンス: Link先を確認
Congcong Wen, Yuan Hu, Xiang Li, Zhenghang Yuan, Xiao Xiang Zhu(参考訳) ChatGPTとGPT-4の顕著な成果は、人工知能(AGI)の大規模言語モデル分野における関心と研究の波を引き起こしている。 これらのモデルにより、人間の思考に近いインテリジェントなソリューションが提供され、汎用人工知能を使って様々なアプリケーションの問題を解決することができます。 しかし、リモートセンシングの分野では、AGIの実施に関する科学的文献は比較的少ないままである。 既存のAI関連の研究は、主に視覚的理解タスクに焦点を当て、オブジェクトとその関係のセマンティック理解を無視している。 ここで視覚言語モデルは、画像とその関連するテキスト記述の推論を可能にし、基礎となるセマンティクスのより深い理解を可能にする。 視覚言語モデルは、画像内のオブジェクトを認識するだけでなく、それらの関係を推測したり、画像の自然言語記述を生成することもできる。 これにより、画像キャプション、テキストベースの画像検索、視覚的な質問応答など、視覚とテキストの理解を必要とするタスクに適している。 本稿では,リモートセンシングにおける視覚言語モデル研究の包括的レビューを行い,最近の進歩を要約するとともに,現在の課題を浮き彫りにして,潜在的な研究機会を特定する。 具体的には,画像キャプション,テキストベース画像生成,テキストベース画像検索,視覚的質問応答,シーン分類,意味セグメンテーション,オブジェクト検出など,複数のリモートセンシングタスクにおける視覚言語モデルの適用について検討する。 各タスクについて、タスクのバックグラウンドを簡単に説明し、いくつかの代表的作業をレビューします。 最後に,既存の作業の限界を要約し,今後の開発の方向性について述べる。

The remarkable achievements of ChatGPT and GPT-4 have sparked a wave of interest and research in the field of large language models for Artificial General Intelligence (AGI). These models provide us with intelligent solutions that are more similar to human thinking, enabling us to use general artificial intelligence to solve problems in various applications. However, in the field of remote sensing, the scientific literature on the implementation of AGI remains relatively scant. Existing AI-related research primarily focuses on visual understanding tasks while neglecting the semantic understanding of the objects and their relationships. This is where vision-language models excel, as they enable reasoning about images and their associated textual descriptions, allowing for a deeper understanding of the underlying semantics. Vision-language models can go beyond recognizing the objects in an image and can infer the relationships between them, as well as generate natural language descriptions of the image. This makes them better suited for tasks that require both visual and textual understanding, such as image captioning, text-based image retrieval, and visual question answering. This paper provides a comprehensive review of the research on vision-language models in remote sensing, summarizing the latest progress, highlighting the current challenges, and identifying potential research opportunities. Specifically, we review the application of vision-language models in several mainstream remote sensing tasks, including image captioning, text-based image generation, text-based image retrieval, visual question answering, scene classification, semantic segmentation, and object detection. For each task, we briefly describe the task background and review some representative works. Finally, we summarize the limitations of existing work and provide some possible directions for future development.
翻訳日:2023-05-11 15:33:11 公開日:2023-05-09
# クラス不均衡データに対するモデル複雑性駆動クラス比例調整による臨床予測モデリングの強化:オピオイド過剰摂取予測に関する実証的研究

Enhancing Clinical Predictive Modeling through Model Complexity-Driven Class Proportion Tuning for Class Imbalanced Data: An Empirical Study on Opioid Overdose Prediction ( http://arxiv.org/abs/2305.05722v1 )

ライセンス: Link先を確認
Yinan Liu, Xinyu Dong, Weimin Lyu, Richard N. Rosenthal, Rachel Wong, Tengfei Ma and Fusheng Wang(参考訳) 医学領域にはクラス不均衡の問題が広く存在し、臨床予測モデルの性能が著しく低下する。 問題再均衡のクラス比を緩和するほとんどの手法は、再均衡の比率は元のデータの関数であり、使用するモデルに偏りがないと仮定する。 この研究は、この一般的な仮定に挑戦し、最適なクラスの割合とモデルの複雑さを結びつけ、モデル当たりのクラスの割合を調整することを提案する。 オピオイド過量予測問題に関する実験は、チューニングクラス比率のパフォーマンス向上を浮き彫りにした。 厳密回帰分析は、提案された理論的枠組みの利点と、モデル複雑性を制御するハイパーパラメータと最適なクラス比との統計的に有意な相関も確認する。

Class imbalance problems widely exist in the medical field and heavily deteriorates performance of clinical predictive models. Most techniques to alleviate the problem rebalance class proportions and they predominantly assume the rebalanced proportions should be a function of the original data and oblivious to the model one uses. This work challenges this prevailing assumption and proposes that links the optimal class proportions to the model complexity, thereby tuning the class proportions per model. Our experiments on the opioid overdose prediction problem highlight the performance gain of tuning class proportions. Rigorous regression analysis also confirms the advantages of the theoretical framework proposed and the statistically significant correlation between the hyperparameters controlling the model complexity and the optimal class proportions.
翻訳日:2023-05-11 15:32:47 公開日:2023-05-09
# CodeIE: 大規模なコード生成モデルは、Few-Shot情報エクストラクタより優れている

CodeIE: Large Code Generation Models are Better Few-Shot Information Extractors ( http://arxiv.org/abs/2305.05711v1 )

ライセンス: Link先を確認
Peng Li (1), Tianxiang Sun (2), Qiong Tang (2), Hang Yan (2), Yuanbin Wu (3), Xuanjing Huang (2), Xipeng Qiu (2) ((1) Academy for Engineering & Technology, Fudan University, (2) School of Computer Science, Fudan University, (3) School of Computer Science and Technology, East China Normal University)(参考訳) 大規模コーパスで事前学習された大規模言語モデル(llm)は多くのnlpタスクで印象的な少数ショット学習能力を示している。 一般的には、GPT-3のような自然言語(NL-LLM)の生成LLMを誘導するように、タスクをテキストからテキストにリキャストする。 しかし、通常、IEタスクの出力が構造化されており、プレーンテキストに変換することが難しいため、NL-LLMで情報抽出(IE)タスクを実行するのは簡単ではない。 本稿では、構造化された出力を自然言語の代わりにコード形式で再キャストし、コーデックスのようなコード(コード-LLM)の生成LCMを用いてIEタスク、特に名前付きエンティティ認識と関係抽出を行う。 NL-LLMとは対照的に、コードスタイルのプロンプトを設計し、これらのIEタスクをコード生成タスクとして定式化することにより、コード-LLMがこれらのIEタスクと整合可能であることを示す。 7つのベンチマークによる実験結果から,IEタスク(UIEなど)に特化して設計された微調整型事前学習モデルと,数ショット設定でのNL-LLMの高速化が得られた。 さらに,IE タスクに Code-LLM を活用するメリットを示すために,一連の詳細な分析を行う。

Large language models (LLMs) pre-trained on massive corpora have demonstrated impressive few-shot learning ability on many NLP tasks. A common practice is to recast the task into a text-to-text format such that generative LLMs of natural language (NL-LLMs) like GPT-3 can be prompted to solve it. However, it is nontrivial to perform information extraction (IE) tasks with NL-LLMs since the output of the IE task is usually structured and therefore is hard to be converted into plain text. In this paper, we propose to recast the structured output in the form of code instead of natural language and utilize generative LLMs of code (Code-LLMs) such as Codex to perform IE tasks, in particular, named entity recognition and relation extraction. In contrast to NL-LLMs, we show that Code-LLMs can be well-aligned with these IE tasks by designing code-style prompts and formulating these IE tasks as code generation tasks. Experiment results on seven benchmarks show that our method consistently outperforms fine-tuning moderate-size pre-trained models specially designed for IE tasks (e.g., UIE) and prompting NL-LLMs under few-shot settings. We further conduct a series of in-depth analyses to demonstrate the merits of leveraging Code-LLMs for IE tasks.
翻訳日:2023-05-11 15:32:34 公開日:2023-05-09
# Alexiewiczトポロジーにおけるニューラルネットワークのスパイク:解析とエラー境界の新しい視点

Spiking Neural Networks in the Alexiewicz Topology: A New Perspective on Analysis and Error Bounds ( http://arxiv.org/abs/2305.05772v1 )

ライセンス: Link先を確認
Bernhard A. Moser and Michael Lunglmayr(参考訳) ニューロモルフィック・コンピューティングにおける誤り伝播解析の容易化とスパイク・ニューラルネットワーク(SNN)の理解を深めるため,スパイク・トレインをスパイク・トレインにマッピングする自己準同型としてSNNの数学的解析の課題に対処する。 中心となる問題は、スパイク列の空間の適切な構造とその時間遅延、しきい値偏差、およびリーク積分火炎(lif)ニューロンモデルの再活性化モードの設計を含むsnsの誤差測定の設計への含意である。 まず、lifモデルの全てのサブスレッショルド信号の閉包を分析することにより、基盤となるトポロジーを特定する。 ゼロリークの場合、このアプローチは任意の正のリークを持つLIFニューロンに採用するAlexiewicz位相をもたらす。 その結果、LIFは対応するノルムのスパイクトレイン量子化として理解することができる。 これにより、入出力スパイク列間の準等長関係など、様々な誤差境界と不等式が得られる。 別の結果は、誤差伝播と関連する共鳴型現象に対するリプシッツ型大域上界である。

In order to ease the analysis of error propagation in neuromorphic computing and to get a better understanding of spiking neural networks (SNN), we address the problem of mathematical analysis of SNNs as endomorphisms that map spike trains to spike trains. A central question is the adequate structure for a space of spike trains and its implication for the design of error measurements of SNNs including time delay, threshold deviations, and the design of the reinitialization mode of the leaky-integrate-and-fire (LIF) neuron model. First we identify the underlying topology by analyzing the closure of all sub-threshold signals of a LIF model. For zero leakage this approach yields the Alexiewicz topology, which we adopt to LIF neurons with arbitrary positive leakage. As a result LIF can be understood as spike train quantization in the corresponding norm. This way we obtain various error bounds and inequalities such as a quasi isometry relation between incoming and outgoing spike trains. Another result is a Lipschitz-style global upper bound for the error propagation and a related resonance-type phenomenon.
翻訳日:2023-05-11 15:25:14 公開日:2023-05-09
# DifFIQA: Denoising Diffusion Probabilistic Modelを用いた顔画像品質評価

DifFIQA: Face Image Quality Assessment Using Denoising Diffusion Probabilistic Models ( http://arxiv.org/abs/2305.05768v1 )

ライセンス: Link先を確認
\v{Z}iga Babnik, Peter Peer, Vitomir \v{S}truc(参考訳) 現代の顔認識(FR)モデルは制約のあるシナリオでは優れるが、キャプチャーされた顔データの品質に関する不確実性のため、制約のない(現実の)環境でのデプロイでは性能が低下することが多い。 顔画像品質評価(FIQA)技術は、これらの性能劣化を軽減し、FRモデルに低品質のサンプルを拒絶し、偽マッチングエラーを低減できるサンプル品質予測を提供することを目的としている。 しかし、安定した改善にもかかわらず、多様な特徴を持つ顔画像の信頼性の高い品質評価を保証することは依然として困難である。 本稿では,拡散確率モデル (DDPM) に依拠し,競争力の高い結果が得られる強力なFIQA手法DifFIQAを提案する。 アプローチの背景にある主な考え方は、DDPMの前後のプロセスを利用して顔画像を摂動させ、これらの摂動が品質予測のために対応する画像埋め込みに与える影響を定量化することである。 拡散に基づく摂動は計算コストが高いため、DifFIQAで符号化された知識を、DifFIQA(R)と呼ばれる回帰ベースの品質予測器に抽出し、性能と実行時間のバランスをとる。 4つのfrモデルと10の最先端fiqa技術を用いて,7つのデータセットを包括的に実験し,両モデルを評価した。 ソースコードは一般公開される予定だ。

Modern face recognition (FR) models excel in constrained scenarios, but often suffer from decreased performance when deployed in unconstrained (real-world) environments due to uncertainties surrounding the quality of the captured facial data. Face image quality assessment (FIQA) techniques aim to mitigate these performance degradations by providing FR models with sample-quality predictions that can be used to reject low-quality samples and reduce false match errors. However, despite steady improvements, ensuring reliable quality estimates across facial images with diverse characteristics remains challenging. In this paper, we present a powerful new FIQA approach, named DifFIQA, which relies on denoising diffusion probabilistic models (DDPM) and ensures highly competitive results. The main idea behind the approach is to utilize the forward and backward processes of DDPMs to perturb facial images and quantify the impact of these perturbations on the corresponding image embeddings for quality prediction. Because the diffusion-based perturbations are computationally expensive, we also distill the knowledge encoded in DifFIQA into a regression-based quality predictor, called DifFIQA(R), that balances performance and execution time. We evaluate both models in comprehensive experiments on 7 datasets, with 4 target FR models and against 10 state-of-the-art FIQA techniques with highly encouraging results. The source code will be made publicly available.
翻訳日:2023-05-11 15:24:53 公開日:2023-05-09
# instant-nerf: algorithm-accelerator が設計したニアメモリ処理による、デバイス上での瞬時ニューラルラミアンスフィールドトレーニング

Instant-NeRF: Instant On-Device Neural Radiance Field Training via Algorithm-Accelerator Co-Designed Near-Memory Processing ( http://arxiv.org/abs/2305.05766v1 )

ライセンス: Link先を確認
Yang Zhao, Shang Wu, Jingqun Zhang, Sixu Li, Chaojian Li, Yingyan Lin(参考訳) Instant On-Device Neural Radiance Fields (NeRF)は没入型AR/VR体験の約束を解き放つための需要が増えているが、それでも禁止的なトレーニング時間によって制限されている。 我々のプロファイリング分析は、NeRFトレーニングにおけるメモリバウンドの非効率性を明らかにする。 この非効率性に取り組むために、ニアメモリ処理(NMP)は有効なソリューションであると同時に、ランダムなハッシュテーブルルックアップ、ランダムなポイント処理シーケンス、異種ボトルネックステップを含む、NeRFのユニークなワークロードによって、課題に直面している。 そこで本研究では,NMPフレームワークであるInstant-NeRFを提案する。 8つのデータセットの実験は、Instant-NeRFの有効性を一貫して検証している。

Instant on-device Neural Radiance Fields (NeRFs) are in growing demand for unleashing the promise of immersive AR/VR experiences, but are still limited by their prohibitive training time. Our profiling analysis reveals a memory-bound inefficiency in NeRF training. To tackle this inefficiency, near-memory processing (NMP) promises to be an effective solution, but also faces challenges due to the unique workloads of NeRFs, including the random hash table lookup, random point processing sequence, and heterogeneous bottleneck steps. Therefore, we propose the first NMP framework, Instant-NeRF, dedicated to enabling instant on-device NeRF training. Experiments on eight datasets consistently validate the effectiveness of Instant-NeRF.
翻訳日:2023-05-11 15:24:26 公開日:2023-05-09
# 量子回路の学習出力分布の平均ケース複雑性について

On the average-case complexity of learning output distributions of quantum circuits ( http://arxiv.org/abs/2305.05765v1 )

ライセンス: Link先を確認
Alexander Nietner, Marios Ioannou, Ryan Sweke, Richard Kueng, Jens Eisert, Marcel Hinsche and Jonas Haferkamp(参考訳) 本研究では,統計的クエリモデルにおいて,ブロックワークランダムな量子回路の出力分布の学習が平均ケースハードであることを示す。 この学習モデルは、ほとんどの汎用学習アルゴリズムの抽象計算モデルとして広く使われている。 特に、n$ qubits of depth $d$ のブリックワークランダム量子回路では、次の3つの主な結果が示される: - super logarithmic circuit depth $d=\omega(\log(n))$ 任意の学習アルゴリズムは、ランダムに描画されたインスタンスに対して一定の成功確率を達成するために、スーパー多項式の多くのクエリを必要とする。 -$d=O(n)$が存在し、任意の学習アルゴリズムがランダムに描画されたインスタンスに対して$O(2^{-n})$の成功確率を達成するために$\Omega(2^n)$クエリを必要とする。 -無限回路深さ$d\to\infty$の場合、任意の学習アルゴリズムはランダムに描画されたインスタンスに対して成功の確率を2^{2^{\Omega(n)}}$2^{2^{\Omega(n)}}で達成するために多くのクエリを必要とする。 独立な利害関係の補助的な結果として、ブロックワークランダムな量子回路の出力分布は確率1-O(2^{-n})$の総変分距離における任意の固定分布から常に遠いことが示され、Aaronson と Chen の予想の変分を確認する。

In this work, we show that learning the output distributions of brickwork random quantum circuits is average-case hard in the statistical query model. This learning model is widely used as an abstract computational model for most generic learning algorithms. In particular, for brickwork random quantum circuits on $n$ qubits of depth $d$, we show three main results: - At super logarithmic circuit depth $d=\omega(\log(n))$, any learning algorithm requires super polynomially many queries to achieve a constant probability of success over the randomly drawn instance. - There exists a $d=O(n)$, such that any learning algorithm requires $\Omega(2^n)$ queries to achieve a $O(2^{-n})$ probability of success over the randomly drawn instance. - At infinite circuit depth $d\to\infty$, any learning algorithm requires $2^{2^{\Omega(n)}}$ many queries to achieve a $2^{-2^{\Omega(n)}}$ probability of success over the randomly drawn instance. As an auxiliary result of independent interest, we show that the output distribution of a brickwork random quantum circuit is constantly far from any fixed distribution in total variation distance with probability $1-O(2^{-n})$, which confirms a variant of a conjecture by Aaronson and Chen.
翻訳日:2023-05-11 15:24:11 公開日:2023-05-09
# 実世界政策最適化のためのサイクル調整のコスト削減

Reducing the Cost of Cycle-Time Tuning for Real-World Policy Optimization ( http://arxiv.org/abs/2305.05760v1 )

ライセンス: Link先を確認
Homayoon Farrahi and A. Rupam Mahmood(参考訳) 継続的強化学習タスクは一般的に、アクションに固定サイクル時間の離散的なステップを使用する。 実践者は与えられたタスクのアクションサイクル時間を選択する必要があるため、学習アルゴリズムのハイパーパラメータが現実世界のロボティクスでは禁止されているサイクル時間の選択ごとに再調整する必要があるかどうかが重要な懸念事項である。 本研究では,2つのポリシー勾配アルゴリズム(ppoとsac)のベースラインハイパーパラメータ値を,異なるサイクル時間にわたって検討する。 両アルゴリズムのベースラインハイパーパラメータが正常に動作しているベンチマークタスクを用いて、タスクデフォルトとは異なるサイクル時間を選択すると、ベースラインハイパーパラメータを持つPPOが学習に失敗することを明らかにする。 さらに、ベースラインのハイパーパラメータを持つPPOとSACは、サイクル時間毎に調整された値よりも大幅に低下する。 サイクル時間に基づいてこれらのハイパーパラメータを設定するための新しい手法を提案する。 シミュレーションおよび実世界のロボットタスクの実験において,提案手法は,少なくともベースラインのハイパーパラメータと同様に,サイクルタイムのほとんどの選択において有意に優れた性能を示し,サイクルタイムの学習に失敗することはなかった。 ハイパーパラメータチューニングは、我々のアプローチでは新しいタスクにいくつかの初期チューニングを必要とするため、実世界のロボティクスにとって依然として重要な障壁です。 提案手法では,与えられたタスクに対してサイクル時間を変更した後に追加のチューニングを必要とせず,現実世界のポリシー最適化のために,広範かつコストのかかるハイパーパラメータチューニングを回避するためのステップとなる。

Continuous-time reinforcement learning tasks commonly use discrete steps of fixed cycle times for actions. As practitioners need to choose the action-cycle time for a given task, a significant concern is whether the hyper-parameters of the learning algorithm need to be re-tuned for each choice of the cycle time, which is prohibitive for real-world robotics. In this work, we investigate the widely-used baseline hyper-parameter values of two policy gradient algorithms -- PPO and SAC -- across different cycle times. Using a benchmark task where the baseline hyper-parameters of both algorithms were shown to work well, we reveal that when a cycle time different than the task default is chosen, PPO with baseline hyper-parameters fails to learn. Moreover, both PPO and SAC with their baseline hyper-parameters perform substantially worse than their tuned values for each cycle time. We propose novel approaches for setting these hyper-parameters based on the cycle time. In our experiments on simulated and real-world robotic tasks, the proposed approaches performed at least as well as the baseline hyper-parameters, with significantly better performance for most choices of the cycle time, and did not result in learning failure for any cycle time. Hyper-parameter tuning still remains a significant barrier for real-world robotics, as our approaches require some initial tuning on a new task, even though it is negligible compared to an extensive tuning for each cycle time. Our approach requires no additional tuning after the cycle time is changed for a given task and is a step toward avoiding extensive and costly hyper-parameter tuning for real-world policy optimization.
翻訳日:2023-05-11 15:23:42 公開日:2023-05-09
# Ranking & Reweightingはグループ分散ロバスト性を改善する

Ranking & Reweighting Improves Group Distributional Robustness ( http://arxiv.org/abs/2305.05759v1 )

ライセンス: Link先を確認
Yachuan Liu, Bohan Zhang, Qiaozhu Mei and Paramveer Dhillon(参考訳) 近年の研究では、経験的リスク最小化(ERM)による標準トレーニングが、突発的特徴の出現により、非表現群における平均的かつ低い精度で精度の高いモデルを作成できることが示されている。 このグループロバストネス問題に取り組むための主要なアプローチは、トレーニングデータ上で最悪のグループエラー(minimax戦略のように)を最小限に抑え、テストデータの一般化を期待することです。 しかし、特にout-of-distriion (OOD) テストデータが以前は見られなかったグループを含む場合、これはしばしば最適である。 情報検索と学習-ランク文学のアイデアから着想を得た本論文では,まず,より優れたハイパーパラメータチューニングとモデル選択を容易にするためのモデル品質の指標として,Discounted Cumulative Gain(DCG)を用いることを提案する。 ランキングベースの指標であるDCGは、複数のパフォーマンスの悪いグループ(最低パフォーマンスを持つグループのみを考えるのではなく)を重み付けている。 そこで本研究では,本研究の次のステップとして,学習データ中の低パフォーマンスなグループのランキングリストを,テストデータ上で強力なoodパフォーマンスを示すモデルに区別的に重み付けする,disuseed rank upweighting(dru)と呼ばれるランキングベースのトレーニング手法を提案する。 いくつかの合成データと実世界のデータセットの結果は、グループ分布シフトにロバストなモデルの選択と学習において、グループ階層ベース(ソフトミニマックスと同様)アプローチの優れた一般化能力を強調している。

Recent work has shown that standard training via empirical risk minimization (ERM) can produce models that achieve high accuracy on average but low accuracy on underrepresented groups due to the prevalence of spurious features. A predominant approach to tackle this group robustness problem minimizes the worst group error (akin to a minimax strategy) on the training data, hoping it will generalize well on the testing data. However, this is often suboptimal, especially when the out-of-distribution (OOD) test data contains previously unseen groups. Inspired by ideas from the information retrieval and learning-to-rank literature, this paper first proposes to use Discounted Cumulative Gain (DCG) as a metric of model quality for facilitating better hyperparameter tuning and model selection. Being a ranking-based metric, DCG weights multiple poorly-performing groups (instead of considering just the group with the worst performance). As a natural next step, we build on our results to propose a ranking-based training method called Discounted Rank Upweighting (DRU), which differentially reweights a ranked list of poorly-performing groups in the training data to learn models that exhibit strong OOD performance on the test data. Results on several synthetic and real-world datasets highlight the superior generalization ability of our group-ranking-based (akin to soft-minimax) approach in selecting and learning models that are robust to group distributional shifts.
翻訳日:2023-05-11 15:23:18 公開日:2023-05-09
# 世界状態とテキストのインストラクションを通じて、いつ、何を尋ねるか - iglu nlp challengeソリューション

When and What to Ask Through World States and Text Instructions: IGLU NLP Challenge Solution ( http://arxiv.org/abs/2305.05754v1 )

ライセンス: Link先を確認
Zhengxiang Shi, Jerome Ramos, To Eun Kim, Xi Wang, Hossein A. Rahmani, Aldo Lipani(参考訳) 協調作業においては、効果的なコミュニケーションが共同目標達成に不可欠である。 そのようなタスクのひとつがコラボレーティブなビルディングで、ビルダーはMinecraftのようなシミュレートされた環境で望ましい構造を構築するために互いに通信する必要があります。 対話によるユーザ入力に基づく構造構築のためのインテリジェントビルダエージェントの開発を目指している。 しかし、共同建築では、構築者が利用可能な情報や指示に基づいて解釈しにくい状況に遭遇する可能性があり、曖昧さに繋がる。 NeurIPS 2022 Competition NLP Taskでは、このギャップを埋めるための2つの重要な研究課題に対処する。 2つのサブタスク、分類タスクとランキングタスクでこのターゲットに向かって移動します。 分類作業の目的は、エージェントが現在の世界状況と対話履歴に基づいて、明確化を求めるべきかを判断することである。 ランク付けタスクの目標は、候補者のプールから関連する明確化質問をランク付けすることである。 本報告では,分類・ランク付けタスクの方法を簡単に紹介する。 分類タスクでは,f1 スコア 0.757 を達成し,3 番目のスコアをリーダボードに配置した。 ランキングタスクでは,従来のランキングモデルを拡張することで平均相互ランクの約0.38を達成する。 最後に、ランキングタスクと今後の方向性に関する様々なニューラルアプローチについて議論する。

In collaborative tasks, effective communication is crucial for achieving joint goals. One such task is collaborative building where builders must communicate with each other to construct desired structures in a simulated environment such as Minecraft. We aim to develop an intelligent builder agent to build structures based on user input through dialogue. However, in collaborative building, builders may encounter situations that are difficult to interpret based on the available information and instructions, leading to ambiguity. In the NeurIPS 2022 Competition NLP Task, we address two key research questions, with the goal of filling this gap: when should the agent ask for clarification, and what clarification questions should it ask? We move towards this target with two sub-tasks, a classification task and a ranking task. For the classification task, the goal is to determine whether the agent should ask for clarification based on the current world state and dialogue history. For the ranking task, the goal is to rank the relevant clarification questions from a pool of candidates. In this report, we briefly introduce our methods for the classification and ranking task. For the classification task, our model achieves an F1 score of 0.757, which placed the 3rd on the leaderboard. For the ranking task, our model achieves about 0.38 for Mean Reciprocal Rank by extending the traditional ranking model. Lastly, we discuss various neural approaches for the ranking task and future direction.
翻訳日:2023-05-11 15:22:48 公開日:2023-05-09
# ディープニューラルネットワークのハードウェア信頼性評価手法に関する体系的文献レビュー

A Systematic Literature Review on Hardware Reliability Assessment Methods for Deep Neural Networks ( http://arxiv.org/abs/2305.05750v1 )

ライセンス: Link先を確認
Mohammad Hasan Ahmadilivani, Mahdi Taheri, Jaan Raik, Masoud Daneshtalab, Maksim Jenihhin(参考訳) 人工知能(AI)、特に機械学習(ML)は、複雑な問題を解決する方法を学ぶ能力のため、様々なアプリケーションで利用されるようになった。 過去10年間で、MLの急速な進歩により、多数のニューロンとレイヤからなるディープニューラルネットワーク(DNN)が提示された。 DNNハードウェアアクセラレータ(DHA)は、ターゲットアプリケーションにDNNをデプロイするために利用される。 ハードウェアの障害やエラーが破滅的な結果をもたらす安全クリティカルなアプリケーションも、dhasの恩恵を受ける。 したがって、DNNの信頼性は研究の必須課題である。 近年、DNNの信頼性を評価するためにいくつかの研究が公表されている。 この点に関して、様々なプラットフォームやアプリケーションに様々な信頼性評価手法が提案されている。 したがって、DNNの信頼性の研究におけるギャップを特定するためには、技術の現状を要約する必要がある。 本研究では,dnnの信頼性評価手法に関する体系的文献レビュー(slr)を行い,関連する研究成果を可能な限り収集し,それらを分類し,オープン課題に対処した。 このSLRを通して,DNNの信頼性評価手法として,障害注入法(FI),解析法,ハイブリッド方式の3種類を同定する。 多くの研究がDNNの信頼性をFIで評価しているので、FI手法の異なるアプローチとプラットフォームを包括的に特徴付ける。 さらに分析法とハイブリッド法が提案されている。 そこで, DNNの信頼性評価手法について検討し, 信頼性評価指標について検討した。 最後に,特定した手法の長所と短所を強調し,研究分野におけるオープンな課題に対処した。

Artificial Intelligence (AI) and, in particular, Machine Learning (ML) have emerged to be utilized in various applications due to their capability to learn how to solve complex problems. Over the last decade, rapid advances in ML have presented Deep Neural Networks (DNNs) consisting of a large number of neurons and layers. DNN Hardware Accelerators (DHAs) are leveraged to deploy DNNs in the target applications. Safety-critical applications, where hardware faults/errors would result in catastrophic consequences, also benefit from DHAs. Therefore, the reliability of DNNs is an essential subject of research. In recent years, several studies have been published accordingly to assess the reliability of DNNs. In this regard, various reliability assessment methods have been proposed on a variety of platforms and applications. Hence, there is a need to summarize the state of the art to identify the gaps in the study of the reliability of DNNs. In this work, we conduct a Systematic Literature Review (SLR) on the reliability assessment methods of DNNs to collect relevant research works as much as possible, present a categorization of them, and address the open challenges. Through this SLR, three kinds of methods for reliability assessment of DNNs are identified including Fault Injection (FI), Analytical, and Hybrid methods. Since the majority of works assess the DNN reliability by FI, we characterize different approaches and platforms of the FI method comprehensively. Moreover, Analytical and Hybrid methods are propounded. Thus, different reliability assessment methods for DNNs have been elaborated on their conducted DNN platforms and reliability evaluation metrics. Finally, we highlight the advantages and disadvantages of the identified methods and address the open challenges in the research area.
翻訳日:2023-05-11 15:22:27 公開日:2023-05-09
# パーソナリティ予測のための多レベル文埋め込み

Multilevel Sentence Embeddings for Personality Prediction ( http://arxiv.org/abs/2305.05748v1 )

ライセンス: Link先を確認
Paolo Tirotta, Akira Yuasa, Masashi Morita(参考訳) 多次元空間へのテキスト表現は、SBERT(Sentence-BERT)のような文埋め込みモデルで行うことができる。 しかしながら、データが複雑なマルチレベル構造を持つ場合にこれらのモデルをトレーニングするには、個別に訓練されたクラス固有のモデルが必要であるため、時間と計算コストが増加する。 階層的メンバーシップと極性に応じて文をマップできる2段階のアプローチを提案する。 まず,アダコス損失関数を通じて上階文空間を指導し,その後,主にレベル内ペアのコサイン類似性に基づいて,新たな損失関数を微調整する。 本手法を英語と日本語のTwitterデータから得られた2つの弱教師付きビッグファイブパーソナリティデータセットとベンチマークMNLIデータセットの3つの異なるデータセットに適用する。 単一のモデルアプローチが複数のクラス固有の分類モデルよりも優れた性能を示す。

Representing text into a multidimensional space can be done with sentence embedding models such as Sentence-BERT (SBERT). However, training these models when the data has a complex multilevel structure requires individually trained class-specific models, which increases time and computing costs. We propose a two step approach which enables us to map sentences according to their hierarchical memberships and polarity. At first we teach the upper level sentence space through an AdaCos loss function and then finetune with a novel loss function mainly based on the cosine similarity of intra-level pairs. We apply this method to three different datasets: two weakly supervised Big Five personality dataset obtained from English and Japanese Twitter data and the benchmark MNLI dataset. We show that our single model approach performs better than multiple class-specific classification models.
翻訳日:2023-05-11 15:22:03 公開日:2023-05-09
# 多層アレイにおけるトラップイオン量子ビットの高忠実輸送

High-Fidelity Transport of Trapped-Ion Qubits in a Multi-Layer Array ( http://arxiv.org/abs/2305.05741v1 )

ライセンス: Link先を確認
Deviprasath Palani, Florian Hasse, Philip Kiefer, Frederick Boeckling, Jan-Philipp Schroeder, Ulrich Warring, Tobias Schaetz(参考訳) 多くの粒子の量子制御のために様々な物理プラットフォームが研究され、複数の次元にアクセスできるように拡張されている。 本稿では,3次元配置で最大13個のトラップ部位を含むスケーラブルなトラップアレイアーキテクチャにおいて,Mg$^+$イオンを閉鎖する実験を行った。 イオンを専用の積み込みハブから複数のサイトに送り、成功率は0.9999999ドルを超えます。 プロトタイプアプリケーションでは,サイト間シャットリング中に超微細量子ビットの重ね合わせ状態のコヒーレンスを保存できることを実証する。 本研究は,今後の大規模アーキテクチャにおけるこれらの技術の可能性を明らかにするものである。

A variety of physical platforms are investigated for quantum control of many particles, and techniques are extended to access multiple dimensions. Here, we present our experimental study of shuttling single Mg$^+$ ions within a scalable trap-array architecture that contains up to thirteen trapping sites in a three-dimensional arrangement. We shuttle ions from a dedicated loading hub to multiple sites with a success rate of larger than $0.99999$. In a prototype application, we demonstrate the preservation of the coherence of superposition states of a hyperfine qubit during inter-site shuttling. Our findings highlight the potential of these techniques for use in future large-scale architectures.
翻訳日:2023-05-11 15:21:48 公開日:2023-05-09
# 量子技術応用のための広帯域半導体のドナー・アクセプター対

Donor-Acceptor Pairs in Wide-Bandgap Semiconductors for Quantum Technology Applications ( http://arxiv.org/abs/2305.05791v1 )

ライセンス: Link先を確認
Anil Bilgin, Ian Hammock, Jeremy Estes, Yu Jin, Hannes Bernien, Alexander High, Giulia Galli(参考訳) 本稿では,広帯域ギャップ半導体におけるドナー-アクセプタ対(daps)間の双極子-双極子カップリングを利用した量子科学プラットフォームを提案する。 ダイヤモンドおよび炭化ケイ素(SiC)の置換点欠陥によって形成されるDAPの電子構造と相互作用を,密度汎関数理論(DFT)に基づいて計算する。 我々は、最も安定な電荷状態を決定し、制約付きDFTを用いてゼロフォノン線を評価し、その結果を単純なドナー・アクセプタペア(DAP)モデルと比較する。 地盤と励起状態の偏光差は、ダイヤモンドおよびSiC中のいくつかのDAPに対して異常に大きな電気双極子モーメントをもたらすことを示す。 選択された置換原子の放射寿命と発光スペクトルを予測し、ダイヤモンド中のb-n対は大きな電子-フォノンカップリングのため制御が難しいが、sic、特にal-n対のdapsは長距離光制御可能な相互作用を実現するのに適していることを示す。

We propose a quantum science platform utilizing the dipole-dipole coupling between donor-acceptor pairs (DAPs) in wide bandgap semiconductors to realize optically controllable, long-range interactions between defects in the solid state. We carry out calculations based on density functional theory (DFT) to investigate the electronic structure and interactions of DAPs formed by various substitutional point defects in diamond and silicon carbide (SiC). We determine the most stable charge states and evaluate zero phonon lines using constrained DFT and compare our results with those of simple donor-acceptor pair (DAP) models. We show that polarization differences between ground and excited states lead to unusually large electric dipole moments for several DAPs in diamond and SiC. We predict radiative lifetimes and photoluminescence spectra for selected substitutional atoms and show that while B-N pairs in diamond are challenging to control due to their large electron-phonon coupling, DAPs in SiC, especially Al-N pairs, are suitable candidates to realize long-range optically controllable interactions.
翻訳日:2023-05-11 15:16:09 公開日:2023-05-09
# 特徴空間密度マッチングによる意味セグメンテーションのための教師なし領域適応

Unsupervised Domain Adaptation for Semantic Segmentation via Feature-space Density Matching ( http://arxiv.org/abs/2305.05789v1 )

ライセンス: Link先を確認
Tushar Kataria, Beatrice Knudsen, and Shireen Elhabian(参考訳) セマンティックセグメンテーション(セマンティックセグメンテーション、Semantic segmentation)は、画像の自動解釈と解析において重要なステップである。 セマンティックセグメンテーションのためのディープラーニングアプローチは、アノテーション付き画像のパワーを利用して、これらのセマンティッククラスを示す特徴を学習する。 それでも、トレーニング(すなわち、ソース)データとデプロイ時に遭遇するデータセット(すなわち、ターゲット)の間に重要なドメイン(すなわち、分散)シフトがある場合、ターゲットデータに対して手動アノテーションを必要とせず、許容可能なパフォーマンスを達成することがしばしばある。 異なる画像モダリティは、プロトコールとベンダーの変動性により、サイト内およびサイト間において大きな変動をもたらすため、医療画像において特に重要である。 現在の技術はハイパーパラメータチューニングとターゲットデータセットサイズに敏感である。 本稿では,対象データのアノテートの必要性を緩和する意味セグメンテーションのための教師なしドメイン適応手法を提案する。 カーネル密度推定を用いて,対象データ分布と特徴空間のソースデータとのマッチングを行う。 前立腺多施設MRIと病理像に比較して,本研究の結果が優れているか,あるいは優れていることが確認できた。

Semantic segmentation is a critical step in automated image interpretation and analysis where pixels are classified into one or more predefined semantically meaningful classes. Deep learning approaches for semantic segmentation rely on harnessing the power of annotated images to learn features indicative of these semantic classes. Nonetheless, they often fail to generalize when there is a significant domain (i.e., distributional) shift between the training (i.e., source) data and the dataset(s) encountered when deployed (i.e., target), necessitating manual annotations for the target data to achieve acceptable performance. This is especially important in medical imaging because different image modalities have significant intra- and inter-site variations due to protocol and vendor variability. Current techniques are sensitive to hyperparameter tuning and target dataset size. This paper presents an unsupervised domain adaptation approach for semantic segmentation that alleviates the need for annotating target data. Using kernel density estimation, we match the target data distribution to the source data in the feature space. We demonstrate that our results are comparable or superior on multiple-site prostate MRI and histopathology images, which mitigates the need for annotating target data.
翻訳日:2023-05-11 15:15:51 公開日:2023-05-09
# 3次元ポーズ推定のための正規分割グラフネットワーク

Regular Splitting Graph Network for 3D Human Pose Estimation ( http://arxiv.org/abs/2305.05785v1 )

ライセンス: Link先を確認
Tanvir Hassan and A. Ben Hamza(参考訳) グラフ畳み込み構造に基づく人間のポーズ推定法では、人間の骨格は通常、ノードが身体関節であり、エッジが隣接関節間の接続である無向グラフとしてモデル化される。 しかし、これらの方法の多くは、一階隣人を用いて骨格の体節間の関係を学習することに集中し、高階隣人を無視し、遠方の関節間の関係を利用する能力を制限する傾向がある。 本稿では,重みと隣接変調を併用した行列分割を用いた2次元から3次元のポーズ推定のための高次正規分割グラフネットワーク(rs-net)を提案する。 中心となるアイデアは、マルチホップ近傍を用いて身体関節間の長距離依存性を捉え、異なる身体関節の異なる変調ベクトルや、骨格に付随する隣接マトリックスに加えられた変調行列を学習することである。 この学習可能な変調行列は、ボディジョイント間の追加接続を学ぶためにグラフエッジを追加することでグラフ構造を調整するのに役立つ。 提案したRS-Netモデルは, 隣り合うすべての関節に共有重み行列を使用する代わりに, 関節に付随する特徴ベクトルを集約する前に重み非共有を適用し, それらの関係を捉える。 2つのベンチマークデータセットで行った実験とアブレーション実験は、このモデルの有効性を示し、最近の3次元ポーズ推定法よりも優れた性能を達成する。

In human pose estimation methods based on graph convolutional architectures, the human skeleton is usually modeled as an undirected graph whose nodes are body joints and edges are connections between neighboring joints. However, most of these methods tend to focus on learning relationships between body joints of the skeleton using first-order neighbors, ignoring higher-order neighbors and hence limiting their ability to exploit relationships between distant joints. In this paper, we introduce a higher-order regular splitting graph network (RS-Net) for 2D-to-3D human pose estimation using matrix splitting in conjunction with weight and adjacency modulation. The core idea is to capture long-range dependencies between body joints using multi-hop neighborhoods and also to learn different modulation vectors for different body joints as well as a modulation matrix added to the adjacency matrix associated to the skeleton. This learnable modulation matrix helps adjust the graph structure by adding extra graph edges in an effort to learn additional connections between body joints. Instead of using a shared weight matrix for all neighboring body joints, the proposed RS-Net model applies weight unsharing before aggregating the feature vectors associated to the joints in order to capture the different relations between them. Experiments and ablations studies performed on two benchmark datasets demonstrate the effectiveness of our model, achieving superior performance over recent state-of-the-art methods for 3D human pose estimation.
翻訳日:2023-05-11 15:15:30 公開日:2023-05-09
# 鑑識ツールの開発と評価のための合成・操作頭上画像の包括的データセット

Comprehensive Dataset of Synthetic and Manipulated Overhead Imagery for Development and Evaluation of Forensic Tools ( http://arxiv.org/abs/2305.05784v1 )

ライセンス: Link先を確認
Brandon B. May, Kirill Trapeznikov, Shengbang Fang, Matthew C. Stamm(参考訳) 本稿では,法医学ツールの開発と評価のために,そのオーバーヘッド画像の最初のデータセットを提案する。 我々のデータセットは、2つの異なるズームレベルと2つのプリズムデータに基づいてトレーニングされたカスタム拡散モデルから生成された実、完全合成、部分的に操作されたオーバーヘッド画像で構成されている。 本研究では,実および生成されたベースマップと位置を条件とした完全合成画像を含む複数の操作カテゴリの制御可能な生成を支援するモデルを開発した。 また,同じコンディショニングオプションと数種類の操作されたコンテンツを備えた部分インペイント画像もサポートする。 データは、操作パラメータを記述するrawイメージとground truthアノテーションで構成される。 また、完全かつ部分的に操作された画像の検出、局所化の操作、分類を含む、データセットがサポートするタスクのベンチマーク性能について報告する。

We present a first of its kind dataset of overhead imagery for development and evaluation of forensic tools. Our dataset consists of real, fully synthetic and partially manipulated overhead imagery generated from a custom diffusion model trained on two sets of different zoom levels and on two sources of pristine data. We developed our model to support controllable generation of multiple manipulation categories including fully synthetic imagery conditioned on real and generated base maps, and location. We also support partial in-painted imagery with same conditioning options and with several types of manipulated content. The data consist of raw images and ground truth annotations describing the manipulation parameters. We also report benchmark performance on several tasks supported by our dataset including detection of fully and partially manipulated imagery, manipulation localization and classification.
翻訳日:2023-05-11 15:15:05 公開日:2023-05-09
# 希少同位体含有ダイヤモンドカラーセンターの基本対称性試験

Rare Isotope-Containing Diamond Color Centers for Fundamental Symmetry Tests ( http://arxiv.org/abs/2305.05781v1 )

ライセンス: Link先を確認
Ian M. Morris, Kai Klink, Jaideep T. Singh, Jose L. Mendoza-Cortes, Shannon S. Nicley, Jonas N. Becker(参考訳) 粒子中の非ゼロ電気双極子モーメント(EDM)を検出することは、標準モデルを超えた物理学を明確に表す。 これへの潜在的な経路は核シフモーメントの検出であり、その大きさは核オクタポール変形の存在によって増強される。 しかし、このような「真珠型」核を含む同位体の生成率が低いため、効率的に捕獲、検出、操作することが重要な前提条件である。 合成ダイヤモンド光学結晶にそれらを組み込むことで、ダイアモンドバンドギャップ内の分子状構造と孤立電子状態の欠陥を生じさせ、捕獲効率を高め、単一原子の繰り返し検出を可能にし、狭い光線幅を生成することができる。 本研究では密度汎関数理論 (DFT) を用いて, 極端に強い核オクタポール変形を示すと予測される希少同位体である$^{229}$Paを含むダイヤモンドの結晶欠陥の形成, 構造, 電子的性質について検討した。 さらに, ランタニド含有安定欠陥を非放射性酸素と類似の電子構造で同定し, 実験方法を検討した。 われわれはこれらの欠陥の存在を約束し、希少同位体研究のための量子情報処理に触発されたツールボックスの開発に寄与することができる。

Detecting a non-zero electric dipole moment (EDM) in a particle would unambiguously signify physics beyond the Standard Model. A potential pathway towards this is the detection of a nuclear Schiff moment, the magnitude of which is enhanced by the presence of nuclear octupole deformation. However, due to the low production rate of isotopes featuring such "pear-shaped" nuclei, capturing, detecting, and manipulating them efficiently is a crucial prerequisite. Incorporating them into synthetic diamond optical crystals can produce defects with defined, molecule-like structures and isolated electronic states within the diamond band gap, increasing capture efficiency, enabling repeated probing of even a single atom, and producing narrow optical linewidths. In this study, we used density functional theory (DFT) to investigate the formation, structure, and electronic properties of crystal defects in diamond containing $^{229}$Pa, a rare isotope that is predicted to have an exceptionally strong nuclear octupole deformation. In addition, we identified and studied stable lanthanide-containing defects with similar electronic structures as non-radioactive proxies to aid in experimental methods. Our findings hold promise for the existence of such defects and can contribute to the development of a quantum information processing-inspired toolbox of techniques for studying rare isotopes.
翻訳日:2023-05-11 15:14:52 公開日:2023-05-09
# 生成型adversarial networkを用いた音声信号のギャップ化

Enhancing Gappy Speech Audio Signals with Generative Adversarial Networks ( http://arxiv.org/abs/2305.05780v1 )

ライセンス: Link先を確認
Deniss Strods and Alan F. Smeaton(参考訳) ギャップ、ドロップアウト、破損したオーディオの短いクリップは一般的な問題であり、特に音声で発生すると面倒です。 本稿では,機械学習を用いて音声信号に最大320msのギャップを再生する。 オーディオをMel-spectrogramに変換し、画像インペイントを用いてギャップを再生することにより、オーディオ再生を画像再生する。 完全なMel-spectrogramはParallel-WaveGAN vocoderを使ってオーディオに転送され、オーディオストリームに統合される。 公開されているLJSpeechデータセットから1300の音声クリップを1秒から10秒間採取したサンプルを用いて,GPUを用いたGANを用いて,音声ギャップの再生をほぼリアルタイムで行った。 予想通り、オーディオのギャップが小さくなればなるほど、充満したギャップの品質が向上します。 240msの差では、最高パフォーマンスモデルの平均平均評価スコア(mos)は3.737で、1(worst)から5(best)までスケールし、人間の発話が途切れないほど知覚するのに十分である。

Gaps, dropouts and short clips of corrupted audio are a common problem and particularly annoying when they occur in speech. This paper uses machine learning to regenerate gaps of up to 320ms in an audio speech signal. Audio regeneration is translated into image regeneration by transforming audio into a Mel-spectrogram and using image in-painting to regenerate the gaps. The full Mel-spectrogram is then transferred back to audio using the Parallel-WaveGAN vocoder and integrated into the audio stream. Using a sample of 1300 spoken audio clips of between 1 and 10 seconds taken from the publicly-available LJSpeech dataset our results show regeneration of audio gaps in close to real time using GANs with a GPU equipped system. As expected, the smaller the gap in the audio, the better the quality of the filled gaps. On a gap of 240ms the average mean opinion score (MOS) for the best performing models was 3.737, on a scale of 1 (worst) to 5 (best) which is sufficient for a human to perceive as close to uninterrupted human speech.
翻訳日:2023-05-11 15:14:29 公開日:2023-05-09
# Augmented Heterogeneous AST Representation によるOpenMPの並列化学習

Learning to Parallelize with OpenMP by Augmented Heterogeneous AST Representation ( http://arxiv.org/abs/2305.05779v1 )

ライセンス: Link先を確認
Le Chen, Quazi Ishtiaque Mahmud, Hung Phan, Nesreen K. Ahmed, Ali Jannesari(参考訳) 並列化可能なコード領域の検出は、経験豊富な開発者にとっても難しい作業です。 近年,自然言語処理における機械学習の成功を鑑みて,並列化を含むコード解析やプログラム合成に機械学習を用いることが検討されている。 しかし、並列性検出に機械学習技術を適用することは、トレーニングに適切なデータセットがないこと、豊富な情報を持つ効果的なコード表現、多種多様な分析のためにコードに潜む特徴を学ぶのに適した機械学習モデルなど、いくつかの課題をもたらす。 このような課題に対処するため,コードにヘテロジニアスな抽象構文木(Augmented-AST)を用いたグラフベースの新しい学習手法Graph2Parを提案する。 提案手法は主にOpenMPによるループレベルの並列化に焦点を当てた。 さらに,並列化可能な18598と並列化できない13972のループを持つomp\_serialデータセットを作成し,機械学習モデルをトレーニングする。 提案手法は,85%の精度で並列化可能なコード領域検出の精度を実現し,最先端のトークンベース機械学習手法よりも優れていることを示す。 これらの結果から,本手法は最先端のツールと競合し,他のツールが見落としているような複雑な構造を持つループを処理できることが示唆された。

Detecting parallelizable code regions is a challenging task, even for experienced developers. Numerous recent studies have explored the use of machine learning for code analysis and program synthesis, including parallelization, in light of the success of machine learning in natural language processing. However, applying machine learning techniques to parallelism detection presents several challenges, such as the lack of an adequate dataset for training, an effective code representation with rich information, and a suitable machine learning model to learn the latent features of code for diverse analyses. To address these challenges, we propose a novel graph-based learning approach called Graph2Par that utilizes a heterogeneous augmented abstract syntax tree (Augmented-AST) representation for code. The proposed approach primarily focused on loop-level parallelization with OpenMP. Moreover, we create an OMP\_Serial dataset with 18598 parallelizable and 13972 non-parallelizable loops to train the machine learning models. Our results show that our proposed approach achieves the accuracy of parallelizable code region detection with 85\% accuracy and outperforms the state-of-the-art token-based machine learning approach. These results indicate that our approach is competitive with state-of-the-art tools and capable of handling loops with complex structures that other tools may overlook.
翻訳日:2023-05-11 15:14:08 公開日:2023-05-09
# マルチオブジェクト・セルフ・スーパービジョン深度Denoising

Multi-Object Self-Supervised Depth Denoising ( http://arxiv.org/abs/2305.05778v1 )

ライセンス: Link先を確認
Claudius Kienle and David Petri(参考訳) 深度カメラはロボットの操作、例えば視覚サーボによく用いられる。 小型でコンパクトな深度カメラの品質は、しばしば深度再構成には不十分であり、ロボットの作業空間の正確な追跡と知覚に必要である。 本研究は,シャバノフら(2021年)の研究に基づいて,高品位センサの深度マップを,低品位センサからの深さマップをデノベートするための近距離監視信号として利用する,自己教師付き多目的深度デノベーションパイプラインを提案する。 2つのフレームペアのセットを空間的に整列させ、フレームベースのマルチオブジェクトマスクを取得する計算効率の良い方法を示し、クリーンなラベル付きデータセットを受け取り、ノイズの多いニューラルネットワークをトレーニングする。 私たちの作品の実装はhttps://github.com/alr-internship/self-supervised-depth-denoisingで確認できます。

Depth cameras are frequently used in robotic manipulation, e.g. for visual servoing. The quality of small and compact depth cameras is though often not sufficient for depth reconstruction, which is required for precise tracking in and perception of the robot's working space. Based on the work of Shabanov et al. (2021), in this work, we present a self-supervised multi-object depth denoising pipeline, that uses depth maps of higher-quality sensors as close-to-ground-truth supervisory signals to denoise depth maps coming from a lower-quality sensor. We display a computationally efficient way to align sets of two frame pairs in space and retrieve a frame-based multi-object mask, in order to receive a clean labeled dataset to train a denoising neural network on. The implementation of our presented work can be found at https://github.com/alr-internship/self-supervised-depth-denoising.
翻訳日:2023-05-11 15:13:48 公開日:2023-05-09
# 低解像度画像を用いた視覚位置認識

Visual Place Recognition with Low-Resolution Images ( http://arxiv.org/abs/2305.05776v1 )

ライセンス: Link先を確認
Mihnea-Alexandru Tomita, Bruno Ferrarini, Michael Milford, Klaus McDonald-Maier, Shoaib Ehsan(参考訳) 画像にはロボットの周囲からの豊富な情報が含まれている。 コンパクトカメラの普及に伴い、視覚情報は、視覚的位置認識(VPR)と呼ばれるローカライゼーション問題に対処するために、ますます人気が高まっている。 多くのアプリケーションは、最適な位置マッチング性能を達成するために高解像度カメラとハイエンドシステムを使用しているが、低解像度の商用システムはリソース制約と比較的低解像度で低品質のカメラのために制限に直面している。 本稿では,手作りVPRパイプラインの精度とロバスト性に及ぼす画像分解能の影響を解析する。 手作りのデザインは計算能力が低く、柔軟な画像解像度に対応し、任意の画像ソースにスケールし、リソース制限下で動作するための適切なアプローチとなる。 本稿では、ハードウェア・ソフトウェア産業の研究者や企業がVPRソリューションを共同設計し、商用製品におけるVPRアルゴリズムの利用を拡大することを目的とする。

Images incorporate a wealth of information from a robot's surroundings. With the widespread availability of compact cameras, visual information has become increasingly popular for addressing the localisation problem, which is then termed as Visual Place Recognition (VPR). While many applications use high-resolution cameras and high-end systems to achieve optimal place-matching performance, low-end commercial systems face limitations due to resource constraints and relatively low-resolution and low-quality cameras. In this paper, we analyse the effects of image resolution on the accuracy and robustness of well-established handcrafted VPR pipelines. Handcrafted designs have low computational demands and can adapt to flexible image resolutions, making them a suitable approach to scale to any image source and to operate under resource limitations. This paper aims to help academic researchers and companies in the hardware and software industry co-design VPR solutions and expand the use of VPR algorithms in commercial products.
翻訳日:2023-05-11 15:13:30 公開日:2023-05-09
# DeepTextMark:大規模言語モデル生成テキストの検出のためのディープラーニングベースのテキスト透かし

DeepTextMark: Deep Learning based Text Watermarking for Detection of Large Language Model Generated Text ( http://arxiv.org/abs/2305.05773v1 )

ライセンス: Link先を確認
Travis Munyer, Xin Zhong(参考訳) テキストジェネレータの能力は、Large Language Models (LLM) の急速な発展とともに成長してきた。 誤用を防止するため, LLM によるテキスト生成の検出がますます重要になっている。 いくつかの関連する研究は、入力テキストを人間の書き起こしやLLM生成に分類するバイナリ分類器を用いてこの問題を解決しようとしている。 しかし、これらの分類器は信頼できないことが示されている。 分類の結果に基づいて影響のある決定を行うことができるため、テキストソースの検出は高品質である必要がある。 そこで本論文では,DeepTextMarkというテキストソース検出のための深層学習ベースのテキスト透かし手法を提案する。 透かし挿入のためのWord2VecとSentence Encodingと透かし検出のためのトランスフォーマーベースの分類器を応用し、DeepTextMarkは盲目、堅牢性、非受容性、信頼性を同時に達成する。 本稿で述べるように,これらの特徴は汎用的なテキストソース検出には不可欠であり,本論文の応用はllmによって生成されたテキストに焦点をあてる。 DeepTextMarkは既存のテキスト生成システムに"アドオン"として実装できる。 すなわち、このメソッドはテキスト生成技術へのアクセスや修正を必要としない。 実験では、高いインセプティビリティ、高い検出精度、強化された堅牢性、信頼性、deeptextmarkの高速実行速度が示されている。

The capabilities of text generators have grown with the rapid development of Large Language Models (LLM). To prevent potential misuse, the ability to detect whether texts are produced by LLM has become increasingly important. Several related works have attempted to solve this problem using binary classifiers that categorize input text as human-written or LLM-generated. However, these classifiers have been shown to be unreliable. As impactful decisions could be made based on the result of the classification, the text source detection needs to be high-quality. To this end, this paper presents DeepTextMark, a deep learning-based text watermarking method for text source detection. Applying Word2Vec and Sentence Encoding for watermark insertion and a transformer-based classifier for watermark detection, DeepTextMark achieves blindness, robustness, imperceptibility, and reliability simultaneously. As discussed further in the paper, these traits are indispensable for generic text source detection, and the application focus of this paper is on the text generated by LLM. DeepTextMark can be implemented as an "add-on" to existing text generation systems. That is, the method does not require access or modification to the text generation technique. Experiments have shown high imperceptibility, high detection accuracy, enhanced robustness, reliability, and fast running speed of DeepTextMark.
翻訳日:2023-05-11 15:13:16 公開日:2023-05-09
# 確率的テクスチャフィルタリング

Stochastic Texture Filtering ( http://arxiv.org/abs/2305.05810v1 )

ライセンス: Link先を確認
Marcos Fajardo, Bartlomiej Wronski, Marco Salvi, Matt Pharr(参考訳) 2次元テクスチャマップと3次元ボクセルアレイは、描画されたシーンの表面やボリュームにリッチなディテールを加えるために広く使われており、フィルターされたテクスチャルックアップは高品質な画像を生成するのに不可欠である。 本研究では,現在のbsdf評価よりも,照明評価後のフィルタリングテクスチャが,レンダリング方程式をより正確に解くことができることを示す。 これらの利点は単に理論的なものではなく、一般的なケースで明らかである。 さらに,従来は限定的であったテクスチャフィルタを統計的にサンプリングすることが,このアプローチを実現する上で重要であることを示す。 確率的テクスチャフィルタリングには、高品質テクスチャフィルタの効率的な実装や、ニューラルネットワークを含む圧縮およびスパースデータ構造に格納されたテクスチャの効率的なフィルタリングなど、新たなメリットがある。 リアルタイムレンダリングとオフラインレンダリングの両方でアプリケーションを実演し、追加の確率誤差は最小限であることを示す。 さらに、この誤差は時空間デノイングまたは適度なピクセルサンプリングレートによってうまく処理される。

2D texture maps and 3D voxel arrays are widely used to add rich detail to the surfaces and volumes of rendered scenes, and filtered texture lookups are integral to producing high-quality imagery. We show that filtering textures after evaluating lighting, rather than before BSDF evaluation as is current practice, gives a more accurate solution to the rendering equation. These benefits are not merely theoretical, but are apparent in common cases. We further show that stochastically sampling texture filters is crucial for enabling this approach, which has not been possible previously except in limited cases. Stochastic texture filtering offers additional benefits, including efficient implementation of high-quality texture filters and efficient filtering of textures stored in compressed and sparse data structures, including neural representations. We demonstrate applications in both real-time and offline rendering and show that the additional stochastic error is minimal. Furthermore, this error is handled well by either spatiotemporal denoising or moderate pixel sampling rates.
翻訳日:2023-05-11 15:06:15 公開日:2023-05-09
# 最寄りの隣接表現の情報容量について

On the Information Capacity of Nearest Neighbor Representations ( http://arxiv.org/abs/2305.05808v1 )

ライセンス: Link先を確認
Kordag Mehmet Kilic, Jin Sima, Jehoshua Bruck(参考訳) $\textit{von Neumann Computer Architecture}$は計算とメモリを区別する。 対照的に、脳は計算と記憶が区別できない統合アーキテクチャを持っている。 そこで、メモリは$\mathbb{r}^n$($\textit{anchors}$と呼ばれる)のベクトルの集合によって定義され、入力ベクトルから最寄りのアンカーへの収束によって計算され、出力はアンカーに関連するラベルである。 具体的には,入力が2進ベクトルであり,対応する出力が最寄りのアンカーのラベル($0$または$$$$)である連想計算モデルにおけるブール関数の表現について検討する。 このモデルにおけるブール関数の情報容量は次の2つの量に関連付けられる。 (i)}$のアンカー数($\textit{Nearest Neighbor (NN) Complexity}$)と$\textit{ (ii)}$ アンカーのエントリを表す最大ビット数($\textit{Resolution}$)。 我々は, 対称ブール関数と, NNの複雑性と分解能が最適である構成について検討する。

The $\textit{von Neumann Computer Architecture}$ has a distinction between computation and memory. In contrast, the brain has an integrated architecture where computation and memory are indistinguishable. Motivated by the architecture of the brain, we propose a model of $\textit{associative computation}$ where memory is defined by a set of vectors in $\mathbb{R}^n$ (that we call $\textit{anchors}$), computation is performed by convergence from an input vector to a nearest neighbor anchor, and the output is a label associated with an anchor. Specifically, in this paper, we study the representation of Boolean functions in the associative computation model, where the inputs are binary vectors and the corresponding outputs are the labels ($0$ or $1$) of the nearest neighbor anchors. The information capacity of a Boolean function in this model is associated with two quantities: $\textit{(i)}$ the number of anchors (called $\textit{Nearest Neighbor (NN) Complexity}$) and $\textit{(ii)}$ the maximal number of bits representing entries of anchors (called $\textit{Resolution}$). We study symmetric Boolean functions and present constructions that have optimal NN complexity and resolution.
翻訳日:2023-05-11 15:05:56 公開日:2023-05-09
# 相関や多様性の微妙な変化も、データセットとバイアスの問題

Even Small Correlation and Diversity Shifts Pose Dataset-Bias Issues ( http://arxiv.org/abs/2305.05807v1 )

ライセンス: Link先を確認
Alceu Bissoto, Catarina Barata, Eduardo Valle, Sandra Avila(参考訳) 分散シフトは現実世界のデータセットで一般的であり、ディープラーニングモデルのパフォーマンスと信頼性に影響を与える可能性がある。 本稿では,テストサンプルがトレーニング中に見つからないパターンを示す場合の多様性シフトと,テストデータにみられる不変性と刺激的特徴の相関関係を示す場合の相関シフトの2つのタイプの分布シフトについて検討する。 そこで我々は,両タイプのシフトをデータセットを用いて分析し,制御可能な方法で共存する統合プロトコルを提案する。 最後に,本手法を皮膚がん解析の現実世界の分類問題に適用し,アウト・オブ・ディストリビューション・データセットと専用バイアス・アノテーションを用いた。 私たちのプロトコルは3つの発見を示しています 1)低バイアストレーニングにおいても相関シフトを学習し,伝播させるモデル。これは,非可算弱バイアスを蓄積し,組み合わせるリスクを生じさせる。 2) モデルは,高次・低次シナリオにおいて頑健な特徴を学習するが,テストサンプルが持てば刺激的な特徴を使用する。 3) 多様性シフトは、偏りのあるモデルが不変な特徴が欠けているときにバイアスに依存することを期待するので、これは直感的ではない。 私たちの研究は、分散シフトの研究と実践に影響を与え、モデルがどのように学習し、異なるタイプのシフトの下で急激な相関に依存するかについて、新たな洞察を提供する。

Distribution shifts are common in real-world datasets and can affect the performance and reliability of deep learning models. In this paper, we study two types of distribution shifts: diversity shifts, which occur when test samples exhibit patterns unseen during training, and correlation shifts, which occur when test data present a different correlation between seen invariant and spurious features. We propose an integrated protocol to analyze both types of shifts using datasets where they co-exist in a controllable manner. Finally, we apply our approach to a real-world classification problem of skin cancer analysis, using out-of-distribution datasets and specialized bias annotations. Our protocol reveals three findings: 1) Models learn and propagate correlation shifts even with low-bias training; this poses a risk of accumulating and combining unaccountable weak biases; 2) Models learn robust features in high- and low-bias scenarios but use spurious ones if test samples have them; this suggests that spurious correlations do not impair the learning of robust features; 3) Diversity shift can reduce the reliance on spurious correlations; this is counter intuitive since we expect biased models to depend more on biases when invariant features are missing. Our work has implications for distribution shift research and practice, providing new insights into how models learn and rely on spurious correlations under different types of shifts.
翻訳日:2023-05-11 15:05:38 公開日:2023-05-09
# リンドブラッド方程式の量子フォッカー-プランク構造

Quantum Fokker-Planck structure of the Lindblad equation ( http://arxiv.org/abs/2305.05805v1 )

ライセンス: Link先を確認
M\'ario J. de Oliveira(参考訳) 古典版の正準量子化によって得られる量子フォッカー・プランク方程式はリンドブラッド形式の方程式に変換可能であることを示す。 この結果、量子フォッカー・プランク方程式は密度作用素のトレースと正の値を保存すると結論付けることができる。 フォッカー・プランク構造は、詳細な平衡の量子同値と同様に、確率電流の量子同値に対する明示的な表現を与える。 また,エントロピー生成率の式を提案し,平衡を除いて閉じた系では消滅しないことを示した。

We show that the quantum Fokker-Planck equation, obtained by a canonical quantization of its classical version, can be transformed into an equation of the Lindblad form. This result allows us to conclude that the quantum Fokker-Planck equation preserves the trace and positivity of the density operator. The Fokker-Planck structure gives explicit expression for the quantum equivalence of probability current as well as the quantum equivalence of detailed balance. We also propose expression for the rate of entropy production and show that it does not vanish for a closed system except in equilibrium.
翻訳日:2023-05-11 15:05:13 公開日:2023-05-09
# 弱教師付き意味セグメンテーションのためのsegment anything model (sam)拡張擬似ラベル

Segment Anything Model (SAM) Enhanced Pseudo Labels for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.05803v1 )

ライセンス: Link先を確認
Tianle Chen, Zheda Mai, Ruiwen Li, Wei-lun Chao(参考訳) 画素レベルのアノテーションに比べてアノテーションコストが低いため,画像レベルの監視のみを施したWSSS(Weakly Supervised Semantic Segmentation)が注目されている。 既存のほとんどのメソッドは、教師付きトレーニングのためにピクセルレベルの擬似ラベルを生成するためにクラスアクティベーションマップ(CAM)に依存している。 しかし、camは、オブジェクト領域全体ではなく最も差別的な部分を活性化する部分的な活性化と、オブジェクトの周囲の背景を不必要に活性化する誤った活性化に苦しむことがよく知られている。 本研究では,最近リリースされたsegment anything model(sam)を利用して,camを用いた高品質な擬似ラベルを生成する手法を提案する。 SAMは、イメージをセグメントに分割する強力なゼロショット能力を示すセグメンテーション基盤モデルであるが、これらの領域にはセグメンテーションラベルがない。 これを回避するために,特定のクラスに対する擬似ラベルを信号として使用し,最も関連するマスクを選択してラベルを付け,このクラス用に洗練された擬似ラベルを生成する。 SAMによって生成されたセグメントは非常に正確であり、部分的および偽の活性化が大幅に改善される。 さらに、AffinityNetのような擬似ラベルを生成するための既存の後処理モジュールは、しばしば計算的に重く、訓練時間がかなり長い。 意外なことに、SAMで初期CAMを使用することで、計算コストをはるかに削減して、これらのモジュールから生成された後処理の擬似ラベルとして、オンパー性能を達成できることがわかりました。 我々のアプローチは非常に汎用的で、ベースネットワークやパイプラインを変更することなく既存のWSSSモデルにシームレスに統合できます。 その単純さにもかかわらず、PASCAL VOC 2012データセット上では、5つの最先端 WSSS メソッドから擬似ラベルの平均 Intersection over Union (mIoU) を平均 6.2 % 改善している。

Weakly Supervised Semantic Segmentation (WSSS) with only image-level supervision has garnered increasing attention due to its low annotation cost compared to pixel-level annotation. Most existing methods rely on Class Activation Maps (CAM) to generate pixel-level pseudo labels for supervised training. However, it is well known that CAM often suffers from partial activation -- activating the most discriminative part instead of the entire object area, and false activation -- unnecessarily activating the background around the object. In this study, we introduce a simple yet effective approach to address these limitations by harnessing the recently released Segment Anything Model (SAM) to generate higher-quality pseudo labels with CAM. SAM is a segmentation foundation model that demonstrates strong zero-shot ability in partitioning images into segments but lacks semantic labels for these regions. To circumvent this, we employ pseudo labels for a specific class as the signal to select the most relevant masks and label them to generate the refined pseudo labels for this class. The segments generated by SAM are highly precise, leading to substantial improvements in partial and false activation. Moreover, existing post-processing modules for producing pseudo labels, such as AffinityNet, are often computationally heavy, with a significantly long training time. Surprisingly, we discovered that using the initial CAM with SAM can achieve on-par performance as the post-processed pseudo label generated from these modules with much less computational cost. Our approach is highly versatile and capable of seamless integration into existing WSSS models without modification to base networks or pipelines. Despite its simplicity, our approach improves the mean Intersection over Union (mIoU) of pseudo labels from five state-of-the-art WSSS methods by 6.2\% on average on the PASCAL VOC 2012 dataset.
翻訳日:2023-05-11 15:05:05 公開日:2023-05-09
# 多機能リザーバコンピュータでダブルを見る

Seeing double with a multifunctional reservoir computer ( http://arxiv.org/abs/2305.05799v1 )

ライセンス: Link先を確認
Andrew Flynn, Vassilios A. Tsachouridis, Andreas Amann(参考訳) 多機能生体ニューラルネットワークは、ネットワーク特性を変更することなく複数のタスクを実行するために、マルチスタビリティを利用する。 ニューラルネットワーク(ANN)を活用して、複数のタスクを実行するために、各タスクがネットワークの状態空間の特定のアトラクターと関連付けられているような、特定のマルチスタビリティを得る。 本稿では,マルチスタビリティを前提として,異なるアトラクタ間の関係が,ANN方式の動的システムである貯水池コンピュータ(RC)の多機能性を実現する能力にどのように影響するかを考察する。 我々は,rcがアトラクタの共存を再構築する方法を体系的に研究するために,'seeing double'問題を構築した。 重なり合いの量が増えるにつれて、多機能性の発生には、RCの内部ネットワーク接続に対するスペクトル半径の適切な選択に重要な依存があることが分かる。 分岐解析により、多機能性がどのように出現し、RCがカオス状態に入ると破壊されるかが明らかになる。

Multifunctional biological neural networks exploit multistability in order to perform multiple tasks without changing any network properties. Enabling artificial neural networks (ANNs) to obtain certain multistabilities in order to perform several tasks, where each task is related to a particular attractor in the network's state space, naturally has many benefits from a machine learning perspective. Given the association to multistability, in this paper we explore how the relationship between different attractors influences the ability of a reservoir computer (RC), which is a dynamical system in the form of an ANN, to achieve multifunctionality. We construct the `seeing double' problem to systematically study how a RC reconstructs a coexistence of attractors when there is an overlap between them. As the amount of overlap increases, we discover that for multifunctionality to occur, there is a critical dependence on a suitable choice of the spectral radius for the RC's internal network connections. A bifurcation analysis reveals how multifunctionality emerges and is destroyed as the RC enters a chaotic regime that can lead to chaotic itinerancy.
翻訳日:2023-05-11 15:04:32 公開日:2023-05-09
# スペクトル純度可変量子源の自発的放出寿命分解のための密接な情報境界

Tight information bounds for spontaneous emission lifetime resolution of quantum sources with varied spectral purity ( http://arxiv.org/abs/2305.05798v1 )

ライセンス: Link先を確認
Cheyenne S. Mitchell and Mikael P. Backlund(参考訳) 我々は、2つの密接な空間を持つ自発寿命の混合を解き放つ理論を一般化し、デコヒーレンスに対する純粋に軽蔑的な寄与を含むようにし、小さな寿命分離におけるレイリーのカースの復活につながった。 ライフタイムの広さが純粋な強調によるものよりも重要である場合、相当な解像度向上が可能となる。 寿命拡大が支配する限界において、一光子測定またはホン・ウー・マンデル干渉法によって超解像を達成することができる。 どちらの選択も優れているという条件を述べる。

We generalize the theory of resolving a mixture of two closely spaced spontaneous emission lifetimes to include pure dephasing contributions to decoherence, leading to the resurgence of Rayleigh's Curse at small lifetime separations. Considerable resolution enhancement remains possible when lifetime broadening is more significant than that due to pure dephasing. In the limit that lifetime broadening dominates, one can achieve super-resolution either by a tailored one-photon measurement or Hong-Ou-Mandel interferometry. We describe conditions for which either choice is superior.
翻訳日:2023-05-11 15:04:13 公開日:2023-05-09
# 完全ベイズVIB-DeepSSM

Fully Bayesian VIB-DeepSSM ( http://arxiv.org/abs/2305.05797v1 )

ライセンス: Link先を確認
Jadie Adams and Shireen Elhabian(参考訳) 統計的形状モデリング(SSM)は、集団に基づく解剖学的形状の定量的分析を可能にし、臨床診断を行う。 深層学習による3次元画像からの対応ベースssmの予測は不確かさの定量化を必要とするが、ベイズ式化の動機付けは必要である。 変動情報ボトルネックのDeepSSM(VIB-DeepSSM)は,アレータティック不確実性定量化画像から解剖の確率的形状を予測するための,有効で原則化されたフレームワークである。 しかし、VIBは半ベイズ的であり、疫学的な不確実性推論を欠いている。 我々は、おそらくほぼ正しい(pac)-ベイズと変分推論の両方の観点から、完全ベイズ vib の定式化を導出する。 ベイジアンVIBに対する2つの拡張的アプローチの有効性を実証し, コンクリートドロップアウトとバッチアンサンブルについて検討した。 さらに,マルチモーダル限界化による不確実性校正をさらに強化する新しい組み合わせを提案する。 合成形状と左房データの実験により、完全ベイズVIBネットワークは精度を犠牲にすることなく不確実性推論を改善した画像からSSMを予測することを示した。

Statistical shape modeling (SSM) enables population-based quantitative analysis of anatomical shapes, informing clinical diagnosis. Deep learning approaches predict correspondence-based SSM directly from unsegmented 3D images but require calibrated uncertainty quantification, motivating Bayesian formulations. Variational information bottleneck DeepSSM (VIB-DeepSSM) is an effective, principled framework for predicting probabilistic shapes of anatomy from images with aleatoric uncertainty quantification. However, VIB is only half-Bayesian and lacks epistemic uncertainty inference. We derive a fully Bayesian VIB formulation from both the probably approximately correct (PAC)-Bayes and variational inference perspectives. We demonstrate the efficacy of two scalable approaches for Bayesian VIB with epistemic uncertainty: concrete dropout and batch ensemble. Additionally, we introduce a novel combination of the two that further enhances uncertainty calibration via multimodal marginalization. Experiments on synthetic shapes and left atrium data demonstrate that the fully Bayesian VIB network predicts SSM from images with improved uncertainty reasoning without sacrificing accuracy.
翻訳日:2023-05-11 15:04:01 公開日:2023-05-09
# 量子チャネルのテンソル生成物の極性について

On the Extremality of the Tensor Product of Quantum Channels ( http://arxiv.org/abs/2305.05795v1 )

ライセンス: Link先を確認
James Miller S. T. da Silva(参考訳) 完全な正とトレース保存(cpt)写像は、量子状態の幅広い変換のクラスを記述するため、量子情報理論にとって重要である。 他にも、ユニタリ完全正(UCP)マップとユニタリ完全正(UCPT)マップの2つの関連クラスがある。 これら3つのクラスに対して、有限次元ヒルベルト空間 $x$ から別の 1 への写像 $y$ はコンパクト凸集合であり、したがって極点の凸包である。 これらの凸集合の極点はまだよく分かっていない。 本稿では, テンソル積の下での過渡性の保存について検討する。 CPT や UCP マップでは極端性が保存されるが,UCPT では必ずしも保存されない。

Completely positive and trace preserving (CPT) maps are important for Quantum Information Theory, because they describe a broad class of of transformations of quantum states. There are also two other related classes of maps, the unital completely positive (UCP) maps and the unital completely positive and trace preserving (UCPT) maps. For these three classes, the maps from a finite dimensional Hilbert space $X$ to another one $Y$ is a compact convex set and, as such, it is the convex hull of its extreme points. The extreme points of these convex sets are yet not well understood. In this article we investigate the preservation of extremality under the tensor product. We prove that extremality is preserved for CPT or UCP maps, but for UCPT it is not always preserved.
翻訳日:2023-05-11 15:03:43 公開日:2023-05-09
# オーバーフィッティングのためのテスト

Testing for Overfitting ( http://arxiv.org/abs/2305.05792v1 )

ライセンス: Link先を確認
James Schmidt(参考訳) 高複雑性モデルは、モデルがデータを表現するが、基礎となるデータ生成プロセスの一般化に失敗する現象であるオーバーフィッティング(overfitting)の機械学習で悪名高い。 オーバーフィッティングを回避する典型的な手順は、ホールドアウトセット上の経験的リスクを計算し、一度停止する(または、その/いつ)。 このようなプラクティスは、よく一般化されたモデルを出力するのに役立つことが多いが、なぜそれが機能するのかの正当化は、主にヒューリスティックである。 オーバーフィッティング問題について議論し、標準漸近および集中結果がトレーニングデータによる評価に有効でない理由を説明する。 そこで我々は,モデルの性能をトレーニングデータを用いて評価し,量的定義と検出を過度に適用する仮説テストの導入と議論を進めた。 我々は、実験的な手段が高い確率でそれらの真の平均を近似し、互いに近似すべきと結論付けるような濃度境界に依存している。 本試験が有効である条件を規定し, 過フィッティングの同定にテストがどう用いられるか, 分布シフトのフラグ付けにしたがってさらなるニュアンスを明瞭化すること, 均一なpac保証がない場合の一般化を有効に捉えた学習の代替概念を強調する。

High complexity models are notorious in machine learning for overfitting, a phenomenon in which models well represent data but fail to generalize an underlying data generating process. A typical procedure for circumventing overfitting computes empirical risk on a holdout set and halts once (or flags that/when) it begins to increase. Such practice often helps in outputting a well-generalizing model, but justification for why it works is primarily heuristic. We discuss the overfitting problem and explain why standard asymptotic and concentration results do not hold for evaluation with training data. We then proceed to introduce and argue for a hypothesis test by means of which both model performance may be evaluated using training data, and overfitting quantitatively defined and detected. We rely on said concentration bounds which guarantee that empirical means should, with high probability, approximate their true mean to conclude that they should approximate each other. We stipulate conditions under which this test is valid, describe how the test may be used for identifying overfitting, articulate a further nuance according to which distributional shift may be flagged, and highlight an alternative notion of learning which usefully captures generalization in the absence of uniform PAC guarantees.
翻訳日:2023-05-11 15:03:29 公開日:2023-05-09
# 過去10年間のリモートセンシングにおける変化検出手法 : 包括的レビュー

Change Detection Methods for Remote Sensing in the Last Decade: A Comprehensive Review ( http://arxiv.org/abs/2305.05813v1 )

ライセンス: Link先を確認
Guangliang Cheng, Yunmeng Huang, Xiangtai Li, Shuchang Lyu, Zhaoyang Xu, Qi Zhao, Shiming Xiang(参考訳) 変化の検出はリモートセンシングにおいて必須かつ広く利用されるタスクであり、同じ地理的領域で発生した変化を時間とともに検出し分析することを目的としており、都市開発、農業調査、土地被覆モニタリングに広く応用されている。 リモートセンシング画像の変化の検出は、画像品質の変化、ノイズ、登録エラー、照明変化、複雑な風景、空間的不均一性など、さまざまな要因により複雑な課題である。 近年,これらの課題に対処するための強力なツールとして,ディープラーニングが登場している。 その汎用性は、多くの画像処理タスクに広く採用されている。 本稿では,過去10年間のリモートセンシング画像における変化検出の大幅な進歩を包括的に調査する。 まず,問題定義やデータセット,評価指標,トランスフォーマー基本といった変更検出タスクに関する予備的な知識を紹介するとともに,アルゴリズムの粒度,監視モード,方法論セクションの学習フレームワークといった3つの観点から,既存のアルゴリズムの詳細な分類情報を提供する。 この調査により、読者はさまざまな角度から変化検出タスクの体系的な知識を得ることができる。 次に、いくつかの支配的な変更検出データセットにおける最先端のパフォーマンスを要約し、既存のアルゴリズムの強みと限界についての洞察を提供する。 本調査から,リモートセンシングにおける変化検出の今後の研究方向性が明らかとなった。 本調査は,地域社会に光を当て,変化検出タスクのさらなる研究を刺激するものである。

Change detection is an essential and widely utilized task in remote sensing that aims to detect and analyze changes occurring in the same geographical area over time, which has broad applications in urban development, agricultural surveys, and land cover monitoring. Detecting changes in remote sensing images is a complex challenge due to various factors, including variations in image quality, noise, registration errors, illumination changes, complex landscapes, and spatial heterogeneity. In recent years, deep learning has emerged as a powerful tool for feature extraction and addressing these challenges. Its versatility has resulted in its widespread adoption for numerous image-processing tasks. This paper presents a comprehensive survey of significant advancements in change detection for remote sensing images over the past decade. We first introduce some preliminary knowledge for the change detection task, such as problem definition, datasets, evaluation metrics, and transformer basics, as well as provide a detailed taxonomy of existing algorithms from three different perspectives: algorithm granularity, supervision modes, and learning frameworks in the methodology section. This survey enables readers to gain systematic knowledge of change detection tasks from various angles. We then summarize the state-of-the-art performance on several dominant change detection datasets, providing insights into the strengths and limitations of existing algorithms. Based on our survey, some future research directions for change detection in remote sensing are well identified. This survey paper will shed some light on the community and inspire further research efforts in the change detection task.
翻訳日:2023-05-11 14:55:36 公開日:2023-05-09
# 原子力燃料最適化のための強化学習アルゴリズムの評価

Assessment of Reinforcement Learning Algorithms for Nuclear Power Plant Fuel Optimization ( http://arxiv.org/abs/2305.05812v1 )

ライセンス: Link先を確認
Paul Seurin, Koroush Shirvan(参考訳) 核燃料負荷パターン最適化問題は、商用原子力産業の興隆以来研究されてきた。 複数の目的と制約が特徴で、非常に多くの候補パターンがあり、明示的に解決することは不可能である。 確率的最適化手法は、異なる原子力事業者やベンダーが燃料サイクルの再負荷設計を行うために使用される。 それでもなお、手作りのソリューションが業界で最も普及している方法です。 最先端のコアリロードパターンを改善するため,設計者の目標である性能と安全性に即した,可能な限りスケーラブルな手法の開発を目指している。 深層強化学習(Dreep Reinforcement Learning, RL)は, この課題を支援するために, 特に, 最適政策最適化を利用する。 RLは最近、ゲームに適用される成功から強い影響を受けている。 本稿では,本手法の基礎を概説し,rlアルゴリズムに影響を及ぼす複数のハイパーパラメータの挙動を,統計テストに有効なマルチメトリックアプローチを用いて検討する。 このアルゴリズムは、学習の安定性に影響を与えるファッジ因子として振る舞うコア設計のために導出される目的関数の形状など、複数の要因に大きく依存する。 しかし、各エピソードごとのエージェントが見るロードパターンの数、ポリシー更新の前に収集したサンプルの数、トレーニングされたポリシーのランダム性を高めるエントロピー因子など、さまざまなパラメータを通して現れる探索/探索のトレードオフもある。 また, 実験により, スクラッチから適切な時間内に高品質な解を求める方法の有効性が示された。 今後の課題は、アルゴリズムを幅広いアプリケーションに適用し、それらを確率最適化法の最先端の実装と比較することである。

The nuclear fuel loading pattern optimization problem has been studied since the dawn of the commercial nuclear energy industry. It is characterized by multiple objectives and constraints, with a very high number of candidate patterns, which makes it impossible to solve explicitly. Stochastic optimization methodologies are used by different nuclear utilities and vendors to perform fuel cycle reload design. Nevertheless, hand-designed solutions continue to be the prevalent method in the industry. To improve the state-of-the-art core reload patterns, we aim to create a method as scalable as possible, that agrees with the designer's goal of performance and safety. To help in this task Deep Reinforcement Learning (RL), in particular, Proximal Policy Optimization is leveraged. RL has recently experienced a strong impetus from its successes applied to games. This paper lays out the foundation of this method and proposes to study the behavior of several hyper-parameters that influence the RL algorithm via a multi-measure approach helped with statistical tests. The algorithm is highly dependent on multiple factors such as the shape of the objective function derived for the core design that behaves as a fudge factor that affects the stability of the learning. But also an exploration/exploitation trade-off that manifests through different parameters such as the number of loading patterns seen by the agents per episode, the number of samples collected before a policy update, and an entropy factor that increases the randomness of the policy trained. Experimental results also demonstrate the effectiveness of the method in finding high-quality solutions from scratch within a reasonable amount of time. Future work must include applying the algorithms to wide range of applications and comparing them to state-of-the-art implementation of stochastic optimization methods.
翻訳日:2023-05-11 14:54:58 公開日:2023-05-09
# 生成予習変圧器を用いた最適化モデル自動生成装置の開発

Towards an Automatic Optimisation Model Generator Assisted with Generative Pre-trained Transformer ( http://arxiv.org/abs/2305.05811v1 )

ライセンス: Link先を確認
Boris Almonacid(参考訳) 本稿では,事前学習した生成変換器を用いて最適化モデルを生成するフレームワークを提案する。 このフレームワークは、最適化モデルが持つべき機能を定義し、言語モデルを使用してモデルの初期バージョンを生成する。 モデルがテストされ、検証され、ビルドエラーが発生した場合、自動エディションプロセスが起動される。 ターゲット言語としてMiniZincと生成とデバッグのための2つのGPT-3.5言語モデルを用いて実験を行った。 その結果、最適化モデルを生成するための言語モデルの使用は実現可能であり、要求された仕様を満たすモデルもあれば、さらなる改良を必要とするモデルもある。 この研究は、最適化問題のモデリングにおける言語モデルの使用の有望な証拠を提供し、将来の研究への道筋を示唆している。

This article presents a framework for generating optimisation models using a pre-trained generative transformer. The framework involves specifying the features that the optimisation model should have and using a language model to generate an initial version of the model. The model is then tested and validated, and if it contains build errors, an automatic edition process is triggered. An experiment was performed using MiniZinc as the target language and two GPT-3.5 language models for generation and debugging. The results show that the use of language models for the generation of optimisation models is feasible, with some models satisfying the requested specifications, while others require further refinement. The study provides promising evidence for the use of language models in the modelling of optimisation problems and suggests avenues for future research.
翻訳日:2023-05-11 14:54:31 公開日:2023-05-09
# StarCoder: ソースはあなたにありますか?

StarCoder: may the source be with you! ( http://arxiv.org/abs/2305.06161v1 )

ライセンス: Link先を確認
Raymond Li, Loubna Ben Allal, Yangtian Zi, Niklas Muennighoff, Denis Kocetkov, Chenghao Mou, Marc Marone, Christopher Akiki, Jia Li, Jenny Chim, Qian Liu, Evgenii Zheltonozhskii, Terry Yue Zhuo, Thomas Wang, Olivier Dehaene, Mishig Davaadorj, Joel Lamy-Poirier, Jo\~ao Monteiro, Oleh Shliazhko, Nicolas Gontier, Nicholas Meade, Armel Zebaze, Ming-Ho Yee, Logesh Kumar Umapathi, Jian Zhu, Benjamin Lipkin, Muhtasham Oblokulov, Zhiruo Wang, Rudra Murthy, Jason Stillerman, Siva Sankalp Patel, Dmitry Abulkhanov, Marco Zocca, Manan Dey, Zhihan Zhang, Nour Fahmy, Urvashi Bhattacharyya, Wenhao Yu, Swayam Singh, Sasha Luccioni, Paulo Villegas, Maxim Kunakov, Fedor Zhdanov, Manuel Romero, Tony Lee, Nadav Timor, Jennifer Ding, Claire Schlesinger, Hailey Schoelkopf, Jan Ebert, Tri Dao, Mayank Mishra, Alex Gu, Jennifer Robinson, Carolyn Jane Anderson, Brendan Dolan-Gavitt, Danish Contractor, Siva Reddy, Daniel Fried, Dzmitry Bahdanau, Yacine Jernite, Carlos Mu\~noz Ferrandis, Sean Hughes, Thomas Wolf, Arjun Guha, Leandro von Werra, Harm de Vries(参考訳) コードのための大規模言語モデル(コードllms)の責任ある開発に取り組んでいるオープン科学的なコラボレーションであるbigcode communityでは、starcoderとstarcoderbaseを紹介している。 starcoderbaseは、スタックからソースされた1兆個のトークン、検査ツールとオプトアウトプロセスを備えた許容ライセンスのgithubリポジトリの大規模なコレクションでトレーニングされる。 私たちは、35B PythonトークンでStarCoderBaseを微調整し、StarCoderを作成しました。 これまでに最も包括的なCode LLMの評価を行い、StarCoderBaseが複数のプログラミング言語をサポートし、OpenAIのCode-cushman-001モデルより優れていることを示す。 さらに、StarCoderはPythonで微調整されたすべてのモデルより優れており、HumanEvalで40\%のpass@1を達成するよう促すことができる。 我々は、改良されたPIIリアクションパイプラインと新しい属性追跡ツールを含む、安全なオープンアクセスモデルリリースに向けて、いくつかの重要なステップを取り、StarCoderモデルを、より商業的に実行可能なOpen Responsible AI Modelライセンスの下で公開する。

The BigCode community, an open-scientific collaboration working on the responsible development of Large Language Models for Code (Code LLMs), introduces StarCoder and StarCoderBase: 15.5B parameter models with 8K context length, infilling capabilities and fast large-batch inference enabled by multi-query attention. StarCoderBase is trained on 1 trillion tokens sourced from The Stack, a large collection of permissively licensed GitHub repositories with inspection tools and an opt-out process. We fine-tuned StarCoderBase on 35B Python tokens, resulting in the creation of StarCoder. We perform the most comprehensive evaluation of Code LLMs to date and show that StarCoderBase outperforms every open Code LLM that supports multiple programming languages and matches or outperforms the OpenAI code-cushman-001 model. Furthermore, StarCoder outperforms every model that is fine-tuned on Python, can be prompted to achieve 40\% pass@1 on HumanEval, and still retains its performance on other programming languages. We take several important steps towards a safe open-access model release, including an improved PII redaction pipeline and a novel attribution tracing tool, and make the StarCoder models publicly available under a more commercially viable version of the Open Responsible AI Model license.
翻訳日:2023-05-11 12:53:41 公開日:2023-05-09
# ヘイトフルミームチャレンジにおける視覚言語モデルとその性能のレビュー

A Review of Vision-Language Models and their Performance on the Hateful Memes Challenge ( http://arxiv.org/abs/2305.06159v1 )

ライセンス: Link先を確認
Bryan Zhao, Andrew Zhang, Blake Watson, Gillian Kearney, Isaac Dale(参考訳) ソーシャルメディアコンテンツのモデレーションは、現在非常に手作業で行われているが、効果的に行うには毎日投稿されるコンテンツが多すぎる。 多くのマルチモーダルモデルが登場したことで、このタスクに対する手作業の量を削減できる可能性がある。 本研究では,コンテンツモデレーションにおける機械学習研究をさらに進めるためのMetaの課題であるHateful Memes Challengeにおいて,さまざまなモデルを探索し,最も有効なものを決定することを目的とする。 具体的には,テキストと画像を含むマルチモーダルミームの分類において,早期融合モデルと後期融合モデルの違いを検討する。 まず,BERT と ResNet-152 を用いて,テキストと画像のユニモーダルモデルを用いてベースラインを実装した。 これらのユニモーダルモデルの出力は結合され、後期融合モデルが作成される。 初期の融合モデルでは、ConcatBERT、VisualBERT、ViLT、CLIP、BridgeTowerを実装しています。 後期核融合は初期の核融合モデルよりも大幅に悪化し、最も性能のよいモデルはCLIPで70.06のAUROCを達成した。 この作業のコードはhttps://github.com/bzhao18/cs-7643-projectで入手できる。

Moderation of social media content is currently a highly manual task, yet there is too much content posted daily to do so effectively. With the advent of a number of multimodal models, there is the potential to reduce the amount of manual labor for this task. In this work, we aim to explore different models and determine what is most effective for the Hateful Memes Challenge, a challenge by Meta designed to further machine learning research in content moderation. Specifically, we explore the differences between early fusion and late fusion models in classifying multimodal memes containing text and images. We first implement a baseline using unimodal models for text and images separately using BERT and ResNet-152, respectively. The outputs from these unimodal models were then concatenated together to create a late fusion model. In terms of early fusion models, we implement ConcatBERT, VisualBERT, ViLT, CLIP, and BridgeTower. It was found that late fusion performed significantly worse than early fusion models, with the best performing model being CLIP which achieved an AUROC of 70.06. The code for this work is available at https://github.com/bzhao18/CS-7643-Project.
翻訳日:2023-05-11 12:53:10 公開日:2023-05-09
# EdgeNet : Eコマースオンライン広告におけるオークションデザインのためのエンコーダデコーダ生成ネットワーク

EdgeNet : Encoder-decoder generative Network for Auction Design in E-commerce Online Advertising ( http://arxiv.org/abs/2305.06158v1 )

ライセンス: Link先を確認
Guangyuan Shen, Shengjie Sun, Dehong Gao, Libin Yang, Yongping Shi and Wei Ning(参考訳) 本稿では,オンライン電子商取引広告におけるデータ駆動オークションデザインのための新しいエンコーダ・デコーダフレームワークであるedgenetを提案する。 gsp(generalized-second-price)のニューラルオークションパラダイムを破って,オークション機構の経済特性を確保しつつ,データの活用効率を向上させる。 具体的には、EdgeNetはトランスフォーマーベースのエンコーダを導入し、異なる候補広告間の相互の影響をよりよく捉える。 GSPベースのニューラルオークションモデルとは対照的に、オンライン広告オークションにおけるリッチなコンテキスト情報を活用するための自己回帰デコーダを設計する。 EdgeNetは概念的にはシンプルで、既存のエンドツーエンドのニューラルオークションフレームワークに拡張しやすい。 幅広いeコマース広告オークションにおけるEdgeNetの効率性を検証し、ユーザエクスペリエンスとプラットフォーム収益を改善する可能性を示す。

We present a new encoder-decoder generative network dubbed EdgeNet, which introduces a novel encoder-decoder framework for data-driven auction design in online e-commerce advertising. We break the neural auction paradigm of Generalized-Second-Price(GSP), and improve the utilization efficiency of data while ensuring the economic characteristics of the auction mechanism. Specifically, EdgeNet introduces a transformer-based encoder to better capture the mutual influence among different candidate advertisements. In contrast to GSP based neural auction model, we design an autoregressive decoder to better utilize the rich context information in online advertising auctions. EdgeNet is conceptually simple and easy to extend to the existing end-to-end neural auction framework. We validate the efficiency of EdgeNet on a wide range of e-commercial advertising auction, demonstrating its potential in improving user experience and platform revenue.
翻訳日:2023-05-11 12:52:39 公開日:2023-05-09
# Vault: コードの理解と生成を促進するための総合的な多言語データセット

The Vault: A Comprehensive Multilingual Dataset for Advancing Code Understanding and Generation ( http://arxiv.org/abs/2305.06156v1 )

ライセンス: Link先を確認
Dung Nguyen Manh, Nam Le Hai, Anh T. V. Dau, Anh Minh Nguyen, Khanh Nghiem, Jin Guo, Nghi D. Q. Bui(参考訳) 本稿では,llm(code-focus large language model)のトレーニングを強化する目的で設計された,オープンソースの大規模コードテキストデータセットであるvaultを紹介する。 コードベースのLLMをトレーニングするための既存のオープンソースデータセットは、サイズ、品質(ノイズ信号による)、フォーマット(コード関数とテキスト説明ペアのみを含む)の面で、しばしば課題に直面します。 Vaultは10のプログラミング言語で4000万のコードテキストペアを提供し、10以上の問題に対して徹底的なクリーニングを行い、クラス、関数、ラインレベルを含むさまざまなレベルのコードテキストペアリングを提供することによって、これらの制限を克服している。 研究者や実践者はThe Vaultを使って、さまざまなコード中心のLLMをトレーニングしたり、提供されたデータクリーニングメソッドやスクリプトを組み込んでデータセットを改善することができる。 コード中心LLMのトレーニングデータセットとしてThe Vaultを使用することで、コード理解と生成タスクの大幅な進歩が期待でき、人工知能研究とソフトウェア開発プラクティスの進歩が促進される。

We present The Vault, an open-source, large-scale code-text dataset designed to enhance the training of code-focused large language models (LLMs). Existing open-source datasets for training code-based LLMs often face challenges in terms of size, quality (due to noisy signals), and format (only containing code function and text explanation pairings). The Vault overcomes these limitations by providing 40 million code-text pairs across 10 popular programming languages, thorough cleaning for 10+ prevalent issues, and various levels of code-text pairings, including class, function, and line levels. Researchers and practitioners can utilize The Vault for training diverse code-focused LLMs or incorporate the provided data cleaning methods and scripts to improve their datasets. By employing The Vault as the training dataset for code-centric LLMs, we anticipate significant advancements in code understanding and generation tasks, fostering progress in both artificial intelligence research and software development practices.
翻訳日:2023-05-11 12:52:15 公開日:2023-05-09
# 教師なし文表現のためのオーバースムーシングの緩和

Alleviating Over-smoothing for Unsupervised Sentence Representation ( http://arxiv.org/abs/2305.06154v1 )

ライセンス: Link先を確認
Nuo Chen, Linjun Shou, Ming Gong, Jian Pei, Bowen Cao, Jianhui Chang, Daxin Jiang, Jia Li(参考訳) 現在、教師なしの文表現をより良く学ぶことは、多くの自然言語処理コミュニティの追求である。 プレトレーニング言語モデル(PLM)とコントラスト学習に基づく多くのアプローチがこの課題において有望な結果を得た。 実験により,過平滑化問題によってこれらの強力なPLMの容量が減少し,準最適文表現がもたらされることがわかった。 本稿では,plms中間層から負を抽出し,文表現の品質を向上させる,自己矛盾学習(self-contrastive learning:sscl)という簡単な手法を提案する。 提案手法は非常に単純であり、性能向上のための様々な最先端モデルに容易に拡張でき、教師なし文表現を学習するためのプラグアンドプレイのコントラストフレームワークと見なすことができる。 SSCLは、セマンティックテキスト類似性および転送データセット上で、異なる強いベースライン(例えばBERTとSimCSE)の優れたパフォーマンス向上をもたらすことを証明している。 私たちのコードはhttps://github.com/nuochenpku/ssclで利用可能です。

Currently, learning better unsupervised sentence representations is the pursuit of many natural language processing communities. Lots of approaches based on pre-trained language models (PLMs) and contrastive learning have achieved promising results on this task. Experimentally, we observe that the over-smoothing problem reduces the capacity of these powerful PLMs, leading to sub-optimal sentence representations. In this paper, we present a Simple method named Self-Contrastive Learning (SSCL) to alleviate this issue, which samples negatives from PLMs intermediate layers, improving the quality of the sentence representation. Our proposed method is quite simple and can be easily extended to various state-of-the-art models for performance boosting, which can be seen as a plug-and-play contrastive framework for learning unsupervised sentence representation. Extensive results prove that SSCL brings the superior performance improvements of different strong baselines (e.g., BERT and SimCSE) on Semantic Textual Similarity and Transfer datasets. Our codes are available at https://github.com/nuochenpku/SSCL.
翻訳日:2023-05-11 12:51:33 公開日:2023-05-09
# 生成的逆数フィードバックを持つ微調整言語モデル

Fine-tuning Language Models with Generative Adversarial Feedback ( http://arxiv.org/abs/2305.06176v1 )

ライセンス: Link先を確認
Zhang Ze Yu, Lau Jia Jaw, Wong Qin Jiang, Zhang Hui(参考訳) Reinforcement Learning with Human Feedback (RLHF) は大規模言語モデル(LLM)の性能を大幅に向上させることが実証されている。 しかしながら、RLHFは人間の評価者の専門性と生産性の制限によって制約されている。 本研究では,RLHFに対するRLGAF(Reinforcement Learning with Generative Adversarial Feedback)という代替手法を検討する。 予備的な知見は, RLHFの固有の制約に悩まされることなく, RLGAFがLPMの出力の調整に役立てることを示し, AIアライメントの自動化に関するさらなる研究の道筋を示唆している。

Reinforcement Learning with Human Feedback (RLHF) has been demonstrated to significantly enhance the performance of large language models (LLMs) by aligning their outputs with desired human values. However, RLHF is constrained by the expertise and productivity limitations of human evaluators. In this study, we investigate an alternative approach: Reinforcement Learning with Generative Adversarial Feedback (RLGAF) to RLHF. Our preliminary findings indicate that RLGAF can help align LLMs outputs while not suffering from the inherent restrictions of RLHF, suggesting promising avenues for further research on automating AI alignment.
翻訳日:2023-05-11 12:42:55 公開日:2023-05-09
# chatgptはバイアスを取り除くためのテキスト簡易化ツール

ChatGPT as a Text Simplification Tool to Remove Bias ( http://arxiv.org/abs/2305.06166v1 )

ライセンス: Link先を確認
Charmaine Barker and Dimitar Kazakov(参考訳) 特定のサブグループに特有の特定の言語信号の存在は、訓練中に言語モデルによって拾うことができる。 モデルが特定のグループの言語を習得した場合、これは差別につながる可能性がある。 モデルが特定の言語と異なるグループを関連付け始めると、この言語に基づいてなされた決定は、保護された特徴に基づく決定と強い相関を持つことになる。 テキストの簡易化という形でバイアス緩和の可能な手法について検討する。 この考え方の原動力は、文章を単純化することで、同じ意味を保ちながら、言語を1つの話し方に標準化すべきである。 この実験は, 簡易データに対して, 感度特性を最大17%低下させる分類器の精度として有望な結果を示した。

The presence of specific linguistic signals particular to a certain sub-group of people can be picked up by language models during training. This may lead to discrimination if the model has learnt to pick up on a certain group's language. If the model begins to associate specific language with a distinct group, any decisions made based upon this language would hold a strong correlation to a decision based on their protected characteristic. We explore a possible technique for bias mitigation in the form of simplification of text. The driving force of this idea is that simplifying text should standardise language to one way of speaking while keeping the same meaning. The experiment shows promising results as the classifier accuracy for predicting the sensitive attribute drops by up to 17% for the simplified data.
翻訳日:2023-05-11 12:42:01 公開日:2023-05-09
# モチベーション、傾き、リアリズムはデータサイエンス教育を推進すべきである

Motivation, inclusivity, and realism should drive data science education ( http://arxiv.org/abs/2305.06213v1 )

ライセンス: Link先を確認
Candace Savonen, Carrie Wright, Ava M. Hoffman, Elizabeth M. Humphries, Katherine E. L. Cox, Frederick J. Tan, Jeffrey T. Leek(参考訳) データサイエンス教育は大きな機会を提供するが、多くのコミュニティにはアクセスできない。 データサイエンスのコミュニティへのアクセシビリティの向上は、データサイエンスに参加する個人に利益をもたらすだけでなく、この分野全体の革新と潜在的な影響も増大させる。 教育はこれらのニーズを満たすための最もスケーラブルなソリューションであるが、多くのデータサイエンス教育者は教育の正式な訓練を欠いている。 私たちのグループは、プロの科学者から高校生、レイオーディエンスまで、さまざまなオーディエンスのための教育活動をリードしてきました。 これらの経験は、私たちが3つの主要な理想にまとめる教育哲学を形成するのに役立ちました。 1)モチベーション 2)排他性,及び 3)リアリズム。 これらの理想をよりよく実践するために、私たちはまた、これらの理想によりよい到達方法を見つけるために、教育アプローチとカリキュラムを反復的に更新することを目指しています。 本稿では,これらの理念と,これらの哲学を教室で実践するための実践的アイデアについて論じる。

Data science education provides tremendous opportunities but remains inaccessible to many communities. Increasing the accessibility of data science to these communities not only benefits the individuals entering data science, but also increases the field's innovation and potential impact as a whole. Education is the most scalable solution to meet these needs, but many data science educators lack formal training in education. Our group has led education efforts for a variety of audiences: from professional scientists to high school students to lay audiences. These experiences have helped form our teaching philosophy which we have summarized into three main ideals: 1) motivation, 2) inclusivity, and 3) realism. To put these ideals better into practice, we also aim to iteratively update our teaching approaches and curriculum as we find ways to better reach these ideals. In this manuscript we discuss these ideals as well practical ideas for how to implement these philosophies in the classroom.
翻訳日:2023-05-11 12:32:08 公開日:2023-05-09
# FedPDD: クロスサイロフェデレーション勧告のためのプライバシー保護二重蒸留フレームワーク

FedPDD: A Privacy-preserving Double Distillation Framework for Cross-silo Federated Recommendation ( http://arxiv.org/abs/2305.06272v1 )

ライセンス: Link先を確認
Sheng Wan, Dashan Gao, Hanlin Gu, Daning Hu(参考訳) クロスプラットフォームレコメンデーションは、さまざまなプラットフォームから異種機能を集めることで、レコメンデーションの精度を向上させることを目的としている。 しかし、このようなプラットフォーム間のクロスサイロなコラボレーションは、ますます厳しいプライバシー保護規制によって制限されるため、トレーニングのためにデータを集約することはできない。 フェデレーション学習(fl)は、レコメンデーションシナリオにおけるデータサイロ問題に対処するための実用的なソリューションである。 既存のクロスサイロfl手法では,重複するユーザのデータを活用することで,モデル情報を伝達してグローバルモデルを構築する。 しかし実際には、重複するユーザ数はしばしば非常に少なく、そのようなアプローチのパフォーマンスをほとんど制限している。 さらに、トレーニング中にモデル情報を伝達するには通信コストが高く、重大なプライバシー漏洩を引き起こす可能性がある。 本稿では,重複するユーザの知識を効率的に伝達するクロスサイロフェデレーションのための,プライバシー保全型二重蒸留フレームワークfeedpddを提案する。 具体的には,二回蒸留戦略により,局所モデルが相手からの明示的な知識だけでなく,その過去の予測から暗黙的な知識を学習できる。 さらに,プライバシと高効率性を確保するため,通信ニーズとプライバシー漏洩リスクを低減するため,オフライントレーニング方式を採用している。 さらに,送信情報を保護するために,ディファレンシャルプライバシを採用する。 実世界の2つのレコメンデーションデータセットであるHetRec-MovieLensとCriteoの実験は、最先端のアプローチと比較してFedPDDの有効性を実証している。

Cross-platform recommendation aims to improve recommendation accuracy by gathering heterogeneous features from different platforms. However, such cross-silo collaborations between platforms are restricted by increasingly stringent privacy protection regulations, thus data cannot be aggregated for training. Federated learning (FL) is a practical solution to deal with the data silo problem in recommendation scenarios. Existing cross-silo FL methods transmit model information to collaboratively build a global model by leveraging the data of overlapped users. However, in reality, the number of overlapped users is often very small, thus largely limiting the performance of such approaches. Moreover, transmitting model information during training requires high communication costs and may cause serious privacy leakage. In this paper, we propose a novel privacy-preserving double distillation framework named FedPDD for cross-silo federated recommendation, which efficiently transfers knowledge when overlapped users are limited. Specifically, our double distillation strategy enables local models to learn not only explicit knowledge from the other party but also implicit knowledge from its past predictions. Moreover, to ensure privacy and high efficiency, we employ an offline training scheme to reduce communication needs and privacy leakage risk. In addition, we adopt differential privacy to further protect the transmitted information. The experiments on two real-world recommendation datasets, HetRec-MovieLens and Criteo, demonstrate the effectiveness of FedPDD compared to the state-of-the-art approaches.
翻訳日:2023-05-11 12:26:06 公開日:2023-05-09
# 確率的双対動的プログラミングの複雑性

Complexity of Stochastic Dual Dynamic Programming ( http://arxiv.org/abs/1912.07702v9 )

ライセンス: Link先を確認
Guanghui Lan(参考訳) 確率的双対動的プログラミングは、約30年前に考案された多段確率最適化のための切削平面型アルゴリズムである。 実際にはその人気にもかかわらず、この手法の収束率に関する分析は存在していない。 本稿では,探索点の飽和を含む新しい数学的ツールを導入することにより,比較的単純な多段階最適化問題を解くための基本動的切削平面法に必要な反復数,すなわち反復複雑性を最初に確立する。 次に、これらの基本ツールを改良し、より一般的な多段階確率最適化問題を標準段階独立仮定の下で解くための決定論的および確率的双対動的プログラミング手法の反復複雑性を確立する。 以上の結果から,これらの手法の決定論的変異の複雑性は段数$T$で軽度に増大し,実際に割引問題に対して$T$に線形に依存することが明らかとなった。 したがって、それらは多くの段階を含むが、各段階において比較的少ない決定変数を持つ戦略的意思決定に効率的である。 状態空間と行動空間を明確に区別しなければ、これらの手法は関連する強化学習や確率的制御領域にも関係する可能性がある。

Stochastic dual dynamic programming is a cutting plane type algorithm for multi-stage stochastic optimization originated about 30 years ago. In spite of its popularity in practice, there does not exist any analysis on the convergence rates of this method. In this paper, we first establish the number of iterations, i.e., iteration complexity, required by a basic dynamic cutting plane method for solving relatively simple multi-stage optimization problems, by introducing novel mathematical tools including the saturation of search points. We then refine these basic tools and establish the iteration complexity for both deterministic and stochastic dual dynamic programming methods for solving more general multi-stage stochastic optimization problems under the standard stage-wise independence assumption. Our results indicate that the complexity of some deterministic variants of these methods mildly increases with the number of stages $T$, in fact linearly dependent on $T$ for discounted problems. Therefore, they are efficient for strategic decision making which involves a large number of stages, but with a relatively small number of decision variables in each stage. Without explicitly discretizing the state and action spaces, these methods might also be pertinent to the related reinforcement learning and stochastic control areas.
翻訳日:2023-05-10 21:33:46 公開日:2023-05-09
# 100以上の単一原子量子系の2次元クラスターの欠陥のない組立

Defect-free assembly of 2D clusters of more than 100 single-atom quantum systems ( http://arxiv.org/abs/1902.00284v5 )

ライセンス: Link先を確認
Daniel Ohl de Mello, Dominik Sch\"affner, Jan Werkmann, Tilman Preuschoff, Lars Kohfahl, Malte Schlosser, Gerhard Birkl(参考訳) 我々は,単一原子量子システムのための数千のサイトを容易に提供するマイクロ光学アーキテクチャの361サイトサブセット上に構築した,最大111中性原子の汎用的ターゲットパターンの欠陥のない組み立てを実証する。 複数の組立サイクルを迅速に実行することにより、達成可能な構造サイズと成功確率を大幅に向上させる。 大規模システムにおける絡み合いの分散に必要な部分原子クラスターの原子損失と決定論的輸送を繰り返すターゲットパターン再構成を実装した。 この手法は、集積原子アーキテクチャを量子アドバンテージのしきい値を超えて、量子センシングとメトロロジー、rydberg状態が媒介する量子シミュレーション、誤り訂正量子計算に豊富な応用を持つレジームへと推進する。

We demonstrate the defect-free assembly of versatile target patterns of up 111 neutral atoms, building on a 361-site subset of a micro-optical architecture that readily provides thousands of sites for single-atom quantum systems. By performing multiple assembly cycles in rapid succession, we drastically increase achievable structure sizes and success probabilities. We implement repeated target pattern reconstruction after atom loss and deterministic transport of partial atom clusters necessary for distributing entanglement in large-scale systems. This technique will propel assembled-atom architectures beyond the threshold of quantum advantage and into a regime with abundant applications in quantum sensing and metrology, Rydberg-state mediated quantum simulation, and error-corrected quantum computation.
翻訳日:2023-05-10 21:33:27 公開日:2023-05-09
# HierarchyNet: ソースコードを不均一表現で要約する学習

HierarchyNet: Learning to Summarize Source Code with Heterogeneous Representations ( http://arxiv.org/abs/2205.15479v3 )

ライセンス: Link先を確認
Minh Huynh Nguyen, Nghi D. Q. Bui, Truong Son Hy, Long Tran-Thanh, Tien N. Nguyen(参考訳) 本稿では,HCR(Heterogeneous Code Representations)と特殊設計したHierarchyNetを用いたコード要約手法を提案する。 HCRは、粗粒度のコード要素を抽象化し、階層構造に細粒度のプログラム要素を組み込むことによって、語彙、構文、意味レベルで重要なコード特徴を効果的にキャプチャする。 HCRの各レイヤは、ヘテロジニアスグラフ変換器、ツリーベースCNN、トランスフォーマーエンコーダのユニークな組み合わせによって個別に処理される。 このアプローチは、コード要素間の依存関係を保持し、新しい階層型クロスアテンションレイヤを通じて関係をキャプチャする。 提案手法は,PA-FormerやCAST,NeuralCodeSumといった最先端技術を上回る。

We propose a novel method for code summarization utilizing Heterogeneous Code Representations (HCRs) and our specially designed HierarchyNet. HCRs effectively capture essential code features at lexical, syntactic, and semantic levels by abstracting coarse-grained code elements and incorporating fine-grained program elements in a hierarchical structure. Our HierarchyNet method processes each layer of the HCR separately through a unique combination of the Heterogeneous Graph Transformer, a Tree-based CNN, and a Transformer Encoder. This approach preserves dependencies between code elements and captures relations through a novel Hierarchical-Aware Cross Attention layer. Our method surpasses current state-of-the-art techniques, such as PA-Former, CAST, and NeuralCodeSum.
翻訳日:2023-05-10 21:00:30 公開日:2023-05-09
# ナノファイバー界面による原子状態の複合ピコ秒制御

Composite picosecond control of atomic state through a nanofiber interface ( http://arxiv.org/abs/2203.06716v4 )

ライセンス: Link先を確認
Yudi Ma, Ruijuan Liu, Lingjing Ji, Liyang Qiu, Saijun Wu, Dianqiang Su, Yanting Zhao, Ni Yao and Wei Fang(参考訳) 原子は理想的な量子センサーと 量子発光器です ナノフォトニックデバイスと対向する原子は、新しいナノスケールセンシングと量子光学機能を約束する。 しかし、これらのデバイスにおける原子状態の精密な光学的制御は、空間的に変化する光-原子結合強度(ナノフォトニクス)によって挑戦される。 不均一性にもかかわらず、最適に調整された位相を持つ複合ピコ秒光パルスは、ほぼ完全に原子電気双極子遷移をエバネッセント制御することができ、例えば、近接場光学格子に閉じ込められた冷却原子を制御するのに十分な体積に対して$f>99\%の忠実度を持つ。 提案手法は, 導電性ピコ秒D1制御の$N=3$配列による励起により, 導電性ナノ秒D2プローブの吸収を最大$\sim70\%$に低減する, 光学ナノファイバー界面を用いたプリンシプル・オブ・プリンシプルの実証実験である。 パラメータ空間にまたがる吸収データとメゾスコピック原子蒸気応答の第一原理モデルを比較することにより、近接から理想への性能を確証する。 合成技術の$N\geq 5$への拡張は、特別な精度で原子双極子の任意の局所制御をサポートするために非常に実現可能である。 この前例のない能力は、誤差耐性原子分光を許容し、原子-ナノフォトニクス界面を持つ新しい非線形量子光学研究を開く。

Atoms are ideal quantum sensors and quantum light emitters. Interfacing atoms with nanophotonic devices promises novel nanoscale sensing and quantum optical functionalities. But precise optical control of atomic states in these devices is challenged by the spatially varying light-atom coupling strength, generic to nanophotonic. We demonstrate numerically that despite the inhomogenuity, composite picosecond optical pulses with optimally tailored phases are able to evanescently control the atomic electric dipole transitions nearly perfectly, with $f>99\%$ fidelity across large enough volumes for {\it e.g.} controlling cold atoms confined in near-field optical lattices. Our proposal is followed by a proof-of-principle demonstration with a $^{85}$Rb vapor -- optical nanofiber interface, where the excitation by an $N=3$ sequence of guided picosecond D1 control reduces the absorption of a co-guided nanosecond D2 probe by up to $\sim70\%$. The close-to-ideal performance is corroborated by comparing the absorption data across the parameter space with first-principle modeling of the mesoscopic atomic vapor response. Extension of the composite technique to $N\geq 5$ appears highly feasible to support arbitrary local control of atomic dipoles with exquisite precision. This unprecedented ability would allow error-resilient atomic spectroscopy and open up novel nonlinear quantum optical research with atom-nanophotonic interfaces.
翻訳日:2023-05-10 21:00:17 公開日:2023-05-09
# 非線形未知入力可観測性と未知入力再構成:一般解析解

Nonlinear Unknown Input Observability and Unknown Input Reconstruction: The General Analytical Solution ( http://arxiv.org/abs/2201.07610v4 )

ライセンス: Link先を確認
Agostino Martinelli(参考訳) 可観測性は任意の動的システムの基本的な構造特性であり、入力や出力を観測することからシステムの特徴を特徴づける状態を再構築する可能性を記述する。 この特性を調査し、動的システムがこの特性を満たすかどうかを確認できる解析基準を導入するという大きな努力にもかかわらず、未知の入力によって動的も駆動される場合、状態の可観測性を自動的にチェックする一般的な分析基準は存在しない。 本稿では, 未知入力可観測性問題と呼ばれる, この基本問題の一般解析解を提案する。 本稿では, この問題の一般的な解析解, すなわち, 自動計算(微分および行列ランク決定)に基づく体系的手順を提供し, 未知の入力が存在する場合でも, 状態の可観測性を自動的にチェックできるようにする(Algorithm 6.1)。 この問題の第一の解は、本書の第2部で「可観測性:不変性群に基づく新しい理論」として提示された [45]。 この論文で提示された解決策は[45]で前のソリューションを完成させます。 特に、新しい解法は「未知の入力に対してカノニックである」システムのカテゴリに属さないシステムを徹底的に説明している。 解析的導出は[45]で導入されたいくつかの新しい概念と分析結果を利用する。 最後に、得られた結果の簡単な結果として、状態可観測性の問題と密接に関連している未知の入力再構成問題に対する回答を提供する。 2つの未知入力と1つの既知の入力によって駆動される視覚慣性センサ融合の枠組みにおいて、非線形システムの可観測性を研究することにより、新しいアルゴリズムの実装を示す。

Observability is a fundamental structural property of any dynamic system and describes the possibility of reconstructing the state that characterizes the system from observing its inputs and outputs. Despite the huge effort made to study this property and to introduce analytical criteria able to check whether a dynamic system satisfies this property or not, there is no general analytical criterion to automatically check the state observability when the dynamics are also driven by unknown inputs. Here, we introduce the general analytical solution of this fundamental problem, often called the unknown input observability problem. This paper provides the general analytical solution of this problem, namely, it provides the systematic procedure, based on automatic computation (differentiation and matrix rank determination), that allows us to automatically check the state observability even in the presence of unknown inputs (Algorithm 6.1). A first solution of this problem was presented in the second part of the book: "Observability: A New Theory Based on the Group of Invariance" [45]. The solution presented by this paper completes the previous solution in [45]. In particular, the new solution exhaustively accounts for the systems that do not belong to the category of the systems that are "canonic with respect to their unknown inputs". The analytical derivations largely exploit several new concepts and analytical results introduced in [45]. Finally, as a simple consequence of the results here obtained, we also provide the answer to the problem of unknown input reconstruction which is intimately related to the problem of state observability. We illustrate the implementation of the new algorithm by studying the observability properties of a nonlinear system in the framework of visual-inertial sensor fusion, whose dynamics are driven by two unknown inputs and one known input.
翻訳日:2023-05-10 20:59:49 公開日:2023-05-09
# 転置学習に基づく発音スコアリング手法

A transfer learning based approach for pronunciation scoring ( http://arxiv.org/abs/2111.00976v2 )

ライセンス: Link先を確認
Marcelo Sancinetti, Jazmin Vidal, Cyntia Bonomi, Luciana Ferrer(参考訳) 音声レベルの発音のスコア付けは難しい課題であり、人間の注釈装置とは程遠いパフォーマンスである。 標準システムは、ネイティブデータのみを持つ自動音声認識(asr)用に訓練されたモデルを使用して、フレーズ内の各電話機のスコアを生成する。 非ネイティブデータを使用してタスクのために特別にトレーニングされたシステムを使用する場合、パフォーマンスが向上している。 しかし、このようなシステムは、このタスクのためにラベル付けされたデータセットが少なく、通常は小さいという課題に直面している。 本稿では,asrに訓練されたモデルを活用して,発音スコアリングのタスクに適応するトランスファー学習に基づくアプローチを提案する。 本稿では,いくつかの設計選択の効果を分析し,その性能をGOPシステムと比較する。 最終システムは,不必要な修正率の低減を優先するコスト関数として,評価研究のためのデータベースであるEpaDBのGOPシステムよりも20%優れている。

Phone-level pronunciation scoring is a challenging task, with performance far from that of human annotators. Standard systems generate a score for each phone in a phrase using models trained for automatic speech recognition (ASR) with native data only. Better performance has been shown when using systems that are trained specifically for the task using non-native data. Yet, such systems face the challenge that datasets labelled for this task are scarce and usually small. In this paper, we present a transfer learning-based approach that leverages a model trained for ASR, adapting it for the task of pronunciation scoring. We analyze the effect of several design choices and compare the performance with a state-of-the-art goodness of pronunciation (GOP) system. Our final system is 20% better than the GOP system on EpaDB, a database for pronunciation scoring research, for a cost function that prioritizes low rates of unnecessary corrections.
翻訳日:2023-05-10 20:59:21 公開日:2023-05-09
# 逐次無知下における部分的マルコフ決定過程のオフポリシー評価

Off-Policy Evaluation in Partially Observed Markov Decision Processes under Sequential Ignorability ( http://arxiv.org/abs/2110.12343v4 )

ライセンス: Link先を確認
Yuchen Hu and Stefan Wager(参考訳) 本研究は,マルコフ決定過程(POMDP)として基礎システムをモデル化できるという仮定を前提として,逐次的無知下での動的処理規則の非政治的評価を考察する。 そこで本研究では,行動方針から十分な距離を引いた目標政策の定常平均報酬を連続的に推定できることを示し,その重み付けによる部分的履歴の重み付けを提案する。 対象と行動方針の重複に依存する指数と、基礎となるシステムの混合時間に依存する指数とにより、その誤差は観測回数(すなわち、軌道の数がその長さの倍数)で多項式的に減衰する。 さらに, この収束速度は, 混合と重なりに関する仮定だけで最小値であることを示す。 以上より,pomdpsにおけるオフポリシー評価は(完全に観察された)マルコフ決定過程においてオフポリシー評価よりも厳格に難しいが,モデルフリーのオフポリシー評価よりは厳格に容易であることが判明した。

We consider off-policy evaluation of dynamic treatment rules under sequential ignorability, given an assumption that the underlying system can be modeled as a partially observed Markov decision process (POMDP). We propose an estimator, partial history importance weighting, and show that it can consistently estimate the stationary mean rewards of a target policy given long enough draws from the behavior policy. We provide an upper bound on its error that decays polynomially in the number of observations (i.e., the number of trajectories times their length), with an exponent that depends on the overlap of the target and behavior policies, and on the mixing time of the underlying system. Furthermore, we show that this rate of convergence is minimax given only our assumptions on mixing and overlap. Our results establish that off-policy evaluation in POMDPs is strictly harder than off-policy evaluation in (fully observed) Markov decision processes, but strictly easier than model-free off-policy evaluation.
翻訳日:2023-05-10 20:59:07 公開日:2023-05-09
# RBFニューラルネットワークを用いた定流量並列マイクロポンプの最適化

The Optimization of the Constant Flow Parallel Micropump Using RBF Neural Network ( http://arxiv.org/abs/2109.08717v6 )

ライセンス: Link先を確認
Chenyang Ma, Boyuan Xu, Hesheng Liu(参考訳) 本研究の目的は, 並列ポンプ室を備え, 受動チェックバルブを組み込んだ定流並列機械変位マイクロポンプの性能を最適化することである。 重要な課題は、左ポンプと右ポンプが吸引と輸血の役割を交互に交わすときの往復運動中に一定の流量に負の影響を及ぼす逆流による圧力パルスを最小化することである。 従来は受動チェックバルブの機械設計でこの問題を解決しようとしていた。 本研究では,教師なし学習と教師なし学習の両方で訓練されたrbfニューラルネットワークを実装することで,制御理論の観点から新たなオーバーラップ時間の概念を提案する。 実験結果から, 圧力パルスは0.15MPaから0.25MPaの範囲で最適化され, 40MPaの最大ポンプ加工圧力と比較して大きな改善が認められた。

The objective of this work is to optimize the performance of a constant flow parallel mechanical displacement micropump, which has parallel pump chambers and incorporates passive check valves. The critical task is to minimize the pressure pulse caused by regurgitation, which negatively impacts the constant flow rate, during the reciprocating motion when the left and right pumps interchange their role of aspiration and transfusion. Previous works attempt to solve this issue via the mechanical design of passive check valves. In this work, the novel concept of overlap time is proposed, and the issue is solved from the aspect of control theory by implementing a RBF neural network trained by both unsupervised and supervised learning. The experimental results indicate that the pressure pulse is optimized in the range of 0.15 - 0.25 MPa, which is a significant improvement compared to the maximum pump working pressure of 40 MPa.
翻訳日:2023-05-10 20:58:48 公開日:2023-05-09
# 多角光子状態量子照明による平均2乗距離遅延精度の向上

Enhancement in the mean square range delay accuracy by means of multiple entangled photon states quantum illumination ( http://arxiv.org/abs/2208.04691v3 )

ライセンス: Link先を確認
Ricardo Gallego Torrom\'e(参考訳) 近年、現在のレーダシステムと互換性のあるSNR領域における値レンジ遅延測定 \cite{Zhuang Shapiro 2022} の精度を高めるために量子照明がどのように用いられるかが議論されている。 しかし[1]で説明する利点は、統合時間を大きくすることです。 この研究において、複数の絡み合った光子量子照明は、レンジ遅延を評価する際の積分時間を削減するのに役立つと論じられている。 我々の分析は、3つの絡み合った光子状態の離散量子照明プロトコルの枠組みで行われる。 この設定では、ロイドのプロトコルを2つの光子を記述する信号状態の場合に直接一般化すると、興味深い利点が示されている。 1.ロイドの量子照明に関する誤差の確率の減少 2.ロイドの量子照明に関する積分時間の短縮 3.レンジ遅延精度の測定における究極の値の増加。

It has been discussed recently how quantum illumination can be used to increase the accuracy of the value range-delay measurement \cite{Zhuang Shapiro 2022} in the domain of SNR compatible with current radar systems. However, the advantage described in [1] requires of a large integration time. In this work it is argued that multiple entangled photon quantum illumination could help to reduce the integration time when evaluating range-delay. Our analysis is performed in the framework of three entangled photon states discrete quantum illumination protocols. In this setting it is shown explicitly that using a direct generalization of Lloyd's protocol to the case where signal states describe two photons presents interesting advantages: 1. The reduction of the probability of error with respect to Lloyd's quantum illumination, 2. The reduction of the integration time with respect to Lloyd's quantum illumination, 3. The increase in the ultimate in the measurement of the range-delay accuracy.
翻訳日:2023-05-10 20:48:11 公開日:2023-05-09
# 双対一元力学下における総称状態の絡み合いの成長

Growth of entanglement of generic states under dual-unitary dynamics ( http://arxiv.org/abs/2208.00030v2 )

ライセンス: Link先を確認
Alessandro Foligno and Bruno Bertini(参考訳) デュアルユニタリ回路(英: Dual-unitary circuits)は、局所的に相互作用する量子多体系のクラスであり、空間と時間の役割が交換されるときにもユニタリダイナミクスを示す。 これらのシステムは最近、多体量子カオスの特定の特徴を正確に研究できる驚くべきフレームワークとして登場した。 特に、熱力学的極限において、完全な非平衡ダイナミクスにアクセスすることができる ``solvable' 初期状態のクラスを認めている。 二重単位回路が可解な状態で準備されると、2つの相補空間領域間の量子絡み合いは、進化の局所構造によって許容される最大速度で増大する。 ここでは, この特性の運命について, 汎用的な対積状態でシステムを構築した際の考察を行う。 この場合、時間段階における絡み合いの増大は有限時間に対して極大であるが、無限時間極限における極大値に近づく。 このステートメントは、十分なエンタングルメントを生成するデュアルユニタリ回路に対して厳密に証明されているが、クラス全体の保持は議論されている。

Dual-unitary circuits are a class of locally-interacting quantum many-body systems displaying unitary dynamics also when the roles of space and time are exchanged. These systems have recently emerged as a remarkable framework where certain features of many-body quantum chaos can be studied exactly. In particular, they admit a class of ``solvable" initial states for which, in the thermodynamic limit, one can access the full non-equilibrium dynamics. This reveals a surprising property: when a dual-unitary circuit is prepared in a solvable state the quantum entanglement between two complementary spatial regions grows at the maximal speed allowed by the local structure of the evolution. Here we investigate the fate of this property when the system is prepared in a generic pair-product state. We show that in this case the entanglement increment during a time step is sub-maximal for finite times, however, it approaches the maximal value in the infinite-time limit. This statement is proven rigorously for dual-unitary circuits generating high enough entanglement, while it is argued to hold for the entire class.
翻訳日:2023-05-10 20:47:57 公開日:2023-05-09
# $\beta$-divergence を用いたスパース非負行列分解の最小化

Majorization-minimization for Sparse Nonnegative Matrix Factorization with the $\beta$-divergence ( http://arxiv.org/abs/2207.06316v3 )

ライセンス: Link先を確認
Arthur Marmin, Jos\'e Henrique de Morais Goulart, C\'edric F\'evotte(参考訳) この記事では、2つの因子のうちの1つ(例えば活性化行列)の$\beta$-divergenceとスパース正規化による非負行列因子化の新しい乗法的更新を紹介する。 他の因子(辞書行列)のノルムは、不適切な定式化を避けるために制御する必要があることはよく知られている。 標準的な実践は辞書の列を単位ノルムに制限することであり、これは非自明な最適化問題につながる。 提案手法は,元問題の再パラメータ化を利用して,等価スケール不変目的関数の最適化を行う。 そこで我々は,$\ell_{1}$-regularization あるいはより "攻撃的" なログ正規化に対して,単純な乗法的更新をもたらすブロック・ディフレッシブ・プライマリゼーション・最小化アルゴリズムを導出する。 他の最先端手法とは対照的に、我々のアルゴリズムは任意の$\beta$-divergence(すなわち$\beta$の値)に適用可能であり、収束保証付きであるという意味で普遍的である。 本研究では,顔画像,音声スペクトログラム,ハイパースペクトルデータ,曲の演奏数などを用いて,既存のヒューリスティックおよびラグランジアン法との比較を行った。 提案手法は, コンバージェンス(類似目的値)において, CPU時間を大幅に短縮した類似品質の解が得られることを示す。

This article introduces new multiplicative updates for nonnegative matrix factorization with the $\beta$-divergence and sparse regularization of one of the two factors (say, the activation matrix). It is well known that the norm of the other factor (the dictionary matrix) needs to be controlled in order to avoid an ill-posed formulation. Standard practice consists in constraining the columns of the dictionary to have unit norm, which leads to a nontrivial optimization problem. Our approach leverages a reparametrization of the original problem into the optimization of an equivalent scale-invariant objective function. From there, we derive block-descent majorization-minimization algorithms that result in simple multiplicative updates for either $\ell_{1}$-regularization or the more "aggressive" log-regularization. In contrast with other state-of-the-art methods, our algorithms are universal in the sense that they can be applied to any $\beta$-divergence (i.e., any value of $\beta$) and that they come with convergence guarantees. We report numerical comparisons with existing heuristic and Lagrangian methods using various datasets: face images, an audio spectrogram, hyperspectral data, and song play counts. We show that our methods obtain solutions of similar quality at convergence (similar objective values) but with significantly reduced CPU times.
翻訳日:2023-05-10 20:47:37 公開日:2023-05-09
# シリコンにおける光子とホールスピンの強い結合

Strong coupling between a photon and a hole spin in silicon ( http://arxiv.org/abs/2206.14082v2 )

ライセンス: Link先を確認
C\'ecile X. Yu, Simon Zihlmann, Jos\'e C. Abadillo-Uriel, Vincent P. Michal, Nils Rambal, Heimanu Niebojewski, Thomas Bedecarrats, Maud Vinet, Etienne Dumur, Michele Filippone, Benoit Bertrand, Silvano De Franceschi, Yann-Michel Niquet, and Romain Maurand(参考訳) 半導体量子ドットのスピンはスケーラブルな量子情報処理のための有望なプラットフォームである。 超伝導マイクロ波共振器のフォトニックモードに強く結合することで、高速な非破壊読み出しと長距離のオンチップ接続が可能になる。 ここでは、超伝導共振器内のマイクロ波光子と、鋳型互換mos製造プロセスから発生するシリコン系二重量子ドットのホールスピンとの強い結合を示す。 シリコン原子価帯に内在する強いスピン軌道相互作用を利用することで、スピン光子結合速度を330~mhzとすることで、スピン光子デコヒーレンス速度を大きく超えることができる。 この結果は、シリコン中のホールスピンの長いコヒーレンスとともに、半導体量子ドット内のスピンを持つ回路量子電磁力学の発展への新たな現実的な道を開く。

Spins in semiconductor quantum dots constitute a promising platform for scalable quantum information processing. Coupling them strongly to the photonic modes of superconducting microwave resonators would enable fast non-demolition readout and long-range, on-chip connectivity, well beyond nearest-neighbor quantum interactions. Here we demonstrate strong coupling between a microwave photon in a superconducting resonator and a hole spin in a silicon-based double quantum dot issued from a foundry-compatible MOS fabrication process. By leveraging the strong spin-orbit interaction intrinsically present in the valence band of silicon, we achieve a spin-photon coupling rate as high as 330~MHz largely exceeding the combined spin-photon decoherence rate. This result, together with the recently demonstrated long coherence of hole spins in silicon, opens a new realistic pathway to the development of circuit quantum electrodynamics with spins in semiconductor quantum dots.
翻訳日:2023-05-10 20:47:10 公開日:2023-05-09
# Score-based Out-of-distribution Generation による化学空間の探索

Exploring Chemical Space with Score-based Out-of-distribution Generation ( http://arxiv.org/abs/2206.07632v2 )

ライセンス: Link先を確認
Seul Lee, Jaehyeong Jo, Sung Ju Hwang(参考訳) 既存の分子生成モデルのよく知られている制限は、生成した分子がトレーニングセットの分子に非常によく似ていることである。 デノボの薬物発見にさらに優れた性質を持つ真に新しい分子を生成するためには、化学領域におけるより強力な探索が必要である。 そこで本研究では,超パラメータの簡単な制御により生成確率微分方程式 (sde) にout-of-distribution (ood) 制御を組み込んだスコアベースの拡散スキームである molecular out-of-distribution diffusion (mood) を提案する。 いくつかの新規分子は現実世界の薬物の基本的な要件を満たしていないため、ムードは、タンパク質-リガンド相互作用、薬物類似性、合成可能性などの標的特性に従って、逆時間拡散過程をhigh-scoring領域に導く特性予測器からの勾配を利用して条件付き生成を行う。 これにより、MOODは目に見えないが自明な分子を生成するのではなく、新規で有意義な分子を探すことができる。 実験により,ムードがトレーニング分布を超えた化学空間を探索し,既存の手法で検出した分子や,当初のトレーニングプールの0.01%を上回る分子を生成できることを検証した。 私たちのコードはhttps://github.com/seullee05/moodで利用可能です。

A well-known limitation of existing molecular generative models is that the generated molecules highly resemble those in the training set. To generate truly novel molecules that may have even better properties for de novo drug discovery, more powerful exploration in the chemical space is necessary. To this end, we propose Molecular Out-Of-distribution Diffusion(MOOD), a score-based diffusion scheme that incorporates out-of-distribution (OOD) control in the generative stochastic differential equation (SDE) with simple control of a hyperparameter, thus requires no additional costs. Since some novel molecules may not meet the basic requirements of real-world drugs, MOOD performs conditional generation by utilizing the gradients from a property predictor that guides the reverse-time diffusion process to high-scoring regions according to target properties such as protein-ligand interactions, drug-likeness, and synthesizability. This allows MOOD to search for novel and meaningful molecules rather than generating unseen yet trivial ones. We experimentally validate that MOOD is able to explore the chemical space beyond the training distribution, generating molecules that outscore ones found with existing methods, and even the top 0.01% of the original training pool. Our code is available at https://github.com/SeulLee05/MOOD.
翻訳日:2023-05-10 20:46:24 公開日:2023-05-09
# 指向性ウェーブレットパケットを用いたWNNM画像復調方式のクロスブースティング

Cross-boosting of WNNM Image Denoising method by Directional Wavelet Packets ( http://arxiv.org/abs/2206.04431v2 )

ライセンス: Link先を確認
Amir Averbuch, Pekka Neittaanm\"aki, Valery Zheludev, Moshe Salhov and Jonathan Hauser(参考訳) 本稿では,指向性準解析ウェーブレットパケット(qwps)と最先端重み付き核ノルム最小化アルゴリズム(wnnm)を組み合わせた画像デノイジング方式を提案する。 劣化した画像のマルチスケールqWP変換と、バイバリエート収縮法を用いて局所化ソフトしきい値の変換係数への適応的局所化の適用と、しきい値係数から複数の分解レベルから画像の復元からなるqWPベースのデノナイジング法(qWPdn)である。 組み合わせた手法は、qWPdnとWNNMのアルゴリズムの繰り返しからなり、各反復で1つのアルゴリズムからの出力が入力をもう1つのアルゴリズムに増強する。 提案手法は,wnnmアルゴリズムに固有な実画像における非局所的自己相似性を利用して,破損画像においてもエッジと微細なテクスチャパターンをキャプチャするqwpdn機能を組み合わせる。 提案手法と、WNNMを含む6つの先進デノベーションアルゴリズムを比較した複数の実験により、組み合わせたクロスブースティングアルゴリズムは、定量的測度と視覚的知覚品質の両方において、その大部分を上回っていることを確認した。

The paper presents an image denoising scheme by combining a method that is based on directional quasi-analytic wavelet packets (qWPs) with the state-of-the-art Weighted Nuclear Norm Minimization (WNNM) denoising algorithm. The qWP-based denoising method (qWPdn) consists of multiscale qWP transform of the degraded image, application of adaptive localized soft thresholding to the transform coefficients using the Bivariate Shrinkage methodology, and restoration of the image from the thresholded coefficients from several decomposition levels. The combined method consists of several iterations of qWPdn and WNNM algorithms in a way that at each iteration the output from one algorithm boosts the input to the other. The proposed methodology couples the qWPdn capabilities to capture edges and fine texture patterns even in the severely corrupted images with utilizing the non-local self-similarity in real images that is inherent in the WNNM algorithm. Multiple experiments, which compared the proposed methodology with six advanced denoising algorithms, including WNNM, confirmed that the combined cross-boosting algorithm outperforms most of them in terms of both quantitative measure and visual perception quality.
翻訳日:2023-05-10 20:45:52 公開日:2023-05-09
# 階層的運動方程式を用いたフェルミイオン貯水池の効率的な低温シミュレーション:アンダーソン不純物モデルへの応用

Efficient low temperature simulations for fermionic reservoirs with the hierarchical equations of motion method: Application to the Anderson impurity model ( http://arxiv.org/abs/2211.04089v2 )

ライセンス: Link先を確認
Xiaohan Dan (1 and 2), Meng Xu (3), J. T. Stockburger (3), J. Ankerhold (3), Qiang Shi (1 and 2) ((1) Beijing National Laboratory for Molecular Sciences, State Key Laboratory for Structural Chemistry of Unstable and Stable Species, Institute of Chemistry, Chinese Academy of Sciences, Beijing, China, (2) University of Chinese Academy of Sciences, Beijing, China, (3) Institute for Complex Quantum Systems and IQST, Ulm University, Ulm, Germany)(参考訳) 階層的運動方程式(heom)アプローチは、オープンシステムの量子力学をシミュレートする正確な方法であり、数値的に正確な結果に系統的収束を可能にする。 浴槽の効果を表すために、貯水池相関関数は通常HEOM法において複数の指数項の和に分解される。 貯水池の相関関数は低温や複雑なバンド構造を持つ場合、非マルコフ的になるため、HEOMによる効率的なシミュレーションを可能にする正確な指数分解を得ることが課題である。 本研究では,周波数領域におけるフェルミ関数とハイブリダイゼーション関数を近似するために,バリセントリック表現を用いる。 これらの関数を最適化された有理分解で近似することにより, 貯留層相関関数の分解における基底関数の数を大幅に削減し, 超低温, 一般浴構造にもheom法を適用した。 低温条件下でのアンダーソン不純物モデル (AIM) にローレンツ型および強結合型ハイブリダイゼーション関数を適用し, 新たな分解法の有効性, 精度, 長期安定性を示す。

The hierarchical equations of motion (HEOM) approach is an accurate method to simulate open system quantum dynamics, which allows for systematic convergence to numerically exact results. To represent the effects of the bath, the reservoir correlation functions are usually decomposed into the summation of multiple exponential terms in the HEOM method. Since the reservoir correlation functions become highly non-Markovian at low temperatures or when the bath has complex band structures, a present challenge is to obtain accurate exponential decompositions that allow efficient simulation with the HEOM. In this work, we employ the barycentric representation to approximate the Fermi function and hybridization functions in the frequency domain. The new method, by approximating these functions with optimized rational decomposition, greatly reduces the number of basis functions in decomposing the reservoir correlation functions, which further allows the HEOM method to be applied to ultra-low temperature and general bath structures. We demonstrate the efficiency, accuracy, and long-time stability of the new decomposition scheme by applying it to the Anderson impurity model (AIM) in the low-temperature regime with the Lorentzian and tight-binding hybridization functions.
翻訳日:2023-05-10 20:39:59 公開日:2023-05-09
# 自己教師付き音声モデルに対する一括圧縮

Once-for-All Sequence Compression for Self-Supervised Speech Models ( http://arxiv.org/abs/2211.02332v4 )

ライセンス: Link先を確認
Hsuan-Jui Chen, Yen Meng, Hung-yi Lee(参考訳) 時間軸に沿ったシーケンス長は、しばしば音声処理における計算の主要な要素である。 自己教師型音声モデルにおける計算コストを下げるためのシーケンス長を削減する作業が提案されている。 しかし、異なるダウンストリームタスクはシーケンス圧縮の許容度が異なるため、固定圧縮率を生成するモデルは全てのタスクに適合しない可能性がある。 本研究では、連続的な操作圧縮率をサポートする自己教師型音声モデルのための1回限りの(OFA)シーケンス圧縮フレームワークを提案する。 このフレームワークは様々なタスクで評価され、スムーズな性能と効率のトレードオフを持つ固定圧縮率の変動に比べて限界劣化を示す。 さらに,適応圧縮率学習を探求し,グリッド探索を必要とせず,タスク固有の推奨フレーム周期を選択できることを示す。

The sequence length along the time axis is often the dominant factor of the computation in speech processing. Works have been proposed to reduce the sequence length for lowering the computational cost in self-supervised speech models. However, different downstream tasks have different tolerance of sequence compressing, so a model that produces a fixed compressing rate may not fit all tasks. In this work, we introduce a once-for-all (OFA) sequence compression framework for self-supervised speech models that supports a continuous range of operating compressing rates. The framework is evaluated on various tasks, showing marginal degradation compared to the fixed compressing rate variants with a smooth performance-efficiency trade-off. We further explore adaptive compressing rate learning, demonstrating the ability to select task-specific preferred frame periods without needing a grid search.
翻訳日:2023-05-10 20:39:37 公開日:2023-05-09
# 普遍因果深層学習モデルの設計:確率解析による無限次元力学系の場合

Designing Universal Causal Deep Learning Models: The Case of Infinite-Dimensional Dynamical Systems from Stochastic Analysis ( http://arxiv.org/abs/2210.13300v2 )

ライセンス: Link先を確認
Luca Galimberti, Anastasis Kratsios, Giulia Livieri(参考訳) 確率微分方程式に対する様々な解演算子(CO)は、現代の確率解析において中心的な役割を果たすが、COを近似できるディープラーニング(DL)モデルを設計するための標準的な枠組みはいまだ存在しない。 本稿では, 任意の無限次元線型距離空間を入力とし, それらの線形幾何に適応した普遍逐次dlモデルを返すdlモデル設計フレームワークを導入することにより, このオープン問題に対する「ジオメトリ・アウェア」な解法を提案する。 これらのモデルをCausal Neural Operators (CNO)と呼ぶ。 我々の主な結果は、我々のフレームワークが生成したモデルがコンパクトな集合や任意の有限時間地平線 H\"older あるいは滑らかなトレースクラス作用素に均一に近似できることを示している。 解析により, 有限次元リカレントニューラルネットワーク(RNN)の新しい意味を持つCNOの潜在状態空間次元に関する新しい定量的関係が明らかになった。 CNO(またはRNN)潜在パラメータ空間の次元とその幅の線形増加と、その深さの対数的増加は、その近似が有効である時間ステップの数が指数関数的に増加することを意味する。 解析の結果,RNNはReLUネットワークよりも指数的に少ないパラメータで因果関数を近似できることがわかった。

Causal operators (CO), such as various solution operators to stochastic differential equations, play a central role in contemporary stochastic analysis; however, there is still no canonical framework for designing Deep Learning (DL) models capable of approximating COs. This paper proposes a "geometry-aware'" solution to this open problem by introducing a DL model-design framework that takes suitable infinite-dimensional linear metric spaces as inputs and returns a universal sequential DL model adapted to these linear geometries. We call these models Causal Neural Operators (CNOs). Our main result states that the models produced by our framework can uniformly approximate on compact sets and across arbitrarily finite-time horizons H\"older or smooth trace class operators, which causally map sequences between given linear metric spaces. Our analysis uncovers new quantitative relationships on the latent state-space dimension of CNOs which even have new implications for (classical) finite-dimensional Recurrent Neural Networks (RNNs). We find that a linear increase of the CNO's (or RNN's) latent parameter space's dimension and of its width, and a logarithmic increase of its depth imply an exponential increase in the number of time steps for which its approximation remains valid. A direct consequence of our analysis shows that RNNs can approximate causal functions using exponentially fewer parameters than ReLU networks.
翻訳日:2023-05-10 20:39:24 公開日:2023-05-09
# 作業障害機能評価用電池における自己符号化されたスパースベイズ式IRT分解, キャリブレーション, 償却推論

Autoencoded sparse Bayesian in-IRT factorization, calibration, and amortized inference for the Work Disability Functional Assessment Battery ( http://arxiv.org/abs/2210.10952v4 )

ライセンス: Link先を確認
Joshua C. Chang, Carson C. Chow, Julia Porcino(参考訳) ワーク障害機能評価電池 (WD-FAB) は、アイテムバンクへの応答に基づいて、作業関連心身機能を評価するために設計された多次元アイテム応答理論(IRT)である。 以前のイテレーションでは、アイテム分割/選択のための線形因数分解とヌル仮説統計テスト、そして最後に一次元IRTモデルのポストホックキャリブレーションを用いて開発された。 その結果、WD-FABは他のIRTの楽器と同様にポストホックモデルとなった。 探索的因子分析に基づく項目分割は、最終非線形IRTモデルに盲目であり、最終モデルに適合する良さと整合した方法で実行されない。 本稿では,スケール因子化,項目選択,パラメータ同定,応答スコアリングといった同時タスクを自己整合的に実行するベイズ階層モデルを開発した。 この方法では、線形因子化と、多次元IRTモデルの開発に通常必要とされるヌル仮説統計テストの妨げとなるため、アイテム分割は究極の非線形因子モデルと一致する。 また,多次元irtモデルを確率的オートエンコーダに類似させ,項目応答から能力パラメータを推定するエンコーダ関数を指定する。 エンコーダ関数は、モデル全体の近似ベイズ推定に用いられる確率的変分ベイズ期待最大化 (vbem) 手順における「vbe」ステップと等価である。 本手法は,wd-fab項目応答のサンプルを用いて,得られた項目識別を従来のポストホック法を用いて得られたものと比較する。

The Work Disability Functional Assessment Battery (WD-FAB) is a multidimensional item response theory (IRT) instrument designed for assessing work-related mental and physical function based on responses to an item bank. In prior iterations it was developed using traditional means -- linear factorization and null hypothesis statistical testing for item partitioning/selection, and finally, posthoc calibration of disjoint unidimensional IRT models. As a result, the WD-FAB, like many other IRT instruments, is a posthoc model. Its item partitioning, based on exploratory factor analysis, is blind to the final nonlinear IRT model and is not performed in a manner consistent with goodness of fit to the final model. In this manuscript, we develop a Bayesian hierarchical model for self-consistently performing the following simultaneous tasks: scale factorization, item selection, parameter identification, and response scoring. This method uses sparsity-based shrinkage to obviate the linear factorization and null hypothesis statistical tests that are usually required for developing multidimensional IRT models, so that item partitioning is consistent with the ultimate nonlinear factor model. We also analogize our multidimensional IRT model to probabilistic autoencoders, specifying an encoder function that amortizes the inference of ability parameters from item responses. The encoder function is equivalent to the "VBE" step in a stochastic variational Bayesian expectation maximization (VBEM) procedure that we use for approxiamte Bayesian inference on the entire model. We use the method on a sample of WD-FAB item responses and compare the resulting item discriminations to those obtained using the traditional posthoc method.
翻訳日:2023-05-10 20:38:57 公開日:2023-05-09
# 磁場によるホログラフィック閉じ込め・解圧ゲージ理論と絡み合い測度

Holographic confining/deconfining gauge theories and entanglement measures with a magnetic field ( http://arxiv.org/abs/2209.15355v2 )

ライセンス: Link先を確認
Parul Jain, Siddhi Swarupa Jena, Subhash Mahapatra(参考訳) 背景磁場の存在下でのボトムアップads/qcdモデルの拘束・脱圧相における種々のホログラフィック純・混合状態の絡み合い測定について検討した。 エンタングルメント・エントロピー,エンタングルメント・ウェッジ断面積,相互情報,エンタングルメント・ネガティビティを分析し,これらの測定方法のエンタングルメント構造に背景磁場がどのように印字を残しているかを検討する。 磁場によって導入された異方性のため、これらの測度の挙動は磁場に対するストリップの相対配向に非自明に依存していることが分かる。 凝縮相では、エンタングルメントエントロピーと負性度は同じ臨界ストリップ長で相転移し、その大きさは磁場の平行/垂直方向に対して増加/減少する。 エンタングメントウェッジ断面も同様に、異なるエンタング面間の相転移が起こるたびに不連続な挙動を示し、さらに磁場による異方性特性を示す。 さらに, 磁場は崩壊相の絡み合い測度にも大きな変化をもたらすが, これらの変化は磁場のすべての方向に対して定性的に類似していることがわかった。 さらに、絡み合いのくさびと相互情報を含む不等式について検討し、前者は閉/分割位相のパラメータ空間において、常に後者の半分を超えていることを示す。

We study various holographic pure and mixed state entanglement measures in the confined/deconfined phases of a bottom-up AdS/QCD model in the presence of a background magnetic field. We analyse the entanglement entropy, entanglement wedge cross-section, mutual information, and entanglement negativity and investigate how a background magnetic field leaves its imprints on the entanglement structure of these measures. Due to the anisotropy introduced by the magnetic field, we find that the behaviour of these measures depends nontrivially on the relative orientation of the strip with respect to the field. In the confining phase, the entanglement entropy and negativity undergo a phase transition at the same critical strip length, the magnitude of which increases/decreases for parallel/perpendicular orientation of the magnetic field. The entanglement wedge cross-section similarly displays discontinuous behaviour each time a phase transition between different entangling surfaces occurs, while further exhibiting anisotropic features with a magnetic field. We further find that the magnetic field also introduces substantial changes in the entanglement measures of the deconfined phase, however, these changes remain qualitatively similar for all orientations of the magnetic field. We further study the inequality involving entanglement wedge and mutual information and find that the former always exceeds half of the latter everywhere in the parameter space of the confined/deconfined phases.
翻訳日:2023-05-10 20:38:03 公開日:2023-05-09
# ダイヤモンド中の窒素空孔スピン三重項の温度依存性スピン格子緩和

Temperature-dependent spin-lattice relaxation of the nitrogen-vacancy spin triplet in diamond ( http://arxiv.org/abs/2209.14446v2 )

ライセンス: Link先を確認
M.C. Cambria, A. Norambuena, H. T. Dinani, G. Thiering, A. Gardill, I. Kemeny, Y. Li, V. Lordi, A. Gali, J. R. Maze, and S. Kolkowitz(参考訳) 窒素空孔(NV)中心の電子基底状態スピン三重項内のスピン-格子緩和はコヒーレンス時間を制限し、量子アプリケーションの性能に影響を及ぼす。 高純度試料中の9Kから474Kの温度関数としてNV中心の $|m_{s}=0\rangle \leftrightarrow |m_{s}=\pm 1\rangle$ と $|m_{s}=-1\rangle \leftrightarrow |m_{s}=+1\rangle$ の緩和速度の測定を行った。 2階スピンフォノン相互作用によるラマン散乱のab initio理論により、速度の温度依存性が再現されることを示し、他のスピン系に対する理論の適用性について議論する。 これらの結果に基づく新しい解析モデルを用いて,nvスピン格子緩和の高温挙動は68.2(17)および167(12) mevを中心とする2つの準局在フォノンとの相互作用によって支配されることが示唆された。

Spin-lattice relaxation within the nitrogen-vacancy (NV) center's electronic ground-state spin triplet limits its coherence times, and thereby impacts its performance in quantum applications. We report measurements of the relaxation rates on the NV center's $|m_{s}=0\rangle \leftrightarrow |m_{s}=\pm 1\rangle$ and $|m_{s}=-1\rangle \leftrightarrow |m_{s}=+1\rangle$ transitions as a function of temperature from 9 to 474 K in high-purity samples. We show that the temperature dependencies of the rates are reproduced by an ab initio theory of Raman scattering due to second-order spin-phonon interactions, and we discuss the applicability of the theory to other spin systems. Using a novel analytical model based on these results, we suggest that the high-temperature behavior of NV spin-lattice relaxation is dominated by interactions with two groups of quasilocalized phonons centered at 68.2(17) and 167(12) meV.
翻訳日:2023-05-10 20:37:38 公開日:2023-05-09
# ディジタル変調を用いたタスク指向通信のためのロバスト情報基盤

Robust Information Bottleneck for Task-Oriented Communication with Digital Modulation ( http://arxiv.org/abs/2209.10382v2 )

ライセンス: Link先を確認
Songjie Xie, Shuai Ma, Ming Ding, Yuanming Shi, Mingjian Tang, Youlong Wu(参考訳) タスク指向通信は、主に学習ベースのジョイントソースチャネル符号化(JSCC)を用いて、タスク関連情報を受信機に送信することで、コミュニケーション効率の高いエッジ推論システムを設計することを目的としている。 しかし、冗長性を導入することなくタスク関連情報のみを送信すると、チャネル変動による学習の堅牢性の問題が発生する可能性があり、ソースデータを連続チャネル入力シンボルに直接マッピングするJSCCは、既存のデジタル通信システム上で互換性の問題を引き起こす。 本稿では、まず、符号化された表現の情報性と、受信した表現の情報歪みに対する頑健性との間の固有のトレードオフを調査し、次に、デジタル変調を用いたタスク指向通信方式(DT-JSCC)を提案し、送信機が特徴を離散表現に符号化し、デジタル変調方式で受信機に送信する。 dt-jscc方式では,チャネル変動に対する通信ロバスト性を向上させるためのロバスト情報ボトルネック(rib)と呼ばれるロバスト符号化フレームワークを開発し,変動近似を用いてリブ目的関数の移動可能な変動上限を導出し,相互情報の計算の難解さを克服する。 実験の結果,提案したDT-JSCCは,通信遅延の低いベースライン手法よりも優れた推論性能を示し,適用されたRIBフレームワークによるチャネル変動に対する堅牢性を示すことがわかった。

Task-oriented communications, mostly using learning-based joint source-channel coding (JSCC), aim to design a communication-efficient edge inference system by transmitting task-relevant information to the receiver. However, only transmitting task-relevant information without introducing any redundancy may cause robustness issues in learning due to the channel variations, and the JSCC which directly maps the source data into continuous channel input symbols poses compatibility issues on existing digital communication systems. In this paper, we address these two issues by first investigating the inherent tradeoff between the informativeness of the encoded representations and the robustness to information distortion in the received representations, and then propose a task-oriented communication scheme with digital modulation, named discrete task-oriented JSCC (DT-JSCC), where the transmitter encodes the features into a discrete representation and transmits it to the receiver with the digital modulation scheme. In the DT-JSCC scheme, we develop a robust encoding framework, named robust information bottleneck (RIB), to improve the communication robustness to the channel variations, and derive a tractable variational upper bound of the RIB objective function using the variational approximation to overcome the computational intractability of mutual information. The experimental results demonstrate that the proposed DT-JSCC achieves better inference performance than the baseline methods with low communication latency, and exhibits robustness to channel variations due to the applied RIB framework.
翻訳日:2023-05-10 20:37:08 公開日:2023-05-09
# 量子コンピュータパワーサイドチャネルの探索

Exploration of Quantum Computer Power Side-Channels ( http://arxiv.org/abs/2304.03315v2 )

ライセンス: Link先を確認
Chuanqi Xu, Ferhat Erata, Jakub Szefer(参考訳) 量子コンピューティングへの関心が急速に高まり、様々な物理的攻撃からこれらの量子コンピュータを保護することの重要性も増している。 量子コンピュータの完全性の向上と量子ビット数の増加は、これらのコンピュータが高感度な知的特性を持つ新しいアルゴリズムを実行することを大いに約束する。 しかし、今日のクラウドベースの量子コンピュータでは、ユーザはコンピュータを物理的にコントロールできない。 データセンターの悪意あるインサイダーによって実行された物理的攻撃は、これらのコンピュータで実行される回路に関する機密情報を抽出するために用いられる。 実際、この研究が初めて、パワーベースのサイドチャネル攻撃が量子コンピュータに対して展開されることを示した。 このような攻撃は、これらのコンピュータに送信される制御パルスに関する情報の回収に使用できる。 これらの制御パルスを分析することで、攻撃者は回路の等価なゲートレベルの記述をリバースエンジニアリングすることができる。 この研究は5つの新しいタイプの攻撃を導入し、クラウドベースの量子コンピュータから利用可能な制御パルス情報を用いてそれらを評価する。 この研究は、量子コンピュータ上で新たに実証されたサイドチャネル攻撃から防御する方法と回路の復元方法を示している。

With the rapidly growing interest in quantum computing also grows the importance of securing these quantum computers from various physical attacks. Constantly increasing qubit counts and improvements to the fidelity of the quantum computers hold great promise for the ability of these computers to run novel algorithms with highly sensitive intellectual property. However, in today's cloud-based quantum computer setting, users lack physical control over the computers. Physical attacks, such as those perpetrated by malicious insiders in data centers, could be used to extract sensitive information about the circuits being executed on these computers. Indeed, this work shows for the first time that power-based side-channel attacks could be deployed against quantum computers. Such attacks can be used to recover information about the control pulses sent to these computers. By analyzing these control pulses, attackers can reverse-engineer the equivalent gate-level description of the circuits, and possibly even the secret algorithms being run. This work introduces five new types of attacks, and evaluates them using control pulse information available from cloud-based quantum computers. This work demonstrates how and what circuits could be recovered, and then in turn how to defend from the newly demonstrated side-channel attacks on quantum~computers.
翻訳日:2023-05-10 20:29:23 公開日:2023-05-09
# ランゲヴィン型モンテカルロアルゴリズムの非漸近解析

Non-asymptotic analysis of Langevin-type Monte Carlo algorithms ( http://arxiv.org/abs/2303.12407v4 )

ライセンス: Link先を確認
Shogo Nakakita(参考訳) 我々はgibbs分布からのサンプリングのためのlangevin型アルゴリズムについて検討し、ポテンシャルが散逸し、その弱い勾配は必ずしもゼロに収束するとは限らない連続性の有限モジュラーを持つことを示した。 我々の主な結果は、ギブス分布と一般ランジュバン型アルゴリズムの法則との間の2-wasserstein距離の非漸近上界であり、リプツァー-シリャエフ理論とポアンカル\'{e}不等式に基づいている。 これを適用すると、ランゲヴィンモンテカルロアルゴリズムは、ポテンシャルが散逸的であり、勾配が一様連続である場合、ギブス分布を任意の精度で近似できることを示す。 また、凸性や連続微分性のない分布に対して球面平滑化を有するランゲヴィン型アルゴリズムを提案する。

We study Langevin-type algorithms for sampling from Gibbs distributions such that the potentials are dissipative and their weak gradients have finite moduli of continuity not necessarily convergent to zero. Our main result is a non-asymptotic upper bound of the 2-Wasserstein distance between a Gibbs distribution and the law of general Langevin-type algorithms based on the Liptser--Shiryaev theory and Poincar\'{e} inequalities. We apply this bound to show that the Langevin Monte Carlo algorithm can approximate Gibbs distributions with arbitrary accuracy if the potentials are dissipative and their gradients are uniformly continuous. We also propose Langevin-type algorithms with spherical smoothing for distributions whose potentials are not convex or continuously differentiable.
翻訳日:2023-05-10 20:29:04 公開日:2023-05-09
# ProphNet: アンカーインフォームド提案による効率的なエージェント中心運動予測

ProphNet: Efficient Agent-Centric Motion Forecasting with Anchor-Informed Proposals ( http://arxiv.org/abs/2303.12071v2 )

ライセンス: Link先を確認
Xishun Wang, Tong Su, Fang Da, Xiaodong Yang(参考訳) モーション予測は自動運転システムにおいて重要なモジュールである。 マルチソース入力の異質性、エージェントの動作におけるマルチモダリティ、オンボード配置に必要な低レイテンシのため、このタスクは悪名高い課題である。 このような問題に対処するため,本研究では,効率的なマルチモーダル動作予測のためのアンカーインフォームド提案を用いたエージェント中心モデルを提案する。 複雑な入力を簡潔に統一的に符号化するモダリティ非依存戦略を設計する。 我々は,目標志向のシーンコンテキストを持つアンカーと融合した多様な提案を生成し,幅広い将来の軌跡をカバーするマルチモーダル予測を誘導する。 我々のネットワークアーキテクチャは高度に均一で簡潔であり、現実の運転環境に適応できる効率的なモデルに繋がる。 実験により,エージェント中心のネットワークは予測精度において最先端の手法と好適に比較され,シーン中心レベルの推論レイテンシが達成された。

Motion forecasting is a key module in an autonomous driving system. Due to the heterogeneous nature of multi-sourced input, multimodality in agent behavior, and low latency required by onboard deployment, this task is notoriously challenging. To cope with these difficulties, this paper proposes a novel agent-centric model with anchor-informed proposals for efficient multimodal motion prediction. We design a modality-agnostic strategy to concisely encode the complex input in a unified manner. We generate diverse proposals, fused with anchors bearing goal-oriented scene context, to induce multimodal prediction that covers a wide range of future trajectories. Our network architecture is highly uniform and succinct, leading to an efficient model amenable for real-world driving deployment. Experiments reveal that our agent-centric network compares favorably with the state-of-the-art methods in prediction accuracy, while achieving scene-centric level inference latency.
翻訳日:2023-05-10 20:28:48 公開日:2023-05-09
# ecgと脳波分類のドメイン一般化に向けて:アルゴリズムとベンチマーク

Towards Domain Generalization for ECG and EEG Classification: Algorithms and Benchmarks ( http://arxiv.org/abs/2303.11338v2 )

ライセンス: Link先を確認
Aristotelis Ballas and Christos Diou(参考訳) 多くの分野で大きな成功を収めているが、機械学習とディープラーニングのシステムは、まだ医療におけるミッションクリティカルな応用において確固たる地位を確立していない。 主な理由の1つは、モデルが未発見の分散サンプルで提示されると、その性能が著しく低下するという事実である。 これはドメイン一般化(DG)問題として知られている。 本研究の目的は,生体信号分類におけるDG処理のための新しいアーキテクチャの導入に加えて,DGアルゴリズムの評価のためのベンチマークを提案することである。 本稿では,心電図(ecg)と脳波(eeg)に着目し,生体信号の領域一般化問題を説明し,オープンソースの生体信号dg評価ベンチマークを提案する。 さらに,コンピュータビジョンから1次元生体信号分類問題への最先端DGアルゴリズムの適用と,その有効性の評価を行った。 最後に、モデル一般化性を改善するために多層表現を活用する新しいニューラルネットワークアーキテクチャを導入する。 上記のDG設定を実装することで、ECGおよびEEGデータセットにおけるDG問題の存在を実験的に実証することができる。 さらに,提案モデルでは,ベースラインアルゴリズムよりも精度が向上し,両者のデータセットの最先端性を上回っている。 提案ベンチマークは,生体信号データセットに存在する分布変化の重要性を認識し,提案アルゴリズムの評価プロセスを簡素化し,バイオメディカルDG分野のさらなる研究を促すことを目的とする。 我々の知る限り、これはECGとEEG DGアルゴリズムを評価するためのオープンソースのフレームワークを開発するための最初の試みである。

Despite their immense success in numerous fields, machine and deep learning systems have not yet been able to firmly establish themselves in mission-critical applications in healthcare. One of the main reasons lies in the fact that when models are presented with previously unseen, Out-of-Distribution samples, their performance deteriorates significantly. This is known as the Domain Generalization (DG) problem. Our objective in this work is to propose a benchmark for evaluating DG algorithms, in addition to introducing a novel architecture for tackling DG in biosignal classification. In this paper, we describe the Domain Generalization problem for biosignals, focusing on electrocardiograms (ECG) and electroencephalograms (EEG) and propose and implement an open-source biosignal DG evaluation benchmark. Furthermore, we adapt state-of-the-art DG algorithms from computer vision to the problem of 1D biosignal classification and evaluate their effectiveness. Finally, we also introduce a novel neural network architecture that leverages multi-layer representations for improved model generalizability. By implementing the above DG setup we are able to experimentally demonstrate the presence of the DG problem in ECG and EEG datasets. In addition, our proposed model demonstrates improved effectiveness compared to the baseline algorithms, exceeding the state-of-the-art in both datasets. Recognizing the significance of the distribution shift present in biosignal datasets, the presented benchmark aims at urging further research into the field of biomedical DG by simplifying the evaluation process of proposed algorithms. To our knowledge, this is the first attempt at developing an open-source framework for evaluating ECG and EEG DG algorithms.
翻訳日:2023-05-10 20:28:31 公開日:2023-05-09
# 時間遅延を利用した貯水池計算と貯水池ネットワークの埋め込み理論

Embedding Theory of Reservoir Computing and Reducing Reservoir Network Using Time Delays ( http://arxiv.org/abs/2303.09042v2 )

ライセンス: Link先を確認
Xing-Yue Duan, Xiong Ying, Si-Yang Leng, J\"urgen Kurths, Wei Lin, Huan-Fei Ma(参考訳) Reservoir Computing(RC)は、リカレントニューラルネットワークの一種であり、異常な有効性と複雑な物理系の再構築や予測における高い性能のために爆発的な発展を遂げている。 しかし,rcの有効利用を誘発するメカニズムはいまだ不明であり,深く体系的な探索が待たれている。 ここでは、遅延埋め込み理論と一般化埋め込み理論を組み合わせることで、RCがもともと入力された非線形力学系の高次元埋め込みであることを厳密に証明する。 そこで, この埋め込み特性を用いて標準RCと時間遅延RCを統一し, ネットワークの出力層にのみ時間遅延を新たに導入し, さらに, RCにおける時間遅延とニューロン数のトレードオフ関係を求める。 この結果から,特定の物理系を再構成・予測するためにRCのネットワークサイズを著しく削減し,より驚くべきことに,時間遅延のある単一ニューロン貯水池のみを用いることで,これらの課題を達成するのに十分な場合がある。

Reservoir computing (RC), a particular form of recurrent neural network, is under explosive development due to its exceptional efficacy and high performance in reconstruction or/and prediction of complex physical systems. However, the mechanism triggering such effective applications of RC is still unclear, awaiting deep and systematic exploration. Here, combining the delayed embedding theory with the generalized embedding theory, we rigorously prove that RC is essentially a high dimensional embedding of the original input nonlinear dynamical system. Thus, using this embedding property, we unify into a universal framework the standard RC and the time-delayed RC where we novelly introduce time delays only into the network's output layer, and we further find a trade-off relation between the time delays and the number of neurons in RC. Based on this finding, we significantly reduce the network size of RC for reconstructing and predicting some representative physical systems, and, more surprisingly, only using a single neuron reservoir with time delays is sometimes sufficient for achieving those tasks.
翻訳日:2023-05-10 20:28:04 公開日:2023-05-09
# 多世界理論の複雑化

A Complication for the Many Worlds Theory ( http://arxiv.org/abs/2302.07649v3 )

ライセンス: Link先を確認
Samuel Epstein(参考訳) 多世界理論と独立命題は、多数の電子のスピンを測定する有限実験の存在を通して示されるように、対立している。 実験の後、独立性の仮定を破る禁止配列を含む正の確率の分岐が存在する。

The Many Worlds Theory and the Independence Postulate are in conflict, as shown through the existence of a finite experiment that measures the spin of a large number of electrons. After the experiment there are branches of positive probability which contain forbidden sequences that break the Independence Postulate.
翻訳日:2023-05-10 20:27:45 公開日:2023-05-09
# 3+1次元ネットワークにおけるトポロジカルスピノルのディラックゲージ理論

Dirac gauge theory for topological spinors in 3+1 dimensional networks ( http://arxiv.org/abs/2212.05621v3 )

ライセンス: Link先を確認
Ginestra Bianconi(参考訳) グラフやネットワークに関するゲージ理論は、量子重力へのアプローチだけでなく、量子計算を行うモデルとしても注目を集めている。 ここでは任意の計量に関連する3+1ドルのネットワークにおける位相スピノルに対するディラックゲージ理論を提案する。 位相スピノルは、ネットワーク上で定義される$0$-コチェーンと$$$-コチェーンの直和であり、ネットワークのノードとリンクの両方で定義される物質場を記述する。 最近はレヴュー。 \cite{bianconi2021topological} は、離散ディラック作用素によって駆動されるトポロジカルディラック方程式に従うことが示されている。 この研究では、局所理論の処理を可能にする重み付きおよび有向3+1ドルのネットワーク上でディラック方程式を定式化し、これらの結果を拡張する。 ディラック作用素の交換器と反交換器は、それぞれ理論の曲率テンソルと磁場を定義する非消滅型である。 この解釈は、提案されたディラック方程式の非相対論的極限によって確かめられる。 提案されたディラック方程式の非相対論的極限において、リンク上で定義されるスピノルのセクタは正しいジャロ磁性モーメントを持つシュル=オディンガー方程式に従うが、ノード上で定義されるスピノルのセクタはクライン=ゴルドン方程式に従い、無視できない。 提案された場の理論に関連する作用は、ディラック作用と計量作用からなる。 我々は、アベリア変換と非アベリア変換の両方の下での作用のゲージ不変性を説明し、ディラック場と計量場の場論の運動方程式を提案する。 この理論は、ほぼ平坦な空間の極限における任意の任意のネットワーク上で有効であるより一般的なゲージ理論の極限の場合と解釈できる。

Gauge theories on graphs and networks are attracting increasing attention not only as approaches to quantum gravity but also as models for performing quantum computation. Here we propose a Dirac gauge theory for topological spinors in $3+1$ dimensional networks associated to an arbitrary metric. Topological spinors are the direct sum of $0$-cochains and $1$-cochains defined on a network and describe a matter field defined on both nodes and links of a network. Recently in Ref. \cite{bianconi2021topological} it has been shown that topological spinors obey the topological Dirac equation driven by the discrete Dirac operator. In this work we extend these results by formulating the Dirac equation on weighted and directed $3+1$ dimensional networks which allow for the treatment of a local theory. The commutators and anti-commutators of the Dirac operators are non vanishing an they define the curvature tensor and magnetic field of our theory respectively. This interpretation is confirmed by the non-relativistic limit of the proposed Dirac equation. In the non-relativistic limit of the proposed Dirac equation the sector of the spinor defined on links follows the Schr\"odinger equation with the correct giromagnetic moment, while the sector of the spinor defined on nodes follows the Klein-Gordon equation and is not negligible. The action associated to the proposed field theory comprises of a Dirac action and a metric action. We describe the gauge invariance of the action under both Abelian and non-Abelian transformations and we propose the equation of motion of the field theory of both Dirac and metric fields. This theory can be interpreted as a limiting case of a more general gauge theory valid on any arbitrary network in the limit of almost flat spaces.
翻訳日:2023-05-10 20:27:23 公開日:2023-05-09
# ホップフィールドモデルのミラー降下

Mirror descent of Hopfield model ( http://arxiv.org/abs/2211.15880v2 )

ライセンス: Link先を確認
Hyungjoon Soh, Dongyeob Kim, Juno Hwang, Junghyo Jo(参考訳) ミラー降下はパラメトリックモデルの双対空間を利用して勾配降下を行うエレガントな最適化手法である。 もともと凸最適化のために開発されたが、機械学習の分野ではますます応用されている。 本研究では,ニューラルネットワークのパラメータを初期化するためにミラー降下を利用する新しい手法を提案する。 具体的には、ニューラルネットワークのプロトタイプとしてhopfieldモデルを使用することで、ランダムパラメータの初期化に依存する従来の勾配降下法に比べて、ミラー降下が大幅に改善されたモデルを効果的に訓練できることを実証する。 本研究は,機械学習モデルの最適化に期待できる初期化手法として,ミラー降下の可能性を強調した。

Mirror descent is an elegant optimization technique that leverages a dual space of parametric models to perform gradient descent. While originally developed for convex optimization, it has increasingly been applied in the field of machine learning. In this study, we propose a novel approach for utilizing mirror descent to initialize the parameters of neural networks. Specifically, we demonstrate that by using the Hopfield model as a prototype for neural networks, mirror descent can effectively train the model with significantly improved performance compared to traditional gradient descent methods that rely on random parameter initialization. Our findings highlight the potential of mirror descent as a promising initialization technique for enhancing the optimization of machine learning models.
翻訳日:2023-05-10 20:26:54 公開日:2023-05-09
# 非エルミート量子系に対する半古典的フシミ分布

Semiclassical Husimi distributions for non-Hermitian quantum systems ( http://arxiv.org/abs/2211.15336v3 )

ライセンス: Link先を確認
Joseph Hall, Simon Malzard, and Eva-Maria Graefe(参考訳) 非エルミート量子系におけるシュールベクトルの半古典位相空間密度を構築する。 各schurベクトルは単一のプランクセルに関連付けられる。 シュール状態は位相空間上の古典的ノルムの風景(非エルミート系の特徴である寿命の古典的表現)に従って組織される。 この構成の一般性を示すために、混合的およびカオス的古典力学の条件下でのPT対称キックローターを非常に非自明な例に適用する。

We construct a semiclassical phase-space density of Schur vectors in non-Hermitian quantum systems. Each Schur vector is associated to a single Planck cell. The Schur states are organised according to a classical norm landscape on phase space - a classical manifestation of the lifetimes which are characteristic of non-Hermitian systems. To demonstrate the generality of this construction we apply it to a highly non-trivial example, a PT-symmetric kicked rotor in the regimes of mixed and chaotic classical dynamics.
翻訳日:2023-05-10 20:26:43 公開日:2023-05-09
# ニューロライザー:再訓練を行わない一般画像解析

Neuralizer: General Neuroimage Analysis without Re-Training ( http://arxiv.org/abs/2305.02644v2 )

ライセンス: Link先を確認
Steffen Czolbe and Adrian V. Dalca(参考訳) セグメンテーション、再構築、登録のような神経画像処理タスクは神経科学の研究の中心である。 これらのタスクを解決するために使用される堅牢なディープラーニング戦略とアーキテクチャは、しばしば似ている。 しかし、異なる視覚的特徴を持つ新しいタスクやデータセットを提示する場合、実践者は多くの場合、新しいモデルを訓練するか、既存のものを微調整する必要がある。 これは時間を要するプロセスであり、深層学習モデルのトレーニングにリソースや機械学習の専門知識を欠く何千もの神経科学者や臨床研究者にとって大きな障壁となる。 実際には、これはディープラーニングの採用の欠如につながり、神経科学ツールは古典的なフレームワークに支配されている。 ニューロライザー(neuralizer)は、神経画像のタスクやモダリティを、再訓練や微調整を必要とせずに認識できる単一モデルである。 タスクを優先順位で知る必要はなく、推論中に1回のフォワードパスで一般化が行われる。 このモデルは、複数のイメージモダリティ、取得メソッド、データセットにわたる処理タスクを解決し、トレーニングされていないタスクやモダリティに一般化することができる。 コロナスライス実験では,アノテート対象がほとんどない場合,タスクのトレーニングを行わずにタスク固有のベースラインよりもマルチタスクネットワークが優れていることが示された。

Neuroimage processing tasks like segmentation, reconstruction, and registration are central to the study of neuroscience. Robust deep learning strategies and architectures used to solve these tasks are often similar. Yet, when presented with a new task or a dataset with different visual characteristics, practitioners most often need to train a new model, or fine-tune an existing one. This is a time-consuming process that poses a substantial barrier for the thousands of neuroscientists and clinical researchers who often lack the resources or machine-learning expertise to train deep learning models. In practice, this leads to a lack of adoption of deep learning, and neuroscience tools being dominated by classical frameworks. We introduce Neuralizer, a single model that generalizes to previously unseen neuroimaging tasks and modalities without the need for re-training or fine-tuning. Tasks do not have to be known a priori, and generalization happens in a single forward pass during inference. The model can solve processing tasks across multiple image modalities, acquisition methods, and datasets, and generalize to tasks and modalities it has not been trained on. Our experiments on coronal slices show that when few annotated subjects are available, our multi-task network outperforms task-specific baselines without training on the task.
翻訳日:2023-05-10 20:21:21 公開日:2023-05-09
# 準自由マルコフ開量子系における等角対称性

Conformal symmetry in quasi-free Markovian open quantum systems ( http://arxiv.org/abs/2305.01629v2 )

ライセンス: Link先を確認
Anatolii I. Lotkov, Denis V. Kurlov, Aleksey K. Fedorov, Nikita A. Nemkov, and Vladimir Gritsev(参考訳) 等角対称性は二階相転移に近い閉系の挙動を制御し、散逸相転移を経る開系に現れることが期待される。 オープンマルコフ系において共形対称性を明示的に記述できる枠組みを提案する。 閉ケースとの主な違いは、共形代数と局所体の代数の両方が超作用素の空間上で実現されることである。 二次ハミルトニアンと線形ジャンプ作用素を持つ系を特徴とする一連の例によって、この枠組みを例示し、リウヴィリアン力学を第三量子化の形式的手法を用いて効率的に解析する。 我々は,コンフォメーションブートストラップの適切な一般化を用いて,我々のフレームワークを対話システムに拡張できることを期待する。

Conformal symmetry governs the behavior of closed systems near second-order phase transitions, and is expected to emerge in open systems going through dissipative phase transitions. We propose a framework allowing for a manifest description of conformal symmetry in open Markovian systems. The key difference from the closed case is that both conformal algebra and the algebra of local fields are realized on the space of superoperators. We illustrate the framework by a series of examples featuring systems with quadratic Hamiltonians and linear jump operators, where the Liouvillian dynamics can be efficiently analyzed using the formalism of third quantization. We expect that our framework can be extended to interacting systems using an appropriate generalization of the conformal bootstrap.
翻訳日:2023-05-10 20:20:59 公開日:2023-05-09
# 対称性、制約、長距離相互作用をまたいだ創発的流体力学とリンドブラッド低エネルギースペクトルの統一化

Unifying Emergent Hydrodynamics and Lindbladian Low Energy Spectra across Symmetries, Constraints, and Long-Range Interactions ( http://arxiv.org/abs/2304.13028v2 )

ライセンス: Link先を確認
Olumakinde Ogunnaike, Johannes Feldmeier, Jong Yeon Lee(参考訳) 種々の対称性,制約,相互作用範囲を有するブラウンランダム回路において電荷輸送を制御する創発的流体力学を同定する。 これは、二重ヒルベルト空間において有効ハミルトニアンとして作用するリンドブラッド作用素の平均動力学と低エネルギースペクトルの間の写像によって達成される。 単一モード近似を用いて、この有効ハミルトニアンの分散励起状態を明示的に構成することにより、保存された多極モーメントと可変相互作用範囲を持つ多体系における拡散的、劣微分的、超拡散的緩和の包括的理解を提供する。 我々はさらに,双極子保存が存在するにもかかわらず拡散緩和を示すエキゾチックなクリロフ空間分解流体力学を同定し,数値的に検証する。 このアプローチは、ランダムなユニタリ時間発展の下で保存された演算子のダイナミクスを定性的に理解するための汎用的で汎用的なフレームワークを提供する。

We identify emergent hydrodynamics governing charge transport in Brownian random circuits with various symmetries, constraints, and ranges of interactions. This is accomplished via a mapping between the averaged dynamics and the low energy spectrum of a Lindblad operator, which acts as an effective Hamiltonian in a doubled Hilbert space. By explicitly constructing dispersive excited states of this effective Hamiltonian using a single mode approximation, we provide a comprehensive understanding of diffusive, subdiffusive, and superdiffusive relaxation in many-body systems with conserved multipole moments and variable interaction ranges. Our approach further allows us to identify exotic Krylov-space-resolved hydrodynamics exhibiting diffusive relaxation despite the presence of dipole conservation, which we verify numerically. Our approach provides a general and versatile framework to qualitatively understand the dynamics of conserved operators under random unitary time evolution.
翻訳日:2023-05-10 20:20:47 公開日:2023-05-09
# 極厚六方晶窒化ホウ素の光学活性スピン欠陥

Optically-active spin defects in few-layer thick hexagonal boron nitride ( http://arxiv.org/abs/2304.12071v2 )

ライセンス: Link先を確認
A. Durand, T. Clua-Provost, F. Fabre, P. Kumar, J. Li, J. H. Edgar, P. Udvarhelyi, A. Gali, X. Marie, C. Robert, J. M. G\'erard, B. Gil, G. Cassabois, and V. Jacques(参考訳) 六方晶窒化ホウ素(hBN)の光学活性スピン欠陥は、試料に最適に近接する2次元量子センシングユニットの設計に期待できる量子システムである。 本研究は, ホウ素空洞中心(v$__\text{b}^-$)の電子スピン共鳴周波数を, 結晶表面のナノスケールの近接にもかかわらず, 数原子層厚のhbnフレークの限界で光学的に検出できることを最初に証明した。 次に、集中したhBN厚のV$_\text{B}^-$中心の電子スピン特性の変化を分析する。 (i)ゼロフィールド分割パラメータ。 (ii)光誘起スピン偏光率及び (iii)縦スピン緩和時間。 本研究は,超薄型hbnフレークに埋め込まれたv$_\text{b}^-$センターの特性に関する重要な知見を提供する。

Optically-active spin defects in hexagonal boron nitride (hBN) are promising quantum systems for the design of two-dimensional quantum sensing units offering optimal proximity to the sample being probed. In this work, we first demonstrate that the electron spin resonance frequencies of boron vacancy centres (V$_\text{B}^-$) can be detected optically in the limit of few-atomic-layer thick hBN flakes despite the nanoscale proximity of the crystal surface that often leads to a degradation of the stability of solid-state spin defects. We then analyze the variations of the electronic spin properties of V$_\text{B}^-$ centres with the hBN thickness with a focus on (i) the zero-field splitting parameters, (ii) the optically-induced spin polarization rate and (iii) the longitudinal spin relaxation time. This work provides important insights into the properties of V$_\text{B}^-$ centres embedded in ultrathin hBN flakes, which are valuable for future developments of foil-based quantum sensing technologies.
翻訳日:2023-05-10 20:20:28 公開日:2023-05-09
# 消滅量子の「デコヒーレンスのパズル」のドアを閉じる

Closing the Door on the "Puzzle of Decoherence'' of Annihilation Quanta ( http://arxiv.org/abs/2304.11362v4 )

ライセンス: Link先を確認
Siddharth Parashari, Damir Bosnar, Ivica Fri\v{s}\v{c}i\'c, Zdenka Kuncic, Mihael Makek(参考訳) パラポジトロニウム消滅では、ポジトロントモグラフィを用いた医療画像における信号対バックグラウンドを改善する可能性から、新興ガンマ量子の偏光相関の探索が注目されている。 消滅量子は絡み合った状態であると予測され、直交分極を持ち、この性質を利用して背景に寄与する2つの非相関ガンマ光子と区別することができる。 先行コンプトン散乱による脱コヒーレンス過程後の脱コヒーレンス量子の偏極相関に関する最近の実験的研究は、脱コヒーレンス後の相関の強さに関してかなり異なる結論を示し、そのパズリングの性質を示した。 本研究は,単層ガンマ線偏光計を用いた角距離$0^\circ-50^\circ$におけるコンプトン散乱による脱コヒーレンス後の消滅量子の偏光相関を初めて行う。 さらに,30^\circ$でのコンプトン散乱後の偏光相関を,アクティブおよびパッシブ散乱素子と比較した。 その結果、偏光変調係数で表される相関は、直接光子で測定された相関値と比較して小さな散乱角(0^\circ-30^\circ$)では有意な差は見られず、50^\circ$散乱角では低い変調が観測された。

In para-positronium annihilation, exploration of the polarization correlations of the emerging gamma quanta has gained interest, since it offers a possibility to improve signal-to-background in medical imaging using positron emission tomography. The annihilation quanta, which are predicted to be in an entangled state, have orthogonal polarizations and this property may be exploited to discriminate them from two uncorrelated gamma photons contributing to the background. Recent experimental studies of polarization correlations of the annihilation quanta after a decoherence process induced by a prior Compton scattering of one of them, had rather different conclusions regarding the strength of the correlation after the decoherence, showing its puzzling nature. In the present work, we perform for the first time, a study of the polarization correlations of annihilation quanta after decoherence via Compton scattering in the angular range $0^\circ-50^\circ$ using single-layer gamma ray polarimeters. In addition, we compare the measured polarization correlations after Compton scattering at $30^\circ$ with an active and a passive scatterer element. The results indicate that the correlation, expressed in terms of the polarimetric modulation factor, shows no significant difference at small scattering angles ($0^\circ-30^\circ$) compared to the correlation measured for direct photons, while lower modulation was observed for $50^\circ$ scattering angle.
翻訳日:2023-05-10 20:20:09 公開日:2023-05-09
# 画像のデノイジング法の比較

A Comparison of Image Denoising Methods ( http://arxiv.org/abs/2304.08990v2 )

ライセンス: Link先を確認
Zhaoming Kong, Fangxi Deng, Haomin Zhuang, Jun Yu, Lifang He and Xiaowei Yang(参考訳) 画像デバイスや毎日生成される無数の画像の進歩は、画像のノイズの増大を招き、効果と効率の両面で依然として困難な課題となっている。 復調性を改善するために、様々な変換、正規化項、代数表現、特に高度な深層ニューラルネットワーク(DNN)アーキテクチャを含む多くの復調技術とアプローチが近年提案されている。 その洗練度にもかかわらず、多くの方法が同時ノイズ除去と細部保存のための望ましい結果を達成することができない可能性がある。 本稿では,既存のデノイジング手法の適用性を検討するために,合成データと実世界データの両方における様々なデノイジング手法を比較した。 また、ベンチマークのための新しいデータセットを導入し、定量的指標、視覚効果、人格評価、計算コストの4つの観点から評価を行った。 私たちの実験は (i)各種課題に対する代表的伝統的代名詞の有効性と効率 (ii) 単純な行列ベースのアルゴリズムは、テンソルと同じような結果が得られる可能性があり、 3) DNNモデルの顕著な成果は, 様々なデータセットにおいて, 優れた一般化能力を示し, 最先端の性能を示すものである。 近年の進歩にもかかわらず、既存の技術の欠点と拡張の可能性について論じる。 データセット、コード、結果は公開され、https://github.com/zhaomingkong/denoising-comparisonで継続的に更新される。

The advancement of imaging devices and countless images generated everyday pose an increasingly high demand on image denoising, which still remains a challenging task in terms of both effectiveness and efficiency. To improve denoising quality, numerous denoising techniques and approaches have been proposed in the past decades, including different transforms, regularization terms, algebraic representations and especially advanced deep neural network (DNN) architectures. Despite their sophistication, many methods may fail to achieve desirable results for simultaneous noise removal and fine detail preservation. In this paper, to investigate the applicability of existing denoising techniques, we compare a variety of denoising methods on both synthetic and real-world datasets for different applications. We also introduce a new dataset for benchmarking, and the evaluations are performed from four different perspectives including quantitative metrics, visual effects, human ratings and computational cost. Our experiments demonstrate: (i) the effectiveness and efficiency of representative traditional denoisers for various denoising tasks, (ii) a simple matrix-based algorithm may be able to produce similar results compared with its tensor counterparts, and (iii) the notable achievements of DNN models, which exhibit impressive generalization ability and show state-of-the-art performance on various datasets. In spite of the progress in recent years, we discuss shortcomings and possible extensions of existing techniques. Datasets, code and results are made publicly available and will be continuously updated at https://github.com/ZhaomingKong/Denoising-Comparison.
翻訳日:2023-05-10 20:19:43 公開日:2023-05-09
# samが医用画像に出会うとき:多相肝腫瘍分画におけるsegment anything model(sam)の検討

When SAM Meets Medical Images: An Investigation of Segment Anything Model (SAM) on Multi-phase Liver Tumor Segmentation ( http://arxiv.org/abs/2304.08506v4 )

ライセンス: Link先を確認
Chuanfei Hu, Tianyi Xia, Shenghong Ju, Xinde Li(参考訳) 大規模なサンプルなしでセグメンテーションを学ぶことは、人間の固有の能力である。 最近、segment anything model (sam)は、コンピュータビジョンコミュニティからかなりの注目を集めるゼロショット画像のセグメンテーションを実行する。 本稿では,医療画像解析におけるSAMの有用性,特にMPLiTS(multi-phase liver tumor segmentation)について,プロンプト,データ分解能,位相の観点から検討する。 実験の結果、SAMと期待性能の間に大きなギャップがあることが示されている。 幸いなことに、質的な結果はSAMがインタラクティブな医療画像セグメンテーションのコミュニティにとって強力なアノテーションツールであることを示している。

Learning to segmentation without large-scale samples is an inherent capability of human. Recently, Segment Anything Model (SAM) performs the significant zero-shot image segmentation, attracting considerable attention from the computer vision community. Here, we investigate the capability of SAM for medical image analysis, especially for multi-phase liver tumor segmentation (MPLiTS), in terms of prompts, data resolution, phases. Experimental results demonstrate that there might be a large gap between SAM and expected performance. Fortunately, the qualitative results show that SAM is a powerful annotation tool for the community of interactive medical image segmentation.
翻訳日:2023-05-10 20:19:02 公開日:2023-05-09
# $\texttt{banditq}: 腕当たりの報酬が保証された公正なマルチアームのバンディット

$\texttt{BanditQ}:$ Fair Multi-Armed Bandits with Guaranteed Rewards per Arm ( http://arxiv.org/abs/2304.05219v2 )

ライセンス: Link先を確認
Abhishek Sinha(参考訳) upper confidence bound (\texttt{ucb}$) アルゴリズム、$\texttt{hedge}$、$\texttt{exp3}$の変種を含む古典的なno-regretオンライン予測アルゴリズムは、本質的に設計上不公平である。 この不公平さは、N$の腕の中で報酬の少ない腕を無視しながら、できるだけ多くの報酬を得られる腕を演奏するという、非常に目的に起因している。 本稿では,一組の武器に対する報酬の累積率に対して,厳格な下界を持つ確率的設定における公平な予測問題を考える。 フルとバンディットの両方のフィードバック設定で問題を調べます。 本稿では, 待ち行列理論と敵対学習を併用して, 目標報酬率を達成し, 後悔と目標レート違反の罰則を達成できる, $\texttt{BanditQ}$という新しいオンライン予測ポリシーを提案する。 完全な情報設定では、長さ$T$の地平線全体の平均的後悔を考えると、後悔境界はさらに$O(\sqrt{T})$に改善できる。 提案手法は効率的で,公正な予測問題から標準MAB問題へのブラックボックス還元を,慎重に定義された報酬列で許容する。 $\texttt{BanditQ}$ポリシーの設計と解析は、スケールフリーな2階後悔境界と独立な利害関係を持つ報酬勾配に対する新たな自己有界不等式と共にポテンシャル関数法を新しく使用することを含む。

Classic no-regret online prediction algorithms, including variants of the Upper Confidence Bound ($\texttt{UCB}$) algorithm, $\texttt{Hedge}$, and $\texttt{EXP3}$, are inherently unfair by design. The unfairness stems from their very objective of playing the most rewarding arm as many times as possible while ignoring the less rewarding ones among $N$ arms. In this paper, we consider a fair prediction problem in the stochastic setting with hard lower bounds on the rate of accrual of rewards for a set of arms. We study the problem in both full and bandit feedback settings. Using queueing-theoretic techniques in conjunction with adversarial learning, we propose a new online prediction policy called $\texttt{BanditQ}$ that achieves the target reward rates while achieving a regret and target rate violation penalty of $O(T^{\frac{3}{4}}).$ In the full-information setting, the regret bound can be further improved to $O(\sqrt{T})$ when considering the average regret over the entire horizon of length $T$. The proposed policy is efficient and admits a black-box reduction from the fair prediction problem to the standard MAB problem with a carefully defined sequence of rewards. The design and analysis of the $\texttt{BanditQ}$ policy involve a novel use of the potential function method in conjunction with scale-free second-order regret bounds and a new self-bounding inequality for the reward gradients, which are of independent interest.
翻訳日:2023-05-10 20:18:41 公開日:2023-05-09
# 深層学習による恒星変動の存在下での惑星ラジアル速度の測定

Deep-learning based measurement of planetary radial velocities in the presence of stellar variability ( http://arxiv.org/abs/2304.04807v3 )

ライセンス: Link先を確認
Ian Colwell, Virisha Timmaraju, Alexander Wise(参考訳) 恒星変動の存在下での小さな惑星半径速度を測定するための深層学習に基づくアプローチを提案する。 我々は、HARPS-N Sun-as-a-starスペクトルの3年間の恒星RVジッタを低減するためにニューラルネットワークを使用する。 本稿では,次元還元法とデータ分割法と,一線cnn,一線cnnのアンサンブル,多線cnnを含む様々なニューラルネットワークアーキテクチャを構築し,比較する。 我々は、惑星のようなRVをスペクトルに注入し、ネットワークを使ってそれらを回復する。 マルチラインcnnは、0.2m/sの半振幅、50日周期の惑星を8.8%の誤差と0.7%の振幅で回収できることがわかった。 このアプローチは、恒星のRV変動を緩和し、前例のない精度で小さな惑星のRVを検出することを約束している。

We present a deep-learning based approach for measuring small planetary radial velocities in the presence of stellar variability. We use neural networks to reduce stellar RV jitter in three years of HARPS-N sun-as-a-star spectra. We develop and compare dimensionality-reduction and data splitting methods, as well as various neural network architectures including single line CNNs, an ensemble of single line CNNs, and a multi-line CNN. We inject planet-like RVs into the spectra and use the network to recover them. We find that the multi-line CNN is able to recover planets with 0.2 m/s semi-amplitude, 50 day period, with 8.8% error in the amplitude and 0.7% in the period. This approach shows promise for mitigating stellar RV variability and enabling the detection of small planetary RVs with unprecedented precision.
翻訳日:2023-05-10 20:17:59 公開日:2023-05-09
# プロキシ変数を用いたサブサンプル時系列からの因果発見

Causal Discovery from Subsampled Time Series with Proxy Variables ( http://arxiv.org/abs/2305.05276v1 )

ライセンス: Link先を確認
Mingzhou Liu, Xinwei Sun, Lingjing Hu, Yizhou Wang(参考訳) 時系列データから因果構造を推測することは、多くの科学調査の中心的な関心事である。 このような推論に対する大きな障壁は、サブサンプリングの問題、すなわち、測定の頻度が因果影響よりもずっと低いことである。 この問題を解決するために、多くのモデルベースおよびモデルフリーな手法が提案されているが、線形ケースに限られるか、識別可能性の確立に失敗した。 本研究では,パラメトリック制約を伴わずに,サブサンプリング時系列から因果構造全体を同定できるモデルフリーアルゴリズムを提案する。 サブサンプリングの課題は、主に \emph{unobserved} の時間ステップから生じ、従って、観測されていない変数のために設計されたツールで扱うべきである。 これらのツールのうち、特にプロキシ変数のアプローチは、観測されていない変数のプロキシ自体が観察された時間ステップにあるという意味で適合する。 この直感に従って,包括的構造識別可能性結果を確立する。 我々の手法は制約ベースであり、共通連続性と微分可能性以上の規則性を必要としない。 理論的利点は実験結果に反映される。

Inferring causal structures from time series data is the central interest of many scientific inquiries. A major barrier to such inference is the problem of subsampling, i.e., the frequency of measurements is much lower than that of causal influence. To overcome this problem, numerous model-based and model-free methods have been proposed, yet either limited to the linear case or failed to establish identifiability. In this work, we propose a model-free algorithm that can identify the entire causal structure from subsampled time series, without any parametric constraint. The idea is that the challenge of subsampling arises mainly from \emph{unobserved} time steps and therefore should be handled with tools designed for unobserved variables. Among these tools, we find the proxy variable approach particularly fits, in the sense that the proxy of an unobserved variable is naturally itself at the observed time step. Following this intuition, we establish comprehensive structural identifiability results. Our method is constraint-based and requires no more regularities than common continuity and differentiability. Theoretical advantages are reflected in experimental results.
翻訳日:2023-05-10 19:52:22 公開日:2023-05-09
# IBM量子シミュレータにおける整数分解性能のスケーラブル評価

A Scalable Evaluation of Integer Factorization Performance on IBM Quantum Simulator ( http://arxiv.org/abs/2305.05249v1 )

ライセンス: Link先を確認
Junseo Lee, Kibum Bae, Chang-Nyoung Song, Hyunchul Jung(参考訳) 量子技術の発展に伴い、量子コンピューティングシミュレータの性能は成熟し続けている。 サイバーセキュリティに対する量子コンピューティングの潜在的な脅威を考えると、現在の観点から実際に起こりうる可能性を評価する必要がある。 本研究では,ゲート型量子計算シミュレータである simulator\_mps において多くの数値が与えられたshor のアルゴリズムを用いて,整数分解時間を測定する。 また,shorのアルゴリズムの事前選択が与える影響について述べる。 具体的には、プリセレクションにより整数分解の成功率が減少し、固定条件下での性能測定が可能となる。 パラメータのランダム選択に対する比較結果は、パラメータの事前選択により、高い効率で整数分解をスケーラブルに評価できることを示している。

With the development of quantum technologies, the performance of quantum computing simulators continues to be matured. Given the potential threat of quantum computing to cyber security, it is required to assess the possibility in practice from a current point of view. In this research, we scalably measure the integer factorization time using Shor's algorithm given numerous numbers in the gate-based quantum computing simulator, simulator\_mps. Also, we show the impact of the pre-selection of Shor's algorithm. Specifically, the pre-selection ensures the success rate of integer factorization with a reduced number of iterations, thereby enabling performance measurement under fixed conditions. The comparative result against the random selection of a parameter shows that the pre-selection of a parameter enables scalable evaluation of integer factorization with high efficiency.
翻訳日:2023-05-10 19:52:04 公開日:2023-05-09
# 強磁性超流体中の気泡形成による偽真空崩壊の観測

Observation of false vacuum decay via bubble formation in ferromagnetic superfluids ( http://arxiv.org/abs/2305.05225v1 )

ライセンス: Link先を確認
Alessandro Zenesini, Anna Berti, Riccardo Cominotti, Chiara Rogora, Ian G. Moss, Thomas P. Billam, Iacopo Carusotto, Giacomo Lamporesi, Alessio Recati, Gabriele Ferrari(参考訳) 場の量子論において、拡張準安定状態の実際の基底状態への崩壊は 'false vacuum decay' と呼ばれ、空間的局所化された気泡の核化によって起こる。 核生成速度を推定する大きな理論的な努力にもかかわらず、実験的な観察はいまだに欠けていた。 ここでは, 分離・高度に制御可能な超流動原子系の気泡核形成を観察し, 原子系の非平衡量子場現象のエミュレーションへの道を開いた結果, 数値シミュレーション, インスタントン理論との良好な一致を見出した。

In quantum field theory, the decay of an extended metastable state into the real ground state is known as ``false vacuum decay'' and it takes place via the nucleation of spatially localized bubbles. Despite the large theoretical effort to estimate the nucleation rate, experimental observations were still missing. Here, we observe bubble nucleation in isolated and highly controllable superfluid atomic systems, and we find good agreement between our results, numerical simulations and instanton theory opening the way to the emulation of out-of-equilibrium quantum field phenomena in atomic systems.
翻訳日:2023-05-10 19:51:52 公開日:2023-05-09
# グラフニューラルネットワークによる粒状流れのサーロゲートモデル

Graph Neural Network-based surrogate model for granular flows ( http://arxiv.org/abs/2305.05218v1 )

ライセンス: Link先を確認
Yongjin Choi, Krishna Kumar(参考訳) 粒状流の正確なシミュレーションは地すべりや土石流を含む様々な地質学的リスクを評価するのに不可欠である。 粒状流は、固体状から流体状への複雑な遷移を示す粒子の動的再配置を伴う。 従来の連続法と離散法は、大規模システムのシミュレーションにおける計算コストによって制限される。 統計モデルや機械学習ベースのモデルは代替手段を提供する。 それでも、それらは主に経験的であり、限られたパラメータセットに基づいている。 順列依存学習のため、従来の機械学習ベースのモデルは一般化するために巨大なトレーニングデータを必要とする。 これらの問題を解決するために、局所的な相互作用を学習する最先端の機械学習アーキテクチャであるグラフニューラルネットワークを使用する。 グラフは粒度が動的に変化する状態と、粒子間のエネルギーや運動量交換のような相互作用則を表す。 局所的相互作用則を学習することにより,グラニュラーフローの現在の状態をとり,オイラー明示積分を用いて次の状態を予測できるグラフニューラルネットワークベースシミュレータ(gns)を開発した。 我々は異なる粒状軌道でGNSを訓練する。 次に粒界崩壊を予測することにより, GNSの性能を評価する。 GNSは、トレーニング中に見つからないアスペクト比が異なるカラム崩壊のフローダイナミクスを正確に予測する。 GNSは高忠実度数値シミュレータよりも数百倍高速である。 モデルはトレーニングデータよりもはるかに大きな領域に一般化し、トレーニングされた粒子の2倍以上の数を処理します。

Accurate simulation of granular flow dynamics is crucial for assessing various geotechnical risks, including landslides and debris flows. Granular flows involve a dynamic rearrangement of particles exhibiting complex transitions from solid-like to fluid-like responses. Traditional continuum and discrete numerical methods are limited by their computational cost in simulating large-scale systems. Statistical or machine learning-based models offer an alternative. Still, they are largely empirical, based on a limited set of parameters. Due to their permutation-dependent learning, traditional machine learning-based models require huge training data to generalize. To resolve these problems, we use a graph neural network, a state-of-the-art machine learning architecture that learns local interactions. Graphs represent the state of dynamically changing granular flows and the interaction laws, such as energy and momentum exchange between grains. We develop a graph neural network-based simulator (GNS) that takes the current state of granular flow and predicts the next state using Euler explicit integration by learning the local interaction laws. We train GNS on different granular trajectories. We then assess the performance of GNS by predicting granular column collapse. GNS accurately predicts flow dynamics for column collapses with different aspect ratios unseen during training. GNS is hundreds of times faster than high-fidelity numerical simulators. The model also generalizes to domains much larger than the training data, handling more than twice the number of particles than it was trained on.
翻訳日:2023-05-10 19:51:41 公開日:2023-05-09
# ディープラーニング応用のためのパラメータ化U-bendフローのデータセット

Dataset of a parameterized U-bend flow for Deep Learning Applications ( http://arxiv.org/abs/2305.05216v1 )

ライセンス: Link先を確認
Jens Decke, Olaf W\"unsch, Bernhard Sick(参考訳) このデータセットは、u-bend形状の1万の流体流と伝熱シミュレーションを含んでいる。 それぞれのパラメータは28の設計パラメータによって記述され、計算流体力学の助けを借りて処理される。 データセットは、設計最適化の分野から様々な問題や方法を調査するための包括的なベンチマークを提供する。 これらの調査には、半教師付きおよび教師なしのディープラーニングアプローチを用いることができる。 このデータセットのユニークな特徴の1つは、各形状が設計パラメータと目的の組み合わせ、幾何学からの2d画像の5つの異なる解像度、数値シミュレーションの解変数、および数値メッシュのセル値を用いた表現を含む3つの異なるデータ型で表現できることである。 この第3の表現は、深層学習アプローチのための数値シミュレーションの特定のデータ構造を考慮できる。 この作業の一環として、ソースコードとデータ生成に使用されるコンテナが公開される。

This dataset contains 10,000 fluid flow and heat transfer simulations in U-bend shapes. Each of them is described by 28 design parameters, which are processed with the help of Computational Fluid Dynamics methods. The dataset provides a comprehensive benchmark for investigating various problems and methods from the field of design optimization. For these investigations supervised, semi-supervised and unsupervised deep learning approaches can be employed. One unique feature of this dataset is that each shape can be represented by three distinct data types including design parameter and objective combinations, five different resolutions of 2D images from the geometry and the solution variables of the numerical simulation, as well as a representation using the cell values of the numerical mesh. This third representation enables considering the specific data structure of numerical simulations for deep learning approaches. The source code and the container used to generate the data are published as part of this work.
翻訳日:2023-05-10 19:51:20 公開日:2023-05-09
# 日本語自己監督音声表現モデルにおける言語依存の探索

Exploration of Language Dependency for Japanese Self-Supervised Speech Representation Models ( http://arxiv.org/abs/2305.05201v1 )

ライセンス: Link先を確認
Takanori Ashihara, Takafumi Moriya, Kohei Matsuura, Tomohiro Tanaka(参考訳) 自己教師付き学習(ssl)は、単言語だけでなく、言語横断環境でも劇的に成功している。 しかし、この2つの設定は一般に個別に研究されているため、モノリンガルモデルと比較した場合の言語間モデルの有効性についてはほとんど研究されていない。 本稿では,日本語自動音声認識(asr)タスクを用いて,この基本課題を実証的に検討する。 まず,音響領域を可能な限り同一に保ちながら,言語横断型および単言語型モデルのasr性能を2つの異なる言語タスクで比較する。 そこで本研究では,何万時間にも及ぶ英語データや多言語データで事前学習された言語間比較モデルと同等の性能を実現するために,日本語で収集されたラベルなしデータについて検討する。 最後に,日本語におけるSSLの有効性を広く検討し,複数のASRタスクにおける最先端性能を示す。 日本語のSSL研究は包括的ではないので,本研究が日本のSSL研究を導くことを願っている。

Self-supervised learning (SSL) has been dramatically successful not only in monolingual but also in cross-lingual settings. However, since the two settings have been studied individually in general, there has been little research focusing on how effective a cross-lingual model is in comparison with a monolingual model. In this paper, we investigate this fundamental question empirically with Japanese automatic speech recognition (ASR) tasks. First, we begin by comparing the ASR performance of cross-lingual and monolingual models for two different language tasks while keeping the acoustic domain as identical as possible. Then, we examine how much unlabeled data collected in Japanese is needed to achieve performance comparable to a cross-lingual model pre-trained with tens of thousands of hours of English and/or multilingual data. Finally, we extensively investigate the effectiveness of SSL in Japanese and demonstrate state-of-the-art performance on multiple ASR tasks. Since there is no comprehensive SSL study for Japanese, we hope this study will guide Japanese SSL research.
翻訳日:2023-05-10 19:51:05 公開日:2023-05-09
# 層状半無限領域における地震波インバージョンのための物理インフォームニューラルネットワーク

Physics-informed neural network for seismic wave inversion in layered semi-infinite domain ( http://arxiv.org/abs/2305.05150v1 )

ライセンス: Link先を確認
Pu Ren, Chengping Rao, Hao Sun, Yang Liu(参考訳) 地球地下の物質分布の推定は地震学と地震工学において難しい課題である。 物理インフォームドニューラルネットワーク(PINN)の最近の発展により、地震インバージョンに新たな光が放たれた。 本稿では,層状(1D)半無限領域における地震波インバージョンのためのPINNフレームワークを提案する。 吸収境界条件は、過大な計算を避けるためのソフトレギュレータとしてネットワークに組み込まれる。 具体的には,未知の物質分布を学習する軽量ネットワークと,解変数を近似するディープニューラルネットワークを設計した。 ネットワーク全体がエンドツーエンドであり、スパース測定データと基礎となる物理法則(すなわち、方程式と初期/境界条件)によって制約される。 1次元半無限領域における地震波伝播の逆モデリングに対する提案手法の有効性を検証するため,様々な実験を行った。

Estimating the material distribution of Earth's subsurface is a challenging task in seismology and earthquake engineering. The recent development of physics-informed neural network (PINN) has shed new light on seismic inversion. In this paper, we present a PINN framework for seismic wave inversion in layered (1D) semi-infinite domain. The absorbing boundary condition is incorporated into the network as a soft regularizer for avoiding excessive computation. In specific, we design a lightweight network to learn the unknown material distribution and a deep neural network to approximate solution variables. The entire network is end-to-end and constrained by both sparse measurement data and the underlying physical laws (i.e., governing equations and initial/boundary conditions). Various experiments have been conducted to validate the effectiveness of our proposed approach for inverse modeling of seismic wave propagation in 1D semi-infinite domain.
翻訳日:2023-05-10 19:50:51 公開日:2023-05-09
# AIに、AIに、ローカルに買うか、ローカルに買わないか:真価の数学的理論

To AI or not to AI, to Buy Local or not to Buy Local: A Mathematical Theory of Real Price ( http://arxiv.org/abs/2305.05134v1 )

ライセンス: Link先を確認
Huan Cai, Catherine Xu and Weiyu Xu(参考訳) 過去数十年間、世界の経済はますますグローバル化してきた。 一方、地元で生産される商品やサービスを遠くから購入する「ブイ・ローカル」の実践を提唱する考え方もある。 本稿では,エージェントの支出と得られる効用との最適トレードオフを達成するエージェントの最適グローバル対局所的支出を決定する実価格の数学的理論を定式化する。 我々の実価格理論は、生産者と消費者のネットワークに関連するマルコフ連鎖遷移確率行列の漸近解析に依存する。 製品やサービスの実際の価格は、関連するマルコフ連鎖行列から決定でき、製品のラベル価格と劇的に異なる可能性があることを示す。 特に、製品やサービスのラベル価格は、しばしば'real'や'useful'ではなく、同じミオピックユーティリティを提供する2つの製品の場合、ラベル価格の低い製品は、必ずしもより良い漸近ユーティリティを提供するとは限らない。 この理論は、製品やサービスのグローバル性やローカリティが、顧客の消費ユーティリティトレードオフに異なる影響を与えることを示している。 現実価格に関する確立された数学的理論は、経済的な観点から特定の人工知能(AI)技術を採用するかどうかを決定するために用いられる。

In the past several decades, the world's economy has become increasingly globalized. On the other hand, there are also ideas advocating the practice of ``buy local'', by which people buy locally produced goods and services rather than those produced farther away. In this paper, we establish a mathematical theory of real price that determines the optimal global versus local spending of an agent which achieves the agent's optimal tradeoff between spending and obtained utility. Our theory of real price depends on the asymptotic analysis of a Markov chain transition probability matrix related to the network of producers and consumers. We show that the real price of a product or service can be determined from the involved Markov chain matrix, and can be dramatically different from the product's label price. In particular, we show that the label prices of products and services are often not ``real'' or directly ``useful'': given two products offering the same myopic utility, the one with lower label price may not necessarily offer better asymptotic utility. This theory shows that the globality or locality of the products and services does have different impacts on the spending-utility tradeoff of a customer. The established mathematical theory of real price can be used to determine whether to adopt or not to adopt certain artificial intelligence (AI) technologies from an economic perspective.
翻訳日:2023-05-10 19:50:39 公開日:2023-05-09
# 火炎放射器を用いたフェデレーション学習

Federated Learning Operations Made Simple with Flame ( http://arxiv.org/abs/2305.05118v1 )

ライセンス: Link先を確認
Harshit Daga, Jaemin Shin, Dhruv Garg, Ada Gavrilovska, Myungjin Lee and Ramana Rao Kompella(参考訳) 分散機械学習のアプローチは、幅広い種類の連合学習技術を含むが、広く分散されたインフラ上に機械学習アプリケーションをデプロイする場合、多くの利点をもたらす。 しかし、期待されるメリットを実現するために、必要なアプリケーションやデプロイメント固有の詳細に関する構成レベルの変更によって、運用上の大きな課題が発生します。 このような複雑さは、連合学習アプリケーションがトポロジー抽象グラフ(tags)として記述されるような、より高いレベルの抽象化 -- ロールとチャネル -- を導入することで大幅に低減することができる。 TAGは、MLアプリケーションロジックを基盤となるデプロイメントの詳細から切り離し、アプリケーションのデプロイメントを専門にすることで、開発労力を削減し、自動化とチューニングを改善するための道を開く。 これらの抽象化をサポートする最初のシステムであるfremeを紹介し,そのメリットをいくつかのユースケースで実証する。

Distributed machine learning approaches, including a broad class of federated learning techniques, present a number of benefits when deploying machine learning applications over widely distributed infrastructures. To realize the expected benefits, however, introduces substantial operational challenges due to required application and configuration-level changes related to deployment-specific details. Such complexities can be greatly reduced by introducing higher-level abstractions -- role and channel -- using which federated learning applications are described as Topology Abstraction Graphs (TAGs). TAGs decouple the ML application logic from the underlying deployment details, making it possible to specialize the application deployment, thus reducing development effort and paving the way for improved automation and tuning. We present Flame, the first system that supports these abstractions, and demonstrate its benefits for several use cases.
翻訳日:2023-05-10 19:50:19 公開日:2023-05-09
# キーワードスポッティングのための半教師付き連合学習

Semi-Supervised Federated Learning for Keyword Spotting ( http://arxiv.org/abs/2305.05110v1 )

ライセンス: Link先を確認
Enmao Diao, Eric W. Tramel, Jie Ding, Tao Zhang(参考訳) キーワードスポッティング(kws)は、モバイルデバイスや仮想アシスタントにおける音声ベースのアプリケーションの重要な側面である。 最近のfederated learning(fl)の発展は、多数の分散デバイスの計算およびプライベートデータリソースを利用することで、機械学習モデルをトレーニングする能力を大きく拡大した。 しかし、既存のFL法では、ローカルオーディオデータを扱う際に高価で実用的でない、正確な接地木ラベルを持つ必要がある。 本研究では,KWSにおける半教師付きフェデレートラーニング(SSL)とFLの有効性を最初に示す。 次に,kwsの半教師付きフェデレーション学習(ssfl)について,サーバが少数のラベル付きデータにアクセスしながら,デバイスが完全にラベル付きデータを所有している場合に適用する。 我々は,最先端のssl,fl,ssfl技術を用いて数値解析を行い,kwsモデルの性能を,デバイス上で利用可能な豊富なラベルのない異種データを活用することで大幅に向上できることを実証する。

Keyword Spotting (KWS) is a critical aspect of audio-based applications on mobile devices and virtual assistants. Recent developments in Federated Learning (FL) have significantly expanded the ability to train machine learning models by utilizing the computational and private data resources of numerous distributed devices. However, existing FL methods typically require that devices possess accurate ground-truth labels, which can be both expensive and impractical when dealing with local audio data. In this study, we first demonstrate the effectiveness of Semi-Supervised Federated Learning (SSL) and FL for KWS. We then extend our investigation to Semi-Supervised Federated Learning (SSFL) for KWS, where devices possess completely unlabeled data, while the server has access to a small amount of labeled data. We perform numerical analyses using state-of-the-art SSL, FL, and SSFL techniques to demonstrate that the performance of KWS models can be significantly improved by leveraging the abundant unlabeled heterogeneous data available on devices.
翻訳日:2023-05-10 19:50:02 公開日:2023-05-09
# 階層型フレーム間ブロックマッチングによる動的ポイントクラウド圧縮の学習

Learning Dynamic Point Cloud Compression via Hierarchical Inter-frame Block Matching ( http://arxiv.org/abs/2305.05356v1 )

ライセンス: Link先を確認
Shuting Xia, Tingyu Fan, Yiling Xu, Jenq-Neng Hwang, Zhu Li(参考訳) 3次元ダイナミックポイントクラウド(DPC)圧縮は、その時間的コンテキストのマイニングに依存しており、DPCの空間性と非一様構造のために大きな課題に直面している。 既存の手法では十分な時間依存を捉えることが制限されている。 そこで本稿では,dpc形状を潜在空間で補償・圧縮するための階層型ブロックマッチング型予測モジュールによる学習ベースのdpc圧縮フレームワークを提案する。 具体的には,光流れの粒度を動的に選択し,正確な動き情報をカプセル化するフレキシブルな予測のための階層的運動推定・運動補償(hie-me/mc)フレームワークを提案する。 提案した予測モジュールの動作推定効率を向上させるために,幾何学的特徴相関と特徴相関に基づく電位対応点の影響を判定するKNN-attention block matching (KABM)ネットワークを設計する。 最後に, 残差と多スケール光流を, 完全分解深エントロピーモデルを用いて圧縮する。 実験の結果,MPEG仕様のOwlii Dynamic Human Dynamic Point Cloud (Owlii)データセットは,フレーム間低遅延モードにおいて,従来の最先端手法とMPEG標準V-PCC v18よりも優れた性能を示した。

3D dynamic point cloud (DPC) compression relies on mining its temporal context, which faces significant challenges due to DPC's sparsity and non-uniform structure. Existing methods are limited in capturing sufficient temporal dependencies. Therefore, this paper proposes a learning-based DPC compression framework via hierarchical block-matching-based inter-prediction module to compensate and compress the DPC geometry in latent space. Specifically, we propose a hierarchical motion estimation and motion compensation (Hie-ME/MC) framework for flexible inter-prediction, which dynamically selects the granularity of optical flow to encapsulate the motion information accurately. To improve the motion estimation efficiency of the proposed inter-prediction module, we further design a KNN-attention block matching (KABM) network that determines the impact of potential corresponding points based on the geometry and feature correlation. Finally, we compress the residual and the multi-scale optical flow with a fully-factorized deep entropy model. The experiment result on the MPEG-specified Owlii Dynamic Human Dynamic Point Cloud (Owlii) dataset shows that our framework outperforms the previous state-of-the-art methods and the MPEG standard V-PCC v18 in inter-frame low-delay mode.
翻訳日:2023-05-10 19:44:39 公開日:2023-05-09
# フェデレーション学習に対するプライバシー保護機構の転換

Turning Privacy-preserving Mechanisms against Federated Learning ( http://arxiv.org/abs/2305.05355v1 )

ライセンス: Link先を確認
Marco Arazzi, Mauro Conti, Antonino Nocera and Stjepan Picek(参考訳) 近年、研究者はグラフニューラルネットワーク(GNN)を使用して、関連するエンティティ間の相互作用からパターンを学習する能力により、強化されたレコメンデータシステムの構築に成功した。 さらに,グローバルなGNNモデル構築のためのネイティブプライバシ保護機構を,単一の計算ユニットに機密データを収集することなく実現するための主要なソリューションとして,フェデレーション学習を検討した。 それでも、フェデレーションされたクライアントが生成するローカルモデル更新の分析が、機密性の高いローカルデータに関連する情報を返却できるため、プライバシの問題が発生する可能性がある。 このため、専門家たちは、フェデレーション学習と差分プライバシー戦略とコミュニティ主導のアプローチを組み合わせたソリューションを提案しました。 本稿では,このような構成において重要なセキュリティ上の欠陥を特定し,フェデレーション学習における最先端の防御を欺く攻撃をデザインする。 提案手法は, 収束抑制(攻撃モード)に着目した2つの操作モードと, グローバルフェデレートモデル(バックドアモード)への騙し的評価インジェクションの構築を目的とした2つの攻撃モードを含む。 実験の結果,バックドアモードで実施したテストの93%のケースにおいて,両モードにおける攻撃の有効性が示され,すべてのテストにおいて平均60%のパフォーマンス低下が回復した。

Recently, researchers have successfully employed Graph Neural Networks (GNNs) to build enhanced recommender systems due to their capability to learn patterns from the interaction between involved entities. In addition, previous studies have investigated federated learning as the main solution to enable a native privacy-preserving mechanism for the construction of global GNN models without collecting sensitive data into a single computation unit. Still, privacy issues may arise as the analysis of local model updates produced by the federated clients can return information related to sensitive local data. For this reason, experts proposed solutions that combine federated learning with Differential Privacy strategies and community-driven approaches, which involve combining data from neighbor clients to make the individual local updates less dependent on local sensitive data. In this paper, we identify a crucial security flaw in such a configuration, and we design an attack capable of deceiving state-of-the-art defenses for federated learning. The proposed attack includes two operating modes, the first one focusing on convergence inhibition (Adversarial Mode), and the second one aiming at building a deceptive rating injection on the global federated model (Backdoor Mode). The experimental results show the effectiveness of our attack in both its modes, returning on average 60% performance detriment in all the tests on Adversarial Mode and fully effective backdoors in 93% of cases for the tests performed on Backdoor Mode.
翻訳日:2023-05-10 19:44:15 公開日:2023-05-09
# Pedicle Screwの術中計画のための安全な深部RL

Safe Deep RL for Intraoperative Planning of Pedicle Screw Placement ( http://arxiv.org/abs/2305.05354v1 )

ライセンス: Link先を確認
Yunke Ao, Hooman Esfandiari, Fabio Carrillo, Yarden As, Mazda Farshad, Benjamin F. Grewe, Andreas Krause, and Philipp Fuernstahl(参考訳) 脊椎固定術ではペプシクルスクリューインプラントを高精度に移植する必要があるが、解剖学的に限定した重要な構造に重要な近接で行う必要がある。 ロボット手術システムは, 手術計画のリアルタイム再計算を行なわずに, 従来の手術計画や術中登録といった概念に従うため, オープンループアプローチの限界に悩まされている。 本稿では,安全な深部強化学習(DRL)に基づくドリルパス計画において,リアルタイムな観察を生かしたロボット脊椎手術の術中計画手法を提案する。 提案手法の主な貢献は,(1)不確実性を考慮した距離ベース安全フィルタの導入による安全行動の確保,(2)不完全な術中解剖情報を補う能力,(2)高忠実度解剖モデルに基づくネットワークによる解剖構造に関するアプリオリ知識を符号化することである。 計画品質は,金本位制 (gs) ドリル計画との比較により評価した。 実磁気共鳴画像(MRI)データから得られた5つのモデルを用いた実験では,観察や運動の不確実性の下でも,安全要件を満たしつつ,GSに対して90%の骨貫通を達成できた。 我々の知る限り、我々のアプローチは整形外科手術に焦点を当てた初めての安全なDRLアプローチである。

Spinal fusion surgery requires highly accurate implantation of pedicle screw implants, which must be conducted in critical proximity to vital structures with a limited view of anatomy. Robotic surgery systems have been proposed to improve placement accuracy, however, state-of-the-art systems suffer from the limitations of open-loop approaches, as they follow traditional concepts of preoperative planning and intraoperative registration, without real-time recalculation of the surgical plan. In this paper, we propose an intraoperative planning approach for robotic spine surgery that leverages real-time observation for drill path planning based on Safe Deep Reinforcement Learning (DRL). The main contributions of our method are (1) the capability to guarantee safe actions by introducing an uncertainty-aware distance-based safety filter; and (2) the ability to compensate for incomplete intraoperative anatomical information, by encoding a-priori knowledge about anatomical structures with a network pre-trained on high-fidelity anatomical models. Planning quality was assessed by quantitative comparison with the gold standard (GS) drill planning. In experiments with 5 models derived from real magnetic resonance imaging (MRI) data, our approach was capable of achieving 90% bone penetration with respect to the GS while satisfying safety requirements, even under observation and motion uncertainty. To the best of our knowledge, our approach is the first safe DRL approach focusing on orthopedic surgeries.
翻訳日:2023-05-10 19:43:50 公開日:2023-05-09
# Evidence-based Uncertainty による肝腫瘍切除

Trustworthy Multi-phase Liver Tumor Segmentation via Evidence-based Uncertainty ( http://arxiv.org/abs/2305.05344v1 )

ライセンス: Link先を確認
Chuanfei Hu, Tianyi Xia, Ying Cui, Quchen Zou, Yuancheng Wang, Wenbo Xiao, Shenghong Ju, Xinde Li(参考訳) 多相肝造影CT(Multi-phase liver contrast-enhanced Computed Tomography, CECT)画像は,肝癌の臨床的診断に重要な肝腫瘍セグメンテーション(LiTS)の相補的多相情報を伝達する。 しかし, 既存の多相肝腫瘍分画法(mplits)は冗長性, 弱い解釈性に苦しむため, 臨床応用の信頼性が暗黙的に低下した。 本稿では, 分節化と不確実性推定を共同で行う統一的な枠組みである, 信頼性の高い多相肝腫瘍分節(tmplits)を提案する。 信頼できる結果は、臨床医が信頼できる診断を行うのに役立つ。 具体的には、ディリクレ分布に続く証拠として、セグメンテーションと不確実性をパラメータ化するためにDST(Dempster-Shafer Evidence Theory)が導入された。 多相CECT画像間のセグメンテーション結果の信頼性を明示的に定量化する。 一方, 多相混合法(MEMS)は, 多相証拠を融合するために提案され, 理論解析に基づく融合処理の効果を保証できる。 実験の結果,TMPLiTSは最先端手法に比べて優れていた。 一方、TMPLiTSの堅牢性は検証され、信頼性の高い性能が摂動に対して保証される。

Multi-phase liver contrast-enhanced computed tomography (CECT) images convey the complementary multi-phase information for liver tumor segmentation (LiTS), which are crucial to assist the diagnosis of liver cancer clinically. However, the performances of existing multi-phase liver tumor segmentation (MPLiTS)-based methods suffer from redundancy and weak interpretability, % of the fused result, resulting in the implicit unreliability of clinical applications. In this paper, we propose a novel trustworthy multi-phase liver tumor segmentation (TMPLiTS), which is a unified framework jointly conducting segmentation and uncertainty estimation. The trustworthy results could assist the clinicians to make a reliable diagnosis. Specifically, Dempster-Shafer Evidence Theory (DST) is introduced to parameterize the segmentation and uncertainty as evidence following Dirichlet distribution. The reliability of segmentation results among multi-phase CECT images is quantified explicitly. Meanwhile, a multi-expert mixture scheme (MEMS) is proposed to fuse the multi-phase evidences, which can guarantee the effect of fusion procedure based on theoretical analysis. Experimental results demonstrate the superiority of TMPLiTS compared with the state-of-the-art methods. Meanwhile, the robustness of TMPLiTS is verified, where the reliable performance can be guaranteed against the perturbations.
翻訳日:2023-05-10 19:43:27 公開日:2023-05-09
# 急速回転C60フラーレンのエルゴディシデンス破断

Ergodicity breaking in rapidly rotating C60 fullerenes ( http://arxiv.org/abs/2305.05324v1 )

ライセンス: Link先を確認
Lee R. Liu, Dina Rosenberg, P. Bryan Changala, Philip J.D. Crowley, David J. Nesbitt, Norman Y. Yao, Timur Tscherbul, Jun Ye(参考訳) 統計力学の中心的要素であるエルゴディディティは、孤立系がエネルギー的および対称性の制約によって許されるすべての位相空間を探索することを要求する。 エルゴード性に違反するメカニズムは、非平衡物質を探索し、複雑な系における量子コヒーレンスを保護するために非常に興味深い。 何十年もの間、多原子分子は、特に化学反応の制御の文脈において、振動エネルギー輸送におけるエルゴディキシーの破れを見つけるための興味深く挑戦的なプラットフォームとして機能してきた。 ここでは、前例のない大きく対称な分子12C60の回転エルゴード性破壊の観察を報告する。 これは1986年に初めて12C60で予測された、任意の物理系におけるコサヘドラルロ-振動子微細構造の最初の観測によって促進された。 第1に、エルゴード系と非エルゴード系の間には、角運動量全体の増大に伴って複数の遷移があり、第2に、従来の振動エルゴード性閾値よりもかなり低い値で発生する。 これらの特異なダイナミクスは、分子の対称性、大きさ、剛性の組み合わせから生じ、メソスコピック量子系の創発的な現象を明らかにするフラーレンのポテンシャルを強調している。

Ergodicity, the central tenet of statistical mechanics, requires that an isolated system will explore all of its available phase space permitted by energetic and symmetry constraints. Mechanisms for violating ergodicity are of great interest for probing non-equilibrium matter and for protecting quantum coherence in complex systems. For decades, polyatomic molecules have served as an intriguing and challenging platform for probing ergodicity breaking in vibrational energy transport, particularly in the context of controlling chemical reactions. Here, we report the observation of rotational ergodicity breaking in an unprecedentedly large and symmetric molecule, 12C60. This is facilitated by the first ever observation of icosahedral ro-vibrational fine structure in any physical system, first predicted for 12C60 in 1986. The ergodicity breaking exhibits several surprising features: first, there are multiple transitions between ergodic and non-ergodic regimes as the total angular momentum is increased, and second, they occur well below the traditional vibrational ergodicity threshold. These peculiar dynamics result from the molecules' unique combination of symmetry, size, and rigidity, highlighting the potential of fullerenes to uncover emergent phenomena in mesoscopic quantum systems.
翻訳日:2023-05-10 19:42:59 公開日:2023-05-09
# Eiffel Tower:長期視覚的位置推定のための深海水中データセット

Eiffel Tower: A Deep-Sea Underwater Dataset for Long-Term Visual Localization ( http://arxiv.org/abs/2305.05301v1 )

ライセンス: Link先を確認
Cl\'ementin Boittiaux (IFREMER, COSMER, DYNI), Claire Dune (COSMER), Maxime Ferrera (IFREMER), Aur\'elien Arnaubec (IFREMER), Ricard Marxer (DYNI), Marjolaine Matabos (BEEP), Lo\"ic Van Audenhaege (BEEP), Vincent Hugel (COSMER)(参考訳) 視覚的ローカライゼーションは、これまで訪れた環境の中でロボットシステムの位置決めとナビゲーションにおいて重要な役割を果たす。 長い時間にわたって訪れると、季節や昼のサイクルに関連する環境の変化が大きな課題となる。 水の下での変動の原因は、水の状態や海洋生物の成長など他の要因による。 しかし、これは依然として大きな障害であり、データ不足のために研究の少ないものとなっている。 本稿では,水中の長期視覚定位をベンチマークする深海データセットを提案する。 このデータセットは、5年間で同じ熱水噴出孔への4回の訪問からの画像で構成されている。 カメラのポーズとシーンの共通形状をナビゲーションデータと構造から推定した。 これは視覚的ローカライゼーション技術を評価する際に参考となる。 データの分析は、年間を通じて観察された大きな変化についての洞察を提供する。 さらに, 水中の長期的視覚的局所化を改善する余地があることを示すために, データセット上で, 確立された視覚的局所化手法の評価を行った。 データはhttps://www.seanoe.org/data/00810/92226/で公開されている。

Visual localization plays an important role in the positioning and navigation of robotics systems within previously visited environments. When visits occur over long periods of time, changes in the environment related to seasons or day-night cycles present a major challenge. Under water, the sources of variability are due to other factors such as water conditions or growth of marine organisms. Yet it remains a major obstacle and a much less studied one, partly due to the lack of data. This paper presents a new deep-sea dataset to benchmark underwater long-term visual localization. The dataset is composed of images from four visits to the same hydrothermal vent edifice over the course of five years. Camera poses and a common geometry of the scene were estimated using navigation data and Structure-from-Motion. This serves as a reference when evaluating visual localization techniques. An analysis of the data provides insights about the major changes observed throughout the years. Furthermore, several well-established visual localization methods are evaluated on the dataset, showing there is still room for improvement in underwater long-term visual localization. The data is made publicly available at https://www.seanoe.org/data/00810/92226/.
翻訳日:2023-05-10 19:42:34 公開日:2023-05-09
# 不確かさ量子化モデルによるモデルステアリングの限界について

On the Limitations of Model Stealing with Uncertainty Quantification Models ( http://arxiv.org/abs/2305.05293v1 )

ライセンス: Link先を確認
David Pape, Sina D\"aubener, Thorsten Eisenhofer, Antonio Emanuele Cin\`a, Lea Sch\"onherr(参考訳) モデルステルスは、オリジナルのトレーニングコストのごく一部で犠牲者モデルの機能を推測することを目的としている。 目標は明確であるが、実際には、モデルのアーキテクチャ、重量寸法、元のトレーニングデータは正確には決定できないため、盗みの間に相互不確実性が生じる。 本研究では,複数の可能なネットワークを生成し,それらの予測を組み合わせることで,盗難モデルの品質を向上させることにより,この不確実性に明示的に対処する。 そこで本研究では,5つの不確実性定量化モデルをモデル盗みタスクで比較した。 驚くべきことに、これらのモデルが、盗まれたモデルに対するラベルの合意(すなわち忠実性)に関して限界的な改善をもたらすだけであることを示している。 この原因を明らかにするために,予測分散を訓練イテレーションの関数として捉え,モデル予測の多様性を検証した。 トレーニング中、モデルには同様の予測がある傾向があり、不確実性定量化モデルを使用したネットワークの多様性は、モデル盗難タスクを改善するのに十分ではない(高い)ことを示す。

Model stealing aims at inferring a victim model's functionality at a fraction of the original training cost. While the goal is clear, in practice the model's architecture, weight dimension, and original training data can not be determined exactly, leading to mutual uncertainty during stealing. In this work, we explicitly tackle this uncertainty by generating multiple possible networks and combining their predictions to improve the quality of the stolen model. For this, we compare five popular uncertainty quantification models in a model stealing task. Surprisingly, our results indicate that the considered models only lead to marginal improvements in terms of label agreement (i.e., fidelity) to the stolen model. To find the cause of this, we inspect the diversity of the model's prediction by looking at the prediction variance as a function of training iterations. We realize that during training, the models tend to have similar predictions, indicating that the network diversity we wanted to leverage using uncertainty quantification models is not (high) enough for improvements on the model stealing task.
翻訳日:2023-05-10 19:42:19 公開日:2023-05-09
# 量子電池間の量子ビット媒介エネルギー伝達解析モデル

Analytically Solvable Model for Qubit-Mediated Energy Transfer between Quantum Batteries ( http://arxiv.org/abs/2305.05291v1 )

ライセンス: Link先を確認
Alba Crescente, Dario Ferraro, Matteo Carrega, Maura Sassetti(参考訳) 2つの同一2レベルシステム間のコヒーレントエネルギー移動について検討した。 ここで、第1量子系はチャージャーの役割を担い、第2量子系は量子バッテリと見なすことができる。 まず、2つの物体間の直接エネルギー移動を考慮し、追加の中間2レベルシステムによって媒介される遷移と比較する。 後者の場合、最初にエネルギーを充電器から仲介者へ、そして、仲介者から電池へのみ転送する2段階の工程と、2つの転送が同時に発生する1段階の工程とを区別することができる。 これらの構成の違いは、分析的に解決可能なモデルの枠組みで論じられ、最近の文献で論じられている。

The coherent energy transfer between two identical two-level systems is investigated. Here, the first quantum system plays the role of a charger, while the second can be seen as a quantum battery. Firstly, a direct energy transfer between the two objects is considered and then compared to a transfer mediated by an additional intermediate two-level system. In this latter case, it is possible to distinguish between a two-step process, where the energy is firstly transferred from the charger to the mediator and only after from the mediator to the battery, and a single-step in which the two transfers occurs simultaneously. The differences between these configurations are discussed in the framework of an analytically solvable model completing what recently discussed in literature.
翻訳日:2023-05-10 19:42:02 公開日:2023-05-09
# 観測不能変数による因果発見:確率変数アプローチ

Causal Discovery with Unobserved Variables: A Proxy Variable Approach ( http://arxiv.org/abs/2305.05281v1 )

ライセンス: Link先を確認
Mingzhou Liu, Xinwei Sun, Yu Qiao, Yizhou Wang(参考訳) 観測データから因果関係を発見することは重要である。 観測されていない変数(例えば潜伏結合や調停)の存在は因果同定を誤解させる可能性がある。 この問題を克服するため、近位因果発見法は観測されていない変数のプロキシを介してバイアスを調整しようとした。 特に, 線形性の帰納的違反を検証し, 因果エッジを同定する仮説テストに基づく手法を提案する。 しかし、これらの手法は厳密なレベルの制約のある離散データにのみ適用され、現実世界での実践は制限される。 本稿では,系が連続変数からなるケースに近位仮説テストを拡張することにより,この問題を解消する。 我々の戦略は、隠蔽因子が与えられた観測変数の条件分布に関する規則性条件を提示することであり、十分に微細な有限ビンで観測されたプロキシを離散化すれば、関連する離散化誤差を効果的に制御できる。 このことから, 連続因果関係テストの問題を各ビンの個別因果関係テストの問題に変換することができ, 既存の手法で効果的に解ける。 これらの非パラメトリック正則性は穏やかであり、幅広い構造的因果モデルによって満足することができる。 シミュレーションデータと実世界データの両方を用いて,観測されていない変数が存在する場合に因果関係を回復する手法の有効性を示す。

Discovering causal relations from observational data is important. The existence of unobserved variables (e.g. latent confounding or mediation) can mislead the causal identification. To overcome this problem, proximal causal discovery methods attempted to adjust for the bias via the proxy of the unobserved variable. Particularly, hypothesis test-based methods proposed to identify the causal edge by testing the induced violation of linearity. However, these methods only apply to discrete data with strict level constraints, which limits their practice in the real world. In this paper, we fix this problem by extending the proximal hypothesis test to cases where the system consists of continuous variables. Our strategy is to present regularity conditions on the conditional distributions of the observed variables given the hidden factor, such that if we discretize its observed proxy with sufficiently fine, finite bins, the involved discretization error can be effectively controlled. Based on this, we can convert the problem of testing continuous causal relations to that of testing discrete causal relations in each bin, which can be effectively solved with existing methods. These non-parametric regularities we present are mild and can be satisfied by a wide range of structural causal models. Using both simulated and real-world data, we show the effectiveness of our method in recovering causal relations when unobserved variables exist.
翻訳日:2023-05-10 19:41:49 公開日:2023-05-09
# 客の買い物意図に基づく推薦のパーソナライズを学ぶ

Learning to Personalize Recommendation based on Customers' Shopping Intents ( http://arxiv.org/abs/2305.05279v1 )

ライセンス: Link先を確認
Xin Shen, Jiaying Shi, Sungro Yoon, Jon Katzur, Hanbo Wang, Jin Li, Jim Chan(参考訳) キャンプや誕生日パーティーなど、顧客の高いレベルのショッピング意欲を理解することは、Eコマースプラットフォームにとって極めて重要であり、より関連性の高い説明可能な多様なレコメンデーションを提供することで、ショッピング体験の質を高めるのに役立つ。 しかし、こうした高級ショッピングの意図は、実用上の課題から、業界では見過ごされている。 本研究では,各顧客の高レベルの買い物意図を識別・活用し,レコメンデーションをパーソナライズするamazonの新しいシステムを紹介する。 我々は,アマゾンの顧客が追求する「キャンプに行く」「ビーチパーティーの準備」など,さまざまなハイレベルな目標を自動的に識別する手法を開発した。 私たちのソリューションはスケーラブルな方法で(21カ国14言語で)います。 次に、深層学習モデルは、各顧客のオンライン行動、例えば製品検索や個々のアイテムエンゲージメントを、高いレベルのショッピング意図のサブセットにマッピングする。 最後に、リアルタイムのランク付け者は、識別された意図と、パーソナライズされた意図を認識するレコメンデーションを示すためのきめ細かいエンゲージメントの両方を考慮する。 大規模なオフライン分析により、新たな推奨事項の正確性と関連性が保証され、ビジネスメトリクスの10%の改善がさらに観察される。 このシステムは、現在amazon.comでオンライントラフィックを提供しており、いくつかの生産機能を動かしている。

Understanding the customers' high level shopping intent, such as their desire to go camping or hold a birthday party, is critically important for an E-commerce platform; it can help boost the quality of shopping experience by enabling provision of more relevant, explainable, and diversified recommendations. However, such high level shopping intent has been overlooked in the industry due to practical challenges. In this work, we introduce Amazon's new system that explicitly identifies and utilizes each customer's high level shopping intents for personalizing recommendations. We develop a novel technique that automatically identifies various high level goals being pursued by the Amazon customers, such as "go camping", and "preparing for a beach party". Our solution is in a scalable fashion (in 14 languages across 21 countries). Then a deep learning model maps each customer's online behavior, e.g. product search and individual item engagements, into a subset of high level shopping intents. Finally, a realtime ranker considers both the identified intents as well as the granular engagements to present personalized intent-aware recommendations. Extensive offline analysis ensures accuracy and relevance of the new recommendations and we further observe an 10% improvement in the business metrics. This system is currently serving online traffic at amazon.com, powering several production features, driving significant business impacts
翻訳日:2023-05-10 19:41:28 公開日:2023-05-09
# 翼設計のためのグラフニューラルネットワーク

Graph Neural Networks for Airfoil Design ( http://arxiv.org/abs/2305.05469v1 )

ライセンス: Link先を確認
Florent Bonnet(参考訳) 深層学習の枠組みを通じて偏微分方程式(pde)の研究が数年前に現れ、単純な力学の印象的な近似が導かれた。 グラフニューラルネットワーク(GNN)は、PDEの数値解法の分野でしばしば発生する非構造化データの処理を可能にすることで、これらのタスクにおいて非常に有用であることが判明した。 しかし、navier-stokes方程式のようなより難しいpdeの解法はまだ難しい課題であり、後者でなされたほとんどの仕事は単純な幾何学のまわりの流れをシミュレートするか、設計目的のために物理的に見える定性的な結果に集中している。 本研究では,PDE と GNN の深層学習における取り組みを,二次元定常圧縮不可能なナビエ・ストークス方程式の解を異なる翼面空間上で近似するために,既知のアーキテクチャの適応を提案して活用しようとする。 さらに,その性能だけでなく,壁せん断応力や等方性圧力などの表面量に近似して,揚力や翼の抗力などの大域的係数を推定し,設計上の探索を可能にした。 この研究は、工業用ジオメトリ上の3次元定常解を近似することを目的とした、より長いプロジェクトで行われる。

The study of partial differential equations (PDE) through the framework of deep learning emerged a few years ago leading to the impressive approximations of simple dynamics. Graph neural networks (GNN) turned out to be very useful in those tasks by allowing the treatment of unstructured data often encountered in the field of numerical resolutions of PDE. However, the resolutions of harder PDE such as Navier-Stokes equations are still a challenging task and most of the work done on the latter concentrate either on simulating the flow around simple geometries or on qualitative results that looks physical for design purpose. In this study, we try to leverage the work done on deep learning for PDE and GNN by proposing an adaptation of a known architecture in order to tackle the task of approximating the solution of the two-dimensional steady-state incompressible Navier-Stokes equations over different airfoil geometries. In addition to that, we test our model not only on its performance over the volume but also on its performance to approximate surface quantities such as the wall shear stress or the isostatic pressure leading to the inference of global coefficients such as the lift and the drag of our airfoil in order to allow design exploration. This work takes place in a longer project that aims to approximate three dimensional steady-state solutions over industrial geometries.
翻訳日:2023-05-10 19:34:04 公開日:2023-05-09
# Style-A-Video: 任意テキストベースのビデオスタイル転送のためのアジャイル拡散

Style-A-Video: Agile Diffusion for Arbitrary Text-based Video Style Transfer ( http://arxiv.org/abs/2305.05464v1 )

ライセンス: Link先を確認
Nisha Huang, Yuxin Zhang, Weiming Dong(参考訳) 大規模テキスト・ビデオ拡散モデルでは、多様な動画を合成する異常な能力を示した。 しかし,テキスト・ビデオ・データセットが不足し,トレーニングに必要な計算資源が不足しているため,これらのモデルをビデオスタイリゼーションに直接適用することは依然として困難である。 また、入力内容に対するノイズ付加処理がランダムで破壊的であるため、スタイル転送タスクのコンテンツ保存基準を満たすことは困難である。 本稿では,画像遅延拡散モデルを用いた生成事前学習型トランスフォーマーを用いて,テキスト制御による簡潔なビデオスタイリングを実現する,Style-A-Videoというゼロショットビデオスタイリング手法を提案する。 我々は,装飾過程における指導条件を改善し,芸術的表現と構造保存のバランスを確立する。 さらに,フレーム間フレッカを低減し,付加的なアーティファクトの形成を回避するため,サンプリング最適化と時間整合モジュールを用いる。 広範な実験により,従来のソリューションよりも少ない消費を伴いながら,優れたコンテンツ保存とスタイリスティックな性能を実現することができた。 コードはhttps://github.com/haha-lisa/Style-A-Videoで入手できる。

Large-scale text-to-video diffusion models have demonstrated an exceptional ability to synthesize diverse videos. However, due to the lack of extensive text-to-video datasets and the necessary computational resources for training, directly applying these models for video stylization remains difficult. Also, given that the noise addition process on the input content is random and destructive, fulfilling the style transfer task's content preservation criteria is challenging. This paper proposes a zero-shot video stylization method named Style-A-Video, which utilizes a generative pre-trained transformer with an image latent diffusion model to achieve a concise text-controlled video stylization. We improve the guidance condition in the denoising process, establishing a balance between artistic expression and structure preservation. Furthermore, to decrease inter-frame flicker and avoid the formation of additional artifacts, we employ a sampling optimization and a temporal consistency module. Extensive experiments show that we can attain superior content preservation and stylistic performance while incurring less consumption than previous solutions. Code will be available at https://github.com/haha-lisa/Style-A-Video.
翻訳日:2023-05-10 19:33:40 公開日:2023-05-09
# 6Gのための自己進化型統合VHetNet:マルチティアHFLアプローチ

Self-Evolving Integrated VHetNets for 6G: A Multi-Tier HFL Approach ( http://arxiv.org/abs/2305.05463v1 )

ライセンス: Link先を確認
Amin Farajzadeh, Animesh Yadav, Halim Yanikomeroglu(参考訳) 自己進化型ネットワーク(SEN)は、動的かつ自律的に適応し、状況の変化と要求の進化に基づいてパフォーマンスと振る舞いを最適化する新興技術である。 第5世代(5G)無線技術の出現と機械学習の復活により、SENは将来の無線ネットワークの重要なコンポーネントになると期待されている。 特に、動的で3次元の3Dおよびアジャイルトポロジを可能にする統合垂直ヘテロジニアスネットワーク(VHetNet)アーキテクチャは、SENの重要な基盤を形成する可能性が高い。しかしながら、分散多層計算および通信構造と、自己進化する統合VHetNet(SEI-VHetNets)の完全な動的性質は、完全な統合と協調を可能にするために、強化された分散学習およびコンピューティングメカニズムの展開を必要とする。 そこで本研究では,階層型フェデレーション学習(HFL)に基づく多層階層型フェデレーション学習(MT-HFL)の新たな学習手法を提案する。 MT-HFLを通じて、SEI-VHetNetsは動的ネットワーク条件を学習し、適応し、リソース割り当てを最適化し、リアルタイムでスケーラブルで正確な方法でユーザエクスペリエンスを向上させる。 本稿では,SEI-VHetNetsの鍵となる特徴と課題について述べる。 また,従来の地上HFLアプローチよりもMT-HFLの利点を実証できる可能性についても検討した。

Self-evolving networks (SENs) are emerging technologies that dynamically and autonomously adapt and optimize their performance and behaviour based on changing conditions and evolving requirements. With the advent of fifth-generation (5G) wireless technologies and the resurgence of machine learning, SENs are expected to become a critical component of future wireless networks. In particular, integrated vertical heterogeneous network (VHetNet) architectures, which enable dynamic, three-dimensional (3D), and agile topologies, are likely to form a key foundation for SENs. However, the distributed multi-level computational and communication structure and the fully dynamic nature of self-evolving integrated VHetNets (SEI-VHetNets) necessitate the deployment of an enhanced distributed learning and computing mechanism to enable full integration and coordination. To address this need, we propose a novel learning technique, multi-tier hierarchical federated learning (MT-HFL), based on hierarchical federated learning (HFL) that enables full integration and coordination across vertical tiers. Through MT-HFL, SEI-VHetNets can learn and adapt to dynamic network conditions, optimize resource allocation, and enhance user experience in a real-time, scalable, and accurate manner while preserving user privacy. This paper presents the key characteristics and challenges of SEI-VHetNets and discusses how MT-HFL addresses them. We also discuss potential use cases and present a case study demonstrating the advantages of MT-HFL over conventional terrestrial HFL approaches.
翻訳日:2023-05-10 19:33:21 公開日:2023-05-09
# 画像圧縮のためのマルチスケール拡張正規化フロー

Multiscale Augmented Normalizing Flows for Image Compression ( http://arxiv.org/abs/2305.05451v1 )

ライセンス: Link先を確認
Marc Windsheimer, Fabian Brand, Andr\'e Kaup(参考訳) ほとんどの学習ベース画像圧縮法は、非可逆設計のため、高画質の効率を欠いている。 頻繁に適用される圧縮オートエンコーダアーキテクチャの復号関数は、符号化変換の近似逆数である。 この問題は可逆潜在変数モデルを用いることで解決できるため、量子化が行われなければ完全再構成が可能である。 さらに、従来の画像やビデオコーダの多くは、コンテンツに応じて特定の画像領域の圧縮を変更するために動的ブロック分割を適用している。 このアプローチにインスパイアされた階層型潜在空間は、学習に基づく圧縮ネットワークに適用されている。 本稿では,可逆的潜在変数モデルである拡張正規化フローに対して階層的潜在空間を適用する新しい概念を提案する。 我々の最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも平均で7%以上節約できた。

Most learning-based image compression methods lack efficiency for high image quality due to their non-invertible design. The decoding function of the frequently applied compressive autoencoder architecture is only an approximated inverse of the encoding transform. This issue can be resolved by using invertible latent variable models, which allow a perfect reconstruction if no quantization is performed. Furthermore, many traditional image and video coders apply dynamic block partitioning to vary the compression of certain image regions depending on their content. Inspired by this approach, hierarchical latent spaces have been applied to learning-based compression networks. In this paper, we present a novel concept, which adapts the hierarchical latent space for augmented normalizing flows, an invertible latent variable model. Our best performing model achieved average rate savings of more than 7% over comparable single-scale models.
翻訳日:2023-05-10 19:32:49 公開日:2023-05-09
# 重み正規化によるロバスト入射規則化

Robust Implicit Regularization via Weight Normalization ( http://arxiv.org/abs/2305.05448v1 )

ライセンス: Link先を確認
Hung-Hsu Chou, Holger Rauhut, Rachel Ward(参考訳) 過度パラメータ化モデルは多くの補間解を持ち、暗黙の正規化は、多くの間の補間解に対する特定の最適化手法の隠れた選好を指す。 現在確立されている研究の行は、(統計的)勾配降下が、ディープリニアネットワークのトレーニングに使用する場合、低いランクや疎解に対して暗黙のバイアスを持つ傾向があることを示しており、勾配降下によって訓練された過パラメータニューラルネットワークモデルが実際に優れた一般化性能を持つ理由をある程度説明している。 しかし、既存の四角損失目的の理論は、訓練可能な重みの非常に小さな初期化を必要とすることが多く、これはより高速な収束とより良い一般化性能のために実際に重みが初期化されるより大きなスケールと相反する。 本稿では,重みベクトルを極座標で再パラメータ化し,勾配勾配を極座標に適用する重み正規化による勾配降下を組み込んで解析することにより,このギャップを埋めることを目的とする。 勾配流の重要な不変量を分析し、lojasiewiczの定理を用いて、重み正規化は対角線型モデルにおける疎解に対する暗黙のバイアスを持つが、平易な勾配降下とは対照的に、重み正規化は実際に大規模に初期化されても持続する頑健なバイアスを可能にする。 実験により, 重み正規化を用いた過パラメータ付き対角型線形ネットワークモデルにおいて, 収束速度と暗黙バイアスのロバスト性の両方が劇的に向上することが示唆された。

Overparameterized models may have many interpolating solutions; implicit regularization refers to the hidden preference of a particular optimization method towards a certain interpolating solution among the many. A by now established line of work has shown that (stochastic) gradient descent tends to have an implicit bias towards low rank and/or sparse solutions when used to train deep linear networks, explaining to some extent why overparameterized neural network models trained by gradient descent tend to have good generalization performance in practice. However, existing theory for square-loss objectives often requires very small initialization of the trainable weights, which is at odds with the larger scale at which weights are initialized in practice for faster convergence and better generalization performance. In this paper, we aim to close this gap by incorporating and analyzing gradient descent with weight normalization, where the weight vector is reparamterized in terms of polar coordinates, and gradient descent is applied to the polar coordinates. By analyzing key invariants of the gradient flow and using Lojasiewicz's Theorem, we show that weight normalization also has an implicit bias towards sparse solutions in the diagonal linear model, but that in contrast to plain gradient descent, weight normalization enables a robust bias that persists even if the weights are initialized at practically large scale. Experiments suggest that the gains in both convergence speed and robustness of the implicit bias are improved dramatically by using weight normalization in overparameterized diagonal linear network models.
翻訳日:2023-05-10 19:32:38 公開日:2023-05-09
# StyleSync: スタイルベースジェネレータにおける高忠実な一般化とパーソナライズされたリップシンク

StyleSync: High-Fidelity Generalized and Personalized Lip Sync in Style-based Generator ( http://arxiv.org/abs/2305.05445v1 )

ライセンス: Link先を確認
Jiazhi Guan, Zhanwang Zhang, Hang Zhou, Tianshu Hu, Kaisiyuan Wang, Dongliang He, Haocheng Feng, Jingtuo Liu, Errui Ding, Ziwei Liu, Jingdong Wang(参考訳) 近年の唇の動きと音波の同期は進歩しているが、現在の手法は生成品質とモデルの一般化能力のバランスをとるのに苦戦している。 以前の研究では、トレーニングのために長期データを必要とするか、品質の低い全ての被験者に同様の動きパターンを生成できる。 本稿では,高忠実度唇同期を実現する効果的なフレームワークであるStyleSyncを提案する。 スタイルベースのジェネレータは、ワンショットシナリオと少数ショットシナリオの両方において、このような魅力的な特性を十分に実現できると認識した。 具体的には、所定の顔の詳細を保存するマスク誘導空間情報符号化モジュールを設計する。 口の形状は、変調畳み込みによって音声によって正確に修正される。 さらに,限られたフレームのみにスタイル空間とジェネレータを改良することにより,パーソナライズされたリップシンクを実現する。 これにより、対象者の身元や発話スタイルを正確に保存することができる。 様々な場面で高忠実度結果の生成に本手法が有効であることを示す。 リソースはhttps://hangz-nju-cuhk.github.io/projects/StyleSyncにある。

Despite recent advances in syncing lip movements with any audio waves, current methods still struggle to balance generation quality and the model's generalization ability. Previous studies either require long-term data for training or produce a similar movement pattern on all subjects with low quality. In this paper, we propose StyleSync, an effective framework that enables high-fidelity lip synchronization. We identify that a style-based generator would sufficiently enable such a charming property on both one-shot and few-shot scenarios. Specifically, we design a mask-guided spatial information encoding module that preserves the details of the given face. The mouth shapes are accurately modified by audio through modulated convolutions. Moreover, our design also enables personalized lip-sync by introducing style space and generator refinement on only limited frames. Thus the identity and talking style of a target person could be accurately preserved. Extensive experiments demonstrate the effectiveness of our method in producing high-fidelity results on a variety of scenes. Resources can be found at https://hangz-nju-cuhk.github.io/projects/StyleSync.
翻訳日:2023-05-10 19:32:06 公開日:2023-05-09
# InceptionResNetV2を用いた骨髄形態細胞検出

Bone Marrow Cytomorphology Cell Detection using InceptionResNetV2 ( http://arxiv.org/abs/2305.05430v1 )

ライセンス: Link先を確認
Raisa Fairooz Meem, Khandaker Tabin Hasan(参考訳) 血友病における臨床的決定ポイントは,血友病診断における骨髄細胞診の要件に左右される。 しかし、骨髄細胞診は専門知識を持つ施設に限られており、プロセスが遅れたり不正確な診断をもたらすのに長い時間を要するサーバ間変動と結びついており、最先端のサポート技術の必要性は残されている。 本稿では,骨骨髄細胞検出のための新しい転写学習モデルを提案する。 提案モデルは96.19 %の精度を達成し,将来この領域の他の医療画像の解析に利用できるようになる。

Critical clinical decision points in haematology are influenced by the requirement of bone marrow cytology for a haematological diagnosis. Bone marrow cytology, however, is restricted to reference facilities with expertise, and linked to inter-observer variability which requires a long time to process that could result in a delayed or inaccurate diagnosis, leaving an unmet need for cutting-edge supporting technologies. This paper presents a novel transfer learning model for Bone Marrow Cell Detection to provide a solution to all the difficulties faced for the task along with considerable accuracy. The proposed model achieved 96.19\% accuracy which can be used in the future for analysis of other medical images in this domain.
翻訳日:2023-05-10 19:31:50 公開日:2023-05-09
# ルールベースのLTLfプロセス仕様の測定:確率的データ駆動アプローチ

Measuring Rule-based LTLf Process Specifications: A Probabilistic Data-driven Approach ( http://arxiv.org/abs/2305.05418v1 )

ライセンス: Link先を確認
Alessio Cecconi, Luca Barbaro, Claudio Di Ciccio, Arik Senderovich(参考訳) 宣言的プロセス仕様は、有限トレース上の線形時間論理(LTLf)に基づくルールによってプロセスの振る舞いを定義する。 マイニングのコンテキストでは、これらの仕様は情報システム(つまりイベントログ)によって記録された複数の実行を推測し、チェックする。 この目的のために、どのプロセスデータが仕様に準拠しているかを評価できることが重要です。 しかし、既存の鉱業や検証技術はルールを個別に分析し、相互行為を無視している。 本稿では,宣言的プロセス仕様の確率的尺度を考案する枠組みを提案する。 そこで本稿では,イベントログに対する仕様の満足度を計測する手法を提案する。 提案手法を評価するために,実世界のデータを用いて評価を行い,発見,チェック,ドリフト検出における適用性を評価する。

Declarative process specifications define the behavior of processes by means of rules based on Linear Temporal Logic on Finite Traces (LTLf). In a mining context, these specifications are inferred from, and checked on, multi-sets of runs recorded by information systems (namely, event logs). To this end, being able to gauge the degree to which process data comply with a specification is key. However, existing mining and verification techniques analyze the rules in isolation, thereby disregarding their interplay. In this paper, we introduce a framework to devise probabilistic measures for declarative process specifications. Thereupon, we propose a technique that measures the degree of satisfaction of specifications over event logs. To assess our approach, we conduct an evaluation with real-world data, evidencing its applicability in discovery, checking, and drift detection contexts.
翻訳日:2023-05-10 19:31:38 公開日:2023-05-09
# VEDLIoT -- 次世代のAIoTシステムとアプリケーション

VEDLIoT -- Next generation accelerated AIoT systems and applications ( http://arxiv.org/abs/2305.05388v1 )

ライセンス: Link先を確認
Kevin Mika and Ren\'e Griessl and Nils Kucza and Florian Porrmann and Martin Kaiser and Lennart Tigges and Jens Hagemeyer and Pedro Trancoso and Muhammad Waqar Azhar and Fareed Qararyah and Stavroula Zouzoula and J\"ames M\'en\'etrey and Marcelo Pasin and Pascal Felber and Carina Marcus and Oliver Brunnegard and Olof Eriksson and Hans Salomonsson and Daniel \"Odman and Andreas Ask and Antonio Casimiro and Alysson Bessani and Tiago Carvalho and Karol Gugala and Piotr Zierhoffer and Grzegorz Latosinski and Marco Tassemeier and Mario Porrmann and Hans-Martin Heyn and Eric Knauss and Yufei Mao and Franz Meierh\"ofer(参考訳) VEDLIoTプロジェクトは、分散人工知能(AIoT)アプリケーションのためのエネルギー効率のよいディープラーニング方法論の開発を目指している。 このプロジェクトでは,AIoTシステム固有の安全性とセキュリティ上の課題に対処しながら,アルゴリズムの最適化に重点を置く,包括的なアプローチを提案する。 このアプローチの基盤はモジュール化されたスケーラブルな認知IoTハードウェアプラットフォームにあり、マイクロサーバ技術を活用して、ユーザがさまざまなアプリケーションの要件を満たすようにハードウェアを設定することができる。 ヘテロジニアスコンピューティングは、パフォーマンスとエネルギー効率を高めるために使用される。 さらに、ハードウェアアクセラレータの全スペクトルが統合され、特殊なASICと再構成可能なコンピューティングのためのFPGAが提供される。 プロジェクトのコントリビューションは、信頼性の高いコンピューティング、リモートテスト、セキュアな実行環境にまたがっており、堅牢で効率的なAIoTシステムの設計とデプロイを促進することが究極の目標である。 全体的なアーキテクチャは、Smart HomeからAutomotive、Industrial IoTアプライアンスに至るまで、ユースケースで検証されている。 さらに10のユースケースがオープンコールを通じて統合され、アプリケーション領域の範囲を広げます。

The VEDLIoT project aims to develop energy-efficient Deep Learning methodologies for distributed Artificial Intelligence of Things (AIoT) applications. During our project, we propose a holistic approach that focuses on optimizing algorithms while addressing safety and security challenges inherent to AIoT systems. The foundation of this approach lies in a modular and scalable cognitive IoT hardware platform, which leverages microserver technology to enable users to configure the hardware to meet the requirements of a diverse array of applications. Heterogeneous computing is used to boost performance and energy efficiency. In addition, the full spectrum of hardware accelerators is integrated, providing specialized ASICs as well as FPGAs for reconfigurable computing. The project's contributions span across trusted computing, remote attestation, and secure execution environments, with the ultimate goal of facilitating the design and deployment of robust and efficient AIoT systems. The overall architecture is validated on use-cases ranging from Smart Home to Automotive and Industrial IoT appliances. Ten additional use cases are integrated via an open call, broadening the range of application areas.
翻訳日:2023-05-10 19:31:25 公開日:2023-05-09
# 原子間力顕微鏡を用いたrfゲートセンサを用いたシリコン量子デバイスの分散読み出し

Dispersive readout of a silicon quantum device using an atomic force microscope-based rf gate sensor ( http://arxiv.org/abs/2305.05571v1 )

ライセンス: Link先を確認
Artem O. Denisov, Gordian Fuchs, Seong W. Oh, and Jason R. Petta(参考訳) 原子間力顕微鏡(afm)の先端を用いて,サブミクロンフローティングゲートと高周波反射率計(rf-reflectometry)回路を結合することにより,si/sigeシングルおよびダブル量子ドット(dqd)の分散電荷センシングを示す。 反射rf信号の位相応答において電荷安定性図を得る。 2 の信号対雑音比 (SNR) と $\tau~=~2.7~\mathrm{ms}$ と $\tau~=~6.4~\mathrm{ms}$ の積分時間を持つ単電子ドット対リードとドット対ドットの電荷遷移を示す。 電荷センシングSNRは、従来の装置で得られた結果と良好に比較する。 さらに、フローティングゲートの小型化は、分散電荷センシングデータの解釈を複雑にする寄生電荷トラップとの結合を大幅に排除する。

We demonstrate dispersive charge sensing of Si/SiGe single and double quantum dots (DQD) by coupling sub-micron floating gates to a radio frequency reflectometry (rf-reflectometry) circuit using the tip of an atomic force microscope (AFM). Charge stability diagrams are obtained in the phase response of the reflected rf signal. We demonstrate single-electron dot-to-lead and dot-to-dot charge transitions with a signal-to-noise ratio (SNR) of 2 and integration time of $\tau~=~2.7~\mathrm{ms}$ and $\tau~=~6.4~\mathrm{ms}$, respectively. The charge sensing SNR compares favorably with results obtained on conventional devices. Moreover, the small size of the floating gates largely eliminates the coupling to parasitic charge traps that can complicate the interpretation of the dispersive charge sensing data.
翻訳日:2023-05-10 19:25:30 公開日:2023-05-09
# 環境影響に強い原子重力計

Atomic gravimeter robust to environmental effects ( http://arxiv.org/abs/2305.05555v1 )

ライセンス: Link先を確認
Cristian D. Panda, Matt Tao, Miguel Ceja, Andrew Reynoso, Holger M\"uller(参考訳) 原子加速度計と重力計は通常、原子泉内の自由落下する原子に基づいており、その大きさを制限しているだけでなく、傾き、磁場、振動などの環境要因にも頑丈である。 このような制限は、地球物理学、地質学、慣性航法などの分野で広く採用されている。 近年,光格子中の原子の保持に基づく原子干渉計が開発されている。 このような重力計は、従来の原子重力計と比較して、周波数範囲~1Hz以上の振動の影響を数桁抑制する。 そこで,このような干渉計は,垂直方向に対して8mrad以上の傾きに頑健であり,f=3,4超微細構造の原子を共磁計として利用することで,強磁場や磁場勾配の影響を抑制でき,遮蔽の必要性をなくすことができることを示した。 0.7~\rm{mGal}/\sqrt{\rm Hz}$$1~{\rm mGal}=10~\mu\rm{m/s}^2$) の重力計感度をコンパクト幾何で示し、原子は空間のmm以上しか移動しない。

Atomic accelerometers and gravimeters are usually based on freely-falling atoms in atomic fountains, which not only limits their size, but also their robustness to environmental factors such as tilts, magnetic fields or vibrations. Such limitations have precluded their broad adoption in the field, for geophysics, geology, and inertial navigation. More recently, atom interferometers based on holding atoms in an optical lattice have been developed. Such gravimeters also suppress the influence of vibrations in the frequency range of ~1 Hz and above by several orders of magnitude relative to conventional atomic gravimeters. Here, we show that such interferometers are robust to tilts of more than 8 mrad with respect to the vertical and can suppress the effect of even strong environmental magnetic fields and field gradients by using atoms in the F=3,4 hyperfine ground states as co-magnetometers, potentially eliminating the need for shielding. We demonstrate gravimeter sensitivity of $0.7~\rm{mGal}/\sqrt{\rm Hz}$ ($1~{\rm mGal}=10~\mu\rm{m/s}^2$) in a compact geometry where atoms only travel over mm of space.
翻訳日:2023-05-10 19:25:12 公開日:2023-05-09
# マルチエージェントシステムにおける社会的価値指向と積分感情

Social Value Orientation and Integral Emotions in Multi-Agent Systems ( http://arxiv.org/abs/2305.05549v1 )

ライセンス: Link先を確認
Daniel Collins, Conor Houghton, Nirav Ajmeri(参考訳) 人間の社会的行動は、社会的嗜好の個人差に影響される。 ソーシャル・バリュー・オリエンテーション(svo、social value orientation)は、個人が自分自身と他人の福祉において相対的に重要であることを示す、測定可能なパーソナリティ特性である。 SVOや他の個人差分変数は、人間の行動や社会的成果の強い予測因子である。 しかし、個人差だけでは捉えられない感情に関連した人間の行動に過渡的な変化がある。 統合的感情(integrated emotion)とは、意思決定のシナリオに直接反応して生じる感情であり、意思決定の好みの一時的な変化と結びついている。 本研究では,マルチエージェント社会における社会的嗜好のモデレートと統合的感情の影響について検討した。 我々は,既存のSVOポリシーに基づいて意思決定を行うエージェントを設計する手法であるSvoieを開発した。 資源共有タスク環境でシミュレーション実験を行い,svoieエージェントの社会とsvoポリシーを固定したエージェントの社会を比較した。 統合的感情を通じて行動に適応するエージェントの社会は、固定SVOポリシーを持つエージェントの社会に類似した集団福祉を達成できたが、異なるSVO特性を持つエージェントの福祉の不平等は著しく減少した。 エージェントがタスクの結果に応じて政策を変更することで、エージェントは行動の穏健化を図り、より社会的平等を達成することができる。 \end{abstract}

Human social behavior is influenced by individual differences in social preferences. Social value orientation (SVO) is a measurable personality trait which indicates the relative importance an individual places on their own and on others' welfare when making decisions. SVO and other individual difference variables are strong predictors of human behavior and social outcomes. However, there are transient changes human behavior associated with emotions that are not captured by individual differences alone. Integral emotions, the emotions which arise in direct response to a decision-making scenario, have been linked to temporary shifts in decision-making preferences. In this work, we investigated the effects of moderating social preferences with integral emotions in multi-agent societies. We developed Svoie, a method for designing agents which make decisions based on established SVO policies, as well as alternative integral emotion policies in response to task outcomes. We conducted simulation experiments in a resource-sharing task environment, and compared societies of Svoie agents with societies of agents with fixed SVO policies. We find that societies of agents which adapt their behavior through integral emotions achieved similar collective welfare to societies of agents with fixed SVO policies, but with significantly reduced inequality between the welfare of agents with different SVO traits. We observed that by allowing agents to change their policy in response to task outcomes, agents can moderate their behavior to achieve greater social equality. \end{abstract}
翻訳日:2023-05-10 19:24:53 公開日:2023-05-09
# FedGTによるフェデレートラーニングにおけるプライバシとセキュリティのバランス - グループテスティングフレームワーク

Balancing Privacy and Security in Federated Learning with FedGT: A Group Testing Framework ( http://arxiv.org/abs/2305.05506v1 )

ライセンス: Link先を確認
Marvin Xhemrishi, Johan \"Ostman, Antonia Wachter-Zeh, Alexandre Graell i Amat(参考訳) 我々は,フェデレート学習における悪意のあるクライアントをセキュアなアグリゲーションで識別する新しいフレームワークであるFedGTを提案する。 グループテストにインスパイアされたこのフレームワークは、重複するクライアントのグループを活用して、グループ内の悪意のあるクライアントを検出し、デコード操作を通じてそれらを識別する。 識別されたクライアントは、残りのクライアント上で実行されるモデルのトレーニングから削除される。 FedGTはプライバシとセキュリティのバランスを取り、データのプライバシを保ちながら識別能力を向上する。 具体的には、サーバは各グループのクライアントの集約モデルを学習する。 FedGTの有効性は、MNISTとCIFAR-10データセットの広範な実験を通じて実証され、悪意のあるクライアントを低い誤検知と誤報確率で識別する能力を示し、結果として高モデルの有用性が示された。

We propose FedGT, a novel framework for identifying malicious clients in federated learning with secure aggregation. Inspired by group testing, the framework leverages overlapping groups of clients to detect the presence of malicious clients in the groups and to identify them via a decoding operation. The identified clients are then removed from the training of the model, which is performed over the remaining clients. FedGT strikes a balance between privacy and security, allowing for improved identification capabilities while still preserving data privacy. Specifically, the server learns the aggregated model of the clients in each group. The effectiveness of FedGT is demonstrated through extensive experiments on the MNIST and CIFAR-10 datasets, showing its ability to identify malicious clients with low misdetection and false alarm probabilities, resulting in high model utility.
翻訳日:2023-05-10 19:23:42 公開日:2023-05-09
# フリップチップ構造における超伝導共振器の高速解析と数値設計

Fast analytic and numerical design of superconducting resonators in flip-chip architectures ( http://arxiv.org/abs/2305.05502v1 )

ライセンス: Link先を確認
Hang-Xi Li, Daryoush Shiri, Sandoko Kosen, Marcus Rommel, Lert Chayanun, Andreas Nylander, Robert Rehammer, Giovanna Tancredi, Marco Caputo, Kestutis Grigoras, Leif Gr\"onberg, Joonas Govenius, Jonas Bylander(参考訳) 超伝導量子プロセッサでは、多くの研究所が3D集積アーキテクチャでシステムをより大きなサイズにスケールアップするにつれて、デバイスパラメータの予測可能性の重要性が増している。 特に超伝導共振器の特性は、量子ビットの高忠実度多重読み出しを保証するために適切に制御されなければならない。 本稿では,共形写像法に基づく2次元断面から共振器のパラメータを直接予測する手法を提案する。 本手法は,3次元有限要素法シミュレーションおよびフリップチップ集積構造における15個の共振器の測定により,計算された共振器周波数と結合品質係数を比較して妥当性を示す。 6GHz共振器における設計周波数と測定周波数の差は2%未満である。 また,チップ間間隔の変動に対する共振周波数の感度を低減させる設計法を提案する。

In superconducting quantum processors, the predictability of device parameters is of increasing importance as many labs scale up their systems to larger sizes in a 3D-integrated architecture. In particular, the properties of superconducting resonators must be controlled well to ensure high-fidelity multiplexed readout of qubits. Here we present a method, based on conformal mapping techniques, to predict a resonator's parameters directly from its 2D cross-section, without computationally heavy simulation. We demonstrate the method's validity by comparing the calculated resonator frequency and coupling quality factor with those obtained through 3D finite-element-method simulation and by measurement of 15 resonators in a flip-chip-integrated architecture. We achieve a discrepancy of less than 2% between designed and measured frequencies, for 6-GHz resonators. We also propose a design method that reduces the sensitivity of the resonant frequency to variations in the inter-chip spacing.
翻訳日:2023-05-10 19:23:27 公開日:2023-05-09
# 量子臨界状態における量子クエンチの熱バス効果

Thermal-bath effects in quantum quenches within quantum critical regimes ( http://arxiv.org/abs/2305.05494v1 )

ライセンス: Link先を確認
Francesco Tarantelli and Ettore Vicari(参考訳) 量子クエンチ(qq)プロトコル(ハミルトニアンパラメータの偶発的変化)から生じる平衡外ダイナミクスを、その量子臨界領域内の多体系および熱浴と等しく結合した系で解決する。 QQプロトコルのクラスを2つ検討する。 そのうちの1つは、最初のギブス状態の準備に熱浴を使用し、その後、クエンチした後、熱浴を除去し、システムのダイナミクスは一元的である。 また, 熱浴が加熱処理後に除去されないQQプロトコルにも対処し, 量子進化は, 系の密度行列に対する適切なマスター方程式によって記述され, さらに関連する時間スケール, あるいは逆減衰速度がシステムバス結合を特徴づける。 これらのQQプロトコルの下で、臨界系は、熱浴に関連する温度と崩壊率に比例したさらなるスケーリング変数を導入することにより、これらの分岐した臨界系を拡張する平衡外スケーリング挙動を発達させる。 これらの非平衡なスケーリング挙動は、フェルミオン系北エフ線のQQプロトコル、または等価量子イジング鎖を分析し、オープン系の力学に対するリンドブラッドマスター方程式内の漸近熱化を保証する熱浴の特定のモデル化を補足することで確認される。

We address the out-of-equilibrium dynamics arising from quantum-quench (QQ) protocols (instantaneous changes of the Hamiltonian parameters) in many-body systems within their quantum critical regime and in contact with thermal baths, homogeneously coupled to the systems. We consider two classes of QQ protocols. One of them uses the thermal bath to prepare the initial Gibbs state; then, after quenching, the thermal bath is removed and the dynamics of the system is unitary. Wealso address a more complex QQ protocol where the thermal bath is not removed after quenching, thus the quantum evolution is also driven by the interaction with the bath, which may be described by appropriate master equations for the density matrix of the system, where a further relevant time scale, or inverse decay rate, characterizes the system-bath coupling. Under these QQ protocols, the critical system develops out-of-equilibrium scaling behaviors, which extend those forisolated critical systems, by introducing further scaling variables proportional to the temperature and the decay rate associated with the thermal baths. These out-of-equilibrium scaling behaviors are checked by analyzing QQ protocols within fermionic Kitaev wires, or equivalently quantum Ising chains, supplemented with a particular modelization of thermal bath that guarantees the asymptotic thermalization within the Lindblad master equation for the dynamics of open systems.
翻訳日:2023-05-10 19:23:10 公開日:2023-05-09
# 準安定中性原子量子ビットにおける中間回路消去変換を持つ高忠実ゲート

High-fidelity gates with mid-circuit erasure conversion in a metastable neutral atom qubit ( http://arxiv.org/abs/2305.05493v1 )

ライセンス: Link先を確認
Shuo Ma, Genyue Liu, Pai Peng, Bichen Zhang, Sven Jandura, Jahan Claes, Alex P. Burgers, Guido Pupillo, Shruti Puri, and Jeff D. Thompson(参考訳) スケーラブルで高忠実な量子ビットの開発は、量子情報科学における重要な課題である。 ニュートラル原子量子ビットは近年急速に進歩し、プログラム可能なプロセッサや量子シミュレータを数百個の原子に拡張した。 アルカリ土類原子や複数の種の組み合わせのような新しい原子種の探索は、コヒーレンス、制御、拡張性を改善するための新しい経路を提供することができる。 例えば、量子エラー補正における最終的な応用においては、バイアス付きパウリ誤差やエラーの検出可能な消去への変換など、構造化されたエラーモデルで量子ビットを実現するのが有利である。 本研究では, 長寿命準安定状態の核スピンである{}^{171}$ybを用いて, 新たな中性原子量子ビットを示す。 リードベルク状態への長いコヒーレンス時間と高速な励起は、それぞれ 0.9990(1) と 0.980(1) の忠実度を持つ 1-および 2-キュービットゲートを許す。 重要なことに、全てのゲート誤差のかなりの割合は、クビット部分空間から基底状態への崩壊をもたらす。 これらの誤りを高速かつ中循環的に検出することで、それらを消去エラーに変換し、検出の間、計算空間に残る量子ビットの誘発エラー確率は10^{-5}$以下である。 この研究は、フォールトトレラント量子コンピューティングを実現するための有望なプラットフォームとしてメタスタブル${}^{171}$Ybを確立する。

The development of scalable, high-fidelity qubits is a key challenge in quantum information science. Neutral atom qubits have progressed rapidly in recent years, demonstrating programmable processors and quantum simulators with scaling to hundreds of atoms. Exploring new atomic species, such as alkaline earth atoms, or combining multiple species can provide new paths to improving coherence, control and scalability. For example, for eventual application in quantum error correction, it is advantageous to realize qubits with structured error models, such as biased Pauli errors or conversion of errors into detectable erasures. In this work, we demonstrate a new neutral atom qubit, using the nuclear spin of a long-lived metastable state in ${}^{171}$Yb. The long coherence time and fast excitation to the Rydberg state allow one- and two-qubit gates with fidelities of 0.9990(1) and 0.980(1), respectively. Importantly, a significant fraction of all gate errors result in decays out of the qubit subspace, to the ground state. By performing fast, mid-circuit detection of these errors, we convert them into erasure errors; during detection, the induced error probability on qubits remaining in the computational space is less than $10^{-5}$. This work establishes metastable ${}^{171}$Yb as a promising platform for realizing fault-tolerant quantum computing.
翻訳日:2023-05-10 19:22:44 公開日:2023-05-09
# 量子分極チャネルによる絡み合い支援カレット通信

Entanglement-Assisted Covert Communication via Qubit Depolarizing Channels ( http://arxiv.org/abs/2305.05477v1 )

ライセンス: Link先を確認
Elyakim Zlotnick, Boulat Bash, and Uzi Pereg(参考訳) 我々は,情報を秘密にしておくだけでなく,送信自体を敵による検出から隠蔽する必要がある秘密通信のセキュリティ要件に基づき,量子ビット非分極チャネル上の絡み合い支援通信を検討する。 以前の研究によると、$O(\sqrt{n})$情報ビットは、絡み合わずに$n$チャネルで確実に秘密に送信できる。 しかし、gagatsos et al. (2020) は、このスケーリングを連続変数のボソニックチャネルに対して$o(\sqrt{n}\log(n))$に拡大できることを示した。 ここでは有限次元の並列性を示し、$O(\sqrt{n}\log(n))$ Covert bits が qubit depolarizing channel の$n$ で確実に伝送可能であることを示す。

We consider entanglement-assisted communication over the qubit depolarizing channel under the security requirement of covert communication, where not only the information is kept secret, but the transmission itself must be concealed from detection by an adversary. Previous work showed that $O(\sqrt{n})$ information bits can be reliably and covertly transmitted in $n$ channel uses without entanglement assistance. However, Gagatsos et al. (2020) showed that entanglement assistance can increase this scaling to $O(\sqrt{n}\log(n))$ for continuous-variable bosonic channels. Here, we present a finite-dimensional parallel, and show that $O(\sqrt{n}\log(n))$ covert bits can be transmitted reliably over $n$ uses of a qubit depolarizing channel.
翻訳日:2023-05-10 19:22:21 公開日:2023-05-09
# フェデレーションGPTの構築に向けて:フェデレーションインストラクションチューニング

Towards Building the Federated GPT: Federated Instruction Tuning ( http://arxiv.org/abs/2305.05644v1 )

ライセンス: Link先を確認
Jianyi Zhang, Saeed Vahidian, Martin Kuo, Chunyuan Li, Ruiyi Zhang, Guoyin Wang, Yiran Chen(参考訳) instruction-tuned"生成型大言語モデル(llms)は、新しいタスクに一般化する素晴らしい能力を示しているが、トレーニングフェーズでは、多様で高品質な命令データ(chatgptやgpt-4など)に大きく依存している。 残念なことに、人書きデータに関して特に高品質なデータを取得することは、コストとアクセシビリティの両面で大きな課題を引き起こす可能性がある。 さらに、プライバシーに関する懸念は、そのようなデータへのアクセスをさらに制限し、取得プロセスが複雑で面倒な作業になる可能性がある。 これにより、調整されたモデルの一般化を妨げ、特定の文脈においてそれらの効果を制限することができる。 この問題に対処するため,本研究では,llmの命令チューニングのための学習フレームワークとしてfederated learning(fl)を活用するfederated instruction tuning(fedit)と呼ばれる新しい手法を提案する。 これはLLMのためのFLベースの命令チューニングの最初の探索である。 テキストデータはエンドユーザーが主に生成するので、これは特に重要です。 したがって、FLアプローチの設計と適応が不可欠であり、これらのユーザの多様な命令をローカルデバイスに格納し、プライバシを保護し、データのセキュリティを確保する。 本稿では,広く使用されているGPT-4自動評価により,提案フレームワークであるFedITを用いて,クライアント側で多種多様な命令セットを利用することにより,ローカル命令のみを限定した集中学習よりもLCMの性能を向上させることを示す。 さらに本論文では,ShepherdというGithubリポジトリを開発した。 このレポジトリは、多種多様なカテゴリにわたる異種命令を用いて、LLMのフェデレートされた微調整を探索するための基礎的なフレームワークを提供する。

While ``instruction-tuned" generative large language models (LLMs) have demonstrated an impressive ability to generalize to new tasks, the training phases heavily rely on large amounts of diverse and high-quality instruction data (such as ChatGPT and GPT-4). Unfortunately, acquiring high-quality data, especially when it comes to human-written data, can pose significant challenges both in terms of cost and accessibility. Moreover, concerns related to privacy can further limit access to such data, making the process of obtaining it a complex and nuanced undertaking. Consequently, this hinders the generality of the tuned models and may restrict their effectiveness in certain contexts. To tackle this issue, our study introduces a new approach called Federated Instruction Tuning (FedIT), which leverages federated learning (FL) as the learning framework for the instruction tuning of LLMs. This marks the first exploration of FL-based instruction tuning for LLMs. This is especially important since text data is predominantly generated by end users. Therefore, it is imperative to design and adapt FL approaches to effectively leverage these users' diverse instructions stored on local devices, while preserving privacy and ensuring data security. In the current paper, by conducting widely used GPT-4 auto-evaluation, we demonstrate that by exploiting the heterogeneous and diverse sets of instructions on the client's end with the proposed framework FedIT, we improved the performance of LLMs compared to centralized training with only limited local instructions. Further, in this paper, we developed a Github repository named Shepherd. This repository offers a foundational framework for exploring federated fine-tuning of LLMs using heterogeneous instructions across diverse categories.
翻訳日:2023-05-10 19:14:28 公開日:2023-05-09
# 固体量子エミッタからの高温での識別不能光子生成に向けて

Towards Generating Indistinguishable Photons from Solid-State Quantum Emitters at Elevated Temperatures ( http://arxiv.org/abs/2305.05636v1 )

ライセンス: Link先を確認
Alistair J. Brash, Jake Iles-Smith(参考訳) 区別できない光子は、多くの光学量子技術の鍵となる資源である。 効率良くオンデマンドな単一光子源は、iii-v半導体のエピタキシャル成長量子ドットである単一固体量子エミッタを用いて実証されている。 最高性能を達成するために、これらのソースは典型的には液体ヘリウム温度(\sim 4~\mathrm{K}$)で動作し、サテライト量子通信のような新興用途では実用的でない重要なサイズ、重量、パワー(SWAP)を考慮した。 ここでは、固体エミッタとフォトニックナノキャビティを結合することで、スワップ要件がはるかに低い高温での光子コヒーレンスを大幅に改善できることを実験的に検証する。 温度が上昇するにつれて光子不明瞭性を損なうフォノンを介するプロセスを完全に捉える理論モデルを用いて,実験結果を再現し,次世代の最適化デバイスにおける動作温度をさらに高める可能性を示す。

Indistinguishable photons are a key resource for many optical quantum technologies. Efficient, on-demand single photon sources have been demonstrated using single solid-state quantum emitters, typically epitaxially grown quantum dots in III-V semiconductors. To achieve the highest performance, these sources are typically operated at liquid helium temperatures ($\sim 4~\mathrm{K}$), introducing significant significant size, weight and power (SWAP) considerations that are often impractical for emerging applications such as satelite quantum communications. Here we experimentally verify that coupling a solid-state emitter to a photonic nanocavity can greatly improve photon coherence at higher temperatures where SWAP requirements can be much lower. Using a theoretical model that fully captures the phonon-mediated processes that compromise photon indistinguishability as temperature increases, we reproduce our experimental results and demonstrate the potential to further increase the operating temperature in future generations of optimised devices.
翻訳日:2023-05-10 19:13:57 公開日:2023-05-09
# 深層学習と幾何学的深層学習:数学者と物理学者への紹介

Deep Learning and Geometric Deep Learning: an introduction for mathematicians and physicists ( http://arxiv.org/abs/2305.05601v1 )

ライセンス: Link先を確認
R. Fioresi, F. Zanchetta(参考訳) 本稿では,グラフニューラルネットワークに着目した深層学習と幾何学的深層学習の新たなアルゴリズムの内的機能について,さらに読解のための重要な資料を少なからぬ要点として,簡単な紹介をしたい。 これらのアルゴリズムの主要な要素であるスコアと損失関数について検討し、モデルのトレーニングにおける主要なステップを説明します。 完全かつ徹底的な治療を目標としないが、いくつかの概念を分離し、その主題を素早く紹介する。 kullback-leibler divergence, regression, multi-layer perceptrons and the universal approximation theoremを議論する。

In this expository paper we want to give a brief introduction, with few key references for further reading, to the inner functioning of the new and successfull algorithms of Deep Learning and Geometric Deep Learning with a focus on Graph Neural Networks. We go over the key ingredients for these algorithms: the score and loss function and we explain the main steps for the training of a model. We do not aim to give a complete and exhaustive treatment, but we isolate few concepts to give a fast introduction to the subject. We provide some appendices to complement our treatment discussing Kullback-Leibler divergence, regression, Multi-layer Perceptrons and the Universal Approximation Theorem.
翻訳日:2023-05-10 19:13:13 公開日:2023-05-09
# Alexaにはそれほど多くの感情がない」:子どもの家庭におけるスマートスピーカーとのインタラクションによるAI理解

"Alexa doesn't have that many feelings": Children's understanding of AI through interactions with smart speakers in their homes ( http://arxiv.org/abs/2305.05597v1 )

ライセンス: Link先を確認
Valentina Andries and Judy Robertson(参考訳) Alexa、Siri、Google Homeなど、音声ベースの会話アシスタント(CA)が家庭に一般的に組み込まれているため、今では多くの子供たちが人工知能(AI)システムと日常的に対話している。 これらがAIとその能力に対する理解を形作るため、AI技術を使用する消費者デバイスで子どもたちの経験を研究することが重要である。 スコットランドの6歳から11歳の小学生を対象に,音声によるCAの動作の理解,認知能力,エージェンシー,その他の人間的品質,CAの使用時のプライバシー面の認識と信頼,およびCAとの適切な言語的相互作用として知覚するものの理解の確立を目的として,調査・インタビューを行った。 ほとんどの子供たちはCAの知性を過大評価し、システムの感情や機関について不確かだった。 彼らはまた、データのプライバシーとセキュリティに関する正確な理解も欠如しており、会話アシスタントにとって失礼な行為だと信じていた。 このような発見は、教育者がAIリテラシーの必要性に対処するために適切な教材を開発することを可能にする。

As voice-based Conversational Assistants (CAs), including Alexa, Siri, Google Home, have become commonly embedded in households, many children now routinely interact with Artificial Intelligence (AI) systems. It is important to research children's experiences with consumer devices which use AI techniques because these shape their understanding of AI and its capabilities. We conducted a mixed-methods study (questionnaires and interviews) with primary-school children aged 6-11 in Scotland to establish children's understanding of how voice-based CAs work, how they perceive their cognitive abilities, agency and other human-like qualities, their awareness and trust of privacy aspects when using CAs and what they perceive as appropriate verbal interactions with CAs. Most children overestimated the CAs' intelligence and were uncertain about the systems' feelings or agency. They also lacked accurate understanding of data privacy and security aspects, and believed it was wrong to be rude to conversational assistants. Exploring children's current understanding of AI-supported technology has educational implications; such findings will enable educators to develop appropriate materials to address the pressing need for AI literacy.
翻訳日:2023-05-10 19:13:01 公開日:2023-05-09
# AudioSlots: 音声分離のためのスロット中心生成モデル

AudioSlots: A slot-centric generative model for audio separation ( http://arxiv.org/abs/2305.05591v1 )

ライセンス: Link先を確認
Pradyumna Reddy, Scott Wisdom, Klaus Greff, John R. Hershey, Thomas Kipf(参考訳) 近年の様々な研究で、視覚領域における教師なしシーン分解に適したオブジェクト中心アーキテクチャが示されている。 これらの手法にインスパイアされたAudioSlotsは、オーディオ領域におけるブラインドソース分離のためのスロット中心生成モデルである。 audioslotsは置換同変エンコーダとデコーダネットワークを使って構築されている。 Transformerアーキテクチャに基づくエンコーダネットワークは、混合オーディオスペクトログラムを無秩序な独立したソース埋め込みセットにマッピングすることを学ぶ。 空間放送デコーダネットワークは、ソース埋め込みからソーススペクトログラムを生成するように学習する。 我々は、置換不変損失関数を用いてエンドツーエンドでモデルを訓練する。 libri2mix音声分離の結果は,このアプローチが有望であることを示す概念実証である。 我々は,このアプローチの結果と限界を詳細に議論し,今後の作業の限界と方向性を克服する可能性について概説する。

In a range of recent works, object-centric architectures have been shown to be suitable for unsupervised scene decomposition in the vision domain. Inspired by these methods we present AudioSlots, a slot-centric generative model for blind source separation in the audio domain. AudioSlots is built using permutation-equivariant encoder and decoder networks. The encoder network based on the Transformer architecture learns to map a mixed audio spectrogram to an unordered set of independent source embeddings. The spatial broadcast decoder network learns to generate the source spectrograms from the source embeddings. We train the model in an end-to-end manner using a permutation invariant loss function. Our results on Libri2Mix speech separation constitute a proof of concept that this approach shows promise. We discuss the results and limitations of our approach in detail, and further outline potential ways to overcome the limitations and directions for future work.
翻訳日:2023-05-10 19:12:40 公開日:2023-05-09
# RLocator: バグローカライゼーションのための強化学習

RLocator: Reinforcement Learning for Bug Localization ( http://arxiv.org/abs/2305.05586v1 )

ライセンス: Link先を確認
Partha Chakraborty, Mahmoud Alfadel, and Meiyappan Nagappan(参考訳) ソフトウェア開発者はプロジェクトのバグを修正するのにかなりの時間を費やします。 このプロセスを合理化するために、特定のバグの原因となる可能性のあるソースコードファイルを特定するためのバグローカライズアプローチが提案されている。 以前の研究では、バグローカライゼーションのための類似性に基づく機械学習技術が提案されていた。 これらの手法の大幅な進歩にもかかわらず、評価尺度を直接最適化することはない。 代わりに、トレーニングとテストフェーズで異なるメトリクスを使用し、検索タスクのモデルパフォーマンスに悪影響を及ぼす可能性がある。 本稿では,Reinforcement Learning-based (RL) バグローカライゼーションアプローチであるRLocatorを提案する。 マルコフ決定プロセス(MDP)を用いてバグの局所化問題を定式化し,評価手法を直接最適化する。 6つの人気の高いApacheプロジェクトの8,316のバグレポートのベンチマークデータセットに基づいて,このテクニックを提示し,実験的に評価する。 RLocatorは平均相反ランク(MRR)が0.62、平均平均精度(MAP)が0.59であることを示す。 その結果,直接的評価尺度の最適化は,バグローカライズ問題の性能向上に大いに寄与することが示された。

Software developers spend a significant portion of time fixing bugs in their projects. To streamline this process, bug localization approaches have been proposed to identify the source code files that are likely responsible for a particular bug. Prior work proposed several similarity-based machine-learning techniques for bug localization. Despite significant advances in these techniques, they do not directly optimize the evaluation measures. Instead, they use different metrics in the training and testing phases, which can negatively impact the model performance in retrieval tasks. In this paper, we propose RLocator, a Reinforcement Learning-based (RL) bug localization approach. We formulate the bug localization problem using a Markov Decision Process (MDP) to optimize the evaluation measures directly. We present the technique and experimentally evaluate it based on a benchmark dataset of 8,316 bug reports from six highly popular Apache projects. Our evaluation shows that RLocator achieves up to a Mean Reciprocal Rank (MRR) of 0.62 and a Mean Average Precision (MAP) of 0.59. Our results demonstrate that directly optimizing evaluation measures considerably contributes to performance improvement of the bug localization problem.
翻訳日:2023-05-10 19:12:26 公開日:2023-05-09
# 反強磁性ヘリックスの熱電現象:電界の役割

Thermoelectric phenomena in an antiferromagnetic helix: Role of electric field ( http://arxiv.org/abs/2305.05582v1 )

ライセンス: Link先を確認
Kallol Mondal, Sudin Ganguly, and Santanu K. Maiti(参考訳) 反強磁性スピン配置を有し, 逆電界の存在下ではネット磁化がゼロとなる単一ヘリカル分子に対して, 電荷およびスピン依存性の熱電応答について検討した。 短距離および長距離のホッピングシナリオも考慮されており、単鎖dnaや$\alpha$-protein分子のような生体システムを模倣している。 非平衡グリーン関数形式は、ランダウアー・ブッティカーの処方則に従って熱電現象を研究するために用いられる。 ヘリシティ、電界、温度等に対する基本的な熱電量の詳細な依存性を詳述し、基礎となる物理を説明する。 電荷とスピン \textit{figure of merits} は計算され、批判的に比較される。 より正確な推定には、熱コンダクタンスに対するフォノニックな貢献も含まれている。 本提案では, 電荷に対するスピン依存熱電応答が良好であることを示す。

The charge and spin-dependent thermoelectric responses are investigated on a single-helical molecule possessing a collinear antiferromagnetic spin arrangement with zero net magnetization in the presence of a transverse electric field. Both the short and long-range hopping scenarios are considered, which mimic biological systems like single-stranded DNA and $\alpha$-protein molecules. A non-equilibrium Green's function formalism is employed following the Landauer-Buttiker prescription to study the thermoelectric phenomena. The detailed dependence of the basic thermoelectric quantities on helicity, electric field, temperature etc., are elaborated on, and the underlying physics is explained accordingly. The charge and spin \textit{figure of merits} are computed and compared critically. For a more accurate estimation, the phononic contribution towards thermal conductance is also included. The present proposition shows a favorable spin-dependent thermoelectric response compared to the charge counterpart.
翻訳日:2023-05-10 19:12:10 公開日:2023-05-09
# ハイブリッドCPU-GPUアーキテクチャによる大規模並列テンソルネットワーク状態アルゴリズム

Massively Parallel Tensor Network State Algorithms on Hybrid CPU-GPU Based Architectures ( http://arxiv.org/abs/2305.05581v1 )

ライセンス: Link先を確認
Andor Menczer and \"Ors Legeza(参考訳) 量子シミュレーションと古典シミュレーションの相互作用とそれら間の微妙な分割は、高性能コンピューティング(hpc)用に設計された超並列テンソルネットワーク状態(tns)アルゴリズムの焦点である。 本稿では,最新のハードウェアとソフトウェア技術に基づくhpcインフラストラクチャ上のtnsアルゴリズムの現在の限界を拡張するための実装詳細とともに,新たなアルゴリズムソリューションを提案する。 ヒルベルト空間次元の問題を最大2.88\times10^{36}$で解くために, 大規模密度行列再正規化群 (DMRG) シミュレーションを用いて得られたベンチマーク結果を示す。

The interplay of quantum and classical simulation and the delicate divide between them is in the focus of massively parallelized tensor network state (TNS) algorithms designed for high performance computing (HPC). In this contribution, we present novel algorithmic solutions together with implementation details to extend current limits of TNS algorithms on HPC infrastructure building on state-of-the-art hardware and software technologies. Benchmark results obtained via large-scale density matrix renormalization group (DMRG) simulations are presented for selected strongly correlated molecular systems addressing problems on Hilbert space dimensions up to $2.88\times10^{36}$.
翻訳日:2023-05-10 19:11:57 公開日:2023-05-09
# 逆認知型分散ネットワーク型marlのためのアルゴリズム

An Algorithm For Adversary Aware Decentralized Networked MARL ( http://arxiv.org/abs/2305.05573v1 )

ライセンス: Link先を確認
Soumajyoti Sarkar(参考訳) 分散マルチエージェント強化学習 (marl) アルゴリズムは, 全エージェントの共通報酬関数を仮定する正準マルチエージェントマルコフ決定プロセス (mdp) とは対照的に, 異種エージェントが独自の報酬機能を持つことができるため, 文献で広く用いられている。 本稿では,コラボレーティブ marl における既存の研究について述べる。コラボレーティブ marl では,コラボレーティブなネットワーク内のエージェントがコンセンサスに達するために相互に情報を交換できる。 我々は既存のMARLアルゴリズムのコンセンサス更新に脆弱性を導入し、エージェントは通常のコンセンサス更新から逸脱することができる。 次に,非敵エージェントが制約条件下で敵の存在下でコンセンサスに達することを可能にするアルゴリズムを提案する。

Decentralized multi-agent reinforcement learning (MARL) algorithms have become popular in the literature since it allows heterogeneous agents to have their own reward functions as opposed to canonical multi-agent Markov Decision Process (MDP) settings which assume common reward functions over all agents. In this work, we follow the existing work on collaborative MARL where agents in a connected time varying network can exchange information among each other in order to reach a consensus. We introduce vulnerabilities in the consensus updates of existing MARL algorithms where agents can deviate from their usual consensus update, who we term as adversarial agents. We then proceed to provide an algorithm that allows non-adversarial agents to reach a consensus in the presence of adversaries under a constrained setting.
翻訳日:2023-05-10 19:11:50 公開日:2023-05-09
# 潜在変数モデルの比較のためのkernel stein test

A Kernel Stein Test for Comparing Latent Variable Models ( http://arxiv.org/abs/1907.00586v5 )

ライセンス: Link先を確認
Heishiro Kanagawa and Wittawat Jitkrittum and Lester Mackey and Kenji Fukumizu and Arthur Gretton(参考訳) そこで本研究では,2つのモデルを比較することを目的として,観測変数の周縁分布が難解であるような,観測されていない潜在変数を持つ2つのモデルを比較することを目的とした,相対的適合性に関するカーネルベース非パラメトリックテストを提案する。 提案されたテストは、最近提案されたカーネルSteindisrepancy (KSD) テスト (Liu et al., 2016 Chwialkowski et al., 2016 Yang et al., 2018) を潜在変数モデルの場合に対して一般化する。 新しいテストは、適切に調整されたしきい値を持ち、よく制御されたタイプIエラーを持つ。 低次元の潜伏構造と高次元の観測を持つ特定のモデルの場合、本試験はモデルからのサンプルに基づいて、潜伏構造を利用せず、相対的な最大平均離散性試験を著しく上回っている。

We propose a kernel-based nonparametric test of relative goodness of fit, where the goal is to compare two models, both of which may have unobserved latent variables, such that the marginal distribution of the observed variables is intractable. The proposed test generalizes the recently proposed kernel Stein discrepancy (KSD) tests (Liu et al., 2016, Chwialkowski et al., 2016, Yang et al., 2018) to the case of latent variable models, a much more general class than the fully observed models treated previously. The new test, with a properly calibrated threshold, has a well-controlled type-I error. In the case of certain models with low-dimensional latent structure and high-dimensional observations, our test significantly outperforms the relative Maximum Mean Discrepancy test, which is based on samples from the models and does not exploit the latent structure.
翻訳日:2023-05-10 17:22:26 公開日:2023-05-09
# 次元縮小散乱レイアウトの重なりをグリッドベースで除去する手法

A Grid-based Method for Removing Overlaps of Dimensionality Reduction Scatterplot Layouts ( http://arxiv.org/abs/1903.06262v7 )

ライセンス: Link先を確認
Gladys M. Hilasaca, Wilson E. Marc\'ilio-Jr, Danilo M. Eler, Rafael M. Martins, and Fernando V. Paulovich(参考訳) 多次元データセットを解析するためのユビキタスな可視化ツールとして,DR(Diality Reduction) scatterplotレイアウトが利用されている。 それらの人気にもかかわらず、そのような散乱体は、特にデータインスタンスを表すために情報的なグリフが使われる場合、排他的であり、実行中の分析に重要な情報を難読化する可能性がある。 興味深いデータパターンの発見において、現代のDR技術の強力な能力に欠ける重複のないレイアウトを生成するか、後処理戦略として重複を取り除くか、この問題に対処するために様々な戦略が考案されている。 ポストプロセッシング技術のよい結果にもかかわらず、最も優れた手法のほとんどは散乱プロット領域を広げたり歪めたりすることで、グリフのサイズ(時々)を読めない次元に縮小し、重なりを取り除く目的を打ち破った。 本稿では,DRレイアウトの特徴を忠実に保存し,グリフサイズを最小限に制限する,DRレイアウトの重複を除去する新しい後処理戦略であるDGridを提案する。 DGridは(複数のメトリクスを考慮した大規模な比較評価を通じて)重複除去において最先端の手法であると同時に,特に大規模データセットにおいて最も高速な手法であることを示す。 また,51名の被験者を対象にしたユーザスタディでは,DGridが元の散布板の視覚的特徴と最終結果の美学を保存するための最上位技術であることが示された。

Dimensionality Reduction (DR) scatterplot layouts have become a ubiquitous visualization tool for analyzing multidimensional datasets. Despite their popularity, such scatterplots suffer from occlusion, especially when informative glyphs are used to represent data instances, potentially obfuscating critical information for the analysis under execution. Different strategies have been devised to address this issue, either producing overlap-free layouts which lack the powerful capabilities of contemporary DR techniques in uncovering interesting data patterns or eliminating overlaps as a post-processing strategy. Despite the good results of post-processing techniques, most of the best methods typically expand or distort the scatterplot area, thus reducing glyphs' size (sometimes) to unreadable dimensions, defeating the purpose of removing overlaps. This paper presents Distance Grid (DGrid), a novel post-processing strategy to remove overlaps from DR layouts that faithfully preserves the original layout's characteristics and bounds the minimum glyph sizes. We show that DGrid surpasses the state-of-the-art in overlap removal (through an extensive comparative evaluation considering multiple different metrics) while also being one of the fastest techniques, especially for large datasets. A user study with 51 participants also shows that DGrid is consistently ranked among the top techniques for preserving the original scatterplots' visual characteristics and the aesthetics of the final results.
翻訳日:2023-05-10 17:21:57 公開日:2023-05-09
# ソフト部分指数を用いたランベック計算のためのベクトル空間意味論

Vector Space Semantics for Lambek Calculus with Soft Subexponentials ( http://arxiv.org/abs/2111.11331v2 )

ライセンス: Link先を確認
Lachlan McPheat, Hadi Wazni, Mehrnoosh Sadrzadeh(参考訳) ソフトな部分指数を持つランベック計算のためのベクトル空間意味論を開発し, パラシティックギャップ名詞句とアナフォラやエリプシスを用いた談話単位の構成ベクトル解釈に適用し, 分布文類似タスクにおける構成を実験した。 ランベック計算を関連モーダリティで用いた以前の研究とは対照的に、本論文で用いた計算はモダリティの有界バージョンを使用し、決定可能である。 この新しいモダリティのベクトル空間の意味論は、縮小を射影として意味的に定義し、それまで非線形写像によってのみ達成できたことの背後にある線形理論を提供する。

We develop a vector space semantics for Lambek Calculus with Soft Subexponentials, apply the calculus to construct compositional vector interpretations for parasitic gap noun phrases and discourse units with anaphora and ellipsis, and experiment with the constructions in a distributional sentence similarity task. As opposed to previous work, which used Lambek Calculus with a Relevant Modality the calculus used in this paper uses a bounded version of the modality and is decidable. The vector space semantics of this new modality allows us to meaningfully define contraction as projection and provide a linear theory behind what we could previously only achieve via nonlinear maps.
翻訳日:2023-05-10 17:05:38 公開日:2023-05-09
# アンサンブル機械学習を用いた血液検査によるリスクフリーな新型コロナウイルススクリーニングアルゴリズムの開発

Development of a Risk-Free COVID-19 Screening Algorithm from Routine Blood Tests Using Ensemble Machine Learning ( http://arxiv.org/abs/2108.05660v3 )

ライセンス: Link先を確認
Md. Mohsin Sarker Raihan, Md. Mohi Uddin Khan, Laboni Akter and Abdullah Bin Shams(参考訳) 逆転写ポリメラーゼ連鎖反応(Reverse Transcription Polymerase Chain Reaction, RTPCR)は、ウイルス感染を識別するための銀の弾丸診断試験である。 ラピッド抗原検出(rapid antigen detection)は、ウイルス陽性患者を15分以内で同定するスクリーニング検査であるが、pcr検査よりも感度が低い。 複数の標準試験キットを持つほか、キットの不足やコスト、不要な専門家や研究所の欠如、特に開発途上国や未開発国における大量人口と比較して、多くの人々が感染し、テストの前にも回復または死亡している。 この研究は、新型コロナウイルス患者の免疫学的および血液学的プロファイルのパラメトリックな偏差に興味をそそられ、リスクフリーで高精度な積層型機械学習モデルの提案により、新型コロナウイルス検出の概念を活用し、ウイルス患者を共同で利用可能なワイドスプレッド・チープ定期血液検査から同定し、精度、正確性、リコール、およびf1-scoreを100%向上させる。 R曲線の解析は、実装すべきリスクフリーモデルの正確性を示す。 提案手法は, 大規模ユビキタスな低コストスクリーニングアプリケーションの可能性を有する。 これにより、感染した感染者の数を最小限に抑え、無症状または症状前の人々を早期に特定することでパンデミックを抑えるための追加的な保護層が加わる可能性がある。

The Reverse Transcription Polymerase Chain Reaction (RTPCR)} test is the silver bullet diagnostic test to discern COVID infection. Rapid antigen detection is a screening test to identify COVID positive patients in little as 15 minutes, but has a lower sensitivity than the PCR tests. Besides having multiple standardized test kits, many people are getting infected and either recovering or dying even before the test due to the shortage and cost of kits, lack of indispensable specialists and labs, time-consuming result compared to bulk population especially in developing and underdeveloped countries. Intrigued by the parametric deviations in immunological and hematological profile of a COVID patient, this research work leveraged the concept of COVID-19 detection by proposing a risk-free and highly accurate Stacked Ensemble Machine Learning model to identify a COVID patient from communally available-widespread-cheap routine blood tests which gives a promising accuracy, precision, recall and F1-score of 100%. Analysis from R-curve also shows the preciseness of the risk-free model to be implemented. The proposed method has the potential for large scale ubiquitous low-cost screening application. This can add an extra layer of protection in keeping the number of infected cases to a minimum and control the pandemic by identifying asymptomatic or pre-symptomatic people early.
翻訳日:2023-05-10 17:05:22 公開日:2023-05-09
# 効率的なモデルベースマルチエージェント平均場強化学習

Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning ( http://arxiv.org/abs/2107.04050v2 )

ライセンス: Link先を確認
Barna P\'asztor, Ilija Bogunovic, Andreas Krause(参考訳) エージェントの相互作用によってもたらされる非定常性や、状態と行動空間の組合せの性質など、マルチエージェントシステムでの学習は非常に困難である。 特に,共同報酬の最大化を目的とした同一エージェントの漸近的に無限の集団を仮定する平均場制御(MFC)問題を考察する。 多くの場合、MFC問題の解は大規模システムにとって良い近似であり、MFCの効率的な学習は多くのエージェントを持つ類似の離散エージェント設定に有用である。 具体的には、報酬を最適化し、経験から学ぶことを目標とする未知のシステムダイナミクスのケースに注目します。 そこで本研究では,効率的なモデルベース強化学習アルゴリズムである$m^3-ucrl$を提案する。 我々の理論的な貢献は、新しい平均場型解析によって得られたMFCのモデルベース強化学習における最初の一般的な後悔境界である。 システムのダイナミクスを学習するために、$M^3-UCRL$は、ニューラルネットワークやガウス過程などの様々な統計モデルでインスタンス化することができる。 さらに,ニューラルネットワークなどの微分可能ダイナミクス近似法と組み合わせることで,勾配に基づく最適化技術を容易にするコア最適化問題の実用的パラメトリゼーションを提案する。

Learning in multi-agent systems is highly challenging due to several factors including the non-stationarity introduced by agents' interactions and the combinatorial nature of their state and action spaces. In particular, we consider the Mean-Field Control (MFC) problem which assumes an asymptotically infinite population of identical agents that aim to collaboratively maximize the collective reward. In many cases, solutions of an MFC problem are good approximations for large systems, hence, efficient learning for MFC is valuable for the analogous discrete agent setting with many agents. Specifically, we focus on the case of unknown system dynamics where the goal is to simultaneously optimize for the rewards and learn from experience. We propose an efficient model-based reinforcement learning algorithm, $M^3-UCRL$, that runs in episodes, balances between exploration and exploitation during policy learning, and provably solves this problem. Our main theoretical contributions are the first general regret bounds for model-based reinforcement learning for MFC, obtained via a novel mean-field type analysis. To learn the system's dynamics, $M^3-UCRL$ can be instantiated with various statistical models, e.g., neural networks or Gaussian Processes. Moreover, we provide a practical parametrization of the core optimization problem that facilitates gradient-based optimization techniques when combined with differentiable dynamics approximation methods such as neural networks.
翻訳日:2023-05-10 17:04:53 公開日:2023-05-09
# 不均一情報ネットワークにおける強化MOOCs概念勧告

Reinforced MOOCs Concept Recommendation in Heterogeneous Information Networks ( http://arxiv.org/abs/2203.11011v3 )

ライセンス: Link先を確認
Jibing Gong, Yao Wan, Ye Liu, Xuewen Li, Yi Zhao, Cheng Wang, Yuting Lin, Xiaohan Fang, Wenzheng Feng, Jingyi Zhang, Jie Tang(参考訳) インターネットを通じてオープンアクセスと広範囲にわたるインタラクティブな参加を提供するMOOC(Massive Open Online Courses)が、オンラインおよびリモート学習の好まれる方法になりつつある。 いくつかのMOOCプラットフォームは、ユーザの学習体験を改善するために、もちろんユーザにレコメンデーションを提供する。 このサービスの有用性にもかかわらず、ユーザーに直接コースを推薦することは、様々な専門知識を無視する可能性があると考えている。 このギャップを緩和するために,本論文では,ユーザに対して詳細な方法で知識を推奨する,概念推奨という興味深い問題を考察する。 我々は,異種情報ネットワークと強化学習に基づくmoocsにおける概念推薦のための新しいアプローチであるhincrec-rlを提唱した。 特に,moocsにおけるユーザと知識概念の動的相互作用を特徴付ける強化学習フレームワークにおいて,概念推薦の問題を形成することを提案する。 さらに,ユーザ,コース,ビデオ,コンセプト間のインタラクションをヘテロジニアスな情報ネットワーク(HIN)に形成し,セマンティックなユーザ表現をよりよく学習することを提案する。 次に,注目グラフニューラルネットワークを用いてhin内のユーザをメタパスに基づいて表現する。 提案したHinCRec-RLの有効性を検証するため,中国のMOOCプラットフォームXuetangXから収集した実世界のデータセットを用いて大規模な実験を行った。 実験結果と解析結果から,提案したHinCRec-RLは,いくつかの最先端モデルと比較すると良好な性能を示した。

Massive open online courses (MOOCs), which offer open access and widespread interactive participation through the internet, are quickly becoming the preferred method for online and remote learning. Several MOOC platforms offer the service of course recommendation to users, to improve the learning experience of users. Despite the usefulness of this service, we consider that recommending courses to users directly may neglect their varying degrees of expertise. To mitigate this gap, we examine an interesting problem of concept recommendation in this paper, which can be viewed as recommending knowledge to users in a fine-grained way. We put forward a novel approach, termed HinCRec-RL, for Concept Recommendation in MOOCs, which is based on Heterogeneous Information Networks and Reinforcement Learning. In particular, we propose to shape the problem of concept recommendation within a reinforcement learning framework to characterize the dynamic interaction between users and knowledge concepts in MOOCs. Furthermore, we propose to form the interactions among users, courses, videos, and concepts into a heterogeneous information network (HIN) to learn the semantic user representations better. We then employ an attentional graph neural network to represent the users in the HIN, based on meta-paths. Extensive experiments are conducted on a real-world dataset collected from a Chinese MOOC platform, XuetangX, to validate the efficacy of our proposed HinCRec-RL. Experimental results and analysis demonstrate that our proposed HinCRec-RL performs well when comparing with several state-of-the-art models.
翻訳日:2023-05-10 16:55:26 公開日:2023-05-09
# 円滑なリスク対策の最適化のための政策勾配アプローチ

A policy gradient approach for optimization of smooth risk measures ( http://arxiv.org/abs/2202.11046v2 )

ライセンス: Link先を確認
Nithia Vijayan and Prashanth L.A(参考訳) 本稿では, リスク感応性強化学習問題と非政治的設定を両立させる政策勾配アルゴリズムを提案する。 我々は,エピソジックマルコフ決定過程を検討し,累積割引報酬の円滑なリスク対策の幅広いクラスを用いてリスクをモデル化する。 そこで我々は,2つのテンプレートポリシー勾配アルゴリズムを提案し,それぞれがオンラインとオフラインのRL設定におけるスムーズなリスク尺度を最適化する。 提案アルゴリズムの収束率をスムーズなリスク尺度の定常点に定量化する非漸近境界を導出する。 特殊な場合として,提案アルゴリズムは平均分散度と歪みリスク度をそれぞれ最適化する。

We propose policy gradient algorithms for solving a risk-sensitive reinforcement learning problem in on-policy as well as off-policy settings. We consider episodic Markov decision processes, and model the risk using the broad class of smooth risk measures of the cumulative discounted reward. We propose two template policy gradient algorithms that optimize a smooth risk measure in on-policy and off-policy RL settings, respectively. We derive non-asymptotic bounds that quantify the rate of convergence to our proposed algorithms to a stationary point of the smooth risk measure. As special cases, we establish that our algorithms apply to the optimization of mean-variance and distortion risk measures, respectively.
翻訳日:2023-05-10 16:54:59 公開日:2023-05-09
# BERT WEAVER:生物医学領域におけるトランスフォーマーモデルにおける平均化による生涯学習の実現

BERT WEAVER: Using WEight AVERaging to Enable Lifelong Learning for Transformer-based Models in the Biomedical Domain ( http://arxiv.org/abs/2202.10101v2 )

ライセンス: Link先を確認
Lisa K\"uhnel, Alexander Schulz, Barbara Hammer and Juliane Fluck(参考訳) 近年の転校学習の発展により、自然言語処理タスクの進歩が加速している。 しかし、パフォーマンスは、高品質で手動のトレーニングデータに依存する。 特にバイオメディカル領域では、新しいデータを効率的に予測できる汎用モデルを学ぶのに、1つのトレーニングコーパスでは不十分であることが示されている。 したがって、最先端のモデルは、新しいデータが利用可能になったらすぐにパフォーマンスを改善するために、一生の学習能力を必要とします。 本稿では,新しいモデルに古い知識を注入し,破滅的な忘れを低減させる,単純かつ効率的な後処理手法であるweaverを提案する。 WEAVERを逐次的に適用すると、単語の埋め込み分布は、計算効率が良く、同時に全てのデータに対する複合的なトレーニングを行うのと同じ結果が得られることを示す。 データ共有の必要がなくなるため, 提案手法は連携学習環境にも容易に適用でき, 例えば, 異なる診療所からの電子的健康記録のマイニングに有用である。

Recent developments in transfer learning have boosted the advancements in natural language processing tasks. The performance is, however, dependent on high-quality, manually annotated training data. Especially in the biomedical domain, it has been shown that one training corpus is not enough to learn generic models that are able to efficiently predict on new data. Therefore, state-of-the-art models need the ability of lifelong learning in order to improve performance as soon as new data are available - without the need of re-training the whole model from scratch. We present WEAVER, a simple, yet efficient post-processing method that infuses old knowledge into the new model, thereby reducing catastrophic forgetting. We show that applying WEAVER in a sequential manner results in similar word embedding distributions as doing a combined training on all data at once, while being computationally more efficient. Because there is no need of data sharing, the presented method is also easily applicable to federated learning settings and can for example be beneficial for the mining of electronic health records from different clinics.
翻訳日:2023-05-10 16:54:47 公開日:2023-05-09
# GUIアプリケーション実装による意図的双方向Gated Recurrent Neural Networkを用いたWi-Fiチャネルデータからの人間と人間のインタラクション認識

A Prospective Approach for Human-to-Human Interaction Recognition from Wi-Fi Channel Data using Attention Bidirectional Gated Recurrent Neural Network with GUI Application Implementation ( http://arxiv.org/abs/2202.08146v4 )

ライセンス: Link先を確認
Md. Mohi Uddin Khan, Abdullah Bin Shams and Md. Mohsin Sarker Raihan(参考訳) HAR(Human Activity Recognition)研究は、近年の技術進歩、人工知能アルゴリズム、スマートシティの必要性、社会経済の変革などにより、大きな勢いを増している。 しかし、既存のコンピュータビジョンとセンサベースのHARソリューションには、プライバシー問題、メモリと電力消費、研究者がHAR研究におけるパラダイムシフトを観察するセンサーの装着に対する不快感などの制限がある。 これに対して、Wi-FiベースのHARは、より粗いチャネル状態情報の提供により人気が高まっている。 しかし、既存のWiFiベースのHARアプローチは、同じ時間内に実行される独立性と非並行な人間の活動の分類に限られている。 最近の研究は、シングル入力多重出力通信リンクと5GHzチャネル周波数のWiFi信号を使い、2つのWiFiルータまたは2つのIntel 5300 NICを送信機受信機として使用している。 一方,本研究では,WiFiルータとIntel 5300 NIC間の多重入力多重出力無線リンクと,2.4GHzの伝送周波数に基づく時系列Wi-Fiチャネル状態情報を用いて,相互の人間対人同時通信認識を行う。 提案した自己注意誘導双方向Gated Recurrent Neural Network (Attention-BiGRU) 深層学習モデルは,最大ベンチマーク精度94%で13の相互相互作用を分類することができる。 これは10つの被験者ペアに拡張され、ベンチマークの精度は88%に向上し、相互作用遷移領域の分類が改善された。 PyQt5 python モジュールを用いて、所定の時間内に実行される相互に同時に行うインタラクションを分類、保存、表示するために、実行可能なグラフィカルユーザインタフェース (GUI) ソフトウェアも開発されている。 ...

Human Activity Recognition (HAR) research has gained significant momentum due to recent technological advancements, artificial intelligence algorithms, the need for smart cities, and socioeconomic transformation. However, existing computer vision and sensor-based HAR solutions have limitations such as privacy issues, memory and power consumption, and discomfort in wearing sensors for which researchers are observing a paradigm shift in HAR research. In response, WiFi-based HAR is gaining popularity due to the availability of more coarse-grained Channel State Information. However, existing WiFi-based HAR approaches are limited to classifying independent and non-concurrent human activities performed within equal time duration. Recent research commonly utilizes a Single Input Multiple Output communication link with a WiFi signal of 5 GHz channel frequency, using two WiFi routers or two Intel 5300 NICs as transmitter-receiver. Our study, on the other hand, utilizes a Multiple Input Multiple Output radio link between a WiFi router and an Intel 5300 NIC, with the time-series Wi-Fi channel state information based on 2.4 GHz channel frequency for mutual human-to-human concurrent interaction recognition. The proposed Self-Attention guided Bidirectional Gated Recurrent Neural Network (Attention-BiGRU) deep learning model can classify 13 mutual interactions with a maximum benchmark accuracy of 94% for a single subject-pair. This has been expanded for ten subject pairs, which secured a benchmark accuracy of 88% with improved classification around the interaction-transition region. An executable graphical user interface (GUI) software has also been developed in this study using the PyQt5 python module to classify, save, and display the overall mutual concurrent human interactions performed within a given time duration. ...
翻訳日:2023-05-10 16:54:28 公開日:2023-05-09
# 連合学習における比例的公平性

Proportional Fairness in Federated Learning ( http://arxiv.org/abs/2202.01666v5 )

ライセンス: Link先を確認
Guojun Zhang, Saber Malekmohammadi, Xi Chen and Yaoliang Yu(参考訳) FL(Federated Learning)システムが現実世界に広範に展開されるようになると、FLにおける公平性、すなわち多様なクライアントのそれぞれに対して合理的に満足できるパフォーマンスを保証することは極めて困難である。 本研究では,各クライアントの性能の相対的変化に基づく比例公平性(PF)という,FLにおける新しい公平性の概念を紹介し,研究する。 バーゲティングゲームとの関連性から,FLにおける比例的公正解の探索と収束特性の研究を行うための,新規で実装が容易なアルゴリズムであるPropFairを提案する。 視覚と言語データセットに関する広範な実験を通じて,propfairはpfソリューションをほぼ見つけることができ,全クライアントの平均パフォーマンスと最悪の10%クライアントとのバランスが良好であることを実証した。 私たちのコードは \url{https://github.com/huawei-noah/Federated-Learning/tree/main/FairFL} で利用可能です。

With the increasingly broad deployment of federated learning (FL) systems in the real world, it is critical but challenging to ensure fairness in FL, i.e. reasonably satisfactory performances for each of the numerous diverse clients. In this work, we introduce and study a new fairness notion in FL, called proportional fairness (PF), which is based on the relative change of each client's performance. From its connection with the bargaining games, we propose PropFair, a novel and easy-to-implement algorithm for finding proportionally fair solutions in FL and study its convergence properties. Through extensive experiments on vision and language datasets, we demonstrate that PropFair can approximately find PF solutions, and it achieves a good balance between the average performances of all clients and of the worst 10% clients. Our code is available at \url{https://github.com/huawei-noah/Federated-Learning/tree/main/FairFL}.
翻訳日:2023-05-10 16:53:55 公開日:2023-05-09
# エントロピー・ハーディング

Entropic Herding ( http://arxiv.org/abs/2112.11616v2 )

ライセンス: Link先を確認
Hiroshi Yamashita, Hideyuki Suzuki, and Kazuyuki Aihara(参考訳) herdingは、入力モーメント条件を満たすランダムサンプルと見なされるデータポイントを生成する決定論的アルゴリズムである。 このアルゴリズムは、高次元力学系の複雑な挙動に基づいており、統計推論の最大エントロピー原理に触発されている。 本稿では,点ではなく分布列を生成するエントロピック・ハーディング(entropic herding)と呼ばれるアルゴリズムの拡張を提案する。 最大エントロピー原理から得られる対象関数の最適化としてエントロピーハーディングが導出される。 提案手法をフレームワークとして,提案手法と最大エントロピー原理との密接な関係を論じる。 具体的には,本アルゴリズムをエントロピック・ハーディングの抽出可能なバージョンと解釈し,その理想的な出力分布を数学的に表現する。 さらに,Herdingアルゴリズムの複雑な挙動が最適化にどう貢献するかを議論する。 提案手法は,確率的モデリングへの応用を拡張したものである。 オリジナルのハーディングとは対照的に、エントロピーシェディングは、効率的な確率密度計算とサンプル生成の両方が可能な滑らかな分布を生成することができる。 そこで本研究では,合成データと実データの両方について,従来の手法との比較を含む数値実験を行った。

Herding is a deterministic algorithm used to generate data points that can be regarded as random samples satisfying input moment conditions. The algorithm is based on the complex behavior of a high-dimensional dynamical system and is inspired by the maximum entropy principle of statistical inference. In this paper, we propose an extension of the herding algorithm, called entropic herding, which generates a sequence of distributions instead of points. Entropic herding is derived as the optimization of the target function obtained from the maximum entropy principle. Using the proposed entropic herding algorithm as a framework, we discuss a closer connection between herding and the maximum entropy principle. Specifically, we interpret the original herding algorithm as a tractable version of entropic herding, the ideal output distribution of which is mathematically represented. We further discuss how the complex behavior of the herding algorithm contributes to optimization. We argue that the proposed entropic herding algorithm extends the application of herding to probabilistic modeling. In contrast to original herding, entropic herding can generate a smooth distribution such that both efficient probability density calculation and sample generation become possible. To demonstrate the viability of these arguments in this study, numerical experiments were conducted, including a comparison with other conventional methods, on both synthetic and real data.
翻訳日:2023-05-10 16:53:21 公開日:2023-05-09
# 不均衡クラスと新しいクラスの制約下における進化グラフの生涯学習

Lifelong Learning on Evolving Graphs Under the Constraints of Imbalanced Classes and New Classes ( http://arxiv.org/abs/2112.10558v2 )

ライセンス: Link先を確認
Lukas Galke, Iacopo Vagliano, Benedikt Franke, Tobias Zielke, Marcel Hoffmann, Ansgar Scherp(参考訳) 生涯グラフ学習は、進化するグラフの変化に継続的に適応するグラフニューラルネットワーク(gnn)モデルの問題を扱う。 この研究では、新しいクラスを扱うことと、不均衡なクラス分布を扱うことの2つの重要な課題に対処する。 これら2つの課題の組み合わせは特に重要であり、新しいクラスは典型的にデータのごく一部に似ており、既に歪んだクラス分布が追加されている。 まず、ラベルなしデータの量は結果に影響を与えないことを示し、これは一連のタスクにおける生涯学習にとって必須の前提条件である。 第2に,異なるラベルレートで実験を行い,アノテートされたノードのほんの一部で,提案手法がうまく機能することを示す。 第3に,不均衡なクラス分布を持つ制約の下で新しいクラスを検出するgDOC法を提案する。 重要成分は、クラス不均衡を考慮した重み付き二項クロスエントロピー損失関数である。 さらに,グラフセージ,簡易グラフ畳み込み,グラフアテンションネットワークなど,gdocと様々なベースgnnモデルの組み合わせを示す。 最後に、k-neighborhood time difference measureは、異なるグラフデータセットにまたがる時間変化を正当化する。 広範な実験により,提案手法はグラフへのDOCの自然な適応よりも一貫して優れていることがわかった。 具体的には、最小の履歴サイズを用いた実験では、gDOCの分布外検出スコアは0.09であり、DOCは0.01である。 さらに、gDOCは、DOCの0.25(32%増加)に比べて0.33の、分布内分類と分布外検出を組み合わせたOpen-F1スコアを達成している。

Lifelong graph learning deals with the problem of continually adapting graph neural network (GNN) models to changes in evolving graphs. We address two critical challenges of lifelong graph learning in this work: dealing with new classes and tackling imbalanced class distributions. The combination of these two challenges is particularly relevant since newly emerging classes typically resemble only a tiny fraction of the data, adding to the already skewed class distribution. We make several contributions: First, we show that the amount of unlabeled data does not influence the results, which is an essential prerequisite for lifelong learning on a sequence of tasks. Second, we experiment with different label rates and show that our methods can perform well with only a tiny fraction of annotated nodes. Third, we propose the gDOC method to detect new classes under the constraint of having an imbalanced class distribution. The critical ingredient is a weighted binary cross-entropy loss function to account for the class imbalance. Moreover, we demonstrate combinations of gDOC with various base GNN models such as GraphSAGE, Simplified Graph Convolution, and Graph Attention Networks. Lastly, our k-neighborhood time difference measure provably normalizes the temporal changes across different graph datasets. With extensive experimentation, we find that the proposed gDOC method is consistently better than a naive adaption of DOC to graphs. Specifically, in experiments using the smallest history size, the out-of-distribution detection score of gDOC is 0.09 compared to 0.01 for DOC. Furthermore, gDOC achieves an Open-F1 score, a combined measure of in-distribution classification and out-of-distribution detection, of 0.33 compared to 0.25 of DOC (32% increase).
翻訳日:2023-05-10 16:53:01 公開日:2023-05-09
# BungeeNeRF:超大規模シーンレンダリングのためのプログレッシブ神経放射場

BungeeNeRF: Progressive Neural Radiance Field for Extreme Multi-scale Scene Rendering ( http://arxiv.org/abs/2112.05504v4 )

ライセンス: Link先を確認
Yuanbo Xiangli, Linning Xu, Xingang Pan, Nanxuan Zhao, Anyi Rao, Christian Theobalt, Bo Dai, Dahua Lin(参考訳) ニューラルレイディアンス場(NeRF)は、3Dオブジェクトや制御シーンのモデリングにおいて、通常は1つのスケールで優れた性能を達成している。 本研究では,大規模な画像変化が著しく異なるスケールで観察されるマルチスケールケースに着目した。 このシナリオは、都市の風景のような現実世界の3d環境に広く存在し、都市の概観を捉えた衛星レベルから、建築の複雑な詳細を示す地上レベルの画像まで、様々な視点があり、ランドスケープやデリケートなminecraft 3dモデルでもよく見られる。 これらのシーンにおける観察位置の広い範囲は、非常に異なる詳細レベルを持つマルチスケールレンダリングをもたらし、神経放射野に大きな課題をもたらし、妥協された結果に向けてバイアスを与える。 これらの問題に対処するために、我々は、劇的に変化するスケールにわたって詳細レンダリングを実現するプログレッシブ神経放射場である BungeeNeRF を紹介した。 浅いベースブロックで遠くのビューを合わせることから始め、トレーニングが進むにつれて、より近いビューで新たな詳細に対応するために新しいブロックが追加される。 この戦略は、nerfの位置符号化入力の高周波チャネルを段階的に活性化し、トレーニングが進むにつれてより複雑な詳細を順次展開する。 本稿では,複数のデータソース(都市モデル,合成データ,ドローンキャプチャデータ)を劇的に異なるビューでモデル化し,高品質なレンダリングをサポートした多様なマルチスケールシーンにおける BungeeNeRF の優位性を実証する。

Neural radiance fields (NeRF) has achieved outstanding performance in modeling 3D objects and controlled scenes, usually under a single scale. In this work, we focus on multi-scale cases where large changes in imagery are observed at drastically different scales. This scenario vastly exists in real-world 3D environments, such as city scenes, with views ranging from satellite level that captures the overview of a city, to ground level imagery showing complex details of an architecture; and can also be commonly identified in landscape and delicate minecraft 3D models. The wide span of viewing positions within these scenes yields multi-scale renderings with very different levels of detail, which poses great challenges to neural radiance field and biases it towards compromised results. To address these issues, we introduce BungeeNeRF, a progressive neural radiance field that achieves level-of-detail rendering across drastically varied scales. Starting from fitting distant views with a shallow base block, as training progresses, new blocks are appended to accommodate the emerging details in the increasingly closer views. The strategy progressively activates high-frequency channels in NeRF's positional encoding inputs and successively unfolds more complex details as the training proceeds. We demonstrate the superiority of BungeeNeRF in modeling diverse multi-scale scenes with drastically varying views on multiple data sources (city models, synthetic, and drone captured data) and its support for high-quality rendering in different levels of detail.
翻訳日:2023-05-10 16:52:33 公開日:2023-05-09
# 非教師対象物検出のためのテクスチャ誘導塩分蒸留

Texture-guided Saliency Distilling for Unsupervised Salient Object Detection ( http://arxiv.org/abs/2207.05921v3 )

ライセンス: Link先を確認
Huajun Zhou and Bo Qiao and Lingxiao Yang and Jianhuang Lai and Xiaohua Xie(参考訳) Deep Learning-based Unsupervised Salient Object Detection (USOD) は主に、従来の手工芸法や訓練済みネットワークから生成されたノイズの多い偽ラベルに依存している。 ノイズラベル問題に対処するために,提案手法のクラスでは,信頼できるラベルを用いた簡易なサンプルのみに注目するが,ハードサンプルでは貴重な知識を無視する。 本稿では,簡単なサンプルと難しいサンプルの両方から,豊かで正確なサリエンシ知識を抽出するための新しいUDD手法を提案する。 まず, 試料の信頼度に基づく試料をスコア付けし, 簡便な試料から硬質試料への塩分知識を段階的に蒸留する信頼度対応塩分蒸留(csd)戦略を提案する。 第2に,予測境界付近のテクスチャをマッチングすることで,雑音ラベルの境界を洗練するための境界対応テクスチャマッチング(BTM)戦略を提案する。 RGB, RGB-D, RGB-T, およびビデオSODベンチマークの大規模実験により, 本手法が最先端のUSOD性能を実現することを示す。

Deep Learning-based Unsupervised Salient Object Detection (USOD) mainly relies on the noisy saliency pseudo labels that have been generated from traditional handcraft methods or pre-trained networks. To cope with the noisy labels problem, a class of methods focus on only easy samples with reliable labels but ignore valuable knowledge in hard samples. In this paper, we propose a novel USOD method to mine rich and accurate saliency knowledge from both easy and hard samples. First, we propose a Confidence-aware Saliency Distilling (CSD) strategy that scores samples conditioned on samples' confidences, which guides the model to distill saliency knowledge from easy samples to hard samples progressively. Second, we propose a Boundary-aware Texture Matching (BTM) strategy to refine the boundaries of noisy labels by matching the textures around the predicted boundary. Extensive experiments on RGB, RGB-D, RGB-T, and video SOD benchmarks prove that our method achieves state-of-the-art USOD performance.
翻訳日:2023-05-10 16:46:43 公開日:2023-05-09
# 医学領域における連合学習の実用化に向けて

Towards the Practical Utility of Federated Learning in the Medical Domain ( http://arxiv.org/abs/2207.03075v4 )

ライセンス: Link先を確認
Seongjun Yang, Hyeonji Hwang, Daeyoung Kim, Radhika Dua, Jong-Yeup Kim, Eunho Yang, Edward Choi(参考訳) 連合学習 (federated learning, fl) は活発な研究分野である。 FLを採用するのに最も適した分野の1つは、患者のプライバシーを尊重しなければならない医療領域である。 しかし、これまでの研究では医学領域にflを適用するための実践的なガイドを提供していない。 縦断的電子健康記録, 皮膚がん画像, 心電図信号の3つの指標について, 実験的ベンチマークと実験的検討を行った。 医療機関やIT企業のようなFLのユーザは、これらのベンチマークをFLを採用し、試行錯誤を最小限にするためのガイドとして使うことができます。 各データセットについて、各クライアントデータは、実世界の異質性を保存するために異なるソースからのものである。 クライアント間のデータ不均一性に対処するために設計された6つのFLアルゴリズムと、2つの代表FLアルゴリズムの強度を組み合わせたハイブリッドアルゴリズムを評価する。 3つのモダリティによる実験結果から、単純なFLアルゴリズムはより洗練されたアルゴリズムよりも優れており、ハイブリッドアルゴリズムは優れた性能を示すが、最良の性能は得られない。 また、頻繁なグローバルモデルのアップデートは、一定のトレーニングイテレーション予算の下で、パフォーマンスの向上につながります。 参加するクライアント数が増加すると、it管理者やgpuの増加によってコストが上昇するが、パフォーマンスは一貫して向上する。 今後,臨床の課題を考慮し,医療領域でのFL実験を設計し,低コストでより優れたパフォーマンスを得るために,これらの経験的ベンチマークを参考にすることを期待する。

Federated learning (FL) is an active area of research. One of the most suitable areas for adopting FL is the medical domain, where patient privacy must be respected. Previous research, however, does not provide a practical guide to applying FL in the medical domain. We propose empirical benchmarks and experimental settings for three representative medical datasets with different modalities: longitudinal electronic health records, skin cancer images, and electrocardiogram signals. The likely users of FL such as medical institutions and IT companies can take these benchmarks as guides for adopting FL and minimize their trial and error. For each dataset, each client data is from a different source to preserve real-world heterogeneity. We evaluate six FL algorithms designed for addressing data heterogeneity among clients, and a hybrid algorithm combining the strengths of two representative FL algorithms. Based on experiment results from three modalities, we discover that simple FL algorithms tend to outperform more sophisticated ones, while the hybrid algorithm consistently shows good, if not the best performance. We also find that a frequent global model update leads to better performance under a fixed training iteration budget. As the number of participating clients increases, higher cost is incurred due to increased IT administrators and GPUs, but the performance consistently increases. We expect future users will refer to these empirical benchmarks to design the FL experiments in the medical domain considering their clinical tasks and obtain stronger performance with lower costs.
翻訳日:2023-05-10 16:46:22 公開日:2023-05-09
# 積分変換と$\mathcal{PT}$-symmetric Hamiltonian

Integral Transforms and $\mathcal{PT}$-symmetric Hamiltonians ( http://arxiv.org/abs/2207.02759v6 )

ライセンス: Link先を確認
M. W. AlMasri, M. R. B. Wahiddin(参考訳) 2回フーリエ変換がパリティ作用素の役割を果たすという事実に動機づけられた。 我々は$\mathcal{PT}$-symmetric Hamiltonianの場合、積分変換を体系的に研究する。 まず、一般の $\mathcal{pt}$-symmetric hamiltonian の指数フーリエ変換に対する閉解析公式を得る。 セガル・バルグマン変換を用いて、フーリエ変換がオリジナルのハミルトニアンの固有関数に与える影響を調べる。 直近の応用として、非エルミートスピン鎖の正則表現についてコメントし、解析的な位相空間座標とバルグマン空間におけるそれらの偏微分をベクトルヒルベルト空間の行列ではなく記述する。 最後に、スワンソン・ハミルトニアンの研究における積分変換の効果について論じる。

Motivated by the fact that twice the Fourier transform plays the role of parity operator. We systematically study integral transforms in the case of $\mathcal{PT}$-symmetric Hamiltonian. First, we obtain a closed analytical formula for the exponential Fourier transform of a general $\mathcal{PT}$-symmetric Hamiltonian. Using the Segal-Bargmann transform, we investigate the effect of the Fourier transform on the eigenfunctions of the original Hamiltonian. As an immediate application, we comment on the holomorphic representation of non-Hermitian spin chains, in which the Hamiltonian operator is written in terms of analytical phase-space coordinates and their partial derivatives in the Bargmann space rather than matrices in the vector Hilbert space. Finally, we discuss the effect of integral transforms in the study of the Swanson Hamiltonian.
翻訳日:2023-05-10 16:45:57 公開日:2023-05-09
# 記憶した訓練事例の収集計測

Measuring Forgetting of Memorized Training Examples ( http://arxiv.org/abs/2207.00099v2 )

ライセンス: Link先を確認
Matthew Jagielski, Om Thakkar, Florian Tram\`er, Daphne Ippolito, Katherine Lee, Nicholas Carlini, Eric Wallace, Shuang Song, Abhradeep Thakurta, Nicolas Papernot, Chiyuan Zhang(参考訳) 機械学習モデルには、トレーニングデータの記憶、忘れのさまざまな形態という、一見矛盾する現象が2つある。 記憶では、モデルは特定のトレーニング例に過度に適合し、プライバシ攻撃の影響を受けやすい。 忘れでは、トレーニングの初期に現れた例が最後に忘れ去られる。 この研究では、これらの現象をつなげます。 トレーニング例の具体例を「忘れる」程度に測定する手法を提案し,最近見ていない例に対するプライバシ攻撃の影響を小さくする。 非凸モデルは最悪の場合、データを永久に記憶することができるが、標準画像、音声、言語モデルは時間とともに例を忘れてしまう。 非決定論を潜在的な説明として認識し、決定論的に訓練されたモデルは忘れないことを示す。 私たちの結果は、非常に大きなデータセット(例えば、モデルの事前トレーニングに使用される例)でトレーニングする時に早期に見られる例が、後に見られる例を犠牲にして、プライバシのメリットを享受できることを示唆している。

Machine learning models exhibit two seemingly contradictory phenomena: training data memorization, and various forms of forgetting. In memorization, models overfit specific training examples and become susceptible to privacy attacks. In forgetting, examples which appeared early in training are forgotten by the end. In this work, we connect these phenomena. We propose a technique to measure to what extent models "forget" the specifics of training examples, becoming less susceptible to privacy attacks on examples they have not seen recently. We show that, while non-convex models can memorize data forever in the worst-case, standard image, speech, and language models empirically do forget examples over time. We identify nondeterminism as a potential explanation, showing that deterministically trained models do not forget. Our results suggest that examples seen early when training with extremely large datasets - for instance those examples used to pre-train a model - may observe privacy benefits at the expense of examples seen later.
翻訳日:2023-05-10 16:45:43 公開日:2023-05-09
# 衛星によるC\^ote d'Ivoireとガーナのココア植林地域の高分解能地図

Satellite-based high-resolution maps of cocoa planted area for C\^ote d'Ivoire and Ghana ( http://arxiv.org/abs/2206.06119v5 )

ライセンス: Link先を確認
Nikolai Kalischek, Nico Lang, C\'ecile Renier, Rodrigo Caye Daudt, Thomas Addoah, William Thompson, Wilma J. Blaser-Hart, Rachael Garrett, Konrad Schindler, Jan D. Wegner(参考訳) 世界最大のcocoa生産国であるc\^ote d'ivoireとガーナは世界のcocoa生産の3分の2を占めている。 どちらの国でもココアが主要な多年生作物であり、約200万人の農家に収入を提供している。 ココア栽培地域の正確な地図は欠落しており、保護地域の拡大の正確な定量化、生産と収量、サステナビリティガバナンスの改善に利用可能な情報制限を妨げている。 本稿では,ココアプランテーションデータと公開衛星画像とを深層学習の枠組みで組み合わせ,両国のココアプランテーションの高解像度マップを作成する。 以上の結果から,ココア栽培は,C\ote d'Ivoire と Ghana の保護地域における森林被害の37%以上と13%の基盤要因であり,Ghana の植林面積を最大40%まで大幅に過小評価していることが明らかとなった。 これらの地図は、ココア生産地域の保全と経済発展を理解する上で重要な構成要素となっている。

C\^ote d'Ivoire and Ghana, the world's largest producers of cocoa, account for two thirds of the global cocoa production. In both countries, cocoa is the primary perennial crop, providing income to almost two million farmers. Yet precise maps of cocoa planted area are missing, hindering accurate quantification of expansion in protected areas, production and yields, and limiting information available for improved sustainability governance. Here, we combine cocoa plantation data with publicly available satellite imagery in a deep learning framework and create high-resolution maps of cocoa plantations for both countries, validated in situ. Our results suggest that cocoa cultivation is an underlying driver of over 37% and 13% of forest loss in protected areas in C\^ote d'Ivoire and Ghana, respectively, and that official reports substantially underestimate the planted area, up to 40% in Ghana. These maps serve as a crucial building block to advance understanding of conservation and economic development in cocoa producing regions.
翻訳日:2023-05-10 16:45:27 公開日:2023-05-09
# レコメンダシステムの公正性:ランドスケープ研究と今後の方向性

Fairness in Recommender Systems: Research Landscape and Future Directions ( http://arxiv.org/abs/2205.11127v4 )

ライセンス: Link先を確認
Yashar Deldjoo, Dietmar Jannach, Alejandro Bellogin, Alessandro Difonzo, Dario Zanzonelli(参考訳) リコメンダーシステムは、オンラインで見る情報、例えばソーシャルメディアに強く影響を与え、それによって私たちの信念、決定、行動に影響を与える。 同時に、これらのシステムは異なる利害関係者にとって実質的なビジネス価値を生み出すことができる。 このようなAIベースのシステムが個人、組織、社会に与える影響が増加する中、公平性に関する疑問が近年注目を集めている。 しかし、レコメンデーションシステムにおける公正性の研究はまだ発展途上である。 本研究は,近年,この地域で展開された公平性の基本概念と概念を初めて概観する。 その後、160以上の学術論文のレビューを通じて、この分野の研究が現在どのように運用されているか、例えば、一般的な研究方法論、公正度測定、アルゴリズムアプローチの観点から概説する。 全体として、最近の研究の分析は、ある研究のギャップを示している。 特に、計算機科学における多くの研究において、非常に抽象的な問題運用が一般的であり、基礎となる規範的クレームや、与えられたアプリケーションのコンテキストにおける公正な推奨事項が深く議論されることがしばしばある。 これらの観察は、より包括的で影響力のある方法で推奨の公平性に取り組むために、より学際的な研究を求める。

Recommender systems can strongly influence which information we see online, e.g., on social media, and thus impact our beliefs, decisions, and actions. At the same time, these systems can create substantial business value for different stakeholders. Given the growing potential impact of such AI-based systems on individuals, organizations, and society, questions of fairness have gained increased attention in recent years. However, research on fairness in recommender systems is still a developing area. In this survey, we first review the fundamental concepts and notions of fairness that were put forward in the area in the recent past. Afterward, through a review of more than 160 scholarly publications, we present an overview of how research in this field is currently operationalized, e.g., in terms of general research methodology, fairness measures, and algorithmic approaches. Overall, our analysis of recent works points to certain research gaps. In particular, we find that in many research works in computer science, very abstract problem operationalizations are prevalent and questions of the underlying normative claims and what represents a fair recommendation in the context of a given application are often not discussed in depth. These observations call for more interdisciplinary research to address fairness in recommendation in a more comprehensive and impactful manner.
翻訳日:2023-05-10 16:44:42 公開日:2023-05-09
# 確実に安全な強化学習:理論的および実験的比較

Provably Safe Reinforcement Learning: A Theoretical and Experimental Comparison ( http://arxiv.org/abs/2205.06750v2 )

ライセンス: Link先を確認
Hanna Krasowski, Jakob Thumm, Marlon M\"uller, Lukas Sch\"afer, Xiao Wang, Matthias Althoff(参考訳) 強化学習(RL)アルゴリズムの安全性の確保は、実世界の多くのタスクにおいてその可能性の解放に不可欠である。 しかし、バニラRLは安全を保証していない。 近年,RLの設計による安全性を保証する手法が提案されている。 しかし、これらの証明可能な安全なRL法を包括的に比較することはできない。 そこで我々は,既存の安全なRL手法の分類を導入し,連続的および離散的な動作空間の理論的基礎を示し,その性能を実証的に評価する。 これらの方法は、アクション置換、アクション投影、およびアクションマスキングという安全方法によって、アクションがどのように適応されるかに基づいて分類される。 倒立振子および四重項安定化タスクに関する実験は、すべての証明可能な安全な方法が常に安全であることを示している。 さらに、トレーニングされたパフォーマンスは安全でないベースラインに匹敵する。 ベンチマークでは、安全仕様、RLアルゴリズム、アクション空間の種類に応じて、異なる安全なRLアプローチを選択するべきであることを示唆している。

Ensuring safety of reinforcement learning (RL) algorithms is crucial to unlock their potential for many real-world tasks. However, vanilla RL does not guarantee safety. In recent years, several methods have been proposed to provide safety guarantees for RL by design. Yet, there is no comprehensive comparison of these provably safe RL methods. We therefore introduce a categorization of existing provably safe RL methods, present the theoretical foundations for both continuous and discrete action spaces, and benchmark the methods' performance empirically. The methods are categorized based on how the action is adapted by the safety method: action replacement, action projection, and action masking. Our experiments on an inverted pendulum and quadrotor stabilization task show that all provably safe methods are indeed always safe. Furthermore, their trained performance is comparable to unsafe baselines. The benchmarking suggests that different provably safe RL approaches should be selected depending on safety specifications, RL algorithms, and type of action space.
翻訳日:2023-05-10 16:43:49 公開日:2023-05-09
# サーバーサイドトレーニングのないワンショットフェデレーションラーニング

One-shot Federated Learning without Server-side Training ( http://arxiv.org/abs/2204.12493v2 )

ライセンス: Link先を確認
Shangchao Su, Bin Li, and Xiangyang Xue(参考訳) federated learning(fl)は、プライバシ保護のための新しい機械学習パラダイムとして、最近大きく進歩した。 従来のFLの通信コストが高いため,クライアントとサーバ間の通信コストを削減する手段として,ワンショットのフェデレーション学習が人気を集めている。 既存のワンショットFL法のほとんどは知識蒸留に基づいているが、 {蒸留ベースのアプローチでは追加のトレーニングフェーズが必要であり、公開されているデータセットや生成された擬似サンプルに依存する。 本稿では,サーバ側でのトレーニングを行わずに,ローカルモデル上で1ラウンドのパラメータアグリゲーションを実行するという,新規かつ挑戦的なクロスサイロ設定を考える。 そこで本研究では,全局所モデルのパラメータを反復的に更新し,損失面の共通低損失領域に近づけることにより,自己のデータセットの性能を損なうことなく,モデルアグリゲーションに有効なアルゴリズムを提案する。 既存の手法と比較して、MA-Echoは、各ローカルモデルのサポートカテゴリが他のモデルと重複するラベルを持たない非常に非識別的なデータ配信設定でもうまく機能する。 提案手法を既存の手法と比較し,MA-Echoの有効性を実証するために,2つの画像分類データセットについて広範な実験を行った。 ソースコードは \url{https://github.com/FudanVI/MAEcho} でアクセスできる。

Federated Learning (FL) has recently made significant progress as a new machine learning paradigm for privacy protection. Due to the high communication cost of traditional FL, one-shot federated learning is gaining popularity as a way to reduce communication cost between clients and the server. Most of the existing one-shot FL methods are based on Knowledge Distillation; however, {distillation based approach requires an extra training phase and depends on publicly available data sets or generated pseudo samples.} In this work, we consider a novel and challenging cross-silo setting: performing a single round of parameter aggregation on the local models without server-side training. In this setting, we propose an effective algorithm for Model Aggregation via Exploring Common Harmonized Optima (MA-Echo), which iteratively updates the parameters of all local models to bring them close to a common low-loss area on the loss surface, without harming performance on their own data sets at the same time. Compared to the existing methods, MA-Echo can work well even in extremely non-identical data distribution settings where the support categories of each local model have no overlapped labels with those of the others. We conduct extensive experiments on two popular image classification data sets to compare the proposed method with existing methods and demonstrate the effectiveness of MA-Echo, which clearly outperforms the state-of-the-arts. The source code can be accessed in \url{https://github.com/FudanVI/MAEcho}.
翻訳日:2023-05-10 16:43:36 公開日:2023-05-09
# EDeNN: 低レイテンシビジョンのためのイベント減衰ニューラルネットワーク

EDeNN: Event Decay Neural Networks for low latency vision ( http://arxiv.org/abs/2209.04362v2 )

ライセンス: Link先を確認
Celyn Walters, Simon Hadfield(参考訳) コンピュータビジョンタスクにおけるニューラルネットワークの成功にもかかわらず、デジタルニューロンは生物学的ニューロンの非常に緩やかな近似である。 今日の学習アプローチは、画像フレームなどのデジタルデータ表現を備えたデジタルデバイスで機能するように設計されている。 対照的に、生体視覚システムは一般的に最先端のデジタルコンピュータビジョンアルゴリズムよりも能力と効率が優れている。 イベントカメラは、生物学的ビジョンを模倣し、非同期にピクセルを発射し、画像フレームの概念を進化させる新しいセンサー技術である。 現代の学習技術を活用するために、多くのイベントベースのアルゴリズムは、イベントをイメージフレームに蓄積せざるを得ない。 我々は、逆のパラダイムに従い、元のイベントデータストリームに近く動作する新しいタイプのニューラルネットワークを開発する。 我々は,SNN訓練に伴う困難を回避しつつ,角速度回帰と競合する光フロー推定における最先端性能を示す。 さらに,提案手法の処理遅延は他の実装では1/10以下であるのに対し,連続推論ではこの改善がさらに桁違いに増加する。

Despite the success of neural networks in computer vision tasks, digital 'neurons' are a very loose approximation of biological neurons. Today's learning approaches are designed to function on digital devices with digital data representations such as image frames. In contrast, biological vision systems are generally much more capable and efficient than state-of-the-art digital computer vision algorithms. Event cameras are an emerging sensor technology which imitates biological vision with asynchronously firing pixels, eschewing the concept of the image frame. To leverage modern learning techniques, many event-based algorithms are forced to accumulate events back to image frames, somewhat squandering the advantages of event cameras. We follow the opposite paradigm and develop a new type of neural network which operates closer to the original event data stream. We demonstrate state-of-the-art performance in angular velocity regression and competitive optical flow estimation, while avoiding difficulties related to training SNN. Furthermore, the processing latency of our proposed approach is less than 1/10 any other implementation, while continuous inference increases this improvement by another order of magnitude.
翻訳日:2023-05-10 16:35:45 公開日:2023-05-09
# 並列性を用いた変分量子固有ソルバの高速化

Accelerating the variational quantum eigensolver using parallelism ( http://arxiv.org/abs/2209.03796v2 )

ライセンス: Link先を確認
Lana Mineh, Ashley Montanaro(参考訳) 量子コンピュータはますます大きくなっているが、デバイスへの忠実さは量子ビット数の増加に追いついていないかもしれない。 ゲート深さが制限された大きなデバイスを使う一つの方法は、多数の小さな回路を同時に実行することである。 本稿では,Rigetti Aspen-M-1デバイス上での動作回路の並列化について述べる。 2量子ビットの回路を並列に実行し、変分量子固有解法を用いてハバードモデルの単純な例を解く。 我々は、最大33個の回路を並列(66量子ビット)で動作させる結果を示し、誤差緩和技術を用いることで、現在の量子ハードウェア上でリアルタイムの高速化を実現することができることを示した。 我々は、VQEエネルギーランドスケープを探索するために18\times$のスピードアップと、VQE最適化を実行するために8\times$以上のスピードアップを得る。

Quantum computers are getting larger and larger, but device fidelities may not be able to keep up with the increase in qubit numbers. One way to make use of a large device that has a limited gate depth is to run many small circuits simultaneously. In this paper we detail our investigations into running circuits in parallel on the Rigetti Aspen-M-1 device. We run two-qubit circuits in parallel to solve a simple instance of the Hubbard model using the variational quantum eigensolver. We present results for running up to 33 circuits in parallel (66 qubits), showing that with the use of error mitigation techniques it is possible to make use of, and gain a real-time speedup from, parallelisation on current quantum hardware. We obtain a speedup by $18\times$ for exploring the VQE energy landscape, and by more than $8\times$ for running VQE optimisation.
翻訳日:2023-05-10 16:35:26 公開日:2023-05-09
# 知識蒸留によるエッジの逆超解像生成

Generative Adversarial Super-Resolution at the Edge with Knowledge Distillation ( http://arxiv.org/abs/2209.03355v2 )

ライセンス: Link先を確認
Simone Angarano, Francesco Salvetti, Mauro Martini, Marcello Chiaberge(参考訳) シングルイメージのスーパーレゾリューションは、ミッションの監視、遠隔操作、関連する視覚詳細の研究のために信頼できるビジュアルストリームを必要とする環境でロボットタスクをサポートする。 本研究では、EdgeSRGAN(https://github.com/PIC4SeR/EdgeSRGAN)と呼ばれるリアルタイム超解法のための効率的な生成適応ネットワークモデルを提案する。 我々は、CPUおよびエッジTPUデバイス上での実行を促進するために、元のSRGANとモデル量子化を調整したアーキテクチャを採用し、最大200fpsの推論を実現した。 我々は,その知識をネットワークのより小さなバージョンに蒸留することで,モデルをさらに最適化し,標準的なトレーニングアプローチと比較して顕著な改善を得る。 実験の結果,我々の高速で軽量なモデルでは,高画質のモデルに比べて画質がかなり高いことがわかった。 最後に,提案する移動ロボット用システムの利点を強調するために,帯域劣化を伴う画像伝送実験を行う。

Single-Image Super-Resolution can support robotic tasks in environments where a reliable visual stream is required to monitor the mission, handle teleoperation or study relevant visual details. In this work, we propose an efficient Generative Adversarial Network model for real-time Super-Resolution, called EdgeSRGAN (code available at https://github.com/PIC4SeR/EdgeSRGAN). We adopt a tailored architecture of the original SRGAN and model quantization to boost the execution on CPU and Edge TPU devices, achieving up to 200 fps inference. We further optimize our model by distilling its knowledge to a smaller version of the network and obtain remarkable improvements compared to the standard training approach. Our experiments show that our fast and lightweight model preserves considerably satisfying image quality compared to heavier state-of-the-art models. Finally, we conduct experiments on image transmission with bandwidth degradation to highlight the advantages of the proposed system for mobile robotic applications.
翻訳日:2023-05-10 16:35:12 公開日:2023-05-09
# Back-to-Bones: ドメインの一般化におけるバックボーンの役割の再発見

Back-to-Bones: Rediscovering the Role of Backbones in Domain Generalization ( http://arxiv.org/abs/2209.01121v2 )

ライセンス: Link先を確認
Simone Angarano, Mauro Martini, Francesco Salvetti, Vittorio Mazzia, Marcello Chiaberge(参考訳) ドメイン一般化(DG)は、学習外分布に一般化するディープラーニングモデルの能力を研究する。 過去10年間、文学はドメインシフトに取り組むためにより抽象的で堅牢なデータ表現を得ると主張するトレーニング方法論で溢れています。 近年の研究では、DGの再現可能なベンチマークが提供され、既存のアルゴリズムに対する経験的リスク最小化(ERM)の有効性が指摘されている。 それにもかかわらず、研究者は古い特徴抽出器の使用を継続し、異なるバックボーンの効果にはまだ注意が払われていない。 本稿では,本研究コミュニティがこれまで無視してきた本質的一般化能力の包括的分析を提案するバックボーンを振り返る。 標準残差解からトランスフォーマーベースのアーキテクチャまで,多種多様な特徴抽出器を評価し,大規模単一ドメイン分類精度とdg能力との間に明らかな線形相関を見いだした。 広範な実験により,効率的なデータ拡張と競合するバックボーンの採用により,平易なermが最近のdgソリューションを上回り,最先端の精度を実現していることが示された。 さらに、追加の質的研究により、新しいバックボーンが同一クラスサンプルに類似した表現を与え、特徴空間内の異なるドメインを分離できることが判明した。 この一般化能力の向上は、DGアルゴリズムの限界余地を残している。 問題を調査するための新しいパラダイムを提案し、バックボーンをスポットライトにし、それらの上に一貫性のあるアルゴリズムの開発を奨励する。 コードはhttps://github.com/pic4ser/back-to-bonesで入手できる。

Domain Generalization (DG) studies the capability of a deep learning model to generalize to out-of-training distributions. In the last decade, literature has been massively filled with training methodologies that claim to obtain more abstract and robust data representations to tackle domain shifts. Recent research has provided a reproducible benchmark for DG, pointing out the effectiveness of naive empirical risk minimization (ERM) over existing algorithms. Nevertheless, researchers persist in using the same outdated feature extractors, and no attention has been given to the effects of different backbones yet. In this paper, we start back to the backbones proposing a comprehensive analysis of their intrinsic generalization capabilities, which so far have been ignored by the research community. We evaluate a wide variety of feature extractors, from standard residual solutions to transformer-based architectures, finding an evident linear correlation between large-scale single-domain classification accuracy and DG capability. Our extensive experimentation shows that by adopting competitive backbones in conjunction with effective data augmentation, plain ERM outperforms recent DG solutions and achieves state-of-the-art accuracy. Moreover, our additional qualitative studies reveal that novel backbones give more similar representations to same-class samples, separating different domains in the feature space. This boost in generalization capabilities leaves marginal room for DG algorithms. It suggests a new paradigm for investigating the problem, placing backbones in the spotlight and encouraging the development of consistent algorithms on top of them. The code is available at https://github.com/PIC4SeR/Back-to-Bones.
翻訳日:2023-05-10 16:34:55 公開日:2023-05-09
# 言語データの現実性と限界--LLMと人間ノルムの整合性について

On Reality and the Limits of Language Data: Aligning LLMs with Human Norms ( http://arxiv.org/abs/2208.11981v2 )

ライセンス: Link先を確認
Nigel H. Collier, Fangyu Liu and Ehsan Shareghi(参考訳) 大規模言語モデル(llms)の最近の進歩は、膨大な自然言語データの言語関連を実用的応用に活用している。 しかし、言語データのみを用いて物理世界を理解する能力には疑問が残る。 既存のプロトコルをレビューした後、新しい厳密に制御された推論テスト(ART)を用いてこの問題を調査し、人間の規範とGPT-3のバージョンを比較した。 本研究は,データや弱点領域から直接学習できる共通感覚関係モデルのカテゴリに注目した。 GPT-3は、Synonymy、Anthonymy、Deefaultの継承を含むいくつかの関係において、人間の判断からの強化学習がなければ、Has-partとContained-inの基準区間の下位でGPT-3が実行されていることを示す証拠を提供する。 また, 必要な品質, サイズ, 強度の順応により, 余裕特性にも弱点が見られた。 LLMと象徴的世界接地を組み合わせることは、連想学習に取り組む上で有望な方向である。

Recent advancements in Large Language Models (LLMs) harness linguistic associations in vast natural language data for practical applications. However, their ability to understand the physical world using only language data remains a question. After reviewing existing protocols, we explore this question using a novel and tightly controlled reasoning test (ART) and compare human norms against versions of GPT-3. Our findings highlight the categories of common-sense relations models that could learn directly from data and areas of weakness. GPT-3 offers evidence for verbal reasoning on a par with human subjects for several relations including Synonymy, Antonymy, and Default inheritance, Without reinforcement learning from human judgements, it appears GPT-3 performs at the lower end of the reference interval for Has-part and Contained-in. Weaknesses were observed also in affordance characteristics through Necessary-quality, Order-of-size and Order-of-intensity. Combining LLMs with symbolic world grounding is a promising direction to address associative learning.
翻訳日:2023-05-10 16:34:13 公開日:2023-05-09
# マルチモーダル変圧器:構造付きHRデータを用いた臨床ノートの解釈型院内死亡予測

A Multimodal Transformer: Fusing Clinical Notes with Structured EHR Data for Interpretable In-Hospital Mortality Prediction ( http://arxiv.org/abs/2208.10240v2 )

ライセンス: Link先を確認
Weimin Lyu, Xinyu Dong, Rachel Wong, Songzhu Zheng, Kayley Abell-Hart, Fusheng Wang, Chao Chen(参考訳) 構造化電子健康記録(EHR)を用いた深層学習に基づく臨床意思決定支援は、死亡率と疾患のリスクを予測するための活発な研究領域である。 一方、大量の物語的臨床ノートは相補的な情報を提供するが、しばしば予測モデルに統合されない。 本稿では, 臨床ノートを融合するマルチモーダルトランスフォーマーとehrデータを構造化し, 病院内死亡率の予測を改善する。 そこで本研究では,臨床ノートから重要な単語を抽出し,シャプリー値による重要な構造的EHR特徴を発見するための統合的勾配(IG)手法を提案する。 これらの重要な単語と臨床特徴を可視化し、予測結果の解釈を支援する。 また,臨床ノートの表現を学習するための領域適応型事前訓練とタスク適応型微調整の重要性についても検討した。 aucpr: 0.538, aucroc: 0.877, f1:0.490)。

Deep-learning-based clinical decision support using structured electronic health records (EHR) has been an active research area for predicting risks of mortality and diseases. Meanwhile, large amounts of narrative clinical notes provide complementary information, but are often not integrated into predictive models. In this paper, we provide a novel multimodal transformer to fuse clinical notes and structured EHR data for better prediction of in-hospital mortality. To improve interpretability, we propose an integrated gradients (IG) method to select important words in clinical notes and discover the critical structured EHR features with Shapley values. These important words and clinical features are visualized to assist with interpretation of the prediction outcomes. We also investigate the significance of domain adaptive pretraining and task adaptive fine-tuning on the Clinical BERT, which is used to learn the representations of clinical notes. Experiments demonstrated that our model outperforms other methods (AUCPR: 0.538, AUCROC: 0.877, F1:0.490).
翻訳日:2023-05-10 16:33:47 公開日:2023-05-09
# 高次元空間における微分可能帰納論理プログラミング

Differentiable Inductive Logic Programming in High-Dimensional Space ( http://arxiv.org/abs/2208.06652v2 )

ライセンス: Link先を確認
Stanis{\l}aw J. Purga{\l}, David M. Cerna, Cezary Kaliszyk(参考訳) シンボリック帰納論理プログラミング(ilp)による大規模論理プログラムの合成には、通常中間の定義が必要である。 しかし、インテンション述語で仮説空間を散らかすとパフォーマンスが低下する。 対照的に、勾配降下はそのような高次元空間内の解を見つける効率的な方法を提供する。 ニューロシンボリック ilp アプローチは、今のところ完全には活用されていない。 我々は,大規模述語による帰納的合成への {\delta}ilpアプローチの拡張を提案し,高次元勾配降下の有効性を生かした。 大規模述語発明は、勾配降下による微分誘導的合成の利点を生かし、既存のニューロシンボリックLPシステムの能力を超えた課題の解を学習できるようにする。 さらに,言語バイアス内の解の正確な構造を規定することなく,これらの結果を得る。

Synthesizing large logic programs through symbolic Inductive Logic Programming (ILP) typically requires intermediate definitions. However, cluttering the hypothesis space with intensional predicates typically degrades performance. In contrast, gradient descent provides an efficient way to find solutions within such high-dimensional spaces. Neuro-symbolic ILP approaches have not fully exploited this so far. We propose extending the {\delta}ILP approach to inductive synthesis with large-scale predicate invention, thus allowing us to exploit the efficacy of high-dimensional gradient descent. We show that large-scale predicate invention benefits differentiable inductive synthesis through gradient descent and allows one to learn solutions for tasks beyond the capabilities of existing neuro-symbolic ILP systems. Furthermore, we achieve these results without specifying the precise structure of the solution within the language bias.
翻訳日:2023-05-10 16:33:30 公開日:2023-05-09
# 量子スイッチによる非可逆性とクラスタリング量子観測性の測定

Measuring incompatibility and clustering quantum observables with a quantum switch ( http://arxiv.org/abs/2208.06210v4 )

ライセンス: Link先を確認
Ning Gao, Dantong Li, Anchit Mishra, Junchen Yan, Kyrylo Simonov, Giulio Chiribella(参考訳) 不整合可観測物の存在は量子力学の基礎であり、量子技術における貴重な資源である。 ここでは、相互固有空間外乱(med)と呼ばれる非可逆性の尺度を導入し、他の固有空間上の鋭い可観測性の測定によって引き起こされる外乱量を定量化する。 MEDはフォン・ノイマン測度の空間に関する計量を提供しており、任意の量子過程の非可換性を定量化できる量子スイッチと呼ばれる設定を用いて、測定プロセスが不定順序で振る舞うことによって効率的に推定することができる。 これらの機能のおかげで、MEDは量子機械学習タスクで使用できる。 我々は、未知のフォン・ノイマン測度をクラスタリングする教師なしアルゴリズムを提供することで、この応用を実証する。 我々のアルゴリズムは、ほぼ同じ測定コンテキストを共有する観測者のグループを特定するために、ノイズに対して堅牢である。

The existence of incompatible observables is a cornerstone of quantum mechanics and a valuable resource in quantum technologies. Here we introduce a measure of incompatibility, called the mutual eigenspace disturbance (MED), which quantifies the amount of disturbance induced by the measurement of a sharp observable on the eigenspaces of another. The MED provides a metric on the space of von Neumann measurements, and can be efficiently estimated by letting the measurement processes act in an indefinite order, using a setup known as the quantum switch, which also allows one to quantify the noncommutativity of arbitrary quantum processes. Thanks to these features, the MED can be used in quantum machine learning tasks. We demonstrate this application by providing an unsupervised algorithm that clusters unknown von Neumann measurements. Our algorithm is robust to noise can be used to identify groups of observers that share approximately the same measurement context.
翻訳日:2023-05-10 16:33:18 公開日:2023-05-09
# Facebook上の政治キャンペーン分析のための弱々しい指導的学習

Weakly Supervised Learning for Analyzing Political Campaigns on Facebook ( http://arxiv.org/abs/2210.10669v2 )

ライセンス: Link先を確認
Tunazzina Islam, Shamik Roy, Dan Goldwasser(参考訳) ソーシャルメディアプラットフォームは現在、政治メッセージングの主要なチャンネルであり、政治家は特定の人口層をターゲットにし、反応に基づいて適応することができる。 しかし、メッセージは目的のオーディエンスと密に結びついており、特定のポリシーの推進に関心のある複数の利害関係者によって反映されているため、このコミュニケーションを透過的にすることは難しい。 この論文の目標は、これらの高度に分散した設定を理解するための第一歩を踏み出すことです。 我々は、facebook上の政治広告のスタンスと課題を特定し、政治キャンペーンが位置、性別、年齢による何らかの人口統計学的ターゲティングをどのように使っているかを分析するために、弱い監督のアプローチを提案する。 さらに,選挙投票における政治広告の時間的変動を分析した。

Social media platforms are currently the main channel for political messaging, allowing politicians to target specific demographics and adapt based on their reactions. However, making this communication transparent is challenging, as the messaging is tightly coupled with its intended audience and often echoed by multiple stakeholders interested in advancing specific policies. Our goal in this paper is to take a first step towards understanding these highly decentralized settings. We propose a weakly supervised approach to identify the stance and issue of political ads on Facebook and analyze how political campaigns use some kind of demographic targeting by location, gender, or age. Furthermore, we analyze the temporal dynamics of the political ads on election polls.
翻訳日:2023-05-10 16:27:56 公開日:2023-05-09
# 光配置可能な$^{171}$yb$^{+}$イオンquditsによる量子ゲートの実現

Realizing quantum gates with optically-addressable $^{171}$Yb$^{+}$ ion qudits ( http://arxiv.org/abs/2210.09121v4 )

ライセンス: Link先を確認
M.A. Aksenov, I.V. Zalivako, I.A. Semerikov, A.S. Borisenko, N.V. Semenin, P.L. Sidorov, A.K. Fedorov, K.Yu. Khabarova, N.N. Kolachevsky(参考訳) quditsとしても知られるマルチレベル情報キャリアの利用は、量子コンピューティングデバイスのスケーラビリティを探求するための有望な道である。 ここでは、線形トラップにおける光適応$^{171}$Yb$^{+}$イオン四重項を用いた量子プロセッサレジスタの原理的実現の証明を示す。 リッチな準位構造である$^{171}$yb$^{+}$ イオンは、435.5 nmの四極子遷移のゼーマン準位を効率良くロバストなqudit符号化に利用することができる。 単一量子回転と2量子モルマー・ソレンセン演算からなる普遍的ゲート集合を2量子系で実現し、これは正式にはユニバーサルゲートベースの4量子ビットプロセッサと等価である。 この結果は、トラップイオンベースのプロセッサを用いた量子アルゴリズムのより効率的な実装、特に$^{171}$yb$^{+}$イオンquditの特性のさらなる研究への道を開くものである。

The use of multilevel information carriers, also known as qudits, is a promising path for exploring scalability of quantum computing devices. Here we present a proof-of-principle realization of a quantum processor register that uses optically-addressed $^{171}$Yb$^{+}$ ion qudits in a linear trap. The rich level structure of $^{171}$Yb$^{+}$ ions allows using the Zeeman sublevels of the quadrupole clock transition at 435.5 nm for efficient and robust qudit encoding. We demonstrate the realization of the universal set of gates consisting of single-qudit rotations and a two-qudit Molmer-Sorensen operation with a two-ququart system, which is formally equivalent to a universal gate-based four-qubit processor. Our results paves a way towards further studies of more efficient implementations of quantum algorithms with trapped-ion-based processors and, specifically, exploring properties of $^{171}$Yb$^{+}$ ion qudits.
翻訳日:2023-05-10 16:27:43 公開日:2023-05-09
# 男女のアニムスは、良好な影響下でも存続できる:オンラインp2pローンの注意書き

Gender Animus Can Still Exist Under Favorable Disparate Impact: a Cautionary Tale from Online P2P Lending ( http://arxiv.org/abs/2210.07864v2 )

ライセンス: Link先を確認
Xudong Shen, Tianhui Tan, Tuan Q. Phan, Jussi Keppo(参考訳) 本稿では,中国の著名なオンラインピアツーピア(p2p)レンディングプラットフォームにおいて,性別差別とその基盤となるドライバについて検討する。 P2P貸与に関する既存の研究は、異種治療(DT)に焦点を当てているが、DTは直接的差別を狭く認識し、間接的および代理的差別を見落とし、不完全な画像を提供する。 本研究では,実際のリターン率に合致しないローンの融資率の差を包含する,分散インパクト(di)と呼ばれる幅広い差別概念を測定した。 観測データからdiを推定する2段階予測器置換手法を開発した。 私たちの発見は (i)女性借り手は、同じ実利率で、資金を受け取る確率が3.97%高い。 (ii)このdiの少なくとも37.1%は、間接的又は代理的差別であり、 (iii)DTは女性全体の嗜好を44.6%過小評価している。 また, 投資家が不完全な観察から期待したリターン率を正確に予測する「合理的統計的識別」によって, 女性の好意性全般が説明できることを示す。 さらに、女性の借り手は資金確保に2%高いリターン率を必要としており、別のドライバーの味覚に基づく差別が共存し、女性に対するものであることを示している。 これらの結果は、P2P貸与は、女性を支持する肯定的な行動が合理的な群衆から自然に現れる価値ある代替信用市場を提供する一方、全体的な差別効果(DIまたはDTの両方)が女性に有利である一方で、味に基づく差別は持続し、統計的差別など既存の他の差別ドライバーによって隠蔽される可能性がある。

This papers investigates gender discrimination and its underlying drivers on a prominent Chinese online peer-to-peer (P2P) lending platform. While existing studies on P2P lending focus on disparate treatment (DT), DT narrowly recognizes direct discrimination and overlooks indirect and proxy discrimination, providing an incomplete picture. In this work, we measure a broadened discrimination notion called disparate impact (DI), which encompasses any disparity in the loan's funding rate that does not commensurate with the actual return rate. We develop a two-stage predictor substitution approach to estimate DI from observational data. Our findings reveal (i) female borrowers, given identical actual return rates, are 3.97% more likely to receive funding, (ii) at least 37.1% of this DI favoring female is indirect or proxy discrimination, and (iii) DT indeed underestimates the overall female favoritism by 44.6%. However, we also identify the overall female favoritism can be explained by one specific discrimination driver, rational statistical discrimination, wherein investors accurately predict the expected return rate from imperfect observations. Furthermore, female borrowers still require 2% higher expected return rate to secure funding, indicating another driver taste-based discrimination co-exists and is against female. These results altogether tell a cautionary tale: on one hand, P2P lending provides a valuable alternative credit market where the affirmative action to support female naturally emerges from the rational crowd; on the other hand, while the overall discrimination effect (both in terms of DI or DT) favors female, concerning taste-based discrimination can persist and can be obscured by other co-existing discrimination drivers, such as statistical discrimination.
翻訳日:2023-05-10 16:27:23 公開日:2023-05-09
# 図形要素はテキスト分類を改善するか? 変圧器時代における人口動態適応の再検討

Can Demographic Factors Improve Text Classification? Revisiting Demographic Adaptation in the Age of Transformers ( http://arxiv.org/abs/2210.07362v2 )

ライセンス: Link先を確認
Chia-Chien Hung, Anne Lauscher, Dirk Hovy, Simone Paolo Ponzetto, Goran Glava\v{s}(参考訳) デモグラフィー要素(性別や年齢など)が言語を形成する。 従来のNLPモデルでは,階層的要因を組み込むことで,様々なNLPタスクのパフォーマンスが一貫して向上することが示された。 本研究では,先行研究が最先端の事前学習型トランスフォーマー言語モデル (plms) で継続されているかどうかについて検討する。 事前学習されたトランスフォーマー(ドメイン固有あるいは地理的知識など)に外部知識を組み込むのに有効な3つの共通特殊化手法を用いる。 言語表現を性別と年齢の比率に適応させ,連続的な言語モデリングと動的マルチタスク学習を適応に利用し,言語モデル目標と人口統計学クラスの予測を組み合わせる。 本研究は,多言語 PLM を用いた場合,従来の作業結果と一致した4言語(英語,ドイツ語,フランス語,デンマーク語)でタスク性能が大幅に向上したことを示す。 しかし、主にトランスフォーマーベースのplmのドメインと言語習熟度といった結合要因の制御は、人口統計学的適応によるダウンストリームのパフォーマンス向上が、実際には人口統計学的知識に起因するものではないことを示している。 以上の結果から, PLMの人口統計学的特化は, 肯定的な社会的影響を約束しながらも, NLPの未解決問題であることが明らかとなった。

Demographic factors (e.g., gender or age) shape our language. Previous work showed that incorporating demographic factors can consistently improve performance for various NLP tasks with traditional NLP models. In this work, we investigate whether these previous findings still hold with state-of-the-art pretrained Transformer-based language models (PLMs). We use three common specialization methods proven effective for incorporating external knowledge into pretrained Transformers (e.g., domain-specific or geographic knowledge). We adapt the language representations for the demographic dimensions of gender and age, using continuous language modeling and dynamic multi-task learning for adaptation, where we couple language modeling objectives with the prediction of demographic classes. Our results, when employing a multilingual PLM, show substantial gains in task performance across four languages (English, German, French, and Danish), which is consistent with the results of previous work. However, controlling for confounding factors - primarily domain and language proficiency of Transformer-based PLMs - shows that downstream performance gains from our demographic adaptation do not actually stem from demographic knowledge. Our results indicate that demographic specialization of PLMs, while holding promise for positive societal impact, still represents an unsolved problem for (modern) NLP.
翻訳日:2023-05-10 16:26:51 公開日:2023-05-09
# コントラスト学習による言語非依存多言語情報検索

Language Agnostic Multilingual Information Retrieval with Contrastive Learning ( http://arxiv.org/abs/2210.06633v2 )

ライセンス: Link先を確認
Xiyang Hu, Xinchi Chen, Peng Qi, Deguang Kong, Kunlun Liu, William Yang Wang, Zhiheng Huang(参考訳) 多言語情報検索(IR)は、注釈付きトレーニングデータが多くの言語で取得するのにコストがかかるため困難である。 本稿では、英語のIRトレーニングデータと、英語と他言語の並列コーパスのみを利用できる場合に、多言語IRシステムの学習に有効な方法を提案する。 パラレルコーポラと非並列コーポラを用いて,事前学習された多言語モデルの言語間伝達能力を向上させる。 我々は、異なる言語で同じ意味を持つ並列文の表現を整合させる意味的コントラストロスを設計し、並列文ペアを利用して非並列コーパスから文表現における言語固有の情報を除去する新しい言語コントラストロスを設計する。 これらの損失を伴って英語のIRデータをトレーニングし、非英語データでゼロショットを評価すると、検索性能に関する先行研究よりも大幅に改善され、計算労力は大幅に削減される。 また,並列コーパスがいくつかの言語でのみ利用可能である場合,並列コーパスリソースの欠如が他の低リソース言語で持続する場合には,実用的にモデルの価値を示す。 私たちのモデルは、少数の並列文でもうまく機能し、バックボーンや他のタスクへのアドオンモジュールとして使用できます。

Multilingual information retrieval (IR) is challenging since annotated training data is costly to obtain in many languages. We present an effective method to train multilingual IR systems when only English IR training data and some parallel corpora between English and other languages are available. We leverage parallel and non-parallel corpora to improve the pretrained multilingual language models' cross-lingual transfer ability. We design a semantic contrastive loss to align representations of parallel sentences that share the same semantics in different languages, and a new language contrastive loss to leverage parallel sentence pairs to remove language-specific information in sentence representations from non-parallel corpora. When trained on English IR data with these losses and evaluated zero-shot on non-English data, our model demonstrates significant improvement to prior work on retrieval performance, while it requires much less computational effort. We also demonstrate the value of our model for a practical setting when a parallel corpus is only available for a few languages, but a lack of parallel corpora resources persists for many other low-resource languages. Our model can work well even with a small number of parallel sentences, and be used as an add-on module to any backbones and other tasks.
翻訳日:2023-05-10 16:26:28 公開日:2023-05-09
# Wasserstein分布ロバスト最適化問題に対するコアセット

Coresets for Wasserstein Distributionally Robust Optimization Problems ( http://arxiv.org/abs/2210.04260v3 )

ライセンス: Link先を確認
Ruomin Huang, Jiawei Huang, Wenjie Liu and Hu Ding(参考訳) Wassersteinの分散ロバスト最適化(\textsf{WDRO})は、曖昧なデータによる機械学習のロバスト性を高めるための一般的なモデルである。 しかし、'minimax'' の定式化を解くには大量の計算を必要とするため、実際には‘textsf{WDRO} の複雑さは禁じられる。 近年、特定の機械学習タスク(ロジスティック回帰など)のための高速 \textsf{wdro} トレーニングアルゴリズムが開発されている。 しかし、一般の大規模 \textsf{WDRO} に対する効率的なアルゴリズムの設計に関する研究は、我々の知る限り、まだ非常に限られている。 \textit{Coreset} は大規模なデータセットを圧縮するための重要なツールであり、多くの最適化問題に対する計算複雑性の低減に広く応用されている。 本稿では,一般的な textsf{WDRO} 問題に対する$\epsilon$-coreset を構築するための統一フレームワークを提案する。 あいまいなデータの不確実性のため,従来の「textsf{WDRO}」のコアセットを得るのは難しいが,「dual coreset'」を「textsf{WDRO}」の強い双対性を用いて計算できることが示されている。 また、デュアルコアセットによって導入された誤差は、元の \textsf{WDRO} の目的に対して理論的に保証することができる。 双対コアセットを構築するために,新しいグリッドサンプリング手法を提案し,この手法は,特に textsf{WDRO} の双対定式化に適している。 最後に、コアセットアプローチを実装し、実験におけるいくつかの \textsf{WDRO} 問題に対するその有効性を示す。

Wasserstein distributionally robust optimization (\textsf{WDRO}) is a popular model to enhance the robustness of machine learning with ambiguous data. However, the complexity of \textsf{WDRO} can be prohibitive in practice since solving its ``minimax'' formulation requires a great amount of computation. Recently, several fast \textsf{WDRO} training algorithms for some specific machine learning tasks (e.g., logistic regression) have been developed. However, the research on designing efficient algorithms for general large-scale \textsf{WDRO}s is still quite limited, to the best of our knowledge. \textit{Coreset} is an important tool for compressing large dataset, and thus it has been widely applied to reduce the computational complexities for many optimization problems. In this paper, we introduce a unified framework to construct the $\epsilon$-coreset for the general \textsf{WDRO} problems. Though it is challenging to obtain a conventional coreset for \textsf{WDRO} due to the uncertainty issue of ambiguous data, we show that we can compute a ``dual coreset'' by using the strong duality property of \textsf{WDRO}. Also, the error introduced by the dual coreset can be theoretically guaranteed for the original \textsf{WDRO} objective. To construct the dual coreset, we propose a novel grid sampling approach that is particularly suitable for the dual formulation of \textsf{WDRO}. Finally, we implement our coreset approach and illustrate its effectiveness for several \textsf{WDRO} problems in the experiments.
翻訳日:2023-05-10 16:26:06 公開日:2023-05-09
# 名前付きエンティティ認識のためのディープスパン表現

Deep Span Representations for Named Entity Recognition ( http://arxiv.org/abs/2210.04182v2 )

ライセンス: Link先を確認
Enwei Zhu, Yiyang Liu, Jinpeng Li(参考訳) Spanベースのモデルは、名前付きエンティティ認識(NER)の最も単純な方法の1つである。 既存のスパンベースのNERシステムは、トークン表現をスパン表現に浅く集約する。 しかし、これは典型的には、長寿命のエンティティ、重複するスパンの表現間の結合、そして最終的には性能劣化に重大な効果をもたらす。 本研究では,標準変換器とスパン変換器を組み合わせたDSpERT(Deep Span Encoder Representations from Transformers)を提案する。 後者はクエリとして低層スパン表現を使用し、トークン表現をキーと値として集約する。 したがって、DSpERTは深い意味論のスパン表現を生成する。 事前訓練された言語モデルからの重み初期化により、DSpERTは8つのNERベンチマーク上の最新の最先端システムよりも高い性能を達成する。 実験結果はスパン表現における深さの重要性を検証し,dspertが長寿命エンティティとネスト構造において特によく機能することを示す。 さらに、ディープスパン表現は、機能空間においてよく構造化され、容易に分離できる。

Span-based models are one of the most straightforward methods for named entity recognition (NER). Existing span-based NER systems shallowly aggregate the token representations to span representations. However, this typically results in significant ineffectiveness for long-span entities, a coupling between the representations of overlapping spans, and ultimately a performance degradation. In this study, we propose DSpERT (Deep Span Encoder Representations from Transformers), which comprises a standard Transformer and a span Transformer. The latter uses low-layered span representations as queries, and aggregates the token representations as keys and values, layer by layer from bottom to top. Thus, DSpERT produces span representations of deep semantics. With weight initialization from pretrained language models, DSpERT achieves performance higher than or competitive with recent state-of-the-art systems on eight NER benchmarks. Experimental results verify the importance of the depth for span representations, and show that DSpERT performs particularly well on long-span entities and nested structures. Further, the deep span representations are well structured and easily separable in the feature space.
翻訳日:2023-05-10 16:25:33 公開日:2023-05-09
# 大規模aiモデルの不可能安全性について

On the Impossible Safety of Large AI Models ( http://arxiv.org/abs/2209.15259v2 )

ライセンス: Link先を確認
El-Mahdi El-Mhamdi, Sadegh Farhadkhani, Rachid Guerraoui, Nirupam Gupta, L\^e-Nguy\^en Hoang, Rafael Pinot, S\'ebastien Rouault, John Stephan(参考訳) 大規模AIモデル(LAIM)は、大きな言語モデルが最も顕著な最近の例であり、印象的なパフォーマンスを示している。 しかし、それらは経験的に深刻なセキュリティ問題を引き起こしている。 本稿では、任意に正確かつセキュアな機械学習モデルを構築することの基本的不可能性についての知識を体系化する。 より正確には、今日の多くの機械学習設定の重要なチャレンジ機能を特定する。 すなわち、高い精度は、センシティブな情報と偽のユーザの両方を含む、しばしばユーザー生成と高度に異質な大規模なトレーニングデータセットを記憶する必要があるように見える。 次に,我々は,セキュリティ保証の強い高精度なライムを設計する可能性に対する説得力のあるケースであるとする。

Large AI Models (LAIMs), of which large language models are the most prominent recent example, showcase some impressive performance. However they have been empirically found to pose serious security issues. This paper systematizes our knowledge about the fundamental impossibility of building arbitrarily accurate and secure machine learning models. More precisely, we identify key challenging features of many of today's machine learning settings. Namely, high accuracy seems to require memorizing large training datasets, which are often user-generated and highly heterogeneous, with both sensitive information and fake users. We then survey statistical lower bounds that, we argue, constitute a compelling case against the possibility of designing high-accuracy LAIMs with strong security guarantees.
翻訳日:2023-05-10 16:25:15 公開日:2023-05-09
# 高次元到達性のための形式安全保証の生成

Generating Formal Safety Assurances for High-Dimensional Reachability ( http://arxiv.org/abs/2209.12336v2 )

ライセンス: Link先を確認
Albert Lin and Somil Bansal(参考訳) 自律システムに対する正式な安全性とパフォーマンス保証の提供がますます重要になっている。 hamilton-jacobi (hj) reachability analysisは一般的な形式的検証ツールであり、一般的な非線形系のダイナミクス、境界付けられた対向系外乱、状態と入力の制約を扱うことができる。 しかし、PDEは状態次元に関して計算とメモリの複雑さが指数関数的にスケールするので、大規模システムで直接利用することができる。 最近提案されたdeepreachという手法は、高次元到達可能性問題に対して正弦波型神経pdeソルバを用いることで、この課題を克服している。 残念なことに、ニューラルネットワークはエラーを発生させるため、計算されたソリューションは安全ではないかもしれない。 本研究では,deepreach の解に対するエラーバウンドを計算する手法を提案する。 この誤差境界は到達可能な管の補正に使用され、真の到達可能な管の安全な近似となる。 また、一般非線形力学系に対するこの誤差補正の確率境界を計算するためのシナリオベース最適化手法を提案する。 本研究では,高次元ロケットランディングおよび多車両衝突回避問題に対して,確率論的に安全な到達管を得るための提案手法の有効性を示す。

Providing formal safety and performance guarantees for autonomous systems is becoming increasingly important. Hamilton-Jacobi (HJ) reachability analysis is a popular formal verification tool for providing these guarantees, since it can handle general nonlinear system dynamics, bounded adversarial system disturbances, and state and input constraints. However, it involves solving a PDE, whose computational and memory complexity scales exponentially with respect to the state dimensionality, making its direct use on large-scale systems intractable. A recently proposed method called DeepReach overcomes this challenge by leveraging a sinusoidal neural PDE solver for high-dimensional reachability problems, whose computational requirements scale with the complexity of the underlying reachable tube rather than the state space dimension. Unfortunately, neural networks can make errors and thus the computed solution may not be safe, which falls short of achieving our overarching goal to provide formal safety assurances. In this work, we propose a method to compute an error bound for the DeepReach solution. This error bound can then be used for reachable tube correction, resulting in a safe approximation of the true reachable tube. We also propose a scenario-based optimization approach to compute a probabilistic bound on this error correction for general nonlinear dynamical systems. We demonstrate the efficacy of the proposed approach in obtaining probabilistically safe reachable tubes for high-dimensional rocket-landing and multi-vehicle collision-avoidance problems.
翻訳日:2023-05-10 16:25:04 公開日:2023-05-09
# 最適化によるビット割り当て

Bit Allocation using Optimization ( http://arxiv.org/abs/2209.09422v5 )

ライセンス: Link先を確認
Tongda Xu, Han Gao, Chenjian Gao, Yuanyuan Wang, Dailan He, Jinyong Pi, Jixiang Luo, Ziyu Zhu, Mao Ye, Hongwei Qin, Yan Wang, Jingjing Liu, Ya-Qin Zhang(参考訳) 本稿では,ニューラルビデオ圧縮(NVC)におけるビット割り当ての問題について考察する。 まず,NVCにおけるビット割り当てと半補正変分推論(SAVI)の基本的な関係を明らかにする。 具体的には、GoP(Group-of-Picture)レベルの確率を持つSAVIは、正確なレート \および品質依存モデルを持つピクセルレベルのビット割り当てと等価であることを示す。 この等価性に基づいて、SAVIを用いたビット割り当ての新しいパラダイムを確立する。 従来のビット割当法とは異なり、この手法は経験モデルを必要としないため最適である。 さらに, 勾配上昇を用いたオリジナルのSAVIは, 単一レベル潜水剤にのみ適用するため, 勾配上昇による逆伝播を再帰的に適用することにより, SAVIをNVCなどのマルチレベルに拡張する。 最後に,実用的な実装のためのトラクタブル近似を提案する。 提案手法は,ビット割り当てのR-D性能の実証的バウンダリとして機能し,性能超過が速度を符号化するシナリオに適用できる。 実験結果から、現在の最先端ビット割り当てアルゴリズムは、我々のものと比較して改善するために、$\approx 0.5$ dB PSNRの空間を持つことがわかった。 コードは \url{https://github.com/tongdaxu/bit-allocation-using-optimization} で利用可能である。

In this paper, we consider the problem of bit allocation in Neural Video Compression (NVC). First, we reveal a fundamental relationship between bit allocation in NVC and Semi-Amortized Variational Inference (SAVI). Specifically, we show that SAVI with GoP (Group-of-Picture)-level likelihood is equivalent to pixel-level bit allocation with precise rate \& quality dependency model. Based on this equivalence, we establish a new paradigm of bit allocation using SAVI. Different from previous bit allocation methods, our approach requires no empirical model and is thus optimal. Moreover, as the original SAVI using gradient ascent only applies to single-level latent, we extend the SAVI to multi-level such as NVC by recursively applying back-propagating through gradient ascent. Finally, we propose a tractable approximation for practical implementation. Our method can be applied to scenarios where performance outweights encoding speed, and serves as an empirical bound on the R-D performance of bit allocation. Experimental results show that current state-of-the-art bit allocation algorithms still have a room of $\approx 0.5$ dB PSNR to improve compared with ours. Code is available at \url{https://github.com/tongdaxu/Bit-Allocation-Using-Optimization}.
翻訳日:2023-05-10 16:24:39 公開日:2023-05-09
# 非最大エンタングルチャネルを用いた決定論的遠隔状態調整

Deterministic joint remote state preparation with a non-maximally entangled channel ( http://arxiv.org/abs/2212.01092v2 )

ライセンス: Link先を確認
Xuanxuan Xin and Shiwen He and Yongxing Li and Chong Li(参考訳) 理想的な決定論的量子通信タスクは、最大絡み合ったチャネルを必要とする。 現実には、最大エンタングルドチャネルは様々なデコヒーレンス機構のために必然的に非最大エンタングルドチャネルに分解され、量子通信の性能が著しく低下する。 従来のエンタングルメント精製や蒸留により最大エンタングル化チャネルを再構築する代わりに,脱生成非エンタングル化状態を直接使用する新しい決定論的ジョイント遠隔状態形成スキームを考案した。 非極大のハイパーエンタングル量子チャネルによる2次元量子状態の決定論的遠隔合成のためのプロトコルが補助quditsの助けを借りて考案された。 そして、それを一般化して高次元量子状態を忠実に準備する。 共有の絡み合いがどんなに弱かったとしても、コミュニケーションの成功確率は存在すればすぐに100%維持される。 この研究は、実用的な量子通信ネットワークを構築するためのイデオロギーを提供する。

Ideal deterministic quantum communication tasks require maximally entangled channels. The reality is that the maximally entangled channel is inevitably degraded to a non-maximally entangled one because of various decoherence mechanisms, seriously deteriorating the performance of quantum communication. Instead of adopting traditional entanglement purification or distillation to rebuild maximally entangled channels, we have designed a novel deterministic joint remote state preparation scheme using the degenerated non-maximally entangled state directly. A protocol for deterministic joint remote preparation of a two-dimensional quantum state via a non-maximally hyperentangled quantum channel has been devised with the help of auxiliary qudits. Then we generalize it to prepare a high-dimensional quantum state faithfully. No matter how weak the shared entanglement is, the success probability of communication is maintained at 100% as soon as it exists. This investigation provides an ideology for the construction of practical quantum communication networks.
翻訳日:2023-05-10 16:17:33 公開日:2023-05-09
# オンデバイストレーニング: 既存システムに関する最初の概要

On-device Training: A First Overview on Existing Systems ( http://arxiv.org/abs/2212.00824v2 )

ライセンス: Link先を確認
Shuai Zhu, Thiemo Voigt, JeongGil Ko, Fatemeh Rahimian(参考訳) 機械学習(ML)とディープラーニング(DL)の最近のブレークスルーは、幅広いアプリケーションドメインにまたがる様々なインテリジェントシステムの設計と開発を触媒している。 既存の機械学習モデルは、大きなメモリと計算能力を必要とするが、いくつかのモデルをリソースに制約されたデバイスにデプロイする努力も行われている。 初期のアプリケーションシステムの大半はMLとDLモデルの推論機能を活用することに重点を置いており、さまざまなモバイルおよび組み込みセンシングコンポーネントから取得したデータは、分類やセグメンテーションといったアプリケーション目標のためにこれらのモデルを通して処理される。 最近では、ML/DLモデルトレーニングにモバイルおよび組み込みコンピューティングリソースを活用するという概念が注目されている。 (i)無線リンクを介してデータを共有することなく、ローカルデータを介してモデルのトレーニングを行うことにより、設計によるプライバシ保護計算を可能にする。 (ii)モデルパーソナライゼーション及び環境適応、及び (二)インターネット接続を安定させることなく、遠隔かつアクセスし難い場所に正確なモデルを配置すること。 この研究は、デバイス上でモデルトレーニングを可能にする最先端システム研究の要約と分析を目標とし、システムの観点からデバイス上でのトレーニングに関する調査を提供する。

The recent breakthroughs in machine learning (ML) and deep learning (DL) have catalyzed the design and development of various intelligent systems over wide application domains. While most existing machine learning models require large memory and computing power, efforts have been made to deploy some models on resource-constrained devices as well. A majority of the early application systems focused on exploiting the inference capabilities of ML and DL models, where data captured from different mobile and embedded sensing components are processed through these models for application goals such as classification and segmentation. More recently, the concept of exploiting the mobile and embedded computing resources for ML/DL model training has gained attention, as such capabilities allow (i) the training of models via local data without the need to share data over wireless links, thus enabling privacy-preserving computation by design, (ii) model personalization and environment adaptation, and (ii) deployment of accurate models in remote and hardly accessible locations without stable internet connectivity. This work targets to summarize and analyze state-of-the-art systems research that allows such on-device model training capabilities and provide a survey of on-device training from a systems perspective.
翻訳日:2023-05-10 16:17:19 公開日:2023-05-09
# 一般状態と行動空間に対する政策最適化

Policy Optimization over General State and Action Spaces ( http://arxiv.org/abs/2211.16715v2 )

ライセンス: Link先を確認
Guanghui Lan(参考訳) 一般的な状態や行動空間に対する強化学習(RL)問題は非常に難しい。 テーブルーの設定とは対照的に、全ての状態を列挙して、各状態のポリシーを反復的に更新することはできない。 これにより、よく研究されたRL法、特に証明可能な収束保証法の適用が防止される。 本稿では,最近開発された一般状態と行動空間を扱うための方針ミラー降下法について,本手法の実質的な一般化について述べる。 我々は,この手法に関数近似を組み込む新しい手法を導入することにより,明示的なポリシーパラメータ化をまったく必要としない。 さらに,より単純な関数近似手法を適用可能な,新しいポリシー二重平均化手法を提案する。 我々は, 厳密な政策評価の下でRL問題の異なるクラスを解くために適用されたこれらの手法に対して, 大域的最適性に対する線形収束率や定常性に対する線形収束率を確立する。 次に、政策評価のための近似誤差の適切な概念を定義し、これらの手法が有限作用空間あるいは連続作用空間を持つ一般状態RL問題に適用された収束に与える影響を考察する。 我々の知る限り、これらのアルゴリズムフレームワークの開発と収束分析は、文献の中で新しいものと思われる。

Reinforcement learning (RL) problems over general state and action spaces are notoriously challenging. In contrast to the tableau setting, one can not enumerate all the states and then iteratively update the policies for each state. This prevents the application of many well-studied RL methods especially those with provable convergence guarantees. In this paper, we first present a substantial generalization of the recently developed policy mirror descent method to deal with general state and action spaces. We introduce new approaches to incorporate function approximation into this method, so that we do not need to use explicit policy parameterization at all. Moreover, we present a novel policy dual averaging method for which possibly simpler function approximation techniques can be applied. We establish linear convergence rate to global optimality or sublinear convergence to stationarity for these methods applied to solve different classes of RL problems under exact policy evaluation. We then define proper notions of the approximation errors for policy evaluation and investigate their impact on the convergence of these methods applied to general-state RL problems with either finite-action or continuous-action spaces. To the best of our knowledge, the development of these algorithmic frameworks as well as their convergence analysis appear to be new in the literature.
翻訳日:2023-05-10 16:16:58 公開日:2023-05-09
# 暗黙的談話関係認識のためのグローバルおよびローカル階層認識コントラストフレームワーク

Global and Local Hierarchy-aware Contrastive Framework for Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2211.13873v2 )

ライセンス: Link先を確認
Yuxin Jiang, Linhan Zhang, Wei Wang(参考訳) 明示的な接続性がないため、暗黙の言論関係認識(IDRR)は言論分析において難しい課題である。 IDRRの重要なステップは、2つの引数間の高品質な談話関係表現を学習することである。 近年の手法では,感覚の階層的情報全体を多段階認識のための談話関係表現に統合する傾向にある。 それでも、すべての感覚を含む静的階層構造(グローバル階層として定義される)を不十分に組み入れ、各インスタンス(局所階層として定義される)に対応する階層的感覚ラベルシーケンスを無視する。 そこで我々は,多タスク学習とコントラスト学習の助けを借りて2種類の階層をモデル化する,GlObal and Local Hierarchy-aware Contrastive Framework (GOLF)を提案する。 PDTB 2.0 および PDTB 3.0 データセットによる実験結果から,本手法はすべての階層レベルで,現在の最先端モデルよりも著しく優れていた。 私たちのコードはhttps://github.com/YJiangcm/GOLF_for_IDRRで公開されています。

Due to the absence of explicit connectives, implicit discourse relation recognition (IDRR) remains a challenging task in discourse analysis. The critical step for IDRR is to learn high-quality discourse relation representations between two arguments. Recent methods tend to integrate the whole hierarchical information of senses into discourse relation representations for multi-level sense recognition. Nevertheless, they insufficiently incorporate the static hierarchical structure containing all senses (defined as global hierarchy), and ignore the hierarchical sense label sequence corresponding to each instance (defined as local hierarchy). For the purpose of sufficiently exploiting global and local hierarchies of senses to learn better discourse relation representations, we propose a novel GlObal and Local Hierarchy-aware Contrastive Framework (GOLF), to model two kinds of hierarchies with the aid of multi-task learning and contrastive learning. Experimental results on PDTB 2.0 and PDTB 3.0 datasets demonstrate that our method remarkably outperforms current state-of-the-art models at all hierarchical levels. Our code is publicly available at https://github.com/YJiangcm/GOLF_for_IDRR
翻訳日:2023-05-10 16:16:23 公開日:2023-05-09
# 純粋状態の絡み合いのリーマン真測度

A Riemannian Genuine Measure of Entanglement for Pure States ( http://arxiv.org/abs/2211.06309v3 )

ライセンス: Link先を確認
R. Dharmaraj and Radhika Vathsan(参考訳) 多重部分状態の絡み合いにはいくつかの測度が存在するが、混合状態の真の絡み合い測度は、まだ我々を誘惑している。 量子状態の幾何学に関するより深い研究は、この問題に対処する方法であり、どの文脈において、量子状態の空間上の測地線距離に基づいて純粋状態の測度を導き出すかである。 我々の測度は、'Genuine Measure of Entanglement'(GME)の望ましい性質をすべて満たしており、他の既存の測度と比較すると、より滑らかさと差別性を示している。

While several measures exist for entanglement of multipartite pure states, a true entanglement measure for mixed states still eludes us. A deeper study of the geometry of quantum states may be the way to address this issue, on which context we come up with a measure for pure states based on a geodesic distance on the space of quantum states. Our measure satisfies all the desirable properties of a ``Genuine Measure of Entanglement" (GME), and in comparison with some of the other existing measures, shows better smoothness and discriminance.
翻訳日:2023-05-10 16:16:04 公開日:2023-05-09
# コード生成におけるバイアスを見つけるためのシンプルで効果的なアプローチ

A Simple, Yet Effective Approach to Finding Biases in Code Generation ( http://arxiv.org/abs/2211.00609v2 )

ライセンス: Link先を確認
Spyridon Mouselinos, Mateusz Malinowski, Henryk Michalewski(参考訳) 近年,大規模言語モデルに基づく高性能コード生成システムが登場している。 それらは、実際の実行可能なコンピュータコードよりもずっと自然なテキストを含む巨大なコーパスで訓練される。 この研究によると、現在のコード生成システムは、大きな言語モデルのバックボーンから受け継がれた望ましくないバイアスを示しており、特定の状況下で生成されたコードの品質を低下させることができる。 この効果を調べるために,モジュールの分解とコーディング課題の解析を可能にする「影響のブロック」の概念を提案する。 テスト中のモデルの障害モードを通じて望ましくないバイアスを露呈する、敵対的テストを想起させる自動介入機構を導入する。 最後に,これらのバイアスに対する緩和戦略として,微調整時のデータ変換手法として,我々のフレームワークをどのように活用できるかを実証する。

Recently, high-performing code generation systems based on large language models have surfaced. They are trained on massive corpora containing much more natural text than actual executable computer code. This work shows that current code generation systems exhibit undesired biases inherited from their large language model backbones, which can reduce the quality of the generated code under specific circumstances. To investigate the effect, we propose the "block of influence" concept, which enables a modular decomposition and analysis of the coding challenges. We introduce an automated intervention mechanism reminiscent of adversarial testing that exposes undesired biases through the failure modes of the models under test. Finally, we demonstrate how our framework can be used as a data transformation technique during fine-tuning, acting as a mitigation strategy for these biases.
翻訳日:2023-05-10 16:15:53 公開日:2023-05-09
# 正規サンプルが少ない3次元点雲異常検出のための教師学習ネットワーク

Teacher-Student Network for 3D Point Cloud Anomaly Detection with Few Normal Samples ( http://arxiv.org/abs/2210.17258v2 )

ライセンス: Link先を確認
Jianjian Qin, Chunzhi Gu, Jun Yu, Chao Zhang(参考訳) 異常検出(英: Anomaly detection)は、コンピュータビジョンにおいて重要で一般的なトピックであり、正常な(非異常な)サンプルとは異なる異常なサンプルを検出することを目的としている。 現在の主流の手法は画像の異常検出に重点を置いているが、3Dポイントクラウドにはほとんど注目されていない。 本稿では,教師・生徒の知識伝達能力と,近年のニューラルネットワークの特徴抽出能力から着想を得た3次元異常検出のための教師・学生構造モデルを提案する。 具体的には,特徴空間アライメント,次元拡大,最大プーリングを用いてポイントクラウドの特徴を抽出し,教師と学生ネットワークが生成する特徴ベクトル間のマルチスケール損失を最小化する。 また,本手法では,教師・学生の蒸留機構により,学生のネットワークを訓練するためのサンプルはごくわずかである。 トレーニングが完了すると、教師と学生のネットワークペアを併用して、計算された異常スコアに基づいて3次元点雲異常検出を実現する。 評価のために,ShapeNet-Partデータセットの再構成手法との比較を行った。 実験結果とアブレーション研究により,本モデルが3次元異常検出における技量よりも高い性能を達成できることを定量的に,定性的に確認した。

Anomaly detection, which is a critical and popular topic in computer vision, aims to detect anomalous samples that are different from the normal (i.e., non-anomalous) ones. The current mainstream methods focus on anomaly detection for images, whereas little attention has been paid to 3D point cloud. In this paper, drawing inspiration from the knowledge transfer ability of teacher-student architecture and the impressive feature extraction capability of recent neural networks, we design a teacher-student structured model for 3D anomaly detection. Specifically, we use feature space alignment, dimension zoom, and max pooling to extract the features of the point cloud and then minimize a multi-scale loss between the feature vectors produced by the teacher and the student networks. Moreover, our method only requires very few normal samples to train the student network due to the teacher-student distillation mechanism. Once trained, the teacher-student network pair can be leveraged jointly to fulfill 3D point cloud anomaly detection based on the calculated anomaly score. For evaluation, we compare our method against the reconstruction-based method on the ShapeNet-Part dataset. The experimental results and ablation studies quantitatively and qualitatively confirm that our model can achieve higher performance compared with the state of the arts in 3D anomaly detection with very few training samples.
翻訳日:2023-05-10 16:15:40 公開日:2023-05-09
# 適応型カーネル変調による画像生成

Few-shot Image Generation via Adaptation-Aware Kernel Modulation ( http://arxiv.org/abs/2210.16559v3 )

ライセンス: Link先を確認
Yunqing Zhao, Keshigeyan Chandrasegaran, Milad Abdollahzadeh, Ngai-Man Cheung(参考訳) Few-shot Image Generation (FSIG) は、ドメインから非常に限られた数のサンプル、例えば10のトレーニングサンプルから、新しい多様なサンプルを生成することを学ぶことを目的としている。 最近の研究は、転送学習アプローチを用いてこの問題に対処し、大規模なソースドメインデータセットで事前訓練されたGANを活用し、非常に限られたターゲットドメインサンプルに基づいて、そのモデルをターゲットドメインに適応させる。 最近のFSIG手法の中心は知識保存基準であり、適応モデルに保存されるソースモデルの知識のサブセットを選択することを目的としている。 しかし、既存の方法の大きな制限は、知識保存基準がソースドメイン/ソースタスクのみを考慮し、ソースモデルの知識の選択においてターゲットドメイン/適応タスクを考慮せず、ソースドメインとターゲットドメインの近接性の異なる設定に適合性に疑問を投げかけることである。 私たちの仕事は2つの貢献をする。 最初のコントリビューションとして、FSIGの最近の研究とその実験を再訪する。 我々の重要な発見は、ソースドメインとターゲットドメイン間の密接な近接の仮定が緩和された設定の下で、知識保存におけるソースドメイン/ソースタスクのみを考慮した既存のSOTA(State-of-the-art)手法が、ベースラインの微調整法より優れていることである。 既存手法の限界に対処するため,第2の貢献として,異なるソース・ターゲット領域の一般fsigに対応する適応認識カーネル変調(adam)を提案する。 広範な実験結果から,提案手法は,ソースドメインとターゲットドメインがより分離された場合の課題設定を含む,近接するソース/ターゲットドメイン間でのsota性能を一貫して達成できることがわかった。 プロジェクトページ: https://yunqing-me.github.io/adam/

Few-shot image generation (FSIG) aims to learn to generate new and diverse samples given an extremely limited number of samples from a domain, e.g., 10 training samples. Recent work has addressed the problem using transfer learning approach, leveraging a GAN pretrained on a large-scale source domain dataset and adapting that model to the target domain based on very limited target domain samples. Central to recent FSIG methods are knowledge preserving criteria, which aim to select a subset of source model's knowledge to be preserved into the adapted model. However, a major limitation of existing methods is that their knowledge preserving criteria consider only source domain/source task, and they fail to consider target domain/adaptation task in selecting source model's knowledge, casting doubt on their suitability for setups of different proximity between source and target domain. Our work makes two contributions. As our first contribution, we re-visit recent FSIG works and their experiments. Our important finding is that, under setups which assumption of close proximity between source and target domains is relaxed, existing state-of-the-art (SOTA) methods which consider only source domain/source task in knowledge preserving perform no better than a baseline fine-tuning method. To address the limitation of existing methods, as our second contribution, we propose Adaptation-Aware kernel Modulation (AdAM) to address general FSIG of different source-target domain proximity. Extensive experimental results show that the proposed method consistently achieves SOTA performance across source/target domains of different proximity, including challenging setups when source and target domains are more apart. Project Page: https://yunqing-me.github.io/AdAM/
翻訳日:2023-05-10 16:15:20 公開日:2023-05-09
# 哲学者の大規模言語モデルの作成

Creating a Large Language Model of a Philosopher ( http://arxiv.org/abs/2302.01339v2 )

ライセンス: Link先を確認
Eric Schwitzgebel, David Schwitzgebel, and Anna Strasser(参考訳) 大規模言語モデルは、人間の哲学者が作成したテキストと区別しにくい哲学的テキストを生成するように訓練できるだろうか? この問題に対処するため、我々は哲学者ダニエル・C・デネット(Daniel C. Dennett)によるOpenAIのGPT-3を追加のトレーニングデータとして微調整した。 dennettモデルを調査するために、実際のdennettに哲学的な質問を10つ求め、言語モデルに同じ質問を付けて、チェリーピッキングなしで各質問に対して4つの回答を集めた。 我々はデンネットの回答を4つのマシン生成回答と区別するために425人の参加者を募集した。 デネットの業績の専門家(N = 25)は20%の確率より51%の確率で成功しましたが、仮説の80%の確率では不十分でした。 10の質問のうち2つについて、言語モデルは少なくとも1つの回答を生み出し、専門家がdennett自身の回答よりも頻繁に選択した。 哲学ブログの読者(N = 302)は専門家と類似し、通常の研究参加者(N = 98)はGPT-3の反応を「実際の人間の哲学者」と区別する機会に近かった。

Can large language models be trained to produce philosophical texts that are difficult to distinguish from texts produced by human philosophers? To address this question, we fine-tuned OpenAI's GPT-3 with the works of philosopher Daniel C. Dennett as additional training data. To explore the Dennett model, we asked the real Dennett ten philosophical questions and then posed the same questions to the language model, collecting four responses for each question without cherry-picking. We recruited 425 participants to distinguish Dennett's answer from the four machine-generated answers. Experts on Dennett's work (N = 25) succeeded 51% of the time, above the chance rate of 20% but short of our hypothesized rate of 80% correct. For two of the ten questions, the language model produced at least one answer that experts selected more frequently than Dennett's own answer. Philosophy blog readers (N = 302) performed similarly to the experts, while ordinary research participants (N = 98) were near chance distinguishing GPT-3's responses from those of an "actual human philosopher".
翻訳日:2023-05-10 16:09:20 公開日:2023-05-09
# 大規模言語モデルを用いた適応機械翻訳

Adaptive Machine Translation with Large Language Models ( http://arxiv.org/abs/2301.13294v3 )

ライセンス: Link先を確認
Yasmin Moslem, Rejwanul Haque, John D. Kelleher, Andy Way(参考訳) 一貫性は高品質翻訳の重要な要件である。 事前承認された用語に固執し、ドメイン固有のプロジェクトで修正された翻訳に適応することが特に重要である。 機械翻訳(MT)はドメイン適応の分野で大きな進歩を遂げた。 しかし、リアルタイム適応は依然として困難である。 大規模言語モデル(LLM)は、最近、入力出力テキスト生成パターンをさらなる微調整なしで再現することを学ぶ、コンテキスト内学習の興味深い機能を示した。 LLMを推論時に翻訳ペアのリストからなるプロンプトで供給することにより、ドメインとスタイルの特徴をシミュレートすることができる。 本研究の目的は,リアルタイム適応型MTを改善するためにコンテキスト内学習をいかに活用できるかを検討することである。 例えば、LLMは、新しい文を翻訳しながら、ドメイン内の文対と/または用語のセットに適応することができる。 テキスト内学習の少ない翻訳品質は,特に高リソース言語において,強力なエンコーダデコーダMTシステムよりも優れている。 さらに,強力なエンコーダ・デコーダモデルからのMTとファジィマッチングを組み合わせれば,特にサポートされていない言語において,翻訳品質をさらに向上させることができるかを検討する。 英語-アラビア語(EN-AR)、英語-中国語(EN-ZH)、英語-フランス語(EN-FR)、英語-キニャルワンダ(EN-RW)、英語-スペイン語(EN-ES)の5つの多種多様な言語対で実験を行った。

Consistency is a key requirement of high-quality translation. It is especially important to adhere to pre-approved terminology and adapt to corrected translations in domain-specific projects. Machine translation (MT) has achieved significant progress in the area of domain adaptation. However, real-time adaptation remains challenging. Large-scale language models (LLMs) have recently shown interesting capabilities of in-context learning, where they learn to replicate certain input-output text generation patterns, without further fine-tuning. By feeding an LLM at inference time with a prompt that consists of a list of translation pairs, it can then simulate the domain and style characteristics. This work aims to investigate how we can utilize in-context learning to improve real-time adaptive MT. Our extensive experiments show promising results at translation time. For example, LLMs can adapt to a set of in-domain sentence pairs and/or terminology while translating a new sentence. We observe that the translation quality with few-shot in-context learning can surpass that of strong encoder-decoder MT systems, especially for high-resource languages. Moreover, we investigate whether we can combine MT from strong encoder-decoder models with fuzzy matches, which can further improve translation quality, especially for less supported languages. We conduct our experiments across five diverse language pairs, namely English-to-Arabic (EN-AR), English-to-Chinese (EN-ZH), English-to-French (EN-FR), English-to-Kinyarwanda (EN-RW), and English-to-Spanish (EN-ES).
翻訳日:2023-05-10 16:09:00 公開日:2023-05-09
# 条件付き平均治療効果の近位因果学習

Proximal Causal Learning of Conditional Average Treatment Effects ( http://arxiv.org/abs/2301.10913v2 )

ライセンス: Link先を確認
Erik Sverdrup and Yifan Cui(参考訳) 医療からマーケティングまで幅広い場面で治療効果の多様性を効率的かつ柔軟に推定することは重要な課題であり、現在利用可能な有望な条件付き平均治療効果推定装置が多数存在する。 しかし、これらは通常、測定された共変量は条件付き交換可能性の正当化に十分であるという仮定に依存している。 本稿では,R-およびDR-learnerを動機とするP-learnerを提案する。このP-learnerは,観測された共変量に対する交換性が不確実な仮定であるような条件下で,不均一な処理効果を学習するための2段階の損失関数である。 提案手法は,既定の損失最小化機械学習手法によって実現可能であり,カーネル回帰の場合,ニュアサンス成分が合理的に推定される限り,推定誤差にバウンドしたオラクルを満足させることができる。

Efficiently and flexibly estimating treatment effect heterogeneity is an important task in a wide variety of settings ranging from medicine to marketing, and there are a considerable number of promising conditional average treatment effect estimators currently available. These, however, typically rely on the assumption that the measured covariates are enough to justify conditional exchangeability. We propose the P-learner, motivated by the R- and DR-learner, a tailored two-stage loss function for learning heterogeneous treatment effects in settings where exchangeability given observed covariates is an implausible assumption, and we wish to rely on proxy variables for causal inference. Our proposed estimator can be implemented by off-the-shelf loss-minimizing machine learning methods, which in the case of kernel regression satisfies an oracle bound on the estimated error as long as the nuisance components are estimated reasonably well.
翻訳日:2023-05-10 16:08:03 公開日:2023-05-09
# ディープニューラルネットワークにおける安全でない入力をカウントする#DNN検証問題

The #DNN-Verification problem: Counting Unsafe Inputs for Deep Neural Networks ( http://arxiv.org/abs/2301.07068v2 )

ライセンス: Link先を確認
Luca Marzari, Davide Corsi, Ferdinando Cicalese and Alessandro Farinelli(参考訳) ディープニューラルネットワークは、例えば自動運転のような高いレベルの安全性を必要とする重要なタスクにますます採用されている。 最先端の検証器は、DNNが与えられたプロパティ(少なくとも1つの安全でない入力設定があるかどうか)が安全でないかどうかを確認するのに使えるが、その出力はシールド、モデル選択、トレーニングの改善といった他の目的のために十分な情報を提供していない。 本稿では,特定の安全性に違反する原因となるDNNの入力構成数をカウントする#DNN-Verification問題を提案する。 我々は,この問題の複雑さを分析し,違反の正確な数を返す新しい手法を提案する。 また,この問題の#P完全性から,計算要求を著しく低減しつつ,正しいカウントの証明可能な確率的境界を提供するランダム化近似法を提案する。 提案手法の有効性を実証する一連の安全クリティカルベンチマークについて実験結果を示し,境界の密着性を評価する。

Deep Neural Networks are increasingly adopted in critical tasks that require a high level of safety, e.g., autonomous driving. While state-of-the-art verifiers can be employed to check whether a DNN is unsafe w.r.t. some given property (i.e., whether there is at least one unsafe input configuration), their yes/no output is not informative enough for other purposes, such as shielding, model selection, or training improvements. In this paper, we introduce the #DNN-Verification problem, which involves counting the number of input configurations of a DNN that result in a violation of a particular safety property. We analyze the complexity of this problem and propose a novel approach that returns the exact count of violations. Due to the #P-completeness of the problem, we also propose a randomized, approximate method that provides a provable probabilistic bound of the correct count while significantly reducing computational requirements. We present experimental results on a set of safety-critical benchmarks that demonstrate the effectiveness of our approximate method and evaluate the tightness of the bound.
翻訳日:2023-05-10 16:07:45 公開日:2023-05-09
# 再帰的に特徴を学習する完全連結ネットワークとカーネルマシンにおける特徴学習のメカニズム

Mechanism of feature learning in deep fully connected networks and kernel machines that recursively learn features ( http://arxiv.org/abs/2212.13881v3 )

ライセンス: Link先を確認
Adityanarayanan Radhakrishnan, Daniel Beaglehole, Parthe Pandit, Mikhail Belkin(参考訳) 近年、ニューラルネットワークは多くの技術的および科学的タスクで印象的な成果を上げている。 しかし、これらのモデルが予測のためにデータの特徴やパターンを自動的に選択するメカニズムはまだ不明である。 このようなメカニズムを同定することは、ニューラルネットワークの性能と解釈可能性の向上と、これらのモデルの科学的応用への信頼性の向上の鍵となる。 本稿では,深い完全連結ニューラルネットワークが特徴を学習するメカニズムを同定し,特徴付ける。 神経機能学習は,平均勾配外積をモデル出力に強く関連づける重み付け機能に実装することで実現されるという,深層神経機能antatzを仮定する。 私たちのアンサッツは、素早い特徴の出現や単純さのバイアス、プルーニングネットワークがパフォーマンスを高める方法、"ロタリーチケット仮説"など、さまざまなディープラーニング現象に光を当てています。 さらに、我々の研究で特定されたメカニズムは、どんな機械学習モデルでも特徴学習のバックプロパゲーションフリーな手法につながる。 この特徴学習機構の有効性を実証するために、カーネルマシンとして知られる古典的で非機能学習モデルにおける特徴学習を実現し、その結果、私たちがRecursive Feature Machinesと呼ぶモデルが表データ上で最先端のパフォーマンスを達成することを示す。

In recent years neural networks have achieved impressive results on many technological and scientific tasks. Yet, the mechanism through which these models automatically select features, or patterns in data, for prediction remains unclear. Identifying such a mechanism is key to advancing performance and interpretability of neural networks and promoting reliable adoption of these models in scientific applications. In this paper, we identify and characterize the mechanism through which deep fully connected neural networks learn features. We posit the Deep Neural Feature Ansatz, which states that neural feature learning occurs by implementing the average gradient outer product to up-weight features strongly related to model output. Our ansatz sheds light on various deep learning phenomena including emergence of spurious features and simplicity biases and how pruning networks can increase performance, the "lottery ticket hypothesis." Moreover, the mechanism identified in our work leads to a backpropagation-free method for feature learning with any machine learning model. To demonstrate the effectiveness of this feature learning mechanism, we use it to enable feature learning in classical, non-feature learning models known as kernel machines and show that the resulting models, which we refer to as Recursive Feature Machines, achieve state-of-the-art performance on tabular data.
翻訳日:2023-05-10 16:07:28 公開日:2023-05-09
# 注意のない事前訓練

Pretraining Without Attention ( http://arxiv.org/abs/2212.10544v2 )

ライセンス: Link先を確認
Junxiong Wang, Jing Nathan Yan, Albert Gu, Alexander M. Rush(参考訳) トランスフォーマーはnlpの成功の事前訓練に不可欠である。 他のアーキテクチャが使用されているが、下流の精度は著しく悪くなり、GLUEのような標準ベンチマークに合うように注意層が必要になる。 本研究では、状態空間モデル(SSM)に基づくシーケンスルーティングの最近の進歩を利用して、注意せずに事前学習を検討する。 提案モデルであるbidirectional gated ssm (bigs) は,ssm層と,単純なシーケンスモデリングアーキテクチャに有効である乗算ゲーティングアーキテクチャを組み合わせたものである。 モデルは、ペアの相互作用を考慮しない静的なレイヤを学習する。 それでも、BiGSはBERT事前トレーニングの精度をGLUEで一致させ、近似なしで4096トークンの長期事前トレーニングに拡張することができる。 解析によれば、モデルの平均精度は似ているが、相互作用や構文表現の点でBERTとは異なる帰納バイアスを持つ。 この作業のすべてのモデルはhttps://github.com/jxiw/BiGS.comで入手できる。

Transformers have been essential to pretraining success in NLP. While other architectures have been used, downstream accuracy is either significantly worse, or requires attention layers to match standard benchmarks such as GLUE. This work explores pretraining without attention by using recent advances in sequence routing based on state-space models (SSMs). Our proposed model, Bidirectional Gated SSM (BiGS), combines SSM layers with a multiplicative gating architecture that has been effective in simplified sequence modeling architectures. The model learns static layers that do not consider pair-wise interactions. Even so, BiGS is able to match BERT pretraining accuracy on GLUE and can be extended to long-form pretraining of 4096 tokens without approximation. Analysis shows that while the models have similar average accuracy, the approach has different inductive biases than BERT in terms of interactions and syntactic representations. All models from this work are available at https://github.com/jxiw/BiGS.
翻訳日:2023-05-10 16:07:06 公開日:2023-05-09
# SeqDiffuSeq: Encoder-Decoder変換器によるテキスト拡散

SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers ( http://arxiv.org/abs/2212.10325v4 )

ライセンス: Link先を確認
Hongyi Yuan, Zheng Yuan, Chuanqi Tan, Fei Huang, Songfang Huang(参考訳) 新しい生成モデルパラダイムである拡散モデルは、画像、オーディオ、ビデオ生成において大きな成功を収めている。 しかし、テキストの離散的分類学的性質を考えると、連続拡散モデルを自然言語に拡張することは自明ではなく、テキスト拡散モデルはあまり研究されていない。 シーケンスからシーケンスへのテキスト生成は、自然言語処理の重要なトピックの1つです。 本研究では,逐次テキスト生成に拡散モデルを適用し,拡散モデルの優越性生成性能が自然言語領域に転移できるかどうかを検討する。 シーケンス列生成のためのテキスト拡散モデルであるseqdiffuseqを提案する。 SeqDiffuSeqはEncoder-decoder Transformersアーキテクチャを使ってデノナイジング関数をモデル化している。 生成品質を向上させるため、seqdiffuseqは、自己調整技術と新しく提案された適応型ノイズスケジュール技術を組み合わせた。 適応ノイズスケジュールは、時間ステップにまたがって均等に分散する難しさがあり、異なる位置順でトークンの排他的ノイズスケジュールを考える。 実験結果は,テキスト品質と推論時間の観点から,シーケンス列生成における優れた性能を示す。

Diffusion model, a new generative modelling paradigm, has achieved great success in image, audio, and video generation. However, considering the discrete categorical nature of text, it is not trivial to extend continuous diffusion models to natural language, and text diffusion models are less studied. Sequence-to-sequence text generation is one of the essential natural language processing topics. In this work, we apply diffusion models to approach sequence-to-sequence text generation, and explore whether the superiority generation performance of diffusion model can transfer to natural language domain. We propose SeqDiffuSeq, a text diffusion model for sequence-to-sequence generation. SeqDiffuSeq uses an encoder-decoder Transformers architecture to model denoising function. In order to improve generation quality, SeqDiffuSeq combines the self-conditioning technique and a newly proposed adaptive noise schedule technique. The adaptive noise schedule has the difficulty of denoising evenly distributed across time steps, and considers exclusive noise schedules for tokens at different positional order. Experiment results illustrate the good performance on sequence-to-sequence generation in terms of text quality and inference time.
翻訳日:2023-05-10 16:06:52 公開日:2023-05-09
# GanLM: 補助判別器によるエンコーダデコーダ事前トレーニング

GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator ( http://arxiv.org/abs/2212.10218v2 )

ライセンス: Link先を確認
Jian Yang, Shuming Ma, Li Dong, Shaohan Huang, Haoyang Huang, Yuwei Yin, Dongdong Zhang, Liqun Yang, Furu Wei and Zhoujun Li(参考訳) 事前訓練されたモデルは自然言語処理(NLP)において顕著な成功を収めた。 しかし、既存の事前学習手法は、生成のための言語理解の利点を生かしている。 本稿では,GAN(Generative Adversarial Networks)のアイデアに触発されて,一つのモデルにおける言語理解と生成の能力を統一した補助的識別器を導入することで,エンコーダ・デコーダ事前学習のためのGANスタイルモデルを提案する。 当社のモデルはganlmと名付けられ、トークン検出とトークン切り換えという2つの事前学習目標でトレーニングされています。 具体的には、マスクされたソース文が与えられた場合、ジェネレータはターゲット分布を出力し、識別器は、分布からのターゲットサンプルトークンが誤りであるか否かを予測する。 ターゲット文は、ゴールド文を生成するために使用されるノイズの多い前のコンテキストを構築するために、誤って分類されたトークンに置き換えられる。 一般に、両方のタスクは、認知データを用いて言語理解と生成の能力を向上させる。 言語生成ベンチマークの大規模な実験により、強力な言語理解能力を持つ GanLM は、様々な強力な事前学習言語モデル(PLM)より優れ、最先端のパフォーマンスを達成することが示された。

Pre-trained models have achieved remarkable success in natural language processing (NLP). However, existing pre-training methods underutilize the benefits of language understanding for generation. Inspired by the idea of Generative Adversarial Networks (GANs), we propose a GAN-style model for encoder-decoder pre-training by introducing an auxiliary discriminator, unifying the ability of language understanding and generation in a single model. Our model, named as GanLM, is trained with two pre-training objectives: replaced token detection and replaced token denoising. Specifically, given masked source sentences, the generator outputs the target distribution and the discriminator predicts whether the target sampled tokens from distribution are incorrect. The target sentence is replaced with misclassified tokens to construct noisy previous context, which is used to generate the gold sentence. In general, both tasks improve the ability of language understanding and generation by selectively using the denoising data. Extensive experiments in language generation benchmarks show that GanLM with the powerful language understanding capability outperforms various strong pre-trained language models (PLMs) and achieves state-of-the-art performance.
翻訳日:2023-05-10 16:06:36 公開日:2023-05-09
# 量子チャネルのユニタリ性推定

Unitarity estimation for quantum channels ( http://arxiv.org/abs/2212.09319v4 )

ライセンス: Link先を確認
Kean Chen, Qisheng Wang, Peixun Long, Mingsheng Ying(参考訳) 未知の量子チャネル $\mathcal{e}$ のユニタリ性の推定は、それがどの程度ユニタリであるかの情報を提供する。 ユニタリティ推定はコヒーレントアクセスまたは非コヒーレントアクセスで行うことができ、前者は一般にクエリの複雑さを向上し、後者はより実用的な実装を可能にする。 本稿では,コヒーレントおよび非コヒーレントアクセスを持つ$\mathcal{e}$ に対する$o(\epsilon^{-2})$ と $o(\sqrt{d}\cdot\epsilon^{-2})$ を,それぞれ $d$ が $\mathcal{e}$ が作用するシステムの次元である$\mathcal{e}$ と $\epsilon$ を必要な精度とする,ユニタリティ推定のための統一的なフレームワークを提案する。 さらに、我々のアルゴリズムの$d$-dependenceと$\epsilon$-dependenceの両方が最適であることを示す。 この結果の一環として,Aharonov et al. (Nat. Commun. 2022) と Chen et al. (FOCS 2021) により, 一致した下限の$\Omega(\sqrt{d})$, 前の最下限の$\Omega(\sqrt[3]{d})$を改良することにより, 不整合アクセスを持つ分極チャネルとユニタリチャネルの区別問題に対するクエリ複雑性を解決した。

Estimating the unitarity of an unknown quantum channel $\mathcal{E}$ provides information on how much it is unitary, which is a basic and important problem in quantum device certification and benchmarking. Unitarity estimation can be performed with either coherent or incoherent access, where the former in general leads to better query complexity while the latter allows more practical implementations. In this paper, we provide a unified framework for unitarity estimation, which induces ancilla-efficient algorithms that use $O(\epsilon^{-2})$ and $O(\sqrt{d}\cdot\epsilon^{-2})$ calls to $\mathcal{E}$ with coherent and incoherent accesses, respectively, where $d$ is the dimension of the system that $\mathcal{E}$ acts on and $\epsilon$ is the required precision. We further show that both the $d$-dependence and $\epsilon$-dependence of our algorithms are optimal. As part of our results, we settle the query complexity of the distinguishing problem for depolarizing and unitary channels with incoherent access by giving a matching lower bound $\Omega(\sqrt{d})$, improving the prior best lower bound $\Omega(\sqrt[3]{d})$ by Aharonov et al. (Nat. Commun. 2022) and Chen et al. (FOCS 2021).
翻訳日:2023-05-10 16:06:15 公開日:2023-05-09
# 大規模多言語モデルの翻訳性能の検討:BLOOMの場合

Investigating the Translation Performance of a Large Multilingual Language Model: the Case of BLOOM ( http://arxiv.org/abs/2303.01911v2 )

ライセンス: Link先を確認
Rachel Bawden and Fran\c{c}ois Yvon(参考訳) NLPコミュニティは最近、46の言語をカバーする新しい大きなオープンアクセス多言語言語モデルBLOOM(BigScience et al., 2022)をリリースした。 BLOOMは複数のデータセット(WMT,Flores-101,DiaBLa)と言語ペア(高リソース,低リソース)にまたがって機械翻訳性能を評価することで多言語化能力に重点を置いている。 以上の結果から,0ショット性能は誤生成や誤生成に悩まされるが,数ショット設定では大幅に改善され,多くの言語ペアに対して非常によい結果が得られた。 本稿では, 素早い設計, モデルサイズ, 言語間移動, 帰納的文脈の利用など, 様々な側面について検討する。

The NLP community recently saw the release of a new large open-access multilingual language model, BLOOM (BigScience et al., 2022) covering 46 languages. We focus on BLOOM's multilingual ability by evaluating its machine translation performance across several datasets (WMT, Flores-101 and DiaBLa) and language pairs (high- and low-resourced). Our results show that 0-shot performance suffers from overgeneration and generating in the wrong language, but this is greatly improved in the few-shot setting, with very good results for a number of language pairs. We study several aspects including prompt design, model sizes, cross-lingual transfer and the use of discursive context.
翻訳日:2023-05-10 15:58:48 公開日:2023-05-09
# 高速かつフレキシブルな量子状態シミュレータの設計

Designing a Fast and Flexible Quantum State Simulator ( http://arxiv.org/abs/2303.01493v2 )

ライセンス: Link先を確認
Saveliy Yusufov, Charlee Stefanski, Constantin Gonciulea(参考訳) 本稿では,Rustで記述された高速かつ柔軟な量子シミュレータSpinozaの設計と実装について述べる。 スピノザは量子ゲートを適用して量子系の状態の進化をシミュレートし、中心となる設計原理は、標的量子ビットに適用された単一量子ビットゲートは、ターゲット量子ビットでのみ異なる測定結果に対応する振幅のペアの確率を保存することである。 ゲートタイプと他のパラメータに依存する振幅のペアを選択するために、パフォーマンスを最適化するために複数の戦略が使用される。 特定のゲートタイプやターゲットキュービットに対する最適化も実装されている。 Spinozaは、開発者が古典的なシミュレーションのためのシンプルで柔軟で高速なツールを提供することで、量子コンピューティングソリューションの開発を可能にすることを意図している。 本稿では,設計事例と利用事例について詳述する。 さらに,Spinozaの性能を他のオープンソースシミュレータと比較し,その強みを示す。

This paper describes the design and implementation of Spinoza, a fast and flexible quantum simulator written in Rust. Spinoza simulates the evolution of a quantum system's state by applying quantum gates, with the core design principle being that a single-qubit gate applied to a target qubit preserves the probability of pairs of amplitudes corresponding to measurement outcomes that differ only in the target qubit. Multiple strategies are employed for selecting pairs of amplitudes, depending on the gate type and other parameters, to optimize performance. Specific optimizations are also implemented for certain gate types and target qubits. Spinoza is intended to enable the development of quantum computing solutions by offering developers a simple, flexible, and fast tool for classical simulation. In this paper we provide details about the design and usage examples. Furthermore, we compare Spinoza's performance against several other open-source simulators to demonstrate its strengths.
翻訳日:2023-05-10 15:58:32 公開日:2023-05-09
# 望ましいものの集合の背後にある論理とそのフィルタ表現

The logic behind desirable sets of things, and its filter representation ( http://arxiv.org/abs/2302.08176v2 )

ライセンス: Link先を確認
Gert de Cooman and Arthur Van Camp and Jasper De Bock(参考訳) 我々は、所望のギャンブルとコヒーレント選択関数を一般化する所望の(集合の)物事のコヒーレント集合の最近の理論の背後にある論理を同定し、これらのコヒーレントモデルに対して、より単純なものの観点から様々な表現結果を確立することができることを示す。

We identify the logic behind the recent theory of coherent sets of desirable (sets of) things, which generalise desirable (sets of) gambles and coherent choice functions, and show that this identification allows us to establish various representation results for such coherent models in terms of simpler ones.
翻訳日:2023-05-10 15:58:17 公開日:2023-05-09
# ランダム事前ネットワークを用いた高次元出力によるスケーラブルベイズ最適化

Scalable Bayesian optimization with high-dimensional outputs using randomized prior networks ( http://arxiv.org/abs/2302.07260v3 )

ライセンス: Link先を確認
Mohamed Aziz Bhouri and Michael Joly and Robert Yu and Soumalya Sarkar and Paris Perdikaris(参考訳) 科学と工学におけるいくつかの基本的な問題は、制御可能な変数の集合を高価な実験の結果にマッピングする未知の高次元(ブラックボックス)関数を含む大域的な最適化タスクである。 ベイズ最適化(BO)技術は、相対的に少数の目的関数評価を用いて大域的最適化問題に取り組むのに有効であることが知られているが、その性能は高次元出力を扱う際に損なわれる。 本稿では、次元性の大きな課題を克服するために、BOのためのディープラーニングフレームワークと、ランダム化前のニューラルネットワークの自己ストラップ型アンサンブルに基づくシーケンシャル意思決定を提案する。 適切なアーキテクチャの選択を用いて,提案手法は,高次元ベクトル空間や無限次元関数空間の値を取る場合であっても,設計変数と関心量の関数関係を近似できることを示した。 BOの文脈では,マルチポイント(並列)取得関数の再パラメータ化モンテカルロ近似と,ブラックボックス制約やマルチファイダリティ情報ソースを調節するための方法論拡張を用いて,確率的サロゲートを提案する。 提案手法をBOの最先端手法に対して検証し,ターボ機械におけるローターブレードの形状最適化を伴う制約付き最適化タスクを含む,高次元出力の課題に対して優れた性能を示す。

Several fundamental problems in science and engineering consist of global optimization tasks involving unknown high-dimensional (black-box) functions that map a set of controllable variables to the outcomes of an expensive experiment. Bayesian Optimization (BO) techniques are known to be effective in tackling global optimization problems using a relatively small number objective function evaluations, but their performance suffers when dealing with high-dimensional outputs. To overcome the major challenge of dimensionality, here we propose a deep learning framework for BO and sequential decision making based on bootstrapped ensembles of neural architectures with randomized priors. Using appropriate architecture choices, we show that the proposed framework can approximate functional relationships between design variables and quantities of interest, even in cases where the latter take values in high-dimensional vector spaces or even infinite-dimensional function spaces. In the context of BO, we augmented the proposed probabilistic surrogates with re-parameterized Monte Carlo approximations of multiple-point (parallel) acquisition functions, as well as methodological extensions for accommodating black-box constraints and multi-fidelity information sources. We test the proposed framework against state-of-the-art methods for BO and demonstrate superior performance across several challenging tasks with high-dimensional outputs, including a constrained optimization task involving shape optimization of rotor blades in turbo-machinery.
翻訳日:2023-05-10 15:58:08 公開日:2023-05-09
# 文脈内学習における識別性校正

Distinguishability Calibration to In-Context Learning ( http://arxiv.org/abs/2302.06198v2 )

ライセンス: Link先を確認
Hongjing Li, Hanqi Yan, Yanran Li, Li Qian, Yulan He, Lin Gui(参考訳) 近年、いくつかのアノテーション付きインスタンスでモデルをトレーニングできるプロンプトベースの学習への関心が高まっており、低リソース環境では適している。 テキスト分類にプロンプトベースの学習を使用する場合、事前学習された言語モデル(plm)を使用して、入力テキストが与えられた事前定義されたテンプレートで欠落したトークンを予測し、クラスラベルにマッピングする。 しかし、トランスアーキテクチャ上に構築されたPLMは、同様の出力埋め込みを生成する傾向があるため、異なるクラスラベルの区別が難しい。 この問題は、多くのきめ細かいクラスラベルを含む分類タスクを扱う際にさらに悪化する。 本研究では、この情報拡散問題、すなわち、複数の自己保持層をトランスフォーマーに積み重ねた後に、異なるトークンが同様の情報を共有することを緩和するために、回転とスケーリングを通じて特徴変換に基づいて構築されたキャリブレーション手法を提案し、その結果の埋め込みの識別性を保証するために、PLM符号化埋め込みを新しい距離空間にマッピングする。 さらに,ハイパーボリックな埋め込みの利点を生かし,粒度の細かいクラス関連トークンの階層的関係を粗いメトリック学習戦略によって捉え,学習した出力埋め込みの識別性を高める。 様々な環境下での3つのデータセットに対する大規模な実験は、我々のアプローチの有効性を示す。 私たちのコードはhttps://github.com/donttal/taraにあります。

Recent years have witnessed increasing interests in prompt-based learning in which models can be trained on only a few annotated instances, making them suitable in low-resource settings. When using prompt-based learning for text classification, the goal is to use a pre-trained language model (PLM) to predict a missing token in a pre-defined template given an input text, which can be mapped to a class label. However, PLMs built on the transformer architecture tend to generate similar output embeddings, making it difficult to discriminate between different class labels. The problem is further exacerbated when dealing with classification tasks involving many fine-grained class labels. In this work, we alleviate this information diffusion issue, i.e., different tokens share a large proportion of similar information after going through stacked multiple self-attention layers in a transformer, by proposing a calibration method built on feature transformations through rotation and scaling to map a PLM-encoded embedding into a new metric space to guarantee the distinguishability of the resulting embeddings. Furthermore, we take the advantage of hyperbolic embeddings to capture the hierarchical relations among fine-grained class-associated token embedding by a coarse-to-fine metric learning strategy to enhance the distinguishability of the learned output embeddings. Extensive experiments on the three datasets under various settings demonstrate the effectiveness of our approach. Our code can be found at https://github.com/donttal/TARA.
翻訳日:2023-05-10 15:57:11 公開日:2023-05-09
# 前立腺癌診断とGleason gradingのための比較学習モデル

Federated contrastive learning models for prostate cancer diagnosis and Gleason grading ( http://arxiv.org/abs/2302.06089v3 )

ライセンス: Link先を確認
Fei Kong, Jinxi Xiang, Xiyue Wang, Xinran Wang, Meng Yue, Jun Zhang, Sen Yang, Junhan Zhao, Xiao Han, Yuhan Dong, Yueping Liu(参考訳) 医療画像分野における人工知能(AI)の応用効果は顕著である。 堅牢なaiモデルトレーニングには大きなデータセットが必要だが、データ収集はコミュニケーション、倫理、プライバシ保護の制約に直面している。 幸いなことに、フェデレーション学習は、複数のクライアントが元のデータを共有せずにモデルをトレーニングするためにコーディネートすることで、上記の問題を解決することができる。 本研究では,大規模な病理画像と異種性問題に対するFCL(Federated contrastive learning framework)を設計する。 ローカルクライアントとサーバモデルの注意の一貫性を最大化することで、モデルの一般化能力を高める。 パラメータの転送時のプライバシー漏洩問題を緩和し,FCLの堅牢性を検証するため,ノイズを追加してモデルをさらに保護するために差分プライバシーを用いる。 我々は,FCLががん診断タスクおよびGleason gradingタスクに及ぼす影響を,複数のクライアントから19,635前立腺癌WSIに対して評価した。 診断タスクでは, カテゴリーが比較的バランスが取れた場合, 平均7クライアントのaucは95%であり, fclは97%に達する。 Gleason グレーディングタスクでは、6つのクライアントの平均 Kappa は 0.74 であり、FCL の Kappa は 0.84 である。 さらに,外部データセット(1つの公開データセットと2つのプライベートデータセット)におけるモデルのロバスト性を検証する。 また,モデルの分類効果をよりよく説明するために,ヒートマップを描き,病変領域に焦点を当てているかどうかを示す。 最後に、FCLはバイオメディカル研究に堅牢で正確で低コストなAIトレーニングモデルを提供し、医療データのプライバシーを効果的に保護する。

The application effect of artificial intelligence (AI) in the field of medical imaging is remarkable. Robust AI model training requires large datasets, but data collection faces communication, ethics, and privacy protection constraints. Fortunately, federated learning can solve the above problems by coordinating multiple clients to train the model without sharing the original data. In this study, we design a federated contrastive learning framework (FCL) for large-scale pathology images and the heterogeneity challenges. It enhances the model's generalization ability by maximizing the attention consistency between the local client and server models. To alleviate the privacy leakage problem when transferring parameters and verify the robustness of FCL, we use differential privacy to further protect the model by adding noise. We evaluate the effectiveness of FCL on the cancer diagnosis task and Gleason grading task on 19,635 prostate cancer WSIs from multiple clients. In the diagnosis task, the average AUC of 7 clients is 95% when the categories are relatively balanced, and our FCL achieves 97%. In the Gleason grading task, the average Kappa of 6 clients is 0.74, and the Kappa of FCL reaches 0.84. Furthermore, we also validate the robustness of the model on external datasets(one public dataset and two private datasets). In addition, to better explain the classification effect of the model, we show whether the model focuses on the lesion area by drawing a heatmap. Finally, FCL brings a robust, accurate, low-cost AI training model to biomedical research, effectively protecting medical data privacy.
翻訳日:2023-05-10 15:56:44 公開日:2023-05-09
# ダイアグラムからのヴェルナー状態

Werner states from diagrams ( http://arxiv.org/abs/2302.05572v2 )

ライセンス: Link先を確認
David W. Lyons, Cristina Mullican, Adam Rilatt, Jack D. Putnam(参考訳) 与えられた任意の単一量子ユニタリの集合的作用の下で不変な状態として定義されるマルチキュービットワーナー状態について、2つの結果を示す。 ヴェルナー状態の絡み合いの性質を特徴づけたいという欲求により、純粋状態のヒルベルト空間上のヴェルナー不変エルミート作用素の実線型ベクトル空間の基底を構築する。 初期の研究で構築された「多角形図」状態の研究を継続し、図を絡み合い特性に結びつけることを目的として、一重項を一般化する多角形状態の族を考察し、それらの2量子ビット還元密度行列が分離可能であることを示す。

We present two results on multiqubit Werner states, defined to be those states that are invariant under the collective action of any given single-qubit unitary that acts simultaneously on all the qubits. Motivated by the desire to characterize entanglement properties of Werner states, we construct a basis for the real linear vector space of Werner invariant Hermitian operators on the Hilbert space of pure states; it follows that any mixed Werner state can be written as a mixture of these basis operators with unique coefficients. Continuing a study of "polygon diagram" Werner states constructed in earlier work, with a goal to connect diagrams to entanglement properties, we consider a family of multiqubit states that generalize the singlet, and show that their 2-qubit reduced density matrices are separable.
翻訳日:2023-05-10 15:56:19 公開日:2023-05-09
# 層変動解析による領域適応の解釈

Interpretations of Domain Adaptations via Layer Variational Analysis ( http://arxiv.org/abs/2302.01798v4 )

ライセンス: Link先を確認
Huan-Hsin Tseng, Hsin-Yi Lin, Kuo-Hsuan Hung and Yu Tsao(参考訳) 転送学習は、多くのアプリケーションで経験的に効率的に行うことが知られているが、限られた文献では、シーンの背後にあるメカニズムを報告している。 本研究は,Deep Learningにおける伝達学習理論を定式化するために,形式的導出とヒューリスティック解析の両方を確立する。 層変動解析を用いたフレームワークは, トランスファー学習の成功が, 対応するデータ条件で保証できることを実証する。 さらに,この理論計算は知識伝達過程に対する直感的な解釈をもたらす。 その後、ネットワークベース転送学習の代替方法が導出される。 本手法は,ドメイン適応における効率と精度の向上を示す。 新しいドメインデータが適応中に十分にスパースである場合、特に有利である。 各種課題に対する数値実験により, 解析式が勾配降下法よりも, 領域適応において優れた性能を示した。

Transfer learning is known to perform efficiently in many applications empirically, yet limited literature reports the mechanism behind the scene. This study establishes both formal derivations and heuristic analysis to formulate the theory of transfer learning in deep learning. Our framework utilizing layer variational analysis proves that the success of transfer learning can be guaranteed with corresponding data conditions. Moreover, our theoretical calculation yields intuitive interpretations towards the knowledge transfer process. Subsequently, an alternative method for network-based transfer learning is derived. The method shows an increase in efficiency and accuracy for domain adaptation. It is particularly advantageous when new domain data is sufficiently sparse during adaptation. Numerical experiments over diverse tasks validated our theory and verified that our analytic expression achieved better performance in domain adaptation than the gradient descent method.
翻訳日:2023-05-10 15:56:05 公開日:2023-05-09
# 多体量子輸送における第一検出時間統計

First-detection-time statistics in many-body quantum transport ( http://arxiv.org/abs/2302.01656v2 )

ライセンス: Link先を確認
Christoph Dittel, Niklas Neubrand, Felix Thiel, Andreas Buchleitner(参考訳) 対象空間における繰り返し射影計測の作用下で,多種多様な部分的識別可能な相互作用可能な粒子の輸送について検討し,粒子の干渉が平均第1検出時間にどのように影響するかについて検討した。 我々は、n$ の検出と少なくとも n$ の粒子の検出を対比し、生成進化演算子のスペクトル特性を通して平均 1 番目の検出時間の相違を説明し、この結果を例示する。

We study the transport of many partially distinguishable and possibly interacting particles under the action of repeated projective measurements on a target space and investigate how the particles' interference affects the mean first detection time. We contrast the detection of exactly $n$ versus at least $n$ particles, explain divergences in the mean first detection time through spectral properties of the generating evolution operator, and illustrate our findings by an example.
翻訳日:2023-05-10 15:55:53 公開日:2023-05-09
# ParroT: 大規模言語モデルを用いたチャット中の翻訳

ParroT: Translating During Chat Using Large Language Models ( http://arxiv.org/abs/2304.02426v4 )

ライセンス: Link先を確認
Wenxiang Jiao, Jen-tse Huang, Wenxuan Wang, Xing Wang, Shuming Shi and Zhaopeng Tu(参考訳) ChatGPTやGPT-4のような大規模言語モデル(LLM)は、チャット中に達成された様々な機械翻訳機能を含む幅広い自然言語処理(NLP)タスクに顕著な能力を発揮している。 しかし、これらのモデルは制限されたapiを通してのみアクセス可能であり、この分野の新しい研究と進歩の障壁となる。 そこで我々は、オープンソースのLLM(LLaMA-7b, BLOOMZ-7b-mt)と人文翻訳・評価データに基づいて、チャット中の翻訳能力を向上・調整するための$\mathbf{ParroT}$フレームワークを提案する。 具体的には、ParroTは、翻訳データを命令フォロースタイルに再構成し、翻訳プロセスを制御するために追加の要件を組み込む"$\mathbf{Hint}$"フィールドを導入する。 そこで本研究では,翻訳命令,コントラスト命令,エラーガイド命令など,parrotモデルの微調整を行う3つの命令型を提案する。 低階適応(LoRA)により、全モデルまたは部分パラメータを微調整できる。 floresサブセットとwmt22テストセットの実験は、翻訳命令がバニラllmの翻訳性能を大幅に向上させる一方で、エラーガイド命令は、人間が注釈付けした低品質翻訳から学ぶことの重要性を示すさらなる改善につながることを示唆している。 一方、ParroTモデルは、微調整に関わるAlpacaのマルチタスクデータセットで一般的なタスクの能力を維持できる。 実装の詳細については、Githubプロジェクトを参照してください。

Large language models (LLMs) like ChatGPT and GPT-4 have exhibited remarkable abilities on a wide range of natural language processing (NLP) tasks, including various machine translation abilities accomplished during chat. However, these models are only accessible through restricted APIs, which creates barriers to new research and advancements in the field. Therefore, we propose the $\mathbf{ParroT}$ framework to enhance and regulate the translation abilities during chat based on open-sourced LLMs (i.e., LLaMA-7b, BLOOMZ-7b-mt) and human written translation and evaluation data. Specifically, ParroT reformulates translation data into the instruction-following style, and introduces a "$\mathbf{Hint}$" field for incorporating extra requirements to regulate the translation process. Accordingly, we propose three instruction types for finetuning ParroT models, including translation instruction, contrastive instruction, and error-guided instruction. We can finetune either the full models or partial parameters via low rank adaptation (LoRA). Experiments on Flores subsets and WMT22 test sets suggest that translation instruction improves the translation performance of vanilla LLMs significantly while error-guided instruction can lead to a further improvement, which demonstrates the importance of learning from low-quality translations annotated by human. Meanwhile, the ParroT models can also preserve the ability on general tasks with the Alpaca multi-task dataset involved in finetuning. Please refer to our Github project for more implementation details: https://github.com/wxjiao/ParroT
翻訳日:2023-05-10 15:50:27 公開日:2023-05-09
# BloombergGPT: 金融のための大規模言語モデル

BloombergGPT: A Large Language Model for Finance ( http://arxiv.org/abs/2303.17564v2 )

ライセンス: Link先を確認
Shijie Wu, Ozan Irsoy, Steven Lu, Vadim Dabravolski, Mark Dredze, Sebastian Gehrmann, Prabhanjan Kambadur, David Rosenberg, Gideon Mann(参考訳) 金融技術の領域におけるNLPの利用は広範かつ複雑であり、感情分析や名前付きエンティティ認識から質問応答まで幅広い応用がある。 大規模言語モデル(LLM)は様々なタスクに有効であることが示されているが、金融分野に特化したLLMは文献で報告されていない。 本稿では、幅広い財務データに基づいて訓練された500億のパラメータ言語モデルであるBloombergGPTを紹介する。 我々は、bloombergの広範なデータソースに基づいて363億のトークンデータセットを構築しています。 我々はBloombergGPTを標準LLMベンチマーク、オープンファイナンシャルベンチマーク、そして我々の意図した使用を最も正確に反映した内部ベンチマークで検証する。 当社の混合データセットトレーニングは、一般的なllmベンチマークのパフォーマンスを犠牲にすることなく、財務タスクの既存モデルをかなりのマージンで上回るモデルにつながります。 さらに、モデリングの選択、トレーニングプロセス、評価方法論を説明します。 BloombergGPTのトレーニングの経験を詳しく説明したトレーニング年代記(Appendix C)をリリースします。

The use of NLP in the realm of financial technology is broad and complex, with applications ranging from sentiment analysis and named entity recognition to question answering. Large Language Models (LLMs) have been shown to be effective on a variety of tasks; however, no LLM specialized for the financial domain has been reported in literature. In this work, we present BloombergGPT, a 50 billion parameter language model that is trained on a wide range of financial data. We construct a 363 billion token dataset based on Bloomberg's extensive data sources, perhaps the largest domain-specific dataset yet, augmented with 345 billion tokens from general purpose datasets. We validate BloombergGPT on standard LLM benchmarks, open financial benchmarks, and a suite of internal benchmarks that most accurately reflect our intended usage. Our mixed dataset training leads to a model that outperforms existing models on financial tasks by significant margins without sacrificing performance on general LLM benchmarks. Additionally, we explain our modeling choices, training process, and evaluation methodology. We release Training Chronicles (Appendix C) detailing our experience in training BloombergGPT.
翻訳日:2023-05-10 15:49:58 公開日:2023-05-09
# 長期記憶ネットワークを用いた量子回路の忠実度向上

Quantum Circuit Fidelity Improvement with Long Short-Term Memory Networks ( http://arxiv.org/abs/2303.17523v2 )

ライセンス: Link先を確認
Yikai Mao, Shaswot Shresthamali, Masaaki Kondo(参考訳) nisqコンピュータは、古典的な計算では事実上不可能である多くのタスクを加速する大きな可能性を秘めているが、有用な量子コンピューティングはまだ長い道のりである。 重要な理由の一つは、量子ハードウェアの脆弱さにある。 量子回路(QC)の構成要素として、量子ゲートと量子ビットは外部干渉の影響を受けやすいため、単純なQCでも非常にノイズの多い出力が得られる。 出力が意味のある計算を表すのか、あるいは単にランダムノイズを表すのかを区別することは困難であるため、QCの出力にどの程度依存できるか、すなわちQCの忠実さを疑問視する。 本稿では,qcの忠実度を測定するために,単純かつ直感的な測定を行う。 この計量を用いて、QCが外部環境と相互作用するときに時間とともに忠実さの進化を観察することができる。 これにより、時系列予測問題として忠実度予測をフレーム化し、長期短期記憶(lstm)ニューラルネットワークを用いてqcの忠実度を推定することができる。 これにより、量子ビットの量子ハードウェアへのマッピングを最適化し、より大きなゲインを得られる。 LSTMアーキテクチャを導入し、トレーニング回路データセットを構築するための完全なワークフローを示す。 トレーニングされたLSTMシステムであるQ-fidは、ハードウェアキャリブレーションデータやゲートエラー率を別々に入力することなく、特定の量子プロセッサ上で動作するQCの出力忠実度を予測することができる。 Q-fid の予測は QASMbench NISQ ベンチマークスイートで評価され、平均 RMSE は 0.0515 であり、デフォルトの Qiskit トランスパイルツールのマップマティックよりも 24.7 倍正確である。 利用可能な回路トランスパイルから高忠実度回路レイアウトを見つけるために、q-fidは上位10%のレイアウトの忠実度を平均0.0252、最大32.8倍の精度で予測する。

Although NISQ computers show great promise in accelerating many tasks that are not practically possible using classical computation, useful quantum computing is still a long way off. One important reason is due to the fragile nature of quantum hardware. As the building blocks of a quantum circuit (QC), quantum gates and qubits are susceptible to external interference, and therefore even a simple QC can produce extremely noisy output. Since it is hard to distinguish whether the output represents meaningful computation or just random noise, it raises the question of how much we can rely on the output of a QC, i.e., the fidelity of the QC. In this paper, we purpose a simple yet intuitive metric to measure the fidelity of a QC. By using this metric, we can observe the evolution of fidelity with time as the QC interacts with its external environment. Consequently, we can frame fidelity prediction as a Time Series Forecasting problem and use Long Short-Term Memory (LSTM) neural networks to better estimate the fidelity of a QC. This gives the user better opportunities to optimize the mapping of qubits into the quantum hardware for larger gains. We introduce the LSTM architecture and present a complete workflow to build the training circuit dataset. The trained LSTM system, Q-fid, can predict the output fidelity of a QC running on a specific quantum processor, without the need for any separate input of hardware calibration data or gate error rates. Evaluated on the QASMbench NISQ benchmark suite, Q-fid's prediction achieves an average RMSE of 0.0515, up to 24.7x more accurate than the default Qiskit transpile tool mapomatic. When used to find the high-fidelity circuit layouts from the available circuit transpilations, Q-fid predicts the fidelity for the top 10% layouts with an average RMSE of 0.0252, up to 32.8x more accurate than mapomatic.
翻訳日:2023-05-10 15:49:41 公開日:2023-05-09
# SPD多様体上のアダプティブリーマン計量

Adaptive Riemannian Metrics on SPD Manifolds ( http://arxiv.org/abs/2303.15477v2 )

ライセンス: Link先を確認
Ziheng Chen, Yue Song, Tianyang Xu, Zhiwu Huang, Xiao-Jun Wu, Nicu Sebe(参考訳) 対称正定値行列(SPD)は、データの構造的相関を符号化する本質的な能力のため、機械学習において広く注目を集めている。 SPD多様体の非ユークリッド幾何学を反映するために、多くのリーマン計量が提案されている。 しかし、既存の固定計量テンソルはSPD行列学習、特にSPDニューラルネットワークの準最適性能をもたらす可能性がある。 この制限を緩和するために、引き戻しの概念を活用し、SPD多様体に対する適応リーマン計量を提案する。 さらに,指標の包括的理論も提示する。 3つのデータセットによる実験により,提案手法により,SPDネットワークの性能が向上することが示された。

Symmetric Positive Definite (SPD) matrices have received wide attention in machine learning due to their intrinsic capacity of encoding underlying structural correlation in data. To reflect the non-Euclidean geometry of SPD manifolds, many successful Riemannian metrics have been proposed. However, existing fixed metric tensors might lead to sub-optimal performance for SPD matrices learning, especially for SPD neural networks. To remedy this limitation, we leverage the idea of pullback and propose adaptive Riemannian metrics for SPD manifolds. Moreover, we present comprehensive theories for our metrics. Experiments on three datasets demonstrate that equipped with the proposed metrics, SPD networks can exhibit superior performance.
翻訳日:2023-05-10 15:49:07 公開日:2023-05-09
# ゼロショットノイズ2noise:データなしの効率的な画像デノージング

Zero-Shot Noise2Noise: Efficient Image Denoising without any Data ( http://arxiv.org/abs/2303.11253v2 )

ライセンス: Link先を確認
Youssef Mansour and Reinhard Heckel(参考訳) 近年,自己教師付きニューラルネットワークは画像の雑音化性能に優れている。 しかし、現在のデータセットフリーメソッドは計算コストが高く、ノイズモデルを必要とするか、画像の品質が不十分である。 本研究では,簡単な2層ネットワークをトレーニングデータやノイズ分布の知識を使わずに,低計算コストで高品質な画像をデノナイズできることを示す。 noise2noise と neighbor2neighbor に動機づけられ,ピクセル単位の独立ノイズの除去に有効である。 ZS-N2N (Zero Shot Noise2Noise) と呼ばれる人工的, 現実的なカメラ, 顕微鏡的ノイズ実験により, 既存のデータセットフリー手法よりも低コストで性能を向上し, 少ないデータ可用性と限られた計算資源のユースケースに適していることがわかった。 私たちのコードとハイパーパラメータを含む実装のデモは、以下のコラボノートで見ることができる。

Recently, self-supervised neural networks have shown excellent image denoising performance. However, current dataset free methods are either computationally expensive, require a noise model, or have inadequate image quality. In this work we show that a simple 2-layer network, without any training data or knowledge of the noise distribution, can enable high-quality image denoising at low computational cost. Our approach is motivated by Noise2Noise and Neighbor2Neighbor and works well for denoising pixel-wise independent noise. Our experiments on artificial, real-world camera, and microscope noise show that our method termed ZS-N2N (Zero Shot Noise2Noise) often outperforms existing dataset-free methods at a reduced cost, making it suitable for use cases with scarce data availability and limited computional resources. A demo of our implementation including our code and hyperparameters can be found in the following colab notebook: https://colab.research.google.com/drive/1i82nyizTdszyHkaHBuKPbWnTzao8HF9b
翻訳日:2023-05-10 15:48:58 公開日:2023-05-09
# SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approach for News genre, topic and persuasion technique classification (英語)

SheffieldVeraAI at SemEval-2023 Task 3: Mono and multilingual approaches for news genre, topic and persuasion technique classification ( http://arxiv.org/abs/2303.09421v2 )

ライセンス: Link先を確認
Ben Wu, Olesya Razuvayevskaya, Freddy Heppell, Jo\~ao A. Leite, Carolina Scarton, Kalina Bontcheva and Xingyi Song(参考訳) 本稿では,semeval-2023タスク3について,オンラインニュースにおけるカテゴリー,フレーミング,説得手法を多言語環境で検出する手法について述べる。 本稿では,Subtask 1 (News Genre) について,ドイツ語で1位となり,多言語チームの中では最高位であった完全訓練およびアダプタ mBERT モデルのアンサンブルを提案する。 Subtask 2(Framing)では,単言語RoBERTa-MUPPETLARGEとXLM-RoBERTaLARGEのアンサンブルと,アダプタとタスク適応型事前学習という2つの異なるアンサンブルを用いて,各言語の平均ランクを3言語で1位とした。 Subtask 3(Persuasion Techniques)では、英語用単言語RoBERTa-Baseモデルと、残りの言語用多言語mBERTモデルを訓練し、英語用2番目を含むすべての言語で10位に達した。 各サブタスクについて,単言語および多言語アプローチを比較し,クラス不均衡法を検討した。

This paper describes our approach for SemEval-2023 Task 3: Detecting the category, the framing, and the persuasion techniques in online news in a multi-lingual setup. For Subtask 1 (News Genre), we propose an ensemble of fully trained and adapter mBERT models which was ranked joint-first for German, and had the highest mean rank of multi-language teams. For Subtask 2 (Framing), we achieved first place in 3 languages, and the best average rank across all the languages, by using two separate ensembles: a monolingual RoBERTa-MUPPETLARGE and an ensemble of XLM-RoBERTaLARGE with adapters and task adaptive pretraining. For Subtask 3 (Persuasion Techniques), we train a monolingual RoBERTa-Base model for English and a multilingual mBERT model for the remaining languages, which achieved top 10 for all languages, including 2nd for English. For each subtask, we compared monolingual and multilingual approaches, and considered class imbalance techniques.
翻訳日:2023-05-10 15:48:39 公開日:2023-05-09
# 音声文に基づく教師なし選挙区パーシングへのカスケードと直接的アプローチ

Cascading and Direct Approaches to Unsupervised Constituency Parsing on Spoken Sentences ( http://arxiv.org/abs/2303.08809v2 )

ライセンス: Link先を確認
Yuan Tseng, Cheng-I Lai, Hung-yi Lee(参考訳) 教師なし解析に関する過去の作業は、書式に制約されている。 本稿では,未ラベルの音声文と未ペアのテキストデータを用いた教師なし音声補聴に関する最初の研究について述べる。 目標は、各ノードが構成要素に対応する音声のスパンであるように、音声文の階層的構文構造を構成構文解析ツリーの形式で決定することである。 我々は,(1)教師なし自動音声認識(ASR)モデルと教師なし構文解析器をカスケードして,ASR文字のパースツリーを得る,(2)教師なし構文解析器を単語レベルの連続表現で直接訓練する,の2つのアプローチを比較した。 これは、まず発話を単語レベルセグメントのシーケンスに分割し、セグメント内で自己教師付き音声表現を集約してセグメント埋め込みを得る。 非ペアテキストのパーサを別々にトレーニングし、推論のためにasrの書き起こしに直接適用することで、教師なし構文解析のより良い結果が得られることが分かりました。 さらに, 精度の高いセグメンテーションだけでは, 音声文を正確に解析するのに十分である可能性が示唆された。 最後に、直接的アプローチは、明示的な帰納的バイアスを伴わずに、頭頭と頭の両方の言語で正しく頭指向性を学ぶことができることを示す。

Past work on unsupervised parsing is constrained to written form. In this paper, we present the first study on unsupervised spoken constituency parsing given unlabeled spoken sentences and unpaired textual data. The goal is to determine the spoken sentences' hierarchical syntactic structure in the form of constituency parse trees, such that each node is a span of audio that corresponds to a constituent. We compare two approaches: (1) cascading an unsupervised automatic speech recognition (ASR) model and an unsupervised parser to obtain parse trees on ASR transcripts, and (2) direct training an unsupervised parser on continuous word-level speech representations. This is done by first splitting utterances into sequences of word-level segments, and aggregating self-supervised speech representations within segments to obtain segment embeddings. We find that separately training a parser on the unpaired text and directly applying it on ASR transcripts for inference produces better results for unsupervised parsing. Additionally, our results suggest that accurate segmentation alone may be sufficient to parse spoken sentences accurately. Finally, we show the direct approach may learn head-directionality correctly for both head-initial and head-final languages without any explicit inductive bias.
翻訳日:2023-05-10 15:48:15 公開日:2023-05-09
# プラグ・アンド・プレイ準ニュートン法

Provably Convergent Plug-and-Play Quasi-Newton Methods ( http://arxiv.org/abs/2303.07271v2 )

ライセンス: Link先を確認
Hong Ye Tan, Subhadip Mukherjee, Junqi Tang, Carola-Bibiane Sch\"onlieb(参考訳) Plug-and-Play (PnP) は、ISTAやADMMなどの古典最適化アルゴリズムを用いて、データの忠実度項とディープデノイザを組み合わせた効率的な反復手法のクラスである。 既存の証明可能なPnP法は、非拡張性や厳密な凸性といったデノイザー関数や忠実度関数に厳しい制限を課している。 そこで本研究では, 近位分解器に基づく比較的軽い条件を課すPnP法を提案し, 収束を大幅に加速する準ニュートン法を提案する。 ディープデノイザを勾配ステップとして特別にパラメータ化することにより、準ニュートンPnPアルゴリズムの固定点をさらに非凸関数の臨界点として特徴づける。

Plug-and-Play (PnP) methods are a class of efficient iterative methods that aim to combine data fidelity terms and deep denoisers using classical optimization algorithms, such as ISTA or ADMM. Existing provable PnP methods impose heavy restrictions on the denoiser or fidelity function, such as nonexpansiveness or strict convexity. In this work, we propose a provable PnP method that imposes relatively light conditions based on proximal denoisers, and introduce a quasi-Newton step to greatly accelerate convergence. By specially parameterizing the deep denoiser as a gradient step, we further characterize the fixed-points of the quasi-Newton PnP algorithm as critical points of a possibly non-convex function.
翻訳日:2023-05-10 15:47:53 公開日:2023-05-09
# AI利用カード: 責任を持ってAI生成コンテンツを報告する

AI Usage Cards: Responsibly Reporting AI-generated Content ( http://arxiv.org/abs/2303.03886v2 )

ライセンス: Link先を確認
Jan Philip Wahle and Terry Ruas and Saif M. Mohammad and Norman Meuschke and Bela Gipp(参考訳) ChatGPTのようなAIシステムが人間による作業と区別できないコンテンツを生成できることを考えると、この技術の責任を負うことが懸念される。 aiシステムの利用のメリットとメリットを理解するにはより多くの時間を要するが、その迅速かつ無差別な採用は現実である。 現在、コンテンツ生成におけるAIの責任ある使用を定義し、報告する共通のフレームワークと言語がありません。 以前の研究では、特定のシナリオ(例えば、ロボット工学や医学)でAIを使用するためのガイドラインが提案されていた。 まず、AIの責任ある使用を定義するために、透明性、完全性、説明責任からなる3次元モデルを提案します。 第二に、科学研究におけるAIの利用を報告するための標準化された方法である 'AI Usage Cards' を紹介する。 私たちのモデルとカードは、ユーザーが責任あるAI利用の原則を反映できるようにします。 また、研究コミュニティが様々な形のAIの使用を追跡、比較、疑問視することを支援し、受け入れられたコミュニティ規範の開発を支援する。 提案するフレームワークおよびレポートシステムは、科学研究におけるAIの倫理的かつ責任ある利用を促進することを目的としており、さまざまな研究分野においてAIの使用を報告するための標準化されたアプローチを提供する。 また,科学研究用のAIUsage Cardを簡単に生成し,さまざまな機械可読フォーマットでエクスポートして,さまざまな作業製品に含めるための無料サービス https://ai-cards.org.com を提供する。

Given AI systems like ChatGPT can generate content that is indistinguishable from human-made work, the responsible use of this technology is a growing concern. Although understanding the benefits and harms of using AI systems requires more time, their rapid and indiscriminate adoption in practice is a reality. Currently, we lack a common framework and language to define and report the responsible use of AI for content generation. Prior work proposed guidelines for using AI in specific scenarios (e.g., robotics or medicine) which are not transferable to conducting and reporting scientific research. Our work makes two contributions: First, we propose a three-dimensional model consisting of transparency, integrity, and accountability to define the responsible use of AI. Second, we introduce ``AI Usage Cards'', a standardized way to report the use of AI in scientific research. Our model and cards allow users to reflect on key principles of responsible AI usage. They also help the research community trace, compare, and question various forms of AI usage and support the development of accepted community norms. The proposed framework and reporting system aims to promote the ethical and responsible use of AI in scientific research and provide a standardized approach for reporting AI usage across different research fields. We also provide a free service to easily generate AI Usage Cards for scientific work via a questionnaire and export them in various machine-readable formats for inclusion in different work products at https://ai-cards.org.
翻訳日:2023-05-10 15:47:39 公開日:2023-05-09
# ディープラーニングに基づく農業のカウンティング手法, データセット, 応用 -- 概観

Deep-Learning-based Counting Methods, Datasets, and Applications in Agriculture -- A Review ( http://arxiv.org/abs/2303.02632v2 )

ライセンス: Link先を確認
Guy Farjon, Liu Huijun, Yael Edan(参考訳) 農業分野における様々な業務において,対象の数が重要な要因であると考えられる。 自動カウントは、収量推定、ストレス検出、疾病予防などに関する農家の判断を改善する。 近年、ディープラーニングは多くの農業関連アプリケーションに適用され、従来の農業対象を数えるためのコンピュータビジョンアルゴリズムを補完している。 本稿では,過去10年間の進歩と農業におけるメソッドカウント技術の現状を,深層学習に焦点をあててレビューする。 カウントアルゴリズム、メトリクス、プラットフォーム、センサーの概観、公開データセットの一覧、カウントに使用されるさまざまなディープラーニングメソッドの詳細な議論などが紹介されている。 最後に、ディープラーニングを用いたオブジェクトカウントにおけるオープンな課題について論じ、研究の新たな方向性と今後の展望を垣間見る。 このレビューは、過去10年間の農業におけるオブジェクトカウントの飛躍的な進歩を明らかにしている。

The number of objects is considered an important factor in a variety of tasks in the agricultural domain. Automated counting can improve farmers decisions regarding yield estimation, stress detection, disease prevention, and more. In recent years, deep learning has been increasingly applied to many agriculture-related applications, complementing conventional computer-vision algorithms for counting agricultural objects. This article reviews progress in the past decade and the state of the art for counting methods in agriculture, focusing on deep-learning methods. It presents an overview of counting algorithms, metrics, platforms, and sensors, a list of all publicly available datasets, and an in-depth discussion of various deep-learning methods used for counting. Finally, it discusses open challenges in object counting using deep learning and gives a glimpse into new directions and future perspectives for counting research. The review reveals a major leap forward in object counting in agriculture in the past decade, led by the penetration of deep learning methods into counting platforms.
翻訳日:2023-05-10 15:47:11 公開日:2023-05-09
# ACR放射線オンコロジー試験(TXIT)におけるChatGPT-4のベンチマーク:放射線オンコロジーにおけるAI支援医療教育と意思決定の可能性と課題

Benchmarking ChatGPT-4 on ACR Radiation Oncology In-Training (TXIT) Exam and Red Journal Gray Zone Cases: Potentials and Challenges for AI-Assisted Medical Education and Decision Making in Radiation Oncology ( http://arxiv.org/abs/2304.11957v2 )

ライセンス: Link先を確認
Yixing Huang, Ahmed Gomaa, Thomas Weissmann, Johanna Grigo, Hassen Ben Tkhayat, Benjamin Frey, Udo S. Gaipl, Luitpold V. Distel, Andreas Maier, Christoph Bert, Rainer Fietkau, and Florian Putz(参考訳) 教育と意思決定のための医学における大規模言語モデルの可能性は、米国医療ライセンス試験(usmle)やメダカ試験などの医学試験で十分なスコアを得られることから証明されている。 本研究は,第38回米国放射線医学会(ACR)放射線オンコロジー試験(TXIT)と2022年のレッドジャーナルグレーゾーン試験を用いて,放射線オンコロジーの専門分野におけるChatGPT-4の性能を評価するものである。 TXIT試験では、ChatGPT-3.5とChatGPT-4はそれぞれ63.65%と74.57%のスコアを得た。 TXIT試験に基づき、ChatGPT-4の放射線腫瘍学における強弱領域をある程度同定した。 具体的には、ChatGPT-4は統計学、CNS & Eye、小児科、生物学、物理学の知識をよく示しているが、ACR知識ドメインと同様に骨・軟組織・婦人科に制限がある。 治療経路に関して、chatgpt-4は診断、予後、毒性に優れるが、ブラキセラピーや線量測定に関するトピックや臨床試験からの深い質問において、熟練度を欠いている。 グレーゾーンの場合、chatgpt-4はそれぞれのケースにパーソナライズされた治療アプローチを提案でき、人間の専門家全般に比較して(平均28.76%)結果が得られる。 最も重要なことは、単一の専門家からの推薦を補完的に提案することです。 どちらの評価も、一般市民およびがん患者の医学教育におけるChatGPTの可能性と、特定の領域におけるその限界を認識しつつ、臨床的意思決定を支援する可能性を示している。

The potential of large language models in medicine for education and decision making purposes has been demonstrated as they achieve decent scores on medical exams such as the United States Medical Licensing Exam (USMLE) and the MedQA exam. In this work, we evaluate the performance of ChatGPT-4 in the specialized field of radiation oncology using the 38th American College of Radiology (ACR) radiation oncology in-training (TXIT) exam and the 2022 red journal gray zone cases. For the TXIT exam, ChatGPT-3.5 and ChatGPT-4 have achieved the scores of 63.65% and 74.57%, respectively, highlighting the advantage of the latest ChatGPT-4 model. Based on the TXIT exam, ChatGPT-4's strong and weak areas in radiation oncology are identified to some extent. Specifically, ChatGPT-4 demonstrates good knowledge of statistics, CNS & eye, pediatrics, biology, and physics but has limitations in bone & soft tissue and gynecology, as per the ACR knowledge domain. Regarding clinical care paths, ChatGPT-4 performs well in diagnosis, prognosis, and toxicity but lacks proficiency in topics related to brachytherapy and dosimetry, as well as in-depth questions from clinical trials. For the gray zone cases, ChatGPT-4 is able to suggest a personalized treatment approach to each case and achieves comparable votes (28.76% on average) to human experts in general. Most importantly, it provides complementary suggestion to the recommendation from a single expert. Both evaluations have demonstrated the potential of ChatGPT in medical education for the general public and cancer patients, as well as the potential to aid clinical decision-making, while acknowledging its limitations in certain domains.
翻訳日:2023-05-10 15:40:42 公開日:2023-05-09
# Spikingformer: トランスフォーマーに基づくスパイクニューラルネットワークのためのスパイク駆動残差学習

Spikingformer: Spike-driven Residual Learning for Transformer-based Spiking Neural Network ( http://arxiv.org/abs/2304.11954v2 )

ライセンス: Link先を確認
Chenlin Zhou, Liutao Yu, Zhaokun Zhou, Zhengyu Ma, Han Zhang, Huihui Zhou, Yonghong Tian(参考訳) スパイキングニューラルネットワーク(SNN)は、イベント駆動のスパイキング計算のために、人工ニューラルネットワークに代わる有望なエネルギー効率を提供する。 しかし、現在最先端の深層SNN(SpikformerやSEW ResNetなど)は、その残余接続構造に起因する非スパイク計算(整数-フロート乗法)に悩まされている。 これらの非スパイク計算はSNNの消費電力を増大させ、スパイク操作のみをサポートする主流のニューロモルフィックハードウェアへの展開に適さないものにする。 本稿では,非スパイク計算を回避するため,SNNのためのハードウェアフレンドリーなスパイク駆動残差学習アーキテクチャを提案する。 この残差設計に基づき、純粋なトランスベースのスパイキングニューラルネットワークであるspikingformerを開発した。 我々は、ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS, DVS128 Gestureデータセット上でSpkingformerを評価し、Spkingformerが、新しい高度なバックボーンとして、直接訓練された純粋なSNNの最先端技術よりも優れていることを示した。 さらに,spikingformer は非スパイク計算を効果的に回避し,imagenet の spikformer と比較して 57.34$\%$ のエネルギー消費を大幅に削減できることを確認した。 私たちの知る限りでは、純粋なイベント駆動トランスフォーマーベースのSNNが開発されたのは今回が初めてです。

Spiking neural networks (SNNs) offer a promising energy-efficient alternative to artificial neural networks, due to their event-driven spiking computation. However, state-of-the-art deep SNNs (including Spikformer and SEW ResNet) suffer from non-spike computations (integer-float multiplications) caused by the structure of their residual connection. These non-spike computations increase SNNs' power consumption and make them unsuitable for deployment on mainstream neuromorphic hardware, which only supports spike operations. In this paper, we propose a hardware-friendly spike-driven residual learning architecture for SNNs to avoid non-spike computations. Based on this residual design, we develop Spikingformer, a pure transformer-based spiking neural network. We evaluate Spikingformer on ImageNet, CIFAR10, CIFAR100, CIFAR10-DVS and DVS128 Gesture datasets, and demonstrate that Spikingformer outperforms the state-of-the-art in directly trained pure SNNs as a novel advanced backbone (75.85$\%$ top-1 accuracy on ImageNet, + 1.04$\%$ compared with Spikformer). Furthermore, our experiments verify that Spikingformer effectively avoids non-spike computations and significantly reduces energy consumption by 57.34$\%$ compared with Spikformer on ImageNet. To our best knowledge, this is the first time that a pure event-driven transformer-based SNN has been developed.
翻訳日:2023-05-10 15:40:04 公開日:2023-05-09
# OSP2B:3Dシームズトラッキングのためのワンステージポイントツーボックスネットワーク

OSP2B: One-Stage Point-to-Box Network for 3D Siamese Tracking ( http://arxiv.org/abs/2304.11584v2 )

ライセンス: Link先を確認
Jiahao Nie, Zhiwei He, Yuxiang Yang, Zhengyi Bao, Mingyu Gao, Jing Zhang(参考訳) 2段階のポイント・ツー・ボックス・ネットワークは、最近人気の高い3Dシームズ追跡パラダイムにおいて重要な役割を果たす。 しかし、そのようなネットワークは退屈なハイパーパラメータチューニングとタスクのミスアライメントに苦しめられ、トラッキング性能が制限される。 これらの懸念に対して,我々は,ポイントクラウドベースの3d単一オブジェクト追跡のための,単純かつ効果的な1段階のポイントツーボックスネットワークを提案する。 退屈なハイパーパラメータを伴わない並列予測器による3次元提案生成と中心性スコア予測を同期する。 提案手法のタスクアラインメントスコアランキングを導出するため,センターネスブランチのトレーニングを監督する中心焦点損失を提案し,異なる品質の提案を識別するネットワークの識別能力を高めた。 さらに,ターゲット関連点を識別する二元的対象分類器を設計する。 抽出した分類スコアをセンタネススコアと統合することにより、結果のネットワークは干渉提案を効果的に抑制し、さらにタスクのミスアライメントを軽減することができる。 最後に,設計ネットワークを備えた一段式シームズトラッカーOSP2Bを提案する。 KITTIやWaymo SOT Datasetなど、挑戦的なベンチマークに関する大規模な実験によると、OSP2Bは、かなりリアルタイムなスピードで主要なパフォーマンスを実現しています。

Two-stage point-to-box network acts as a critical role in the recent popular 3D Siamese tracking paradigm, which first generates proposals and then predicts corresponding proposal-wise scores. However, such a network suffers from tedious hyper-parameter tuning and task misalignment, limiting the tracking performance. Towards these concerns, we propose a simple yet effective one-stage point-to-box network for point cloud-based 3D single object tracking. It synchronizes 3D proposal generation and center-ness score prediction by a parallel predictor without tedious hyper-parameters. To guide a task-aligned score ranking of proposals, a center-aware focal loss is proposed to supervise the training of the center-ness branch, which enhances the network's discriminative ability to distinguish proposals of different quality. Besides, we design a binary target classifier to identify target-relevant points. By integrating the derived classification scores with the center-ness scores, the resulting network can effectively suppress interference proposals and further mitigate task misalignment. Finally, we present a novel one-stage Siamese tracker OSP2B equipped with the designed network. Extensive experiments on challenging benchmarks including KITTI and Waymo SOT Dataset show that our OSP2B achieves leading performance with a considerable real-time speed.Code will be available at https://github.com/haooozi/OSP2B.
翻訳日:2023-05-10 15:39:29 公開日:2023-05-09
# 深部物理ニューラルネットワークのバックプロパゲーションフリートレーニング

Backpropagation-free Training of Deep Physical Neural Networks ( http://arxiv.org/abs/2304.11042v2 )

ライセンス: Link先を確認
Ali Momeni, Babak Rahmani, Matthieu Mallejac, Philipp Del Hougne, and Romain Fleury(参考訳) 近年では、視覚や自然言語処理など、様々な分野におけるディープラーニングの成功が目覚ましい。 この成功は、急激な増加が予想されるディープラーニングモデルの大規模化に大きく影響している。 ディープラーニングモデルのこの成長は、トレーニングと推論のフェーズとスケーラビリティの両方において、かなりのエネルギー消費に関連する問題を伴う。 推論フェーズにおけるエネルギー効率の問題に対処する非伝統的な物理システムに基づく多くの研究が提案されているが、ディープラーニングモデルの効率的な訓練はいまだに未適応である。 これまでのところ、デジタルディープラーニングモデルのトレーニングは主にバックプロパゲーションに依存しており、ニューラルネットワークのいわゆるフォワードパスで実行される計算の完全な知識を必要とするため、物理実装には適さない。 ここでは、生物学的に妥当な学習アルゴリズムによって強化された単純なディープニューラルネットワークアーキテクチャを「モデルフリー前方トレーニング」と呼ぶことで、この問題に対処する。 提案アーキテクチャは,非線形な物理層の性質について詳細な知識を必要とせずに,物理非線形系の層からなる深層物理ニューラルネットワークのトレーニングを可能にする。 本手法は, 学習速度の向上, ディジタル計算の削減, 物理システムにおける消費電力の低減により, 最先端のハードウェア・アウェア・トレーニング手法に勝ることを示す。 動的あるいは予測不能な外部摂動にさらされたシステムにおいても,提案手法の適応性を示す。 提案手法の普遍性を示すために,基礎となる波動現象や使用する非線形性の種類によって異なる多様な波動に基づく物理ニューラルネットワークを訓練し,母音および画像分類タスクを実験的に行う。

Recent years have witnessed the outstanding success of deep learning in various fields such as vision and natural language processing. This success is largely indebted to the massive size of deep learning models that is expected to increase unceasingly. This growth of the deep learning models is accompanied by issues related to their considerable energy consumption, both during the training and inference phases, as well as their scalability. Although a number of work based on unconventional physical systems have been proposed which addresses the issue of energy efficiency in the inference phase, efficient training of deep learning models has remained unaddressed. So far, training of digital deep learning models mainly relies on backpropagation, which is not suitable for physical implementation as it requires perfect knowledge of the computation performed in the so-called forward pass of the neural network. Here, we tackle this issue by proposing a simple deep neural network architecture augmented by a biologically plausible learning algorithm, referred to as "model-free forward-forward training". The proposed architecture enables training deep physical neural networks consisting of layers of physical nonlinear systems, without requiring detailed knowledge of the nonlinear physical layers' properties. We show that our method outperforms state-of-the-art hardware-aware training methods by improving training speed, decreasing digital computations, and reducing power consumption in physical systems. We demonstrate the adaptability of the proposed method, even in systems exposed to dynamic or unpredictable external perturbations. To showcase the universality of our approach, we train diverse wave-based physical neural networks that vary in the underlying wave phenomenon and the type of non-linearity they use, to perform vowel and image classification tasks experimentally.
翻訳日:2023-05-10 15:39:04 公開日:2023-05-09
# 完全パッシブ量子鍵分布の原理実証

Proof-of-Principle Demonstration of Fully-Passive Quantum Key Distribution ( http://arxiv.org/abs/2304.10374v2 )

ライセンス: Link先を確認
Chengqiu Hu, Wenyuan Wang, Kai-Sum Chan, Zhenghan Yuan, Hoi-Kwong Lo(参考訳) 量子鍵分布(QKD)は、物理の基本法則に基づく情報理論のセキュリティを提供する。 しかし、アクティブモジュレータなどのデバイス不完全性はサイドチャネルリークを引き起こす可能性があり、実用的なセキュリティを損なう。 受動デコイ強度の準備や分極符号化を含む能動変調を除去しようとする試みは、理論的制約に直面し、セキュリティ検証が不十分であり、完全な受動QKDスキームの達成を妨げる。 最近の研究は、完全にパッシブな変調プロトコルのセキュリティを体系的に分析している。 そこで我々は,このゲインスイッチング手法とポストセレクション方式を併用して,7.2dB,11.6dB,16.7dBのチャネル損失を偏光符号化した完全受動量子鍵分布の実証・実証を行う。 偏光符号化システムにおける能動変調自由QKDの実現可能性を示す。

Quantum key distribution (QKD) offers information-theoretic security based on the fundamental laws of physics. However, device imperfections, such as those in active modulators, may introduce side-channel leakage, thus compromising practical security. Attempts to remove active modulation, including passive decoy intensities preparation and polarization encoding, have faced theoretical constraints and inadequate security verification, thus hindering the achievement of a fully passive QKD scheme. Recent research has systematically analyzed the security of a fully passive modulation protocol. Based on this, we utilize the gain-switching technique in combination with the post-selection scheme and perform a proof-of-principle demonstration of a fully passive quantum key distribution with polarization encoding at channel losses of 7.2 dB, 11.6 dB, and 16.7 dB. Our work demonstrates the feasibility of active-modulation-free QKD in polarization-encoded systems.
翻訳日:2023-05-10 15:38:38 公開日:2023-05-09
# 機械翻訳品質推定のためのドメイン適応化

Tailoring Domain Adaptation for Machine Translation Quality Estimation ( http://arxiv.org/abs/2304.08891v2 )

ライセンス: Link先を確認
Javad Pourmostafa Roshan Sharami, Dimitar Shterionov, Fr\'ed\'eric Blain, Eva Vanmassenhove, Mirella De Sisto, Chris Emmery, Pieter Spronck(参考訳) 品質推定(QE)は翻訳プロセスにおいて重要な役割を果たすが、その効果はトレーニングデータの可用性と品質に依存している。 特にQEでは、そのようなデータのラベル付けに伴うコストと労力のために、高品質なラベル付きデータが欠落することが多い。 データ不足の問題は別として、QEモデルは一般化可能でなければならない。 データ不足とドメインミスマッチという2つの主要な問題を緩和するために、堅牢なQEシステム内でのドメイン適応とデータ拡張を組み合わせる。 提案手法はまず, 一般的なQEモデルを訓練し, 汎用知識を維持しつつ, 特定の領域で微調整する。 その結果,調査対象の言語ペアすべてにおいて有意な改善,言語間推論の改善,ゼロショット学習シナリオにおける優れたパフォーマンスが,最先端のベースラインと比較して示された。

While quality estimation (QE) can play an important role in the translation process, its effectiveness relies on the availability and quality of training data. For QE in particular, high-quality labeled data is often lacking due to the high cost and effort associated with labeling such data. Aside from the data scarcity challenge, QE models should also be generalizable, i.e., they should be able to handle data from different domains, both generic and specific. To alleviate these two main issues -- data scarcity and domain mismatch -- this paper combines domain adaptation and data augmentation within a robust QE system. Our method first trains a generic QE model and then fine-tunes it on a specific domain while retaining generic knowledge. Our results show a significant improvement for all the language pairs investigated, better cross-lingual inference, and a superior performance in zero-shot learning scenarios as compared to state-of-the-art baselines.
翻訳日:2023-05-10 15:38:03 公開日:2023-05-09
# 信頼に基づくカテゴリー関係認識回帰による自己評価に向けて

Toward Auto-evaluation with Confidence-based Category Relation-aware Regression ( http://arxiv.org/abs/2304.08288v2 )

ライセンス: Link先を確認
Jiexin Wang, Jiahao Chen, Bing Su(参考訳) 自動評価は、人間のアノテーションなしで任意のテストデータセット上でトレーニングされたモデルを自動的に評価することを目的としている。 既存の手法のほとんどは、データセットの表現としてモデルによって抽出された特徴のグローバル統計を利用する。 これは分類ヘッドの影響を無視し、モデルのカテゴリ別混乱情報を失う。 しかしながら、異なるカテゴリに割り当てられたインスタンスの比率とその信頼度スコアは、モデルが分類するのが困難であるカテゴリの数を反映している。 本稿では,信頼に基づくカテゴリ関係認識回帰(C^2R^2$)手法を提案する。 c^2r^2$ メタセット内のすべてのインスタンスを信頼度スコアに応じて異なるカテゴリに分割し、それらからグローバル表現を抽出する。 各カテゴリについて、$C^2R^2$は、他のカテゴリとの局所的な混乱関係を局所表現に符号化する。 全体的なパフォーマンスとカテゴリワイドパフォーマンスは、それぞれグローバルとローカルの表現から回帰している。 広範な実験により,本手法の有効性が示された。

Auto-evaluation aims to automatically evaluate a trained model on any test dataset without human annotations. Most existing methods utilize global statistics of features extracted by the model as the representation of a dataset. This ignores the influence of the classification head and loses category-wise confusion information of the model. However, ratios of instances assigned to different categories together with their confidence scores reflect how many instances in which categories are difficult for the model to classify, which contain significant indicators for both overall and category-wise performances. In this paper, we propose a Confidence-based Category Relation-aware Regression ($C^2R^2$) method. $C^2R^2$ divides all instances in a meta-set into different categories according to their confidence scores and extracts the global representation from them. For each category, $C^2R^2$ encodes its local confusion relations to other categories into a local representation. The overall and category-wise performances are regressed from global and local representations, respectively. Extensive experiments show the effectiveness of our method.
翻訳日:2023-05-10 15:37:48 公開日:2023-05-09
# 幾何学的変換感性アーキテクチャを用いた非対象中心画像からの自己教師付き学習

Self-Supervised Learning from Non-Object Centric Images with a Geometric Transformation Sensitive Architecture ( http://arxiv.org/abs/2304.08014v4 )

ライセンス: Link先を確認
Taeho Kim, Jong-Min Lee(参考訳) ほとんどの不変性に基づく自己教師付き手法は、幾何学的変換から不変表現を事前学習、学習するために単一のオブジェクト中心の画像(例えばimagenetイメージ)に依存する。 しかし、画像がオブジェクト中心でない場合、画像のセマンティクスは切り欠きによって著しく変化する可能性がある。 さらに、モデルが幾何学的変換に敏感になるにつれて、位置情報を捉えるのに苦労する可能性がある。 そこで我々は,4次元回転,ランダム作物,マルチクロップに着目し,幾何学的変換に敏感な特徴を学習するために設計された幾何学的変換センシティブアーキテクチャを提案する。 本手法は,教師の特徴マップのプーリングと回転,回転予測を通じて,これらの変換に敏感な目標を用いて,学生に感性を持たせることを促す。 さらに、マルチクロップに敏感にトレーニングすることで、ローカルとグローバルの対応が促進されるため、モデルは長期的な依存関係をキャプチャすることができる。 画像のビュー間の対応を強制するのではなく,類似した特徴のパッチ間の対応を促進するためにパッチ対応損失を利用する。 このアプローチにより、長期的な依存関係をより適切な方法で捉えることができます。 提案手法は,非対象中心の画像を事前学習データとして用いる場合,幾何学的変換非感性表現を学習する他の方法と比較して,性能向上を示す。 画像分類、意味セグメンテーション、検出、インスタンスセグメンテーションを含むタスクのdinoベースラインを4.9$top-1 acc$、3.3$miou$、3.4$ap^b$、2.7$ap^m$で越えた。 コードおよび事前訓練されたモデルは、https://github.com/bok3948/GTSAで公開されている。

Most invariance-based self-supervised methods rely on single object-centric images (e.g., ImageNet images) for pretraining, learning invariant representations from geometric transformations. However, when images are not object-centric, the semantics of the image can be significantly altered due to cropping. Furthermore, as the model becomes insensitive to geometric transformations, it may struggle to capture location information. For this reason, we propose a Geometric Transformation Sensitive Architecture designed to learn features that are sensitive to geometric transformations, specifically focusing on four-fold rotation, random crop, and multi-crop. Our method encourages the student to be sensitive by using targets that are sensitive to those transforms via pooling and rotating of the teacher feature map and predicting rotation. Additionally, as training insensitively to multi-crop encourages local-to-global correspondence, the model can capture long-term dependencies. We use patch correspondence loss to encourage correspondence between patches with similar features, instead of enforcing correspondence between views of the image. This approach allows us to capture long-term dependencies in a more appropriate way. Our approach demonstrates improved performance when using non-object-centric images as pretraining data compared to other methods that learn geometric transformation-insensitive representations. We surpass the DINO baseline in tasks including image classification, semantic segmentation, detection, and instance segmentation with improvements of 4.9 $Top-1 Acc$, 3.3 $mIoU$, 3.4 $AP^b$, and 2.7 $AP^m$. Code and pretrained models are publicly available at: https://github.com/bok3948/GTSA
翻訳日:2023-05-10 15:37:34 公開日:2023-05-09
# MS3D:3次元物体検出における教師なし領域適応のための複数検出器の活用

MS3D: Leveraging Multiple Detectors for Unsupervised Domain Adaptation in 3D Object Detection ( http://arxiv.org/abs/2304.02431v3 )

ライセンス: Link先を確認
Darren Tsai, Julie Stephany Berrio, Mao Shan, Eduardo Nebot and Stewart Worrall(参考訳) 3dオブジェクト検出における教師なしドメイン適応のための新しい自己学習パイプラインであるmulti-source 3d (ms3d) を導入する。 3D検出器の顕著な精度にもかかわらず、それらはしばしば特定のドメインバイアスに過度に適合し、様々なセンサーの設定や環境において最適以下の性能をもたらす。 既存の方法は通常、1つの検出器を対象のドメインに適応させることに重点を置いており、異なる検出器が異なる未知のドメインに対して異なる専門知識を持っているという事実を見落としている。 ms3dは、複数のソースドメインからの異なる事前学習された検出器を結合し、時間情報を組み込んで高品質な擬似ラベルを生成し、微調整する。 提案したKernel-Density Estimation (KDE) Box Fusion法は,複数のドメインからのボックス提案を融合し,最高のソース領域検出器の性能を超える擬似ラベルを得る。 ms3dは領域シフトに対するロバスト性が向上し、より長い距離にわたって正確な擬似ラベルを生成する。 提案手法は,すべての評価データセットに対して最先端の性能を達成し,事前学習した検出器のソースデータセットが微調整結果に最小限の影響を与えることを示した。

We introduce Multi-Source 3D (MS3D), a new self-training pipeline for unsupervised domain adaptation in 3D object detection. Despite the remarkable accuracy of 3D detectors, they often overfit to specific domain biases, leading to suboptimal performance in various sensor setups and environments. Existing methods typically focus on adapting a single detector to the target domain, overlooking the fact that different detectors possess distinct expertise on different unseen domains. MS3D leverages this by combining different pre-trained detectors from multiple source domains and incorporating temporal information to produce high-quality pseudo-labels for fine-tuning. Our proposed Kernel-Density Estimation (KDE) Box Fusion method fuses box proposals from multiple domains to obtain pseudo-labels that surpass the performance of the best source domain detectors. MS3D exhibits greater robustness to domain shift and produces accurate pseudo-labels over greater distances, making it well-suited for high-to-low beam domain adaptation and vice versa. Our method achieved state-of-the-art performance on all evaluated datasets, and we demonstrate that the pre-trained detector's source dataset has minimal impact on the fine-tuned result, making MS3D suitable for real-world applications.
翻訳日:2023-05-10 15:37:04 公開日:2023-05-09
# 制約付き多目的フェデレーション学習におけるプライバシ、ユーティリティ、効率の最適化

Optimizing Privacy, Utility and Efficiency in Constrained Multi-Objective Federated Learning ( http://arxiv.org/abs/2305.00312v4 )

ライセンス: Link先を確認
Yan Kang, Hanlin Gu, Xingxing Tang, Yuanqin He, Yuzhu Zhang, Jinnan He, Yuxing Han, Lixin Fan, Kai Chen, Qiang Yang(参考訳) 従来、連合学習は単一の目的、通常はユーティリティを最適化することを目的としていた。 しかし、連合学習システムが信頼できるためには、モデル性能の最大化、プライバシのリークとトレーニングコストの最小化、悪意のある攻撃に対する堅牢性など、複数の目標を同時に満たす必要がある。 複数の競合する目的を同時に最適化することを目的とした多目的最適化(MOO)は、信頼できるフェデレートラーニング(TFL)の最適化問題を解決するのに非常に適している。 本稿では,制約付き多目的フェデレーション学習(CMOFL)の問題を定式化し,MOOとTFLを統一する。 この定式化の下では、既存のMOOアルゴリズムをTFLに簡単に適用することができる。 汎用性,効率性,公平性,堅牢性を重視した既存のcmoflとは違って,tflシステムの3つの主な目的であるユーティリティ損失とトレーニングコストとともに,プライバシリークの最適化を検討する。 NSGA-II と PSL に基づく 2 つの改良された CMOFL アルゴリズムを開発し,Pareto 最適解を効果的かつ効率的に検出し,その収束に関する理論的解析を行った。 我々は、ランダム化、BatchCrypt(同型暗号化の効率的なバージョン)、スパシフィケーションの3つのプライバシ保護メカニズムに対して、プライバシー漏洩、ユーティリティ損失、トレーニングコストの具体的な測定を設計する。 3つの保護機構のそれぞれで実験を行い,提案手法の有効性を実証した。

Conventionally, federated learning aims to optimize a single objective, typically the utility. However, for a federated learning system to be trustworthy, it needs to simultaneously satisfy multiple/many objectives, such as maximizing model performance, minimizing privacy leakage and training cost, and being robust to malicious attacks. Multi-Objective Optimization (MOO) aiming to optimize multiple conflicting objectives at the same time is quite suitable for solving the optimization problem of Trustworthy Federated Learning (TFL). In this paper, we unify MOO and TFL by formulating the problem of constrained multi-objective federated learning (CMOFL). Under this formulation, existing MOO algorithms can be adapted to TFL straightforwardly. Different from existing CMOFL works focusing on utility, efficiency, fairness, and robustness, we consider optimizing privacy leakage along with utility loss and training cost, the three primary objectives of a TFL system. We develop two improved CMOFL algorithms based on NSGA-II and PSL, respectively, for effectively and efficiently finding Pareto optimal solutions, and we provide theoretical analysis on their convergence. We design specific measurements of privacy leakage, utility loss, and training cost for three privacy protection mechanisms: Randomization, BatchCrypt (An efficient version of homomorphic encryption), and Sparsification. Empirical experiments conducted under each of the three protection mechanisms demonstrate the effectiveness of our proposed algorithms.
翻訳日:2023-05-10 15:31:17 公開日:2023-05-09
# 時間分割開システムの量子速度限界

Quantum Speed Limit for Time-Fractional Open Systems ( http://arxiv.org/abs/2305.00270v2 )

ライセンス: Link先を確認
Dongmei Wei, Hailing Liu, Yongmei Li, Fei Gao, Sujuan Qin, Qiaoyan Wen(参考訳) Time-Fractional Schr\"odinger Equation (TFSE)は、その散逸環境と相互作用する量子系を研究するためによく調整されている。 量子速度制限(quantum speed limit, qsl)は、量子系が2つの状態の間を進化させるのに必要な最短時間であり、量子過程の最大速度を評価する上で重要である。 本研究では,tfse を基本開放量子系モデル,すなわち共振散逸性jaynes-cummings (jc) モデルに適用し,システムのqsl時間を調べることにより,一般時間分解型単一量子ビットオープンシステムに対して正確に解く。 環境のマルコフ的でない記憶効果は時間-屈折量子進化を加速し、結果としてQSL時間が小さくなることを示した。 さらに、与えられた駆動時間における時間分割開量子系、すなわち分数次数、結合強度、光子数の間のトレードオフの加速進化の条件を光に導く。 特に、長い駆動時間に対する分数順序を調整することにより、時間差分開量子系の非マルコフ散逸ダイナミクスを演算する方法について述べる。

The Time-Fractional Schr\"odinger Equation (TFSE) is well-adjusted to study a quantum system interacting with its dissipative environment. The Quantum Speed Limit (QSL) time captures the shortest time required for a quantum system to evolve between two states, which is significant for evaluating the maximum speed in quantum processes. In this work, we solve exactly for a generic time-fractional single qubit open system by applying the TFSE to a basic open quantum system model, namely the resonant dissipative Jaynes-Cummings (JC) model, and investigate the QSL time for the system. It is shown that the non-Markovian memory effects of the environment can accelerate the time-fractional quantum evolution, thus resulting in a smaller QSL time. Additionally, the condition for the acceleration evolution of the time-fractional open quantum system at a given driving time, i.e., a tradeoff among the fractional order, coupling strength, and photon number, is brought to light. In particular, a method to manipulate the non-Markovian dissipative dynamics of a time-fractional open quantum system by adjusting the fractional order for a long driving time is presented.
翻訳日:2023-05-10 15:30:50 公開日:2023-05-09
# 非ネイティブ話者の割合が言語複雑性に与える影響の証拠はまだない -- Kauhanen, Einhaus & Walkden (2023)に対する回答

Still no evidence for an effect of the proportion of non-native speakers on language complexity -- A response to Kauhanen, Einhaus & Walkden (2023) ( http://arxiv.org/abs/2305.00217v4 )

ライセンス: Link先を確認
Alexander Koplenig(参考訳) Journal of Language Evolutionに掲載された最近の論文で、Kauhanen, Einhaus & Walkden (https://doi.org/10.1093/jole/lzad005, KEW)は、私の論文の1つ(Koplenig, Royal Society Open Science 6, 181274 (2019), https://doi.org/10.1098/rsos.181274)で示された結果に異議を唱えました。 この目的のために、Ethnologueが言語ステータスを評価する方法に注目します。L1(第一言語)話者が使用することに加えて、かなりの数のL2ユーザを持つ必要がある場合、言語はvehicularとして特徴づけられます。 KEWは、言語がかなりの数のL2ユーザを持つかどうかを示す(バイナリ)指標として、そしてその比率の直接推定が不可能なときに、L2話者の0パーセントを非車種言語に出力するという考え方の両方を批判している。 出版後論評の重要性は認識していますが,本論では両論点が明記され,私の論文で分析されていることを示します。 さらに、KEWが提起した他の点についてもコメントし、KEWが提供する代替分析も、より精査に至らないことを実証します。

In a recent paper published in the Journal of Language Evolution, Kauhanen, Einhaus & Walkden (https://doi.org/10.1093/jole/lzad005, KEW) challenge the results presented in one of my papers (Koplenig, Royal Society Open Science, 6, 181274 (2019), https://doi.org/10.1098/rsos.181274), in which I tried to show through a series of statistical analyses that large numbers of L2 (second language) speakers do not seem to affect the (grammatical or statistical) complexity of a language. To this end, I focus on the way in which the Ethnologue assesses language status: a language is characterised as vehicular if, in addition to being used by L1 (first language) speakers, it should also have a significant number of L2 users. KEW criticise both the use of vehicularity as a (binary) indicator of whether a language has a significant number of L2 users and the idea of imputing a zero proportion of L2 speakers to non-vehicular languages whenever a direct estimate of that proportion is unavailable. While I recognise the importance of post-publication commentary on published research, I show in this rejoinder that both points of criticism are explicitly mentioned and analysed in my paper. In addition, I also comment on other points raised by KEW and demonstrate that both alternative analyses offered by KEW do not stand up to closer scrutiny.
翻訳日:2023-05-10 15:30:28 公開日:2023-05-09
# 実世界3次元バンドル問題のためのベンチマークデータセットとインスタンス生成

Benchmark dataset and instance generator for Real-World Three-Dimensional Bin Packing Problems ( http://arxiv.org/abs/2304.14712v2 )

ライセンス: Link先を確認
Eneko Osaba, Esther Villar-Rodriguez and Sebasti\'an V. Romero(参考訳) 本稿では,実世界のビンパッキング問題のベンチマークを提案する。 このデータセットは、サイズ(38から53までのパッケージ数)とユーザ定義要件に関して、さまざまなレベルの複雑性を持つ12のインスタンスで構成されている。 実際、これらのインスタンスを構築するために、いくつかの実世界指向の制約が考慮されました。 一 アイテム及びビン寸法 二 重量制限 三 パッケージカテゴリー間の親和性 四 パッケージ注文の優先事項及び v) ロードバランシング。 データに加えて、Q4RealBPP-DataGenというデータセット生成用の独自のPythonスクリプトも提供しています。 このベンチマークは量子ソルバの性能を評価するために最初に提案された。 したがって、この一連のインスタンスの特性は、現在の量子デバイスの制限に従って設計されている。 さらに、データセットジェネレータは汎用ベンチマークの構築を可能にする。 この記事では、量子コンピューティング研究者が現実世界のビンパッキング問題に取り組むことを奨励するベースラインを提供する。

In this article, a benchmark for real-world bin packing problems is proposed. This dataset consists of 12 instances of varying levels of complexity regarding size (with the number of packages ranging from 38 to 53) and user-defined requirements. In fact, several real-world-oriented restrictions were taken into account to build these instances: i) item and bin dimensions, ii) weight restrictions, iii) affinities among package categories iv) preferences for package ordering and v) load balancing. Besides the data, we also offer an own developed Python script for the dataset generation, coined Q4RealBPP-DataGen. The benchmark was initially proposed to evaluate the performance of quantum solvers. Therefore, the characteristics of this set of instances were designed according to the current limitations of quantum devices. Additionally, the dataset generator is included to allow the construction of general-purpose benchmarks. The data introduced in this article provides a baseline that will encourage quantum computing researchers to work on real-world bin packing problems.
翻訳日:2023-05-10 15:29:48 公開日:2023-05-09
# ニューラルインプシトリ・デンス・セマンティックSLAM

Neural Implicit Dense Semantic SLAM ( http://arxiv.org/abs/2304.14560v2 )

ライセンス: Link先を確認
Yasaman Haghighi, Suryansh Kumar, Jean-Philippe Thiran, Luc Van Gool(参考訳) 視覚同時局在マッピング(visual concurrent localization and mapping, vslam)は、ロボットがカメラセンサーを使って未知の環境の地図を作成できるロボットとコンピュータビジョンで広く使われている技術である。 本稿では,RGBD vSLAMアルゴリズムを提案する。このアルゴリズムは,屋内シーンのメモリ効率,密度の高い3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習することができる。 私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。 マッピングネットワークは、シーンのSDFと、キーフレームのセットのみを使用して、新しいビューのRGB、深さ、セマンティックマップを学習する。 さらに、複数のローカルマッピングネットワークを使用することで、パイプラインを大きなシーンに拡張する。 既知のベンチマークデータセットに対する大規模な実験により、我々のアプローチは、ノイズ、スパース、入力深度のない場合でも、堅牢なトラッキング、マッピング、セマンティックラベリングを提供することを確認した。 全体として,提案アルゴリズムはシーン知覚を大きく向上させ,ロボット制御の幅広い課題を支援できる。

Visual Simultaneous Localization and Mapping (vSLAM) is a widely used technique in robotics and computer vision that enables a robot to create a map of an unfamiliar environment using a camera sensor while simultaneously tracking its position over time. In this paper, we propose a novel RGBD vSLAM algorithm that can learn a memory-efficient, dense 3D geometry, and semantic segmentation of an indoor scene in an online manner. Our pipeline combines classical 3D vision-based tracking and loop closing with neural fields-based mapping. The mapping network learns the SDF of the scene as well as RGB, depth, and semantic maps of any novel view using only a set of keyframes. Additionally, we extend our pipeline to large scenes by using multiple local mapping networks. Extensive experiments on well-known benchmark datasets confirm that our approach provides robust tracking, mapping, and semantic labeling even with noisy, sparse, or no input depth. Overall, our proposed algorithm can greatly enhance scene perception and assist with a range of robot control problems.
翻訳日:2023-05-10 15:29:36 公開日:2023-05-09
# ボンドメディエーターによるダイヤモンド中の窒素空孔中心から外部核スピンへの偏極移動の促進

Enhancing polarization transfer from nitrogen-vacancy centers in diamond to external nuclear spins via dangling bond mediators ( http://arxiv.org/abs/2304.14282v2 )

ライセンス: Link先を確認
H. Espin\'os, C. Munuera-Javaloy, I. Panadero, P. Acedo, R. Puebla, J. Casanova, E. Torrontegui(参考訳) 分子サンプル中の核スピンを過分極化する非侵襲的なプラットフォームとしてのダイヤモンドにおける窒素空洞中心の利用は、核磁気共鳴実験の感度を高める可能性を持つ有望な研究分野である。 ダイヤモンド構造からNV偏光を移動させることは、動的核偏光法を用いてナノスケールのターゲット上で達成されているが、関連するNMR量に拡張することは大きな課題である。 技術的なハードルの一つは、偏光流出を妨害するダイヤモンド表面の常磁性欠陥の存在である。 しかし、これらの欠陥はNVと核スピンの相互作用の中間体として利用することもできる。 本稿では,既存のマイクロ波配列,すなわちPulsePolを利用して,ダングリング結合や他の局所電子スピンを用いて効率よく,かつ強固に偏光を伝達する手法を提案する。

The use of nitrogen-vacancy centers in diamond as a non-invasive platform for hyperpolarizing nuclear spins in molecular samples is a promising area of research with the potential to enhance the sensitivity of nuclear magnetic resonance experiments. Transferring NV polarization out of the diamond structure has been achieved on nanoscale targets using dynamical nuclear polarization methods, but extending this to relevant NMR volumes poses significant challenges. One major technical hurdle is the presence of paramagnetic defects in the diamond surface which can interfere with polarization outflow. However, these defects can also be harnessed as intermediaries for the interaction between NVs and nuclear spins. We present a method that benefits from existing microwave sequences, namely the PulsePol, to transfer polarization efficiently and robustly using dangling bonds or other localized electronic spins, with the potential to increase polarization rates under realistic conditions.
翻訳日:2023-05-10 15:29:19 公開日:2023-05-09
# $\textit{RemOve-And-Retrain}$:データ処理の不平等の観点から

On Pitfalls of $\textit{RemOve-And-Retrain}$: Data Processing Inequality Perspective ( http://arxiv.org/abs/2304.13836v2 )

ライセンス: Link先を確認
Junhwa Song, Keumgang Cha, Junghoon Seo(参考訳) アトリビューション法(attribution method)と呼ばれる、特徴の重要性近似を評価するためのアプローチが、幅広いコンテキストにわたって確立されてきた。 パフォーマンスベンチマークのためのレジリエントなテクニックの開発は、説明可能なディープラーニングの分野において重要な関心事となっている。 本研究は,特徴量推定の性能評価に広く用いられているroar(remove-and-retrain)手順の信頼性について検討する。 理論的基礎と実証的研究から得られた知見は、ROARベンチマークにおいて、ROARの本来の意図に反して、決定関数に関するより少ない情報を含む属性が優れた結果をもたらす可能性があることを示している。 この現象は,最近導入された変種remove-and-debias (road)でも同様に観察され,roar attribution metricsにおけるぼやけバイアスの持続的なパターンを仮定した。 我々の発見は、ROARメトリクスの無差別使用に対する警告として役立ちます。

Approaches for appraising feature importance approximations, alternatively referred to as attribution methods, have been established across an extensive array of contexts. The development of resilient techniques for performance benchmarking constitutes a critical concern in the sphere of explainable deep learning. This study scrutinizes the dependability of the RemOve-And-Retrain (ROAR) procedure, which is prevalently employed for gauging the performance of feature importance estimates. The insights gleaned from our theoretical foundation and empirical investigations reveal that attributions containing lesser information about the decision function may yield superior results in ROAR benchmarks, contradicting the original intent of ROAR. This occurrence is similarly observed in the recently introduced variant RemOve-And-Debias (ROAD), and we posit a persistent pattern of blurriness bias in ROAR attribution metrics. Our findings serve as a warning against indiscriminate use on ROAR metrics.
翻訳日:2023-05-10 15:29:02 公開日:2023-05-09
# 中間レベルの摂動減衰による対向移動性の向上

Improving Adversarial Transferability via Intermediate-level Perturbation Decay ( http://arxiv.org/abs/2304.13410v2 )

ライセンス: Link先を確認
Qizhang Li, Yiwen Guo, Wangmeng Zuo, Hao Chen(参考訳) 逆方向に従う特徴表現を劇的に摂動させようとする中間レベルの攻撃は、移動可能な逆向きの例を作るのに好成績を示している。 このカテゴリーの既存の方法は、通常2つの別々の段階で定式化され、最初に方向ガイドを決定する必要があり、その後、中間レベル摂動のスカラー投影を方向ガイドに拡大する。 得られた摂動は特徴空間において必然的にガイドから逸脱し,そのような偏差が準最適攻撃につながることが本論文で明らかになった。 この問題に対処するため,一段階の最適化で敵の例を再現する新しい中間レベル手法を開発した。 特に,提案手法は,中間レベルの摂動減衰 (ilpd) と呼ばれ,中間レベルの摂動が効果的に逆向きに進行し,同時に大きなマグニチュードを持つように促している。 本手法の有効性を詳細に検討した。 実験の結果、imagenet(平均+10.07%)とcifar-10(平均3.88%)のさまざまな被害者モデルに対する攻撃において、最先端のマージンを大きく上回っていることがわかった。 私たちのコードはhttps://github.com/qizhangli/ILPD攻撃にあります。

Intermediate-level attacks that attempt to perturb feature representations following an adversarial direction drastically have shown favorable performance in crafting transferable adversarial examples. Existing methods in this category are normally formulated with two separate stages, where a directional guide is required to be determined at first and the scalar projection of the intermediate-level perturbation onto the directional guide is enlarged thereafter. The obtained perturbation deviates from the guide inevitably in the feature space, and it is revealed in this paper that such a deviation may lead to sub-optimal attack. To address this issue, we develop a novel intermediate-level method that crafts adversarial examples within a single stage of optimization. In particular, the proposed method, named intermediate-level perturbation decay (ILPD), encourages the intermediate-level perturbation to be in an effective adversarial direction and to possess a great magnitude simultaneously. In-depth discussion verifies the effectiveness of our method. Experimental results show that it outperforms state-of-the-arts by large margins in attacking various victim models on ImageNet (+10.07% on average) and CIFAR-10 (+3.88% on average). Our code is at https://github.com/qizhangli/ILPD-attack.
翻訳日:2023-05-10 15:28:46 公開日:2023-05-09
# Pylogik を用いた医用画像の識別・洗浄・圧縮

Medical Image Deidentification, Cleaning and Compression Using Pylogik ( http://arxiv.org/abs/2304.12322v4 )

ライセンス: Link先を確認
Adrienne Kline, Vinesh Appadurai, Yuan Luo, Sanjiv Shah(参考訳) ビッグデータと機械学習の時代における医療記録情報の活用は、データのクリーン化と識別の欠如に注意する必要がある。 保護された健康情報(PHI)が画像メタデータに含まれる場合,多施設連携のためのデータ共有と調和は特に困難である。 我々は,pylogikと呼ばれるpythonフレームワークの新しいライブラリを提案し,超音波画像に対するこの問題を軽減する。 PyLogikは、一連のテキスト検出/抽出、フィルタリング、しきい値、形態と輪郭の比較を通じて画像ボリュームを処理する。 この方法論は、イメージを識別し、ファイルサイズを小さくし、ディープラーニングとデータ共有のアプリケーション用の画像ボリュームを作成する。 興味領域(ROI)の同定における有効性を評価するため,PyLogikを用いて50個の心エコー(心電図)のランダムサンプルを処理し,専門家による手動セグメンテーションと比較した。 2つのアプローチのDice係数は0.976の平均値を達成した。 次に,アルゴリズムを用いて得られた情報圧縮の程度を確認するために調査を行った。 結果、pylogikによる処理後、平均で約72%小さくなることがわかった。 以上の結果から,PyLogikは超音波データのクリーニングや識別,ROIの決定,ファイル圧縮に有効な手法であることが示唆された。

Leveraging medical record information in the era of big data and machine learning comes with the caveat that data must be cleaned and deidentified. Facilitating data sharing and harmonization for multi-center collaborations are particularly difficult when protected health information (PHI) is contained or embedded in image meta-data. We propose a novel library in the Python framework, called PyLogik, to help alleviate this issue for ultrasound images, which are particularly challenging because of the frequent inclusion of PHI directly on the images. PyLogik processes the image volumes through a series of text detection/extraction, filtering, thresholding, morphological and contour comparisons. This methodology deidentifies the images, reduces file sizes, and prepares image volumes for applications in deep learning and data sharing. To evaluate its effectiveness in the identification of regions of interest (ROI), a random sample of 50 cardiac ultrasounds (echocardiograms) were processed through PyLogik, and the outputs were compared with the manual segmentations by an expert user. The Dice coefficient of the two approaches achieved an average value of 0.976. Next, an investigation was conducted to ascertain the degree of information compression achieved using the algorithm. Resultant data was found to be on average approximately 72% smaller after processing by PyLogik. Our results suggest that PyLogik is a viable methodology for ultrasound data cleaning and deidentification, determining ROI, and file compression which will facilitate efficient storage, use, and dissemination of ultrasound data.
翻訳日:2023-05-10 15:28:22 公開日:2023-05-09
# プロアクティブ対話システムに関する調査研究 : 問題, 方法, 展望

A Survey on Proactive Dialogue Systems: Problems, Methods, and Prospects ( http://arxiv.org/abs/2305.02750v2 )

ライセンス: Link先を確認
Yang Deng, Wenqiang Lei, Wai Lam, Tat-Seng Chua(参考訳) プロアクティブな対話システムは、幅広い現実世界の会話アプリケーションに関連するもので、会話エージェントに、予め定義された目標を達成するための会話方向を導く能力や、システム側から特定の目標を達成する能力を持たせる。 戦略的およびモチベーション的相互作用を必要とするより複雑なタスクに進むための高度な技術によって権限が与えられる。 本調査では,対話エージェントの多種多様な対話における能動性に関する顕著な問題と高度な設計について概説する。 さらに,現実世界のアプリケーションのニーズに応えつつ,将来研究の焦点を絞る課題についても論じる。 このプロアクティブな対話システムに関する最初の調査は、コミュニティにこの実践的な問題への迅速なアクセスと全体像を提供し、会話型AIのさらなる進歩を次のレベルへと刺激することを期待している。

Proactive dialogue systems, related to a wide range of real-world conversational applications, equip the conversational agent with the capability of leading the conversation direction towards achieving pre-defined targets or fulfilling certain goals from the system side. It is empowered by advanced techniques to progress to more complicated tasks that require strategical and motivational interactions. In this survey, we provide a comprehensive overview of the prominent problems and advanced designs for conversational agent's proactivity in different types of dialogues. Furthermore, we discuss challenges that meet the real-world application needs but require a greater research focus in the future. We hope that this first survey of proactive dialogue systems can provide the community with a quick access and an overall picture to this practical problem, and stimulate more progresses on conversational AI to the next level.
翻訳日:2023-05-10 15:21:48 公開日:2023-05-09
# 潜在共同創設者の存在下での無期限データから因果関係を回復する学習

Learning to Recover Causal Relationship from Indefinite Data in the Presence of Latent Confounders ( http://arxiv.org/abs/2305.02640v2 )

ライセンス: Link先を確認
Hang Chen and Xinyu Yang and Qing Yang(参考訳) 潜在変数を用いた因果的発見では, 2つのデータパラダイムを定義している。 確定データ: 観測ノードを単一値とするシングルスケルトン構造と, 観測ノードを複数値とするマルチスケルトン構造である。 マルチスケトンはサンプル利用率の低下を誘発し、マルチ値は分布仮定の不可能を誘導し、どちらも未定のデータから因果関係を回復することは、まだほとんど未定である。 この2つの問題を解決するために因果強度変動モデルを設計する。 具体的には, 独立雑音ではなく因果強度を潜在変数として活用し, エビデンス下限を調停する。 この設計エトスにより、異なる骨格の因果強度は分布と見なされ、単一の値の因果グラフ行列として表される。 o は観測ノード間の純粋関係を含み、c は潜在変数から観測ノードへの関係を表す。 本稿では,この設計を,非定値データから因果表現を学習するためのbiCD (Confounding Disentanglement Causal Discovery) として要約する。 最後に,本手法の有効性を実証するために,合成および実世界のデータに関する包括的実験を行った。

In Causal Discovery with latent variables, We define two data paradigms: definite data: a single-skeleton structure with observed nodes single-value, and indefinite data: a set of multi-skeleton structures with observed nodes multi-value. Multi,skeletons induce low sample utilization and multi values induce incapability of the distribution assumption, both leading that recovering causal relations from indefinite data is, as of yet, largely unexplored. We design the causal strength variational model to settle down these two problems. Specifically, we leverage the causal strength instead of independent noise as latent variable to mediate evidence lower bound. By this design ethos, The causal strength of different skeletons is regarded as a distribution and can be expressed as a single-valued causal graph matrix. Moreover, considering the latent confounders, we disentangle the causal graph G into two relatisubgraphs O and C. O contains pure relations between observed nodes, while C represents the relations from latent variables to observed nodes. We summarize the above designs as Confounding Disentanglement Causal Discovery (biCD), which is tailored to learn causal representation from indefinite data under the latent confounding. Finally, we conduct comprehensive experiments on synthetic and real-world data to demonstrate the effectiveness of our method.
翻訳日:2023-05-10 15:21:31 公開日:2023-05-09
# 統一拡散型生成器によるマルチモーダル対話顔生成

Multimodal-driven Talking Face Generation via a Unified Diffusion-based Generator ( http://arxiv.org/abs/2305.02594v2 )

ライセンス: Link先を確認
Chao Xu, Shaoting Zhu, Junwei Zhu, Tianxin Huang, Jiangning Zhang, Ying Tai, Yong Liu(参考訳) マルチモーダル対話顔生成(multimodal-driven talking face generation)とは、画像や映像から転送された所定のポーズ、表情、視線、あるいはテキストや音声から推定した人物像をアニメーションすることを指す。 しかし、既存の手法はテキスト・モーダルの可能性を無視しており、ジェネレータは主に不安定なGANフレームワークと組み合わされたソース指向の特徴再構成パラダイムに従う。 本研究では,まずテキストプロンプトの感情を表現し,CLIPからリッチな意味論を継承し,柔軟で一般化された感情制御を可能にする。 さらに,これらのタスクを目標指向のテクスチャ転送として再編成し,拡散モデルを採用する。 More specifically, given a textured face as the source and the rendered face projected from the desired 3DMM coefficients as the target, our proposed Texture-Geometry-aware Diffusion Model decomposes the complex transfer problem into multi-conditional denoising process, where a Texture Attention-based module accurately models the correspondences between appearance and geometry cues contained in source and target conditions, and incorporate extra implicit information for high-fidelity talking face generation. さらに、TGDMは顔交換用に優雅に調整できる。 我々は,不安定なシーソー型最適化を含まない新しいパラダイムを導出し,単純で安定で効果的なトレーニングと推論スキームを実現する。 広範な実験により,本手法の優越性が示された。

Multimodal-driven talking face generation refers to animating a portrait with the given pose, expression, and gaze transferred from the driving image and video, or estimated from the text and audio. However, existing methods ignore the potential of text modal, and their generators mainly follow the source-oriented feature rearrange paradigm coupled with unstable GAN frameworks. In this work, we first represent the emotion in the text prompt, which could inherit rich semantics from the CLIP, allowing flexible and generalized emotion control. We further reorganize these tasks as the target-oriented texture transfer and adopt the Diffusion Models. More specifically, given a textured face as the source and the rendered face projected from the desired 3DMM coefficients as the target, our proposed Texture-Geometry-aware Diffusion Model decomposes the complex transfer problem into multi-conditional denoising process, where a Texture Attention-based module accurately models the correspondences between appearance and geometry cues contained in source and target conditions, and incorporate extra implicit information for high-fidelity talking face generation. Additionally, TGDM can be gracefully tailored for face swapping. We derive a novel paradigm free of unstable seesaw-style optimization, resulting in simple, stable, and effective training and inference schemes. Extensive experiments demonstrate the superiority of our method.
翻訳日:2023-05-10 15:21:07 公開日:2023-05-09
# バックドア攻撃のトリガーとしてのプロンプト:言語モデルの脆弱性を調べる

Prompt as Triggers for Backdoor Attack: Examining the Vulnerability in Language Models ( http://arxiv.org/abs/2305.01219v4 )

ライセンス: Link先を確認
Shuai Zhao, Jinming Wen, Luu Anh Tuan, Junbo Zhao, Jie Fu(参考訳) 事前学習と微調整のギャップを埋めるプロンプトベースの学習パラダイムは、いくつかのNLPタスク、特に数ショット設定における最先端のパフォーマンスを実現する。 広く適用されているにもかかわらず、プロンプトベースの学習はバックドア攻撃に対して脆弱である。 テキストバックドア攻撃は、インジェクションインジェクションとラベル修正を通じてトレーニングサンプルのサブセットを汚染することにより、ターゲットとする脆弱性をモデルに導入するように設計されている。 しかし、毒サンプルのトリガーや不正なラベル付けによる異常な自然言語表現などの欠陥に悩まされている。 本研究では,プロンプト自体をトリガとして使用するプロンプトに基づいて,クリーンラベルバックドア攻撃を行う新規かつ効率的な手法であるproattackを提案する。 本手法は外部からのトリガーを必要とせず、被毒サンプルの正しいラベル付けを保証し、バックドア攻撃のステルス性を改善する。 リッチリソースおよび少数ショットテキスト分類タスクに関する広範な実験により、テキストバックドア攻撃におけるProAttackの競合性能を実証的に検証した。 特に、リッチリソース環境では、ProAttackは外部トリガなしでクリーンラベルバックドア攻撃ベンチマークで最先端の攻撃成功率を達成する。

The prompt-based learning paradigm, which bridges the gap between pre-training and fine-tuning, achieves state-of-the-art performance on several NLP tasks, particularly in few-shot settings. Despite being widely applied, prompt-based learning is vulnerable to backdoor attacks. Textual backdoor attacks are designed to introduce targeted vulnerabilities into models by poisoning a subset of training samples through trigger injection and label modification. However, they suffer from flaws such as abnormal natural language expressions resulting from the trigger and incorrect labeling of poisoned samples. In this study, we propose ProAttack, a novel and efficient method for performing clean-label backdoor attacks based on the prompt, which uses the prompt itself as a trigger. Our method does not require external triggers and ensures correct labeling of poisoned samples, improving the stealthy nature of the backdoor attack. With extensive experiments on rich-resource and few-shot text classification tasks, we empirically validate ProAttack's competitive performance in textual backdoor attacks. Notably, in the rich-resource setting, ProAttack achieves state-of-the-art attack success rates in the clean-label backdoor attack benchmark without external triggers.
翻訳日:2023-05-10 15:20:28 公開日:2023-05-09
# CSP:地理空間・視覚表現のための自己監督型コントラスト空間事前訓練

CSP: Self-Supervised Contrastive Spatial Pre-Training for Geospatial-Visual Representations ( http://arxiv.org/abs/2305.01118v2 )

ライセンス: Link先を確認
Gengchen Mai, Ni Lao, Yutong He, Jiaming Song, Stefano Ermon(参考訳) ジオタグ付きイメージは大量に公開されているが、オブジェクトクラスのようなラベルは収集するコストがかなり少ない。 一方、対照的な学習は、ラベル付きデータによる様々な自然画像や言語タスクにおいて大きな成功を収めている。 しかし、既存の手法では地理空間情報を完全に活用できないため、視覚的に類似した物体を識別することが最重要となる。 事前学習,微調整,推論の段階において,画像に関連する豊富な地理空間情報を直接活用するために,地理タグ付き画像のための自己教師付き学習フレームワークであるコントラスト型空間事前学習(csp)を提案する。 デュアルエンコーダを用いて画像とその対応する位置情報を別々に符号化し、コントラスト的目的を用いて画像から効果的な位置表現を学習し、画像分類などの下流監督タスクに転送する。 実験によると、CSPはiNat2018とfMoWデータセットの両方でモデルパフォーマンスを改善することができる。 特にinat2018では、様々なラベル付きトレーニングデータサンプリング比で、cspは10-34%の相対的改善でモデルパフォーマンスを著しく向上させた。

Geo-tagged images are publicly available in large quantities, whereas labels such as object classes are rather scarce and expensive to collect. Meanwhile, contrastive learning has achieved tremendous success in various natural image and language tasks with limited labeled data. However, existing methods fail to fully leverage geospatial information, which can be paramount to distinguishing objects that are visually similar. To directly leverage the abundant geospatial information associated with images in pre-training, fine-tuning, and inference stages, we present Contrastive Spatial Pre-Training (CSP), a self-supervised learning framework for geo-tagged images. We use a dual-encoder to separately encode the images and their corresponding geo-locations, and use contrastive objectives to learn effective location representations from images, which can be transferred to downstream supervised tasks such as image classification. Experiments show that CSP can improve model performance on both iNat2018 and fMoW datasets. Especially, on iNat2018, CSP significantly boosts the model performance with 10-34% relative improvement with various labeled training data sampling ratios.
翻訳日:2023-05-10 15:20:08 公開日:2023-05-09
# 突発的雑音に基づく論理

Ternary Instantaneous Noise-based Logic ( http://arxiv.org/abs/2305.00984v2 )

ライセンス: Link先を確認
Laszlo B. Kish(参考訳) 3値の瞬時雑音に基づく論理の表現法を提案する。 第3の値は不確実なビット値であり、人工知能の応用に有用である。 また、全てのビットに対して同じ(1個の数値の)存在しないビット(真空状態)を表現できる4つの値もあるが、これは全てのビットに共通する圧縮状態である。 いくつかの論理ゲートが探索される。 三元宇宙は標準二元宇宙と比べて大きな利点がある:その振幅はどの時計周期でもゼロではない。 すべての既知のバイナリ論理ゲートは、従来と同じ方法でバイナリビット値に対して動作するため、以前のバイナリアルゴリズムは、変更することなく、宇宙のゼロ値によって生じる問題なく、三元系で実行することができる。

One of the possible representations of three-valued instantaneous noise-based logic is proposed. The third value is an uncertain bit value, which can be useful in artificial intelligence applications. There is a forth value, too, that can represent a non-existing bit (vacuum-state) that is the same (1 numeric value) for all bits, however that is a squeezed state common for all bits. Some logic gates are explored. A ternary Universe has a significant advantage compared to the standard binary one: its amplitude is never zero during any clock period. All the known binary logic gates work for the binary bit values in the same way as earlier therefore the former binary algorithms can be run in the ternary system with no change and without the problems posed by zero values of the Universe.
翻訳日:2023-05-10 15:19:50 公開日:2023-05-09
# 1対1変圧器による終端車線検出

End to End Lane detection with One-to-Several Transformer ( http://arxiv.org/abs/2305.00675v3 )

ライセンス: Link先を確認
Kunyang Zhou and Rui Zhou(参考訳) レーン検出手法は実世界のシナリオで印象的な性能を示したが、ほとんどの方法は十分に堅牢ではない後処理を必要とする。 したがって、車線検出にはDetection TRansformer(DETR)のようなエンドツーエンド検出器が導入された。 しかし、DETRにおける1対1のラベル割り当ては、ラベルセマンティックコンフリクトによってトレーニング効率を低下させることができる。 さらに、detrにおける位置クエリは明示的な位置優先を提供することができないため、最適化が難しい。 本稿では,1-to-Several Transformer(O2SFormer)を提案する。 まず,一対一と一対多のラベル割り当てを組み合わせた一対一ラベル割り当てを提案し,エンドツーエンド検出を維持しながらトレーニング効率を向上させる。 1対1の割り当てを最適化する難しさを克服する。 さらに,異なるデコーダ層にまたがる正のレーンアンカーの正の重みを調節する層毎ソフトラベルを提案する。 最後に,動的アンカーに基づく位置問合せの設計を行い,位置問合せにレーンアンカーを組み込むことにより位置先行を探索する。 実験結果から,O2SFormerはDETRの収束を著しく高速化し,CULaneデータセット上のTransformerベースおよびCNNベース検出器よりも優れていた。 コードはhttps://github.com/zkyseu/o2sformerで入手できる。

Although lane detection methods have shown impressive performance in real-world scenarios, most of methods require post-processing which is not robust enough. Therefore, end-to-end detectors like DEtection TRansformer(DETR) have been introduced in lane detection. However, one-to-one label assignment in DETR can degrade the training efficiency due to label semantic conflicts. Besides, positional query in DETR is unable to provide explicit positional prior, making it difficult to be optimized. In this paper, we present the One-to-Several Transformer(O2SFormer). We first propose the one-to-several label assignment, which combines one-to-one and one-to-many label assignments to improve the training efficiency while keeping end-to-end detection. To overcome the difficulty in optimizing one-to-one assignment. We further propose the layer-wise soft label which adjusts the positive weight of positive lane anchors across different decoder layers. Finally, we design the dynamic anchor-based positional query to explore positional prior by incorporating lane anchors into positional query. Experimental results show that O2SFormer significantly speeds up the convergence of DETR and outperforms Transformer-based and CNN-based detectors on the CULane dataset. Code will be available at https://github.com/zkyseu/O2SFormer.
翻訳日:2023-05-10 15:19:13 公開日:2023-05-09
# アクティブでないアクティベーション関数:ニューラルネットワークの解釈に関する妥当な理論

Activation Functions Not To Active: A Plausible Theory on Interpreting Neural Networks ( http://arxiv.org/abs/2305.00663v2 )

ライセンス: Link先を確認
John Chiang(参考訳) 研究者は通常、ニューラルネットワークは高次元空間をモデル化するが、この空間を明確に定義することはできないと考えている。 この空間は何ですか。 その寸法は? 有限次元はあるのか? 本稿では,ニューラルネットワークにおけるアクティベーション関数の役割の観点からニューラルネットワークを解釈する妥当な理論を開発し,ディープラーニングネットワークを含むニューラルネットワークが生成できる高次元(より正確には無限次元)空間を定義する。 活性化関数は、低次元線型空間を無限次元空間に写像する拡大関数として機能し、与えられたデータセットの同じ特徴である変数値の任意の多変量連続関数の多項式近似を明確に特定できることを示す。 for some non- negative integers ${i_1, i_2, \cdots, i_d} \in \mathbb{Z}_{0}^{+}=\{0,1,2,3,\ldots\} $.d$ features $f_1$, $f_2$, $\cdots$, $f_d$のデータセットが与えられたとき、ニューラルネットワークは無限次元の特別な空間をモデル化し、それぞれが単項$$$$\prod_{i_1, i_2, \cdots, i_d} f_1^{i_1} f_2^{i_2} \cdots f_d^{i_d}$.} となる。 そのような無限次元空間を $\textit{ Super Space (SS)}$ と呼ぶ。 このような次元を最小情報単位と見る。 ニューラルネットワークの活性化層を経由した全てのニューロンノードは、実際には無限次多項式である$\textit{ Super Plane (SP) }$である。 この$\textit{ Super Space }$は座標系のようなもので、すべてのマルチ値関数を$\textit{ Super Plane }$で表現できる。 また、NNのトレーニングを少なくとも非線形方程式の解法に還元できることも示している。 非線形方程式の %solve 集合

Researchers commonly believe that neural networks model a high-dimensional space but cannot give a clear definition of this space. What is this space? What is its dimension? And does it has finite dimensions? In this paper, we develop a plausible theory on interpreting neural networks in terms of the role of activation functions in neural networks and define a high-dimensional (more precisely, an infinite-dimensional) space that neural networks including deep-learning networks could create. We show that the activation function acts as a magnifying function that maps the low-dimensional linear space into an infinite-dimensional space, which can distinctly identify the polynomial approximation of any multivariate continuous function of the variable values being the same features of the given dataset. Given a dataset with each example of $d$ features $f_1$, $f_2$, $\cdots$, $f_d$, we believe that neural networks model a special space with infinite dimensions, each of which is a monomial $$\prod_{i_1, i_2, \cdots, i_d} f_1^{i_1} f_2^{i_2} \cdots f_d^{i_d}$$ for some non-negative integers ${i_1, i_2, \cdots, i_d} \in \mathbb{Z}_{0}^{+}=\{0,1,2,3,\ldots\} $. We term such an infinite-dimensional space a $\textit{ Super Space (SS)}$. We see such a dimension as the minimum information unit. Every neuron node previously through an activation layer in neural networks is a $\textit{ Super Plane (SP) }$, which is actually a polynomial of infinite degree. This $\textit{ Super Space }$ is something like a coordinate system, in which every multivalue function can be represented by a $\textit{ Super Plane }$. We also show that training NNs could at least be reduced to solving a system of nonlinear equations. %solve sets of nonlinear equations
翻訳日:2023-05-10 15:18:53 公開日:2023-05-09
# UIT-OpenViIC:ベトナムにおける画像キャプション評価のための新しいベンチマーク

UIT-OpenViIC: A Novel Benchmark for Evaluating Image Captioning in Vietnamese ( http://arxiv.org/abs/2305.04166v2 )

ライセンス: Link先を確認
Doanh C. Bui, Nghia Hieu Nguyen, Khang Nguyen(参考訳) Image Captioningは、2020年代の世界の研究コミュニティに関心を持つ視覚言語タスクの1つだ。 MS-COCOキャプションベンチマークは、2015年に発表されたが、高度なキャプションモデルの性能を評価するために一般的に使用される。 MS-COCOキャプションデータセットでトレーニングされた最近のキャプションモデルは、英語の言語パターンにおいて、優れたパフォーマンスしか得られていない。 ベトナムの低リソース研究コミュニティに貢献するために,ベトナムにおける新しい画像キャプションデータセット,オープンドメインベトナム画像キャプションデータセット(UIT-OpenViIC)を紹介する。 導入されたデータセットには、ベトナムでキャプチャーされ、厳格な規則と監督の下でベトナムによって手動で注釈付けされる複雑なシーンが含まれている。 本稿では,データセット作成プロセスについてより詳細に述べる。 予備分析から,我々のデータセットは,MS COCOデータセット上で良好に動作した最近のSOTA(State-of-the-art (SOTA) Transformer-based baselinesに対して困難であることを示す。 そして、控えめな結果から、uit-openviicは成長する余地があることが証明され、研究コミュニティがキャプションモデルを評価するためのベトナムの標準ベンチマークの1つとなる。 さらに,複数レベルのエンコーダ出力融合機構による画像表現能力を効果的に向上するCAMO手法を提案する。

Image Captioning is one of the vision-language tasks that still interest the research community worldwide in the 2020s. MS-COCO Caption benchmark is commonly used to evaluate the performance of advanced captioning models, although it was published in 2015. Recent captioning models trained on the MS-COCO Caption dataset only have good performance in language patterns of English; they do not have such good performance in contexts captured in Vietnam or fluently caption images using Vietnamese. To contribute to the low-resources research community as in Vietnam, we introduce a novel image captioning dataset in Vietnamese, the Open-domain Vietnamese Image Captioning dataset (UIT-OpenViIC). The introduced dataset includes complex scenes captured in Vietnam and manually annotated by Vietnamese under strict rules and supervision. In this paper, we present in more detail the dataset creation process. From preliminary analysis, we show that our dataset is challenging to recent state-of-the-art (SOTA) Transformer-based baselines, which performed well on the MS COCO dataset. Then, the modest results prove that UIT-OpenViIC has room to grow, which can be one of the standard benchmarks in Vietnamese for the research community to evaluate their captioning models. Furthermore, we present a CAMO approach that effectively enhances the image representation ability by a multi-level encoder output fusion mechanism, which helps improve the quality of generated captions compared to previous captioning models.
翻訳日:2023-05-10 15:12:49 公開日:2023-05-09
# チャネル駆動確率勾配ランジュバンダイナミクスによるベイジアン・オーバー・ザ・エアフェダブグ

Bayesian Over-the-Air FedAvg via Channel Driven Stochastic Gradient Langevin Dynamics ( http://arxiv.org/abs/2305.04152v2 )

ライセンス: Link先を確認
Boning Zhang, Dongzhu Liu, Osvaldo Simeone, Guangxu Zhu(参考訳) 近年のスケーラブルベイズ推定法の開発は、不確実性定量化によるモデル校正の改善を提供する従来の頻繁学習の代替としてベイズ学習を採用することに再び関心を寄せている。 近年,フェデレート平均ランゲヴィンダイナミクス (FALD) は,ノイズレス通信の存在下で分散ベイズ学習を効率的に実装できるフェデレーション平均化の変種として導入された。 本稿では,モンテカルロ更新において,無線システムにおいてfaldを実現する新しいプロトコルである wireless fald (wfald) を提案する。 無線ベイズ学習の以前の研究とは異なり、WFALDは通信ラウンド間の複数の局所的な更新を可能にし、(\emph{ii})確率勾配をミニバッチで計算する。 wfaldが生成する試料とターゲットのグローバル後方分布との間の2-wasserstein距離を用いて収束解析を行った。 解析と実験により、信号対雑音比が十分に大きい場合には、モンテカルロサンプリングのためにチャネルノイズを完全に再利用することができ、性能の損失を伴わないことが示された。

The recent development of scalable Bayesian inference methods has renewed interest in the adoption of Bayesian learning as an alternative to conventional frequentist learning that offers improved model calibration via uncertainty quantification. Recently, federated averaging Langevin dynamics (FALD) was introduced as a variant of federated averaging that can efficiently implement distributed Bayesian learning in the presence of noiseless communications. In this paper, we propose wireless FALD (WFALD), a novel protocol that realizes FALD in wireless systems by integrating over-the-air computation and channel-driven sampling for Monte Carlo updates. Unlike prior work on wireless Bayesian learning, WFALD enables (\emph{i}) multiple local updates between communication rounds; and (\emph{ii}) stochastic gradients computed by mini-batch. A convergence analysis is presented in terms of the 2-Wasserstein distance between the samples produced by WFALD and the targeted global posterior distribution. Analysis and experiments show that, when the signal-to-noise ratio is sufficiently large, channel noise can be fully repurposed for Monte Carlo sampling, thus entailing no loss in performance.
翻訳日:2023-05-10 15:12:23 公開日:2023-05-09
# 離散拡散モデリングによる効率・遅延ガイドグラフ生成

Efficient and Degree-Guided Graph Generation via Discrete Diffusion Modeling ( http://arxiv.org/abs/2305.04111v2 )

ライセンス: Link先を確認
Xiaohui Chen, Jiaxing He, Xu Han, Li-Ping Liu(参考訳) 拡散に基づく生成グラフモデルは高品質の小さなグラフを生成するのに有効であることが証明されている。 しかし、グラフ統計を希望する数千のノードを含む大規模グラフを生成するには、よりスケーラブルでなければならない。 本研究では,大きなグラフを持つ生成タスクに対処する新しい拡散型生成グラフモデルであるEDGEを提案する。 計算効率を向上させるために,各時間ステップでエッジをランダムに除去し,最後に空グラフを得る離散拡散法を用いて,グラフスパーシティを奨励する。 EDGEはグラフ内のノードの一部のみに焦点を当てている。 従来の拡散ベースのモデルよりもエッジ予測がはるかに少ない。 さらにedgeは、グラフのノード次数を明示的にモデル化し、さらにモデル性能を改善している。 実験的な研究によると、EDGEは競合する手法よりも効率的であり、数千のノードで大きなグラフを生成することができる。 私たちのアプローチによって生成されたグラフは、トレーニンググラフのそれよりも類似したグラフ統計を持っています。

Diffusion-based generative graph models have been proven effective in generating high-quality small graphs. However, they need to be more scalable for generating large graphs containing thousands of nodes desiring graph statistics. In this work, we propose EDGE, a new diffusion-based generative graph model that addresses generative tasks with large graphs. To improve computation efficiency, we encourage graph sparsity by using a discrete diffusion process that randomly removes edges at each time step and finally obtains an empty graph. EDGE only focuses on a portion of nodes in the graph at each denoising step. It makes much fewer edge predictions than previous diffusion-based models. Moreover, EDGE admits explicitly modeling the node degrees of the graphs, further improving the model performance. The empirical study shows that EDGE is much more efficient than competing methods and can generate large graphs with thousands of nodes. It also outperforms baseline models in generation quality: graphs generated by our approach have more similar graph statistics to those of the training graphs.
翻訳日:2023-05-10 15:12:02 公開日:2023-05-09
# 連立イベントの校正評価とボルドネス-校正

Calibration Assessment and Boldness-Recalibration for Binary Events ( http://arxiv.org/abs/2305.03780v2 )

ライセンス: Link先を確認
Adeline P. Guthrie and Christopher T. Franck(参考訳) 確率予測は、医学、経済学、画像分類、スポーツ分析、エンタテインメント、その他多くの分野における意思決定に不可欠である。 理想的には 確率予測は (i)よく校正された。 (ii)正確で (三)大胆、すなわち、イベントのベースレートから遠く離れていること。 これら3つの基準を満たす予測は、意思決定に役立ちます。 しかし、予測が過度に慎重である場合、すなわち非ボルドの場合、キャリブレーションのメトリクスが高いため、キャリブレーションと大胆さの間には基本的な緊張関係がある。 本研究の目的は,キャリブレーションを評価するための仮説テストとベイズモデル選択手法,および,必要なキャリブレーションのレベルに応じた予測を柔軟に実施できる大胆なキャリブレーション戦略を開発することである。 具体的には、ユーザが所望のキャリブレーションの後方確率を事前に指定し、この制約に従う予測を最大に具現化する。 シミュレーションにより本手法の性能を検証し,上で述べた各分野における実世界のケーススタディに適用することにより,適用範囲の広さを実証する。 キャリブレーション確率の非常に小さな緩和(例:0.99から0.95まで)は、しばしば実質的な予測(例:ホッケーの予測の範囲を.25-.75から.10-.90まで広げる)を具体化する。

Probability predictions are essential to inform decision making in medicine, economics, image classification, sports analytics, entertainment, and many other fields. Ideally, probability predictions are (i) well calibrated, (ii) accurate, and (iii) bold, i.e., far from the base rate of the event. Predictions that satisfy these three criteria are informative for decision making. However, there is a fundamental tension between calibration and boldness, since calibration metrics can be high when predictions are overly cautious, i.e., non-bold. The purpose of this work is to develop a hypothesis test and Bayesian model selection approach to assess calibration, and a strategy for boldness-recalibration that enables practitioners to responsibly embolden predictions subject to their required level of calibration. Specifically, we allow the user to pre-specify their desired posterior probability of calibration, then maximally embolden predictions subject to this constraint. We verify the performance of our procedures via simulation, then demonstrate the breadth of applicability by applying these methods to real world case studies in each of the fields mentioned above. We find that very slight relaxation of calibration probability (e.g., from 0.99 to 0.95) can often substantially embolden predictions (e.g., widening Hockey predictions' range from .25-.75 to .10-.90)
翻訳日:2023-05-10 15:11:46 公開日:2023-05-09
# DAMO-NLP at SemEval-2023 Task 2: Unified Retrieval-augmented System for Multilingual Named Entity Recognition

DAMO-NLP at SemEval-2023 Task 2: A Unified Retrieval-augmented System for Multilingual Named Entity Recognition ( http://arxiv.org/abs/2305.03688v2 )

ライセンス: Link先を確認
Zeqi Tan, Shen Huang, Zixia Jia, Jiong Cai, Yinghui Li, Weiming Lu, Yueting Zhuang, Kewei Tu, Pengjun Xie, Fei Huang and Yong Jiang(参考訳) MultiCoNER \RNum{2}共有タスクは、細粒度でノイズの多いシナリオで多言語名付きエンティティ認識(NER)に取り組むことを目的としており、MultiCoNER \RNum{1}タスクの意味的曖昧さと低コンテキスト設定を継承する。 これらの問題に対処するため、MultiCoNER \RNum{1} の以前のトップシステムは知識ベースまたはガゼッタを組み込んでいる。 しかし、彼らはまだ知識不足、コンテキストの長さの制限、単一検索戦略に苦しんでいる。 本稿では,超細粒度多言語nerのための統一検索型システム (u-raner) を提案する。 我々は,先行する上位システムでエラー解析を行い,その性能ボトルネックが不十分な知識にあることを明らかにした。 また,文脈長の制限により,検索知識がモデルに見えなくなることが判明した。 検索コンテキストの強化を目的として,エンティティ中心のwikidata知識ベースを取り入れ,モデルのコンテキスト範囲を広げるインフュージョンアプローチを採用している。 また,様々な検索戦略を探求し,検索知識の質を向上する。 当社のsystem\footnote{We will release the dataset, code, and script of our system at {\small \url{https://github.com/modelscope/AdaSeq/tree/master/examples/U-RaNER}}。 MultiCoNER \RNum{2}共有タスクでは、13トラック中9トラックが勝利する。 さらに,多くのタスクにおいて強力な機能を持つ大規模言語モデルの1つであるChatGPTと比較した。 その結果,ChatGPTの抽出作業にはまだ多くの改善の余地があることが示唆された。

The MultiCoNER \RNum{2} shared task aims to tackle multilingual named entity recognition (NER) in fine-grained and noisy scenarios, and it inherits the semantic ambiguity and low-context setting of the MultiCoNER \RNum{1} task. To cope with these problems, the previous top systems in the MultiCoNER \RNum{1} either incorporate the knowledge bases or gazetteers. However, they still suffer from insufficient knowledge, limited context length, single retrieval strategy. In this paper, our team \textbf{DAMO-NLP} proposes a unified retrieval-augmented system (U-RaNER) for fine-grained multilingual NER. We perform error analysis on the previous top systems and reveal that their performance bottleneck lies in insufficient knowledge. Also, we discover that the limited context length causes the retrieval knowledge to be invisible to the model. To enhance the retrieval context, we incorporate the entity-centric Wikidata knowledge base, while utilizing the infusion approach to broaden the contextual scope of the model. Also, we explore various search strategies and refine the quality of retrieval knowledge. Our system\footnote{We will release the dataset, code, and scripts of our system at {\small \url{https://github.com/modelscope/AdaSeq/tree/master/examples/U-RaNER}}.} wins 9 out of 13 tracks in the MultiCoNER \RNum{2} shared task. Additionally, we compared our system with ChatGPT, one of the large language models which have unlocked strong capabilities on many tasks. The results show that there is still much room for improvement for ChatGPT on the extraction task.
翻訳日:2023-05-10 15:11:21 公開日:2023-05-09
# 部分最小方形を用いた神経進化のための高次元サロゲートモデリングへの初期ステップ

Initial Steps Towards Tackling High-dimensional Surrogate Modeling for Neuroevolution Using Kriging Partial Least Squares ( http://arxiv.org/abs/2305.03612v2 )

ライセンス: Link先を確認
Fergal Stapleton and Edgar Galv\'an(参考訳) サロゲート支援進化アルゴリズム(SAEA)は、進化計算システムにおける適合関数の近似を目的とし、効率的な計算モデルを使用することを目的としている。 この研究領域は20年以上にわたって活発に行われており、例えば、単一目的最適化や動的かつ定常的な最適化問題など、様々な分野の専門研究コミュニティから大きな注目を集めている。 SAEAsコミュニティからほとんど注目を集めていない、創発的でエキサイティングな領域は、神経進化にある。 これは、人工知能(ANN)アーキテクチャの自動構成、ハイパーパラメータ、および/またはANNのトレーニングにおける進化的アルゴリズムの使用を指す。 しかし、ANNは2つの大きな問題に悩まされている。 (a)高度な計算能力の正しい訓練への利用、及び b) 優れたネットワークを得るために必要なANNを正しく設定するために必要な高度に専門化された人的専門知識。 この研究は、これらの2つの問題に対処することによって、神経進化におけるSAEAのこの重要な研究ギャップを埋めることを目的としている。 そこで本研究では,よく知られたkriging法と比較して,よく知られた近似サーロゲートモデルの効率的な計算を可能にするkriging部分最小二乗法について述べる。

Surrogate-assisted evolutionary algorithms (SAEAs) aim to use efficient computational models with the goal of approximating the fitness function in evolutionary computation systems. This area of research has been active for over two decades and has received significant attention from the specialised research community in different areas, for example, single and many objective optimisation or dynamic and stationary optimisation problems. An emergent and exciting area that has received little attention from the SAEAs community is in neuroevolution. This refers to the use of evolutionary algorithms in the automatic configuration of artificial neural network (ANN) architectures, hyper-parameters and/or the training of ANNs. However, ANNs suffer from two major issues: (a) the use of highly-intense computational power for their correct training, and (b) the highly specialised human expertise required to correctly configure ANNs necessary to get a well-performing network. This work aims to fill this important research gap in SAEAs in neuroevolution by addressing these two issues. We demonstrate how one can use a Kriging Partial Least Squares method that allows efficient computation of good approximate surrogate models compared to the well-known Kriging method, which normally cannot be used in neuroevolution due to the high dimensionality of the data.
翻訳日:2023-05-10 15:10:47 公開日:2023-05-09
# T-SciQ:科学質問応答のための大規模言語モデル信号によるマルチモーダル連鎖推論の指導

T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering ( http://arxiv.org/abs/2305.03453v2 )

ライセンス: Link先を確認
Lei Wang, Yi Hu, Jiabang He, Xing Xu, Ning Liu, Hui Liu, Heng Tao Shen(参考訳) 大規模言語モデル(LLM)は、最近、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。 彼らはまた、複雑な問題を解決するためにチェーン・オブ・ソート(CoT)推論を行う能力を示した。 最近の研究は、高品質な人間注釈付きCoT論理を用いた微調整マルチモーダルモデルにより、科学質問応答タスクのような複雑なマルチモーダルシナリオにおけるCoT推論を探索している。 しかし、高品質なCOT論理の収集は通常、時間と費用がかかる。 さらに、注釈付き論理は、重複情報や欠落する必須情報のために、ほとんど正確ではない。 そこで本研究では,llm信号を用いた科学的な質問応答の指導を目的とした新しい手法である \emph{t-sciq} を提案する。 T-SciQアプローチは、教示信号として高品質なCoT論理を生成し、より小さなモデルを訓練して複雑なモダリティでCoT推論を行うよう進歩している。 さらに,単純で複雑な質問応答問題に対して,より効果的なデータサンプルを作成するための新しいデータ混合戦略を提案する。 その結果,ScienceQAベンチマークにおけるT-SciQ法は96.18%の精度で新しい最先端性能を実現した。 さらに,本手法は最強の微調整ベースラインを4.5%向上させる。

Large Language Models (LLMs) have recently demonstrated exceptional performance in various Natural Language Processing (NLP) tasks. They have also shown the ability to perform chain-of-thought (CoT) reasoning to solve complex problems. Recent studies have explored CoT reasoning in complex multimodal scenarios, such as the science question answering task, by fine-tuning multimodal models with high-quality human-annotated CoT rationales. However, collecting high-quality COT rationales is usually time-consuming and costly. Besides, the annotated rationales are hardly accurate due to the redundant information involved or the essential information missed. To address these issues, we propose a novel method termed \emph{T-SciQ} that aims at teaching science question answering with LLM signals. The T-SciQ approach generates high-quality CoT rationales as teaching signals and is advanced to train much smaller models to perform CoT reasoning in complex modalities. Additionally, we introduce a novel data mixing strategy to produce more effective teaching data samples for simple and complex science question answer problems. Extensive experimental results show that our T-SciQ method achieves a new state-of-the-art performance on the ScienceQA benchmark, with an accuracy of 96.18%. Moreover, our approach outperforms the most powerful fine-tuned baseline by 4.5%.
翻訳日:2023-05-10 15:10:07 公開日:2023-05-09
# 非局所性は?

Whence Nonlocality? ( http://arxiv.org/abs/2305.03335v2 )

ライセンス: Link先を確認
Aur\'elien Drezet(参考訳) 本章ではアインシュタイン・ポドルスキー・ローゼンの定理とそのベルの定理との強い関係について論じる。 我々は「局所現実主義」に関する曖昧さを明確にし、現実主義も決定論も反事実的定性もこれらの定理の前提条件ではないことを強調する。

In this chapter we discuss the Einstein Podolsky Rosen theorem and its strong relation with Bell's theorem. We clarify some ambiguities concerning `local-realism' and emphasize that neither realism nor determinism nor counterfactual definiteness are prerequisites of these theorems.
翻訳日:2023-05-10 15:09:44 公開日:2023-05-09
# 室内のエレファント:自然言語処理研究におけるビッグデータの存在分析

The Elephant in the Room: Analyzing the Presence of Big Tech in Natural Language Processing Research ( http://arxiv.org/abs/2305.02797v2 )

ライセンス: Link先を確認
Mohamed Abdalla and Jan Philip Wahle and Terry Ruas and Aur\'elie N\'ev\'eol and Fanny Ducel and Saif M. Mohammad and Kar\"en Fort(参考訳) 自然言語処理(NLP)の深層学習手法の最近の進歩は、新たなビジネス機会を生み出し、NLP研究を産業発展に欠かせないものにしている。 NLPの分野では、政府や大学とともに大きなプレーヤーの1つとして、産業が研究に与える影響を追跡することが重要である。 本研究では,NLPコミュニティにおける産業の存在を時間とともに定量化し,特徴付けることを目的とする。 78,187冊のNLP出版物と701冊のNLP出版物の包括的なメタデータを持つコーパスを用いて,90年代初め以降の分野における業界の存在を探求する。 NLP作家の業界の存在は、過去5年間で急激な増加(2017年から2022年までの180%)を前に着実に推移している。 いくつかの企業は出版物の大半を占め、助成金やインターンシップを通じて学術研究者に資金を提供している。 本研究は,自然言語処理研究における産業の存在と影響が重要かつ急速に成長していることを示している。 この研究は、この分野における産業の影響の透明性を高めることを求めている。

Recent advances in deep learning methods for natural language processing (NLP) have created new business opportunities and made NLP research critical for industry development. As one of the big players in the field of NLP, together with governments and universities, it is important to track the influence of industry on research. In this study, we seek to quantify and characterize industry presence in the NLP community over time. Using a corpus with comprehensive metadata of 78,187 NLP publications and 701 resumes of NLP publication authors, we explore the industry presence in the field since the early 90s. We find that industry presence among NLP authors has been steady before a steep increase over the past five years (180% growth from 2017 to 2022). A few companies account for most of the publications and provide funding to academic researchers through grants and internships. Our study shows that the presence and impact of the industry on natural language processing research are significant and fast-growing. This work calls for increased transparency of industry influence in the field.
翻訳日:2023-05-10 15:09:39 公開日:2023-05-09
# マルチモーダルGPT:人との対話のためのビジョンと言語モデル

MultiModal-GPT: A Vision and Language Model for Dialogue with Humans ( http://arxiv.org/abs/2305.04790v2 )

ライセンス: Link先を確認
Tao Gong, Chengqi Lyu, Shilong Zhang, Yudong Wang, Miao Zheng, Qian Zhao, Kuikun Liu, Wenwei Zhang, Ping Luo, Kai Chen(参考訳) 本稿では,マルチモーダルgptというビジョンと言語モデルを提案する。 マルチモーダルGPTは、詳細なキャプションの作成、興味のあるオブジェクトの数を数え、ユーザからの一般的な質問に答えるなど、人間からのさまざまな指示に従うことができる。 MultiModal-GPTはOpenFlamingoからパラメータ効率よく微調整され、言語モデルのクロスアテンション部分と自己アテンション部分にローランクアダプタ(LoRA)が追加された。 まず,マルチモダリティ・インストラクション・チューニングのための視覚と言語データを用いたインストラクションテンプレートを構築し,モデルが人間の指示を理解し従わせるようにした。 学習データの品質は対話のパフォーマンスに不可欠であり、短い回答を含むデータが少ないと、モデルがどんな指示にもすぐに反応する可能性がある。 マルチモーダルGPTの人間とチャットする能力をさらに強化するために,言語のみの指示追従データを用いて,マルチモーダルGPTを共同で訓練する。 emph{same} 命令テンプレートによる言語のみおよび視覚言語命令の併用訓練は,対話性能を効果的に向上させる。 様々なデモでは、マルチモーダルGPTと人間との連続的な対話能力を示している。 コード、データセット、デモはhttps://github.com/open-mmlab/multimodal-gpt

We present a vision and language model named MultiModal-GPT to conduct multi-round dialogue with humans. MultiModal-GPT can follow various instructions from humans, such as generating a detailed caption, counting the number of interested objects, and answering general questions from users. MultiModal-GPT is parameter-efficiently fine-tuned from OpenFlamingo, with Low-rank Adapter (LoRA) added both in the cross-attention part and the self-attention part of the language model. We first construct instruction templates with vision and language data for multi-modality instruction tuning to make the model understand and follow human instructions. We find the quality of training data is vital for the dialogue performance, where few data containing short answers can lead the model to respond shortly to any instructions. To further enhance the ability to chat with humans of the MultiModal-GPT, we utilize language-only instruction-following data to train the MultiModal-GPT jointly. The joint training of language-only and visual-language instructions with the \emph{same} instruction template effectively improves dialogue performance. Various demos show the ability of continuous dialogue of MultiModal-GPT with humans. Code, dataset, and demo are at https://github.com/open-mmlab/Multimodal-GPT
翻訳日:2023-05-10 15:02:22 公開日:2023-05-09
# 長距離双極子-双極子相互作用によるシステム次元の低減

Reducing system dimensionality with long-range collective dipole-dipole interactions ( http://arxiv.org/abs/2305.04777v2 )

ライセンス: Link先を確認
Ashwin K. Boddeti, Yi Wang, Xitlali G. Juarez, Alexandra Boltasseva, Teri W. Odom, Vladimir Shalaev, Hadiseh Alaeian, and Zubin Jacob(参考訳) 次元は長距離双極子-双極子相互作用(ddis)において重要な役割を果たす。 共振ナノフォトニック構造は、人口減衰ダイナミクスによって明らかになった相互作用するエミッタのアンサンブルの見かけの次元を変化させる。 長い距離のDDIを持つ共鳴ナノフォトニック構造における相互作用する量子エミッタの密接なアンサンブルの測定では、エミッタが3Dで分散されているにもかかわらず、有効次元が$\bar{d} = 2.20 (12)$に減少することを示した。 これは、見かけの次元が$\bar{d} = 3.00$である同次環境とは対照的である。 我々の研究は、相互作用するエミッタのアンサンブルで次元を操作するための有望な道を示す。

Dimensionality plays a crucial role in long-range dipole-dipole interactions (DDIs). We demonstrate that a resonant nanophotonic structure modifies the apparent dimensionality in an interacting ensemble of emitters, as revealed by population decay dynamics. Our measurements on a dense ensemble of interacting quantum emitters in a resonant nanophotonic structure with long-range DDIs reveal an effective dimensionality reduction to $\bar{d} = 2.20 (12)$, despite the emitters being distributed in 3D. This contrasts the homogeneous environment, where the apparent dimension is $\bar{d} = 3.00$. Our work presents a promising avenue to manipulate dimensionality in an ensemble of interacting emitters.
翻訳日:2023-05-10 15:01:58 公開日:2023-05-09
# PreCog: トレーニング済み言語モデルにおける記憶とパフォーマンスの関係を探る

PreCog: Exploring the Relation between Memorization and Performance in Pre-trained Language Models ( http://arxiv.org/abs/2305.04673v2 )

ライセンス: Link先を確認
Leonardo Ranaldi, Elena Sofia Ruzzetti and Fabio Massimo Zanzotto(参考訳) BERTのような事前訓練された言語モデルは、おそらく一般的な学習例を記憶する能力を持つ印象的なマシンである。 ここでは,下流タスクにおけるbertの記憶と性能の相互作用の分析に少なからず焦点を絞った貢献を述べる。 事前学習から記憶を評価するための指標であるPreCogを提案し,その相関関係をBERTの性能と解析する。 実験の結果,高度に記憶された例はより分類されやすく,記憶がBERTの成功の鍵となることが示唆された。

Pre-trained Language Models such as BERT are impressive machines with the ability to memorize, possibly generalized learning examples. We present here a small, focused contribution to the analysis of the interplay between memorization and performance of BERT in downstream tasks. We propose PreCog, a measure for evaluating memorization from pre-training, and we analyze its correlation with the BERT's performance. Our experiments show that highly memorized examples are better classified, suggesting memorization is an essential key to success for BERT.
翻訳日:2023-05-10 15:01:43 公開日:2023-05-09
# 逐次推薦のためのグラフマスク自動エンコーダ

Graph Masked Autoencoder for Sequential Recommendation ( http://arxiv.org/abs/2305.04619v2 )

ライセンス: Link先を確認
Yaowen Ye, Lianghao Xia, Chao Huang(参考訳) 一部の強力なニューラルネットワークアーキテクチャ(Transformer、Graph Neural Networksなど)は、高次アイテム依存モデリングによる逐次レコメンデーションのパフォーマンス向上を実現しているが、ラベル不足のシナリオでは表現能力の低下に悩まされる可能性がある。 ラベル不足の問題に対処するため、コントラスト学習(cl)は、自己スーパービジョンのためのコントラストを埋め込むことによってデータ拡張を行う最近の手法で多くの注目を集めている。 しかし、その対比的視点生成戦略の手作り性から、既存のclエンハンスドモデル 一 多様なレコメンデーション業務において一貫した性能を得られないこと。 ii) ユーザの行動データノイズに免疫しない場合がある。 そこで本研究では,自己教師付き増補のためのグローバルアイテム遷移情報を適応的かつ動的に蒸留する,単純かつ効果的なグラフマスク付き自動エンコーダエンハンスドシーケンシャルリコメンダシステム(maerec)を提案する。 上述した、高品質な埋め込み型コントラストビューの構築に大きく依存する問題を自然に避けている。 代わりに、アダプティブデータ再構成パラダイムは、シーケンシャルレコメンデーションにおける情報拡張のために、長距離アイテム依存モデリングと統合するように設計されている。 大規模な実験により,本手法は最先端のベースラインモデルを大幅に上回り,データノイズや疎性に対するより正確な表現を学習できることが示されている。 実装済みのモデルコードはhttps://github.com/hkuds/maerec.comで利用可能です。

While some powerful neural network architectures (e.g., Transformer, Graph Neural Networks) have achieved improved performance in sequential recommendation with high-order item dependency modeling, they may suffer from poor representation capability in label scarcity scenarios. To address the issue of insufficient labels, Contrastive Learning (CL) has attracted much attention in recent methods to perform data augmentation through embedding contrasting for self-supervision. However, due to the hand-crafted property of their contrastive view generation strategies, existing CL-enhanced models i) can hardly yield consistent performance on diverse sequential recommendation tasks; ii) may not be immune to user behavior data noise. In light of this, we propose a simple yet effective Graph Masked AutoEncoder-enhanced sequential Recommender system (MAERec) that adaptively and dynamically distills global item transitional information for self-supervised augmentation. It naturally avoids the above issue of heavy reliance on constructing high-quality embedding contrastive views. Instead, an adaptive data reconstruction paradigm is designed to be integrated with the long-range item dependency modeling, for informative augmentation in sequential recommendation. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art baseline models and can learn more accurate representations against data noise and sparsity. Our implemented model code is available at https://github.com/HKUDS/MAERec.
翻訳日:2023-05-10 15:01:35 公開日:2023-05-09
# Deep LearningとDigital Twinsの活用による建物のエネルギー性能向上

Leveraging Deep Learning and Digital Twins to Improve Energy Performance of Buildings ( http://arxiv.org/abs/2305.04498v2 )

ライセンス: Link先を確認
Zhongjun Ni (1), Chi Zhang (2), Magnus Karlsson (1), Shaofang Gong (1) ((1) Department of Science and Technology, Link\"oping University, Campus Norrk\"oping, Norrk\"oping, Sweden. (2) Department of Computer Science and Engineering, University of Gothenburg, Gothenburg, Sweden.)(参考訳) 建物のデジタルトランスフォーメーションは大量の運用データを蓄積し、エネルギーパフォーマンスを改善するためにこれらのデータを活用するためのスマートなソリューションを求める。 本研究では,深層学習とデジタル双生児の統合によるエネルギー利用の理解を深め,エネルギー効率向上の可能性を明らかにするためのソリューションである深層エネルギー双生児(deep energy twin)を提案する。 オントロジーは、建物内の異なるシステム間でデータフォーマットの一貫性を提供するパラメトリックデジタルツインを作成するために採用された。 生成したデジタルツインと収集データに基づいて、パターンを特定し、エネルギー最適化のための洞察を提供するデータ分析を行うディープラーニング手法が使用された。 実演として,建築エネルギー予測における最先端のディープラーニングアーキテクチャの性能を比較するため,スウェーデンのノルク=オピングにある公共歴史建造物で事例研究を行った。

Digital transformation in buildings accumulates massive operational data, which calls for smart solutions to utilize these data to improve energy performance. This study has proposed a solution, namely Deep Energy Twin, for integrating deep learning and digital twins to better understand building energy use and identify the potential for improving energy efficiency. Ontology was adopted to create parametric digital twins to provide consistency of data format across different systems in a building. Based on created digital twins and collected data, deep learning methods were used for performing data analytics to identify patterns and provide insights for energy optimization. As a demonstration, a case study was conducted in a public historic building in Norrk\"oping, Sweden, to compare the performance of state-of-the-art deep learning architectures in building energy forecasting.
翻訳日:2023-05-10 15:01:10 公開日:2023-05-09
# AlignSTS: クロスモーダルアライメントによる音声対歌変換

AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment ( http://arxiv.org/abs/2305.04476v2 )

ライセンス: Link先を確認
Ruiqi Li, Rongjie Huang, Lichao Zhang, Jinglin Liu, Zhou Zhao(参考訳) 音声認識(sts)音声変換タスクは、音声録音に対応する歌唱サンプルを生成することを目的としており、ターゲット(音声)ピッチ輪郭とソース(音声)コンテンツとのアライメントは、テキストのない状況では学習が困難である。 本稿では,音節や内容などの発話の相違を異なるモーダル性として捉えた,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。 人間がメロディの歌詞を歌うメカニズムに触発されたAlignSTS: 1)新規なリズム適応器を採用して、目標リズム表現を予測し、そのリズム表現が単純で効果的な方法で計算され、離散空間に量子化される、内容とピッチの間のモダリティギャップを橋渡しする。 2) 予測リズム表現を用いて, クロスアテンションに基づいてコンテンツを再調整し, 再合成のためのクロスモーダル融合を行う。 大規模な実験では、AlignSTSは客観的な指標と主観的な指標の両方で優れたパフォーマンスを達成している。 オーディオサンプルはhttps://alignsts.github.ioで入手できる。

The speech-to-singing (STS) voice conversion task aims to generate singing samples corresponding to speech recordings while facing a major challenge: the alignment between the target (singing) pitch contour and the source (speech) content is difficult to learn in a text-free situation. This paper proposes AlignSTS, an STS model based on explicit cross-modal alignment, which views speech variance such as pitch and content as different modalities. Inspired by the mechanism of how humans will sing the lyrics to the melody, AlignSTS: 1) adopts a novel rhythm adaptor to predict the target rhythm representation to bridge the modality gap between content and pitch, where the rhythm representation is computed in a simple yet effective way and is quantized into a discrete space; and 2) uses the predicted rhythm representation to re-align the content based on cross-attention and conducts a cross-modal fusion for re-synthesize. Extensive experiments show that AlignSTS achieves superior performance in terms of both objective and subjective metrics. Audio samples are available at https://alignsts.github.io.
翻訳日:2023-05-10 15:00:55 公開日:2023-05-09
# クロスモーダル類似性制御を用いたコントラスト学習による視覚ランガウジ事前学習

Vision Langauge Pre-training by Contrastive Learning with Cross-Modal Similarity Regulation ( http://arxiv.org/abs/2305.04474v2 )

ライセンス: Link先を確認
Chaoya Jiang, Wei Ye, Haiyang Xu, Miang yan, Shikun Zhang, Jie Zhang, Fei Huang(参考訳) vision language pretraining(vlp)におけるクロスモーダルコントラスト学習は、(部分的な)偽陰性の問題に直面している。 本稿では,相互情報(MI)最適化の観点からこの問題を考察する。 対照的な学習で使用されるInfoNCE損失は、アンカーと正のMIの低い境界を最大化するが、理論上は、ノイズが一般的に存在する場合にも、負のMIが重要であることを証明している。 最適化のためのより一般的な下界形式によって導かれ、段階的に改良されたクロスモーダルな類似性によって制御される対照的な学習戦略を提案し、画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。 提案手法は,下流の4つのクロスモーダルタスクと,(部分的な)偽陰性サンプルの有益かつ有害な効果を,理論的指導下で体系的にバランスをとる。

Cross-modal contrastive learning in vision language pretraining (VLP) faces the challenge of (partial) false negatives. In this paper, we study this problem from the perspective of Mutual Information (MI) optimization. It is common sense that InfoNCE loss used in contrastive learning will maximize the lower bound of MI between anchors and their positives, while we theoretically prove that MI involving negatives also matters when noises commonly exist. Guided by a more general lower bound form for optimization, we propose a contrastive learning strategy regulated by progressively refined cross-modal similarity, to more accurately optimize MI between an image/text anchor and its negative texts/images instead of improperly minimizing it. Our method performs competitively on four downstream cross-modal tasks and systematically balances the beneficial and harmful effects of (partial) false negative samples under theoretical guidance.
翻訳日:2023-05-10 15:00:34 公開日:2023-05-09
# 制御可能な3次元形状生成のための局所的注意SDF拡散

Locally Attentional SDF Diffusion for Controllable 3D Shape Generation ( http://arxiv.org/abs/2305.04461v2 )

ライセンス: Link先を確認
Xin-Yang Zheng, Hao Pan, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum(参考訳) 最近の3次元生成ニューラルネットワークの急速な進化は3次元形状の生成を大幅に改善するが、通常のユーザが3次元形状を作成し、生成した形状の局所的な形状を制御するのに便利ではない。 これらの課題に対処するため,我々は2次元スケッチ画像入力を用いて3次元形状をモデル化する拡散型SDF拡散フレームワークを提案する。 本手法は二段階拡散モデルに基づいている。 第1段階は占有拡散と呼ばれ、形状を近似するために低分解能占有場を生成することを目的としている。 SDF拡散と呼ばれる第2段階は、第1段階によって決定された占有ボクセル内の高分解能符号距離場を合成し、微細な幾何を抽出する。 このモデルには,3次元ボクセル特徴学習のガイドとして2次元画像パッチ機能を活用し,局所制御性とモデル一般化性を大幅に向上させる,画像条件付き形状生成のための新しいビューアウェアローカルアテンション機構が組み込まれている。 スケッチコンディショニングおよびカテゴリコンディショニングによる3次元形状生成タスクの広範な実験を通じて,本手法が有望かつ多様な3次元形状を提供するとともに,既存の作業よりも制御性と一般化性に優れることを示す。 私たちのコードとトレーニングされたモデルはhttps://zhengxinyang.github.io/projects/las-diffusion.htmlで利用可能です。

Although the recent rapid evolution of 3D generative neural networks greatly improves 3D shape generation, it is still not convenient for ordinary users to create 3D shapes and control the local geometry of generated shapes. To address these challenges, we propose a diffusion-based 3D generation framework -- locally attentional SDF diffusion, to model plausible 3D shapes, via 2D sketch image input. Our method is built on a two-stage diffusion model. The first stage, named occupancy-diffusion, aims to generate a low-resolution occupancy field to approximate the shape shell. The second stage, named SDF-diffusion, synthesizes a high-resolution signed distance field within the occupied voxels determined by the first stage to extract fine geometry. Our model is empowered by a novel view-aware local attention mechanism for image-conditioned shape generation, which takes advantage of 2D image patch features to guide 3D voxel feature learning, greatly improving local controllability and model generalizability. Through extensive experiments in sketch-conditioned and category-conditioned 3D shape generation tasks, we validate and demonstrate the ability of our method to provide plausible and diverse 3D shapes, as well as its superior controllability and generalizability over existing work. Our code and trained models are available at https://zhengxinyang.github.io/projects/LAS-Diffusion.html
翻訳日:2023-05-10 15:00:16 公開日:2023-05-09
# 不均衡ラベルサンプル分布を用いたファッション検出のためのデータ効率向上

Data Efficient Training with Imbalanced Label Sample Distribution for Fashion Detection ( http://arxiv.org/abs/2305.04379v2 )

ライセンス: Link先を確認
Xin Shen, Praful Agrawal, Zhongwei Cheng(参考訳) マルチラベル分類モデルは、視覚に基づくラベル予測や言語に基づく感情分類など、Eコマースに幅広い応用がある。 実世界でこれらのタスクの満足なパフォーマンスを達成する上での大きな課題は、データ分散の顕著な不均衡である。 例えば、ファッション属性検出では、ほとんどのeコマースファッションカタログにおいて、1000製品中「パフスリーブ」の服は6つしかない。 この問題に対処するために、大量のアノテーションを取得して十分なサンプルを集めるのではなく、よりデータ効率のよいモデルトレーニング手法を検討する。 本稿では,長いデータ分布を持つ多ラベル分類のためのディープニューラルネットワーク(DNN)の性能向上を目的とした,最先端の重み付き目的関数を提案する。 本実験では,ファッションアパレルの画像に基づく属性分類を行い,非重み付けおよび逆周波数重み付け機構と比較して,新しい重み付け法に好適な性能を示す。 ファッション業界で人気のファッション属性タイプであるスリーブタイプとアーチタイプを用いた新しい重み付け機構の堅牢性をさらに評価した。

Multi-label classification models have a wide range of applications in E-commerce, including visual-based label predictions and language-based sentiment classifications. A major challenge in achieving satisfactory performance for these tasks in the real world is the notable imbalance in data distribution. For instance, in fashion attribute detection, there may be only six 'puff sleeve' clothes among 1000 products in most E-commerce fashion catalogs. To address this issue, we explore more data-efficient model training techniques rather than acquiring a huge amount of annotations to collect sufficient samples, which is neither economic nor scalable. In this paper, we propose a state-of-the-art weighted objective function to boost the performance of deep neural networks (DNNs) for multi-label classification with long-tailed data distribution. Our experiments involve image-based attribute classification of fashion apparels, and the results demonstrate favorable performance for the new weighting method compared to non-weighted and inverse-frequency-based weighting mechanisms. We further evaluate the robustness of the new weighting mechanism using two popular fashion attribute types in today's fashion industry: sleevetype and archetype.
翻訳日:2023-05-10 14:59:52 公開日:2023-05-09
# RATs-NAS: ニューラルネットワーク探索のためのGCN上の隣接トレイルのリダイレクト

RATs-NAS: Redirection of Adjacent Trails on GCN for Neural Architecture Search ( http://arxiv.org/abs/2305.04206v2 )

ライセンス: Link先を確認
Yu-Ming Zhang, Jun-Wei Hsieh, Chun-Chieh Lee, Kuo-Chin Fan(参考訳) VGG、ResNet、DenseNetなどのハンドデザインのCNNアーキテクチャが開発され、様々なタスクでState-of-the-Art(SoTA)レベルを達成する。 Neural Architecture Search (NAS)は、上記のタスクを処理するのに最適なCNNアーキテクチャを自動的に見つけることに焦点を当てている。 しかし、探索されたアーキテクチャの検証は非常に時間がかかり、予測子に基づく手法がNASの重要な分岐となる。 予測器を構築する2つの一般的なテクニックは、グラフ畳み込みネットワーク(GCN)と多層パーセプトロン(MLP)である。 本稿では,隣接する運転経路におけるGCNとMPPの違いを考察し,次に,所望のニューラルネットワークアーキテクチャを迅速に探索するRedirected Adjacent Trails NAS(RATs-NAS)を提案する。 RATs-NAS は Redirected Adjacent Trails GCN (RATs-GCN) と Predictor-based Search Space Sampling (P3S) モジュールの2つのコンポーネントから構成されている。 RATs-GCNは、より良いニューラルネットワークアーキテクチャを探すためのトレイルとその強みを変更することができる。 p3は検索空間でフラップの間隔を短くすることに集中することができる。 細胞性NASの観察から、同様のFLOPを持つアーキテクチャも同様に機能すると信じている。 最後に、RATs-GCNとP3Sで構成されるRATs-NASは、NASBench-201の3つのサブデータセットに対して、WeakNAS、Arch-Graph、その他を大きく差している。

Various hand-designed CNN architectures have been developed, such as VGG, ResNet, DenseNet, etc., and achieve State-of-the-Art (SoTA) levels on different tasks. Neural Architecture Search (NAS) now focuses on automatically finding the best CNN architecture to handle the above tasks. However, the verification of a searched architecture is very time-consuming and makes predictor-based methods become an essential and important branch of NAS. Two commonly used techniques to build predictors are graph-convolution networks (GCN) and multilayer perceptron (MLP). In this paper, we consider the difference between GCN and MLP on adjacent operation trails and then propose the Redirected Adjacent Trails NAS (RATs-NAS) to quickly search for the desired neural network architecture. The RATs-NAS consists of two components: the Redirected Adjacent Trails GCN (RATs-GCN) and the Predictor-based Search Space Sampling (P3S) module. RATs-GCN can change trails and their strengths to search for a better neural network architecture. P3S can rapidly focus on tighter intervals of FLOPs in the search space. Based on our observations on cell-based NAS, we believe that architectures with similar FLOPs will perform similarly. Finally, the RATs-NAS consisting of RATs-GCN and P3S beats WeakNAS, Arch-Graph, and others by a significant margin on three sub-datasets of NASBench-201.
翻訳日:2023-05-10 14:59:33 公開日:2023-05-09
# ガウス過程のデコンボリューション

Gaussian process deconvolution ( http://arxiv.org/abs/2305.04871v2 )

ライセンス: Link先を確認
Felipe Tobar, Arnaud Robert, Jorge F. Silva(参考訳) y = x\star h + \eta$, ここで$\eta$ は加算ノイズであり、$\mathbf{y}$ の観測は$y$ に関して欠落部分があり、フィルタ $h$ は未知であるかもしれない。 我々は、x$が連続時間信号であるときに、この課題に対処するための新しい戦略を提案する: ソース$x$に先立ってガウス過程(GP)を採用し、閉形式ベイズ非パラメトリックデコンボリューションを可能にする。 まず、モデルが適切に定義された条件を確立するために、直接モデルを解析する。 そして、私たちが研究する逆問題に目を向けます。 一 ベイジアンデコンボリューションが実現可能ないくつかの必要条件 ii) データからフィルタ$h$を学習するか,あるいはブラインドデコンボリューション事件について近似するか。 提案手法であるガウス過程デコンボリューション(gpdc)は、概念的に他のデコンボリューション手法と比較され、例示的例や実世界のデータセットを用いている。

Let us consider the deconvolution problem, that is, to recover a latent source $x(\cdot)$ from the observations $\mathbf{y} = [y_1,\ldots,y_N]$ of a convolution process $y = x\star h + \eta$, where $\eta$ is an additive noise, the observations in $\mathbf{y}$ might have missing parts with respect to $y$, and the filter $h$ could be unknown. We propose a novel strategy to address this task when $x$ is a continuous-time signal: we adopt a Gaussian process (GP) prior on the source $x$, which allows for closed-form Bayesian nonparametric deconvolution. We first analyse the direct model to establish the conditions under which the model is well defined. Then, we turn to the inverse problem, where we study i) some necessary conditions under which Bayesian deconvolution is feasible, and ii) to which extent the filter $h$ can be learnt from data or approximated for the blind deconvolution case. The proposed approach, termed Gaussian process deconvolution (GPDC) is compared to other deconvolution methods conceptually, via illustrative examples, and using real-world datasets.
翻訳日:2023-05-10 14:50:32 公開日:2023-05-09
# データカーネルを用いた基礎モデルの比較

Comparing Foundation Models using Data Kernels ( http://arxiv.org/abs/2305.05126v1 )

ライセンス: Link先を確認
Brandon Duderstadt and Hayden S. Helm and Carey E. Priebe(参考訳) 自己教師型学習とニューラルネットワークのスケーリングの最近の進歩により、幅広い下流タスクに容易に適応可能な、ファンデーションモデルとして知られる大規模なモデルの作成が可能になった。 基礎モデルを比較する現在のパラダイムは、さまざまなキュレートされたデータセットに集約メトリクスをベンチマークすることです。 残念なことに、このモデル比較の方法は計量の選択に大きく依存しており、理想的な計量が明確でないか利用できない状況には不向きである。 本研究では,その埋め込み空間幾何学を用いて基礎モデルを比較するための計量自由方法論を提案する。 提案手法はランダムグラフ理論を基礎として,ポイントワイドおよびマルチモデルの比較を容易にする。 さらに,いくつかの下流メトリックと強く相関する距離関数を備えたモデルの多様体を誘導するために,我々のフレームワークがいかに利用できるかを実証する。

Recent advances in self-supervised learning and neural network scaling have enabled the creation of large models -- known as foundation models -- which can be easily adapted to a wide range of downstream tasks. The current paradigm for comparing foundation models involves benchmarking them with aggregate metrics on various curated datasets. Unfortunately, this method of model comparison is heavily dependent on the choice of metric, which makes it unsuitable for situations where the ideal metric is either not obvious or unavailable. In this work, we present a metric-free methodology for comparing foundation models via their embedding space geometry. Our methodology is grounded in random graph theory, and facilitates both pointwise and multi-model comparison. Further, we demonstrate how our framework can be used to induce a manifold of models equipped with a distance function that correlates strongly with several downstream metrics.
翻訳日:2023-05-10 14:15:43 公開日:2023-05-09
# デュアルアテンションネットワークを用いた強化学習によるフレキシブルジョブショップスケジューリング

Flexible Job Shop Scheduling via Dual Attention Network Based Reinforcement Learning ( http://arxiv.org/abs/2305.05119v1 )

ライセンス: Link先を確認
Runqing Wang, Gang Wang, Jian Sun, Fang Deng and Jie Chen(参考訳) フレキシブル製造は、フレキシブルなジョブショップスケジューリング問題(FJSP)のような複雑なスケジューリング問題を引き起こしている。 FJSPでは、複数のマシンで操作を処理できるため、操作とマシンの間の複雑な関係が生じる。 近年, 深層強化学習(DRL)を用いて, FJSP解決のための優先派遣規則(PDR)を学習している。 しかし、orツールのような厳密な方法によって、ソリューションの品質は改善の余地がある。 この問題に対処するため,本稿では,深層特徴抽出のための自己注意モデルとスケーラブルな意思決定のためのDRLの利点を生かした,エンドツーエンド学習フレームワークを提案する。 操作と機械間の複雑な関係を正確に簡潔に表現し、複数の相互接続された操作メッセージアテンションブロックと機械メッセージアテンションブロックからなる二重アテンションネットワーク(DAN)を提案する。 DANは複雑な関係を利用して、高品質な意思決定を支援するために生産適応型操作と機械機能を構築する。 合成データと公開ベンチマークを用いた実験結果から,提案手法は従来のPDRと最先端のDRL法の両方に優れることがわかった。 さらに、特定のケースにおける正確な手法に匹敵する結果を達成し、大規模かつ実世界のFJSPタスクに好適な一般化能力を示す。

Flexible manufacturing has given rise to complex scheduling problems such as the flexible job shop scheduling problem (FJSP). In FJSP, operations can be processed on multiple machines, leading to intricate relationships between operations and machines. Recent works have employed deep reinforcement learning (DRL) to learn priority dispatching rules (PDRs) for solving FJSP. However, the quality of solutions still has room for improvement relative to that by the exact methods such as OR-Tools. To address this issue, this paper presents a novel end-to-end learning framework that weds the merits of self-attention models for deep feature extraction and DRL for scalable decision-making. The complex relationships between operations and machines are represented precisely and concisely, for which a dual-attention network (DAN) comprising several interconnected operation message attention blocks and machine message attention blocks is proposed. The DAN exploits the complicated relationships to construct production-adaptive operation and machine features to support high-quality decisionmaking. Experimental results using synthetic data as well as public benchmarks corroborate that the proposed approach outperforms both traditional PDRs and the state-of-the-art DRL method. Moreover, it achieves results comparable to exact methods in certain cases and demonstrates favorable generalization ability to large-scale and real-world unseen FJSP tasks.
翻訳日:2023-05-10 14:15:31 公開日:2023-05-09
# 適応型補助マルチエージェント逆生成によるコミュニケーションロバストマルチエージェント学習

Communication-Robust Multi-Agent Learning by Adaptable Auxiliary Multi-Agent Adversary Generation ( http://arxiv.org/abs/2305.05116v1 )

ライセンス: Link先を確認
Lei Yuan, Feng Chen, Zhongzhang Zhang, Yang Yu(参考訳) コミュニケーションは協調型マルチエージェント強化学習(marl)において協調を促進する。 今日では、既存の作業は主にエージェントの通信効率の向上に重点が置かれており、ノイズや潜在的な攻撃者が存在する可能性があるため、現実世界のコミュニケーションははるかに困難である。 したがって、コミュニケーションベースのポリシーの堅牢性は、より調査を必要とする緊急かつ深刻な問題になる。 本稿では,補助的敵で訓練されたegoシステムが,この制限に対処できることを示すとともに,MA3Cと呼ばれるロバスト通信のための多エージェント補助代行生成の適応的手法を提案する。 具体的には,補助攻撃者の学習を協調的問題としてモデル化する新たなメッセージアタック手法を導入し,各情報チャネルが異なるメッセージアタックに悩むエゴシステムのコーディネーション能力を最小化する。 さらに,自発的な敵意学習がegoシステムの一般化能力を阻害する可能性があるため,進化的学習に基づく攻撃的集団生成手法を考案する。 最後に、egoシステムは攻撃者集団と組み合わせられ、代わりに継続的に進化する攻撃者に対して、その堅牢性を改善するために訓練される。 複数のベンチマークでの大規模な実験により,提案するMA3Cは,他のベースラインと同等あるいは優れたロバスト性および一般化能力を提供することが示された。

Communication can promote coordination in cooperative Multi-Agent Reinforcement Learning (MARL). Nowadays, existing works mainly focus on improving the communication efficiency of agents, neglecting that real-world communication is much more challenging as there may exist noise or potential attackers. Thus the robustness of the communication-based policies becomes an emergent and severe issue that needs more exploration. In this paper, we posit that the ego system trained with auxiliary adversaries may handle this limitation and propose an adaptable method of Multi-Agent Auxiliary Adversaries Generation for robust Communication, dubbed MA3C, to obtain a robust communication-based policy. In specific, we introduce a novel message-attacking approach that models the learning of the auxiliary attacker as a cooperative problem under a shared goal to minimize the coordination ability of the ego system, with which every information channel may suffer from distinct message attacks. Furthermore, as naive adversarial training may impede the generalization ability of the ego system, we design an attacker population generation approach based on evolutionary learning. Finally, the ego system is paired with an attacker population and then alternatively trained against the continuously evolving attackers to improve its robustness, meaning that both the ego system and the attackers are adaptable. Extensive experiments on multiple benchmarks indicate that our proposed MA3C provides comparable or better robustness and generalization ability than other baselines.
翻訳日:2023-05-10 14:15:08 公開日:2023-05-09
# 茂みの中の双子より手持ちのcbrの方が良いとき

When a CBR in Hand is Better than Twins in the Bush ( http://arxiv.org/abs/2305.05111v1 )

ライセンス: Link先を確認
Mobyen Uddin Ahmed and Shaibal Barua and Shahina Begum and Mir Riyanul Islam and Rosina O Weber(参考訳) 解釈可能(interpretable)と呼ばれるAIメソッドは、解釈可能性と正確性の間のトレードオフが存在するというサポーターによって、不正確なものとされがちである。 しかし、多くの問題では、このトレードオフは成立しない。 本稿では,最も正確なデータ回帰モデルをXGBoost実装を用いて訓練した飛行の離陸遅延を予測するための回帰問題文脈について論じる。 XGB-CBRツインの構築と、XGBoostの機能の重要性をCBRモデルのグローバルウェイトに変換する一方で、結果のCBRモデルは、最も正確な局所予測のみを提供し、そのモデルのグローバルな説明を提供するためにグローバルな重要性を維持し、局所的な説明に対して最も解釈可能な表現を提供する。 このCBRモデルは、この問題の文脈における精度と解釈可能性のベンチマークとなり、XGBoost回帰モデルを説明するために2つの付加的特徴属性法SHAPとLIMEを評価するために使用される。 局所的精度と特徴属性に関する結果は、潜在的に価値のある将来の仕事につながる。

AI methods referred to as interpretable are often discredited as inaccurate by supporters of the existence of a trade-off between interpretability and accuracy. In many problem contexts however this trade-off does not hold. This paper discusses a regression problem context to predict flight take-off delays where the most accurate data regression model was trained via the XGBoost implementation of gradient boosted decision trees. While building an XGB-CBR Twin and converting the XGBoost feature importance into global weights in the CBR model, the resultant CBR model alone provides the most accurate local prediction, maintains the global importance to provide a global explanation of the model, and offers the most interpretable representation for local explanations. This resultant CBR model becomes a benchmark of accuracy and interpretability for this problem context, and hence it is used to evaluate the two additive feature attribute methods SHAP and LIME to explain the XGBoost regression model. The results with respect to local accuracy and feature attribution lead to potentially valuable future work.
翻訳日:2023-05-10 14:14:45 公開日:2023-05-09
# 社会・技術安全モデリング:重要な産業インフラ環境・ドメインにおける現状・応用・成熟度の分析

Socio-Technical Security Modelling: Analysis of State-of-the-Art, Application, and Maturity in Critical Industrial Infrastructure Environments/Domains ( http://arxiv.org/abs/2305.05108v1 )

ライセンス: Link先を確認
Uchenna D Ani, Jeremy M Watson, Nilufer Tuptuk, Steve Hailes, Aslam Jawar(参考訳) 本研究では,ciに依存する産業・分野における社会技術的セキュリティモデルの最先端,応用,成熟について検討し,セキュリティの社会的・技術的側面のモデル化に関する学術研究と産業的実践のギャップについて検討する。 システム研究と文献批判分析は、デジタルシステムと職場は技術だけでなく、社会(人間)や時として物理的要素で構成されているという認識が高まり、社会技術的セキュリティのM&Sアプローチが着実に成長していることを示している。

This study explores the state-of-the-art, application, and maturity of socio-technical security models for industries and sectors dependent on CI and investigates the gap between academic research and industry practices concerning the modelling of both the social and technical aspects of security. Systematic study and critical analysis of literature show that a steady and growing on socio-technical security M&S approaches is emerging, possibly prompted by the growing recognition that digital systems and workplaces do not only comprise technologies, but also social (human) and sometimes physical elements.
翻訳日:2023-05-10 14:14:26 公開日:2023-05-09
# TinyMLを用いた心室不整脈診断の検討

TinyML Design Contest for Life-Threatening Ventricular Arrhythmia Detection ( http://arxiv.org/abs/2305.05105v1 )

ライセンス: Link先を確認
Zhenge Jia, Dawei Li, Cong Liu, Liqi Liao, Xiaowei Xu, Lichuan Ping, Yiyu Shi(参考訳) 2022年に第41回iccad(international conference on computer-aided design)で開催された最初のacm/ieee tinyml design contest(tdc)は、挑戦的で多ヶ月にわたる研究開発コンペティションである。 TDC'22は、組み込みデバイスにおける人工知能/機械学習(AI/ML)アルゴリズムの革新と実装を必要とする現実世界の医療問題に焦点を当てている。 TDC'22の課題は、ICD(Indusable Cardioverter-Defibrillator)で使用される低消費電力マイクロコントローラ上での、生命を脅かす心室不整脈に対する新しいAI/MLベースのリアルタイム検出アルゴリズムを開発することである。 このデータセットは、90人の被験者から8種類のリズムに対して、38,0005秒間心電図(IEGM)セグメントを含む。 専用ハードウェアプラットフォームは、STマイクロエレクトロニクスが製造したNUCLEO-L432KCである。 TDC'22は世界中の多人数チームに開放されており、50以上の組織から150以上のチームが集まった。 本稿ではまず,医療問題,データセット,評価手順について詳細に述べる。 さらに、主要なチームによって開発されたデザインを実証し、議論する。 本稿では、健康モニタリングアプリケーションのための将来のTinyML設計の改善の方向性について述べる。

The first ACM/IEEE TinyML Design Contest (TDC) held at the 41st International Conference on Computer-Aided Design (ICCAD) in 2022 is a challenging, multi-month, research and development competition. TDC'22 focuses on real-world medical problems that require the innovation and implementation of artificial intelligence/machine learning (AI/ML) algorithms on implantable devices. The challenge problem of TDC'22 is to develop a novel AI/ML-based real-time detection algorithm for life-threatening ventricular arrhythmia over low-power microcontrollers utilized in Implantable Cardioverter-Defibrillators (ICDs). The dataset contains more than 38,000 5-second intracardiac electrograms (IEGMs) segments over 8 different types of rhythm from 90 subjects. The dedicated hardware platform is NUCLEO-L432KC manufactured by STMicroelectronics. TDC'22, which is open to multi-person teams world-wide, attracted more than 150 teams from over 50 organizations. This paper first presents the medical problem, dataset, and evaluation procedure in detail. It further demonstrates and discusses the designs developed by the leading teams as well as representative results. This paper concludes with the direction of improvement for the future TinyML design for health monitoring applications.
翻訳日:2023-05-10 14:14:15 公開日:2023-05-09
# 教師なし深部FCDDを用いた農村鉄道診断のための木製スリーパーの劣化検出

Wood-sleeper Decayed Detection for Rural Railway Prognostics Using Unsupervised Deeper FCDDs ( http://arxiv.org/abs/2305.05103v1 )

ライセンス: Link先を確認
Takato Yasuno, Masahiro Okano, and Junichiro Fujii(参考訳) 日々の運行中に利用者の安全を確保するためには、鉄道管理者が高い基準を維持することが重要である。 トップビューまたはサイドビューカメラとGPS測位システムにより、欠陥点検の定期的な自動化と、鉄道部品の劣化状況の評価が可能となった。 時間的発生が極端に不均衡であるため、しばしば、劣化した状態データ制約を収集し、繰り返しデータ取得を行う。 監視された学習アプローチには、欠陥のある生画像と注釈付きラベルの数千のデータセットが必要である。 しかし、一方のクラス分類アプローチは、正規および異常な特徴をトレーニングするためのパラメータを最適化できるイメージが少ないというメリットがある。 同時に、視覚的な熱マップの説明により、局所的な損傷の特徴を識別することができる。 本稿では,欠陥鉄道部品に対する一級損傷分類を自動化するための識別器パイプラインを提案する。 また,前訓練ネットワーク(ベースラインCNN27,VGG16,ResNet101,Inception Networks)を用いた畳み込みニューラルネットワーク(CNN)に基づくバックボーンと受容野に対する感度解析を行った。 また, トランスポーズしたガウスアンアップサンプリングを用いて, 欠陥鉄道の特徴を説明する。 本稿では, 鉄道部品のオープンアクセスデータセットにおける鉄道検査の応用と, 農村鉄道における木材の劣化について紹介する。 ヒートマップは非常に重要で、ハザードマークは運行遅延、緊急検査、そして旅客の鉄道検査における予期せぬ事故を引き起こす可能性がある。 さらに, 鉄道システムの予測保守における, 予測監視と鉄道部品検査の今後の課題について述べる。

It is critical for railway managers to maintain a high standard to ensure user safety during daily operations. Top-view or side-view cameras and GPS positioning system have enabled progress toward automating the periodic inspection of defective features and assessing the deteriorated status of the railway components. Frequently, collecting deteriorated status data constraints time consuming and repeated data acquisition, because the temporal occurrence is extremely imbalanced. Supervised learning approach requires thousands of paired dataset of defective raw images and annotated labels. However, one-class classification approach has a merit that fewer images enables us to optimize the parameters for training normal and anomalous feature. Simultaneously, the visual heat map explanation enables us to discriminate the localized damage feature. In this paper, we propose a prognostic discriminator pipeline to automate one-class damage classification towards defective railway components. We also sensitivity analyze toward the backbone and the receptive field based on convolutional neural networks (CNNs) using pretrained networks: baseline CNN27, VGG16, ResNet101, and Inception Networks. We also visualize the explanation of the defective railway feature using a transposed Gaussian upsampling. We demonstrate our application for railway inspection in an open-accessed dataset of defective railway components, and wood-sleeper deterioration in rural railway. The heatmap is so important that the hazard-marks could cause an operational delay, an urgent inspection, and unexpected accident to passenger impact in railway inspection. Furthermore, we mention its usability for prognostic monitoring and future works for railway components inspection in the predictive maintenance of railway systems.
翻訳日:2023-05-10 14:13:57 公開日:2023-05-09
# 医用画像解析における校正バイアスの展開

Towards unraveling calibration biases in medical image analysis ( http://arxiv.org/abs/2305.05101v1 )

ライセンス: Link先を確認
Mar\'ia Agustina Ricci Lara, Candelaria Mosquera, Enzo Ferrante, Rodrigo Echeveste(参考訳) 近年,自動化医療画像解析のための人工知能(AI)システムの開発が大きな勢いで進んでいる。 同時に、多くの研究機関が、AIシステムは様々な応用シナリオにおいて、特定の集団に対して体系的かつ不公平に差別することができることを示した。 これらの2つの事実は、この分野におけるアルゴリズム的公平性研究の出現の動機となった。 医療アルゴリズムの公正性に関する多くの研究は、AUCのような古典的差別指標と正確性の観点からバイアスの評価に焦点を当てている。 しかし、モデルキャリブレーションの観点からの潜在的なバイアスは、最近になって評価され始めたばかりである。 これは、医療専門家が複数の情報ソースを最適に評価し結合する上で、予測の不確実性が鍵となるため、臨床意思決定支援システムで作業する場合に特に重要である。 本研究では皮膚病変画像から悪性皮膚疾患を自動的に検出する訓練モデルにおける識別と校正バイアスについて検討した。 重要なことは、いくつかの典型的なキャリブレーション指標がサンプルサイズに対して体系的に偏っていること、そしてこのことが考慮しない場合、誤ってフェアネス分析に繋がることを示す。 これはフェアネス研究に特に関係しており、データの不均衡によって人口統計学のサブグループ間で大きなサンプルサイズの違いが生じ、それが考慮されていないとしても、共同設立者として振る舞うことができる。

In recent years the development of artificial intelligence (AI) systems for automated medical image analysis has gained enormous momentum. At the same time, a large body of work has shown that AI systems can systematically and unfairly discriminate against certain populations in various application scenarios. These two facts have motivated the emergence of algorithmic fairness studies in this field. Most research on healthcare algorithmic fairness to date has focused on the assessment of biases in terms of classical discrimination metrics such as AUC and accuracy. Potential biases in terms of model calibration, however, have only recently begun to be evaluated. This is especially important when working with clinical decision support systems, as predictive uncertainty is key for health professionals to optimally evaluate and combine multiple sources of information. In this work we study discrimination and calibration biases in models trained for automatic detection of malignant dermatological conditions from skin lesions images. Importantly, we show how several typically employed calibration metrics are systematically biased with respect to sample sizes, and how this can lead to erroneous fairness analysis if not taken into consideration. This is of particular relevance to fairness studies, where data imbalance results in drastic sample size differences between demographic sub-groups, which, if not taken into account, can act as confounders.
翻訳日:2023-05-10 14:13:30 公開日:2023-05-09
# デジタル病理画像の適応領域一般化

Adaptive Domain Generalization for Digital Pathology Images ( http://arxiv.org/abs/2305.05100v1 )

ライセンス: Link先を確認
Andrew Walker(参考訳) AIに基づく病理学では、ドメインシフトは一般的でよく研究されている。 しかし、この研究はステンドとスキャナのバリエーションに焦点を当てており、これは全体像を示さない -- シフトは他のシフトの組み合わせかもしれないし、機械学習モデルの明らかではないが、それでも損傷のある"見えない"シフトかもしれない。 さらに、特に病理学の分野や大規模にモデルをデプロイしたい場合には、高価なアノテーションや不足したアノテーションなしで、これらのシフトに一般化することが重要である。 したがって、"反応性"なドメイン一般化技術は、トレーニング時にシフトの予測や例を必要とするのではなく、テスト時にドメインシフトに適応するものである。 文献レビューを実施し,事前の予測を必要とせず,ドメインシフトに反応する手法を紹介する。 本稿では,2次自己教師型タスクの最適化を通じて,テスト時のモデルパラメータを適応させるドメイン一般化手法であるテスト時間トレーニングについて検討する。

In AI-based histopathology, domain shifts are common and well-studied. However, this research focuses on stain and scanner variations, which do not show the full picture -- shifts may be combinations of other shifts, or "invisible" shifts that are not obvious but still damage performance of machine learning models. Furthermore, it is important for models to generalize to these shifts without expensive or scarce annotations, especially in the histopathology space and if wanting to deploy models on a larger scale. Thus, there is a need for "reactive" domain generalization techniques: ones that adapt to domain shifts at test-time rather than requiring predictions of or examples of the shifts at training time. We conduct a literature review and introduce techniques that react to domain shifts rather than requiring a prediction of them in advance. We investigate test time training, a technique for domain generalization that adapts model parameters at test-time through optimization of a secondary self-supervised task.
翻訳日:2023-05-10 14:13:12 公開日:2023-05-09
# デコーダは誰が必要か? シーケンスレベル属性の効率的な推定

Who Needs Decoders? Efficient Estimation of Sequence-level Attributes ( http://arxiv.org/abs/2305.05098v1 )

ライセンス: Link先を確認
Yassir Fathullah, Puria Radmard, Adian Liusie, Mark J. F. Gales(参考訳) state-of-the-art sequence-to-sequenceモデルは、しばしば自己回帰デコードを必要とする。 しかし、out-of-distribution (ood) 検出やリソース割り当てのような下流タスクでは、実際のデコード出力は、このシーケンスのスカラー属性だけでは必要ない。 これらのシナリオでは、例えば、システムの出力の品質を知ることで、アウトプット自体を知るよりもパフォーマンスの悪さを予測できる場合、自動回帰デコーディングを回避できますか? 一般的なスカラー値のシーケンスレベルの属性を効率的に予測できる非自己回帰プロキシ(NAP)モデルを提案する。 重要なことに、napはこれらのメトリクスをエンコーディングから直接予測し、高価な自己回帰デコーディングステージを避ける。 機械翻訳 (mt) と自動音声認識 (asr) の2つの作業について検討した。 OOD for MTでは、NAPははるかに高速で深いアンサンブルを上回ります。 NAPはBERTScore(MT)やワードエラーレート(ASR)といったパフォーマンス指標を予測可能であることも示されている。 データフィルタリングやリソース最適化といった下流タスクでは、NAPは高い推論効率を保ちながら予測の不確実性を上回るパフォーマンス予測を生成する。

State-of-the-art sequence-to-sequence models often require autoregressive decoding, which can be highly expensive. However, for some downstream tasks such as out-of-distribution (OOD) detection and resource allocation, the actual decoding output is not needed just a scalar attribute of this sequence. In these scenarios, where for example knowing the quality of a system's output to predict poor performance prevails over knowing the output itself, is it possible to bypass the autoregressive decoding? We propose Non-Autoregressive Proxy (NAP) models that can efficiently predict general scalar-valued sequence-level attributes. Importantly, NAPs predict these metrics directly from the encodings, avoiding the expensive autoregressive decoding stage. We consider two sequence-to-sequence task: Machine Translation (MT); and Automatic Speech Recognition (ASR). In OOD for MT, NAPs outperform a deep ensemble while being significantly faster. NAPs are also shown to be able to predict performance metrics such as BERTScore (MT) or word error rate (ASR). For downstream tasks, such as data filtering and resource optimization, NAPs generate performance predictions that outperform predictive uncertainty while being highly inference efficient.
翻訳日:2023-05-10 14:12:58 公開日:2023-05-09
# DeepTree: 列挙した木をモデリングする

DeepTree: Modeling Trees with Situated Latents ( http://arxiv.org/abs/2305.05153v1 )

ライセンス: Link先を確認
Xiaochen Zhou, Bosheng Li, Bedrich Benes, Songlin Fei, S\"oren Pirk(参考訳) 本稿では,木を手作業で定義する代わりに,分岐構造に対する開発規則の学習に基づく木をモデリングする新しい手法であるDeepTreeを提案する。 我々のディープニューラルモデルは、その振舞いが内在状態(ディープニューラルモデルの潜伏空間としてエンコードされる)と、3D空間とツリー構造上の位置に位置する外部(環境)データによって決定されるため、潜伏状態に位置するディープニューラルモデルと呼ぶ。 ニューラルネットワークパイプラインを使用して,木モデルの分岐グラフ内の単一ノードのみに基づいて,局所的に分岐成長を予測できるように,位置付けられた潜在空間をトレーニングする。 この表現を用いて,新たな枝ノードを徐々に発展させ,樹の成長過程を模倣する。 ルートノードから始まると、ツリー全体が分岐構造になるように、新たに追加されたノード上でニューラルネットワークを反復的にクエリすることで、ツリーが生成される。 本手法は,樹の成長と行動を制御する複雑なパラメータを定義することなく,多種多様な樹形を生成できる。 さらに, 木が障害物に隣接して生長する場合など, 木モデルの環境応答をコード化するために, 位置潜水剤が使用できることを示す。 本手法の有効性は, 木モデルの類似度を計測し, 木形態の定式化指標に基づいて手続き的に生成した手法により検証する。

In this paper, we propose DeepTree, a novel method for modeling trees based on learning developmental rules for branching structures instead of manually defining them. We call our deep neural model situated latent because its behavior is determined by the intrinsic state -- encoded as a latent space of a deep neural model -- and by the extrinsic (environmental) data that is situated as the location in the 3D space and on the tree structure. We use a neural network pipeline to train a situated latent space that allows us to locally predict branch growth only based on a single node in the branch graph of a tree model. We use this representation to progressively develop new branch nodes, thereby mimicking the growth process of trees. Starting from a root node, a tree is generated by iteratively querying the neural network on the newly added nodes resulting in the branching structure of the whole tree. Our method enables generating a wide variety of tree shapes without the need to define intricate parameters that control their growth and behavior. Furthermore, we show that the situated latents can also be used to encode the environmental response of tree models, e.g., when trees grow next to obstacles. We validate the effectiveness of our method by measuring the similarity of our tree models and by procedurally generated ones based on a number of established metrics for tree form.
翻訳日:2023-05-10 14:06:30 公開日:2023-05-09
# チップレット上の量子コンピューティングのためのコンパイル

Compilation for Quantum Computing on Chiplets ( http://arxiv.org/abs/2305.05149v1 )

ライセンス: Link先を確認
Hezi Zhang, Keyi Yin, Anbang Wu, Hassan Shapourian, Alireza Shabani, Yufei Ding(参考訳) chiplet アーキテクチャは量子コンピューティングの新たなアーキテクチャであり、スケーラビリティとモジュール性に優れて qubit リソースを大幅に増加させる可能性がある。 しかし、計算規模が大きくなるにつれて、長いルーティング距離のため、キュービット間の通信はより深刻なボトルネックとなる。 本稿では,関連するキュービット間の距離に関係なく,ゲート実行時の並列性を高めることで計算量を増加させるハイウェイモデルを提案する。 このモデルでは、ハイウェイの存在下で量子プログラムをチップレットにコンパイルするフレームワークをさらに提案し、チップレットアーキテクチャの独特な課題に対処する。 評価の結果,回路深度といくつかの典型的な量子ベンチマークでの演算数の両方において,このフレームワークはベースラインのアプローチを著しく上回り,より効率的で誤りの少ない量子プログラムのコンパイルに繋がることがわかった。

Chiplet architecture is an emerging architecture for quantum computing that could significantly increase qubit resources with its great scalability and modularity. However, as the computing scale increases, communication between qubits would become a more severe bottleneck due to the long routing distances. In this paper, we propose a highway model to boost computation by enabling more concurrency in gate execution regardless of the distances among the involved qubits. Under this model, we further propose a framework to compile quantum programs onto chiplets in the presence of the highway, addressing the unique challenges presented by the chiplet architecture. Our evaluation shows that this framework significantly outperforms the baseline approach in both the circuit depth and the number of operations on some typical quantum benchmarks, leading to a more efficient and less error-prone compilation of quantum programs.
翻訳日:2023-05-10 14:06:05 公開日:2023-05-09
# 高精度画像復元のための山型単段ネットワーク

A Mountain-Shaped Single-Stage Network for Accurate Image Restoration ( http://arxiv.org/abs/2305.05146v1 )

ライセンス: Link先を確認
Hu Gao and Jing Yang and Ying Zhang and Ning Wang and Jingfan Yang and Depeng Dang(参考訳) 画像復元は, 劣化や劣化などの劣化した入力画像から高品質な画像を得るためのタスクである。 画像復元では,空間的詳細と文脈情報との複雑なバランスを維持する必要がある。 マルチステージネットワークは、これらの競合する目標を最適にバランスさせ、大きなパフォーマンスを達成することができるが、システムの複雑さも増す。 本稿では,不必要な非線形アクティベーション関数を除去あるいは置き換える,単純なU-Netアーキテクチャに基づく山型単一ステージ設計ベースを提案する。 具体的には,エンコーダ・デコーダアーキテクチャレベル間の情報交換コンポーネントとして機能融合ミドルウェア(ffm)機構を提案する。 上層情報を隣接する下層にシームレスに統合し、次々に下層へと下降する。 最後に、全ての情報は元の画像解像度操作レベルに融合される。 これは空間的詳細を保存し、文脈情報を統合し、高品質な画像復元を保証する。 さらに,エンコーダとデコーダの間のブリッジとしてマルチヘッドアテンションミドルブロック(MHAMB)を提案する。 M3SNetと名づけられた我々の手法は,画像のデアライニングやデブロアリングといった画像修復作業において,計算コストの半分以下で従来の最先端モデルよりも優れていることを示す。

Image restoration is the task of aiming to obtain a high-quality image from a corrupt input image, such as deblurring and deraining. In image restoration, it is typically necessary to maintain a complex balance between spatial details and contextual information. Although a multi-stage network can optimally balance these competing goals and achieve significant performance, this also increases the system's complexity. In this paper, we propose a mountain-shaped single-stage design base on a simple U-Net architecture, which removes or replaces unnecessary nonlinear activation functions to achieve the above balance with low system complexity. Specifically, we propose a feature fusion middleware (FFM) mechanism as an information exchange component between the encoder-decoder architectural levels. It seamlessly integrates upper-layer information into the adjacent lower layer, sequentially down to the lowest layer. Finally, all information is fused into the original image resolution manipulation level. This preserves spatial details and integrates contextual information, ensuring high-quality image restoration. In addition, we propose a multi-head attention middle block (MHAMB) as a bridge between the encoder and decoder to capture more global information and surpass the limitations of the receptive field of CNNs. Extensive experiments demonstrate that our approach, named as M3SNet, outperforms previous state-of-the-art models while using less than half the computational costs, for several image restoration tasks, such as image deraining and deblurring.
翻訳日:2023-05-10 14:05:52 公開日:2023-05-09
# ゼロショットスケッチに基づく画像検索を改善するAdapt and Align

Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval ( http://arxiv.org/abs/2305.05144v1 )

ライセンス: Link先を確認
Shiyin Dong, Mingrui Zhu, Nannan Wang, Heng Yang, Xinbo Gao(参考訳) ゼロショットスケッチに基づく画像検索(ZS-SBIR)は、スケッチや写真のドメイン横断性や、見えない画像分布と見えない画像分布のセマンティックなギャップによって困難である。 スケッチとフォトドメイン間で共有されるコンパクトな特徴空間を学習するために、様々な側面情報と学習戦略を持つ事前訓練されたモデルを微調整する以前の方法と、目に見えないクラスを橋渡しする(\romannumeral2)。 しかし、これらの取り組みはドメインを適応させ、見知らぬクラスから知識を移すのに不十分である。 本稿では,重要な課題に対処すべく,効果的な \emph{``adapt and align'''} アプローチを提案する。 具体的には、単純で軽量なドメインアダプタを挿入して、sketchドメインの新しい抽象概念を学び、クロスドメイン表現機能を改善する。 ゼロショットシナリオにおける最近の画像-テキスト基盤モデル(\textit{e.g.}, clip)の進歩に触発されて、我々は学習した画像埋め込みをよりセマンティックなテキスト埋め込みと明示的に調整し、見るべき知識を目に見えるクラスから見えないクラスに転送する。 3つのベンチマークデータセットと2つの人気のあるバックボーンに関する大規模な実験は、検索精度と柔軟性の観点から、我々の手法の優位性を実証している。

Zero-shot sketch-based image retrieval (ZS-SBIR) is challenging due to the cross-domain nature of sketches and photos, as well as the semantic gap between seen and unseen image distributions. Previous methods fine-tune pre-trained models with various side information and learning strategies to learn a compact feature space that (\romannumeral1) is shared between the sketch and photo domains and (\romannumeral2) bridges seen and unseen classes. However, these efforts are inadequate in adapting domains and transferring knowledge from seen to unseen classes. In this paper, we present an effective \emph{``Adapt and Align''} approach to address the key challenges. Specifically, we insert simple and lightweight domain adapters to learn new abstract concepts of the sketch domain and improve cross-domain representation capabilities. Inspired by recent advances in image-text foundation models (\textit{e.g.}, CLIP) on zero-shot scenarios, we explicitly align the learned image embedding with a more semantic text embedding to achieve the desired knowledge transfer from seen to unseen classes. Extensive experiments on three benchmark datasets and two popular backbones demonstrate the superiority of our method in terms of retrieval accuracy and flexibility.
翻訳日:2023-05-10 14:05:24 公開日:2023-05-09
# 言語的 more: 効率的かつ正確なシーンテキスト認識へのさらなる一歩を踏み出す

Linguistic More: Taking a Further Step toward Efficient and Accurate Scene Text Recognition ( http://arxiv.org/abs/2305.05140v1 )

ライセンス: Link先を確認
Boqiang Zhang, Hongtao Xie, Yuxin Wang, Jianjun Xu, Yongdong Zhang(参考訳) Scene Text Recognition(STR)タスクの単純さと効率性から,視覚モデルへの注目が高まっている。 しかし、言語知識や情報に対する認識が欠如しているため、近年の視覚モデルは2つの問題に悩まされている。(1)純粋な視覚に基づく問合せは注意のドリフトをもたらすが、これは一般的に認識不良を引き起こし、言語的不感なドリフト(LID)問題として要約される。 2)視覚障害のある場合(例えば、咬合など)では、視覚特徴が認識に準最適である。 これらの問題に対処するために、正確なテキスト認識のための視覚モデルの言語的能力を探求する$\textbf{L}$inguistic $\textbf{P}$erception $\textbf{V}$ision model (LPV)を提案する。 LID問題を緩和するために,ステップワイズ最適化と言語情報マイニングにより高品質で正確な注意マップを得るカスケード位置注意(CPA)機構を導入する。 さらに,グローバル言語再構築モジュール (GLRM) は視覚空間の言語情報を知覚することで視覚的特徴の表現を改善するために提案されている。 従来の方法と異なり,低複雑性(92.4%の精度で8.11mのパラメータしか持たない)を維持しつつsota結果を得る。 コードは$\href{https://github.com/CyrilSterling/LPV}{https://github.com/CyrilSterling/LPV}$で入手できる。

Vision model have gained increasing attention due to their simplicity and efficiency in Scene Text Recognition (STR) task. However, due to lacking the perception of linguistic knowledge and information, recent vision models suffer from two problems: (1) the pure vision-based query results in attention drift, which usually causes poor recognition and is summarized as linguistic insensitive drift (LID) problem in this paper. (2) the visual feature is suboptimal for the recognition in some vision-missing cases (e.g. occlusion, etc.). To address these issues, we propose a $\textbf{L}$inguistic $\textbf{P}$erception $\textbf{V}$ision model (LPV), which explores the linguistic capability of vision model for accurate text recognition. To alleviate the LID problem, we introduce a Cascade Position Attention (CPA) mechanism that obtains high-quality and accurate attention maps through step-wise optimization and linguistic information mining. Furthermore, a Global Linguistic Reconstruction Module (GLRM) is proposed to improve the representation of visual features by perceiving the linguistic information in the visual space, which gradually converts visual features into semantically rich ones during the cascade process. Different from previous methods, our method obtains SOTA results while keeping low complexity (92.4% accuracy with only 8.11M parameters). Code is available at $\href{https://github.com/CyrilSterling/LPV}{https://github.com/CyrilSterling/LPV}$.
翻訳日:2023-05-10 14:04:59 公開日:2023-05-09
# 読解・診断・チャット:ソーシャルメディアにおけるllms-augmented depression detectionに向けて

Read, Diagnose and Chat: Towards Explainable and Interactive LLMs-Augmented Depression Detection in Social Media ( http://arxiv.org/abs/2305.05138v1 )

ライセンス: Link先を確認
Wei Qin, Zetong Chen, Lei Wang, Yunshi Lan, Weijieying Ren and Richang Hong(参考訳) 本稿では,解釈可能かつインタラクティブなLLMに基づく新しい抑うつ検出システムを提案する。 診断だけでなく、ユーザとの自然言語対話に基づく診断証拠やパーソナライズされたレコメンデーションを提供する。 大量のテキストの処理や専門的な診断基準の統合といった課題に対処する。 本システムは,従来の手法を様々な場面で上回り,ケーススタディによって実証する。

This paper proposes a new depression detection system based on LLMs that is both interpretable and interactive. It not only provides a diagnosis, but also diagnostic evidence and personalized recommendations based on natural language dialogue with the user. We address challenges such as the processing of large amounts of text and integrate professional diagnostic criteria. Our system outperforms traditional methods across various settings and is demonstrated through case studies.
翻訳日:2023-05-10 14:04:28 公開日:2023-05-09
# 重み付きオートエンコーダにおける活性化のグレディバックトラックによるマンモグラフィ集団の局在

Localisation of Mammographic masses by Greedy Backtracking of Activations in the Stacked Auto-Encoders ( http://arxiv.org/abs/2305.05136v1 )

ライセンス: Link先を確認
Shamna Pootheri and Govindan V K(参考訳) マンモグラフィ画像解析には, 高度マンモグラフィ塊の正確な局所化が必要である。 マンモグラフィーによるコンピュータ診断では、質量または関心領域(ROI)はしばしば医師によってマークされ、特徴は指標ROIから抽出される。 本稿では,重畳された自動エンコーダの最大クラスアクティベーションに基づく,新しいマンモグラフィマスローカライゼーションフレームワークを提案する。 マンモグラフィ画像の異常クラスを活性化する画像領域は乳房の腫瘤で異常を生じさせると仮定した。 この実験はIRMAマンモグラフィーデータセットからランダムに選択された200枚のマンモグラフィー画像(正常100枚,異常100枚)を用いて行った。 専門の放射線技師が特徴とする異常な質量領域を根拠として用いる。 提案手法は,既存のDeep Convolutional Neural Network (DCNN) に基づく領域検出精度に優れる。 提案手法はより効率的であり,dcnn法のように多数のラベル付きトレーニング画像を必要としない。 このような自動位置決め法は、医師が生検勧告や治療評価について正確な判断を下すのを助ける。

Mammographic image analysis requires accurate localisation of salient mammographic masses. In mammographic computer-aided diagnosis, mass or Region of Interest (ROI) is often marked by physicians and features are extracted from the marked ROI. In this paper, we present a novel mammographic mass localisation framework, based on the maximal class activations of the stacked auto-encoders. We hypothesize that the image regions activating abnormal classes in mammographic images will be the breast masses which causes the anomaly. The experiment is conducted using randomly selected 200 mammographic images (100 normal and 100 abnormal) from IRMA mammographic dataset. Abnormal mass regions marked by an expert radiologist are used as the ground truth. The proposed method outperforms existing Deep Convolutional Neural Network (DCNN) based techniques in terms of salient region detection accuracy. The proposed greedy backtracking method is more efficient and does not require a vast number of labelled training images as in DCNN based method. Such automatic localisation method will assist physicians to make accurate decisions on biopsy recommendations and treatment evaluations.
翻訳日:2023-05-10 14:04:21 公開日:2023-05-09
# ChatGPTによるフィッシング攻撃の生成

Generating Phishing Attacks using ChatGPT ( http://arxiv.org/abs/2305.05133v1 )

ライセンス: Link先を確認
Sayak Saha Roy, Krishna Vamsi Naragam, Shirin Nilizadeh(参考訳) ChatGPTが人間のような応答を生成し、コンテキストを理解する能力は、会話エージェント、コンテンツ作成、データ分析、研究とイノベーションのための人気のあるツールとなった。 しかし、その有効性とアクセシビリティの容易さは、フィッシング攻撃のような悪意のあるコンテンツを生成するための主要なターゲットとなり、ユーザーを危険にさらす可能性がある。 本研究では,ChatGPTが機能的なフィッシングサイトを生成するための悪意のあるプロンプトをいくつか特定する。 反復的なアプローチにより、これらのフィッシングサイトは、人気のあるブランドを模倣し、反フィッシング組織による検出を避けるために知られていたいくつかの回避策をエミュレートすることができる。 これらの攻撃は、バニラChatGPTを使用して、以前の敵の攻撃(jailbreaking)を必要とせずに生成できる。

The ability of ChatGPT to generate human-like responses and understand context has made it a popular tool for conversational agents, content creation, data analysis, and research and innovation. However, its effectiveness and ease of accessibility makes it a prime target for generating malicious content, such as phishing attacks, that can put users at risk. In this work, we identify several malicious prompts that can be provided to ChatGPT to generate functional phishing websites. Through an iterative approach, we find that these phishing websites can be made to imitate popular brands and emulate several evasive tactics that have been known to avoid detection by anti-phishing entities. These attacks can be generated using vanilla ChatGPT without the need of any prior adversarial exploits (jailbreaking).
翻訳日:2023-05-10 14:04:04 公開日:2023-05-09
# コンクリート表面き裂セグメンテーションのためのデュアルフロー融合モデル

Dual flow fusion model for concrete surface crack segmentation ( http://arxiv.org/abs/2305.05132v1 )

ライセンス: Link先を確認
Yuwei Duan, Xun Lin, Wenzhong Tang, Xiaolei Qu(参考訳) クラックやその他の病気は交通インフラの安全運用を脅かす重要な要因である。 従来の手動検出と超音波装置検出は、多くの時間とリソースコストを消費する。 ディープラーニング技術の開発により、多くのディープラーニングモデルが実際のビジュアルセグメンテーションタスクで広く使われている。 ディープラーニングモデルに基づく検出方法は、高い検出精度、高速な検出速度、簡単な操作の利点を有する。 しかしながら、ディープラーニングに基づく亀裂分割には、背景雑音に対する感度、粗いエッジ、堅牢性の欠如といった問題がある。 そこで本稿では,2つの処理ストリームに画像を同時に入力し,遠距離依存および局所的細部特徴を独立に抽出し,デュアルヘッド機構による適応予測を実現する2ストリーム融合に基づく分割モデルを提案する。 同時に、複雑な背景における亀裂の位置と識別を実現するために、異なるレベルの特徴の相補性を導く新しい対話型融合機構が提案されている。 最後に,分割精度向上のためのエッジ最適化手法を提案する。 実験により、DeepCrack[1]公開データセットのセグメンテーション結果のF1値が93.7%、IOU値が86.6%、CRACK500[2]データセットのセグメンテーション結果のF1値が78.1%、IOU値が66.0%に達した。

Cracks and other diseases are important factors that threaten the safe operation of transportation infrastructure. Traditional manual detection and ultrasonic instrument detection consume a lot of time and resource costs. With the development of deep learning technology, many deep learning models are widely used in actual visual segmentation tasks. The detection method based on the deep learning model has the advantages of high detection accuracy, fast detection speed and simple operation. However, the crack segmentation based on deep learning has problems such as sensitivity to background noise, rough edges, and lack of robustness. Therefore, this paper proposes a fissure segmentation model based on two-stream fusion, which simultaneously inputs images into two designed processing streams to independently extract long-distance dependent and local detail features, and realizes adaptive prediction through a dual-head mechanism. At the same time, a new interactive fusion mechanism is proposed to guide the complementarity of different levels of features to realize the location and identification of cracks in complex backgrounds. Finally, we propose an edge optimization method to improve segmentation accuracy. Experiments have proved that the F1 value of the segmentation results on the DeepCrack[1] public dataset reached 93.7%, and the IOU value reached 86.6%; the F1 value of the segmentation results on the CRACK500[2] dataset reached 78.1%, and the IOU value reached 66.0%.
翻訳日:2023-05-10 14:03:49 公開日:2023-05-09
# 地圧バランスシールドトンネルのリアルタイム地盤特性予測のためのKriging-Randomハイブリッドモデル

A Kriging-Random Forest Hybrid Model for Real-time Ground Property Prediction during Earth Pressure Balance Shield Tunneling ( http://arxiv.org/abs/2305.05128v1 )

ライセンス: Link先を確認
Ziheng Geng, Chao Zhang, Yuhao Ren, Minxiang Zhu, Renpeng Chen, and Hongzhan Cheng(参考訳) Kriging外挿とランダムフォレストを統合したKriging-random forest hybrid modelを,地圧バランスシールドよりも先にリアルタイムに地盤特性予測のために開発し,シールドの動作パラメータ選択を誘導し,建設リスクを軽減する。 提案したKRFアルゴリズムは,事前情報とリアルタイム情報という2種類の情報を合成する。 前述したepb動作パラメータを有する地盤特性をkrigingアルゴリズムにより推定し、現在発掘されている地盤特性の予測のための事前情報を提供する。 リアルタイム情報とは、ESBシールドのリアルタイム動作パラメータを指し、ランダム森林に入力され、地盤特性のリアルタイム予測を提供する。 これら2つの予測の統合は、その不確実性に応じて各予測に重みを割り当て、最小の不確実性でKRFの予測を確実にすることで達成される。 KRFアルゴリズムの性能は、Changsha Metro Line 4プロジェクトのケーススタディを通じて評価される。 提案したkrfアルゴリズムは,lightgbm,adaboost-cart,dnnの既存のアルゴリズムを29%,8%,12%の精度で上回って,精度93%の精度で地盤特性を予測できることを明らかにした。 深センメトロ13計画の別のデータセットは、モデル一般化性能をさらに評価するために利用され、モデルが学習した知識を1つの領域から別の領域に89%の精度で転送できることが明らかにされた。

A kriging-random forest hybrid model is developed for real-time ground property prediction ahead of the earth pressure balanced shield by integrating Kriging extrapolation and random forest, which can guide shield operating parameter selection thereby mitigate construction risks. The proposed KRF algorithm synergizes two types of information: prior information and real-time information. The previously predicted ground properties with EPB operating parameters are extrapolated via the Kriging algorithm to provide prior information for the prediction of currently being excavated ground properties. The real-time information refers to the real-time operating parameters of the EPB shield, which are input into random forest to provide a real-time prediction of ground properties. The integration of these two predictions is achieved by assigning weights to each prediction according to their uncertainties, ensuring the prediction of KRF with minimum uncertainty. The performance of the KRF algorithm is assessed via a case study of the Changsha Metro Line 4 project. It reveals that the proposed KRF algorithm can predict ground properties with an accuracy of 93%, overperforming the existing algorithms of LightGBM, AdaBoost-CART, and DNN by 29%, 8%, and 12%, respectively. Another dataset from Shenzhen Metro Line 13 project is utilized to further evaluate the model generalization performance, revealing that the model can transfer its learned knowledge from one region to another with an accuracy of 89%.
翻訳日:2023-05-10 14:03:24 公開日:2023-05-09
# SRIL: クラス増分学習のための選択正規化

SRIL: Selective Regularization for Class-Incremental Learning ( http://arxiv.org/abs/2305.05175v1 )

ライセンス: Link先を確認
Jisu Han, Jaemin Na, Wonjun Hwang(参考訳) 人間の知性は新しい情報を受け入れ、生涯を通じて知識を蓄積する。 しかし、深層学習モデルは、新しい情報を取得する際に以前の知識を忘れてしまうような破滅的な現象に苦しむ。 クラスインクリメンタルラーニングは、この課題を克服するために、可塑性と安定性のバランスをとる統合モデルを作成することを目的としている。 本稿では,従来の知識を維持しつつ新しい知識を受け入れる選択的正規化手法を提案する。 まず,認知科学にインスパイアされた新旧クラスの非対称な特徴蒸留法を紹介し,分類の勾配と知識蒸留の損失を利用して,パターン完備化やパターン分離を行うかを決定する。 また,安定性と可塑性のバランスを保ちつつ,先行モデルの重みを選択的に補間する手法を提案し,モデルの信頼性を保ち,先行クラスの性能を確実にし,探索学習を可能にする。 提案手法の有効性を検証するために,cifar-100,imagenet-subset,imagenet-fullを用いた広範囲な実験プロトコルを用いた。

Human intelligence gradually accepts new information and accumulates knowledge throughout the lifespan. However, deep learning models suffer from a catastrophic forgetting phenomenon, where they forget previous knowledge when acquiring new information. Class-Incremental Learning aims to create an integrated model that balances plasticity and stability to overcome this challenge. In this paper, we propose a selective regularization method that accepts new knowledge while maintaining previous knowledge. We first introduce an asymmetric feature distillation method for old and new classes inspired by cognitive science, using the gradient of classification and knowledge distillation losses to determine whether to perform pattern completion or pattern separation. We also propose a method to selectively interpolate the weight of the previous model for a balance between stability and plasticity, and we adjust whether to transfer through model confidence to ensure the performance of the previous class and enable exploratory learning. We validate the effectiveness of the proposed method, which surpasses the performance of existing methods through extensive experimental protocols using CIFAR-100, ImageNet-Subset, and ImageNet-Full.
翻訳日:2023-05-10 13:57:08 公開日:2023-05-09
# 説明可能なAIのための論理

Logic for Explainable AI ( http://arxiv.org/abs/2305.05172v1 )

ライセンス: Link先を確認
Adnan Darwiche(参考訳) 説明可能なAIにおける中心的な探求は、(学習された)分類器による決定を理解することである。 この理解には、近年大きな注目を集めている3つの側面がある。 最初の次元は、決定に必要で十分なインスタンスの条件を特徴づけることに関連しており、したがって"決定の背後にある理由"と見なされるインスタンスの抽象化を提供する。 次の次元は、決定に十分な最小条件を特徴付けることに関連するため、決定に無関係なインスタンスの最大側面を特定する。 最後の次元は、決定に必要な最小条件を特徴づけることに関係し、それゆえ、代替決定を与えるインスタンスに対する最小摂動を識別する。 本稿では,近年の記号論理学の発展を基盤とした,説明可能性の包括的,意味論的,計算論的に考察する。 チュートリアルでは、この理論が、ベイズネットワーク、決定木、ランダムフォレスト、およびいくつかのタイプのニューラルネットワークに基づく非記号的分類器に特にどのように適用されるかについても論じる。

A central quest in explainable AI relates to understanding the decisions made by (learned) classifiers. There are three dimensions of this understanding that have been receiving significant attention in recent years. The first dimension relates to characterizing conditions on instances that are necessary and sufficient for decisions, therefore providing abstractions of instances that can be viewed as the "reasons behind decisions." The next dimension relates to characterizing minimal conditions that are sufficient for a decision, therefore identifying maximal aspects of the instance that are irrelevant to the decision. The last dimension relates to characterizing minimal conditions that are necessary for a decision, therefore identifying minimal perturbations to the instance that yield alternate decisions. We discuss in this tutorial a comprehensive, semantical and computational theory of explainability along these dimensions which is based on some recent developments in symbolic logic. The tutorial will also discuss how this theory is particularly applicable to non-symbolic classifiers such as those based on Bayesian networks, decision trees, random forests and some types of neural networks.
翻訳日:2023-05-10 13:56:49 公開日:2023-05-09
# 正確な長さ制御による要約

Summarization with Precise Length Control ( http://arxiv.org/abs/2305.05171v1 )

ライセンス: Link先を確認
Lesly Miculicich, Yujia Xie, Song Wang, Pengcheng He(参考訳) 要約などのテキスト生成の多くの応用は、テキストの長さを正確に制御する利点がある。 既存の長さ制御の要約に対するアプローチでは、性能が劣化するか、長さをほぼ制御できる。 本研究では,テキストの品質を維持・改善しつつ,指定されたトークン数や文数を正確に生成するフレームワークを提案する。 さらに,モデルを協調訓練して長さを予測することにより,最適な長さの要約を生成できる。 提案したフレームワークをCNNDMデータセット上で評価し,既存手法と比較して性能が向上したことを示す。

Many applications of text generation such as summarization benefit from accurately controlling the text length. Existing approaches on length-controlled summarization either result in degraded performance or can only control the length approximately. In this work, we present a framework to generate summaries with precisely the specified number of tokens or sentences, while maintaining or even improving the text quality. In addition, we jointly train the models to predict the lengths, so our model can generate summaries with optimal length. We evaluate the proposed framework on the CNNDM dataset and show improved performance compared to existing methods.
翻訳日:2023-05-10 13:56:29 公開日:2023-05-09
# 量子コンピュータ上の多体系シミュレーションのための量子フローアルゴリズム

Quantum flow algorithms for simulating many-body systems on quantum computers ( http://arxiv.org/abs/2305.05168v1 )

ライセンス: Link先を確認
Karol Kowalski, Nicholas P. Bauman(参考訳) 我々は,次元活性空間の縮小した固有値問題を通じてヒルベルト空間の大規模部分空間をサンプリングする量子フロー (QFlow) 法を用いて,強相関系の量子シミュレーションを行った。 我々のQFlowアルゴリズムは回路の複雑さを大幅に減らし、スケーラブルで一定の回路幅の量子コンピューティングの道を開く。 シミュレーションにより,QFlowは必要量子ビットを増大させることなく,パラメータの桁数が桁違いに少ないアクティブ空間を用いて,波動関数パラメータの集合数を最適化できることを示した。

We conducted quantum simulations of strongly correlated systems using the quantum flow (QFlow) approach, which enables sampling large sub-spaces of the Hilbert space through coupled eigenvalue problems in reduced dimensionality active spaces. Our QFlow algorithms significantly reduce circuit complexity and pave the way for scalable and constant-circuit-depth quantum computing. Our simulations show that QFlow can optimize the collective number of wave function parameters without increasing the required qubits using active spaces having an order of magnitude fewer number of parameters.
翻訳日:2023-05-10 13:56:21 公開日:2023-05-09
# E2TIMT:テキスト画像翻訳のための効率よく効果的なモーダルアダプタ

E2TIMT: Efficient and Effective Modal Adapter for Text Image Machine Translation ( http://arxiv.org/abs/2305.05166v1 )

ライセンス: Link先を確認
Cong Ma, Yaping Zhang, Mei Tu, Yang Zhao, Yu Zhou, Chengqing Zong(参考訳) テキスト画像機械翻訳(TIMT)は、画像に埋め込まれたテキストをあるソース言語から別のターゲット言語に翻訳することを目的としている。 2段階カスケードと1段階のエンドツーエンドアーキテクチャの両方の既存のメソッドは、異なる問題を抱えている。 カスケードモデルは、大規模光学文字認識(ocr)とmtデータセットの恩恵を受けるが、2段階アーキテクチャは冗長である。 エンドツーエンドモデルは効率的だが、トレーニングデータ不足に苦しむ。 そこで本稿では,既存のocrおよびmtデータセットの知識を十分に活用し,効率的かつ効率的なフレームワークを追求する,エンドツーエンドのtimtモデルを提案する。 具体的には、OCRエンコーダとMTデコーダを効果的にブリッジする新しいモーダルアダプタを構築する。 OCRタスクとMTタスクの特徴分布を整合させるために、エンドツーエンドのTIMT損失とクロスモーダルのコントラスト損失を併用する。 広範な実験により,提案手法が従来の2段カスケードモデルや1段のエンドツーエンドモデルよりも軽量で高速なアーキテクチャで優れていることが示された。 さらに,提案手法はocrモデルとmtモデルの橋渡しに有効であるため,アブレーション研究により一般化が検証された。

Text image machine translation (TIMT) aims to translate texts embedded in images from one source language to another target language. Existing methods, both two-stage cascade and one-stage end-to-end architectures, suffer from different issues. The cascade models can benefit from the large-scale optical character recognition (OCR) and MT datasets but the two-stage architecture is redundant. The end-to-end models are efficient but suffer from training data deficiency. To this end, in our paper, we propose an end-to-end TIMT model fully making use of the knowledge from existing OCR and MT datasets to pursue both an effective and efficient framework. More specifically, we build a novel modal adapter effectively bridging the OCR encoder and MT decoder. End-to-end TIMT loss and cross-modal contrastive loss are utilized jointly to align the feature distribution of the OCR and MT tasks. Extensive experiments show that the proposed method outperforms the existing two-stage cascade models and one-stage end-to-end models with a lighter and faster architecture. Furthermore, the ablation studies verify the generalization of our method, where the proposed modal adapter is effective to bridge various OCR and MT models.
翻訳日:2023-05-10 13:56:12 公開日:2023-05-09
# ワクチン優先順位付けのためのグラフニューラルネットワークと深層強化学習

Cooperating Graph Neural Networks with Deep Reinforcement Learning for Vaccine Prioritization ( http://arxiv.org/abs/2305.05163v1 )

ライセンス: Link先を確認
Lu Ling, Washim Uddin Mondal, Satish V, Ukkusuri(参考訳) 本研究は,供給制限時のパンデミックの全体負担を軽減するためのワクチン優先戦略を検討する。 既存手法では, サブグループ集団内での均一な挙動を仮定し, 移動力学統合の欠如を仮定し, マクロレベルあるいは簡易なマイクロレベルワクチン配布を行っている。 マイクロレベルのワクチンアロケーションにこれらのモデルを直接適用すると、行動に関する詳細が欠如しているため、準最適解が得られる。 この問題に対処するために,我々はまず,トランスワクチン-SEIRモデルを用いて病気の進化過程を模倣し,病気の動態モデリングにモビリティの不均一性を取り入れた。 そこで我々は,高次空間時間病進化システムのための最適なワクチン配置戦略を求めるための,新しい深層強化学習を開発した。 グラフニューラルネットワークは、モビリティコンタクトネットワークの構造特性を効果的に捉え、動的疾患の特徴を抽出するために使用される。 本評価では, 基本戦略よりも7%~10%の感染, 死亡率の低下が認められた。 網羅的評価により,マイクロレベル疾患進化システムにおいて,多様なモビリティパターンを用いた最適なワクチン配置を求めることが示唆された。 特に,交通利用制限シナリオにおける最適なワクチン割当戦略は,トップ10%の年齢層と所得層におけるクロスゾーン移動を制限するよりも,はるかに効果的であることがわかった。 これらの結果は、限られたワクチンとロジスティックな効果の低い領域に対して貴重な洞察を与える。

This study explores the vaccine prioritization strategy to reduce the overall burden of the pandemic when the supply is limited. Existing methods conduct macro-level or simplified micro-level vaccine distribution by assuming the homogeneous behavior within subgroup populations and lacking mobility dynamics integration. Directly applying these models for micro-level vaccine allocation leads to sub-optimal solutions due to the lack of behavioral-related details. To address the issue, we first incorporate the mobility heterogeneity in disease dynamics modeling and mimic the disease evolution process using a Trans-vaccine-SEIR model. Then we develop a novel deep reinforcement learning to seek the optimal vaccine allocation strategy for the high-degree spatial-temporal disease evolution system. The graph neural network is used to effectively capture the structural properties of the mobility contact network and extract the dynamic disease features. In our evaluation, the proposed framework reduces 7% - 10% of infections and deaths than the baseline strategies. Extensive evaluation shows that the proposed framework is robust to seek the optimal vaccine allocation with diverse mobility patterns in the micro-level disease evolution system. In particular, we find the optimal vaccine allocation strategy in the transit usage restriction scenario is significantly more effective than restricting cross-zone mobility for the top 10% age-based and income-based zones. These results provide valuable insights for areas with limited vaccines and low logistic efficacy.
翻訳日:2023-05-10 13:55:50 公開日:2023-05-09
# ラベル内アライメントによる効果的な医療コード予測

Effective Medical Code Prediction via Label Internal Alignment ( http://arxiv.org/abs/2305.05162v1 )

ライセンス: Link先を確認
Guodong Liu(参考訳) 臨床ノートは通常、医師によってシステムにタイプされる。 これらは通常、標準的な医療コードによってマークされ、それぞれのコードは診断または治療手順を表す。 これらのノートに注釈をつけるのは時間がかかり、エラーを起こしやすい。 本稿では,臨床テキストから医用コードを予測するために,多視点注意型ニューラルネットワークを提案する。 本手法は,3つの情報,臨床テキストの意味的文脈,ラベル(医療コード)空間間の関係,臨床テキストと医療コード間のアライメントの3つの側面を包含する。 本手法はオープンソースデータセット上で有効であることを確認した。 実験結果から,本手法は従来手法よりも性能が向上することが示された。

The clinical notes are usually typed into the system by physicians. They are typically required to be marked by standard medical codes, and each code represents a diagnosis or medical treatment procedure. Annotating these notes is time consuming and prone to error. In this paper, we proposed a multi-view attention based Neural network to predict medical codes from clinical texts. Our method incorporates three aspects of information, the semantic context of the clinical text, the relationship among the label (medical codes) space, and the alignment between each pair of a clinical text and medical code. Our method is verified to be effective on the open source dataset. The experimental result shows that our method achieves better performance against the prior state-of-art on multiple metrics.
翻訳日:2023-05-10 13:55:25 公開日:2023-05-09
# 小児パームID : 無接触パームプリント認識

Child Palm-ID: Contactless Palmprint Recognition for Children ( http://arxiv.org/abs/2305.05161v1 )

ライセンス: Link先を確認
Akash Godbole, Steven A. Grosz, and Anil K. Jain(参考訳) 子ども、特に幼児や幼児に対する栄養・医療援助の効果的な分布は、信頼性の高い識別文書が欠如しているため、世界の未発達国や貧困国の一部で大きな問題となっている。 生体認証技術は、信頼できるID文書がない場合に、児童認識に対処するために研究されている。 本研究では,子どもの認識におけるユーザビリティ,衛生,コスト,精度の要件を満たす,携帯型非接触型ヤシ指紋認識システムであるChild Palm-IDを提案する。 1,020個の特異な手のひらから19,158枚の画像(年齢は6 mm から48 mos まで)からなる非接触型児童用パームプリントデータベース child-palmdb1 を用いて,tar=94.11% @ far=0.1% を報告した。 提案されたChild Palm-IDシステムは成人を認識でき、CAIAの接触のないヤシプリントデータベースではTAR=99.4%、COEPの接触のない成人ヤシプリントデータベースではTAR=100%を達成する。 これらの評価はCOTSシステムが提供するSOTAと競合する。 これらの高い精度にもかかわらず、時間分離された子パルムプリントのタールは78.1% @ far=0.1%である。

Effective distribution of nutritional and healthcare aid for children, particularly infants and toddlers, in some of the least developed and most impoverished countries of the world, is a major problem due to the lack of reliable identification documents. Biometric authentication technology has been investigated to address child recognition in the absence of reliable ID documents. We present a mobile-based contactless palmprint recognition system, called Child Palm-ID, which meets the requirements of usability, hygiene, cost, and accuracy for child recognition. Using a contactless child palmprint database, Child-PalmDB1, consisting of 19,158 images from 1,020 unique palms (in the age range of 6 mos. to 48 mos.), we report a TAR=94.11% @ FAR=0.1%. The proposed Child Palm-ID system is also able to recognize adults, achieving a TAR=99.4% on the CASIA contactless palmprint database and a TAR=100% on the COEP contactless adult palmprint database, both @ FAR=0.1%. These accuracies are competitive with the SOTA provided by COTS systems. Despite these high accuracies, we show that the TAR for time-separated child-palmprints is only 78.1% @ FAR=0.1%.
翻訳日:2023-05-10 13:55:14 公開日:2023-05-09
# オープン多エージェントシステムにおけるRL改善のための潜在対話型A2C

Latent Interactive A2C for Improved RL in Open Many-Agent Systems ( http://arxiv.org/abs/2305.05159v1 )

ライセンス: Link先を確認
Keyang He, Prashant Doshi, Bikramjit Banerjee(参考訳) 集中型トレーニングを行うマルチエージェント強化学習(marl)手法が普及している。 しかし、これらの方法には他のエージェントから様々な種類の情報を取得することが含まれており、競合や敵対的な設定では実現不可能である。 最近の方法であるinteractive advantage actor critic(ia2c)は、分散実行と並行して分散トレーニングを行い、他のエージェントの行動を潜在的に騒がしい観察から予測することを目的としている。 本稿では,エンコーダ・デコーダアーキテクチャを用いて隠れ状態やその他のエージェントの動作の潜在表現を学習する潜時IA2Cを提案する。 多数のエージェントが居住する2つの領域における実験により,潜伏型IA2Cは分散の低減と収束の高速化により試料効率を著しく向上することが明らかとなった。 さらに,エージェントの個体数が時間とともに変化する可能性のあるこれらのドメインのオープンバージョンを導入し,これらのインスタンスについても評価する。

There is a prevalence of multiagent reinforcement learning (MARL) methods that engage in centralized training. But, these methods involve obtaining various types of information from the other agents, which may not be feasible in competitive or adversarial settings. A recent method, the interactive advantage actor critic (IA2C), engages in decentralized training coupled with decentralized execution, aiming to predict the other agents' actions from possibly noisy observations. In this paper, we present the latent IA2C that utilizes an encoder-decoder architecture to learn a latent representation of the hidden state and other agents' actions. Our experiments in two domains -- each populated by many agents -- reveal that the latent IA2C significantly improves sample efficiency by reducing variance and converging faster. Additionally, we introduce open versions of these domains where the agent population may change over time, and evaluate on these instances as well.
翻訳日:2023-05-10 13:54:47 公開日:2023-05-09
# 弱教師付きセマンティックセグメンテーションのためのマルチグラニュリティデノジングと双方向アライメント

Multi-Granularity Denoising and Bidirectional Alignment for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2305.05154v1 )

ライセンス: Link先を確認
Tao Chen, Yazhou Yao and Jinhui Tang(参考訳) クラスアクティベーションマップ(CAM)に依存した弱教師付きセマンティックセグメンテーション(WSSS)モデルは、非CAMのセマンティックセグメンテーションと比較して望ましい性能を達成した。 しかし、WSSSタスクを確実にするためには、複雑で時間を要するCAMから種を拡張して擬似ラベルを生成する必要があるため、効率的なエンドツーエンド(単一段階)WSSSアプローチの設計を妨げる。 以上のジレンマに対処するために、画像レベルのクラスラベルを付与した擬似ラベルを直接取得するために、既成でアクセスしやすいサリエンシマップを利用する。 それでも、健全な領域はノイズのあるラベルを含んでいて、対象のオブジェクトにシームレスに適合できないため、単一クラスオブジェクトを含む単純な画像に対して、サリエンシマップを擬似ラベルとして近似することができる。 したがって、これらの単純な画像で達成されたセグメンテーションモデルは、多クラスオブジェクトを含む複雑な画像に対してうまく一般化できない。 この目的のために,雑音ラベルと多クラス一般化問題を緩和するために,エンド・ツー・エンドのマルチグラニュラリティ・デノナイズと双方向アライメント(MDBA)モデルを提案する。 具体的には,画像レベルおよび画素レベルノイズに対応するオンラインノイズフィルタリングとプログレッシブノイズ検出モジュールを提案する。 さらに, 画像合成と複雑な対向学習を用いて, 入力空間と出力空間の双方におけるデータ分布ギャップを低減するための双方向アライメント機構を提案する。 MDBAはPASCAL VOC 2012データセットの検証とテストセットにおいて69.5\%と70.2\%のmIoUに達することができる。 ソースコードとモデルは \url{https://github.com/NUST-Machine-Intelligence-Laboratory/MDBA} で公開されている。

Weakly supervised semantic segmentation (WSSS) models relying on class activation maps (CAMs) have achieved desirable performance comparing to the non-CAMs-based counterparts. However, to guarantee WSSS task feasible, we need to generate pseudo labels by expanding the seeds from CAMs which is complex and time-consuming, thus hindering the design of efficient end-to-end (single-stage) WSSS approaches. To tackle the above dilemma, we resort to the off-the-shelf and readily accessible saliency maps for directly obtaining pseudo labels given the image-level class labels. Nevertheless, the salient regions may contain noisy labels and cannot seamlessly fit the target objects, and saliency maps can only be approximated as pseudo labels for simple images containing single-class objects. As such, the achieved segmentation model with these simple images cannot generalize well to the complex images containing multi-class objects. To this end, we propose an end-to-end multi-granularity denoising and bidirectional alignment (MDBA) model, to alleviate the noisy label and multi-class generalization issues. Specifically, we propose the online noise filtering and progressive noise detection modules to tackle image-level and pixel-level noise, respectively. Moreover, a bidirectional alignment mechanism is proposed to reduce the data distribution gap at both input and output space with simple-to-complex image synthesis and complex-to-simple adversarial learning. MDBA can reach the mIoU of 69.5\% and 70.2\% on validation and test sets for the PASCAL VOC 2012 dataset. The source codes and models have been made available at \url{https://github.com/NUST-Machine-Intelligence-Laboratory/MDBA}.
翻訳日:2023-05-10 13:54:30 公開日:2023-05-09
# ハードサンプル活用によるビジュアル言語モデルの促進

Boosting Visual-Language Models by Exploiting Hard Samples ( http://arxiv.org/abs/2305.05208v1 )

ライセンス: Link先を確認
Haonan Wang, Minbin Huang, Runhui Huang, Lanqing Hong, Hang Xu, Tianyang Hu, Xiaodan Liang, Zhenguo Li(参考訳) Contrastive Language-Image Pre-Training (CLIP)のような大きなビジョンと言語モデルは、画像とテキストをマッチングする業界標準として急速に普及している。 ゼロショット認識性能を改善するため、現在の研究はウェブに拡大した画像テキストペアを追加するか、新たなトレーニング損失を設計する。 しかしながら、スクラッチからのトレーニングとデータ収集に関連する追加コストは、そのデプロイメントを著しく妨げます。 本稿では,オリジナルトレーニングデータに対してハードサンプルを微調整することにより,訓練されたクリップモデルの性能を向上させるための低コスト戦略であるhelipを提案する。 各バッチにハードサンプルを混合すると、よく訓練されたCLIPモデルは、従来のコントラストアライメント目標とマージン損失を用いて微調整され、正規データとハードネガティブデータを区別する。 helipは既存のモデルにプラグアンドプレイ方式でデプロイされる。 包括的なゼロショットと検索のベンチマークでは、モデルをスクラッチからトレーニングしたり、追加データを利用することなく、HELIPは一貫して既存のモデルを強化し、パフォーマンスを向上する。 特にHELIPは、それぞれCC3MとCC12Mで事前訓練されたときに、イメージネットによるSLIPのゼロショット精度を3.05と447に向上させる。 さらに,細粒度分類データセットを用いたゼロショットおよび線形探索実験の系統的評価により,一貫した性能向上を示し,HELIPの有効性を検証した。 CC3Mでの事前トレーニングでは、平均でCLIPとSLIPのゼロショット性能を8.4\%、平均で18.6\%、線形プローブ性能を9.5\%、平均で3.0\%向上させる。

Large vision and language models, such as Contrastive Language-Image Pre-training (CLIP), are rapidly becoming the industry norm for matching images and texts. In order to improve its zero-shot recognition performance, current research either adds additional web-crawled image-text pairs or designs new training losses. However, the additional costs associated with training from scratch and data collection substantially hinder their deployment. In this paper, we present HELIP, a low-cost strategy for boosting the performance of well-trained CLIP models by finetuning them with hard samples over original training data. Mixing hard examples into each batch, the well-trained CLIP model is then fine-tuned using the conventional contrastive alignment objective and a margin loss to distinguish between normal and hard negative data. HELIP is deployed in a plug-and-play fashion to existing models. On a comprehensive zero-shot and retrieval benchmark, without training the model from scratch or utilizing additional data, HELIP consistently boosts existing models to achieve leading performance. In particular, HELIP boosts ImageNet zero-shot accuracy of SLIP by 3.05 and 4.47 when pretrained on CC3M and CC12M respectively. In addition, a systematic evaluation of zero-shot and linear probing experiments across fine-grained classification datasets demonstrates a consistent performance improvement and validates the efficacy of HELIP . When pretraining on CC3M, HELIP boosts zero-shot performance of CLIP and SLIP by 8.4\% and 18.6\% on average respectively, and linear probe performance by 9.5\% and 3.0\% on average respectively.
翻訳日:2023-05-10 13:47:59 公開日:2023-05-09
# LSAS:アテンションバイアス問題を軽減する軽量サブアテンション戦略

LSAS: Lightweight Sub-attention Strategy for Alleviating Attention Bias Problem ( http://arxiv.org/abs/2305.05200v1 )

ライセンス: Link先を確認
Shanshan Zhong, Wushao Wen, Jinghui Qin, Qiangpu Chen, Zhongzhan Huang(参考訳) コンピュータビジョンでは、ディープニューラルネットワーク(DNN)の性能は特徴抽出能力、すなわち画像内の重要なピクセル領域を認識し、焦点を合わせる能力に強く関係している。 位置バイアス: DNNはラベル非依存の領域に完全にフォーカスする; (2) 範囲バイアス: DNNの焦点領域は理想の領域に完全に含まれていない。 さらに,既存の自己着在加群は,これらのバイアスをある程度緩和することができるが,そのバイアスはいまだに無視できない。 それらをさらに緩和するために,高次サブアテンションモジュールを用いた軽量サブアテンション戦略 (lsas) を提案する。 LSASの有効性は、広く使われているベンチマークデータセットや一般的な注目ネットワーク上での広範な実験によって実証される。 我々は、他の研究者がLSAS~\footnote{https://github.com/Qrange-group/LSAS}の結果を再現するのを手助けするコードをリリースした。

In computer vision, the performance of deep neural networks (DNNs) is highly related to the feature extraction ability, i.e., the ability to recognize and focus on key pixel regions in an image. However, in this paper, we quantitatively and statistically illustrate that DNNs have a serious attention bias problem on many samples from some popular datasets: (1) Position bias: DNNs fully focus on label-independent regions; (2) Range bias: The focused regions from DNN are not completely contained in the ideal region. Moreover, we find that the existing self-attention modules can alleviate these biases to a certain extent, but the biases are still non-negligible. To further mitigate them, we propose a lightweight sub-attention strategy (LSAS), which utilizes high-order sub-attention modules to improve the original self-attention modules. The effectiveness of LSAS is demonstrated by extensive experiments on widely-used benchmark datasets and popular attention networks. We release our code to help other researchers to reproduce the results of LSAS~\footnote{https://github.com/Qrange-group/LSAS}.
翻訳日:2023-05-10 13:47:30 公開日:2023-05-09
# cola: 因果推論の観点から見た文脈化コモンセンス因果推論

COLA: Contextualized Commonsense Causal Reasoning from the Causal Inference Perspective ( http://arxiv.org/abs/2305.05191v1 )

ライセンス: Link先を確認
Zhaowei Wang, Quyet V. Do, Hongming Zhang, Jiayao Zhang, Weiqi Wang, Tianqing Fang, Yangqiu Song, Ginny Y. Wong, Simon See(参考訳) イベント間のコモンセンス因果関係(因果関係)の検出は、長い間必要不可欠な課題であった。 イベントが複雑であることを考えると、イベントはさまざまなコンテキストで異なる原因を持つ可能性がある。 したがって、文脈の活用は因果関係を検出する上で重要な役割を果たす。 一方、コモンセンス因果関係に関する以前の研究は2つのイベントのみを考慮し、それらのコンテキストを無視し、タスクの定式化を単純化した。 本稿では,コンテクスト化コモンセンス因果推論(contextized commonsense causal reasoning)と呼ばれる,イベントシーケンス内の2つのイベント(コンテキスト)間のコモンセンス因果関係を検出する新しいタスクを提案する。 因果推論の観点からタスクを解決するために、COLA(Contextualized Commonsense Causality Reasoner)というゼロショットフレームワークも設計しています。 このフレームワークは、時間性から豊富なインシデント監視を取得し、複数のタイムスタンプから共変量をバランスさせ、相反する効果を取り除く。 大規模な実験により,COLAは基準線よりも高精度にコモンセンス因果性を検出することができた。

Detecting commonsense causal relations (causation) between events has long been an essential yet challenging task. Given that events are complicated, an event may have different causes under various contexts. Thus, exploiting context plays an essential role in detecting causal relations. Meanwhile, previous works about commonsense causation only consider two events and ignore their context, simplifying the task formulation. This paper proposes a new task to detect commonsense causation between two events in an event sequence (i.e., context), called contextualized commonsense causal reasoning. We also design a zero-shot framework: COLA (Contextualized Commonsense Causality Reasoner) to solve the task from the causal inference perspective. This framework obtains rich incidental supervision from temporality and balances covariates from multiple timestamps to remove confounding effects. Our extensive experiments show that COLA can detect commonsense causality more accurately than baselines.
翻訳日:2023-05-10 13:47:13 公開日:2023-05-09
# SUR-adapter: 大規模言語モデルを用いたテキスト・画像間の事前学習拡散モデルの実現

SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with Large Language Models ( http://arxiv.org/abs/2305.05189v1 )

ライセンス: Link先を確認
Shanshan Zhong, Zhongzhan Huang, Wushao Wen, Jinghui Qin, Liang Lin(参考訳) 拡散モデルは、テキスト対画像生成モデルとして人気を博し、テキストプロンプトによって導かれる高品質でコンテンツに富んだ画像を生成することができる。 しかし、入力プロンプトが簡潔なナラティブである場合、既存のモデルでは意味理解と常識推論に制限があり、結果として低品質の画像を生成する。 物語のプロンプトのキャパシティを向上させるために,事前学習した拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる単純なパラメータ効率の良い微調整手法を提案する。 この目標を達成するために、まず57,000以上の意味的に修正されたマルチモーダルサンプルからなる新しいデータセットSURDを収集、注釈付けします。 各サンプルには単純なナラティブプロンプト、複雑なキーワードベースのプロンプト、高品質の画像が含まれている。 次に, 物語プロンプトの意味表現を複雑なプロンプトに整合させ, 大規模言語モデル(llm)の知識を知識蒸留により超適応者に伝達することで, テキストから画像への高品質な意味表現を構築するための強力な意味理解と推論能力を得る。 画像品質の劣化を伴わない簡潔な自然言語の理解と推論を可能にするために,複数のLLMと一般的な事前学習拡散モデルを統合する実験を行った。 提案手法は,ユーザフレンドリーなテキスト・ツー・イメージ生成モデルの開発を,単純な物語のプロンプトと複雑なキーワードベースのプロンプトのセマンティックギャップを埋めることによって促進する可能性を示した。

Diffusion models, which have emerged to become popular text-to-image generation models, can produce high-quality and content-rich images guided by textual prompts. However, there are limitations to semantic understanding and commonsense reasoning in existing models when the input prompts are concise narrative, resulting in low-quality image generation. To improve the capacities for narrative prompts, we propose a simple-yet-effective parameter-efficient fine-tuning approach called the Semantic Understanding and Reasoning adapter (SUR-adapter) for pre-trained diffusion models. To reach this goal, we first collect and annotate a new dataset SURD which consists of more than 57,000 semantically corrected multi-modal samples. Each sample contains a simple narrative prompt, a complex keyword-based prompt, and a high-quality image. Then, we align the semantic representation of narrative prompts to the complex prompts and transfer knowledge of large language models (LLMs) to our SUR-adapter via knowledge distillation so that it can acquire the powerful semantic understanding and reasoning capabilities to build a high-quality textual semantic representation for text-to-image generation. We conduct experiments by integrating multiple LLMs and popular pre-trained diffusion models to show the effectiveness of our approach in enabling diffusion models to understand and reason concise natural language without image quality degradation. Our approach can make text-to-image diffusion models easier to use with better user experience, which demonstrates our approach has the potential for further advancing the development of user-friendly text-to-image generation models by bridging the semantic gap between simple narrative prompts and complex keyword-based prompts.
翻訳日:2023-05-10 13:46:56 公開日:2023-05-09
# DeepFire2:FPGA上の畳み込みニューラルネットワーク加速器

DeepFire2: A Convolutional Spiking Neural Network Accelerator on FPGAs ( http://arxiv.org/abs/2305.05187v1 )

ライセンス: Link先を確認
Myat Thu Linn Aung, Daniel Gerlinghoff, Chuping Qu, Liwei Yang, Tian Huang, Rick Siow Mong Goh, Tao Luo, Weng-Fai Wong(参考訳) 脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、統合と発火のニューロンによる従来のニューラルネットワークの乗算蓄積操作を置き換える。 これらのニューロンの特殊なハードウェア実装は、電力と性能の点で汎用デバイスよりも明らかに優れているが、大規模なニューラルネットワークを加速する場合、スケーラビリティに乏しい。 DeepFire2では,大規模ネットワーク層を複数のスーパーロジック領域に効率的にマッピングするハードウェアアーキテクチャを導入している。 これにより、リソースの割り当てと並列性がより制御され、スループットとエネルギー消費の両方の恩恵を受ける。 SNNの AND 操作を実装するためのルックアップテーブルの使用を避けることで、ロジックリソースによってレイヤサイズが制限されるのを防ぐことができる。 ディープパイプラインは、クロック速度を最大600MHzまで向上させるだけではない。 私たちは、以前のバージョンのDeepFireと比べてスループットと電力効率を2倍にしています。 重要なことは、毎秒1500フレーム以上のスループットを維持しながら、大きなImageNetモデルをデプロイできることです。

Brain-inspired spiking neural networks (SNNs) replace the multiply-accumulate operations of traditional neural networks by integrate-and-fire neurons, with the goal of achieving greater energy efficiency. Specialized hardware implementations of those neurons clearly have advantages over general-purpose devices in terms of power and performance, but exhibit poor scalability when it comes to accelerating large neural networks. DeepFire2 introduces a hardware architecture which can map large network layers efficiently across multiple super logic regions in a multi-die FPGA. That gives more control over resource allocation and parallelism, benefiting both throughput and energy consumption. Avoiding the use of lookup tables to implement the AND operations of an SNN, prevents the layer size to be limited by logic resources. A deep pipeline does not only lead to an increased clock speed of up to 600 MHz. We double the throughput and power efficiency compared to our previous version of DeepFire, which equates to an almost 10-fold improvement over other previous implementations. Importantly, we are able to deploy a large ImageNet model, while maintaining a throughput of over 1500 frames per second.
翻訳日:2023-05-10 13:46:21 公開日:2023-05-09
# csed:中国語意味的誤り診断コーパス

CSED: A Chinese Semantic Error Diagnosis Corpus ( http://arxiv.org/abs/2305.05183v1 )

ライセンス: Link先を確認
Bo Sun, Baoxin Wang, Yixuan Wang, Wanxiang Che, Dayong Wu, Shijin Wang and Ting Liu(参考訳) 近年,漢文誤り訂正作業の多くは,中国語綴りチェック(csc)と中国語文法誤り診断(cged)に焦点を当てている。 対照的に、関連するデータセットが欠如している中国のセマンティックエラー診断(CSED)の複雑な問題にはほとんど注意が払われていない。 意味的誤りの研究は非常に一般的であり、統語的不規則や理解の問題につながる可能性がある。 そこで我々は,2つのデータセットを含むCSEDコーパスを構築した。 1つはCSED-Recognition(CSED-R)タスクである。 もう1つはCSED-C(CSED-C)タスク用である。 我々のアノテーションは品質保証機構を通じて高品質なデータを保証する。 実験の結果,このコーパスでは強力な事前学習モデルの性能が低かった。 CSEDタスクは、人間でさえスコアが低いという事実によって証明されているように、難しい。 本稿では,CSEDタスクに適応する構文認識モデルを提案する。 実験の結果,構文認識アプローチの導入は有意義であることがわかった。

Recently, much Chinese text error correction work has focused on Chinese Spelling Check (CSC) and Chinese Grammatical Error Diagnosis (CGED). In contrast, little attention has been paid to the complicated problem of Chinese Semantic Error Diagnosis (CSED), which lacks relevant datasets. The study of semantic errors is important because they are very common and may lead to syntactic irregularities or even problems of comprehension. To investigate this, we build the CSED corpus, which includes two datasets. The one is for the CSED-Recognition (CSED-R) task. The other is for the CSED-Correction (CSED-C) task. Our annotation guarantees high-quality data through quality assurance mechanisms. Our experiments show that powerful pre-trained models perform poorly on this corpus. We also find that the CSED task is challenging, as evidenced by the fact that even humans receive a low score. This paper proposes syntax-aware models to specifically adapt to the CSED task. The experimental results show that the introduction of the syntax-aware approach is meaningful.
翻訳日:2023-05-10 13:45:51 公開日:2023-05-09
# MoT: ChatGPTを思い浮かべてリコールする

MoT: Pre-thinking and Recalling Enable ChatGPT to Self-Improve with Memory-of-Thoughts ( http://arxiv.org/abs/2305.05181v1 )

ライセンス: Link先を確認
Xiaonan Li, Xipeng Qiu(参考訳) 大規模言語モデルは様々なタスクで素晴らしい能力を発揮しています。 しかし、基本的には高品質なデータセットや計算コストの高い微調整に依存する。 逆に、人間は外部リソースを使わずに、思考と記憶によって容易に自分自身を改善することができる。 本稿では,注釈付きデータセットやパラメータ更新を使わずに,思考の記憶を通じてLLMを自己改善するフレームワークであるMoTを提案する。 具体的には、フレームワークは2つのステージに分けられる。 1. テストステージの前に、LLMはラベルなしデータセットを事前に考えさせ、信頼度の高い思考を外部メモリとして保存する。 2. 推論の間、テスト質問が与えられたとき、llmは関連するメモリを思い出させ、それ自身を推論し、答えさせる。 実験の結果,提案フレームワークはchatgptが数学推論,常識推論,事実推論,自然言語推論の能力を大幅に向上できることがわかった。 さらなる分析により、各コンポーネントが改善に決定的に寄与することが示された。

Large Language Models have shown impressive abilities on various tasks. However, fundamentally improving them depends on high-quality datasets or computationally expensive fine-tuning. On the contrary, human can easily improve themselves by thinking and memory, without external resources. In this paper, we propose a framework, MoT, to let the LLM self-improve through Memory of Thoughts, without annotated datasets and parameter updates. Specifically, the framework is divided into two stages: 1. before the test stage, we let the LLM pre-think on the unlabeled dataset and save the high-confidence thoughts as external memory; 2. during inference, given a test question, we let the LLM recall relevant memory to help itself reason and answer it. Experimental results show that the proposed framework can help ChatGPT significantly improve its abilities in math reasoning, commonsense reasoning, factual reasoning and natural language inference. Further analyses show that each component contributes critically to the improvements.
翻訳日:2023-05-10 13:45:29 公開日:2023-05-09
# 単純ホップフィールドネットワーク

Simplicial Hopfield networks ( http://arxiv.org/abs/2305.05179v1 )

ライセンス: Link先を確認
Thomas F Burns, Tomoki Fukai(参考訳) ホップフィールドネットワーク(hopfield network)は、ネットワークのエネルギー環境が記憶の周囲に惹きつけるような規則を更新し、再帰的な接続重みを選択することによって、ニューロンの状態の記憶パターンを記憶する人工ニューラルネットワークである。 そのようなネットワークに$N$のニューロンを使って、安定かつ十分なメモリパターンをいくつ保存できるだろうか? 答えはウェイトの選択と更新ルールに依存します。 生物学におけるセットワイズ接続にインスパイアされたホップフィールドネットワークは、セットワイズ接続を追加し、これらの接続を単純な複合体に埋め込むことによって拡張する。 単純複体 (simplicial complex) はグラフの高次元類似体であり、自然に対関係と集合関係の集合を表す。 単純なホップフィールドネットワークはメモリストレージ容量を増加させます。 驚くべきことに、接続が全ペアワイズネットワークと同サイズの小さなランダムなサブセットに制限されている場合でも、ネットワークはペアワイズネットワークよりも優れています。 そのようなシナリオには非自明な単純位相が含まれる。 また、類似の現代的な連続ホップフィールドネットワークをテストし、トランスフォーマーモデルのアテンションメカニズムを改善する可能性を秘めている。

Hopfield networks are artificial neural networks which store memory patterns on the states of their neurons by choosing recurrent connection weights and update rules such that the energy landscape of the network forms attractors around the memories. How many stable, sufficiently-attracting memory patterns can we store in such a network using $N$ neurons? The answer depends on the choice of weights and update rule. Inspired by setwise connectivity in biology, we extend Hopfield networks by adding setwise connections and embedding these connections in a simplicial complex. Simplicial complexes are higher dimensional analogues of graphs which naturally represent collections of pairwise and setwise relationships. We show that our simplicial Hopfield networks increase memory storage capacity. Surprisingly, even when connections are limited to a small random subset of equivalent size to an all-pairwise network, our networks still outperform their pairwise counterparts. Such scenarios include non-trivial simplicial topology. We also test analogous modern continuous Hopfield networks, offering a potentially promising avenue for improving the attention mechanism in Transformer models.
翻訳日:2023-05-10 13:45:07 公開日:2023-05-09
# ステレオ画像超解像のためのハイブリッドトランスとCNNアテンションネットワーク

Hybrid Transformer and CNN Attention Network for Stereo Image Super-resolution ( http://arxiv.org/abs/2305.05177v1 )

ライセンス: Link先を確認
Ming Cheng, Haoyu Ma, Qiufang Ma, Xiaopeng Sun, Weiqi Li, Zhenyu Zhang, Xuhan Sheng, Shijie Zhao, Junlin Li, Li Zhang(参考訳) 画像復元には多段階戦略がよく用いられる。 変換器を用いた手法は単一画像の超解像タスクでは高い効率性を示したが、ステレオ超解像タスクではCNN方式に比べて大きな利点は示されていない。 第一に、現在の単一画像の超解像変換器はプロセス中に相補的なステレオ情報を利用できないこと、第二に、変換器の性能は一般的に十分なデータに依存しており、一般的なステレオ画像の超解像アルゴリズムにはない。 これらの課題に対処するため,シングルイメージ拡張のためのトランスフォーマーネットワークとステレオ情報融合のためのCNNネットワークを利用するHybrid Transformer and CNN Attention Network (HTCAN)を提案する。 さらに、マルチパッチトレーニング戦略とウィンドウサイズを大きくして、高解像度の入力ピクセルを活性化する。 また,データ拡張,データアンサンブル,モデルアンサンブルといった他の高度な手法を見直し,オーバーフィッティングやデータバイアスを低減する。 最後に,NTIRE 2023 Stereo Image Super-Resolution Challengeのトラック1で23.90dBを獲得し,優勝者となった。

Multi-stage strategies are frequently employed in image restoration tasks. While transformer-based methods have exhibited high efficiency in single-image super-resolution tasks, they have not yet shown significant advantages over CNN-based methods in stereo super-resolution tasks. This can be attributed to two key factors: first, current single-image super-resolution transformers are unable to leverage the complementary stereo information during the process; second, the performance of transformers is typically reliant on sufficient data, which is absent in common stereo-image super-resolution algorithms. To address these issues, we propose a Hybrid Transformer and CNN Attention Network (HTCAN), which utilizes a transformer-based network for single-image enhancement and a CNN-based network for stereo information fusion. Furthermore, we employ a multi-patch training strategy and larger window sizes to activate more input pixels for super-resolution. We also revisit other advanced techniques, such as data augmentation, data ensemble, and model ensemble to reduce overfitting and data bias. Finally, our approach achieved a score of 23.90dB and emerged as the winner in Track 1 of the NTIRE 2023 Stereo Image Super-Resolution Challenge.
翻訳日:2023-05-10 13:44:37 公開日:2023-05-09
# FrugalGPT: コスト削減とパフォーマンス向上を両立させた大規模言語モデルの利用方法

FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance ( http://arxiv.org/abs/2305.05176v1 )

ライセンス: Link先を確認
Lingjiao Chen and Matei Zaharia and James Zou(参考訳) ユーザが料金を請求できる大規模言語モデル(llm)は急速に増えている。 GPT-4, ChatGPT, J1-Jumbo などの一般的な LLM API の問い合わせに伴うコストを概観し,これらのモデルが2桁の料金で異質な価格構造を持つことを見出した。 特に、大量のクエリとテキストのコレクションにllmを使用することは高価である。 そこで我々は,LLMの使用に伴う推論コストを削減するために,ユーザが活用できる3つの戦略の概要と議論を行った。 1)迅速な適応 2)llm近似、及び 3)LDMカスケード。 例えば、FrugalGPTは、LLMカスケードの単純かつ柔軟なインスタンス化であり、コスト削減と精度向上のために、異なるクエリに使用するLLMの組み合わせを学習する。 実験の結果,FrugalGPTは最高のLCM(例えばGPT-4)と最大98%のコスト削減を達成でき,同じコストでGPT-4の精度を4%向上できることがわかった。 ここで提示したアイデアと知見は,LLMを持続的かつ効率的に利用するための基礎を築いた。

There is a rapidly growing number of large language models (LLMs) that users can query for a fee. We review the cost associated with querying popular LLM APIs, e.g. GPT-4, ChatGPT, J1-Jumbo, and find that these models have heterogeneous pricing structures, with fees that can differ by two orders of magnitude. In particular, using LLMs on large collections of queries and text can be expensive. Motivated by this, we outline and discuss three types of strategies that users can exploit to reduce the inference cost associated with using LLMs: 1) prompt adaptation, 2) LLM approximation, and 3) LLM cascade. As an example, we propose FrugalGPT, a simple yet flexible instantiation of LLM cascade which learns which combinations of LLMs to use for different queries in order to reduce cost and improve accuracy. Our experiments show that FrugalGPT can match the performance of the best individual LLM (e.g. GPT-4) with up to 98% cost reduction or improve the accuracy over GPT-4 by 4% with the same cost. The ideas and findings presented here lay a foundation for using LLMs sustainably and efficiently.
翻訳日:2023-05-10 13:44:16 公開日:2023-05-09
# エッジクラウド連続体における量子コンピューティングのアーキテクチャビジョン

Architectural Vision for Quantum Computing in the Edge-Cloud Continuum ( http://arxiv.org/abs/2305.05238v1 )

ライセンス: Link先を確認
Alireza Furutanpey, Johanna Barzen, Marvin Bechtold, Schahram Dustdar, Frank Leymann, Philipp Raith, Felix Truger(参考訳) 量子処理ユニット(QPU)は現在、クラウドベンダーからのみ利用可能である。 しかし、最近の進歩により、QPUのホスティングはすぐに至るところで可能になる。 既存の研究はまだエッジコンピューティングの研究から、モバイルQPUを利用したシステムや、ハイブリッドアプリケーションが分散異種リソースの恩恵を受ける方法を探っている。 したがって、この研究はエッジクラウド連続体における量子コンピューティングのアーキテクチャを示す。 QPUを統合するために,従来のエッジコンピューティングにおける既存の作業を拡張する必要性,課題,ソリューションアプローチについて論じる。 ウォームスタートは、連続体全体に広がる階層的リソースを利用するワークフローをどのように定義できるかを説明する。 次に,複合古典量子ニューラルネットワーク(qnns)を用いた分散推論エンジンを提案する。 古典的層分割と量子回路切断に着目し,古典的および量子的計算を連続体全体にわたって活用する可能性を示す。 ビジョンの重要性と実現可能性を評価するため,古典的分割法を拡張して量子回路を統合することにより,解の質が向上することを示した。 具体的には、任意のハイブリッドQNN予測器を備えた分割ニューラルネットワークを実装する。 この結果から,従来の手法をQNNで拡張することは可能であり,今後の作業に有望であることが示唆された。

Quantum processing units (QPUs) are currently exclusively available from cloud vendors. However, with recent advancements, hosting QPUs is soon possible everywhere. Existing work has yet to draw from research in edge computing to explore systems exploiting mobile QPUs, or how hybrid applications can benefit from distributed heterogeneous resources. Hence, this work presents an architecture for Quantum Computing in the edge-cloud continuum. We discuss the necessity, challenges, and solution approaches for extending existing work on classical edge computing to integrate QPUs. We describe how warm-starting allows defining workflows that exploit the hierarchical resources spread across the continuum. Then, we introduce a distributed inference engine with hybrid classical-quantum neural networks (QNNs) to aid system designers in accommodating applications with complex requirements that incur the highest degree of heterogeneity. We propose solutions focusing on classical layer partitioning and quantum circuit cutting to demonstrate the potential of utilizing classical and quantum computation across the continuum. To evaluate the importance and feasibility of our vision, we provide a proof of concept that exemplifies how extending a classical partition method to integrate quantum circuits can improve the solution quality. Specifically, we implement a split neural network with optional hybrid QNN predictors. Our results show that extending classical methods with QNNs is viable and promising for future work.
翻訳日:2023-05-10 13:38:37 公開日:2023-05-09
# 空間的コントラストプレトレーニングを用いた訓練データに見る新しい道路の交通予測

Traffic Forecasting on New Roads Unseen in the Training Data Using Spatial Contrastive Pre-Training ( http://arxiv.org/abs/2305.05237v1 )

ライセンス: Link先を確認
Arian Prabowo, Wei Shao, Hao Xue, Piotr Koniusz, Flora D. Salim(参考訳) 常に新しい道路が建設されている。 しかし、トレーニングデータ(未確認道路)に見られない新しい道路に一般化する従来の深度予測モデルの能力は、ほとんど調査されていない。 そこで本稿では,spatio-temporal(st)スプリットと呼ばれる新しい設定を導入し,未発見の道路に一般化するモデルの能力を評価する。 この設定では、モデルは道路サンプルのデータに基づいてトレーニングされるが、トレーニングデータには見られない道路でテストされる。 また,空間コントラスト事前学習(SCPT)と呼ばれる新しいフレームワークを提案し,推定時間中に未確認道路から潜時特徴を抽出する空間エンコーダモジュールを提案する。 この空間エンコーダは、コントラスト学習を用いて事前訓練される。 推定中、空間エンコーダは新しい道路上の2日間の交通データしか必要とせず、再訓練は不要である。 また,空間エンコーダからの出力は,推定時間中に潜在ノードの埋め込みを推定するために効果的に使用できることを示す。 SCPTフレームワークはまた、空間エンコーダの出力から既存のバックボーンへの遅延特徴を効果的に結合するために、空間的にゲートされた加算(SGA)層と呼ばれる新しいレイヤも組み込んでいる。 また、未発見の道路には限られたデータがあるので、交通信号は自明に捕獲できる周期信号と捕獲が難しいマルコフ信号に分離し、空間エンコーダはマルコフ信号のみを学習する方がよいと論じている。 最後に、実世界の4つのデータセットのST分割設定を用いてSCPTを実証的に評価した。 その結果,背骨にSCPTを加えることで,見えない道路での予測性能が向上することがわかった。 さらに重要なのは、今後の予測では改善が進んでいることだ。

New roads are being constructed all the time. However, the capabilities of previous deep forecasting models to generalize to new roads not seen in the training data (unseen roads) are rarely explored. In this paper, we introduce a novel setup called a spatio-temporal (ST) split to evaluate the models' capabilities to generalize to unseen roads. In this setup, the models are trained on data from a sample of roads, but tested on roads not seen in the training data. Moreover, we also present a novel framework called Spatial Contrastive Pre-Training (SCPT) where we introduce a spatial encoder module to extract latent features from unseen roads during inference time. This spatial encoder is pre-trained using contrastive learning. During inference, the spatial encoder only requires two days of traffic data on the new roads and does not require any re-training. We also show that the output from the spatial encoder can be used effectively to infer latent node embeddings on unseen roads during inference time. The SCPT framework also incorporates a new layer, named the spatially gated addition (SGA) layer, to effectively combine the latent features from the output of the spatial encoder to existing backbones. Additionally, since there is limited data on the unseen roads, we argue that it is better to decouple traffic signals to trivial-to-capture periodic signals and difficult-to-capture Markovian signals, and for the spatial encoder to only learn the Markovian signals. Finally, we empirically evaluated SCPT using the ST split setup on four real-world datasets. The results showed that adding SCPT to a backbone consistently improves forecasting performance on unseen roads. More importantly, the improvements are greater when forecasting further into the future.
翻訳日:2023-05-10 13:38:16 公開日:2023-05-09
# DynamicKD: ギャップ最適化のための動的エントロピー補正に基づく効果的な知識蒸留

DynamicKD: An Effective Knowledge Distillation via Dynamic Entropy Correction-Based Distillation for Gap Optimizing ( http://arxiv.org/abs/2305.05233v1 )

ライセンス: Link先を確認
Songling Zhu, Ronghua Shang, Bo Yuan, Weitong Zhang, Yangyang Li, Licheng Jiao(参考訳) 知識蒸留はハイパフォーマンスな教師ネットワークを用いて学生ネットワークを指導する。 しかし、教師と生徒のネットワーク間のパフォーマンスギャップは、学生のトレーニングに影響を及ぼす可能性がある。 本稿では,教師の代わりに生徒を調整してギャップを減らすために,ダイナミックエントロピー補正に基づく新しい知識蒸留アルゴリズムを提案する。 まず, 学生における出力エントロピー(出力情報エントロピーのショート)の変化が蒸留損失に与える影響を理論的に分析した。 本稿では,出力エントロピーの補正によりギャップを低減できることを示す。 そして、ダイナミックエントロピー補正に基づく知識蒸留アルゴリズムを作成し、蒸留損失によって動的に更新されるエントロピーコントローラを用いて、出力エントロピーをリアルタイムで補正する。 提案アルゴリズムはCIFAR100とImageNetで検証される。 CIFAR100では,教師と学生のペアであるresnet32x4-resnet8x4に関する実験を行った。 提案アルゴリズムは,従来の蒸留アルゴリズムよりも2.64ポイント,最先端アルゴリズムであるCRDよりも0.87ポイント,その有効性と効率性を示す。

The knowledge distillation uses a high-performance teacher network to guide the student network. However, the performance gap between the teacher and student networks can affect the student's training. This paper proposes a novel knowledge distillation algorithm based on dynamic entropy correction to reduce the gap by adjusting the student instead of the teacher. Firstly, the effect of changing the output entropy (short for output information entropy) in the student on the distillation loss is analyzed in theory. This paper shows that correcting the output entropy can reduce the gap. Then, a knowledge distillation algorithm based on dynamic entropy correction is created, which can correct the output entropy in real-time with an entropy controller updated dynamically by the distillation loss. The proposed algorithm is validated on the CIFAR100 and ImageNet. The comparison with various state-of-the-art distillation algorithms shows impressive results, especially in the experiment on the CIFAR100 regarding teacher-student pair resnet32x4-resnet8x4. The proposed algorithm raises 2.64 points over the traditional distillation algorithm and 0.87 points over the state-of-the-art algorithm CRD in classification accuracy, demonstrating its effectiveness and efficiency.
翻訳日:2023-05-10 13:37:47 公開日:2023-05-09
# fednoro: クラス不均衡とラベルノイズの不均質性を考慮したノイズロバストフェデレーション学習に向けて

FedNoRo: Towards Noise-Robust Federated Learning by Addressing Class Imbalance and Label Noise Heterogeneity ( http://arxiv.org/abs/2305.05230v1 )

ライセンス: Link先を確認
Nannan Wu, Li Yu, Xuefeng Jiang, Kwang-Ting Cheng, Zengqiang Yan(参考訳) fnll(federated noise label learning)は、プライバシー保護のためのマルチソース分散学習のための有望なツールだ。 既存の研究は、クラスバランスの取れたグローバルデータの仮定に依存しており、複雑なラベルノイズ、特に医療シナリオをモデル化できない可能性がある。 本稿では,まず,グローバルデータがクラス不均衡であり,ラベルノイズが不均一である新しい,より現実的なフェデレートラベルノイズ問題を定式化し,ノイズロバストフェデレート学習のための2段階フレームワークfednoroを提案する。 具体的には、フェデノロの第1段階では、騒がしいクライアント識別のために、ガウス混合モデルに続くクラス毎の損失指標を配置する。 第2段階では、ノイズロバストフェデレーションモデル更新に知識蒸留と距離認識集約関数を併用する。 ICHおよびISIC2019データセットを用いた実験結果は、実世界のFLシナリオにおけるクラス不均衡とラベルノイズの不均一性に対処する最先端FNLL法に対するFedNoRoの優位性を示す。

Federated noisy label learning (FNLL) is emerging as a promising tool for privacy-preserving multi-source decentralized learning. Existing research, relying on the assumption of class-balanced global data, might be incapable to model complicated label noise, especially in medical scenarios. In this paper, we first formulate a new and more realistic federated label noise problem where global data is class-imbalanced and label noise is heterogeneous, and then propose a two-stage framework named FedNoRo for noise-robust federated learning. Specifically, in the first stage of FedNoRo, per-class loss indicators followed by Gaussian Mixture Model are deployed for noisy client identification. In the second stage, knowledge distillation and a distance-aware aggregation function are jointly adopted for noise-robust federated model updating. Experimental results on the widely-used ICH and ISIC2019 datasets demonstrate the superiority of FedNoRo against the state-of-the-art FNLL methods for addressing class imbalance and label noise heterogeneity in real-world FL scenarios.
翻訳日:2023-05-10 13:37:29 公開日:2023-05-09
# Semantic Embedded Deep Neural Network: マルチラベル画像分類性能向上のためのジェネリックアプローチ

Semantic Embedded Deep Neural Network: A Generic Approach to Boost Multi-Label Image Classification Performance ( http://arxiv.org/abs/2305.05228v1 )

ライセンス: Link先を確認
Xin Shen, Xiaonan Zhao, Rui Luo(参考訳) 細粒度のマルチラベル分類モデルは、ファッション属性の検出からブランド認識まで、視覚的なラベル予測など、amazonのプロダクション機能に幅広く応用されている。 実世界におけるこれらの分類タスクの満足な性能を達成するための課題の一つは、関心領域に焦点を絞って特定の領域に予測する無関係な画素を含む視覚的背景信号である。 本稿では,複数ラベル予測のためのモデル性能向上のための局所化ガイダンスを活用すべく,チャネル毎の注意に基づくモデルを取り入れた空間認識意味的特徴を応用した,汎用的意味埋め込み型深層ニューラルネットワークを提案する。 我々は,avg.relative improvement (avg.relative improvement) を全ラベルのaucスコアで15.27%向上させた。 コア実験とアブレーション研究は、Instagramのファッションアパレルの画像で実行されるマルチラベルファッション属性の分類を含む。 モデルのパフォーマンスを,我々のアプローチ,ベースラインアプローチ,セマンティック機能を活用する3つの代替アプローチと比較した。 結果は我々のアプローチに好成績を示した。

Fine-grained multi-label classification models have broad applications in Amazon production features, such as visual based label predictions ranging from fashion attribute detection to brand recognition. One challenge to achieve satisfactory performance for those classification tasks in real world is the wild visual background signal that contains irrelevant pixels which confuses model to focus onto the region of interest and make prediction upon the specific region. In this paper, we introduce a generic semantic-embedding deep neural network to apply the spatial awareness semantic feature incorporating a channel-wise attention based model to leverage the localization guidance to boost model performance for multi-label prediction. We observed an Avg.relative improvement of 15.27% in terms of AUC score across all labels compared to the baseline approach. Core experiment and ablation studies involve multi-label fashion attribute classification performed on Instagram fashion apparels' image. We compared the model performances among our approach, baseline approach, and 3 alternative approaches to leverage semantic features. Results show favorable performance for our approach.
翻訳日:2023-05-10 13:37:08 公開日:2023-05-09
# テキスト画像翻訳のためのマルチ教師知識蒸留

Multi-Teacher Knowledge Distillation For Text Image Machine Translation ( http://arxiv.org/abs/2305.05226v1 )

ライセンス: Link先を確認
Cong Ma, Yaping Zhang, Mei Tu, Yang Zhao, Yu Zhou, Chengqing Zong(参考訳) テキスト画像機械翻訳(TIMT)は様々な実世界のアプリケーションで広く使われており、画像中のソースコードを別のターゲット言語文に変換する。 既存のTIMTの手法は主に認識翻訳パイプラインモデルとエンドツーエンドモデルという2つのカテゴリに分けられる。 しかし、パイプラインモデルからエンドツーエンドモデルへの知識の転送方法は未解決の問題である。 本稿では,パイプラインモデルからエンド・ツー・エンドのTIMTモデルに知識を効果的に蒸留するための,MTKD(Multi-Teacher Knowledge Distillation)手法を提案する。 具体的には,3人の教師が,エンドツーエンドのTIMTモデルの性能向上に活用されている。 エンドツーエンドのTIMTモデルにおける画像エンコーダは、認識教師エンコーダからの知識蒸留誘導に最適化され、シーケンシャルエンコーダとデコーダは、翻訳シーケンシャルおよびデコーダ教師モデルからの知識を伝達することにより改善される。 さらに、翻訳性能を向上させるために、トークンと文レベルの知識蒸留が組み込まれている。 提案したMTKDは,テキスト画像変換性能を向上し,パラメータが少なく,復号時間が少なく,既存のエンドツーエンドモデルやパイプラインモデルよりも優れた性能を発揮することを示す。

Text image machine translation (TIMT) has been widely used in various real-world applications, which translates source language texts in images into another target language sentence. Existing methods on TIMT are mainly divided into two categories: the recognition-then-translation pipeline model and the end-to-end model. However, how to transfer knowledge from the pipeline model into the end-to-end model remains an unsolved problem. In this paper, we propose a novel Multi-Teacher Knowledge Distillation (MTKD) method to effectively distillate knowledge into the end-to-end TIMT model from the pipeline model. Specifically, three teachers are utilized to improve the performance of the end-to-end TIMT model. The image encoder in the end-to-end TIMT model is optimized with the knowledge distillation guidance from the recognition teacher encoder, while the sequential encoder and decoder are improved by transferring knowledge from the translation sequential and decoder teacher models. Furthermore, both token and sentence-level knowledge distillations are incorporated to better boost the translation performance. Extensive experimental results show that our proposed MTKD effectively improves the text image translation performance and outperforms existing end-to-end and pipeline models with fewer parameters and less decoding time, illustrating that MTKD can take advantage of both pipeline and end-to-end models.
翻訳日:2023-05-10 13:36:50 公開日:2023-05-09
# FishRecGAN: 魚眼矯正・校正のためのGANベースのネットワークの終了

FishRecGAN: An End to End GAN Based Network for Fisheye Rectification and Calibration ( http://arxiv.org/abs/2305.05222v1 )

ライセンス: Link先を確認
Xin Shen, Kyungdon Joo, Jean Oh(参考訳) 魚眼画像の修正とカメラ内在・歪みパラメータの校正を同時に行うエンドツーエンドのディープラーニング手法を提案する。 提案手法は,Pix2Pix GAN と Wasserstein GAN (W-Pix2PixGAN) で開発されたQuick Image Rectification Module と,CNNアーキテクチャによるキャリブレーションモジュールからなる。 高速整流ネットワークは、良好な解像度でロバスト整流を行い、カメラベースの監視機器の定常キャリブレーションに適している。 高品質キャリブレーションを実現するために,高速整流モジュールからのストレート出力をキャリブレーションモジュールの誘導的意味特徴マップとして使用し,ストレート化特徴と歪み特徴との幾何学的関係を学習する。 我々は、視点画像データセットによくシミュレーションされたパラメータをラベル付けした大規模な合成データセットを用いて、我々の手法を訓練し、検証する。 提案手法はPSNR値が22.343の高分解能で頑健な性能を実現している。

We propose an end-to-end deep learning approach to rectify fisheye images and simultaneously calibrate camera intrinsic and distortion parameters. Our method consists of two parts: a Quick Image Rectification Module developed with a Pix2Pix GAN and Wasserstein GAN (W-Pix2PixGAN), and a Calibration Module with a CNN architecture. Our Quick Rectification Network performs robust rectification with good resolution, making it suitable for constant calibration in camera-based surveillance equipment. To achieve high-quality calibration, we use the straightened output from the Quick Rectification Module as a guidance-like semantic feature map for the Calibration Module to learn the geometric relationship between the straightened feature and the distorted feature. We train and validate our method with a large synthesized dataset labeled with well-simulated parameters applied to a perspective image dataset. Our solution has achieved robust performance in high-resolution with a significant PSNR value of 22.343.
翻訳日:2023-05-10 13:36:25 公開日:2023-05-09
# BARA: クロスサイロ・フェデレーションラーニングにおけるオンラインリワード予算配分による効果的なインセンティブメカニズム

BARA: Efficient Incentive Mechanism with Online Reward Budget Allocation in Cross-Silo Federated Learning ( http://arxiv.org/abs/2305.05221v1 )

ライセンス: Link先を確認
Yunchao Yang, Yipeng Zhou, Miao Hu, Di Wu, Quan Z. Sheng(参考訳) Federated Learning(FL)は、データプライバシを保護可能な、予測可能な分散機械学習フレームワークである。 特に、クロスサイロFLは、複数の通信ラウンドのモデルパラメータを交換することで、異なる組織の孤立したデータアイランドをパラメータサーバ(PS)と協調させることで、モデルトレーニングを完了することができる。 クロスサイロFLでは、データ所有者がFLトレーニングにモデルを貢献するためのインセンティブメカニズムが不可欠である。 しかし、異なるラウンドに報酬予算を割り当てる方法は必須だが、既存の作業で見落とされがちな問題である。 この問題の課題は、報酬予算配分とモデルユーティリティ改善の間の不透明なフィードバックであり、最適な報酬予算割り当てを複雑にしている。 この問題を解決するために、BARA (\underline{B}udget \underline{A}llocation for \underline{R}everse \underline{A}uction) というベイズ最適化を用いたオンライン報酬予算配分アルゴリズムを設計する。 具体的には、通信ラウンド毎に割り当てられた報酬予算を動的に最適化し、最終モデルユーティリティを最大化できるように、歴史訓練記録に基づいてflにおける報酬予算割り当てと最終モデル精度との複雑な関係をモデル化することができる。 さらに,BARAアルゴリズムを逆オークションベースのインセンティブ機構に組み込んで,その有効性を示す。 実データセット上で大規模な実験を行い、BARAが同じ報酬予算でモデルユーティリティを改善することにより、競争ベースラインを著しく上回ることを示す。

Federated learning (FL) is a prospective distributed machine learning framework that can preserve data privacy. In particular, cross-silo FL can complete model training by making isolated data islands of different organizations collaborate with a parameter server (PS) via exchanging model parameters for multiple communication rounds. In cross-silo FL, an incentive mechanism is indispensable for motivating data owners to contribute their models to FL training. However, how to allocate the reward budget among different rounds is an essential but complicated problem largely overlooked by existing works. The challenge of this problem lies in the opaque feedback between reward budget allocation and model utility improvement of FL, making the optimal reward budget allocation complicated. To address this problem, we design an online reward budget allocation algorithm using Bayesian optimization named BARA (\underline{B}udget \underline{A}llocation for \underline{R}everse \underline{A}uction). Specifically, BARA can model the complicated relationship between reward budget allocation and final model accuracy in FL based on historical training records so that the reward budget allocated to each communication round is dynamically optimized so as to maximize the final model utility. We further incorporate the BARA algorithm into reverse auction-based incentive mechanisms to illustrate its effectiveness. Extensive experiments are conducted on real datasets to demonstrate that BARA significantly outperforms competitive baselines by improving model utility with the same amount of reward budget.
翻訳日:2023-05-10 13:36:05 公開日:2023-05-09
# データ駆動型段ボール箱定位のための新しい合成データツール

Novel Synthetic Data Tool for Data-Driven Cardboard Box Localization ( http://arxiv.org/abs/2305.05215v1 )

ライセンス: Link先を確認
Luk\'a\v{s} Gajdo\v{s}ech, Peter Krav\'ar(参考訳) ビンピッキングソリューションを備えた自動化ファクトリなどの産業環境におけるニューラルネットワークの適用には、大規模ラベル付きデータセットのコストがかかる。 本稿では,段ボール箱の手続きモデルを用いた自動データ生成ツールを提案する。 簡単なニューラルネットワークをトレーニングすることにより,システムの性能,各種パラメータ,および生成した合成データの有用性を実証的に実証する。 ツールによって生成されたサンプル合成データを公開する。

Application of neural networks in industrial settings, such as automated factories with bin-picking solutions requires costly production of large labeled data-sets. This paper presents an automatic data generation tool with a procedural model of a cardboard box. We briefly demonstrate the capabilities of the system, its various parameters and empirically prove the usefulness of the generated synthetic data by training a simple neural network. We make sample synthetic data generated by the tool publicly available.
翻訳日:2023-05-10 13:35:37 公開日:2023-05-09
# 語彙的類似性を利用した極低リソース言語におけるゼロショット機械翻訳

Utilizing Lexical Similarity to Enable Zero-Shot Machine Translation for Extremely Low-resource Languages ( http://arxiv.org/abs/2305.05214v1 )

ライセンス: Link先を確認
Kaushal Kumar Maurya, Rahul Kejriwal, Maunendra Sankar Desarkar, Anoop Kunchukuttan(参考訳) 本稿では,非常に低リソース言語 (LRL) から英語への機械翻訳の課題を,近縁な高リソース言語 (HRL) からの言語間変換を用いて解決する。 これらの言語の多くでは、並列コーパスは使用できず、単言語コーパスでさえ制限されており、事前訓練されたシーケンスからシーケンスへのモデルの表現が欠落している。 これらの要因は多言語モデルにおける共有埋め込み空間からの言語間移動の利点を制限する。 しかし、多くの超LRLは関連するHRLとの語彙的類似性が高い。 語彙学習前にHRLのトレーニングデータに文字と文字スパンノイズを注入することにより,この特性を利用する。 これは正則化器として機能し、HRLとLRLの間の語彙の分岐をより堅牢にし、言語間移動を容易にする。 本手法は,複数の言語族に属するHRLとLRLのペアについて,従来提案されてきた言語間の言語間移動に対処する手法と同様に,ベースラインMTよりも有意に優れていた。 また,提案手法はユニグラム・キャラクタ・ノイズ・インジェクションよりも優れた性能を示すことを示す。

We address the task of machine translation from an extremely low-resource language (LRL) to English using cross-lingual transfer from a closely related high-resource language (HRL). For many of these languages, no parallel corpora are available, even monolingual corpora are limited and representations in pre-trained sequence-to-sequence models are absent. These factors limit the benefits of cross-lingual transfer from shared embedding spaces in multilingual models. However, many extremely LRLs have a high level of lexical similarity with related HRLs. We utilize this property by injecting character and character-span noise into the training data of the HRL prior to learning the vocabulary. This serves as a regularizer which makes the model more robust to lexical divergences between the HRL and LRL and better facilitates cross-lingual transfer. On closely related HRL and LRL pairs from multiple language families, we observe that our method significantly outperforms the baseline MT as well as approaches proposed previously to address cross-lingual transfer between closely related languages. We also show that the proposed character-span noise injection performs better than the unigram-character noise injection.
翻訳日:2023-05-10 13:35:32 公開日:2023-05-09
# ディープマトリックス分解による回転同期

Rotation Synchronization via Deep Matrix Factorization ( http://arxiv.org/abs/2305.05268v1 )

ライセンス: Link先を確認
Gk Tejus, Giacomo Zara, Paolo Rota, Andrea Fusiello, Elisa Ricci, Federica Arrigoni(参考訳) 本稿では,グラフのノードとエッジとして未知点と測度がそれぞれ表現されるペアの回転から始まる絶対回転を復元することを目的とした回転同期問題に対処する。 この問題は、運動と同時局在化とマッピングによる構造構築に欠かせない課題である。 我々は,ニューラルネットワークによる同期の定式化に注目する。 ディープ・マトリクス・コンプリートに触発され、ディープ・ニューラルネットワークを用いたマトリクス因子分解の観点から回転同期を表現する。 我々の定式化は暗黙的な正規化特性を示し、さらに重要なことは、以前のディープアプローチは教師なしである。 我々の実験は、ほとんどの場面で最も近い競合相手に匹敵する精度を達成し、弱い仮定の下で作業していることを示している。

In this paper we address the rotation synchronization problem, where the objective is to recover absolute rotations starting from pairwise ones, where the unknowns and the measures are represented as nodes and edges of a graph, respectively. This problem is an essential task for structure from motion and simultaneous localization and mapping. We focus on the formulation of synchronization via neural networks, which has only recently begun to be explored in the literature. Inspired by deep matrix completion, we express rotation synchronization in terms of matrix factorization with a deep neural network. Our formulation exhibits implicit regularization properties and, more importantly, is unsupervised, whereas previous deep approaches are supervised. Our experiments show that we achieve comparable accuracy to the closest competitors in most scenes, while working under weaker assumptions.
翻訳日:2023-05-10 13:27:42 公開日:2023-05-09
# 有限エネルギー Gottesman-Kitaev-Preskill 符号化のための2量子演算

Two-qubit operations for finite-energy Gottesman-Kitaev-Preskill encodings ( http://arxiv.org/abs/2305.05262v1 )

ライセンス: Link先を確認
Ivan Rojkov, Paul Moser R\"oggla, Martin Wagener, Moritz Fontbot\'e-Schmidt, Stephan Welte, Jonathan Home, and Florentin Reiter(参考訳) 本稿では,gottesman-kitaev-preskill (gkp) 符号上で有限エネルギーで2量子ビットゲートを行う手法を提案する。 提案手法は,最近開発された局所誤り訂正プロトコルを用いて緩和し,その結果の性能評価を行う。 また,さらなる補正の必要性をほとんど避けたエネルギー保存型有限エネルギーゲート実装を提案する。

We present techniques for performing two-qubit gates on Gottesman-Kitaev-Preskill (GKP) codes with finite energy, and find that operations designed for ideal infinite-energy codes create undesired entanglement when applied to physically realistic states. We demonstrate that this can be mitigated using recently developed local error-correction protocols, and evaluate the resulting performance. We also propose energy-conserving finite-energy gate implementations which largely avoid the need for further correction.
翻訳日:2023-05-10 13:27:27 公開日:2023-05-09
# 光電場能動物体検出のためのガイド付き頭蓋状リファインメントネットワーク

Guided Focal Stack Refinement Network for Light Field Salient Object Detection ( http://arxiv.org/abs/2305.05260v1 )

ライセンス: Link先を確認
Bo Yuan, Yao Jiang, Keren Fu, Qijun Zhao(参考訳) 光フィールドサリエント物体検出(SOD)は、光フィールドデータの豊かさに起因する新たな研究方向である。 しかし、既存のほとんどの手法はフォーカススタックの効果的な処理を欠いているため、後者は情報干渉とSODの性能の劣化に関与している。 この制限に対処するために,マルチモーダル機能を利用して焦点スタックを誘導的に洗練し,gfrnetと呼ばれる新しい誘導焦点スタックリファインメントネットワークを提案する。 そこで本稿では,焦点スタックを改良し,マルチモーダルな特徴を集約するGRFM ( Guided refinement and fusion Module) を提案する。 GRFMでは、All-in-focus (AiF) とdeep modalities が焦点スタックを別々に洗練するために使われ、AiF-based refinement module (ARM) とdeep-based refinement module (DRM) の2つの新しいサブモジュールが生まれた。 このような改良モジュールは、焦点スタック内の有向物体の構造的および位置的情報を高め、SOD精度を向上させることができる。 4つのベンチマークデータセットの実験結果は、GFRNetモデルが12の最先端モデルに対して優れていることを示している。

Light field salient object detection (SOD) is an emerging research direction attributed to the richness of light field data. However, most existing methods lack effective handling of focal stacks, therefore making the latter involved in a lot of interfering information and degrade the performance of SOD. To address this limitation, we propose to utilize multi-modal features to refine focal stacks in a guided manner, resulting in a novel guided focal stack refinement network called GFRNet. To this end, we propose a guided refinement and fusion module (GRFM) to refine focal stacks and aggregate multi-modal features. In GRFM, all-in-focus (AiF) and depth modalities are utilized to refine focal stacks separately, leading to two novel sub-modules for different modalities, namely AiF-based refinement module (ARM) and depth-based refinement module (DRM). Such refinement modules enhance structural and positional information of salient objects in focal stacks, and are able to improve SOD accuracy. Experimental results on four benchmark datasets demonstrate the superiority of our GFRNet model against 12 state-of-the-art models.
翻訳日:2023-05-10 13:27:17 公開日:2023-05-09
# 時空間モビリティ応用のためのフェデレーション学習モデルの検討

Survey of Federated Learning Models for Spatial-Temporal Mobility Applications ( http://arxiv.org/abs/2305.05257v1 )

ライセンス: Link先を確認
Yacine Belal and Sonia Ben Mokhtar, Hamed Haddadi, Jaron Wang and Afra Mashhadi(参考訳) 連合学習は、トレーニングデータをローカルに保持するように、携帯電話などのエッジデバイス上で統計モデルをトレーニングする。 フェデレートラーニング(FL)は、高度に敏感な位置情報のプライバシーを維持しながら、不均一で潜在的に膨大な数の参加者に依存する空間的時間モデルを訓練するための理想的な候補として機能する。 しかし、既存の時空間モデルから分散学習への移行にはユニークな課題がある。 本稿では,人体移動,交通予測,コミュニティ検出,位置ベースレコメンデーションシステム,その他の時空間的タスクを予測するためのFLモデルを提案する既存文献について概説する。 これらの研究が使用しているメトリクスとデータセットを説明し、集中的な設定と比較して、これらのアプローチのベースラインを作成します。 最後に,分散環境で空間-時間モデルを適用することの課題について論じ,文献のギャップを強調することで,研究コミュニティにロードマップと機会を提供する。

Federated learning involves training statistical models over edge devices such as mobile phones such that the training data is kept local. Federated Learning (FL) can serve as an ideal candidate for training spatial temporal models that rely on heterogeneous and potentially massive numbers of participants while preserving the privacy of highly sensitive location data. However, there are unique challenges involved with transitioning existing spatial temporal models to decentralized learning. In this survey paper, we review the existing literature that has proposed FL-based models for predicting human mobility, traffic prediction, community detection, location-based recommendation systems, and other spatial-temporal tasks. We describe the metrics and datasets these works have been using and create a baseline of these approaches in comparison to the centralized settings. Finally, we discuss the challenges of applying spatial-temporal models in a decentralized setting and by highlighting the gaps in the literature we provide a road map and opportunities for the research community.
翻訳日:2023-05-10 13:26:55 公開日:2023-05-09
# Patch-DrosoNet: 軽量視覚位置認識のためのフライインスパイアモデルによる画像分割

Patch-DrosoNet: Classifying Image Partitions With Fly-Inspired Models For Lightweight Visual Place Recognition ( http://arxiv.org/abs/2305.05256v1 )

ライセンス: Link先を確認
Bruno Arcanjo, Bruno Ferrarini, Michael Milford, Klaus D. McDonald-Maier, Shoaib Ehsan(参考訳) 視覚的位置認識(VPR)は、自律システムが画像情報を用いて環境内をローカライズすることを可能にする。 畳み込みニューラルネットワーク(CNN)が現在最先端のVPRパフォーマンスを支配しているが、その高い計算要求により、予算やサイズに制約のあるプラットフォームには適さない。 これは、複数のバイオインスパイアされたユニットに基づく投票システムを採用するdrosonetのような軽量アルゴリズムの開発を促した。 本稿では,DrosoNetに対して,参照画像の異なる領域で個別のモデルを訓練し,その部分の視覚的特徴を専門化するための新たなトレーニング手法を提案する。 さらに、各drosonetユニットがクエリ画像の各部分に対して一連の場所予測を生成する畳み込み型予測手法を提案する。 これらの予測は、以前に導入された投票システムを使って組み合わせられる。 提案手法は,非常にコンパクトで軽量なアルゴリズムを維持しつつ,従来の作業のVPR性能を大幅に向上させ,資源制約のあるプラットフォームに適している。

Visual place recognition (VPR) enables autonomous systems to localize themselves within an environment using image information. While Convolution Neural Networks (CNNs) currently dominate state-of-the-art VPR performance, their high computational requirements make them unsuitable for platforms with budget or size constraints. This has spurred the development of lightweight algorithms, such as DrosoNet, which employs a voting system based on multiple bio-inspired units. In this paper, we present a novel training approach for DrosoNet, wherein separate models are trained on distinct regions of a reference image, allowing them to specialize in the visual features of that specific section. Additionally, we introduce a convolutional-like prediction method, in which each DrosoNet unit generates a set of place predictions for each portion of the query image. These predictions are then combined using the previously introduced voting system. Our approach significantly improves upon the VPR performance of previous work while maintaining an extremely compact and lightweight algorithm, making it suitable for resource-constrained platforms.
翻訳日:2023-05-10 13:26:39 公開日:2023-05-09
# エンティティ境界干渉による名前付きエンティティ認識

Attack Named Entity Recognition by Entity Boundary Interference ( http://arxiv.org/abs/2305.05253v1 )

ライセンス: Link先を確認
Yifei Yang, Hongqiu Wu and Hai Zhao(参考訳) 名前付きエンティティ認識(NER)は、その堅牢性はほとんど注目されていないが、基礎的なNLPタスクである。 本稿では, 文分類に基づくNER攻撃の原理を再考する。 これは NER のきめ細かい性質によるものであり、文のマイナーな単語の変更でさえ、あらゆる実体の出現や突然変異を引き起こし、無効な敵の例をもたらす可能性がある。 この目的のために、キーインサイトに基づく新しいワンワード修正NER攻撃を提案し、NERモデルは、常にその決定を行うエンティティの境界位置に対して脆弱である。 そこで我々は,文内に新たな境界を戦略的に挿入し,この境界語あるいは文中の他の単語に対して,被害者モデルが誤った予測を行うというエンティティ境界干渉を誘導する。 我々はこの攻撃を仮想境界攻撃 (ViBA) と呼び、現状の言語モデル(RoBERTa、DeBERTaなど)に対して70%-90%の攻撃成功率で英語と中国語の両方のモデルを攻撃する場合や、従来の手法よりもはるかに高速であることを示す。

Named Entity Recognition (NER) is a cornerstone NLP task while its robustness has been given little attention. This paper rethinks the principles of NER attacks derived from sentence classification, as they can easily violate the label consistency between the original and adversarial NER examples. This is due to the fine-grained nature of NER, as even minor word changes in the sentence can result in the emergence or mutation of any entities, resulting in invalid adversarial examples. To this end, we propose a novel one-word modification NER attack based on a key insight, NER models are always vulnerable to the boundary position of an entity to make their decision. We thus strategically insert a new boundary into the sentence and trigger the Entity Boundary Interference that the victim model makes the wrong prediction either on this boundary word or on other words in the sentence. We call this attack Virtual Boundary Attack (ViBA), which is shown to be remarkably effective when attacking both English and Chinese models with a 70%-90% attack success rate on state-of-the-art language models (e.g. RoBERTa, DeBERTa) and also significantly faster than previous methods.
翻訳日:2023-05-10 13:26:19 公開日:2023-05-09
# 制約言語計画のための大規模言語モデルからのスクリプト知識の蒸留

Distilling Script Knowledge from Large Language Models for Constrained Language Planning ( http://arxiv.org/abs/2305.05252v1 )

ライセンス: Link先を確認
Siyu Yuan, Jiangjie Chen, Ziquan Fu, Xuyang Ge, Soham Shah, Charles Robert Jankowski, Deqing Yang, Yanghua Xiao(参考訳) 日常生活において、人間はしばしば目標指向のスクリプトの形でステップバイステップの指示に従うことで行動計画を行う。 以前の研究では、言語モデル(lms)を利用して立体的活動の抽象的な目標(例:「ケーキを作る」)を計画しているが、マルチフェイスの制約の下でより具体的な目標(例:「糖尿病のためのケーキを作る」)を残している。 本稿では,制約付き言語計画のタスクを初めて定義する。 我々は,このタスクで大規模言語モデル(llms)を改善し,55,000のスクリプトからなる新しい制約付き言語計画データセットであるcoscriptを蒸留するために,過剰に生成する手法を提案する。 実験結果から,LLMの制約言語計画能力,特に制約忠実性において,本手法が著しく向上することが示された。 さらに、CoScriptは制約のある言語計画能力を持つ小さなLMを実現するのに非常に効果的であることが示されている。

In everyday life, humans often plan their actions by following step-by-step instructions in the form of goal-oriented scripts. Previous work has exploited language models (LMs) to plan for abstract goals of stereotypical activities (e.g., "make a cake"), but leaves more specific goals with multi-facet constraints understudied (e.g., "make a cake for diabetics"). In this paper, we define the task of constrained language planning for the first time. We propose an overgenerate-then-filter approach to improve large language models (LLMs) on this task, and use it to distill a novel constrained language planning dataset, CoScript, which consists of 55,000 scripts. Empirical results demonstrate that our method significantly improves the constrained language planning ability of LLMs, especially on constraint faithfulness. Furthermore, CoScript is demonstrated to be quite effective in endowing smaller LMs with constrained language planning ability.
翻訳日:2023-05-10 13:25:58 公開日:2023-05-09
# マルチラベル学習におけるマクロAUCの一般化の理解に向けて

Towards Understanding Generalization of Macro-AUC in Multi-label Learning ( http://arxiv.org/abs/2305.05248v1 )

ライセンス: Link先を確認
Guoqiang Wu, Chongxuan Li, Yilong Yin(参考訳) マクロAUCは、マルチラベル学習におけるクラスワイドAUCの算術平均であり、実際は一般的に使われている。 しかし、その理論的理解は極めて不足している。 そこで本研究では,マクロ・AUCのサロゲート損失に基づいて,様々な学習アルゴリズムの一般化特性を特徴付ける。 一般化境界に影響を与えるデータセットの臨界因子を理論的に同定する: \emph{the label-wise class imbalance}。 不均衡認識誤り境界に関する本研究の結果から,広く用いられている不平等損失に基づくアルゴリズムは,提案するペアワイズおよび再重み付け損失ベースアルゴリズムよりもラベルワイズクラス不均衡に敏感であることが判明した。 さらに, 様々なデータセットに対する実験結果は, 理論上の知見を裏付けるものである。 これを技術的に確立するために、我々は、独立した関心を持つ可能性のある、新しい(より一般的な)マクディアーミド型濃度不等式を提案する。

Macro-AUC is the arithmetic mean of the class-wise AUCs in multi-label learning and is commonly used in practice. However, its theoretical understanding is far lacking. Toward solving it, we characterize the generalization properties of various learning algorithms based on the corresponding surrogate losses w.r.t. Macro-AUC. We theoretically identify a critical factor of the dataset affecting the generalization bounds: \emph{the label-wise class imbalance}. Our results on the imbalance-aware error bounds show that the widely-used univariate loss-based algorithm is more sensitive to the label-wise class imbalance than the proposed pairwise and reweighted loss-based ones, which probably implies its worse performance. Moreover, empirical results on various datasets corroborate our theory findings. To establish it, technically, we propose a new (and more general) McDiarmid-type concentration inequality, which may be of independent interest.
翻訳日:2023-05-10 13:25:40 公開日:2023-05-09
# 医療における合成データ生成のための生成aiモデル活用:研究とプライバシのバランス

Leveraging Generative AI Models for Synthetic Data Generation in Healthcare: Balancing Research and Privacy ( http://arxiv.org/abs/2305.05247v1 )

ライセンス: Link先を確認
Aryan Jadon, Shashank Kumar(参考訳) 電子医療記録とデジタル医療データの普及により、患者の結果、診断、治療を強化するためのデータ駆動の洞察が求められている。 しかし、実際の患者データを使用することで、HIPAAやGDPRへの準拠など、プライバシーと規制上の課題が生じる。 gansやvaesのような生成aiモデルを用いた合成データ生成は、貴重なデータアクセスと患者のプライバシー保護をバランスさせる有望なソリューションを提供する。 本稿では,現実的で匿名化された患者データを作成するための生成AIモデルについて検討し,医療における合成データ応用を探求し,そのメリット,課題,今後の研究方向性について考察する。 合成データは、プライバシを保持し、汎用的なアプリケーションを可能にすると同時に、匿名化された患者データを提供することで、医療に革命をもたらす可能性がある。

The widespread adoption of electronic health records and digital healthcare data has created a demand for data-driven insights to enhance patient outcomes, diagnostics, and treatments. However, using real patient data presents privacy and regulatory challenges, including compliance with HIPAA and GDPR. Synthetic data generation, using generative AI models like GANs and VAEs offers a promising solution to balance valuable data access and patient privacy protection. In this paper, we examine generative AI models for creating realistic, anonymized patient data for research and training, explore synthetic data applications in healthcare, and discuss its benefits, challenges, and future research directions. Synthetic data has the potential to revolutionize healthcare by providing anonymized patient data while preserving privacy and enabling versatile applications.
翻訳日:2023-05-10 13:25:22 公開日:2023-05-09
# 学習可能な行動制御:サンプル効率な行動選択によるアタリ世界記録の破滅

Learnable Behavior Control: Breaking Atari Human World Records via Sample-Efficient Behavior Selection ( http://arxiv.org/abs/2305.05239v1 )

ライセンス: Link先を確認
Jiajun Fan, Yuzheng Zhuang, Yuecheng Liu, Jianye Hao, Bin Wang, Jiangcheng Zhu, Hao Wang, Shu-Tao Xia(参考訳) 探索問題は、深層強化学習(RL)における主要な課題の1つである。 近年の有望な研究は、異なる探索政策の集団に由来する多様な行動のサンプルを収集する集団ベースの手法でこの問題に対処しようとした。 適応ポリシーの選択は行動制御に採用されている。 しかし、行動選択空間は、行動の多様性をさらに制限する事前定義された政策人口によって大きく制限されている。 本稿では,学習可能な行動制御(lbc)と呼ばれる汎用フレームワークを提案する。 a) すべての方針からハイブリッド行動マッピングを定式化することにより,著しく拡大された行動選択空間を可能にする。 b) 行動選択のための統一学習可能なプロセスを構築する。 lbcを分散オフポリシーアクタ-クリティック手法に導入し,banditベースのメタコントローラによる動作マッピングの選択を最適化することで行動制御を実現する。 私たちのエージェントは,人間の正規化スコアを10077.52%達成し,アーケード学習環境における1bトレーニングフレーム内の24個の世界記録を上回った。

The exploration problem is one of the main challenges in deep reinforcement learning (RL). Recent promising works tried to handle the problem with population-based methods, which collect samples with diverse behaviors derived from a population of different exploratory policies. Adaptive policy selection has been adopted for behavior control. However, the behavior selection space is largely limited by the predefined policy population, which further limits behavior diversity. In this paper, we propose a general framework called Learnable Behavioral Control (LBC) to address the limitation, which a) enables a significantly enlarged behavior selection space via formulating a hybrid behavior mapping from all policies; b) constructs a unified learnable process for behavior selection. We introduce LBC into distributed off-policy actor-critic methods and achieve behavior control via optimizing the selection of the behavior mappings with bandit-based meta-controllers. Our agents have achieved 10077.52% mean human normalized score and surpassed 24 human world records within 1B training frames in the Arcade Learning Environment, which demonstrates our significant state-of-the-art (SOTA) performance without degrading the sample efficiency.
翻訳日:2023-05-10 13:25:07 公開日:2023-05-09
# 遷移型依存パーシングとしての構造化感性解析

Structured Sentiment Analysis as Transition-based Dependency Parsing ( http://arxiv.org/abs/2305.05311v1 )

ライセンス: Link先を確認
Daniel Fern\'andez-Gonz\'alez(参考訳) 構造化感情分析(SSA)は、自然言語のテキストから人の意見を自動的に抽出し、その情報をグラフ構造で適切に表現することを目的としている。 SSAを実行するための最も正確な方法の一つが最近提案され、依存関係解析タスクとしてアプローチされている。 遷移ベースのアルゴリズムが依存性解析において精度と効率の点で優れているという文献は見いだせるが、そのアプローチに従うSSAに取り組むためのすべての試みはグラフベースのモデルに基づいている。 本稿では,SSAを依存性解析として扱うための遷移法について述べる。 具体的には、入力テキストを左右のパスで処理する遷移システムを設計し、識別されたすべての意見を含むグラフ構造を漸進的に生成する。 最終的なトランジッションベースのモデルを効果的に実装するには、バックボーンとしてポインタネットワークアーキテクチャを使用します。 広範囲な評価から,我々のモデルは,従来の依存性ベースの手法のほとんどすべてのケースにおいて,現在までの最高のパフォーマンスを提供し,最も困難なデータセット上でのタスク固有の手法を超越していることを示す。 さらに,本手法の時間・複雑さの全体コストが2次的な文長であり,グラフベースのパーサよりも効率的であることを示す。

Structured sentiment analysis (SSA) aims to automatically extract people's opinions from a text in natural language and adequately represent that information in a graph structure. One of the most accurate methods for performing SSA was recently proposed and consists of approaching it as a dependency parsing task. Although we can find in the literature how transition-based algorithms excel in dependency parsing in terms of accuracy and efficiency, all proposed attempts to tackle SSA following that approach were based on graph-based models. In this article, we present the first transition-based method to address SSA as dependency parsing. Specifically, we design a transition system that processes the input text in a left-to-right pass, incrementally generating the graph structure containing all identified opinions. To effectively implement our final transition-based model, we resort to a Pointer Network architecture as a backbone. From an extensive evaluation, we demonstrate that our model offers the best performance to date in practically all cases among prior dependency-based methods, and surpass recent task-specific techniques on the most challenging datasets. We additionally include an in-depth analysis and empirically prove that the overall time-complexity cost of our approach is quadratic in the sentence length, being more efficient than top-performing graph-based parsers.
翻訳日:2023-05-10 13:19:09 公開日:2023-05-09
# 完璧な被害者: 性的暴力の被害者に対する司法態度の計算分析

The Perfect Victim: Computational Analysis of Judicial Attitudes towards Victims of Sexual Violence ( http://arxiv.org/abs/2305.05302v1 )

ライセンス: Link先を確認
Eliya Habba, Renana Keydar, Dan Bareket, Gabriel Stanovsky(参考訳) イスラエルの裁判所制度において、性的暴力の被害者に対する司法的態度を評価するために、裁判所声明を分析するための計算モデルを開発する。 この研究は、性犯罪に対する刑事司法制度の反応、特に被害者の信用度に関する司法評価における「レイプ神話」の共鳴を調査している。 まず,8つの順序ラベルと二項分類を用いて,被害者の信頼性に対する司法態度を評価するオントロジーを定式化することから始める。 第2に,ヘブライ語における被害者の信頼度を判断するための手作業による注釈付きデータセットと,訴訟から信頼性ラベルを抽出できるモデルを作成する。 このデータセットは、1990年から2021年までの性的暴行事件における855件の評決決定文書から成り、法律の専門家や法学生の助けを借りて注釈付けされている。 このモデルは、構文的構造と潜在的構造の組み合わせを用いて、被害者に対する裁判官の態度を伝える文を見つけ、信頼度ラベルセットに従って分類する。 当社のオントロジー、データ、モデルは、この司法上の重要なタスクの今後の進展を促すことを期待して、要求に応じて利用可能になります。

We develop computational models to analyze court statements in order to assess judicial attitudes toward victims of sexual violence in the Israeli court system. The study examines the resonance of "rape myths" in the criminal justice system's response to sex crimes, in particular in judicial assessment of victim's credibility. We begin by formulating an ontology for evaluating judicial attitudes toward victim's credibility, with eight ordinal labels and binary categorizations. Second, we curate a manually annotated dataset for judicial assessments of victim's credibility in the Hebrew language, as well as a model that can extract credibility labels from court cases. The dataset consists of 855 verdict decision documents in sexual assault cases from 1990-2021, annotated with the help of legal experts and trained law students. The model uses a combined approach of syntactic and latent structures to find sentences that convey the judge's attitude towards the victim and classify them according to the credibility label set. Our ontology, data, and models will be made available upon request, in the hope they spur future progress in this judicial important task.
翻訳日:2023-05-10 13:18:47 公開日:2023-05-09
# ベル実験と量子基礎について

On the Bell Experiment and Quantum Foundation ( http://arxiv.org/abs/2305.05299v1 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) ベル実験は、量子力学の基礎への新しいアプローチに基づいて議論されている。 基本的なモデルから、どんなオブザーバーの心も何らかの方法で制限されなければならないと結論づけられる: ある文脈では、彼は単に意思決定時に十分な変数を心に保持できない。 これはベルの定理の帰結であるが、より広い結果をもたらすようである。

The Bell experiment is discussed in light of a new approach towards the foundation of quantum mechanics. It is concluded from the basic model that the mind of any observer must be limited in some way: In certain contexts, he is simply not able to keep enough variables in his mind when making decisions. This has consequences for Bell's theorem, but it also seems to have wider consequences.
翻訳日:2023-05-10 13:18:27 公開日:2023-05-09
# リアルタイムASLジェスチャー認識のためのメディアパイプとCNN

Mediapipe and CNNs for Real-Time ASL Gesture Recognition ( http://arxiv.org/abs/2305.05296v1 )

ライセンス: Link先を確認
Rupesh Kumar, Ashutosh Bajpai, Ayush Sinha (Galgotias college of Engineering and Technology)(参考訳) 本稿では,現代のコンピュータビジョンと機械学習のアプローチを用いた,アメリカ手話(ASL)運動のリアルタイム同定システムについて述べる。 提案手法は,特徴抽出のためのMediapipeライブラリと,ASLジェスチャー分類のための畳み込みニューラルネットワーク(CNN)を利用する。 実験の結果、提案システムは99.95%の精度で全てのASLアルファベットを検出でき、聴覚障害者のための通信機器としての可能性を示している。 提案手法は手の動きが類似した手話にも適用可能であり, 難聴者の生活の質を高める可能性がある。 全体として、本研究は、mediapipeとcnnを用いたリアルタイム手話認識の有効性を示し、コンピュータビジョンと機械学習の分野で大きな貢献をした。

This research paper describes a realtime system for identifying American Sign Language (ASL) movements that employs modern computer vision and machine learning approaches. The suggested method makes use of the Mediapipe library for feature extraction and a Convolutional Neural Network (CNN) for ASL gesture classification. The testing results show that the suggested system can detect all ASL alphabets with an accuracy of 99.95%, indicating its potential for use in communication devices for people with hearing impairments. The proposed approach can also be applied to additional sign languages with similar hand motions, potentially increasing the quality of life for people with hearing loss. Overall, the study demonstrates the effectiveness of using Mediapipe and CNN for real-time sign language recognition, making a significant contribution to the field of computer vision and machine learning.
翻訳日:2023-05-10 13:18:21 公開日:2023-05-09
# 人工コード切替データの学習によるゼロショット言語間検索の促進

Boosting Zero-shot Cross-lingual Retrieval by Training on Artificially Code-Switched Data ( http://arxiv.org/abs/2305.05295v1 )

ライセンス: Link先を確認
Robert Litschko, Ekaterina Artemova, Barbara Plank(参考訳) ゼロショット方式で高リソース言語(典型的には英語)から他言語への情報検索(IR)モデル転送が広く採用されている。 本研究では,異なる言語にクエリや文書が存在する場合,ゼロショットローダの有効性が低下することを示す。 そこで本研究では,バイリンガルレキシコンを利用して生成する,人工的なコード切替データに基づくランキングモデルのトレーニングを提案する。 この目的のために,(1)言語間単語埋め込みと(2)ウィキペディアのパラレルページタイトルから誘導される語彙を実験した。 我々はmMARCOデータセットを用いて、モノリンガルIR(MoIR)、クロスリンガルIR(CLIR)、マルチリンガルIR(MLIR)にまたがる36言語対のモデルを再評価する。 この結果から,CLIRでは5.1MRR@10,MLIRでは3.9MRR@10,MoIRでは安定な性能を維持しつつ,コードスイッチングが一貫した実質的なゲインが得られることがわかった。 特に遠方の言語(絶対利得の最大2倍)では利得が顕著である。 さらに,このアプローチは,コード切り換えトークンの比率に対して堅牢であり,未認識言語にも拡張できることを示す。 この結果から,コード切替データの学習は,言語間・多言語検索のためのゼロショットローダを安価かつ効果的に一般化する方法であることが示唆された。

Transferring information retrieval (IR) models from a high-resource language (typically English) to other languages in a zero-shot fashion has become a widely adopted approach. In this work, we show that the effectiveness of zero-shot rankers diminishes when queries and documents are present in different languages. Motivated by this, we propose to train ranking models on artificially code-switched data instead, which we generate by utilizing bilingual lexicons. To this end, we experiment with lexicons induced from (1) cross-lingual word embeddings and (2) parallel Wikipedia page titles. We use the mMARCO dataset to extensively evaluate reranking models on 36 language pairs spanning Monolingual IR (MoIR), Cross-lingual IR (CLIR), and Multilingual IR (MLIR). Our results show that code-switching can yield consistent and substantial gains of 5.1 MRR@10 in CLIR and 3.9 MRR@10 in MLIR, while maintaining stable performance in MoIR. Encouragingly, the gains are especially pronounced for distant languages (up to 2x absolute gain). We further show that our approach is robust towards the ratio of code-switched tokens and also extends to unseen languages. Our results demonstrate that training on code-switched data is a cheap and effective way of generalizing zero-shot rankers for cross-lingual and multilingual retrieval.
翻訳日:2023-05-10 13:18:09 公開日:2023-05-09
# ゴール指向プロアクティブ対話のためのブラウンブリッジ確率過程による対話計画

Dialogue Planning via Brownian Bridge Stochastic Process for Goal-directed Proactive Dialogue ( http://arxiv.org/abs/2305.05290v1 )

ライセンス: Link先を確認
Jian Wang, Dongding Lin, Wenjie Li(参考訳) ゴール指向対話システムは,マルチターン会話を通じて事前決定対象に積極的に到達することを目的としている。 このタスクを実現するための鍵は、ターゲットに向かってスムーズに、かつコヒーレントに会話を指示する対話パスを計画することにある。 しかし、これは難題であり、未熟な作業である。 本研究では,確率過程を用いて対話経路の時間的ダイナミクスをモデル化するコヒーレントな対話計画手法を提案する。 我々は、ブラウン橋プロセスを用いて目標指向行動のコヒーレンスを捉える潜在空間を定義し、対話計画に柔軟にユーザフィードバックを組み込むことができる。 抽出した潜在軌道に基づいて,事前学習した言語モデルを用いて対話経路を明示的に生成する。 最終的に、対話生成を誘導する自然言語のプロンプトとしてこれらの経路を用いる。 実験の結果,我々の手法はよりコヒーレントな発話を生成し,高い成功率で目標を達成することがわかった。

Goal-directed dialogue systems aim to proactively reach a pre-determined target through multi-turn conversations. The key to achieving this task lies in planning dialogue paths that smoothly and coherently direct conversations towards the target. However, this is a challenging and under-explored task. In this work, we propose a coherent dialogue planning approach that uses a stochastic process to model the temporal dynamics of dialogue paths. We define a latent space that captures the coherence of goal-directed behavior using a Brownian bridge process, which allows us to incorporate user feedback flexibly in dialogue planning. Based on the derived latent trajectories, we generate dialogue paths explicitly using pre-trained language models. We finally employ these paths as natural language prompts to guide dialogue generation. Our experiments show that our approach generates more coherent utterances and achieves the goal with a higher success rate.
翻訳日:2023-05-10 13:17:44 公開日:2023-05-09
# 高品質ディープフェイクを用いた食品の深度検出

Fooling State-of-the-Art Deepfake Detection with High-Quality Deepfakes ( http://arxiv.org/abs/2305.05282v1 )

ライセンス: Link先を確認
Arian Beckmann, Anna Hilsmann and Peter Eisert(参考訳) セキュリティとプライバシーに対するディープフェイクの脅威が高まっているため、堅牢で信頼性の高い検出器を開発することが最も重要である。 本稿では,これらの検出器のトレーニングデータセットにおける高品質なサンプルの必要性について検討する。 したがって、複数の研究データセット上でディープフェイク検出器がうまく一般化できることが証明された。 まず,90個の高品質のディープフェイクを生成するために,高度な顔ブレンディング技術とともに,顔交換のための新しいオートエンコーダを提案する。 第2に、フェイクを最先端の検出器に供給することで、その性能が劇的に低下する。 さらに,偽物の検知器を微調整し,操作の検出に有用な手掛かりがあることを実証する。 全体として,我々はdeepfake検出器の一般化に関する知見を提供し,そのトレーニングデータセットは単なる研究データに対するトレーニングが不十分であるため,高品質なフェイクによって補完されるべきであることが示唆された。

Due to the rising threat of deepfakes to security and privacy, it is most important to develop robust and reliable detectors. In this paper, we examine the need for high-quality samples in the training datasets of such detectors. Accordingly, we show that deepfake detectors proven to generalize well on multiple research datasets still struggle in real-world scenarios with well-crafted fakes. First, we propose a novel autoencoder for face swapping alongside an advanced face blending technique, which we utilize to generate 90 high-quality deepfakes. Second, we feed those fakes to a state-of-the-art detector, causing its performance to decrease drastically. Moreover, we fine-tune the detector on our fakes and demonstrate that they contain useful clues for the detection of manipulations. Overall, our results provide insights into the generalization of deepfake detectors and suggest that their training datasets should be complemented by high-quality fakes since training on mere research data is insufficient.
翻訳日:2023-05-10 13:17:31 公開日:2023-05-09
# VCSUM:中国の多国間会議要約データセット

VCSUM: A Versatile Chinese Meeting Summarization Dataset ( http://arxiv.org/abs/2305.05280v1 )

ライセンス: Link先を確認
Han Wu, Mingjie Zhan, Haochen Tan, Zhaohui Hou, Ding Liang, and Linqi Song(参考訳) ニュースやチャットの要約と比較して,会議要約の発達は限られたデータによって著しく減速する。 そこで本研究では,239回の実生活会議からなり,合計230時間以上を要した,多彩な中国の会議要約データセットvcsumを紹介する。 我々のデータセットは、トピックセグメンテーション、見出し、セグメンテーションサマリー、全体会議サマリー、および各ミーティングスクリプティングに対する敬意的な文のアノテーションを提供するので、汎用的だと主張する。 このように、データセットは、セグメンテーションベースの要約、多粒度要約、検索-then-generate summarizationなど、様々な要約タスクやメソッドに適応することができる。 分析の結果,VCSumの有効性とロバスト性が確認された。 また、VCSumの下流の様々な要約タスクに関するベンチマークモデルも提供し、さらなる研究を促進する。 データセットとコードは \url{https://github.com/hahahawu/VCSum} でリリースされる。

Compared to news and chat summarization, the development of meeting summarization is hugely decelerated by the limited data. To this end, we introduce a versatile Chinese meeting summarization dataset, dubbed VCSum, consisting of 239 real-life meetings, with a total duration of over 230 hours. We claim our dataset is versatile because we provide the annotations of topic segmentation, headlines, segmentation summaries, overall meeting summaries, and salient sentences for each meeting transcript. As such, the dataset can adapt to various summarization tasks or methods, including segmentation-based summarization, multi-granularity summarization and retrieval-then-generate summarization. Our analysis confirms the effectiveness and robustness of VCSum. We also provide a set of benchmark models regarding different downstream summarization tasks on VCSum to facilitate further research. The dataset and code will be released at \url{https://github.com/hahahawu/VCSum}.
翻訳日:2023-05-10 13:17:14 公開日:2023-05-09
# DietCNN: 量子化されたCNNのための乗算不要推論

DietCNN: Multiplication-free Inference for Quantized CNNs ( http://arxiv.org/abs/2305.05274v1 )

ライセンス: Link先を確認
Swarnava Dey and Pallab Dasgupta and Partha P Chakrabarti(参考訳) マシンインテリジェンスを備えたネットワーク組み込みシステムの需要増加は、組み込みリソース制限デバイスに基づく推論に基づく畳み込みニューラルネットワーク(CNN)を実装する研究コミュニティによる継続的な試みの触媒となっている。 コストのかかる乗算演算を除去してCNNを再設計することは、推論エネルギー使用量の削減という面で既に有望な結果を示している。 本稿では,CNNにおける乗算をテーブルルックアップで置き換える手法を提案する。 CNN操作を完全に変更する既存の方法とは異なり、提案手法は主要なCNN操作のセマンティクスを保存する。 CNNレイヤ操作の既存のメカニズムに適合することにより、標準のCNNの信頼性が維持される。 MNIST-LeNet-5, CIFAR10-VGG-11, Tiny ImageNet-ResNet-18のFPGA実装において, 単一のアクティベーションコードブックをベースとした乗算自由CNNは, それぞれ4.7x, 5.6x, 3.5xのエネルギー削減を実現している。 以上の結果から,dietcnnアプローチは,組込みシステムでよく使用される小型モデルに対する深い推論のリソース消費と遅延を大幅に改善することが示された。 私たちのコードは、https://github.com/swadeykgp/DietCNNで利用可能です。

The rising demand for networked embedded systems with machine intelligence has been a catalyst for sustained attempts by the research community to implement Convolutional Neural Networks (CNN) based inferencing on embedded resource-limited devices. Redesigning a CNN by removing costly multiplication operations has already shown promising results in terms of reducing inference energy usage. This paper proposes a new method for replacing multiplications in a CNN by table look-ups. Unlike existing methods that completely modify the CNN operations, the proposed methodology preserves the semantics of the major CNN operations. Conforming to the existing mechanism of the CNN layer operations ensures that the reliability of a standard CNN is preserved. It is shown that the proposed multiplication-free CNN, based on a single activation codebook, can achieve 4.7x, 5.6x, and 3.5x reduction in energy per inference in an FPGA implementation of MNIST-LeNet-5, CIFAR10-VGG-11, and Tiny ImageNet-ResNet-18 respectively. Our results show that the DietCNN approach significantly improves the resource consumption and latency of deep inference for smaller models, often used in embedded systems. Our code is available at: https://github.com/swadeykgp/DietCNN
翻訳日:2023-05-10 13:16:57 公開日:2023-05-09
# 音声認識のためのニューラルトランスデューサにおけるロバスト音響・意味的文脈バイアス

Robust Acoustic and Semantic Contextual Biasing in Neural Transducers for Speech Recognition ( http://arxiv.org/abs/2305.05271v1 )

ライセンス: Link先を確認
Xuandi Fu, Kanthashree Mysore Sathyendra, Ankur Gandhe, Jing Liu, Grant P. Strimel, Ross McGowan, Athanasios Mouchtaris(参考訳) 注意に基づく文脈バイアスアプローチは、ニューラルトランスデューサのようなエンドツーエンド自動音声認識(e2e asr)システムにおいて、ジェネリックおよび/またはパーソナルレアワードの認識において著しく改善している。 これらのアプローチは、モデルにバイアス・フレーズとして注入される特定の文脈エンティティに対してモデルをバイアスするためにクロス・アテンションを用いる。 それまでのアプローチは、バイアスフレーズをエンコードするサブワードエンコーダに頼っていた。 しかし、サブワードのトークン化は粗く、音響的類似性に基づいてバイアス付けに不可欠である粒度の発音情報を捕捉できない。 本研究では,音声と文脈要素の音響的類似性(音響バイアス)に導かれる文脈バイアスを改善するために,軽量な文字表現を用いた発音特徴の符号化を提案する。 さらに、事前学習されたニューラルネットワークモデル(NLM)に基づくエンコーダを統合し、発話の意味的コンテキストと文脈的エンティティをエンコードし、発話の意味的コンテキスト(終端的意味的バイアス)によって通知されるバイアスを実行する。 librispeechデータセット上のコンフォーメータトランスデューサモデルを用いた実験では、提案する音響的・意味的バイアス手法を組み込んだ場合、ベースライン文脈モデルに対する異なるバイアスリストサイズに対する4.62% - 9.26%の相対 wer改善を示す。 大規模社内データセットでは,ベースラインモデルと比較して7.91%のwar改善が見られた。 末尾の発話では、それぞれ36.80%と23.40%がリブリスピーチのレアワードと社内テストセットに対して改善されている。

Attention-based contextual biasing approaches have shown significant improvements in the recognition of generic and/or personal rare-words in End-to-End Automatic Speech Recognition (E2E ASR) systems like neural transducers. These approaches employ cross-attention to bias the model towards specific contextual entities injected as bias-phrases to the model. Prior approaches typically relied on subword encoders for encoding the bias phrases. However, subword tokenizations are coarse and fail to capture granular pronunciation information which is crucial for biasing based on acoustic similarity. In this work, we propose to use lightweight character representations to encode fine-grained pronunciation features to improve contextual biasing guided by acoustic similarity between the audio and the contextual entities (termed acoustic biasing). We further integrate pretrained neural language model (NLM) based encoders to encode the utterance's semantic context along with contextual entities to perform biasing informed by the utterance's semantic context (termed semantic biasing). Experiments using a Conformer Transducer model on the Librispeech dataset show a 4.62% - 9.26% relative WER improvement on different biasing list sizes over the baseline contextual model when incorporating our proposed acoustic and semantic biasing approach. On a large-scale in-house dataset, we observe 7.91% relative WER improvement compared to our baseline model. On tail utterances, the improvements are even more pronounced with 36.80% and 23.40% relative WER improvements on Librispeech rare words and an in-house testset respectively.
翻訳日:2023-05-10 13:16:34 公開日:2023-05-09
# GPT-NAS:生成事前学習モデルによるニューラルアーキテクチャ探索

GPT-NAS: Neural Architecture Search with the Generative Pre-Trained Model ( http://arxiv.org/abs/2305.05351v1 )

ライセンス: Link先を確認
Caiyang Yu, Xianggen Liu, Chenwei Tang, Wentao Feng, Jiancheng Lv(参考訳) 最適なニューラルネットワークアーキテクチャを自動設計する有効な方法の1つとして、ニューラルネットワーク探索(NAS)が登場した。 ニューラルアーキテクチャはいくつかのタスクで人間レベルの性能を達成したが、NAS法から得られるものはほとんどない。 主な理由は、ニューラルネットワークの巨大な検索空間であり、NASアルゴリズムを非効率にする。 この研究は、GPT(Generative Pre-Trained)モデルによりニューラルネットワークを最適化する、GPT-NASと呼ばれる新しいアーキテクチャ探索アルゴリズムを提案する。 GPT-NASでは、大規模コーパスで事前学習した生成モデルが、ニューラルネットワーク構築の基本法則を学習できると仮定する。 したがって、GPT-NASは生成事前学習(GPT)モデルを利用して、基本となるアーキテクチャコンポーネントを合理的に提案する。 このようなアプローチは、検索プロセスに事前知識を導入することで、検索スペースを大幅に削減することができる。 GPT-NAS法は,手作業で設計した7つのニューラルネットワークと,競合するNAS法によって提供される13のアーキテクチャより有意に優れていた。 さらに,提案アルゴリズムは,GPTのないものに比べて12%程度の微調整ニューラルアーキテクチャの性能向上を実現し,ニューラルアーキテクチャの探索に有効であることを示す。

Neural Architecture Search (NAS) has emerged as one of the effective methods to design the optimal neural network architecture automatically. Although neural architectures have achieved human-level performances in several tasks, few of them are obtained from the NAS method. The main reason is the huge search space of neural architectures, making NAS algorithms inefficient. This work presents a novel architecture search algorithm, called GPT-NAS, that optimizes neural architectures by Generative Pre-Trained (GPT) model. In GPT-NAS, we assume that a generative model pre-trained on a large-scale corpus could learn the fundamental law of building neural architectures. Therefore, GPT-NAS leverages the generative pre-trained (GPT) model to propose reasonable architecture components given the basic one. Such an approach can largely reduce the search space by introducing prior knowledge in the search process. Extensive experimental results show that our GPT-NAS method significantly outperforms seven manually designed neural architectures and thirteen architectures provided by competing NAS methods. In addition, our ablation study indicates that the proposed algorithm improves the performance of finely tuned neural architectures by up to about 12% compared to those without GPT, further demonstrating its effectiveness in searching neural architectures.
翻訳日:2023-05-10 13:08:54 公開日:2023-05-09
# カプセル型ネットワークアーキテクチャによる表現のキャラクタリゼーションに向けて

Towards the Characterization of Representations Learned via Capsule-based Network Architectures ( http://arxiv.org/abs/2305.05349v1 )

ライセンス: Link先を確認
Saja AL-Tawalbeh and Jos\'e Oramas(参考訳) Capsule Networks (CapsNets) は、標準的なディープニューラルネットワークのよりコンパクトで解釈可能な代替品として再導入された。 近年,圧縮性能が実証されているが,その解釈性は十分に評価されていない。 本稿では,この種のネットワークの解釈可能性を評価するための体系的かつ原則的な研究を行う。 さらに,この学習表現の中で,部分的関係が実際にコード化されているレベルを分析することにも注意を払う。 MNIST, SVHN, PASCAL-part, CelebAデータセットにおける解析から, CapsNetsで符号化された表現は, 文献で一般的に述べられているような部分的関係とは無関係で, 厳密には関係がない可能性が示唆された。

Capsule Networks (CapsNets) have been re-introduced as a more compact and interpretable alternative to standard deep neural networks. While recent efforts have proved their compression capabilities, to date, their interpretability properties have not been fully assessed. Here, we conduct a systematic and principled study towards assessing the interpretability of these types of networks. Moreover, we pay special attention towards analyzing the level to which part-whole relationships are indeed encoded within the learned representation. Our analysis in the MNIST, SVHN, PASCAL-part and CelebA datasets suggest that the representations encoded in CapsNets might not be as disentangled nor strictly related to parts-whole relationships as is commonly stated in the literature.
翻訳日:2023-05-10 13:08:36 公開日:2023-05-09
# Rudolf Christoph Eucken - SemEval-2023 Task 4: An Ensemble Approach for Identification Human Values from Arguments (英語)

Rudolf Christoph Eucken at SemEval-2023 Task 4: An Ensemble Approach for Identifying Human Values from Arguments ( http://arxiv.org/abs/2305.05335v1 )

ライセンス: Link先を確認
Sougata Saha, Rohini Srihari(参考訳) 人生経験を通じて得られる微妙な人間の価値観は、私たちの思考を支配し、私たちのスピーチに反映されます。 それは我々の個性の本質を捉え、人間の行動を模倣する計算システムにおいてそのような価値を識別することが不可欠である。 計算的議論(computational argumentation)は、人間の議論能力を扱う分野であり、そのような値を特定することの恩恵を受ける。 そこで我々は,議論テキストから人間の値を検出するアンサンブルアプローチを提案する。 私たちのアンサンブルは3つのモデルで構成されています (i)記述に基づく人間価値決定のための補足モデル (ii)引数から人間の値の集合を予測するRobertaベースの分類器。 (iii)議論から人間の値の少ない集合を予測するロベルタに基づく分類器。 モデルを組み合わせてさまざまな方法で実験し、結果を報告します。 さらに、我々の最良の組み合わせは、メインテストセットで全体のF1スコア0.48を達成する。

The subtle human values we acquire through life experiences govern our thoughts and gets reflected in our speech. It plays an integral part in capturing the essence of our individuality and making it imperative to identify such values in computational systems that mimic human actions. Computational argumentation is a field that deals with the argumentation capabilities of humans and can benefit from identifying such values. Motivated by that, we present an ensemble approach for detecting human values from argument text. Our ensemble comprises three models: (i) An entailment-based model for determining the human values based on their descriptions, (ii) A Roberta-based classifier that predicts the set of human values from an argument. (iii) A Roberta-based classifier to predict a reduced set of human values from an argument. We experiment with different ways of combining the models and report our results. Furthermore, our best combination achieves an overall F1 score of 0.48 on the main test set.
翻訳日:2023-05-10 13:08:21 公開日:2023-05-09
# ArgU: 制御可能なFactual Argument ジェネレータ

ArgU: A Controllable Factual Argument Generator ( http://arxiv.org/abs/2305.05334v1 )

ライセンス: Link先を確認
Sougata Saha and Rohini Srihari(参考訳) 効果的な議論は、十分な結果をもたらす目的のある会話に欠かせない。 例えば、喫煙を再考するよう説得することは、その悪影響と家族への影響に関する事実や専門家の意見に基づく、共感的で確立された議論を伴う可能性がある。 しかし、高品質な事実論の自動生成は困難である。 既存の制御可能性問題に対処することは、引数生成のための計算モデルの最近の進歩を潜在的な解決策にすることができる。 本稿では,waltonの引数・スキームに基づく制御コードを用いて,スタンスや引数構造に対して明示的に制御可能な,入力事実や実世界概念から事実引数を生成する神経引数生成器arguを提案する。 残念ながら、計算引数生成は比較的新しい分野であり、訓練に結びつくデータセットが欠けている。 したがって、6つのトピックと6つの引数スキームにまたがる69,428の引数の注釈付きコーパスをコンパイルしてリリースしました。 さらに、実際の引数生成の前に ``argument template'' を生成して推論戦略を確立する引数生成戦略を実験する。 その結果,議論スキームとスタンスに基づく制御符号を用いることで,同一事実集合に対して異なる推論パターンを示す多様な引数を自動的に生成できることがわかった。

Effective argumentation is essential towards a purposeful conversation with a satisfactory outcome. For example, persuading someone to reconsider smoking might involve empathetic, well founded arguments based on facts and expert opinions about its ill-effects and the consequences on one's family. However, the automatic generation of high-quality factual arguments can be challenging. Addressing existing controllability issues can make the recent advances in computational models for argument generation a potential solution. In this paper, we introduce ArgU: a neural argument generator capable of producing factual arguments from input facts and real-world concepts that can be explicitly controlled for stance and argument structure using Walton's argument scheme-based control codes. Unfortunately, computational argument generation is a relatively new field and lacks datasets conducive to training. Hence, we have compiled and released an annotated corpora of 69,428 arguments spanning six topics and six argument schemes, making it the largest publicly available corpus for identifying argument schemes; the paper details our annotation and dataset creation framework. We further experiment with an argument generation strategy that establishes an inference strategy by generating an ``argument template'' before actual argument generation. Our results demonstrate that it is possible to automatically generate diverse arguments exhibiting different inference patterns for the same set of facts by using control codes based on argument schemes and stance.
翻訳日:2023-05-10 13:08:07 公開日:2023-05-09
# Geometric Information Bottleneckを用いた説明可能なレコメンダ

Explainable Recommender with Geometric Information Bottleneck ( http://arxiv.org/abs/2305.05331v1 )

ライセンス: Link先を確認
Hanqi Yan, Lin Gui, Menghan Wang, Kun Zhang, Yulan He(参考訳) 説明可能なレコメンデータシステムは、レコメンデーションの決定を説明し、システムに対するユーザの信頼を高めることができる。 ほとんどの説明可能なレコメンデータシステムは、説明生成のためのモデルをトレーニングするために、人間の注釈による推論に依存するか、レビューから重要なテキストスパンを説明として抽出するために注意メカニズムを利用する。 抽出された合理性はしばしば個々のレビューに制限され、レビューテキスト以外の暗黙的な特徴を特定することができない。 コストのかかる人的アノテーションのプロセスを避け,個々のレビューを超えて説明を生成するために,ユーザとイテムのインタラクションから学習した幾何学的事前学習を,ユーザとイテムのレビューから潜在要因を推測する変動ネットワークに組み込むことを提案する。 個別のユーザ・イテムペアからの潜伏因子は、推薦と説明の生成の両方に利用することができ、これは、前回の知識で符号化されたグローバルな特性を自然に継承する。 3つの電子商取引データセットによる実験結果から,提案手法は推薦行動の観点から既存のコンテンツベースレコメンデータシステムに匹敵する性能を保ちながら,ワッサーシュタイン距離を用いた変分レコメンデータの解釈可能性を大幅に向上することが示された。

Explainable recommender systems can explain their recommendation decisions, enhancing user trust in the systems. Most explainable recommender systems either rely on human-annotated rationales to train models for explanation generation or leverage the attention mechanism to extract important text spans from reviews as explanations. The extracted rationales are often confined to an individual review and may fail to identify the implicit features beyond the review text. To avoid the expensive human annotation process and to generate explanations beyond individual reviews, we propose to incorporate a geometric prior learnt from user-item interactions into a variational network which infers latent factors from user-item reviews. The latent factors from an individual user-item pair can be used for both recommendation and explanation generation, which naturally inherit the global characteristics encoded in the prior knowledge. Experimental results on three e-commerce datasets show that our model significantly improves the interpretability of a variational recommender using the Wasserstein distance while achieving performance comparable to existing content-based recommender systems in terms of recommendation behaviours.
翻訳日:2023-05-10 13:07:44 公開日:2023-05-09
# トランスフォーマーとアンサンブルを用いたソーシャルネットワーク上の抑うつの検出

Detection of depression on social networks using transformers and ensembles ( http://arxiv.org/abs/2305.05325v1 )

ライセンス: Link先を確認
Ilija Tavchioski, Marko Robnik-\v{S}ikonja, Senja Pollak(参考訳) 生活にテクノロジーが与える影響が増すにつれて、コミュニケーションだけでなく、私たちの考えや感情に関するコミュニティと情報を共有するための重要なツールとなったソーシャルメディアの利用が増加しているのを目撃します。 これは、うつ病などの精神疾患の患者でも、ソーシャルメディアを使って自分の思考を表現したり、助けを求めたりすることができる。 これにより、ソーシャルメディアの投稿を自動的に処理し、うつ病の兆候を検出することができる。 ソーシャルメディア投稿からの抑うつ検出のための言語モデルに基づく大規模分類器を複数構築する。 細調整されたBERTに加えて、RoBERTA、BERTweet、 mentalBERTも2種類のアンサンブルを構築した。 我々は,ソーシャルプラットフォームRedditとTwitterの2つのデータ集合におけるモデルの性能を分析し,この2つのデータ集合間の移動学習の性能についても検討した。 その結果,変圧器のアンサンブルは単一変圧器を用いた分類器よりも向上した。

As the impact of technology on our lives is increasing, we witness increased use of social media that became an essential tool not only for communication but also for sharing information with community about our thoughts and feelings. This can be observed also for people with mental health disorders such as depression where they use social media for expressing their thoughts and asking for help. This opens a possibility to automatically process social media posts and detect signs of depression. We build several large pre-trained language model based classifiers for depression detection from social media posts. Besides fine-tuning BERT, RoBERTA, BERTweet, and mentalBERT were also construct two types of ensembles. We analyze the performance of our models on two data sets of posts from social platforms Reddit and Twitter, and investigate also the performance of transfer learning across the two data sets. The results show that transformer ensembles improve over the single transformer-based classifiers.
翻訳日:2023-05-10 13:07:25 公開日:2023-05-09
# tps++: テキスト認識のための注目強調型薄板スプライン

TPS++: Attention-Enhanced Thin-Plate Spline for Scene Text Recognition ( http://arxiv.org/abs/2305.05322v1 )

ライセンス: Link先を確認
Tianlun Zheng, Zhineng Chen, Jinfeng Bai, Hongtao Xie, Yu-Gang Jiang(参考訳) テキストの不規則性はシーンのテキスト認識に重大な課題をもたらす。 薄板スプライン(tps)ベースの整流は、それらに対処する効果的な手段として広く考えられている。 現在、TPS変換パラメータの計算は、回帰テキスト境界の品質に依存している。 テキストの内容を無視し、しばしばひどく歪んだテキストに対して不満足な修正結果をもたらす。 本稿では,テキストの修正に注意機構を組み込んだTPS++について紹介する。 TPS++は、パラメータ計算を前景制御点回帰とコンテンツに基づくアテンションスコア推定のジョイントプロセスとして定式化し、専用のゲートアテンションブロックで計算する。 TPS++は、よりフレキシブルなコンテンツ認識整形器を構築し、後続の認識器で読みやすい自然なテキスト修正を生成する。 さらに、TPS++は機能バックボーンを認識器と一部で共有し、画像レベルではなく機能レベルで修正を実装しており、パラメータや推論時間のオーバーヘッドが小さいだけである。 公開ベンチマークの実験では、TPS++は一貫して認識を改善し、最先端の精度を実現している。 一方、異なるバックボーンや認識器をうまく一般化する。 コードはhttps://github.com/simplify23/TPS_PPにある。

Text irregularities pose significant challenges to scene text recognizers. Thin-Plate Spline (TPS)-based rectification is widely regarded as an effective means to deal with them. Currently, the calculation of TPS transformation parameters purely depends on the quality of regressed text borders. It ignores the text content and often leads to unsatisfactory rectified results for severely distorted text. In this work, we introduce TPS++, an attention-enhanced TPS transformation that incorporates the attention mechanism to text rectification for the first time. TPS++ formulates the parameter calculation as a joint process of foreground control point regression and content-based attention score estimation, which is computed by a dedicated designed gated-attention block. TPS++ builds a more flexible content-aware rectifier, generating a natural text correction that is easier to read by the subsequent recognizer. Moreover, TPS++ shares the feature backbone with the recognizer in part and implements the rectification at feature-level rather than image-level, incurring only a small overhead in terms of parameters and inference time. Experiments on public benchmarks show that TPS++ consistently improves the recognition and achieves state-of-the-art accuracy. Meanwhile, it generalizes well on different backbones and recognizers. Code is at https://github.com/simplify23/TPS_PP.
翻訳日:2023-05-10 13:07:11 公開日:2023-05-09
# 薬物製剤の顕微鏡的デンプン画像分類における人工知能の応用

Application of Artificial Intelligence in the Classification of Microscopical Starch Images for Drug Formulation ( http://arxiv.org/abs/2305.05321v1 )

ライセンス: Link先を確認
Marvellous Ajala, Blessing Oko, David Oba-Fidelis, Joycelyn Iyasele, Joy I. Odimegwu(参考訳) デンプンは、バインダー、分解剤、薬のバルク剤など、製薬業界で多くの用途を持つ植物で見られる重要なエネルギー源であり、顕微鏡を含む適切な同定と検証のために非常に注意深い物理化学的分析を必要とする。 本研究では,異なる植物源のデンプン試料9種から得られた顕微鏡画像に,トランスファーラーニングとディープ畳み込みニューラルネットワークcnnを用いた人工知能技術を適用した。 機械学習モデルがMicroNetデータセットから顕微鏡画像に事前トレーニングされた場合, 精度は61%であった。 しかし、imagenetデータセットから得られたランダムな日毎のイメージで事前トレーニングされたモデルでは、精度が81%に上昇した。 imagenetデータセットで事前トレーニングされたモデルは、imagenetデータセットで事前トレーニングされたモデルよりも精度、リコール、f1スコアが高かった。

Starches are important energy sources found in plants with many uses in the pharmaceutical industry such as binders, disintegrants, bulking agents in drugs and thus require very careful physicochemical analysis for proper identification and verification which includes microscopy. In this work, we applied artificial intelligence techniques (using transfer learning and deep convolution neural network CNNs to microscopical images obtained from 9 starch samples of different botanical sources. Our approach obtained an accuracy of 61% when the machine learning model was pretrained on microscopic images from MicroNet dataset. However the accuracy jumped to 81% for model pretrained on random day to day images obtained from Imagenet dataset. The model pretrained on the imagenet dataset also showed a better precision, recall and f1 score than that pretrained on the imagenet dataset.
翻訳日:2023-05-10 13:06:50 公開日:2023-05-09
# テンソル分解によるニューラルネットワーク圧縮の近似誤差はどの程度不変か?

How Informative is the Approximation Error from Tensor Decomposition for Neural Network Compression? ( http://arxiv.org/abs/2305.05318v1 )

ライセンス: Link先を確認
Jetze T. Schuurmans, Kim Batselier, Julian F. P. Kooij(参考訳) テンソル分解はニューラルネットワークの圧縮に成功している。 テンソル分解を用いた圧縮アルゴリズムは一般に重みの近似誤差を最小化する。 最近の研究は、重みの近似誤差が複数の層を圧縮し、圧縮されたモデルを微調整するモデルの性能のプロキシであると仮定している。 驚くべきことに、どの近似誤差を用いて層、テンソル分解法、圧縮レベルを選択できるかを体系的に評価する研究はほとんどない。 このギャップを埋めるために,我々は,この仮定が異なる層や分解の種類にまたがっているか,微調整の効果がどのようなものかを検証する実験を行った。 分析で圧縮層から得られた特徴に近似誤差を含め、データが明示的に考慮されているように、より優れたプロキシを提供するかどうかをテストします。 その結果, 重みの近似誤差は, 性能誤差と, 微調整前後の正の相関を示すことがわかった。 特徴量に対する近似誤差を用いると相関性は著しく改善しない。 近似誤差のスケーリングは、層の大きさの違いを考慮するのに一般的に使用されるが、微調整の前にすべての選択(層、分解、圧縮レベルなど)の平均的な相関は小さい。 異なる分解間の相関を計算するとき、平均階数相関はすべての選択よりも大きい。 これは、圧縮のために複数の分解を考慮でき、近似誤差を使ってそれらを選択できることを意味する。

Tensor decompositions have been successfully applied to compress neural networks. The compression algorithms using tensor decompositions commonly minimize the approximation error on the weights. Recent work assumes the approximation error on the weights is a proxy for the performance of the model to compress multiple layers and fine-tune the compressed model. Surprisingly, little research has systematically evaluated which approximation errors can be used to make choices regarding the layer, tensor decomposition method, and level of compression. To close this gap, we perform an experimental study to test if this assumption holds across different layers and types of decompositions, and what the effect of fine-tuning is. We include the approximation error on the features resulting from a compressed layer in our analysis to test if this provides a better proxy, as it explicitly takes the data into account. We find the approximation error on the weights has a positive correlation with the performance error, before as well as after fine-tuning. Basing the approximation error on the features does not improve the correlation significantly. While scaling the approximation error commonly is used to account for the different sizes of layers, the average correlation across layers is smaller than across all choices (i.e. layers, decompositions, and level of compression) before fine-tuning. When calculating the correlation across the different decompositions, the average rank correlation is larger than across all choices. This means multiple decompositions can be considered for compression and the approximation error can be used to choose between them.
翻訳日:2023-05-10 13:06:36 公開日:2023-05-09
# CAMIL:全スライド画像分類のためのコンテキスト対応マルチインスタンス学習

CAMIL: Context-Aware Multiple Instance Learning for Whole Slide Image Classification ( http://arxiv.org/abs/2305.05314v1 )

ライセンス: Link先を確認
Olga Fourkioti, Avi Arampatzis, Chen Jin, Mat De Vries, Chris Bakal(参考訳) がん診断は通常、ヒト病理学者が腫瘍細胞とそのサブタイプを特定するために組織断面生検の全スライド画像(WSI)を調べる。 しかし、人工知能(AI)ベースのモデル、特に弱い教師付きアプローチは、最近、実行可能な代替手段として現れている。 弱い教師付きアプローチでは、各タイルに割り当てられた注意スコアに基づいて、WSIの全体分類に基づいて、イメージサブセクションまたはタイルを入力として使用することが多い。 しかし、腫瘍は異種であり、がんや正常な細胞は単一のタイルよりも大きなパターンで成長するため、偽陽性/陰性の可能性を見落としている。 このようなタイルレベルのエラーは腫瘍レベルでの誤分類につながる可能性がある。 この限界に対処するため,我々はCHARM(Contrastive Histopathology Attention Resolved Models)と呼ばれる新しい深層学習プール演算子を開発した。 CHARMはWSI内の単一のタイル間の依存関係を活用し、複数のインスタンス学習モデルに対する事前知識としてコンテキスト制約を課します。 我々は,非小細胞肺癌(NSLC)およびリンパ節転移(LN)の亜型化についてCHARMを試験し,他の最先端の弱教師付き分類アルゴリズムよりも優位性を示した。 さらに、CHARMは注意領域を可視化することで解釈しやすくする。

Cancer diagnoses typically involve human pathologists examining whole slide images (WSIs) of tissue section biopsies to identify tumor cells and their subtypes. However, artificial intelligence (AI)-based models, particularly weakly supervised approaches, have recently emerged as viable alternatives. Weakly supervised approaches often use image subsections or tiles as input, with the overall classification of the WSI based on attention scores assigned to each tile. However, this method overlooks the potential for false positives/negatives because tumors can be heterogeneous, with cancer and normal cells growing in patterns larger than a single tile. Such errors at the tile level could lead to misclassification at the tumor level. To address this limitation, we developed a novel deep learning pooling operator called CHARM (Contrastive Histopathology Attention Resolved Models). CHARM leverages the dependencies among single tiles within a WSI and imposes contextual constraints as prior knowledge to multiple instance learning models. We tested CHARM on the subtyping of non-small cell lung cancer (NSLC) and lymph node (LN) metastasis, and the results demonstrated its superiority over other state-of-the-art weakly supervised classification algorithms. Furthermore, CHARM facilitates interpretability by visualizing regions of attention.
翻訳日:2023-05-10 13:06:14 公開日:2023-05-09
# PLM-GNN:共同事前学習言語モデルとグラフニューラルネットワークに基づくWebページ分類手法

PLM-GNN: A Webpage Classification Method based on Joint Pre-trained Language Model and Graph Neural Network ( http://arxiv.org/abs/2305.05378v1 )

ライセンス: Link先を確認
Qiwei Lang, Jingbo Zhou, Haoyi Wang, Shiqi Lyu, Rui Zhang(参考訳) ウェブページの数は指数関数的に増加しており、ウェブ上の膨大なデータを蓄積している。 これはWebページをWeb情報マイニングで分類する重要なプロセスの1つである。 いくつかの古典的手法は、手動でWebページの機能を構築し、機械学習やディープラーニングに基づいて分類器を訓練する。 しかし、機能の構築には特定のドメイン知識が必要であり、通常、機能の妥当性を検証するのに長い時間がかかる。 テキストとHTML文書オブジェクトモデル(DOM)木の組み合わせにより生成されたWebページを考慮し、事前学習言語モデルとグラフニューラルネットワークに基づく表現と分類手法、PLM-GNNを提案する。 これは、Webページ内のテキストとHTML DOMツリーの合同エンコーディングに基づいている。 KI-04 と SWDE のデータセットと、学者のホームページクローリングプロジェクトのための実用的なデータセット AHS でよく機能する。

The number of web pages is growing at an exponential rate, accumulating massive amounts of data on the web. It is one of the key processes to classify webpages in web information mining. Some classical methods are based on manually building features of web pages and training classifiers based on machine learning or deep learning. However, building features manually requires specific domain knowledge and usually takes a long time to validate the validity of features. Considering webpages generated by the combination of text and HTML Document Object Model(DOM) trees, we propose a representation and classification method based on a pre-trained language model and graph neural network, named PLM-GNN. It is based on the joint encoding of text and HTML DOM trees in the web pages. It performs well on the KI-04 and SWDE datasets and on practical dataset AHS for the project of scholar's homepage crawling.
翻訳日:2023-05-10 12:59:16 公開日:2023-05-09
# MSVQ: 複数のサンプルビューとキューによる自己監督型学習

MSVQ: Self-Supervised Learning with Multiple Sample Views and Queues ( http://arxiv.org/abs/2305.05370v1 )

ライセンス: Link先を確認
Chen Peng and Xianzhong Long and Yun Li(参考訳) 対照的な学習に基づく自己指導手法は、教師なし視覚表現学習において大きな成功を収めた。 しかし、このフレームワークのほとんどのメソッドは偽陰性のサンプルの問題に苦しんでいる。 自己教師型学習における平均シフトに着想を得て,複数のサンプルビューとキュー(MSVQ)という,新しいシンプルなフレームワークを提案する。 提案手法は,2つの相補的・対称的な手法,つまり,複数の拡張正のビューと2つの運動量エンコーダを導入し,様々な意味的特徴を負のサンプルで生成する。 2つの教師ネットワークは、負のサンプルで類似度関係の計算を行い、その知識を生徒に転送する。 学生はサンプル間の類似した関係を模倣することで、データセット内の偽陰性のサンプルをより柔軟に識別することができる。 4つのベンチマーク画像データセットの分類結果から,従来の手法と比較して高い有効性と効率を示す。 ソースコードと事前訓練されたモデルは$\href{https://github.com/pc-cp/MSVQ}{this~http~URL}$で入手できる。

Self-supervised methods based on contrastive learning have achieved great success in unsupervised visual representation learning. However, most methods under this framework suffer from the problem of false negative samples. Inspired by mean shift for self-supervised learning, we propose a new simple framework, namely Multiple Sample Views and Queues (MSVQ). We jointly construct a soft label on-the-fly by introducing two complementary and symmetric ways: multiple augmented positive views and two momentum encoders forming various semantic features of negative samples. Two teacher networks perform similarity relationship calculations with negative samples and then transfer this knowledge to the student. Let the student mimic the similar relationship between the samples, thus giving the student a more flexible ability to identify false negative samples in the dataset. The classification results on four benchmark image datasets demonstrate the high effectiveness and efficiency of our approach compared to some classical methods. Source code and pretrained models are available at $\href{https://github.com/pc-cp/MSVQ}{this~http~URL}$.
翻訳日:2023-05-10 12:58:15 公開日:2023-05-09
# gnn、あなたはより強く、より深く、より速く

GNNs,You can be Stronger,Deeper and Faster ( http://arxiv.org/abs/2305.05368v1 )

ライセンス: Link先を確認
Jingbo Zhou, Yixuan Du, Ruqiong Zhang, Rui Zhang, Di Jin, Carl Yang(参考訳) グラフ構造データから学習し,隣接ノードを集約することでノード表現を学習可能なグラフニューラルネットワーク(gnns)は,ダウンストリームタスクにおいて優れた性能を示すが,グラフニューラルネットワーク(gnns)の性能は層数の増加とともに徐々に低下することが知られている。 Based on k-hop subgraph aggregation, which is a new concept, we propose a new perspective to understand the expressive power of GNN.From this perspective, we reveal the potential causes of the performance degradation of the deep traditional GNN - aggregated subgraph overlap, and the fact that the residual-based graph neural networks in fact exploit the aggregation results of 1 to k hop subgraphs to improve the effectiveness.Further, we propose a new sampling-based node-level residual module named SDF, which is shown by theoretical derivation to obtain a superior expressive power compared to previous residual methods by using information from 1 to k hop subgraphs more flexibly. SDFモジュールによるGNNの性能と効率は,他の手法よりも優れていた。

Graph neural networks (GNNs), a type of neural network that can learn from graph-structured data and learn the representation of nodes by aggregating their neighbors, have shown excellent performance in downstream tasks.However, it is known that the performance of graph neural networks (GNNs) degrades gradually as the number of layers increases. Based on k-hop subgraph aggregation, which is a new concept, we propose a new perspective to understand the expressive power of GNN.From this perspective, we reveal the potential causes of the performance degradation of the deep traditional GNN - aggregated subgraph overlap, and the fact that the residual-based graph neural networks in fact exploit the aggregation results of 1 to k hop subgraphs to improve the effectiveness.Further, we propose a new sampling-based node-level residual module named SDF, which is shown by theoretical derivation to obtain a superior expressive power compared to previous residual methods by using information from 1 to k hop subgraphs more flexibly. Extensive experiments show that the performance and efficiency of GNN with the SDF module outperform other methods.
翻訳日:2023-05-10 12:57:57 公開日:2023-05-09
# 大規模言語モデルプログラム

Large Language Model Programs ( http://arxiv.org/abs/2305.05364v1 )

ライセンス: Link先を確認
Imanol Schlag, Sainbayar Sukhbaatar, Asli Celikyilmaz, Wen-tau Yih, Jason Weston, J\"urgen Schmidhuber, Xian Li(参考訳) 近年,大規模な事前学習型言語モデル (LLM) は,いくつかの例から指示に従うことや,新しいタスクを実行する能力を示している。 このような文脈内例を通してLCMをパラメータ化する可能性は、微調整よりもはるかに低コストでその能力を広げる。 本稿では,この推論の行を拡張し,アルゴリズムやプログラムに組み込んでLLMの機能をさらに拡張する手法を提案する。 このアプローチの利点を示すために,エビデンスが支持する質問応答の例を示す。 我々は、よりアルゴリズム的なアプローチで思考ベースラインの連鎖を微調整せずに6.4\%改善する。 さらに,この観点からの最近の成果を強調し,標準手法と比較して,その利点と欠点について考察する。

In recent years, large pre-trained language models (LLMs) have demonstrated the ability to follow instructions and perform novel tasks from a few examples. The possibility to parameterise an LLM through such in-context examples widens their capability at a much lower cost than finetuning. We extend this line of reasoning and present a method which further expands the capabilities of an LLM by embedding it within an algorithm or program. To demonstrate the benefits of this approach, we present an illustrative example of evidence-supported question-answering. We obtain a 6.4\% improvement over the chain of thought baseline through a more algorithmic approach without any finetuning. Furthermore, we highlight recent work from this perspective and discuss the advantages and disadvantages in comparison to the standard approaches.
翻訳日:2023-05-10 12:57:41 公開日:2023-05-09
# NetRVLADとグラフ類似性を用いた教師なし文字検索

Unsupervised Writer Retrieval using NetRVLAD and Graph Similarity Reranking ( http://arxiv.org/abs/2305.05358v1 )

ライセンス: Link先を確認
Marco Peer, Florian Kleber, Robert Sablatnig(参考訳) 本稿では,キーポイント位置で検出されたクラスタリングSIFT記述子に基づいて,擬似クラスタラベルによる文字検索を行う手法を提案する。 これらのクラスタラベルを用いて,NetVLADに比べて複雑性の低い符号化層であるNetRVLADをキーポイント位置32x32パッチでトレーニングした。 さらに,ページ埋め込みの類似性を生かして検索性能を向上させるため,SGRと呼ばれるグラフベースの再ランクアルゴリズムを提案する。 本手法は2つの歴史的データセット(Historical-WIとHisIR19)で評価する。 我々は異なるバックボーンとNetRVLADの評価を含む。 明示的なエンコーディングを使わずに、歴史的なデータセットに関する関連作業と競合する。 再ランキング方式を適用することで,両データセットに新たな最先端技術を設定し,現代的なデータセットでも同等のパフォーマンスを達成できることを実証した。

This paper presents an unsupervised approach for writer retrieval based on clustering SIFT descriptors detected at keypoint locations resulting in pseudo-cluster labels. With those cluster labels, a residual network followed by our proposed NetRVLAD, an encoding layer with reduced complexity compared to NetVLAD, is trained on 32x32 patches at keypoint locations. Additionally, we suggest a graph-based reranking algorithm called SGR to exploit similarities of the page embeddings to boost the retrieval performance. Our approach is evaluated on two historical datasets (Historical-WI and HisIR19). We include an evaluation of different backbones and NetRVLAD. It competes with related work on historical datasets without using explicit encodings. We set a new State-of-the-art on both datasets by applying our reranking scheme and show that our approach achieves comparable performance on a modern dataset as well.
翻訳日:2023-05-10 12:57:30 公開日:2023-05-09
# 基礎モデルに基づくシステム設計のためのフレームワーク

A Framework for Designing Foundation Model based Systems ( http://arxiv.org/abs/2305.05352v1 )

ライセンス: Link先を確認
Qinghua Lu, Liming Zhu, Xiwei Xu, Zhenchang Xing, Jon Whittle(参考訳) 大規模言語モデル(LLM)ベースのチャットボット(ChatGPTなど)の最近のリリースは、基礎モデルに大きな注目を集めている。 基盤モデルが将来のaiシステムの基本的な構成要素となると広く信じられている。 基礎モデルが初期段階にあるため、基礎モデルに基づくシステムの設計はまだ体系的に検討されていない。 ソフトウェアアーキテクチャに基礎モデルを導入することの影響についてはほとんど理解されていない。 そこで本研究では,基礎モデルに基づくシステムの特徴を分類・比較する基礎モデルに基づくシステムの分類法を提案する。 我々の分類学は、基礎モデル事前訓練と微調整、基礎モデルベースシステムのアーキテクチャ設計、責任AI設計の3つのカテゴリから構成される。 この分類は、基礎モデルに基づくシステムを設計する際に重要な設計決定を行うための具体的なガイダンスを提供し、設計決定から生じるトレードオフを強調する。

The recent release of large language model (LLM) based chatbots, such as ChatGPT, has attracted significant attention on foundations models. It is widely believed that foundation models will serve as the fundamental building blocks for future AI systems. As foundation models are in their early stages, the design of foundation model based systems has not yet been systematically explored. There is little understanding about the impact of introducing foundation models in software architecture. Therefore, in this paper, we propose a taxonomy of foundation model based systems, which classifies and compares the characteristics of foundation models and foundation model based systems. Our taxonomy comprises three categories: foundation model pretraining and fine-tuning, architecture design of foundation model based systems, and responsible-AI-by-design. This taxonomy provides concrete guidance for making major design decisions when designing foundation model based systems and highlights trade-offs arising from design decisions.
翻訳日:2023-05-10 12:57:16 公開日:2023-05-09
# インドの叙事詩『マハーバーラタ』から言語モデルを用いた関連語の推定

Estimating related words computationally using language model from the Mahabharata - an Indian epic ( http://arxiv.org/abs/2305.05420v1 )

ライセンス: Link先を確認
Vrunda Gadesha, Keyur D Joshi, Shefali Naik(参考訳) 「マハバラータ」は、諸藩で言及される多くのインド文学の中で、全く異なる目的のために最も人気がある。 このテキスト自体は、個人的生活や職業的生活において、人間にとって有用な様々な次元と側面を持っている。 このインドの叙事詩は元々サンスクリット語で書かれている。 現在、自然言語処理、人工知能、機械学習、人間とコンピュータの相互作用の時代において、このテキストはドメイン要件に従って処理できる。 このテキストを処理して、mahabharata氏から有用な洞察を得ることは興味深い。 マハーバーラタの分析における人間の限界は、著者の物語に対する感情的側面が常にあることである。 それとは別に、人間は統計や計算の詳細を記憶することはできない。 文学全体の文章の平均の長さはどのくらいですか。 どの単語がテキストで一番人気のある単語で、文で使われる単語の補題は何ですか? そこで本稿では,最も大きなエピックである「マハーバーラタ」の単語探索手法とともに,いくつかの統計的および計算的洞察を得るためのNLPパイプラインを提案する。 さまざまなテキスト処理アプローチを積み重ねて,mahabharataの参照が必要なさまざまな領域で,さらに活用可能な最高の結果を明確にしました。

'Mahabharata' is the most popular among many Indian pieces of literature referred to in many domains for completely different purposes. This text itself is having various dimension and aspects which is useful for the human being in their personal life and professional life. This Indian Epic is originally written in the Sanskrit Language. Now in the era of Natural Language Processing, Artificial Intelligence, Machine Learning, and Human-Computer interaction this text can be processed according to the domain requirement. It is interesting to process this text and get useful insights from Mahabharata. The limitation of the humans while analyzing Mahabharata is that they always have a sentiment aspect towards the story narrated by the author. Apart from that, the human cannot memorize statistical or computational details, like which two words are frequently coming in one sentence? What is the average length of the sentences across the whole literature? Which word is the most popular word across the text, what are the lemmas of the words used across the sentences? Thus, in this paper, we propose an NLP pipeline to get some statistical and computational insights along with the most relevant word searching method from the largest epic 'Mahabharata'. We stacked the different text-processing approaches to articulate the best results which can be further used in the various domain where Mahabharata needs to be referred.
翻訳日:2023-05-10 12:50:26 公開日:2023-05-09
# 一般化deutsch問題を解くための不定因果順序アルゴリズムの実験的証明

Experimentally demonstrating indefinite causal order algorithms to solve the generalized Deutsch's problem ( http://arxiv.org/abs/2305.05416v1 )

ライセンス: Link先を確認
Wen-Qiang Liu, Zhe Meng, Bo-Wen Song, Jian Li, Qing-Yuan Wu, Xiao-Xiao Chen, Jin-Yang Hong, An-Ning Zhang, and Zhang-qi Yin(参考訳) Deutschのアルゴリズムは、古典的アルゴリズムよりも優位性を示す最初の量子アルゴリズムである。 ここでは、deutschの問題をn$関数に一般化し、この問題を解決するために不定因果順序を持つ新しい量子アルゴリズムを提案する。 新しいアルゴリズムは、古典的なアルゴリズムよりもブラックボックスへのクエリの数を半分に減らすだけでなく、deutschのアルゴリズムよりも必要な量子ゲートの数を大幅に減らす。 我々は, 安定なサニャックループ干渉計において, 位相不安定性とマッハ・ツェンダー干渉計の低忠実性の両方の障害を克服する実験を行った。 実験の結果、超高速かつロバストな成功確率である$\sim 99.7\%$が示された。 我々の研究は、無限のカジュアルオーダー量子回路で現実的な問題を解決するための新しい道を開く。

Deutsch's algorithm is the first quantum algorithm to show the advantage over the classical algorithm. Here we generalize Deutsch's problem to $n$ functions and propose a new quantum algorithm with indefinite causal order to solve this problem. The new algorithm not only reduces the number of queries to the black-box by half over the classical algorithm, but also significantly reduces the number of required quantum gates over the Deutsch's algorithm. We experimentally demonstrate the algorithm in a stable Sagnac loop interferometer with common path, which overcomes the obstacles of both phase instability and low fidelity of Mach-Zehnder interferometer. The experimental results have shown both an ultra-high and robust success probability $\sim 99.7\%$. Our work opens up a new path towards solving the practical problems with indefinite casual order quantum circuits.
翻訳日:2023-05-10 12:50:08 公開日:2023-05-09
# 医療会話QAにおける大規模言語モデル

Large Language Models Need Holistically Thought in Medical Conversational QA ( http://arxiv.org/abs/2305.05410v1 )

ライセンス: Link先を確認
Yixuan Weng, Bin Li, Fei Xia, Minjun Zhu, Bin Sun, Shizhu He, Kang Liu, Jun Zhao(参考訳) cqa(medical conversational question answering)システムは、医療の効率を改善するための専門的な医療サービスを提供することを目的としている。 数学、論理学、コモンセンスQAなど、様々な分野における複雑な推論タスクにおいて、大きな言語モデル(LLM)の成功にもかかわらず、医療分野の複雑さと特殊化を増大させることで改善する必要がある。 これは、医学的CQAタスクが強い医学的推論だけでなく、広く深く考える能力を必要とするためである。 本稿では,多くの面から考慮し,理解する必要がある医療用CQAタスクにおけるこれらの課題に対処するために,LLMを指導し,高品質な医療応答を生み出すための拡散的,集中的な思考を行うよう設計したHolistically Thought(HoT)手法を提案する。 提案手法は, 英語と中国語を含む3種類の医療用cqaデータセットにおいて, 自動的および手作業による評価を行った。 実験結果から,本手法は複数のSOTA法よりも正確性,専門性,思考的回答が得られ,その有効性が示された。 私たちのコードはhttps://github.com/WENGSYX/HoT。

The medical conversational question answering (CQA) system aims at providing a series of professional medical services to improve the efficiency of medical care. Despite the success of large language models (LLMs) in complex reasoning tasks in various fields, such as mathematics, logic, and commonsense QA, they still need to improve with the increased complexity and specialization of the medical field. This is because medical CQA tasks require not only strong medical reasoning, but also the ability to think broadly and deeply. In this paper, to address these challenges in medical CQA tasks that need to be considered and understood in many aspects, we propose the Holistically Thought (HoT) method, which is designed to guide the LLMs to perform the diffused and focused thinking for generating high-quality medical responses. The proposed HoT method has been evaluated through automated and manual assessments in three different medical CQA datasets containing the English and Chinese languages. The extensive experimental results show that our method can produce more correctness, professional, and considerate answers than several state-of-the-art (SOTA) methods, manifesting its effectiveness. Our code in https://github.com/WENGSYX/HoT.
翻訳日:2023-05-10 12:49:53 公開日:2023-05-09
# オープンワールドの知識基盤における完全性、リコール、否定:調査

Completeness, Recall, and Negation in Open-World Knowledge Bases: A Survey ( http://arxiv.org/abs/2305.05403v1 )

ライセンス: Link先を確認
Simon Razniewski, Hiba Arnaout, Shrestha Ghosh, Fabian Suchanek(参考訳) 汎用知識ベース(KB)は知識中心のAIの基礎である。 それらの多くはWebソースから実用的に構築されており、完成には程遠い。 これは、消費だけでなく、コンテンツのキュレーションにも問題をもたらします。 いくつかの調査では不完全KBを完遂する問題をターゲットにしているが、最初の問題はそもそもKBが不完全であるかどうか、どの程度かを知ることである。 本調査では,KBの完全性,リコール,否定に関する知識をどのように表現し,抽出し,推測するかについて議論する。 カバーする 一 部分的閉世界意味論における知識表現及び問合せの論理的基礎 (ii)統計パターンによる情報の推定 (iii)kbs及びテキストからのリコールに関する情報の抽出 (四)興味深い否定的陳述の特定及び (v)相対リコールの概念を緩和した。 本調査は,(1)kb品質の追跡,抽出作業の集中,品質を意識した下流アプリケーションの構築に関心のある実践者,(2)オープンワールドの仮定を超えて知識ベースの現状を理解したいと願うデータ管理,知識ベース,セマンティックウェブ研究者の2つのタイプを対象としている。 そこで本研究では,基本的な方法論と作業方法の両方を提示し,問題に対して異なるアプローチを選択する方法に関する実践指向の推奨を行う。

General-purpose knowledge bases (KBs) are a cornerstone of knowledge-centric AI. Many of them are constructed pragmatically from Web sources, and are thus far from complete. This poses challenges for the consumption as well as the curation of their content. While several surveys target the problem of completing incomplete KBs, the first problem is arguably to know whether and where the KB is incomplete in the first place, and to which degree. In this survey we discuss how knowledge about completeness, recall, and negation in KBs can be expressed, extracted, and inferred. We cover (i) the logical foundations of knowledge representation and querying under partial closed-world semantics; (ii) the estimation of this information via statistical patterns; (iii) the extraction of information about recall from KBs and text; (iv) the identification of interesting negative statements; and (v) relaxed notions of relative recall. This survey is targeted at two types of audiences: (1) practitioners who are interested in tracking KB quality, focusing extraction efforts, and building quality-aware downstream applications; and (2) data management, knowledge base and semantic web researchers who wish to understand the state of the art of knowledge bases beyond the open-world assumption. Consequently, our survey presents both fundamental methodologies and their working, and gives practice-oriented recommendations on how to choose between different approaches for a problem at hand.
翻訳日:2023-05-10 12:49:31 公開日:2023-05-09
# eコマースにおけるデータ拡張を用いた一貫性テキスト分類

Consistent Text Categorization using Data Augmentation in e-Commerce ( http://arxiv.org/abs/2305.05402v1 )

ライセンス: Link先を確認
Guy Horowitz, Stav Yanovsky Daye, Noa Avigdor-Elgrabli, Ariel Raviv(参考訳) 巨大なeコマースデータの分類は、産業環境で広く普及している、重要かつ十分に研究されたタスクである。 本研究は,既存の製品分類モデルの改良を目標とし,すでに大手web企業によって利用されており,複数のアプリケーションに対応している。 その中核となる製品分類モデルは、製品タイトルを入力として取り、数千の候補の中から最も適したカテゴリを出力するテキスト分類モデルである。 より精査した結果,類似項目のラベル付けに矛盾が認められた。 例えば、色や測定に関連する製品タイトルの小さな変更は、モデルの出力に大きな影響を与えました。 この現象は下流のレコメンデーションや検索アプリケーションに悪影響を与え、最適なユーザーエクスペリエンスを損なう。 この問題に対処するため,一貫したテキスト分類のための新しいフレームワークを提案する。 私たちの目標は、プロダクションレベルのパフォーマンスを維持しながら、モデルの一貫性を改善することです。 データ拡張に半教師付きアプローチを用い、ラベルなしサンプルを利用する2つの異なる方法を提案する。 1つの方法は既存のカタログに直接依存し、もう1つは生成モデルを使用する。 それぞれのアプローチの長所と短所を比較し,実験結果を示す。

The categorization of massive e-Commerce data is a crucial, well-studied task, which is prevalent in industrial settings. In this work, we aim to improve an existing product categorization model that is already in use by a major web company, serving multiple applications. At its core, the product categorization model is a text classification model that takes a product title as an input and outputs the most suitable category out of thousands of available candidates. Upon a closer inspection, we found inconsistencies in the labeling of similar items. For example, minor modifications of the product title pertaining to colors or measurements majorly impacted the model's output. This phenomenon can negatively affect downstream recommendation or search applications, leading to a sub-optimal user experience. To address this issue, we propose a new framework for consistent text categorization. Our goal is to improve the model's consistency while maintaining its production-level performance. We use a semi-supervised approach for data augmentation and presents two different methods for utilizing unlabeled samples. One method relies directly on existing catalogs, while the other uses a generative model. We compare the pros and cons of each approach and present our experimental results.
翻訳日:2023-05-10 12:49:10 公開日:2023-05-09
# ランダムlpノルム劣化を伴う画像分類器の破壊ロバスト性の検討

Investigating the Corruption Robustness of Image Classifiers with Random Lp-norm Corruptions ( http://arxiv.org/abs/2305.05400v1 )

ライセンス: Link先を確認
Georg Siedel, Silvia Vock, Andrey Morozov(参考訳) 堅牢性は、安全性と信頼性を達成するための機械学習分類器の基本特性である。 逆ロバスト性および画像分類モデルの形式ロバスト性検証の分野において、ロバスト性はlpノルム距離内の全ての入力変動に対する安定性として一般に定義される。 しかし、ランダムな汚職に対する堅牢性は通常、現実世界で観測された変動を利用して改善され評価されるが、数学的に定義されたLp-ノルムの汚職はほとんど考慮されない。 本研究では,画像分類器のトレーニングとテストデータを強化するために,ランダムなlp-ノルム腐敗の利用を検討する。 我々は,非知覚的無作為な腐敗に対するモデルロバスト性を評価するために,敵対的ロバストネスの分野からのアプローチを適用する。 我々は,異なるlpノルム間でロバスト性が伝達可能かどうかを実証的・理論的に検討し,モデルが学習・評価すべきlpノルム崩壊の結論を導出する。 その結果,l0-ノルム劣化を伴うトレーニングデータの強化は,標準訓練に比べて精度を維持しつつ腐敗の頑健性を向上させることが判明した。

Robustness is a fundamental property of machine learning classifiers to achieve safety and reliability. In the fields of adversarial robustness and formal robustness verification of image classification models, robustness is commonly defined as the stability to all input variations within an Lp-norm distance. However, robustness to random corruptions is usually improved and evaluated using variations observed in the real-world, while mathematically defined Lp-norm corruptions are rarely considered. This study investigates the use of random Lp-norm corruptions to augment the training and test data of image classifiers. We adapt an approach from the field of adversarial robustness to assess the model robustness to imperceptible random corruptions. We empirically and theoretically investigate whether robustness is transferable across different Lp-norms and derive conclusions on which Lp-norm corruptions a model should be trained and evaluated on. We find that training data augmentation with L0-norm corruptions improves corruption robustness while maintaining accuracy compared to standard training and when applied on top of selected state-of-the-art data augmentation techniques.
翻訳日:2023-05-10 12:48:56 公開日:2023-05-09
# CaseEncoder: 判例エンコーディングのための知識強化事前訓練モデル

CaseEncoder: A Knowledge-enhanced Pre-trained Model for Legal Case Encoding ( http://arxiv.org/abs/2305.05393v1 )

ライセンス: Link先を確認
Yixiao Ma, Yueyue Wu, Weihang Su, Qingyao Ai, Yiqun Liu(参考訳) 判例検索は現代の法律情報システムにとって重要なプロセスである。 近年の研究では、一般ドメインの自己指導型事前学習パラダイムに基づく事前学習言語モデル(PLM)を用いて、訴訟検索のためのモデルを構築しているが、一般ドメインのPLMをバックボーンとして使用するには制限がある。 特に、これらのモデルは、訴訟書類の根拠となる法的特徴を完全には捉えないかもしれない。 この問題に対処するため,データサンプリングと事前学習の両段階において,詳細な法的知識を活用する法定文書エンコーダであるCaseEncoderを提案する。 このデータサンプリングフェーズでは,詳細な法律記事情報を利用して,正と負の事例の選択を導くことにより,トレーニングデータの質を向上させる。 事前訓練段階では,関連する訴訟の判定基準に合致する法律固有の事前訓練タスクを設計する。 これらの課題に基づき,粒度が小さい場合を識別するモデルの能力を高めるために,バイアス付き円損失と呼ばれる革新的な損失関数を導入する。 複数のベンチマークによる実験結果から、CaseEncoderは、ゼロショットの判例検索において、既存の一般事前学習モデルと法固有の事前学習モデルの両方を著しく上回っていることが示された。

Legal case retrieval is a critical process for modern legal information systems. While recent studies have utilized pre-trained language models (PLMs) based on the general domain self-supervised pre-training paradigm to build models for legal case retrieval, there are limitations in using general domain PLMs as backbones. Specifically, these models may not fully capture the underlying legal features in legal case documents. To address this issue, we propose CaseEncoder, a legal document encoder that leverages fine-grained legal knowledge in both the data sampling and pre-training phases. In the data sampling phase, we enhance the quality of the training data by utilizing fine-grained law article information to guide the selection of positive and negative examples. In the pre-training phase, we design legal-specific pre-training tasks that align with the judging criteria of relevant legal cases. Based on these tasks, we introduce an innovative loss function called Biased Circle Loss to enhance the model's ability to recognize case relevance in fine grains. Experimental results on multiple benchmarks demonstrate that CaseEncoder significantly outperforms both existing general pre-training models and legal-specific pre-training models in zero-shot legal case retrieval.
翻訳日:2023-05-10 12:48:34 公開日:2023-05-09
# シャープネス認識最小化と対向ロバスト性の関係について

On the Relation between Sharpness-Aware Minimization and Adversarial Robustness ( http://arxiv.org/abs/2305.05392v1 )

ライセンス: Link先を確認
Zeming Wei, Jingyu Zhu, Yihao Zhang(参考訳) 本稿では,敵の強靭性の観点からのシャープネス認識最小化(SAM)の新たな理解を提案する。 本稿では, SAM と敵対的トレーニング (AT) の双方を特定の特徴摂動とみなし, 対向的堅牢性を向上させることを指摘する。 しかし,SAMとATは摂動強度の点で異なっており,精度と頑健さのトレードオフが異なっていることに留意する。 厳密な数学的証明を伴う単純化されたモデルでこれらの主張を理論的に証明する。 さらに,SAMのみを利用することで,従来の訓練よりも優れた対向的堅牢性が得られることを示す実験を行った。 逆行訓練はクリーンな精度の低下に悩まされるため、SAM単独でクリーンな精度を犠牲にすることなく堅牢性を向上させることができることを示す。 コードはhttps://github.com/weizeming/SAM_ATで入手できる。

We propose a novel understanding of Sharpness-Aware Minimization (SAM) in the context of adversarial robustness. In this paper, we point out that both SAM and adversarial training (AT) can be viewed as specific feature perturbations, which improve adversarial robustness. However, we note that SAM and AT are distinct in terms of perturbation strength, leading to different accuracy and robustness trade-offs. We provide theoretical evidence for these claims in a simplified model with rigorous mathematical proofs. Furthermore, we conduct experiment to demonstrate that only utilizing SAM can achieve superior adversarial robustness compared to standard training, which is an unexpected benefit. As adversarial training can suffer from a decrease in clean accuracy, we show that using SAM alone can improve robustness without sacrificing clean accuracy. Code is available at https://github.com/weizeming/SAM_AT.
翻訳日:2023-05-10 12:48:13 公開日:2023-05-09
# coke: 心の機械理論のための認知的知識グラフ

COKE: A Cognitive Knowledge Graph for Machine Theory of Mind ( http://arxiv.org/abs/2305.05390v1 )

ライセンス: Link先を確認
Jincenzi Wu, Zhuang Chen, Jiawen Deng, Sahand Sabour, Minlie Huang(参考訳) 心の理論(りょうせい、英: Theory of Mind)とは、他者の欲求、信念、意図を理解し、推測する能力のこと。 ToMの獲得は、人間の社会的認知と対人関係において重要な役割を果たしている。 ソーシャルインテリジェンスには不可欠だが、トレーニングコーパスの下の人間の精神状態や認知プロセスにアクセスできないため、ToMは現代AIやNLPシステムにはまだ欠落している。 本稿では,ToM能力でAIシステムを強化し,両者のギャップを狭めるために,心の機械理論のための最初の認知知識グラフであるCOKEを提案する。 特に、COKEはToMを、特定の社会的状況に直面した際の人間の精神活動とその後の行動・影響を特徴付ける45k以上の認知的連鎖のコレクションとして定式化している。 さらに,事前学習した言語モデルを用いてコークスをさらに一般化し,強力な認知生成モデル coke+ を構築する。 自動評価と人的評価の両方の実験結果から,COKEの高品質化とCOKE+のToM能力の向上が示された。

Theory of mind (ToM) refers to humans' ability to understand and infer the desires, beliefs, and intentions of others. The acquisition of ToM plays a key role in humans' social cognition and interpersonal relations. Though indispensable for social intelligence, ToM is still lacking for modern AI and NLP systems since they cannot access the human mental state and cognitive process beneath the training corpus. To empower AI systems with the ToM ability and narrow the gap between them and humans, in this paper, we propose COKE: the first cognitive knowledge graph for machine theory of mind. Specifically, COKE formalizes ToM as a collection of 45k+ manually verified cognitive chains that characterize human mental activities and subsequent behavioral/affective responses when facing specific social circumstances. Beyond that, we further generalize COKE using pre-trained language models and build a powerful cognitive generation model COKE+. Experimental results in both automatic and human evaluation demonstrate the high quality of COKE and the superior ToM ability of COKE+.
翻訳日:2023-05-10 12:47:36 公開日:2023-05-09
# 単一光子の軌道角運動量の普遍変換に向けて

Toward universal transformations of orbital angular momentum of a single photon ( http://arxiv.org/abs/2305.05467v1 )

ライセンス: Link先を確認
Dong-Xu Chen, Yunlong Wang, Feiran Wang, Jun-Long Zhao, Chui-Ping Yang(参考訳) 高次元量子系は低次元量子系に対して多くの利点がある。 一方、量子状態のユニタリ変換は様々な量子情報処理において重要な部分であり、次元が増加するにつれて技術的に実現不可能となる。 フォトニック軌道角運動量(OAM)は光子の逆空間モードで継承され、高次元空間における情報をエンコードするための自然なキャリアを提供する。 しかし、フォトニックOAM状態上で任意のユニタリ変換を実現することはさらに困難である。 ここでは、単一光子の経路とOAM自由度を組み合わせることにより、経路-OAM結合量子状態上の任意のユニタリ変換を実現する効率的なスキームを提案する。 この提案は, 対称構造を維持しつつ, 従来の研究に比べて, 必要な干渉計の数を約4分の1削減するものである。 OAM-to-pathインタフェースを用いることで、光子のOAM状態における任意のユニタリ変換を実現することができる。 この研究は、高次元量子状態変換の発展を促進し、フォトニックOAM状態を操作するための新たな扉を開く。

High-dimensional quantum systems offer many advantages over low-dimensional quantum systems. Meanwhile, unitary transformations on quantum states are important parts in various quantum information tasks, whereas they become technically infeasible as the dimensionality increases. The photonic orbital angular momentum (OAM), which is inherit in the transverse spatial mode of photons, offers a natural carrier to encode information in high-dimensional spaces. However, it's even more challenging to realize arbitrary unitary transformations on the photonic OAM states. Here, by combining the path and OAM degrees of freedom of a single photon, an efficient scheme to realize arbitrary unitary transformations on the path-OAM coupled quantum states is proposed. The proposal reduces the number of required interferometers by approximately one quarter compared with previous works, while maintaining the symmetric structure. It is shown that by using OAM-to-path interfaces, this scheme can be utilized to realize arbitrary unitary transformations on the OAM states of photons. This work facilitates the development of high-dimension quantum state transformations, and opens a new door to the manipulation of the photonic OAM states.
翻訳日:2023-05-10 12:41:34 公開日:2023-05-09
# 自己注意力学におけるクラスターの出現

The emergence of clusters in self-attention dynamics ( http://arxiv.org/abs/2305.05465v1 )

ライセンス: Link先を確認
Borjan Geshkovski, Cyril Letrouit, Yury Polyanskiy, Philippe Rigollet(参考訳) 相互作用する粒子系としてトランスフォーマーを見ることにより,重みが時間に依存しない場合の学習表現の幾何学を記述する。 トークンを表す粒子は、時間とともに無限大となるため、特定の制限対象に向かって集結する傾向にある。 現れる制限対象の種類は、値行列のスペクトルに依存する。 さらに、一次元の場合、自己着行列が低階ブール行列に収束することを証明する。 これらの結果の組み合わせは、vaswaniらによる経験的観察を数学的に確認する。 \cite{vaswani2017attention} \emph{leaders} はトランスフォーマーによって処理されるトークン列に現れる。

Viewing Transformers as interacting particle systems, we describe the geometry of learned representations when the weights are not time dependent. We show that particles, representing tokens, tend to cluster toward particular limiting objects as time tends to infinity. The type of limiting object that emerges depends on the spectrum of the value matrix. Additionally, in the one-dimensional case we prove that the self-attention matrix converges to a low-rank Boolean matrix. The combination of these results mathematically confirms the empirical observation made by Vaswani et al. \cite{vaswani2017attention} that \emph{leaders} appear in a sequence of tokens when processed by Transformers.
翻訳日:2023-05-10 12:41:16 公開日:2023-05-09
# 文字レベルエンコーダのみのモデリングに最適なレシピは何ですか?

What is the best recipe for character-level encoder-only modelling? ( http://arxiv.org/abs/2305.05461v1 )

ライセンス: Link先を確認
Kris Cao(参考訳) 本稿では,文脈表現を文字レベルで出力する言語理解モデルの最近の進歩をベンチマークすることを目的とする。 これらのアーキテクチャをトレーニングする多くのモデリングアーキテクチャやメソッドが提案されているが、アーキテクチャの相対的な貢献と事前学習の目的がモデルパフォーマンスの完成であるかどうかは、現時点では不明である。 このようなモデルの設計空間を探索し、設計上の革新と様々な事前学習目標を一連の評価タスクと固定的な訓練手順で比較し、現在最適なキャラクターレベルのbertライクなモデルの構築と訓練方法を見出す。 我々は,同一データ上で同じ設定でトレーニングされたトークンベースのモデルよりも高い性能を示し,キャラクタレベルのモデルがより広く採用される準備が整っていることを示唆した。 残念なことに、キャラクタレベルのモデルをトレーニングする最良の方法は、まだ事前トレーニング中のサブワードレベルのトークンに依存しており、最終的なモデルパフォーマンスはトークンの品質に大きく依存している。 我々は,多言語言語表現のための文字レベルモデルの即応性を実証し,nlp実践者にトークンベースモデルのドロップイン代替として試すように促した。

This paper aims to benchmark recent progress in language understanding models that output contextualised representations at the character level. Many such modelling architectures and methods to train those architectures have been proposed, but it is currently unclear what the relative contributions of the architecture vs. the pretraining objective are to final model performance. We explore the design space of such models, comparing architectural innovations and a variety of different pretraining objectives on a suite of evaluation tasks with a fixed training procedure in order to find the currently optimal way to build and train character-level BERT-like models. We find that our best performing character-level model exceeds the performance of a token-based model trained with the same settings on the same data, suggesting that character-level models are ready for more widespread adoption. Unfortunately, the best method to train character-level models still relies on a subword-level tokeniser during pretraining, and final model performance is highly dependent on tokeniser quality. We believe our results demonstrate the readiness of character-level models for multilingual language representation, and encourage NLP practitioners to try them as drop-in replacements for token-based models.
翻訳日:2023-05-10 12:41:06 公開日:2023-05-09
# Restormer-Plus for Real World Image Deraining: One State-of-the-Art Solution to the GT-RAIN Challenge (CVPR 2023 UG$^2$+ Track 3)

Restormer-Plus for Real World Image Deraining: One State-of-the-Art Solution to the GT-RAIN Challenge (CVPR 2023 UG$^2$+ Track 3) ( http://arxiv.org/abs/2305.05454v1 )

ライセンス: Link先を確認
Chaochao Zheng, Luping Wang, Bin Liu(参考訳) 本技術報告では,GT-RAIN Challenge(CVPR 2023 UG$^2$+ Track 3)に提出したRestormer-Plusアプローチについて述べる。 チャレンジの詳細はhttp://cvpr2023.ug2challenge.org/track3.htmlで確認できる。 restormer-plusはピーク信号対雑音比(psnr)で他の全てのソリューションを上回った。 主に4つのモジュールで構成されており、単一のイメージデライニングモジュール、中央フィルタリングモジュール、重み付き平均化モジュール、後処理モジュールである。 restormer上に構築され,雨画像毎に実行される単一画像デレイティングモジュールrestormer-xを命名した。 中央フィルタリングモジュールは、各シーンに関連する300の雨画像の中央オペレータとして使用される。 重み付けされた平均モジュールは、中央値のフィルタリング結果をRestormer-Xと組み合わせて、Restormer-Xのみを使用する場合のオーバーフィッティングを軽減する。 最後に、後処理モジュールを使用して輝度回復を改善する。 これらのモジュールを合わせて、Restormer-PlusはGT-RAIN Challengeの最先端ソリューションのひとつとなる。 私たちのコードはhttps://github.com/ZJLAB-AMMI/Restormer-Plusで公開されています。

This technical report presents our Restormer-Plus approach, which was submitted to the GT-RAIN Challenge (CVPR 2023 UG$^2$+ Track 3). Details regarding the challenge are available at http://cvpr2023.ug2challenge.org/track3.html. Our Restormer-Plus outperformed all other submitted solutions in terms of peak signal-to-noise ratio (PSNR). It consists mainly of four modules: the single image de-raining module, the median filtering module, the weighted averaging module, and the post-processing module. We named the single-image de-raining module Restormer-X, which is built on Restormer and performed on each rainy image. The median filtering module is employed as a median operator for the 300 rainy images associated with each scene. The weighted averaging module combines the median filtering results with that of Restormer-X to alleviate overfitting if we only use Restormer-X. Finally, the post-processing module is used to improve the brightness restoration. Together, these modules render Restormer-Plus to be one state-of-the-art solution to the GT-RAIN Challenge. Our code is available at https://github.com/ZJLAB-AMMI/Restormer-Plus.
翻訳日:2023-05-10 12:40:46 公開日:2023-05-09
# 量子状態トモグラフィのための注意型トランスネットワーク

Attention-Based Transformer Networks for Quantum State Tomography ( http://arxiv.org/abs/2305.05433v1 )

ライセンス: Link先を確認
Hailan Ma, Zhenhong Sun, Daoyi Dong, Chunlin Chen, Herschel Rabitz(参考訳) ニューラルネットワークは量子状態トモグラフィ(QST)の表現性のために積極的に研究されている。 量子状態再構成の効率をさらに高めるため,言語モデリングと量子状態トモグラフィーの類似性を探求し,Transformerネットワークを用いて異なる測定値から測定結果間の相関関係を抽出する注目型QST法を提案する。 本手法は,実際の状態と得られた状態との差を最小限に抑える統合的損失関数を用いて,測定された統計量から量子状態の密度行列を直接検索する。 そこで本研究では,注目型QST法における各種パラメータ調整を含む共通トレーニング戦略の袋内での異なる影響を系統的に追跡する。 これらの手法を組み合わせることで、純量子状態と混合量子状態を効率的に再構成できるロバストなベースラインを確立する。 さらに,人気のある3つのニューラルネットワークアーキテクチャ(fcns,cnn,transformer)の性能を比較することで,計測統計から学習密度行列における注目の顕著な表現性を示す。

Neural networks have been actively explored for quantum state tomography (QST) due to their favorable expressibility. To further enhance the efficiency of reconstructing quantum states, we explore the similarity between language modeling and quantum state tomography and propose an attention-based QST method that utilizes the Transformer network to capture the correlations between measured results from different measurements. Our method directly retrieves the density matrices of quantum states from measured statistics, with the assistance of an integrated loss function that helps minimize the difference between the actual states and the retrieved states. Then, we systematically trace different impacts within a bag of common training strategies involving various parameter adjustments on the attention-based QST method. Combining these techniques, we establish a robust baseline that can efficiently reconstruct pure and mixed quantum states. Furthermore, by comparing the performance of three popular neural network architectures (FCNs, CNNs, and Transformer), we demonstrate the remarkable expressiveness of attention in learning density matrices from measured statistics.
翻訳日:2023-05-10 12:40:26 公開日:2023-05-09
# WikiWeb2M: ページレベルのマルチモーダルウィキペディアデータセット

WikiWeb2M: A Page-Level Multimodal Wikipedia Dataset ( http://arxiv.org/abs/2305.05432v1 )

ライセンス: Link先を確認
Andrea Burns, Krishna Srinivasan, Joshua Ainslie, Geoff Brown, Bryan A. Plummer, Kate Saenko, Jianmo Ni, Mandy Guo(参考訳) Webページは、言語とビジョン言語タスクのための豊富なリソースです。 しかし、画像キャプチャーペア、長いテキスト記事、あるいは生のHTMLなど、すべてのWebページが一箇所に収まることはない。 Webページタスクは、ほとんど注目されず、構造化された画像テキストデータが過小評価されている。 マルチモーダルWebページ理解を研究するために,Wikipedia Webpage 2M (WikiWeb2M) スイートを導入する。 WikiWeb2Mは、ページ記述生成、セクション要約、コンテキストイメージキャプションといったタスクに使用できる。

Webpages have been a rich resource for language and vision-language tasks. Yet only pieces of webpages are kept: image-caption pairs, long text articles, or raw HTML, never all in one place. Webpage tasks have resultingly received little attention and structured image-text data underused. To study multimodal webpage understanding, we introduce the Wikipedia Webpage 2M (WikiWeb2M) suite; the first to retain the full set of images, text, and structure data available in a page. WikiWeb2M can be used for tasks like page description generation, section summarization, and contextual image captioning.
翻訳日:2023-05-10 12:40:08 公開日:2023-05-09
# ノイズからのエコー:拡散モデルを用いた合成超音波画像生成による実画像分割

Echo from noise: synthetic ultrasound image generation using diffusion models for real image segmentation ( http://arxiv.org/abs/2305.05424v1 )

ライセンス: Link先を確認
David Stojanovski, Uxio Hermida, Pablo Lamata, Arian Beqiri, Alberto Gomez(参考訳) 本稿では, 心臓超音波意味ラベルマップを用いて, DDPM(Denoising Diffusion Probabilistic Models)による合成画像生成のための新しいパイプラインを提案する。 画像セグメンテーションなどの医用画像解析タスクの深層学習モデルの訓練において,これらの合成画像が実際のデータの代替となることを示す。 このアプローチの有効性を示すために,合成2次元心エコー画像を作成し,左室と左心房の分節化のためのニューラルネットワークを訓練した。 排他的合成画像に基づいてトレーニングされたネットワークの性能は, 実画像の異常なデータセットを用いて評価され, 平均Diceスコアは88.5$\pm 6.0$, 92.3$\pm 3.9$, 86.3$\pm 10.7$ \%であった。 これは前回より9.09$、$3.7$、$15.0$ \%の増加である。 提案したパイプラインは、様々な医療画像モダリティにまたがる様々なタスクに応用できる可能性がある。

We propose a novel pipeline for the generation of synthetic images via Denoising Diffusion Probabilistic Models (DDPMs) guided by cardiac ultrasound semantic label maps. We show that these synthetic images can serve as a viable substitute for real data in the training of deep-learning models for medical image analysis tasks such as image segmentation. To demonstrate the effectiveness of this approach, we generated synthetic 2D echocardiography images and trained a neural network for segmentation of the left ventricle and left atrium. The performance of the network trained on exclusively synthetic images was evaluated on an unseen dataset of real images and yielded mean Dice scores of 88.5 $\pm 6.0$ , 92.3 $\pm 3.9$, 86.3 $\pm 10.7$ \% for left ventricular endocardial, epicardial and left atrial segmentation respectively. This represents an increase of $9.09$, $3.7$ and $15.0$ \% in Dice scores compared to the previous state-of-the-art. The proposed pipeline has the potential for application to a wide range of other tasks across various medical imaging modalities.
翻訳日:2023-05-10 12:39:58 公開日:2023-05-09
# ビッグデータパイプラインLambdaアーキテクチャのコンピュータビジョンディープニューラルネットワークによる高スループットコットン表現

High-throughput Cotton Phenotyping Big Data Pipeline Lambda Architecture Computer Vision Deep Neural Networks ( http://arxiv.org/abs/2305.05423v1 )

ライセンス: Link先を確認
Amanda Issac (1), Alireza Ebrahimi (2), Javad Mohammadpour Velni (2), Glen Rains (3) ((1) School of Electrical and Computer Engineering, University of Georgia, (2) Department of Mechanical Engineering, Clemson University, (3) Department of Entomology, University of Georgia)(参考訳) 本研究では,リアルタイムおよびバッチ処理が可能なLambdaアーキテクチャを用いて,綿花検出のためのビッグデータパイプラインを提案する。 提案手法では,データファクトリやイベントグリッド,rest api,databricksなどのazureリソースを活用する。 この作業は、Azureのクラウドコンピューティングサービスを通じて、植物を表現できるパイプラインを開発し、実証する最初のものである。 提案するパイプラインは、データの前処理、azure automlでトレーニングされたyolov5ニューラルネットワークモデルを使用したオブジェクト検出、出力イメージ上のオブジェクト検出バウンディングボックスの可視化で構成される。 トレーニングされたモデルでは平均精度0.96のmAPスコアを達成し,綿花分類における高い性能を示した。 9000イメージを使用してLambdaアーキテクチャパイプラインを評価し,34分間の最適化ランタイムを実現する。 結果は、深層学習オブジェクト検出ソリューションとして提案されたパイプラインのスケーラビリティと、追加のAzure処理コアによるさらなる拡張の可能性を示している。 本研究は,大規模データセット上でのコットンブルーム検出手法を提供し,精密農業における効率的かつ高精度なビッグデータ処理にクラウドコンピューティング資源,特にazureを活用する可能性を示すことにより,科学研究分野を前進させる。

In this study, we propose a big data pipeline for cotton bloom detection using a Lambda architecture, which enables real-time and batch processing of data. Our proposed approach leverages Azure resources such as Data Factory, Event Grids, Rest APIs, and Databricks. This work is the first to develop and demonstrate the implementation of such a pipeline for plant phenotyping through Azure's cloud computing service. The proposed pipeline consists of data preprocessing, object detection using a YOLOv5 neural network model trained through Azure AutoML, and visualization of object detection bounding boxes on output images. The trained model achieves a mean Average Precision (mAP) score of 0.96, demonstrating its high performance for cotton bloom classification. We evaluate our Lambda architecture pipeline using 9000 images yielding an optimized runtime of 34 minutes. The results illustrate the scalability of the proposed pipeline as a solution for deep learning object detection, with the potential for further expansion through additional Azure processing cores. This work advances the scientific research field by providing a new method for cotton bloom detection on a large dataset and demonstrates the potential of utilizing cloud computing resources, specifically Azure, for efficient and accurate big data processing in precision agriculture.
翻訳日:2023-05-10 12:39:36 公開日:2023-05-09
# Egocentric Hierarchical Visual Semantics

Egocentric Hierarchical Visual Semantics ( http://arxiv.org/abs/2305.05422v1 )

ライセンス: Link先を確認
Luca Erculiani, Andrea Bontempelli, Andrea Passerini, Fausto Giunchiglia(参考訳) 私たちは、人々がオブジェクトについてどう考えるか、機械がどう感じているのか、つまり、機械によって実行される物体認識は、ある概念に関連づけられた物体を考えるときに、人間が従うようなプロセスに従うべきであるという事実を一致させることに興味を持っています。 究極の目標は、ユーザと有意義に対話できるシステムを構築し、彼らがユーザ自身の言葉で何を認識しているかを説明することだ。 語彙意味論の分野において、人間は単語の意味を階層的に整理し、例えば名詞の意味はより一般的な名詞、その属、および1つまたはそれ以上の異なる性質、その区別によって定義される。 本論文の主な特徴は、単語の意味を定義するために用いられる階層的意味構造に従う階層的過程をオブジェクト認識が実装すべきである。 我々は、任意の対象に対して、その視覚的属とその視覚的相違を再帰的に認識するアルゴリズムを実装することで、この目標を達成する。 言い換えると、局所的に関連する視覚的特徴を認識する一連のステップで、オブジェクトの認識が分解される。 本稿では,アルゴリズムと初回評価について述べる。

We are interested in aligning how people think about objects and what machines perceive, meaning by this the fact that object recognition, as performed by a machine, should follow a process which resembles that followed by humans when thinking of an object associated with a certain concept. The ultimate goal is to build systems which can meaningfully interact with their users, describing what they perceive in the users' own terms. As from the field of Lexical Semantics, humans organize the meaning of words in hierarchies where the meaning of, e.g., a noun, is defined in terms of the meaning of a more general noun, its genus, and of one or more differentiating properties, its differentia. The main tenet of this paper is that object recognition should implement a hierarchical process which follows the hierarchical semantic structure used to define the meaning of words. We achieve this goal by implementing an algorithm which, for any object, recursively recognizes its visual genus and its visual differentia. In other words, the recognition of an object is decomposed in a sequence of steps where the locally relevant visual features are recognized. This paper presents the algorithm and a first evaluation.
翻訳日:2023-05-10 12:39:13 公開日:2023-05-09
# DC3DCD:マルチクラス3D点雲変化検出のための教師なし学習

DC3DCD: unsupervised learning for multiclass 3D point cloud change detection ( http://arxiv.org/abs/2305.05421v1 )

ライセンス: Link先を確認
Iris de G\'elis (1 and 2), S\'ebastien Lef\`evre (2) and Thomas Corpetti (3) ((1) Magellium, (2) Institut de Recherche en Informatique et Syst\`emes Al\'eatoires IRISA - UMR 6074 - Universit\'e Bretagne Sud, (3) Littoral - Environnement - T\'el\'ed\'etection - G\'eomatique LETG - UMR 6554 - Universit\'e Rennes 2)(参考訳) 常に進化している世界では、更新されたマップを維持するためには変更検出が最も重要なのです。 複雑な幾何学(特にアーバン領域)を持つ領域をよりよく知覚するために、3Dデータは古典的な2D画像の代替として興味深いものと思われる。 この文脈では、LiDARやフォトグラムで得られた3次元点雲(PC)は非常に興味深い。 近年の研究では、生の3D PCに変化を検出し、特徴付ける深層学習に基づく手法を用いることによる大きなメリットが示されているが、これらの研究は、正確な結果を得るために大量の注釈付きトレーニングデータに依存している。 これらのアノテーションのコレクションはトリッキーで時間がかかります。 教師なしあるいは弱教師付きアプローチの可用性は主要な関心事である。 本稿では,マルチクラス変化をポイントレベルで検出・分類する,deepcluster 3d change detection (dc3dcd) と呼ばれる教師なし手法を提案する。 我々は、潜在的変化に関連する多数のクラスタを、完全に教師なしの方法で抽出するという事実から、教師なしファミリーのアプローチを分類する。 プロセスの最後に、ユーザは最後の変更マップを導出するために、それぞれのクラスタにラベルを割り当てるだけです。 本手法は,画像分類のためのDeepClusterアプローチに基づいて,複雑な生の3次元PCを処理し,変更セグメンテーションタスクを実行する。 シミュレーションと実際の公開データセットの両方における手法の評価を行う。 提案手法は, 従来の機械学習アルゴリズムより優れており, シミュレーションと実データセットの57.06%, 66.69%の変化のクラスに対して, IoU平均で3次元PCのラスタ化に適用した完全教師付きディープラーニングネットワークと競合する。

In a constant evolving world, change detection is of prime importance to keep updated maps. To better sense areas with complex geometry (urban areas in particular), considering 3D data appears to be an interesting alternative to classical 2D images. In this context, 3D point clouds (PCs) obtained by LiDAR or photogrammetry are very interesting. While recent studies showed the considerable benefit of using deep learning-based methods to detect and characterize changes into raw 3D PCs, these studies rely on large annotated training data to obtain accurate results. The collection of these annotations are tricky and time-consuming. The availability of unsupervised or weakly supervised approaches is then of prime interest. In this paper, we propose an unsupervised method, called DeepCluster 3D Change Detection (DC3DCD), to detect and categorize multiclass changes at point level. We classify our approach in the unsupervised family given the fact that we extract in a completely unsupervised way a number of clusters associated with potential changes. Let us precise that in the end of the process, the user has only to assign a label to each of these clusters to derive the final change map. Our method builds upon the DeepCluster approach, originally designed for image classification, to handle complex raw 3D PCs and perform change segmentation task. An assessment of the method on both simulated and real public dataset is provided. The proposed method allows to outperform fully-supervised traditional machine learning algorithm and to be competitive with fully-supervised deep learning networks applied on rasterization of 3D PCs with a mean of IoU over classes of change of 57.06% and 66.69% for the simulated and the real datasets, respectively.
翻訳日:2023-05-10 12:38:54 公開日:2023-05-09
# 時間矢印予測を用いた実細胞顕微鏡のための自己教師付き密度表現学習

Self-supervised dense representation learning for live-cell microscopy with time arrow prediction ( http://arxiv.org/abs/2305.05511v1 )

ライセンス: Link先を確認
Benjamin Gallusser, Max Stieber, and Martin Weigert(参考訳) 顕微鏡画像の最先端のオブジェクト検出とセグメンテーション方法は教師付き機械学習に依存しており、トレーニングデータの手作業による注釈を必要とする。 本稿では,生の無ラベルライブセル顕微鏡映像から高密度画像表現を学習するtime arrow prediction pre-trainingに基づく自己教師あり方式を提案する。 本手法は,画像領域の正しい順序を単一画像特徴抽出器とその後の時間矢印予測ヘッドで予測するタスクに基づいて構築する。 得られた高密度表現が本質的に時間非対称な生物学的過程を捉えていることを示す。 さらに,細胞分裂の検出と分節化,および細胞状態の分類において,いくつかのライブセル顕微鏡データセット上でこれらの表現の有用性を示す。 提案手法は教師付き手法よりも優れており,特に実例と同様,限定的真理アノテーションしか利用できない場合に優れる。 コードはhttps://github.com/weigertlab/tarrow.com/で提供します。

State-of-the-art object detection and segmentation methods for microscopy images rely on supervised machine learning, which requires laborious manual annotation of training data. Here we present a self-supervised method based on time arrow prediction pre-training that learns dense image representations from raw, unlabeled live-cell microscopy videos. Our method builds upon the task of predicting the correct order of time-flipped image regions via a single-image feature extractor and a subsequent time arrow prediction head. We show that the resulting dense representations capture inherently time-asymmetric biological processes such as cell divisions on a pixel-level. We furthermore demonstrate the utility of these representations on several live-cell microscopy datasets for detection and segmentation of dividing cells, as well as for cell state classification. Our method outperforms supervised methods, particularly when only limited ground truth annotations are available as is commonly the case in practice. We provide code at https://github.com/weigertlab/tarrow.
翻訳日:2023-05-10 12:32:16 公開日:2023-05-09
# 再帰(recursions)は必要なのは、効率的なディープ展開ネットワークへ

Recursions Are All You Need: Towards Efficient Deep Unfolding Networks ( http://arxiv.org/abs/2305.05505v1 )

ライセンス: Link先を確認
Rawwad Alhejaili (1 and 2 and 3), Motaz Alfarraj (1 and 2 and 3), Hamzah Luqman (1 and 4), Ali Al-Shaikhi (1 and 2) ((1) King Fahd University of Petroleum and Minerals, (2) Electrical Engineering Department, (3) SDAIA-KFUPM Joint Research Center for Artificial Intelligence, (4) Information and Computer Science Department)(参考訳) 圧縮センシング(CS)における深層展開ネットワークの利用は、単純性と解釈可能性の両方を提供するため、広く成功している。 しかし、ほとんどの深層展開ネットワークは反復的であるため、ネットワークに重大な冗長性をもたらす。 本研究では,深部展開モデルの効率化を目的とした再帰型フレームワークを提案する。 まず、深層展開ネットワークにおける冗長性を効果的に除去するために再帰を用いる。 第2に,トレーニング中の再帰回数をランダム化し,トレーニング時間の短縮を図る。 最後に、再帰の力を効果的に活用するために、繰り返しの総数と現在の反復指数の両方に基づいてモデルの特徴を変調する学習可能なユニットを導入する。 提案手法をISTA-Net+とCOASTの両方に適用する。 大規模なテストの結果,提案フレームワークは学習可能なパラメータの最大75%を削減できると同時に,ISTA-Net+とCOASTのトレーニング時間から約21%,42%の削減を実現している。 さらに、限られたトレーニングデータセットで提示すると、再帰モデルがそれぞれの非再帰的ベースラインと一致したり、あるいは上回ったりします。 コードと事前トレーニングされたモデルは、https://github.com/Rawwad-Alhejaili/Recursions-Are-All-You-Need で公開されている。

The use of deep unfolding networks in compressive sensing (CS) has seen wide success as they provide both simplicity and interpretability. However, since most deep unfolding networks are iterative, this incurs significant redundancies in the network. In this work, we propose a novel recursion-based framework to enhance the efficiency of deep unfolding models. First, recursions are used to effectively eliminate the redundancies in deep unfolding networks. Secondly, we randomize the number of recursions during training to decrease the overall training time. Finally, to effectively utilize the power of recursions, we introduce a learnable unit to modulate the features of the model based on both the total number of iterations and the current iteration index. To evaluate the proposed framework, we apply it to both ISTA-Net+ and COAST. Extensive testing shows that our proposed framework allows the network to cut down as much as 75% of its learnable parameters while mostly maintaining its performance, and at the same time, it cuts around 21% and 42% from the training time for ISTA-Net+ and COAST respectively. Moreover, when presented with a limited training dataset, the recursive models match or even outperform their respective non-recursive baseline. Codes and pretrained models are available at https://github.com/Rawwad-Alhejaili/Recursions-Are-All-You-Need .
翻訳日:2023-05-10 12:31:59 公開日:2023-05-09
# 物体認識モデルYOLOv7におけるリアルタイム交通信号変換の効果

Effects of Real-Life Traffic Sign Alteration on YOLOv7- an Object Recognition Model ( http://arxiv.org/abs/2305.05499v1 )

ライセンス: Link先を確認
Farhin Farhad Riya, Shahinul Hoque, Md Saif Hassan Onim, Edward Michaud, and Edmon Begoli(参考訳) 画像処理の進歩により、空港のセキュリティやメールソートといった様々な用途でオブジェクト認識(OR)モデルが広く使われるようになった。 これらのモデルは、AIの能力と国家郵便業務のような重要なサービスをサポートするために欠かせないものとなっている。 しかし、ORモデルの性能は、交通標識の変更のような現実のシナリオによって妨げられる。 そこで本研究では,物体認識モデルの精度と性能に及ぼす交通標識の変化の影響について検討する。 この目的のために、公開データセットを使用して、サイズ、形状、色、可視性、角度の変更を含む、さまざまなタイプのトラフィックサイン変更が作成された。 これらの変更がYOLOv7(You Only Look Once)モデルの検出と分類能力に与える影響を解析した。 その結果, 物体検出モデルの精度は, 不可能な条件下で修正された交通標識に曝されると著しく低下することがわかった。 本研究は,実生活シナリオにおける物体検出モデルのロバスト性向上の意義と,その精度と信頼性を向上させるために,この領域におけるさらなる調査の必要性を浮き彫りにする。

The advancement of Image Processing has led to the widespread use of Object Recognition (OR) models in various applications, such as airport security and mail sorting. These models have become essential in signifying the capabilities of AI and supporting vital services like national postal operations. However, the performance of OR models can be impeded by real-life scenarios, such as traffic sign alteration. Therefore, this research investigates the effects of altered traffic signs on the accuracy and performance of object recognition models. To this end, a publicly available dataset was used to create different types of traffic sign alterations, including changes to size, shape, color, visibility, and angles. The impact of these alterations on the YOLOv7 (You Only Look Once) model's detection and classification abilities were analyzed. It reveals that the accuracy of object detection models decreases significantly when exposed to modified traffic signs under unlikely conditions. This study highlights the significance of enhancing the robustness of object detection models in real-life scenarios and the need for further investigation in this area to improve their accuracy and reliability.
翻訳日:2023-05-10 12:31:30 公開日:2023-05-09
# 擬似画像キャプションのマルチモーダル要約への応用

Exploiting Pseudo Image Captions for Multimodal Summarization ( http://arxiv.org/abs/2305.05496v1 )

ライセンス: Link先を確認
Chaoya Jiang, Rui Xie, Wei Ye, Jinan Sun, Shikun Zhang(参考訳) vision language pretraining(vlp)におけるクロスモーダルコントラスト学習は、(部分的な)偽陰性の問題に直面している。 本稿では,相互情報(MI)最適化の観点からこの問題を考察する。 対照的な学習で使用されるInfoNCE損失は、アンカーと正のMIの低い境界を最大化するが、理論上は、ノイズが一般的に存在する場合にも、負のMIが重要であることを証明している。 最適化のためのより一般的な下界形式によって導かれ、段階的に改良されたクロスモーダルな類似性によって制御される対照的な学習戦略を提案し、画像/テキストアンカーとその負のテキスト/画像間のMIをより正確に最適化する。 提案手法は,下流の4つのクロスモーダルタスクと,(部分的な)偽陰性サンプルの有益かつ有害な効果を,理論的指導下で体系的にバランスをとる。

Cross-modal contrastive learning in vision language pretraining (VLP) faces the challenge of (partial) false negatives. In this paper, we study this problem from the perspective of Mutual Information (MI) optimization. It is common sense that InfoNCE loss used in contrastive learning will maximize the lower bound of MI between anchors and their positives, while we theoretically prove that MI involving negatives also matters when noises commonly exist. Guided by a more general lower bound form for optimization, we propose a contrastive learning strategy regulated by progressively refined cross-modal similarity, to more accurately optimize MI between an image/text anchor and its negative texts/images instead of improperly minimizing it. Our method performs competitively on four downstream cross-modal tasks and systematically balances the beneficial and harmful effects of (partial) false negative samples under theoretical guidance.
翻訳日:2023-05-10 12:30:58 公開日:2023-05-09
# ローグ土壌水分センサの自己監督異常検出

Self-Supervised Anomaly Detection of Rogue Soil Moisture Sensors ( http://arxiv.org/abs/2305.05495v1 )

ライセンス: Link先を確認
Boje Deforce, Bart Baesens, Jan Diels, Estefan\'ia Serral Asensio(参考訳) IoTデータは、農業のデジタルトランスフォーメーションの成功の重要な要素である。 しかし、IoTデータには独自の課題が伴う。 例えば、不正なセンサーによるデータ汚染のリスク。 センサーは、時間の経過とともに誤った測定を行うときに、ローグと見なされる。 正確な分析結果を保証するため、IoTデータを扱う際に必須となる前処理ステップは、そのようなローグセンサーの検出である。 既存の方法は、よく動くセンサーが知られているか、ほとんどのセンサーがよく動くと仮定している。 しかし、実世界のデータは、しばしば完全にラベル付けされ、輝かしいものであり、事前情報なしでローグセンサーを検出できる自己教師型の方法を求めている。 コントラスト損失を有するニューラルネットワークを用いた自己制御型異常センサ検出器をDBSCANに次いで提案する。 本論文の中核となる貢献は,3重項損失の負サンプリングにおける動的時間ワープの利用である。 この斬新さは、異常なセンサ検出にトリプルトネットワークを利用可能にする。 本手法は,複数のナシ果樹園に設置した土壌水分センサのデータセットに有望な結果を示す。

IoT data is a central element in the successful digital transformation of agriculture. However, IoT data comes with its own set of challenges. E.g., the risk of data contamination due to rogue sensors. A sensor is considered rogue when it provides incorrect measurements over time. To ensure correct analytical results, an essential preprocessing step when working with IoT data is the detection of such rogue sensors. Existing methods assume that well-behaving sensors are known or that a large majority of the sensors is well-behaving. However, real-world data is often completely unlabeled and voluminous, calling for self-supervised methods that can detect rogue sensors without prior information. We present a self-supervised anomalous sensor detector based on a neural network with a contrastive loss, followed by DBSCAN. A core contribution of our paper is the use of Dynamic Time Warping in the negative sampling for the triplet loss. This novelty makes the use of triplet networks feasible for anomalous sensor detection. Our method shows promising results on a challenging dataset of soil moisture sensors deployed in multiple pear orchards.
翻訳日:2023-05-10 12:30:20 公開日:2023-05-09
# 交叉結合損失を用いた多角形実時間インスタンスセグメンテーション

Real-time instance segmentation with polygons using an Intersection-over-Union loss ( http://arxiv.org/abs/2305.05490v1 )

ライセンス: Link先を確認
Katia Jodogne-Del Litto, Guillaume-Alexandre Bilodeau(参考訳) オブジェクトのバイナリマスクの予測はより正確だが、バウンディングボックスよりも計算コストが高い。 センターポリで開発された多角形のマスクは良い妥協点となる。 本稿では,従来のレグレッションL1損失を,新しい領域ベース損失と新しい順序損失ととともに,頂点予測ヘッドの新たなトレーニングプロセスにより向上させることにより,CenterPolyよりも改善する。 さらに, 従来の多角形マスク予測手法では, 座標系が異なるが, アーキテクチャ要件を抽象化すれば, 他よりも優れているかは明らかではない。 したがって、予測に対する彼らの影響を調査する。 また,検出ヘッドのオラクル予測を用いた新しい評価プロトコルを用いて,セグメント化プロセスをさらに分離し,多角形マスクと二乗マスクをよく比較する。 本手法は,道路利用者の密度が高い都市景観を含む挑戦的なデータセットを用いて,訓練・試験を行う。 特に実験では、回帰損失と領域ベース損失の組み合わせを用いることで、cityscapesとiddテストセットをcenterpolyと比較して大幅に改善できることが示されている。 さらに、推論ステージは、RTX 2070 GPUで2048$\times$1024の画像に対して、1フレームあたり0.045 sでリアルタイムのパフォーマンスに到達するのに十分な速度で残っている。 コードは$\href{https://github.com/KatiaJDL/CenterPoly-v2}{\text{here}}$で入手できる。

Predicting a binary mask for an object is more accurate but also more computationally expensive than a bounding box. Polygonal masks as developed in CenterPoly can be a good compromise. In this paper, we improve over CenterPoly by enhancing the classical regression L1 loss with a novel region-based loss and a novel order loss, as well as with a new training process for the vertices prediction head. Moreover, the previous methods that predict polygonal masks use different coordinate systems, but it is not clear if one is better than another, if we abstract the architecture requirement. We therefore investigate their impact on the prediction. We also use a new evaluation protocol with oracle predictions for the detection head, to further isolate the segmentation process and better compare the polygonal masks with binary masks. Our instance segmentation method is trained and tested with challenging datasets containing urban scenes, with a high density of road users. Experiments show, in particular, that using a combination of a regression loss and a region-based loss allows significant improvements on the Cityscapes and IDD test set compared to CenterPoly. Moreover the inference stage remains fast enough to reach real-time performance with an average of 0.045 s per frame for 2048$\times$1024 images on a single RTX 2070 GPU. The code is available $\href{https://github.com/KatiaJDL/CenterPoly-v2}{\text{here}}$.
翻訳日:2023-05-10 12:29:54 公開日:2023-05-09
# MAUPQA: 大量の自動生成ポーランド質問回答データセット

MAUPQA: Massive Automatically-created Polish Question Answering Dataset ( http://arxiv.org/abs/2305.05486v1 )

ライセンス: Link先を確認
Piotr Rybak(参考訳) 近年、オープンドメインの質問応答システムは、神経通路レトリバーを訓練するための注釈付きデータセットに大きく依存し始めている。 しかし、このようなデータセットを手動でアノテートするのは困難かつ時間のかかる作業であり、あまり普及しない言語での使用は制限されている。 本研究では,弱いラベル付きデータセットを自動的に収集する手法を複数実験し,ニューラルネットワークの経路探索モデルの性能にどのように影響するかを示す。 本研究の結果,ポーランド語とHerBERT-QAニューラルレトリバーのための40万近い質問パスペアからなるMAUPQAデータセットを公表した。

Recently, open-domain question answering systems have begun to rely heavily on annotated datasets to train neural passage retrievers. However, manually annotating such datasets is both difficult and time-consuming, which limits their availability for less popular languages. In this work, we experiment with several methods for automatically collecting weakly labeled datasets and show how they affect the performance of the neural passage retrieval models. As a result of our work, we publish the MAUPQA dataset, consisting of nearly 400,000 question-passage pairs for Polish, as well as the HerBERT-QA neural retriever.
翻訳日:2023-05-10 12:29:29 公開日:2023-05-09
# 変圧器言語モデルの性能に及ぼすサブワードセグメンテーションの影響の検討

Investigating the effect of sub-word segmentation on the performance of transformer language models ( http://arxiv.org/abs/2305.05480v1 )

ライセンス: Link先を確認
Jue Hou, Anisia Katinskaia, Anh-Duc Vu and Roman Yangarber(参考訳) 形態素が言語モデルの性能にどのように影響するかを探求したい。 我々はフィンランド語とロシア語の両方に対してStateMorphを用いてGPT-2とBertモデルを訓練した。 比較として,BPEとMorfessorを用いてモデルを訓練した。 予備的な結果は、StateMorphがモデルをより効率的に収束させ、より良い検証スコアを得るのに役立つことを示している。

We would like to explore how morphemes can affect the performance of a language model. We trained GPT-2 and Bert model with StateMorph for both Finnish and Russian, which is a morpheme segmenting algorithm. As a comparison, we also trained a model with BPE and Morfessor. Our preliminary result shows that StateMorph can help the model to converge more efficiently and achieve a better validation score.
翻訳日:2023-05-10 12:29:17 公開日:2023-05-09
# 研究データセットを超えて:業界における新しい意図の発見

Going beyond research datasets: Novel intent discovery in the industry setting ( http://arxiv.org/abs/2305.05474v1 )

ライセンス: Link先を確認
Aleksandra Chrabrowa, Tsimur Hadeliya, Dariusz Kajtoch, Robert Mroczkowski, Piotr Rybak(参考訳) 新たな意図発見は、以前に未知の意図を識別するために類似したメッセージ(問い合わせ)をグループ化するプロセスを自動化する。 しかし、現在の研究は、疑問フィールドしか持たず、実際のデータセットとは大きく異なる公開データセットに焦点を当てている。 本稿では,大規模eコマースプラットフォームに展開するインテント発見パイプラインを改善する手法を提案する。 自己監督型と弱い監視型という,ドメイン内データによる言語モデルの事前学習のメリットを示す。 また,我々がconvと呼ぶクラスタリングタスクの微調整を行う際に,実生活データセットの会話構造(すなわち質問と回答)を利用するための最善の方法を考案する。 実生活データセットを完全に活用するために組み合わせられたすべての手法は、質問のみのための最先端のConstrained Deep Adaptive Clustering(CDAC)モデルに対して最大33ppのパフォーマンス向上を達成します。 比較すると、質問データに対するCDACモデルは、ナイーブベースラインよりも最大13ppの性能向上しか得られない。

Novel intent discovery automates the process of grouping similar messages (questions) to identify previously unknown intents. However, current research focuses on publicly available datasets which have only the question field and significantly differ from real-life datasets. This paper proposes methods to improve the intent discovery pipeline deployed in a large e-commerce platform. We show the benefit of pre-training language models on in-domain data: both self-supervised and with weak supervision. We also devise the best method to utilize the conversational structure (i.e., question and answer) of real-life datasets during fine-tuning for clustering tasks, which we call Conv. All our methods combined to fully utilize real-life datasets give up to 33pp performance boost over state-of-the-art Constrained Deep Adaptive Clustering (CDAC) model for question only. By comparison CDAC model for the question data only gives only up to 13pp performance boost over the naive baseline.
翻訳日:2023-05-10 12:29:09 公開日:2023-05-09
# 善意を超えて:社会善のためのNLPの研究ランドスケープを報告

Beyond Good Intentions: Reporting the Research Landscape of NLP for Social Good ( http://arxiv.org/abs/2305.05471v1 )

ライセンス: Link先を確認
Fernando Gonzalez, Zhijing Jin, Jad Beydoun, Bernhard Sch\"olkopf, Tom Hope, Mrinmaya Sachan, Rada Mihalcea(参考訳) 自然言語処理(NLP)の最近の進歩により、様々なユースケースにまたがって多数のアプリケーションが登場した。 NLP応用の多さの中で、NLP for Social Good (NLP4SG) の最近の取り組みに則って、多くの学術研究者は、社会に良い影響を与える仕事を行う動機がある。 しかし、研究者が今日の大きな社会問題にどのように取り組んでいるかは必ずしも明らかではない。 そこで本稿では,NLP4SGPAPERSという,NLP4SG論文を識別し,NLP4SGランドスケープを特徴付ける3つの関連タスクを持つ科学データセットを紹介する。(1)社会問題に対処する論文を識別し,(2)対応する国連持続開発目標(SDG)にマッピングし,(3)解決している課題と方法を特定する。 現状のNLPモデルを用いて、これらのタスクに対処し、ACLアンソロジー全体で使用することにより、研究者がNLP4SGの分野を概観する可視化ワークスペースを提供する。 私たちのwebサイトはhttps://nlp4sg.vercel.appで閲覧できます。 私たちはデータをhttps://huggingface.co/datasets/feradauto/nlp4sgpapersとhttps://github.com/feradauto/nlp4sgでリリースした。

With the recent advances in natural language processing (NLP), a vast number of applications have emerged across various use cases. Among the plethora of NLP applications, many academic researchers are motivated to do work that has a positive social impact, in line with the recent initiatives of NLP for Social Good (NLP4SG). However, it is not always obvious to researchers how their research efforts are tackling today's big social problems. Thus, in this paper, we introduce NLP4SGPAPERS, a scientific dataset with three associated tasks that can help identify NLP4SG papers and characterize the NLP4SG landscape by: (1) identifying the papers that address a social problem, (2) mapping them to the corresponding UN Sustainable Development Goals (SDGs), and (3) identifying the task they are solving and the methods they are using. Using state-of-the-art NLP models, we address each of these tasks and use them on the entire ACL Anthology, resulting in a visualization workspace that gives researchers a comprehensive overview of the field of NLP4SG. Our website is available at https://nlp4sg.vercel.app . We released our data at https://huggingface.co/datasets/feradauto/NLP4SGPapers and code at https://github.com/feradauto/nlp4sg .
翻訳日:2023-05-10 12:28:55 公開日:2023-05-09
# 感情反応強度推定のための総合的・局所的情報の統合

Integrating Holistic and Local Information to Estimate Emotional Reaction Intensity ( http://arxiv.org/abs/2305.05534v1 )

ライセンス: Link先を確認
Yini Fang, Liang Wu, Frederic Jumelle, Bertram Shi(参考訳) ビデオベース感情反応強度(ERI)推定は、被験者が刺激を見る際の映像から、刺激に対する反応の強さを複数の感情次元に沿って測定する。 本稿では,ビデオ情報と音声情報を組み合わせたビデオベースのeriのためのマルチモーダルアーキテクチャを提案する。 映像入力は、まずフレーム・バイ・フレームでエンコードされ、対象者の表情の全体的側面をエンコードする特徴と、その表現の空間的局所化された側面をエンコードする特徴を組み合わせる。 入力は時間をかけて結合され、ゲートリカレントユニット(GRU)を使用してフレームからフレームへ変換される。 ビデオ長に依存しない固定次元ベクトルに全フレームから情報を蓄積する回帰トークンを用いて可変ビデオ長を処理する。 音声情報も同様に処理され、各フレーム内で抽出されたスペクトル情報は、グラブのカスケードと回帰トークンを備えたトランスフォーマによって時間にわたって統合される。 ビデオおよびオーディオレグレッショントークンの出力は結合によってマージされ、最終的に強度推定を生成する完全連結層に入力される。 ABAW5 (ERI Esimation Challenge of the Fifth Competition on Affective Behavior Analysis in-the-Wild) において,Hum-Reactionデータセットの優れた性能を実現した。 評価されたスコアと被験者の自己報告スコアの間のピアソン相関係数は、すべての感情の平均値が、検証データセットでは0.455、テストデータセットでは0.4547であった。 トランスフォーマーの自己着脱機構は、長さに関係なく最も重要なビデオフレームに焦点を合わせることができる。 アブレーション実験は、全体的/局所的特徴とマルチモーダル統合の利点を確立する。 コードはhttps://github.com/HKUST-NISL/ABAW5で公開されている。

Video-based Emotional Reaction Intensity (ERI) estimation measures the intensity of subjects' reactions to stimuli along several emotional dimensions from videos of the subject as they view the stimuli. We propose a multi-modal architecture for video-based ERI combining video and audio information. Video input is encoded spatially first, frame-by-frame, combining features encoding holistic aspects of the subjects' facial expressions and features encoding spatially localized aspects of their expressions. Input is then combined across time: from frame-to-frame using gated recurrent units (GRUs), then globally by a transformer. We handle variable video length with a regression token that accumulates information from all frames into a fixed-dimensional vector independent of video length. Audio information is handled similarly: spectral information extracted within each frame is integrated across time by a cascade of GRUs and a transformer with regression token. The video and audio regression tokens' outputs are merged by concatenation, then input to a final fully connected layer producing intensity estimates. Our architecture achieved excellent performance on the Hume-Reaction dataset in the ERI Esimation Challenge of the Fifth Competition on Affective Behavior Analysis in-the-Wild (ABAW5). The Pearson Correlation Coefficients between estimated and subject self-reported scores, averaged across all emotions, were 0.455 on the validation dataset and 0.4547 on the test dataset, well above the baselines. The transformer's self-attention mechanism enables our architecture to focus on the most critical video frames regardless of length. Ablation experiments establish the advantages of combining holistic/local features and of multi-modal integration. Code available at https://github.com/HKUST-NISL/ABAW5.
翻訳日:2023-05-10 12:22:00 公開日:2023-05-09
# EFE: エンドツーエンドのフレーム・ツー・ゲイズ推定

EFE: End-to-end Frame-to-Gaze Estimation ( http://arxiv.org/abs/2305.05526v1 )

ライセンス: Link先を確認
Haldun Balim, Seonwook Park, Xi Wang, Xucong Zhang, Otmar Hilliges(参考訳) 近年の学習に基づく視線推定手法の進歩にもかかわらず、ほとんどの方法は1つ以上の目または顔領域作物を入力として、視線ベクトルを出力として生成する。 その結果, 目領域の分解能は高く, 衣服や毛髪などの共生因子も少なく, 最終モデルの性能向上に寄与することが示唆された。 しかし、このアイ/フェイスパッチのトリッピングプロセスは高価で誤ったものであり、異なる方法に特有の実装である。 本稿では、顔や目を切り刻むことなく、カメラの生のフレームから3dの視線と3dの視線方向の両方を直接予測するフレーム・ツー・ガゼネットワークを提案する。 FHD/HDからVGA/HVGA分解能まで、眼球領域にピクセルがほとんどないにもかかわらず、生のダウンスケールフレームからの直接の視線回帰が可能であることを示す。 提案手法は,gazecapture,mpiifacegaze,eveの3つのパブリックアイズデータセットにおけるpos(point-of-gaze)推定における最先端手法と同等の結果が得られる。

Despite the recent development of learning-based gaze estimation methods, most methods require one or more eye or face region crops as inputs and produce a gaze direction vector as output. Cropping results in a higher resolution in the eye regions and having fewer confounding factors (such as clothing and hair) is believed to benefit the final model performance. However, this eye/face patch cropping process is expensive, erroneous, and implementation-specific for different methods. In this paper, we propose a frame-to-gaze network that directly predicts both 3D gaze origin and 3D gaze direction from the raw frame out of the camera without any face or eye cropping. Our method demonstrates that direct gaze regression from the raw downscaled frame, from FHD/HD to VGA/HVGA resolution, is possible despite the challenges of having very few pixels in the eye region. The proposed method achieves comparable results to state-of-the-art methods in Point-of-Gaze (PoG) estimation on three public gaze datasets: GazeCapture, MPIIFaceGaze, and EVE, and generalizes well to extreme camera view changes.
翻訳日:2023-05-10 12:21:05 公開日:2023-05-09
# RMES:Riesz Pyramidの位相を利用したリアルタイムマイクロ圧縮スポッティング

RMES: Real-Time Micro-Expression Spotting Using Phase From Riesz Pyramid ( http://arxiv.org/abs/2305.05523v1 )

ライセンス: Link先を確認
Yini Fang, Didan Deng, Liang Wu, Frederic Jumelle, Bertram Shi(参考訳) マイクロ表現(ME)は、人々が隠そうとしている感情を明らかにすると考えられる不随意で微妙な表情である。 MEスポッティングは、ビデオ中のMEを含む時間間隔を検出する。 長いビデオからこのような迅速かつ微妙な動きを検出することは難しい。 近年の研究では、光学フローやディープラーニングモデルなどの詳細な顔の動きの表現を活用し、高い計算複雑性をもたらす。 計算複雑性を低減し,リアルタイム操作を実現するために,リアルタイムMEスポッティングフレームワークRMESを提案する。 我々は、Riesz Pyramidによって計算された位相を用いて動きを表現し、この動きを3ストリームの浅瀬CNNに供給し、MEに属する各フレームの確率を予測する。 光流と比較して位相はより局所的な運動推定を提供し、これはMEスポッティングに必須であり、より高い性能をもたらす。 フェーズを使用すると、MEスポッティングパイプラインの必要な計算量が77.8%削減される。 比較的単純で計算量も少ないが、2つの公開データセット(CAS(ME)2とSAMM Long Videos)で最先端のパフォーマンスを実現する。

Micro-expressions (MEs) are involuntary and subtle facial expressions that are thought to reveal feelings people are trying to hide. ME spotting detects the temporal intervals containing MEs in videos. Detecting such quick and subtle motions from long videos is difficult. Recent works leverage detailed facial motion representations, such as the optical flow, and deep learning models, leading to high computational complexity. To reduce computational complexity and achieve real-time operation, we propose RMES, a real-time ME spotting framework. We represent motion using phase computed by Riesz Pyramid, and feed this motion representation into a three-stream shallow CNN, which predicts the likelihood of each frame belonging to an ME. In comparison to optical flow, phase provides more localized motion estimates, which are essential for ME spotting, resulting in higher performance. Using phase also reduces the required computation of the ME spotting pipeline by 77.8%. Despite its relative simplicity and low computational complexity, our framework achieves state-of-the-art performance on two public datasets: CAS(ME)2 and SAMM Long Videos.
翻訳日:2023-05-10 12:20:22 公開日:2023-05-09
# マルチラベル学習のための最小学習マシン

Minimal Learning Machine for Multi-Label Learning ( http://arxiv.org/abs/2305.05518v1 )

ライセンス: Link先を確認
Joonas H\"am\"al\"ainen, Amauri Souza, C\'esar L. C. Mattos, Jo\~ao P. P. Gomes, Tommi K\"arkk\"ainen(参考訳) 距離に基づく教師付き手法であるminimum learning machineは,入力距離行列と出力距離行列のマッピングを学習し,データから予測モデルを構築する。 本稿では,本手法とそのコアコンポーネントである距離マッピングをマルチラベル学習に適用する方法について提案し,評価する。 提案手法は,距離マッピングと逆距離重み付けを組み合わせたものである。 本提案は,マルチレーベル学習文学における最も単純な手法の一つであるが,小中小のマルチレーベル学習問題に対して,最先端のパフォーマンスを実現する。 その単純さに加えて,提案手法は完全に決定論的であり,従来のクロスバリデーションに基づくハイパーパラメータチューニングを回避するために,クローズド形式の損失ベース統計量によって選択することができる。 さらに,その単純な線形距離マッピングに基づく構成により,データ中心の機械学習パイプラインに有用な多ラベル分類のための予測の不確実性を評価することができることを示す。

Distance-based supervised method, the minimal learning machine, constructs a predictive model from data by learning a mapping between input and output distance matrices. In this paper, we propose methods and evaluate how this technique and its core component, the distance mapping, can be adapted to multi-label learning. The proposed approach is based on combining the distance mapping with an inverse distance weighting. Although the proposal is one of the simplest methods in the multi-label learning literature, it achieves state-of-the-art performance for small to moderate-sized multi-label learning problems. Besides its simplicity, the proposed method is fully deterministic and its hyper-parameter can be selected via ranking loss-based statistic which has a closed form, thus avoiding conventional cross-validation-based hyper-parameter tuning. In addition, due to its simple linear distance mapping-based construction, we demonstrate that the proposed method can assess predictions' uncertainty for multi-label classification, which is a valuable capability for data-centric machine learning pipelines.
翻訳日:2023-05-10 12:20:03 公開日:2023-05-09
# PET-NeuS: ニューラルネットワークのための位置符号化トリプレーン

PET-NeuS: Positional Encoding Tri-Planes for Neural Surfaces ( http://arxiv.org/abs/2305.05594v1 )

ライセンス: Link先を確認
Yiqun Wang, Ivan Skorokhodov, Peter Wonka(参考訳) MLPによってパラメータ化された符号距離関数(SDF)は、神経表面再構成の一般的な要素である。 我々は、最近成功したNeuS法に基づいて、それを3つの新しいコンポーネントで拡張する。 第1の構成要素は、EG3Dから三平面表現を借用し、符号付き距離場を三平面とMLPの混合として表現することである。 三面体を使用すると、より表現力のあるデータ構造になるが、再構成された表面にノイズも生じる。 第2のコンポーネントは、学習可能な重み付き新しいタイプの位置符号化を使用して、再建プロセスにおいてノイズに対処することである。 3次元平面の特徴を複数の周波数スケールに分割し、異なる周波数のsinとcos関数で変調する。 第3のコンポーネントは、自己アテンション畳み込みを用いて三面体の特徴を学習可能な畳み込み操作を使用して、異なる周波数帯域を持つ特徴を生成することである。 実験の結果,PET-NeuSは標準データセット上で高忠実な表面再構成を実現することがわかった。 前回の研究とチャンファー測度を表面再構成の質を測定する最も重要な方法として用いた結果、Nerf-synthetic(0.84対1.97)で57%、DTU(0.71対0.84)で15.5%の改善が達成された。 定性的評価は,高周波ノイズの干渉をよりよく制御する方法を明らかにする。 コードは \url{https://github.com/yiqun-wang/pet-neus}。

A signed distance function (SDF) parametrized by an MLP is a common ingredient of neural surface reconstruction. We build on the successful recent method NeuS to extend it by three new components. The first component is to borrow the tri-plane representation from EG3D and represent signed distance fields as a mixture of tri-planes and MLPs instead of representing it with MLPs only. Using tri-planes leads to a more expressive data structure but will also introduce noise in the reconstructed surface. The second component is to use a new type of positional encoding with learnable weights to combat noise in the reconstruction process. We divide the features in the tri-plane into multiple frequency scales and modulate them with sin and cos functions of different frequencies. The third component is to use learnable convolution operations on the tri-plane features using self-attention convolution to produce features with different frequency bands. The experiments show that PET-NeuS achieves high-fidelity surface reconstruction on standard datasets. Following previous work and using the Chamfer metric as the most important way to measure surface reconstruction quality, we are able to improve upon the NeuS baseline by 57% on Nerf-synthetic (0.84 compared to 1.97) and by 15.5% on DTU (0.71 compared to 0.84). The qualitative evaluation reveals how our method can better control the interference of high-frequency noise. Code available at \url{https://github.com/yiqun-wang/PET-NeuS}.
翻訳日:2023-05-10 12:12:43 公開日:2023-05-09
# StrAE: 明示的構造を用いた事前学習型埋め込みの自動エンコーディング

StrAE: Autoencoding for Pre-Trained Embeddings using Explicit Structure ( http://arxiv.org/abs/2305.05588v1 )

ライセンス: Link先を確認
Mattia Opper, Victor Prokhorov, N. Siddharth(参考訳) 文構造を忠実に活用し、教師なしの方法でマルチレベルノード埋め込みを学習する自動符号化フレームワークであるStrAEを開発することにより、NLPにおける表現学習のための明示的な構造の有用性を探求する。 我々はStrAEを用いて、異なるタイプの知覚的構造と目的のモデルをトレーニングし、構造に対する新たな対照的な損失を発生させ、本質的および外生的なタスクの連続に学習した埋め込みを評価する。 実験の結果, 明示的な構造を成層的に活用することで, 先行作業よりも組込み性が向上し, 従来のクロスエントロピー目標よりも, 構造に対する新しい対照的目標が優れていることが示された。 さらに、構造を弱く活用する先行研究の成果とは対照的に、構造に完全に忠実であることは、対応するモデルの性能に基づく構造の種類間の曖昧さを可能にする。 straeの有用性のさらなる証拠として、我々は埋め込みを学習しながら同時に構造を誘導する単純な概念実証手法を開発し、構造が与えられる最も優れたモデルのそれと性能が同等であることを示す。 最後に,StrAEと標準の非構造的ベースラインを類似した設定で学習することで,これらの結果を文脈的に比較し,明示的構造を忠実に活用することは語彙的・文レベルの意味論において有益であることを示す。

This work explores the utility of explicit structure for representation learning in NLP by developing StrAE -- an autoencoding framework that faithfully leverages sentence structure to learn multi-level node embeddings in an unsupervised fashion. We use StrAE to train models across different types of sentential structure and objectives, including a novel contrastive loss over structure, and evaluate the learnt embeddings on a series of both intrinsic and extrinsic tasks. Our experiments indicate that leveraging explicit structure through StrAE leads to improved embeddings over prior work, and that our novel contrastive objective over structure outperforms the standard cross-entropy objective. Moreover, in contrast to findings from prior work that weakly leverages structure, we find that being completely faithful to structure does enable disambiguation between types of structure based on the corresponding model's performance. As further evidence of StrAE's utility, we develop a simple proof-of-concept approach to simultaneously induce structure while learning embeddings, rather than being given structure, and find that performance is comparable to that of the best-performing models where structure is given. Finally, we contextualise these results by comparing StrAE against standard unstructured baselines learnt in similar settings, and show that faithfully leveraging explicit structure can be beneficial in lexical and sentence-level semantics.
翻訳日:2023-05-10 12:12:16 公開日:2023-05-09
# 動的構成と相互作用によるグループ活動認識

Group Activity Recognition via Dynamic Composition and Interaction ( http://arxiv.org/abs/2305.05583v1 )

ライセンス: Link先を確認
Youliang Zhang, Zhuo Zhou, Wenxuan Liu, Danni Xu, Zheng Wang(参考訳) 従来のグループ活動認識手法は,人間関係を利用した推論や重要なサブグループ発見に限られていた。 この欠如はシーンを部分的に解釈し、結果に対する無関係なアクションの干渉を増加させる。 そこで本稿では,ダイナミックコンポジションモジュール(DcM)と動的インタラクションモジュール(DiM)を用いて,人との関係と位置をモデル化し,参加者の貢献を識別する。 グループ構成と人間と物体の相互作用に関する知見は、私たちの中核的なアイデアを刺激する。 グループ構成は、グループ内の人の位置とそれらの関係を教えてくれる一方、相互作用はグループ外の人間とオブジェクトの関係を反映する。 我々はdcmにおける空間的および時間的エンコーダを用いて動的構成をモデル化し、dimを構築し、人間/物体の時間的近傍を考えるトランスフォーマーを内蔵した新しいgcnと相互作用を探索する。 また、異なるレベルの機能を統合するために、マルチレベル動的統合が採用されています。 我々は,2つの公開データセットに対して広範な実験を行い,その手法が最先端を実現することを示す。

Previous group activity recognition approaches were limited to reasoning using human relations or finding important subgroups and tended to ignore indispensable group composition and human-object interactions. This absence makes a partial interpretation of the scene and increases the interference of irrelevant actions on the results. Therefore, we propose our DynamicFormer with Dynamic composition Module (DcM) and Dynamic interaction Module (DiM) to model relations and locations of persons and discriminate the contribution of participants, respectively. Our findings on group composition and human-object interaction inspire our core idea. Group composition tells us the location of people and their relations inside the group, while interaction reflects the relation between humans and objects outside the group. We utilize spatial and temporal encoders in DcM to model our dynamic composition and build DiM to explore interaction with a novel GCN, which has a transformer inside to consider the temporal neighbors of human/object. Also, a Multi-level Dynamic Integration is employed to integrate features from different levels. We conduct extensive experiments on two public datasets and show that our method achieves state-of-the-art.
翻訳日:2023-05-10 12:11:51 公開日:2023-05-09
# Fashion CUT: 合成データと擬似ラベルを用いた衣服の視覚パターン分類のための教師なしドメイン適応

Fashion CUT: Unsupervised domain adaptation for visual pattern classification in clothes using synthetic data and pseudo-labels ( http://arxiv.org/abs/2305.05580v1 )

ライセンス: Link先を確認
Enric Moreu, Alex Martinelli, Martina Naughton, Philip Kelly, Noel E. O'Connor(参考訳) 顧客の商品の閲覧、フィルタリング、検索を可能にするため、Eコマースストアにとって正確な製品情報は不可欠である。 製品データの品質は、不適切な情報や誤った情報によって影響を受けます。 機械学習は、不正確な情報や不足情報の修正に使用できるが、ファッション画像分類タスクで高いパフォーマンスを達成するには、大量の注釈付きデータが必要であるが、ラベリングコストのために生成するのは高価である。 一つの解決策は、手動のラベリングを必要としない合成データを生成することである。 しかし,合成画像のみのデータセットを用いてモデルをトレーニングすると,ドメインシフトのため,実世界のデータに対する推論を行う場合,一般化が不十分になる可能性がある。 本稿では,合成領域から実世界領域への画像変換を行う,教師なし領域適応手法を提案する。 提案手法は,合成ラベル情報を保存しながら,リアルな画像を生成するために共同で訓練された生成ニューラルネットワークと分類器を組み合わせる。 その結果,実世界の擬似ラベルを用いて実世界のドメインを一般化し,合成バイアスを低減できることがわかった。 実世界のアノテーションを使わずにファッションドメインでビジュアルパターンの分類モデルをトレーニングすることに成功しました。 実験により,提案手法は他の教師なし領域適応アルゴリズムよりも優れていることが示された。

Accurate product information is critical for e-commerce stores to allow customers to browse, filter, and search for products. Product data quality is affected by missing or incorrect information resulting in poor customer experience. While machine learning can be used to correct inaccurate or missing information, achieving high performance on fashion image classification tasks requires large amounts of annotated data, but it is expensive to generate due to labeling costs. One solution can be to generate synthetic data which requires no manual labeling. However, training a model with a dataset of solely synthetic images can lead to poor generalization when performing inference on real-world data because of the domain shift. We introduce a new unsupervised domain adaptation technique that converts images from the synthetic domain into the real-world domain. Our approach combines a generative neural network and a classifier that are jointly trained to produce realistic images while preserving the synthetic label information. We found that using real-world pseudo-labels during training helps the classifier to generalize in the real-world domain, reducing the synthetic bias. We successfully train a visual pattern classification model in the fashion domain without real-world annotations. Experiments show that our method outperforms other unsupervised domain adaptation algorithms.
翻訳日:2023-05-10 12:11:33 公開日:2023-05-09
# 大規模言語モデルと人間化技術

Large Language Models Humanize Technology ( http://arxiv.org/abs/2305.05576v1 )

ライセンス: Link先を確認
Pratyush Kumar(参考訳) 大規模言語モデル(LLM)はここ数ヶ月、数週間で急速に進歩し、大衆の注目を集めている。 このことが、これらのモデルを人的価値と整合させること、労働市場への影響、そしてさらなる研究開発における規制の必要性に対する懸念を引き起こした。 しかし、この言説は LLM の社会的利益を広く拡散させる命令に焦点をあてていないことが多い。 この社会的利益を評価するために、llmは、以前の技術よりも効果的にテクノロジーを人間化するための創発的な能力を示し、言語、職業、およびアクセシビリティの分断をまたぐ人々に対して有益であると主張する。 私たちは、今日のコンピューティング技術における3つのボトルネックに対処し、多様でアクセスしやすいコンテンツを作成し、複雑なデジタルツールを学習し、機械学習アルゴリズムをパーソナライズする、と論じています。 ケースベースのアプローチを採用し、それぞれのボトルネックを、LLMが対処する能力を示すボトルネックを現在の技術が課している2つの例で示す。 テクノロジーを広く人間化するこの機会を踏まえ、我々は、LLMのより広範な理解、LLMの使用を簡素化するためのツールや方法、施設間容量の横断的理解を提唱する。

Large Language Models (LLMs) have made rapid progress in recent months and weeks, garnering significant public attention. This has sparked concerns about aligning these models with human values, their impact on labor markets, and the potential need for regulation in further research and development. However, the discourse often lacks a focus on the imperative to widely diffuse the societal benefits of LLMs. To qualify this societal benefit, we assert that LLMs exhibit emergent abilities to humanize technology more effectively than previous technologies, and for people across language, occupation, and accessibility divides. We argue that they do so by addressing three mechanizing bottlenecks in today's computing technologies: creating diverse and accessible content, learning complex digital tools, and personalizing machine learning algorithms. We adopt a case-based approach and illustrate each bottleneck with two examples where current technology imposes bottlenecks that LLMs demonstrate the ability to address. Given this opportunity to humanize technology widely, we advocate for more widespread understanding of LLMs, tools and methods to simplify use of LLMs, and cross-cutting institutional capacity.
翻訳日:2023-05-10 12:11:13 公開日:2023-05-09
# SMAClite:マルチエージェント強化学習のための軽量環境

SMAClite: A Lightweight Environment for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2305.05566v1 )

ライセンス: Link先を確認
Adam Michalski, Filippos Christianos, Stefano V. Albrecht(参考訳) マルチエージェント強化学習(MARL)アルゴリズムの標準ベンチマークが不足している。 スタークラフト・マルチエージェントチャレンジ (Starcraft Multi-Agent Challenge, SMAC) は、MARLの研究で広く使われているが、重くてクローズドなコンピュータゲームであるStarCraft IIの上に構築されている。 したがって、SMACは計算コストが高く、ゲーム特有の知識と、環境への意味のある変更や貢献のために独自のツールを使用する必要がある。 SMAClite - Starcraft IIとオープンソースの両方を分離したSMACliteベースのチャレンジと、特別な知識なしにSMAClite用の新しいコンテンツを作成するフレームワークを紹介する。 SMAClite は SMAClite 上で MARL アルゴリズムを訓練し,SMAClite の結果を再現することにより,SMAClite が SMAC と等価であることを示す実験を行った。 次に、SMACliteが実行速度とメモリの両方でSMACより優れていることを示す。

There is a lack of standard benchmarks for Multi-Agent Reinforcement Learning (MARL) algorithms. The Starcraft Multi-Agent Challenge (SMAC) has been widely used in MARL research, but is built on top of a heavy, closed-source computer game, StarCraft II. Thus, SMAC is computationally expensive and requires knowledge and the use of proprietary tools specific to the game for any meaningful alteration or contribution to the environment. We introduce SMAClite -- a challenge based on SMAC that is both decoupled from Starcraft II and open-source, along with a framework which makes it possible to create new content for SMAClite without any special knowledge. We conduct experiments to show that SMAClite is equivalent to SMAC, by training MARL algorithms on SMAClite and reproducing SMAC results. We then show that SMAClite outperforms SMAC in both runtime speed and memory.
翻訳日:2023-05-10 12:10:52 公開日:2023-05-09
# SkelExとBoundEx:ReLUニューラルネットワークの自然な可視化

SkelEx and BoundEx: Natural Visualization of ReLU Neural Networks ( http://arxiv.org/abs/2305.05562v1 )

ライセンス: Link先を確認
Pawel Pukowski, Haiping Lu(参考訳) その限定的な解釈性にもかかわらず、重みとバイアスは、ReLU NN(ReLU Neural Networks)によって学習された関数の最も一般的なエンコーディングである。 そこで我々は,ReLU NNが学習したメンバシップ関数の骨格を抽出するアルゴリズムであるSkelExを導入し,それらの関数の解釈と解析を容易にする。 私たちの知る限りでは、これは臨界点の観点から線形領域を考える最初の仕事です。 自然なフォローアップとして,ReLU NN の実現から決定境界を抽出する最初の解析手法である BoundEx も紹介する。 どちらの手法も、低次元データに基づいて訓練されたReLU NNに対して非常に自然な可視化ツールを導入している。

Despite their limited interpretability, weights and biases are still the most popular encoding of the functions learned by ReLU Neural Networks (ReLU NNs). That is why we introduce SkelEx, an algorithm to extract a skeleton of the membership functions learned by ReLU NNs, making those functions easier to interpret and analyze. To the best of our knowledge, this is the first work that considers linear regions from the perspective of critical points. As a natural follow-up, we also introduce BoundEx, which is the first analytical method known to us to extract the decision boundary from the realization of a ReLU NN. Both of those methods introduce very natural visualization tool for ReLU NNs trained on low-dimensional data.
翻訳日:2023-05-10 12:10:37 公開日:2023-05-09
# 分散多目的意思決定

Distributional Multi-Objective Decision Making ( http://arxiv.org/abs/2305.05560v1 )

ライセンス: Link先を確認
Willem R\"opke, Conor F. Hayes, Patrick Mannion, Enda Howley, Ann Now\'e and Diederik M. Roijers(参考訳) 矛盾する目的を持つシナリオにおける効果的な意思決定支援のために、潜在的に最適な解決策のセットを意思決定者に提示することができる。 これらの集合が持つべきポリシーと、そのような集合を効率的に計算する方法を考察する。 このことを念頭に配当的アプローチをとり,政策の帰納分布に関する新たな支配基準を導入する。 この基準に基づき、分布的非支配集合を示し、パレートフロントで無視されている最適ポリシーを含むことを示す。 さらに, 凸分布型非支配集合を提案し, 多変量リスク回避意思決定者に期待できる有用性を最大化するすべての方針を含むことを証明した。 本稿では,分布非支配集合を学習し,その集合を凸分布非支配集合に還元するためのプランニング演算子をさらに貢献する新しいアルゴリズムを提案する。 実験を通じて,これらの手法の有効性と効果を実証し,実世界問題における意思決定支援の新たなアプローチとして有用であることを示す。

For effective decision support in scenarios with conflicting objectives, sets of potentially optimal solutions can be presented to the decision maker. We explore both what policies these sets should contain and how such sets can be computed efficiently. With this in mind, we take a distributional approach and introduce a novel dominance criterion relating return distributions of policies directly. Based on this criterion, we present the distributional undominated set and show that it contains optimal policies otherwise ignored by the Pareto front. In addition, we propose the convex distributional undominated set and prove that it comprises all policies that maximise expected utility for multivariate risk-averse decision makers. We propose a novel algorithm to learn the distributional undominated set and further contribute pruning operators to reduce the set to the convex distributional undominated set. Through experiments, we demonstrate the feasibility and effectiveness of these methods, making this a valuable new approach for decision support in real-world problems.
翻訳日:2023-05-10 12:10:27 公開日:2023-05-09
# 猫量子ビットを用いた量子近似最適化アルゴリズム

Quantum Approximate Optimization Algorithm with Cat Qubits ( http://arxiv.org/abs/2305.05556v1 )

ライセンス: Link先を確認
Pontus Vikst{\aa}l, Laura Garc\'ia-\'Alvarez, Shruti Puri, Giulia Ferrini(参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、量子回路の浅い組み合わせ最適化問題に対する近似解を提供するように設計されている。 本稿では,猫量子ビットを用いたQAOA実装について,逆振幅のコヒーレントな状態を用いて検討する。 支配的なノイズメカニズム、すなわち光子損失は、このエンコーディングで$z$-biasedノイズとなる。 我々は特にKerr共振器による実装を考える。 我々はKerr非線形共振器に作用する必要ゲート列をシミュレートし、QAOAと猫量子ビットを用いたMaxCut問題の解法を数値シミュレーションし、単一光子損失の存在下で理想的な2レベルシステムで符号化された標準量子ビットの場合と比較する。 その結果,キャットキュービットでqaoaを実行すると,2レベルシステムに符号化されたキュービットに対するmaxcutのランダムインスタンスの近似比が増加することがわかった。

The Quantum Approximate Optimization Algorithm (QAOA) -- one of the leading algorithms for applications on intermediate-scale quantum processors -- is designed to provide approximate solutions to combinatorial optimization problems with shallow quantum circuits. Here, we study QAOA implementations with cat qubits, using coherent states with opposite amplitudes. The dominant noise mechanism, i.e., photon losses, results in $Z$-biased noise with this encoding. We consider in particular an implementation with Kerr resonators. We numerically simulate solving MaxCut problems using QAOA with cat qubits by simulating the required gates sequence acting on the Kerr non-linear resonators, and compare to the case of standard qubits, encoded in ideal two-level systems, in the presence of single-photon loss. Our results show that running QAOA with cat qubits increases the approximation ratio for random instances of MaxCut with respect to qubits encoded into two-level systems.
翻訳日:2023-05-10 12:10:13 公開日:2023-05-09
# ColonMapper: 大腸内視鏡におけるトポロジカルマッピングと局在

ColonMapper: topological mapping and localization for colonoscopy ( http://arxiv.org/abs/2305.05546v1 )

ライセンス: Link先を確認
Javier Morlana, Juan D. Tard\'os and J.M.M. Montiel(参考訳) 大腸・胃腔内腔内腔のマッピングと局在は,同一内腔位置の再観察間の著しい形状変化と照明変化の課題を克服しなければならない。 固定されたシーン形状に強く依存する幾何学的地図の代わりに、トポロジカルマップは、視覚的位置認識(すなわち、2つのビデオ撮影が同じ位置を撮影しているかどうかを判断する能力)に焦点を当てているため、より適切である。 実際のヒト大腸で操作可能なトポロジカルマッピングとローカライズシステムを提案する。 地図はグラフであり、各ノードは、その位置の実際の画像のセットによって、コロン位置をコードする。 エッジは2つのノード間のトラバータビリティを表す。 シーンの変更が小さいクローズインタイム画像の場合、最近のtransformersベースの画像マッチングアルゴリズムで場所認識をうまく管理することができる。 しかし、長期的変化(同じ患者の異なる大腸内視鏡など)では、特徴ベースのマッチングは失敗する。 そこで本稿では,シーンに大きな変更を加えることなく,高いリコールを達成できるGeMグローバルディスクリプタを提案する。 マップグラフを処理するベイズフィルタの追加により、長期位置認識の精度が向上し、以前に構築されたマップで再ローカライズが可能になる。 実験では,第1大腸内視鏡の退院期間中に地図を構築した。 2週間後に同じ患者に対して2回目の大腸内視鏡検査を行ったところ,この地図内に再局在する可能性が証明された。 コードとモデルは受け入れ次第利用できる。

Mapping and localization in endoluminal cavities from colonoscopies or gastroscopies has to overcome the challenge of significant shape and illumination changes between reobservations of the same endoluminal location. Instead of geometrical maps that strongly rely on a fixed scene geometry, topological maps are more adequate because they focus on visual place recognition, i.e. the capability to determine if two video shots are imaging the same location. We propose a topological mapping and localization system able to operate on real human colonoscopies. The map is a graph where each node codes a colon location by a set of real images of that location. The edges represent traversability between two nodes. For close-in-time images, where scene changes are minor, place recognition can be successfully managed with the recent transformers-based image-matching algorithms. However, under long-term changes --such as different colonoscopies of the same patient-- feature-based matching fails. To address this, we propose a GeM global descriptor able to achieve high recall with significant changes in the scene. The addition of a Bayesian filter processing the map graph boosts the accuracy of the long-term place recognition, enabling relocalization in a previously built map. In the experiments, we construct a map during the withdrawal phase of a first colonoscopy. Subsequently, we prove the ability to relocalize within this map during a second colonoscopy of the same patient two weeks later. Code and models will be available upon acceptance.
翻訳日:2023-05-10 12:09:56 公開日:2023-05-09
# ランダム特徴モデルと2層ニューラルネットワークの一般化解析のための双対性フレームワーク

A duality framework for generalization analysis of random feature models and two-layer neural networks ( http://arxiv.org/abs/2305.05642v1 )

ライセンス: Link先を確認
Hongrui Chen, Jihao Long, Lei Wu(参考訳) ランダム特徴モデル(rfms)と2層ニューラルネットワークの高次元解析において生じる自然関数空間である、$\mathcal{f}_{p,\pi}$ とバロン空間における学習関数の問題を考える。 双対性解析により、これらの空間の近似と推定は、ある意味で等価であると考えることができる。 これにより、両方のモデルの一般化を研究する際に、近似と推定の容易な問題に焦点を合わせることができる。 この双対同値は、推定誤差を効果的に制御できる情報ベースの複雑性を定義することによって確立される。 さらに,2つの具体的な応用を包括的に分析することで,双対性フレームワークの柔軟性を実証する。 第一の応用は、FMを用いて$\mathcal{F}_{p,\pi}$の学習関数を研究することである。 p>1$まで、学習は次元の呪いに苦しむことはないことを証明し、rfmはカーネル・レジームを超えて機能することを示唆する。 我々の分析は,既存の結果[CMM21]をノイズケースにまで拡張し,過パラメータ化の要件を除去する。 第二の応用は、$L^\infty$メートル法の下で再現されたカーネルヒルベルト空間(RKHS)の学習可能性を調べることである。 我々は、関連するカーネルのスペクトルを用いて、ミニマックス推定誤差の下限と上限の両方を導出する。 次にこれらの境界をドット生成カーネルに適用し、入力次元でどのようにスケールするかを分析する。 この結果から,ReLU(ランダム)特徴を用いた学習は,一様精度に到達し難易度が高いことが示唆された。

We consider the problem of learning functions in the $\mathcal{F}_{p,\pi}$ and Barron spaces, which are natural function spaces that arise in the high-dimensional analysis of random feature models (RFMs) and two-layer neural networks. Through a duality analysis, we reveal that the approximation and estimation of these spaces can be considered equivalent in a certain sense. This enables us to focus on the easier problem of approximation and estimation when studying the generalization of both models. The dual equivalence is established by defining an information-based complexity that can effectively control estimation errors. Additionally, we demonstrate the flexibility of our duality framework through comprehensive analyses of two concrete applications. The first application is to study learning functions in $\mathcal{F}_{p,\pi}$ with RFMs. We prove that the learning does not suffer from the curse of dimensionality as long as $p>1$, implying RFMs can work beyond the kernel regime. Our analysis extends existing results [CMM21] to the noisy case and removes the requirement of overparameterization. The second application is to investigate the learnability of reproducing kernel Hilbert space (RKHS) under the $L^\infty$ metric. We derive both lower and upper bounds of the minimax estimation error by using the spectrum of the associated kernel. We then apply these bounds to dot-product kernels and analyze how they scale with the input dimension. Our results suggest that learning with ReLU (random) features is generally intractable in terms of reaching high uniform accuracy.
翻訳日:2023-05-10 12:04:52 公開日:2023-05-09
# 個人ないしエンティティ中心の知識グラフのための表現学習:医療における応用

Representation Learning for Person or Entity-centric Knowledge Graphs: an application in Healthcare ( http://arxiv.org/abs/2305.05640v1 )

ライセンス: Link先を確認
Christos Theodoropoulos, Natasha Mulligan, Thaddeus Stappenbeck, Joao Bettencourt-Silva(参考訳) 知識グラフ(KG)はオントロジーやスキーマに基づいて情報を整理する一般的な方法であり、検索からレコメンデーションまでさまざまなシナリオで使用されている。 KGの進歩にも拘わらず、知識の表現は産業間での非自明な作業であり、エンティティ間の複雑な相互依存関係、異質性、標準化の欠如、データのスパース性などにより、医療分野や医療分野において特に困難である。 KGは、疾患に関連する遺伝子の診断や優先順位付けに使用されるが、それらはしばしば、ノードや人のような関心のあるエンティティを中心としていないスキーマに依存する。 エンティティ中心のkgは比較的探索的ではないが、中央ノードに接続された重要なファセットを表現し、グラフ埋め込みの生成や、幅広い予測タスクのためのグラフニューラルネットワークのトレーニングなど、グラフのトラバーサルや推論を越えて下流タスクをアンロックする。 本稿では、構造化データと非構造化データからエンティティ中心のKGを抽出するエンドツーエンド表現学習フレームワークを提案する。 我々は、人の複数の面を表す星形オントロジーを導入し、それをKG生成のガイドに利用する。 グラフのコンパクト表現はグラフニューラルネットワークを利用して作成され、異質性や明示性の異なるレベルを用いて実験が行われる。 提案するフレームワークの結果を評価するために,可読性予測タスクを用いて,ベースラインの機械学習分類器よりも優れた安定なシステムと,欠落データに対する堅牢性を示す。 このアプローチにはいくつかの潜在的なアプリケーションがあり、オープンソースであることを強調します。 最後に、我々は、実際にフレームワークを採用するための教訓、挑戦、そして次のステップについて話し合う。

Knowledge graphs (KGs) are a popular way to organise information based on ontologies or schemas and have been used across a variety of scenarios from search to recommendation. Despite advances in KGs, representing knowledge remains a non-trivial task across industries and it is especially challenging in the biomedical and healthcare domains due to complex interdependent relations between entities, heterogeneity, lack of standardization, and sparseness of data. KGs are used to discover diagnoses or prioritize genes relevant to disease, but they often rely on schemas that are not centred around a node or entity of interest, such as a person. Entity-centric KGs are relatively unexplored but hold promise in representing important facets connected to a central node and unlocking downstream tasks beyond graph traversal and reasoning, such as generating graph embeddings and training graph neural networks for a wide range of predictive tasks. This paper presents an end-to-end representation learning framework to extract entity-centric KGs from structured and unstructured data. We introduce a star-shaped ontology to represent the multiple facets of a person and use it to guide KG creation. Compact representations of the graphs are created leveraging graph neural networks and experiments are conducted using different levels of heterogeneity or explicitness. A readmission prediction task is used to evaluate the results of the proposed framework, showing a stable system, robust to missing data, that outperforms a range of baseline machine learning classifiers. We highlight that this approach has several potential applications across domains and is open-sourced. Lastly, we discuss lessons learned, challenges, and next steps for the adoption of the framework in practice.
翻訳日:2023-05-10 12:04:26 公開日:2023-05-09
# エンコーダ・デコーダによる法的・生物医学的テキストのマルチラベル分類の試み

An Exploration of Encoder-Decoder Approaches to Multi-Label Classification for Legal and Biomedical Text ( http://arxiv.org/abs/2305.05627v1 )

ライセンス: Link先を確認
Yova Kementchedjhieva and Ilias Chalkidis(参考訳) マルチラベルテキスト分類の標準的な方法は、エンコーダのみの事前訓練言語モデルに依存しているが、エンコーダ-デコーダモデルは、他の分類タスクにおいてより効果的であることが証明されている。 本研究では,エンコーダのみに基づく2つの手法と,エンコーダ-デコーダに基づく2つの手法を比較した。 4つのデータセット(法律領域では2つ、生物医学領域では2つ、ラベルの粒度は2レベル)で実験を行い、常に同じ事前訓練されたモデルであるT5から出発する。 その結果、エンコーダデコーダ法はエンコーダのみのメソッドよりも優れており、より複雑なデータセットやより細かい粒度のラベリングスキームの利点が増している。 非自己回帰的な方法でエンコーダ-デコーダモデルを使用することで、全体として最高のパフォーマンスが得られるため、その強みをよりよく理解するために、アブレーションを通じてこのアプローチをさらに研究する。

Standard methods for multi-label text classification largely rely on encoder-only pre-trained language models, whereas encoder-decoder models have proven more effective in other classification tasks. In this study, we compare four methods for multi-label classification, two based on an encoder only, and two based on an encoder-decoder. We carry out experiments on four datasets -two in the legal domain and two in the biomedical domain, each with two levels of label granularity- and always depart from the same pre-trained model, T5. Our results show that encoder-decoder methods outperform encoder-only methods, with a growing advantage on more complex datasets and labeling schemes of finer granularity. Using encoder-decoder models in a non-autoregressive fashion, in particular, yields the best performance overall, so we further study this approach through ablations to better understand its strengths.
翻訳日:2023-05-10 12:03:56 公開日:2023-05-09
# ニューラルネットワークにおける距離空間のマグニチュードと一般化

Metric Space Magnitude and Generalisation in Neural Networks ( http://arxiv.org/abs/2305.05611v1 )

ライセンス: Link先を確認
Rayna Andreeva and Katharina Limbeck and Bastian Rieck and Rik Sarkar(参考訳) ディープラーニングモデルは多くのアプリケーションで大きな成功を収めてきたが、その内部動作はいまだ解明されていない。 この研究の目的は、マグニチュードと呼ばれる新しい位相不変量のレンズを通して深層ニューラルネットワークの学習プロセスを定量化することである。 マグニチュードは等距離不変量であり、その性質は計量空間の既知の不変量の多くを符号化する研究の活発な領域である。 ニューラルネットワークの内部表現の研究にマグニチュードを用い,その一般化能力を決定する新しい手法を提案する。 さらに,理論上は等級次元と一般化誤差を結合し,提案手法が後者のよい指標となることを示す。

Deep learning models have seen significant successes in numerous applications, but their inner workings remain elusive. The purpose of this work is to quantify the learning process of deep neural networks through the lens of a novel topological invariant called magnitude. Magnitude is an isometry invariant; its properties are an active area of research as it encodes many known invariants of a metric space. We use magnitude to study the internal representations of neural networks and propose a new method for determining their generalisation capabilities. Moreover, we theoretically connect magnitude dimension and the generalisation error, and demonstrate experimentally that the proposed framework can be a good indicator of the latter.
翻訳日:2023-05-10 12:03:38 公開日:2023-05-09
# ポイントクラウドネットワークは解剖学の統計的形状モデルを学ぶことができるか?

Can point cloud networks learn statistical shape models of anatomies? ( http://arxiv.org/abs/2305.05610v1 )

ライセンス: Link先を確認
Jadie Adams and Shireen Elhabian(参考訳) 統計的形状モデリング (SSM) は解剖学の個体群における解剖学的変動を調査し定量化する貴重なツールである。 しかし、従来の対応ベースのSSM生成法では、新しい被験者がコホートに追加されるたびに時間を要する再最適化プロセスが必要であり、臨床研究では推論プロセスが禁止される。 さらに、SSMを構成するには完全な幾何学的プロキシ(例えば、高解像度のバイナリボリュームや表面メッシュ)が必要である。 形状の無秩序な3dポイントクラウド表現は、様々な医療画像(しきい値画像や表面走査など)からより容易に取得できる。 ポイントクラウドディープネットワークは、最近、異なるポイントクラウドタスク(例えば、補完、意味セグメンテーション、分類)の置換不変機能を学習することに成功した。 しかし、ポイントクラウドからssmを学習する彼らの応用は未検討である。 本研究では,既存のポイントクラウドエンコーダ・デコーダベースのコンプリートネットワークが,ssmの未解決可能性を提供し,人口レベルの統計表現をキャプチャし,推論負担を軽減し,入力要求を緩和できることを実証する。 本稿では,SSMアプリケーションに対するこれらの手法の限界について論じ,今後の改良を提案する。 我々の研究は、形状解析文学を進歩させ、多様なユースケースにSSMを広げるための有望な道である、SSMのためのポイントクラウド深層学習のさらなる探求の道を開く。

Statistical Shape Modeling (SSM) is a valuable tool for investigating and quantifying anatomical variations within populations of anatomies. However, traditional correspondence-based SSM generation methods require a time-consuming re-optimization process each time a new subject is added to the cohort, making the inference process prohibitive for clinical research. Additionally, they require complete geometric proxies (e.g., high-resolution binary volumes or surface meshes) as input shapes to construct the SSM. Unordered 3D point cloud representations of shapes are more easily acquired from various medical imaging practices (e.g., thresholded images and surface scanning). Point cloud deep networks have recently achieved remarkable success in learning permutation-invariant features for different point cloud tasks (e.g., completion, semantic segmentation, classification). However, their application to learning SSM from point clouds is to-date unexplored. In this work, we demonstrate that existing point cloud encoder-decoder-based completion networks can provide an untapped potential for SSM, capturing population-level statistical representations of shapes while reducing the inference burden and relaxing the input requirement. We discuss the limitations of these techniques to the SSM application and suggest future improvements. Our work paves the way for further exploration of point cloud deep learning for SSM, a promising avenue for advancing shape analysis literature and broadening SSM to diverse use cases.
翻訳日:2023-05-10 12:03:26 公開日:2023-05-09
# chatgptの症例記録:言語モデルと複雑な臨床質問

The Case Records of ChatGPT: Language Models and Complex Clinical Questions ( http://arxiv.org/abs/2305.05609v1 )

ライセンス: Link先を確認
Timothy Poterucha, Pierre Elias, Christopher M. Haggerty(参考訳) 背景: 人工知能言語モデルは、医療ライセンス試験における大規模言語モデルの強力なパフォーマンスによって示される臨床意思決定の支援を含む、様々な応用において有望である。 しかし, 臨床実践を代表する複雑でオープンな症例を解決できる能力は, いまだ解明されていない。 方法: マサチューセッツ総合病院の症例記録を用いて, 複雑な症例の診断における大規模言語AIモデル GPT4 と GPT3.5 の精度について検討した。 2022年1月1日から4月16日までに公表された診断・診断検査を要した症例50例が確認された。 それぞれのケースに対して、モデルは、上位3つの特定の診断と関連する診断テスト、次にケーステキスト、ラボ、およびフィギュアレジェンドを要求するプロンプトを与えられた。 最終臨床診断と比較し, モデル予測検査が正しい診断をもたらすか否かを, モデルアウトプットの評価を行った。 結果: GPT4, GPT3.5は1回の試験で26%, 22%, 3回の試験で46%, 42%の精度で正しい診断を行った。 GPT4, GPT3.5は1回の試行で28%, 24%, 3回の検行で44%, 50%の正当性診断を施行した。 2つのモデルの間に有意な差は見られず、同じプロンプトを持つ複数の試験ではGPT3.5モデルが同様の結果を示した。 結論: 結論: これらのモデルは, 鑑別診断の作成に有用であるが, 複雑でオープンな症例において, 単一の統一診断を提供する能力は限られている。 今後の研究は、オープンエンドの臨床課題のより大きなデータセットにおけるモデルパフォーマンスの評価と、臨床意思決定を強化するための人間とAIの協力戦略の探求に焦点をあてる。

Background: Artificial intelligence language models have shown promise in various applications, including assisting with clinical decision-making as demonstrated by strong performance of large language models on medical licensure exams. However, their ability to solve complex, open-ended cases, which may be representative of clinical practice, remains unexplored. Methods: In this study, the accuracy of large language AI models GPT4 and GPT3.5 in diagnosing complex clinical cases was investigated using published Case Records of the Massachusetts General Hospital. A total of 50 cases requiring a diagnosis and diagnostic test published from January 1, 2022 to April 16, 2022 were identified. For each case, models were given a prompt requesting the top three specific diagnoses and associated diagnostic tests, followed by case text, labs, and figure legends. Model outputs were assessed in comparison to the final clinical diagnosis and whether the model-predicted test would result in a correct diagnosis. Results: GPT4 and GPT3.5 accurately provided the correct diagnosis in 26% and 22% of cases in one attempt, and 46% and 42% within three attempts, respectively. GPT4 and GPT3.5 provided a correct essential diagnostic test in 28% and 24% of cases in one attempt, and 44% and 50% within three attempts, respectively. No significant differences were found between the two models, and multiple trials with identical prompts using the GPT3.5 model provided similar results. Conclusions: In summary, these models demonstrate potential usefulness in generating differential diagnoses but remain limited in their ability to provide a single unifying diagnosis in complex, open-ended cases. Future research should focus on evaluating model performance in larger datasets of open-ended clinical challenges and exploring potential human-AI collaboration strategies to enhance clinical decision-making.
翻訳日:2023-05-10 12:02:58 公開日:2023-05-09
# 公正ランキングにおける関連性の役割

The Role of Relevance in Fair Ranking ( http://arxiv.org/abs/2305.05608v1 )

ライセンス: Link先を確認
Aparna Balagopalan, Abigail Z. Jacobs, Asia Biega(参考訳) オンラインプラットフォームは機会へのアクセスを仲介する: 関連性に基づくランキングは、雇用プラットフォームやマーケットプレイスの売り手において求人や求職者への露出を割り当てることで、オプションを作成し、制限する。 社会的に責任を負うために、これらの社会的な連帯システムは様々な公正対策や介入を採用しており、その多くは価値に基づく露出の配分を目指している。 これらの構成は通常直接観測できないため、プラットフォームは関連性などのプロキシスコアを使用し、検索者クリックのような行動信号から推論する必要がある。 しかし、高評価の公正なランキングにおいて、関連性がそのような価値あるスコアとしての役割を果たすかどうかには疑問が残る。 本稿では,機械学習における社会科学,情報検索,公平性といった視点とツールを組み合わせて,適合度スコアが満たすべき条件のセットを導出し,公平性介入を有意義に導く。 そして、バイアスのあるユーザークリックデータから推測される関連性のケーススタディにおいて、これらの基準がすべて満たされていないことを実証的に示す。 これらの違反がシステムフェアネスの推定に与える影響を評価し、既存のフェアネス介入が特定問題を緩和するかどうかを分析する。 分析と結果から,公平なランキングでの使用に適した関連性収集と生成への新たなアプローチの必要性が浮き彫りになった。

Online platforms mediate access to opportunity: relevance-based rankings create and constrain options by allocating exposure to job openings and job candidates in hiring platforms, or sellers in a marketplace. In order to do so responsibly, these socially consequential systems employ various fairness measures and interventions, many of which seek to allocate exposure based on worthiness. Because these constructs are typically not directly observable, platforms must instead resort to using proxy scores such as relevance and infer them from behavioral signals such as searcher clicks. Yet, it remains an open question whether relevance fulfills its role as such a worthiness score in high-stakes fair rankings. In this paper, we combine perspectives and tools from the social sciences, information retrieval, and fairness in machine learning to derive a set of desired criteria that relevance scores should satisfy in order to meaningfully guide fairness interventions. We then empirically show that not all of these criteria are met in a case study of relevance inferred from biased user click data. We assess the impact of these violations on the estimated system fairness and analyze whether existing fairness interventions may mitigate the identified issues. Our analyses and results surface the pressing need for new approaches to relevance collection and generation that are suitable for use in fair ranking.
翻訳日:2023-05-10 12:02:25 公開日:2023-05-09
# ハイブリッド量子古典畳み込みニューラルネットワークにおけるプール技術

Pooling techniques in hybrid quantum-classical convolutional neural networks ( http://arxiv.org/abs/2305.05603v1 )

ライセンス: Link先を確認
Maureen Monnet, Hanady Gebran, Andrea Matic-Flierl, Florian Kiwit, Balthasar Schachtner, Amine Bentellis, Jeanette Miriam Lorenz(参考訳) 近年、量子機械学習は大きな関心を集めており、古典的機械学習アルゴリズムの量子変種は、小さなトレーニングデータサイズから優れた一般化を提供できることを示した。 しかしながら、量子回路設計が他よりも優れている理由に関する強い理論的洞察は特に存在せず、古典的機械学習に不可欠な古典的層や技法について、量子等価性の比較研究は行われていない。 特に畳み込みニューラルネットワーク内のプール層は、探索するために必要な基本的な操作である。 ポーリング機構は、入力次元を減少させ、入力データからクリーンな特徴を抽出することで、古典的な機械学習アルゴリズムの性能を著しく向上させる。 本研究では,量子古典的畳み込みニューラルネットワーク(qccnns)による2次元医用画像の分類手法について詳細に検討した。 中間回路計測,制御ゲート付きアンシラ量子ビット,モジュール型量子プールブロック,古典的後処理によるキュービット選択の4つの異なる量子およびハイブリッドプール技術の性能について検討した。 我々は,QCCNNと同等の古典的モデルやQCCNNをプールなしで比較し,QCCNNのアーキテクチャ的選択を将来的なアプリケーションでより深く研究することを約束する。

Quantum machine learning has received significant interest in recent years, with theoretical studies showing that quantum variants of classical machine learning algorithms can provide good generalization from small training data sizes. However, there are notably no strong theoretical insights about what makes a quantum circuit design better than another, and comparative studies between quantum equivalents have not been done for every type of classical layers or techniques crucial for classical machine learning. Particularly, the pooling layer within convolutional neural networks is a fundamental operation left to explore. Pooling mechanisms significantly improve the performance of classical machine learning algorithms by playing a key role in reducing input dimensionality and extracting clean features from the input data. In this work, an in-depth study of pooling techniques in hybrid quantum-classical convolutional neural networks (QCCNNs) for classifying 2D medical images is performed. The performance of four different quantum and hybrid pooling techniques is studied: mid-circuit measurements, ancilla qubits with controlled gates, modular quantum pooling blocks and qubit selection with classical postprocessing. We find similar or better performance in comparison to an equivalent classical model and QCCNN without pooling and conclude that it is promising to study architectural choices in QCCNNs in more depth for future applications.
翻訳日:2023-05-10 12:02:00 公開日:2023-05-09
# フェデレーション学習によるプライバシー保護型中国語テキスト認識

Privacy-Preserving Collaborative Chinese Text Recognition with Federated Learning ( http://arxiv.org/abs/2305.05602v1 )

ライセンス: Link先を確認
Shangchao Su, Haiyang Yu, Bin Li, Xiangyang Xue(参考訳) 中国語のテキスト認識では、ローカルデータの不足を補い、ローカルな数発文字認識の性能を向上させるためには、類似組織から大量のデータを収集する必要があることが多い。 しかし、テキストデータに個人情報が自然に存在するため、異なる組織は住所や電話番号などの個人情報を共有することを好まない。 そのため,中国語テキスト認識タスクのためのプライバシー保全型協調学習フレームワークの設計がますます重要になっている。 本稿では、中国語のテキスト認識タスクにパーソナライズされたフェデレーション学習(pFL)を導入し、プライベートデータを共有することなく各クライアント(組織)のモデル性能を大幅に向上させるpFedCRアルゴリズムを提案する。 具体的には、crnnに基づいて、クライアントデータの非iid問題を処理するため、モデルにいくつかの注意層を追加し、2段階のトレーニングアプローチを設計します。 また,モデルの出力層をサーバ上の仮想データセットを用いて微調整し,中国語文書における文字不均衡問題を緩和する。 提案手法は、公開ベンチマークと2つの実世界の産業シナリオデータセットで検証される。 実験の結果,pfedcrアルゴリズムは,ローカルパーソナライズモデルの性能を向上させると同時に,他のクライアントデータ領域における一般化性能を向上させることができることがわかった。 組織内のローカルトレーニングと比較して、pFedCRはモデルパフォーマンスを約20%改善する。 他の最先端の個人化学習手法と比較して、pFedCRはパフォーマンスを6%から8%向上させる。 さらに、フェデレート学習により、pFedCRは、真実の誤った情報を補正することができる。

In Chinese text recognition, to compensate for the insufficient local data and improve the performance of local few-shot character recognition, it is often necessary for one organization to collect a large amount of data from similar organizations. However, due to the natural presence of private information in text data, different organizations are unwilling to share private data, such as addresses and phone numbers. Therefore, it becomes increasingly important to design a privacy-preserving collaborative training framework for the Chinese text recognition task. In this paper, we introduce personalized federated learning (pFL) into the Chinese text recognition task and propose the pFedCR algorithm, which significantly improves the model performance of each client (organization) without sharing private data. Specifically, based on CRNN, to handle the non-iid problem of client data, we add several attention layers to the model and design a two-stage training approach for the client. In addition, we fine-tune the output layer of the model using a virtual dataset on the server, mitigating the problem of character imbalance in Chinese documents. The proposed approach is validated on public benchmarks and two self-built real-world industrial scenario datasets. The experimental results show that the pFedCR algorithm can improve the performance of local personalized models while also improving their generalization performance on other client data domains. Compared to local training within an organization, pFedCR improves model performance by about 20%. Compared to other state-of-the-art personalized federated learning methods, pFedCR improves performance by 6%~8%. Moreover, through federated learning, pFedCR can correct erroneous information in the ground truth.
翻訳日:2023-05-10 12:01:37 公開日:2023-05-09
# 解剖学的問合せを用いた医用画像検索のための領域ベースコントラストプリトレーニング

Region-based Contrastive Pretraining for Medical Image Retrieval with Anatomic Query ( http://arxiv.org/abs/2305.05598v1 )

ライセンス: Link先を確認
Ho Hin Lee, Alberto Santamaria-Pang, Jameson Merkow, Ozan Oktay, Fernando P\'erez-Garc\'ia, Javier Alvarez-Valle, Ivan Tarapov(参考訳) 同様の解剖学的領域における医用画像検索の可能性を示す,新しい領域ベースのコントラストプリトレーニング(regionmir)を提案する。 RegionMIRは医療画像検索における2つの課題に対処する 一 臨床関連検索基準(例えば解剖学、病理学に基づく)の標準化及び 二 意味的に有意義な興味の解剖学的領域の局在 本研究では,類似した解剖学的特徴を抽出し(バウンディングボックスを介して)、クエリと画像のデータベース間の相互解剖学的特徴の類似性を評価するROI画像検索画像ネットワークを提案する。 ROIクエリは、解剖学的分類のために微調整されたコントラスト予測エンコーダを用いて符号化され、領域関連画像検索のための解剖学的特有潜時空間を生成する。 検索中、解剖学的に符号化されたクエリを比較し、トレーニングサンプルから生成された特徴データベース内で類似した特徴を見つけ、トレーニングサンプルから類似領域の画像を取得する。 胸部imagenomeデータセットを用いた解剖分類と画像検索の両タスクにおけるアプローチを評価した。 提案手法は, 解剖学における92.24から94.12(2.03%)の分類精度において, 最先端の事前訓練, 共同訓練戦略の改善をもたらす。 形態の異なる複数の解剖群にまたがる一般化性を示す画像検索性能を質的に評価した。

We introduce a novel Region-based contrastive pretraining for Medical Image Retrieval (RegionMIR) that demonstrates the feasibility of medical image retrieval with similar anatomical regions. RegionMIR addresses two major challenges for medical image retrieval i) standardization of clinically relevant searching criteria (e.g., anatomical, pathology-based), and ii) localization of anatomical area of interests that are semantically meaningful. In this work, we propose an ROI image retrieval image network that retrieves images with similar anatomy by extracting anatomical features (via bounding boxes) and evaluate similarity between pairwise anatomy-categorized features between the query and the database of images using contrastive learning. ROI queries are encoded using a contrastive-pretrained encoder that was fine-tuned for anatomy classification, which generates an anatomical-specific latent space for region-correlated image retrieval. During retrieval, we compare the anatomically encoded query to find similar features within a feature database generated from training samples, and retrieve images with similar regions from training samples. We evaluate our approach on both anatomy classification and image retrieval tasks using the Chest ImaGenome Dataset. Our proposed strategy yields an improvement over state-of-the-art pretraining and co-training strategies, from 92.24 to 94.12 (2.03%) classification accuracy in anatomies. We qualitatively evaluate the image retrieval performance demonstrating generalizability across multiple anatomies with different morphology.
翻訳日:2023-05-10 12:01:12 公開日:2023-05-09
# 対称性と状態抽象化の観点からの政策勾配法

Policy Gradient Methods in the Presence of Symmetries and State Abstractions ( http://arxiv.org/abs/2305.05666v1 )

ライセンス: Link先を確認
Prakash Panangaden, Sahand Rezaei-Shoshtari, Rosie Zhao, David Meger, Doina Precup(参考訳) 高次元および複雑な問題に対する強化学習は、効率と一般化を改善するための抽象化に依存している。 本稿では,連続制御条件の抽象化について検討し,MDP準同型の定義を連続状態と作用空間の設定にまで拡張する。 確率的および決定論的政策の抽象的mdp上のポリシー勾配定理を導出する。 政策勾配の結果は,政策最適化のために環境の近似対称性を活用できる。 これらの定理に基づいて,laxの双シミュレーションメトリックを用いて,ポリシーとmdp準同型写像を同時に学習できるアクタ-クリティックアルゴリズムのファミリを提案する。 最後に、連続した対称性を持つ一連の環境を紹介し、そのような対称性の存在下での動作抽象化のためのアルゴリズムの能力をさらに実証する。 我々は,DeepMind Control Suiteの視覚的制御タスクだけでなく,我々の環境における手法の有効性を実証する。 提案手法では,表現学習にMDP準同型を利用できるため,性能が向上し,潜在空間の可視化が学習抽象の構造をはっきりと示している。

Reinforcement learning on high-dimensional and complex problems relies on abstraction for improved efficiency and generalization. In this paper, we study abstraction in the continuous-control setting, and extend the definition of MDP homomorphisms to the setting of continuous state and action spaces. We derive a policy gradient theorem on the abstract MDP for both stochastic and deterministic policies. Our policy gradient results allow for leveraging approximate symmetries of the environment for policy optimization. Based on these theorems, we propose a family of actor-critic algorithms that are able to learn the policy and the MDP homomorphism map simultaneously, using the lax bisimulation metric. Finally, we introduce a series of environments with continuous symmetries to further demonstrate the ability of our algorithm for action abstraction in the presence of such symmetries. We demonstrate the effectiveness of our method on our environments, as well as on challenging visual control tasks from the DeepMind Control Suite. Our method's ability to utilize MDP homomorphisms for representation learning leads to improved performance, and the visualizations of the latent space clearly demonstrate the structure of the learned abstraction.
翻訳日:2023-05-10 11:54:12 公開日:2023-05-09
# imagebind: すべてにバインドするための埋め込み空間

ImageBind: One Embedding Space To Bind Them All ( http://arxiv.org/abs/2305.05665v1 )

ライセンス: Link先を確認
Rohit Girdhar, Alaaeldin El-Nouby, Zhuang Liu, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra(参考訳) 本研究では,画像,テキスト,音声,奥行き,熱,およびimuの6種類のデータにまたがるジョイント埋め込みを学ぶためのアプローチであるimagebindを提案する。 このような組込みを訓練するにはペアデータの組み合わせは不要であり,画像ペアデータのみを結合するには十分であることを示す。 ImageBindは、最近の大規模ヴィジュアル言語モデルを活用することができ、画像と自然にペアリングすることで、ゼロショット能力を新しいモダリティに拡張することができる。 クロスモーダル検索、演算によるモダリティの構成、クロスモーダル検出、生成を含む新しい創発的アプリケーションを可能にする。 画像エンコーダの強度により創発的能力は向上し、我々は新たな最先端のゼロショット認識タスクをモダリティ全体にわたって設定し、スペシャリスト教師付きモデルより優れる。 最後に,視覚的タスクと非視覚的タスクの視覚モデルを評価する新しい方法として,ImageBindが有効であることを示す。

We present ImageBind, an approach to learn a joint embedding across six different modalities - images, text, audio, depth, thermal, and IMU data. We show that all combinations of paired data are not necessary to train such a joint embedding, and only image-paired data is sufficient to bind the modalities together. ImageBind can leverage recent large scale vision-language models, and extends their zero-shot capabilities to new modalities just by using their natural pairing with images. It enables novel emergent applications 'out-of-the-box' including cross-modal retrieval, composing modalities with arithmetic, cross-modal detection and generation. The emergent capabilities improve with the strength of the image encoder and we set a new state-of-the-art on emergent zero-shot recognition tasks across modalities, outperforming specialist supervised models. Finally, we show strong few-shot recognition results outperforming prior work, and that ImageBind serves as a new way to evaluate vision models for visual and non-visual tasks.
翻訳日:2023-05-10 11:53:53 公開日:2023-05-09
# InternChat: 言語以外のチャットボットとのインタラクションによる視覚中心タスクの解決

InternChat: Solving Vision-Centric Tasks by Interacting with Chatbots Beyond Language ( http://arxiv.org/abs/2305.05662v1 )

ライセンス: Link先を確認
Zhaoyang Liu, Yinan He, Wenhai Wang, Weiyun Wang, Yi Wang, Shoufa Chen, Qinglong Zhang, Yang Yang, Qingyun Li, Jiashuo Yu, Kunchang Li, Zhe Chen, Xue Yang, Xizhou Zhu, Yali Wang, Limin Wang, Ping Luo, Jifeng Dai, Yu Qiao(参考訳) InternChat または iChat という,インタラクティブなビジュアルフレームワークを提案する。 このフレームワークは、chatgptのような計画や推論機能を備えたチャットボットと、画面上の画像やビデオを直接操作できるポインティングのような非言語命令を統合する。 ポインティング(ジェスチャー、カーソルなどを含む)の動きは、細かい制御、編集、視覚コンテンツの生成を必要とする視覚中心のタスクの実行において、より柔軟性と精度を提供する。 InternChatという名前は、対話、非言語、チャットボットを意味する。 純粋言語に依存している既存の対話システムとは違って,提案したiChatでは,ユーザとチャットボット間の通信効率が向上し,特にオブジェクト数が2より多い複雑な視覚シナリオにおいて,チャットボットの精度が向上する。 さらに、iChatでは、LLMの制御能力を向上するために補助制御機構が使用され、Huskyと呼ばれる大きな視覚言語モデルが高品質な多モード対話のために微調整されている(ChatGPT-3.5-turboを93.89%のGPT-4品質で圧縮する)。 この研究が将来のインタラクティブなビジュアルシステムに新たなアイデアと方向性をもたらすことを願っている。 コードをhttps://github.com/opengvlab/internchatでご覧ください。

We present an interactive visual framework named InternChat, or iChat for short. The framework integrates chatbots that have planning and reasoning capabilities, such as ChatGPT, with non-verbal instructions like pointing movements that enable users to directly manipulate images or videos on the screen. Pointing (including gestures, cursors, etc.) movements can provide more flexibility and precision in performing vision-centric tasks that require fine-grained control, editing, and generation of visual content. The name InternChat stands for interaction, nonverbal, and chatbots. Different from existing interactive systems that rely on pure language, by incorporating pointing instructions, the proposed iChat significantly improves the efficiency of communication between users and chatbots, as well as the accuracy of chatbots in vision-centric tasks, especially in complicated visual scenarios where the number of objects is greater than 2. Additionally, in iChat, an auxiliary control mechanism is used to improve the control capability of LLM, and a large vision-language model termed Husky is fine-tuned for high-quality multi-modal dialogue (impressing ChatGPT-3.5-turbo with 93.89% GPT-4 Quality). We hope this work can spark new ideas and directions for future interactive visual systems. Welcome to watch the code at https://github.com/OpenGVLab/InternChat.
翻訳日:2023-05-10 11:53:32 公開日:2023-05-09
# ShapeCoder: 構造化されていないプリミティブから視覚プログラムの抽象化を発見する

ShapeCoder: Discovering Abstractions for Visual Programs from Unstructured Primitives ( http://arxiv.org/abs/2305.05661v1 )

ライセンス: Link先を確認
R. Kenny Jones and Paul Guerrero and Niloy J. Mitra and Daniel Ritchie(参考訳) プログラムは、操作をサポートするコンパクトで解釈可能な構造を公開し、視覚データに対する人気が高まっている。 ビジュアルプログラムは通常ドメイン固有言語(DSL)で記述される。 有意義な自由度しか公開しない"良い"プログラムを見つけるには、ドメインの専門家によって一般的に作成される"良い"関数のライブラリを持つDSLにアクセスする必要がある。 形状のデータセットを抽出し、非構造化プリミティブで表現し、共同で発見できる最初のシステムであるShapeCoderを提案する。 (i)有用な抽象機能、及び (ii)これらの抽象化を用いて入力形状を説明するプログラム。 発見された抽象化はデータセット全体にわたる共通パターン(構造とパラメトリックの両方)をキャプチャするので、これらの抽象化で書き直されたプログラムはよりコンパクトで、自由度が低い。 shapecoderは、より厳密な入力仮定の下で、より複雑な入力のために、以前の抽象化発見メソッドを改善し、より良い抽象化を見つける。 これは主に2つの方法論的進歩によって可能である。 (a)サブ問題を解くことを学ぶプログラム認識ネットワークの形状 b) 複雑なパラメトリック表現を用いた抽象化がいつ適用できるかを, 抽出可能な方法で決定するために, 条件付き書き直し方式で拡張した電子グラフを使用すること。 プリミティブな分解を手動のアノテーションから解析するか、教師なしの立方体抽象法で生成するかで、複数の3次元形状のデータセット上でShapeCoderを評価する。 すべてのドメインにおいて、ShapeCoderは、ハイレベルな関係をキャプチャし、余分な自由度を排除し、代替アプローチよりも優れたデータセット圧縮を実現する抽象化ライブラリを見つける。 最後に,検出された抽象化を用いたプログラムの書き直しが下流タスクに有用であることを示す。

Programs are an increasingly popular representation for visual data, exposing compact, interpretable structure that supports manipulation. Visual programs are usually written in domain-specific languages (DSLs). Finding "good" programs, that only expose meaningful degrees of freedom, requires access to a DSL with a "good" library of functions, both of which are typically authored by domain experts. We present ShapeCoder, the first system capable of taking a dataset of shapes, represented with unstructured primitives, and jointly discovering (i) useful abstraction functions and (ii) programs that use these abstractions to explain the input shapes. The discovered abstractions capture common patterns (both structural and parametric) across the dataset, so that programs rewritten with these abstractions are more compact, and expose fewer degrees of freedom. ShapeCoder improves upon previous abstraction discovery methods, finding better abstractions, for more complex inputs, under less stringent input assumptions. This is principally made possible by two methodological advancements: (a) a shape to program recognition network that learns to solve sub-problems and (b) the use of e-graphs, augmented with a conditional rewrite scheme, to determine when abstractions with complex parametric expressions can be applied, in a tractable manner. We evaluate ShapeCoder on multiple datasets of 3D shapes, where primitive decompositions are either parsed from manual annotations or produced by an unsupervised cuboid abstraction method. In all domains, ShapeCoder discovers a library of abstractions that capture high-level relationships, remove extraneous degrees of freedom, and achieve better dataset compression compared with alternative approaches. Finally, we investigate how programs rewritten to use discovered abstractions prove useful for downstream tasks.
翻訳日:2023-05-10 11:53:07 公開日:2023-05-09
# tidybot:大型言語モデルによるパーソナライズされたロボット支援

TidyBot: Personalized Robot Assistance with Large Language Models ( http://arxiv.org/abs/2305.05658v1 )

ライセンス: Link先を確認
Jimmy Wu, Rika Antonova, Adam Kan, Marion Lepert, Andy Zeng, Shuran Song, Jeannette Bohg, Szymon Rusinkiewicz, Thomas Funkhouser(参考訳) ロボットが身体支援を効果的にパーソナライズするには、将来のシナリオに一般的に適用可能なユーザの好みを学習する必要がある。 本研究では,物体を拾って片付けることで部屋を掃除できるロボットによる家庭用クリーンアップのパーソナライズについて検討する。 重要な課題は、個人の好みや文化的背景によって人の好みが大きく変わるため、各対象を配置する適切な場所を決定することである。 例えば、ある人はシャツを引き出しに保管することを好むが、別の人は棚にシャツを保管することを好む。 我々は、特定の人との事前のインタラクションを通じて、少数の例からそのような好みを学習できるシステムを構築することを目指している。 ロボットは、言語に基づく計画と知覚を、大規模言語モデル(LLM)の数発の要約能力と組み合わせて、将来の対話に広く適用可能な一般化されたユーザの嗜好を推論できることを示す。 このアプローチは高速適応が可能で、ベンチマークデータセットで未認識のオブジェクトに対して91.2%の精度を実現します。 また、実世界のテストシナリオで85.0%のオブジェクトを取り除いたtidybotという実世界の移動マニピュレータへのアプローチを実証した。

For a robot to personalize physical assistance effectively, it must learn user preferences that can be generally reapplied to future scenarios. In this work, we investigate personalization of household cleanup with robots that can tidy up rooms by picking up objects and putting them away. A key challenge is determining the proper place to put each object, as people's preferences can vary greatly depending on personal taste or cultural background. For instance, one person may prefer storing shirts in the drawer, while another may prefer them on the shelf. We aim to build systems that can learn such preferences from just a handful of examples via prior interactions with a particular person. We show that robots can combine language-based planning and perception with the few-shot summarization capabilities of large language models (LLMs) to infer generalized user preferences that are broadly applicable to future interactions. This approach enables fast adaptation and achieves 91.2% accuracy on unseen objects in our benchmark dataset. We also demonstrate our approach on a real-world mobile manipulator called TidyBot, which successfully puts away 85.0% of objects in real-world test scenarios.
翻訳日:2023-05-10 11:52:38 公開日:2023-05-09
# 量子力学におけるエネルギー密度

Energy densities in quantum mechanics ( http://arxiv.org/abs/2305.05657v1 )

ライセンス: Link先を確認
V. Stepanyan and A.E. Allahverdyan(参考訳) 量子力学は、エネルギーと座標が可換ではないため、空間におけるエネルギー密度を定義するための準備が整っていない。 よく動機づけられたエネルギー密度を求めるには、スピン-$\frac{1}{2}$ particle: dirac's equation の基本的な相対論的記述から始める。 エネルギー-運動量テンソルを使い、非相対論的極限に進むと、局所的に保存された非相対論的エネルギー密度がテレツキー・マルゲナウ・ヒル準確率(英語版)(terletsky-Margenau-Hill quasiprobability)によって定義される。 これはエネルギーの弱い値と一致し、量子ポテンシャルを含む量子力学のマドルング表現における流体エネルギーと一致する。 さらに、非相対論的極限において有限であり、残りのエネルギーから出現し、(別々に)局所的に保存されている新しいスピン関連エネルギーが、地球規模のエネルギー予算に寄与しない。 この形のエネルギーはホログラフィック的特徴、すなわち、与えられた体積に対するその値は、この体積の表面を通して表される。 例えば、自由ガウス波群(およびエアリー波群)のエネルギー移動速度は、その群(すなわち座標移動)速度よりも大きいことが示される。

Quantum mechanics does not provide any ready recipe for defining energy density in space, since the energy and coordinate do not commute. To find a well-motivated energy density, we start from a possibly fundamental, relativistic description for a spin-$\frac{1}{2}$ particle: Dirac's equation. Employing its energy-momentum tensor and going to the non-relativistic limit we find a locally conserved non-relativistic energy density that is defined via the Terletsky-Margenau-Hill quasiprobability (which is hence selected among other options). It coincides with the weak value of energy, and also with the hydrodynamic energy in the Madelung representation of quantum dynamics, which includes the quantum potential. Moreover, we find a new form of spin-related energy that is finite in the non-relativistic limit, emerges from the rest energy, and is (separately) locally conserved, though it does not contribute to the global energy budget. This form of energy has a holographic character, i.e., its value for a given volume is expressed via the surface of this volume. Our results apply to situations where local energy representation is essential; e.g. we show that the energy transfer velocity of a free Gaussian wave-packet (and also Airy wave-packet) is larger than its group (i.e. coordinate-transfer) velocity.
翻訳日:2023-05-10 11:52:19 公開日:2023-05-09
# AIは偉大なフィルターか? astrobiologyが人工知能コミュニティに人為的リスクについて教えること

Could AI be the Great Filter? What Astrobiology can Teach the Intelligence Community about Anthropogenic Risks ( http://arxiv.org/abs/2305.05653v1 )

ライセンス: Link先を確認
Mark M. Bailey(参考訳) みんなはどこ? フェルミパラドックス(fermi paradox)とは、地球外生命が宇宙で起こりうるならば、なぜ我々がそれと遭遇しなかったのかという疑わしい考えである。 この説は何十年にもわたって学者を困惑させ、多くの仮説が自然主義的・社会学的な説明を提唱している。 1つの興味深い仮説は「グレートフィルター」と呼ばれ、これは知的生命の出現に必要な出来事が極めてありそうにないことを示唆している。 この仮説の論理的に等価なバージョンと、我々に一時停止を与えるバージョンは、宇宙全体の生命の膨張を妨げる何らかの破滅的な出来事が起こる可能性が高いことを示唆している。 これは自然に起こる出来事かもしれないし、より不愉快なことに、知的な生物が自らを絶滅に導くために行うことかもしれない。 インテリジェンスの観点から見ると、グレートフィルターの文脈内で地球規模の破滅的なリスク(特に人為的起源のリスク)を浮き彫りにすることで、人工知能のような私たちが完全に理解していない技術の長期的な未来についての洞察を得ることができる。 世界的な破滅的なリスクに関する情報専門家にとって、これはこれらのリスクの優先順位付けに重要な意味を持つ。

Where is everybody? This phrase distills the foreboding of what has come to be known as the Fermi Paradox - the disquieting idea that, if extraterrestrial life is probable in the Universe, then why have we not encountered it? This conundrum has puzzled scholars for decades, and many hypotheses have been proposed suggesting both naturalistic and sociological explanations. One intriguing hypothesis is known as the Great Filter, which suggests that some event required for the emergence of intelligent life is extremely unlikely, hence the cosmic silence. A logically equivalent version of this hypothesis - and one that should give us pause - suggests that some catastrophic event is likely to occur that prevents life's expansion throughout the cosmos. This could be a naturally occurring event, or more disconcertingly, something that intelligent beings do to themselves that leads to their own extinction. From an intelligence perspective, framing global catastrophic risk (particularly risks of anthropogenic origin) within the context of the Great Filter can provide insight into the long-term futures of technologies that we don't fully understand, like artificial intelligence. For the intelligence professional concerned with global catastrophic risk, this has significant implications for how these risks ought to be prioritized.
翻訳日:2023-05-10 11:51:53 公開日:2023-05-09
# SwinIA:ゼロコンボリューションで自己監督された盲点画像

SwinIA: Self-Supervised Blind-Spot Image Denoising with Zero Convolutions ( http://arxiv.org/abs/2305.05651v1 )

ライセンス: Link先を確認
Mikhail Papkov and Pavel Chizhov(参考訳) 自己監視画像の本質は、ノイズ画像のみから信号を復元することである。 このタスクの最先端のソリューションは、ピクセルを隠蔽し、完全な畳み込みニューラルネットワークをトレーニングするというアイデアに依存している。 これはしばしば、複数の前方通過、ノイズモデルに関する情報、複雑な正規化関数を必要とする。 本稿では,自己教師付き復号化のための最初の畳み込みフリーアーキテクチャであるswin transformer-based image autoencoder (swinia)を提案する。 マスクなしで単純な平均2乗誤差損失でエンドツーエンドにトレーニングすることができ、クリーンデータやノイズ分布に関する事前知識を必要としない。 その単純さにもかかわらず、swiiniaはいくつかのベンチマークで最新技術を確立している。

The essence of self-supervised image denoising is to restore the signal from the noisy image alone. State-of-the-art solutions for this task rely on the idea of masking pixels and training a fully-convolutional neural network to impute them. This most often requires multiple forward passes, information about the noise model, and intricate regularization functions. In this paper, we propose a Swin Transformer-based Image Autoencoder (SwinIA), the first convolution-free architecture for self-supervised denoising. It can be trained end-to-end with a simple mean squared error loss without masking and does not require any prior knowledge about clean data or noise distribution. Despite its simplicity, SwinIA establishes state-of-the-art on several common benchmarks.
翻訳日:2023-05-10 11:51:30 公開日:2023-05-09
# photoplethysmography と deep learning を用いた心血管疾患リスクの予測

Predicting Cardiovascular Disease Risk using Photoplethysmography and Deep Learning ( http://arxiv.org/abs/2305.05648v1 )

ライセンス: Link先を確認
Wei-Hung Weng, Sebastien Baur, Mayank Daswani, Christina Chen, Lauren Harrell, Sujay Kakarmath, Mariam Jabara, Babak Behsaz, Cory Y. McLean, Yossi Matias, Greg S. Corrado, Shravya Shetty, Shruthi Prabhakara, Yun Liu, Goodarz Danaei, Diego Ardila(参考訳) 心血管疾患(CVD)は、低所得国や中所得国で早期死亡の頻度が大きい。 初期のCVD検出と介入はこれらの個体群では重要であるが、既存のCVDリスクスコアの多くは身体検査や実験室の測定を必要とするため、アクセス性に制限があるため、このような健康システムでは困難である。 本稿では,大規模スクリーニングを低コストで実現可能なセンサ技術である光胸腺撮影(PPG)を,CVDリスク予測に活用する可能性について検討した。 年齢,性別,喫煙状況,PSGのみを指標として,深層学習型PTGベースのCVDリスクスコア(DLS)を10年以内に,大血管障害(MACE: non-fatal myfarction, stroke, and cardiovascular death)の発生確率を予測する目的で開発した。 DLSをWHOとGloboriskスコア(年齢、性別、喫煙状況、身長、体重、収縮性血圧)の共有予測値を採用したオフィスベースのWHOスコアと比較したが、英国バイオバンク(UKB)コホートで再適合した。 ukbコホートでは、dlsのc-statistic (71.1%, 95% ci 69.9-72.4) はオフィスベースのrefit-whoスコア (70.9%, 95% ci 69.7-72.2, non-inferiority margin: 2.5%, p<0.01) に対する非干渉である。 DLSのキャリブレーションは良好で、1.8%の平均的なキャリブレーション誤差がある。 オフィスベースのスコアにDLS機能を追加すると、C統計は1.0%(95% CI 0.6-1.4)増加した。 DLSは10年間のMACEリスクを、オフィスベースのWHOのスコアと同等に予測している。 これは概念実証を提供し、資源制限地域におけるコミュニティベースのプライマリ防止のためのppgベースのアプローチ戦略の可能性を示唆している。

Cardiovascular diseases (CVDs) are responsible for a large proportion of premature deaths in low- and middle-income countries. Early CVD detection and intervention is critical in these populations, yet many existing CVD risk scores require a physical examination or lab measurements, which can be challenging in such health systems due to limited accessibility. Here we investigated the potential to use photoplethysmography (PPG), a sensing technology available on most smartphones that can potentially enable large-scale screening at low cost, for CVD risk prediction. We developed a deep learning PPG-based CVD risk score (DLS) to predict the probability of having major adverse cardiovascular events (MACE: non-fatal myocardial infarction, stroke, and cardiovascular death) within ten years, given only age, sex, smoking status and PPG as predictors. We compared the DLS with the office-based refit-WHO score, which adopts the shared predictors from WHO and Globorisk scores (age, sex, smoking status, height, weight and systolic blood pressure) but refitted on the UK Biobank (UKB) cohort. In UKB cohort, DLS's C-statistic (71.1%, 95% CI 69.9-72.4) was non-inferior to office-based refit-WHO score (70.9%, 95% CI 69.7-72.2; non-inferiority margin of 2.5%, p<0.01). The calibration of the DLS was satisfactory, with a 1.8% mean absolute calibration error. Adding DLS features to the office-based score increased the C-statistic by 1.0% (95% CI 0.6-1.4). DLS predicts ten-year MACE risk comparable with the office-based refit-WHO score. It provides a proof-of-concept and suggests the potential of a PPG-based approach strategies for community-based primary prevention in resource-limited regions.
翻訳日:2023-05-10 11:51:16 公開日:2023-05-09
# 相対論的局所性はサブシステム局所性を意味する

Relativistic locality can imply subsystem locality ( http://arxiv.org/abs/2305.05645v1 )

ライセンス: Link先を確認
Andrea Di Biagio, Richard Howl, Caslav Brukner, Carlo Rovelli, Marios Christodoulou(参考訳) 局所性は現代物理学において中心的な概念であるが、異なる分野は異なる方法でそれを理解する。 量子場理論は相対論的局所性(英語版)(relativistic locality)、量子情報理論(quantum information theory)はサブシステム局所性(subsystem locality)に焦点をあてる。 本稿では,ミクロ因果関係とサブシステムの局所性について検討する。 この問題は、量子情報言語で量子場理論を定式化できるかどうかを理解するのに重要であり、量子重力の低エネルギーテストに関する最近の議論にも関係している。 大規模スカラー量子場の量子力学を2つの局所化系に結合させると、マイクロコーザリティは物理的に関連する近似におけるサブシステム局所性を意味する。

Locality is a central notion in modern physics, but different disciplines understand it in different ways. Quantum field theory focusses on relativistic locality, enforced by microcausality, while quantum information theory focuses on subsystem locality, which regulates how information and causal influences propagate in a system, with no direct reference to spacetime notions. Here we investigate how microcausality and subsystem locality are related. The question is relevant for understanding whether it is possible to formulate quantum field theory in quantum information language, and has bearing on the recent discussions on low-energy tests of quantum gravity. We present a first result in this direction: in the quantum dynamics of a massive scalar quantum field coupled to two localised systems, microcausality implies subsystem locality in a physically relevant approximation.
翻訳日:2023-05-10 11:50:38 公開日:2023-05-09