このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230609となっている論文です。

PDF登録状況(公開日: 20230609)

TitleAuthorsAbstract論文公表日・翻訳日
# エンドツーエンドマイクロサービステストのベンチマーク

Benchmarks for End-to-End Microservices Testing ( http://arxiv.org/abs/2306.05895v1 )

ライセンス: Link先を確認
Sheldon Smith, Ethan Robinson, Timmy Frederiksen, Trae Stevens, Tomas Cerny, Miroslav Bures, Davide Taibi(参考訳) マイクロサービスシステムをテストするには、大量の計画と問題解決が必要です。 マイクロサービスシステムをテストすることの難しさは、そのようなシステムのサイズと構造がより複雑になるにつれて増大する。 マイクロサービスコミュニティを支援し、テストとトラフィックシミュレーションの実験を簡略化するために、確立された2つのオープンソースのマイクロサービスシステムの完全な機能テストカバレッジを含むテストベンチマークを作成しました。 ベンチマーク設計を通じて、特定の課題を克服し、マイクロサービスのテストで効果的な戦略を見つける方法を示すことを目指しています。 さらに、我々のベンチマーク使用を実証するために、サービス依存グラフ探索とトレースを用いたビジネスプロセス発見を用いて、テストの全カバレッジを検証するためのベストアプローチを特定するケーススタディを実施しました。

Testing microservice systems involves a large amount of planning and problem-solving. The difficulty of testing microservice systems increases as the size and structure of such systems become more complex. To help the microservice community and simplify experiments with testing and traffic simulation, we created a test benchmark containing full functional testing coverage for two well-established open-source microservice systems. Through our benchmark design, we aimed to demonstrate ways to overcome certain challenges and find effective strategies when testing microservices. In addition, to demonstrate our benchmark use, we conducted a case study to identify the best approaches to take to validate a full coverage of tests using service-dependency graph discovery and business process discovery using tracing.
翻訳日:2023-10-24 04:05:41 公開日:2023-06-09
# 自動プログラム修復における突然変異演算子選択のための強化学習

Reinforcement Learning for Mutation Operator Selection in Automated Program Repair ( http://arxiv.org/abs/2306.05792v1 )

ライセンス: Link先を確認
Carol Hanna and Aymeric Blot and Justyna Petke(参考訳) 自動プログラム修復技術は、ソフトウェア開発者がバグを修正するための困難なタスクを支援することを目的としている。 ヒューリスティックなプログラム修復において、バグの潜在的なパッチを見つけるためにソースコードに突然変異操作を適用することで、プログラム変種探索空間を作成する。 最も一般的には、探索中の突然変異演算子の全ての選択はランダムに行われる。 検索におけるこの重要なステップの非効率性は、意図した機能をコンパイルしたり壊したりせず、結果としてかなりのリソースを浪費する多くの変種を生み出します。 本稿では,ヒューリスティックなプログラム修復における突然変異演算子の選択を最適化するための強化学習に基づくアプローチを提案する。 私たちのソリューションは、プログラミング言語、粒度レベル、検索戦略非依存で、既存のヒューリスティックベースの修理ツールを簡単に拡張できます。 4つの操作者選択手法,2つの報酬型,2つのクレジット割り当て戦略,2つの統合手法,および22,300個の独立修復の試みを用いて3種類の突然変異操作者について広範な実験を行った。 defects4jベンチマークから353実世界のバグに対するアプローチを評価した。 その結果、平均クレジット割り当てを持つepsilon-greedy multi-armed banditアルゴリズムが突然変異演算子選択に最適であることが判明した。 このアプローチはベースライン上で17.3%の改善を示し、9つの追加バグに対するパッチを生成し、合計61のパッチ付きバグをresults4jベンチマークで修正した。

Automated program repair techniques aim to aid software developers with the challenging task of fixing bugs. In heuristic-based program repair, a search space of program variants is created by applying mutation operations on the source code to find potential patches for bugs. Most commonly, every selection of a mutation operator during search is performed uniformly at random. The inefficiency of this critical step in the search creates many variants that do not compile or break intended functionality, wasting considerable resources as a result. In this paper, we address this issue and propose a reinforcement learning-based approach to optimise the selection of mutation operators in heuristic-based program repair. Our solution is programming language, granularity-level, and search strategy agnostic and allows for easy augmentation into existing heuristic-based repair tools. We conduct extensive experimentation on four operator selection techniques, two reward types, two credit assignment strategies, two integration methods, and three sets of mutation operators using 22,300 independent repair attempts. We evaluate our approach on 353 real-world bugs from the Defects4J benchmark. Results show that the epsilon-greedy multi-armed bandit algorithm with average credit assignment is best for mutation operator selection. Our approach exhibits a 17.3% improvement upon the baseline, by generating patches for 9 additional bugs for a total of 61 patched bugs in the Defects4J benchmark.
翻訳日:2023-10-24 04:05:21 公開日:2023-06-09
# ソフトウェア工学における境界アーティファクト作成のための予備ガイドライン

Preliminary Guideline for Creating Boundary Artefacts in Software Engineering ( http://arxiv.org/abs/2306.05755v1 )

ライセンス: Link先を確認
Raquel Ouriques, Fabian Fagerholm, Daniel Mendez, Tony Gorschek, Baldvin Gislason Bern(参考訳) コンテキスト: 単一のアーティファクトとしてバウンダリアーティファクト(bas)を持つことによるソフトウェア開発のメリットは、異なるバウンダリを持つ利害関係者に提供し、社会世界間のコラボレーションを促進する。 これらのアーティファクトが誤った情報などの不整合を示すと、実践者はBAに対する信頼が低下する。 信頼は、ソフトウェアプロジェクトにおけるBAの利用を導く重要な要素であるため、それらを作成する際にどの原則が守られるべきかを理解する必要がある。 目的: 本研究は, 信頼性の高いBAの作成を支援する予備的ガイドラインの開発と検証を目的とした。 方法: 多段階アプローチを採った。 文献レビューとケーススタディの以前の結果をもとに,本ガイドラインを開発した。 第2に,2つのワークショップと調査を通じて,専門家評価のためのガイドラインを提出した。 最後に,ワークショップで得られたフィードバックを取り入れてガイドラインを調整した。 結果: 文献レビューから収集した原則を3つのカテゴリに分類した。 第1のカテゴリ(Scope)はスコープに焦点を当て、各境界のターゲットのオーディエンス、ニーズ、用語を定義する原則を示す。 第2のカテゴリ(構造)は、ステークホルダーのニーズを満たすためにアーティファクトの内容がどのように構成されているかに関連する。 第3の原則(管理)は、期間を通じてアーティファクトを管理するためのプラクティスの確立を導くための原則である。 専門家の検証では、原則がさまざまなレベルで信頼できるBAの作成に寄与していることが明らかになった。 また、ガイドラインの妥当性と有用性も示している。 結論: ガイドラインは、共通理解、可塑性、転送能力などのba特性を強化する。 実践者はガイドラインを利用して作成をガイドしたり、既存のBAの現在のプラクティスを評価することもできる。

Context: Software development benefits from having Boundary Artefacts (BAs), as a single artefact can supply stakeholders with different boundaries, facilitating collaboration among social worlds. When those artefacts display inconsistencies, such as incorrect information, the practitioners have decreased trust in the BA. As trust is an essential factor guiding the utilisation of BAs in software projects, it is necessary to understand which principles should be observed when creating them. Objective: This study aimed at develop and validate a preliminary guideline support the creation of trustworthy BAs. Method: We followed a multi-step approach. We developed our guideline through a literature review and previous results from our case study. Second, we submitted the guideline for an expert evaluation via two workshops and a survey. At last, we adjusted our guideline by incorporating the feedback obtained during the workshops. Results: We grouped the principles collected from a literature review into three categories. The first category (Scope) focuses on the scope, displaying principles referring to defining each boundary's target audience, needs, and terminology. The second category (Structure) relates to how the artefact's content is structured to meet stakeholders' needs. The third (Management) refers to principles that can guide the establishment of practices to manage the artefact throughout time. The expert validation revealed that the principles contribute to creating trustworthy BAs at different levels. Also, the relevance of the guideline and its usefulness. Conclusions: The guideline strengthen BA traits such as shared understanding, plasticity and ability to transfer. Practitioners can utilise the guideline to guide the creation or even evaluate current practices for existing BAs.
翻訳日:2023-10-24 04:04:36 公開日:2023-06-09
# アジャイルソフトウェア開発における知識の点をつなぐ

Connecting the Dots of Knowledge in Agile Software Development ( http://arxiv.org/abs/2306.05742v1 )

ライセンス: Link先を確認
Raquel Ouriques, Tony Gorschek, Daniel Mendez, Fabian Fagerholm(参考訳) 本稿では、経済的価値を生み出す大きな可能性から、知識を資源として管理することの重要性について論じる。 我々は,知識資源の種類,管理に関わる課題,有用性を最大化する潜在的なソリューションについて詳述する。 私たちの貢献は、業界状況における実証的研究に基づいている。

This article discusses the importance of managing knowledge as a resource due to its great potential to create economic value. We detail the types of knowledge resources, the challenges associated with their management, and potential solutions to maximise their utility. Our contribution is based on empirical studies performed in an industry context.
翻訳日:2023-10-24 04:04:02 公開日:2023-06-09
# ソフトウェアライブラリの保守活動の分析

Analyzing Maintenance Activities of Software Libraries ( http://arxiv.org/abs/2306.06030v1 )

ライセンス: Link先を確認
Alexandros Tsakpinis(参考訳) 近年、産業アプリケーションはオープンソースソフトウェアライブラリを深く統合している。 ライブラリがもたらすメリット以外にも、ライブラリが脆弱性の影響を受けながらも、そのコミュニティが修正リリースの作成に積極的でない場合には、本当の脅威を課すこともできる。 ですから,産業アプリケーションを対象とした自動監視手法を導入して,現状や今後の保守活動に否定的な兆しを示すオープンソース依存関係を識別したいと思っています。 この分野でのほとんどの研究は、機能、ラベル、推移的リンクが欠如しているため、業界では適用できないため、私のアプローチは、その保守活動における直接的および推移的依存関係の影響を捉えて、このギャップを埋めることを目的としています。 依存関係のメンテナンスアクティビティを自動で監視することで、アプリケーションのメンテナの手作業が削減され、メンテナンスの良好な依存関係を継続的に保持することで、アプリケーションのセキュリティをサポートする。

Industrial applications heavily integrate open-source software libraries nowadays. Beyond the benefits that libraries bring, they can also impose a real threat in case a library is affected by a vulnerability but its community is not active in creating a fixing release. Therefore, I want to introduce an automatic monitoring approach for industrial applications to identify open-source dependencies that show negative signs regarding their current or future maintenance activities. Since most research in this field is limited due to lack of features, labels, and transitive links, and thus is not applicable in industry, my approach aims to close this gap by capturing the impact of direct and transitive dependencies in terms of their maintenance activities. Automatically monitoring the maintenance activities of dependencies reduces the manual effort of application maintainers and supports application security by continuously having well-maintained dependencies.
翻訳日:2023-10-24 03:54:26 公開日:2023-06-09
# リファクタリングの状況:開発者のリファクタリングに対する理解を深める

State of Refactoring Adoption: Better Understanding Developer Perception of Refactoring ( http://arxiv.org/abs/2306.06019v1 )

ライセンス: Link先を確認
Eman Abdullah AlOmar(参考訳) ソフトウェアライフサイクル中に開発者がリファクタリングアクティビティを文書化する方法について検討することを目的としています。 このようなアクティビティを自己確認リファクタリング(Self-Affirmed Refactoring, SAR)と呼びます。 SARは、実行されたコード変更のモチベーション、手順、結果など、リファクタリングのさまざまな側面を理解する上で不可欠です。 その後、コミットが開発者関連リファクタリングイベントを記述して、リファクタリング共通品質改善カテゴリに従って分類するかどうかを識別するアプローチを提案する。 この目標を補完するために、私たちは、レビュアーが提出されたリファクタリング要求の受け入れまたは拒否を決定する方法と、そのようなレビューが難しい理由に関する洞察を明らかにすることを目的としています。 それらは様々な経験的調査の確かな背景として機能する。 コードレビュアーによる調査では,リファクタリング意図の理解と,ソフトウェアの機能的および非機能的側面に関するいくつかの問題点が明らかになった。 産業ケーススタディの結果を踏まえて,調査フィードバックの一環として,リファクタリングアクティビティを適切に文書化するための手順を推奨した。

We aim to explore how developers document their refactoring activities during the software life cycle. We call such activity Self-Affirmed Refactoring (SAR), which indicates developers' documentation of their refactoring activities. SAR is crucial in understanding various aspects of refactoring, including the motivation, procedure, and consequences of the performed code change. After that, we propose an approach to identify whether a commit describes developer-related refactoring events to classify them according to the refactoring common quality improvement categories. To complement this goal, we aim to reveal insights into how reviewers decide to accept or reject a submitted refactoring request and what makes such a review challenging.Our SAR taxonomy and model can work with refactoring detectors to report any early inconsistency between refactoring types and their documentation. They can serve as a solid background for various empirical investigations. Our survey with code reviewers has revealed several difficulties related to understanding the refactoring intent and implications on the functional and non-functional aspects of the software. In light of our findings from the industrial case study, we recommended a procedure to properly document refactoring activities, as part of our survey feedback.
翻訳日:2023-10-24 03:54:10 公開日:2023-06-09
# 電子健康記録を用いた因果推論におけるテキストデータ活用

Leveraging text data for causal inference using electronic health records ( http://arxiv.org/abs/2307.03687v1 )

ライセンス: Link先を確認
Reagan Mozer, Aaron R. Kaufman, Leo A. Celi, and Luke Miratrix(参考訳) テキストは医療データのユビキタスな構成要素であり、構造化されたチャートデータからしばしば欠落する患者の特徴やケアに関する貴重な情報を含んでいる。 この豊かさにもかかわらず、その複雑さのために臨床研究ではほとんど使われない。 主治医や看護師の膨大なメモを伴う患者の記録や治療履歴の大規模なデータベースを用いて,概念や設計から分析,解釈まで,あらゆる段階において,電子健康データを用いた因果推論にテキストデータをどのように活用できるかを,最小限の努力で示す。 因果推論にマッチングを用いた研究に注目する。 従来のマッチング分析では,複数のインプテーション手続きを補足するためにテキストを用いることで,不定値の忠実性を改善し,マッチング段階にテキストを組み込むことでマッチング手順の信頼性を高め,テキストの条件づけにより,構造的共変数のカテゴリで見られるものよりも強力なテキストベースの不均質な処理効果を容易に推定できる。 これらの技術を用いて, 臨床データの二次分析の範囲を, 品質の悪い領域や存在しない領域に拡大し, 途上国などテキストが利用可能な領域に拡大したい。

Text is a ubiquitous component of medical data, containing valuable information about patient characteristics and care that are often missing from structured chart data. Despite this richness, it is rarely used in clinical research, owing partly to its complexity. Using a large database of patient records and treatment histories accompanied by extensive notes by attendant physicians and nurses, we show how text data can be used to support causal inference with electronic health data in all stages, from conception and design to analysis and interpretation, with minimal additional effort. We focus on studies using matching for causal inference. We augment a classic matching analysis by incorporating text in three ways: by using text to supplement a multiple imputation procedure, we improve the fidelity of imputed values to handle missing data; by incorporating text in the matching stage, we strengthen the plausibility of the matching procedure; and by conditioning on text, we can estimate easily interpretable text-based heterogeneous treatment effects that may be stronger than those found across categories of structured covariates. Using these techniques, we hope to expand the scope of secondary analysis of clinical data to domains where quantitative data is of poor quality or nonexistent, but where text is available, such as in developing countries.
翻訳日:2023-07-16 04:15:42 公開日:2023-06-09
# 化学特性予測のための簡易メッセージパッシング

Simplicial Message Passing for Chemical Property Prediction ( http://arxiv.org/abs/2307.05392v1 )

ライセンス: Link先を確認
Hai Lan, Xian Wei(参考訳) 近年、メッセージパッシングニューラルネットワーク(mpnn)は、分子グラフを扱う有望なツールを提供し、望ましい特性を持つ発見と材料設計の促進に顕著な成功を収めている。 しかし、古典的なmpnn法は、非同型グラフのような分子構造に隠された強い位相情報を捉えることに制限を受ける。 この問題に対処するため,本研究では,分子のトポロジ的情報をよりよく捉え,バニラメッセージパッシングパラダイムの限界を突破できるSMP(Simplicial Message Passing)フレームワークを提案する。 SMPでは、任意の順序のsimplicialコンプレックスから情報を集約するための一般化されたメッセージパッシングフレームワークを確立し、異なる順序のsimplice間の情報交換を可能にする階層構造を詳述する。 我々は,smpフレームワークをディープラーニングアーキテクチャに適用し,量子化学的特性予測を行い,最新の結果を得る。 その結果, 従来のMPNNと比較して, 高次単純度を含む場合, 分子の複雑な構造をよりよく捉え, タスクの性能を大幅に向上させることができることがわかった。 SMPベースのモデルは、GNNの一般化されたフレームワークを提供し、様々な用途に適した素材の発見と設計を支援することができる。

Recently, message-passing Neural networks (MPNN) provide a promising tool for dealing with molecular graphs and have achieved remarkable success in facilitating the discovery and materials design with desired properties. However, the classical MPNN methods also suffer from a limitation in capturing the strong topological information hidden in molecular structures, such as nonisomorphic graphs. To address this problem, this work proposes a Simplicial Message Passing (SMP) framework to better capture the topological information from molecules, which can break through the limitation within the vanilla message-passing paradigm. In SMP, a generalized message-passing framework is established for aggregating the information from arbitrary-order simplicial complex, and a hierarchical structure is elaborated to allow information exchange between different order simplices. We apply the SMP framework within deep learning architectures for quantum-chemical properties prediction and achieve state-of-the-art results. The results show that compared to traditional MPNN, involving higher-order simplex can better capture the complex structure of molecules and substantially enhance the performance of tasks. The SMP-based model can provide a generalized framework for GNNs and aid in the discovery and design of materials with tailored properties for various applications.
翻訳日:2023-07-16 03:44:58 公開日:2023-06-09
# CrysMMNet:結晶特性予測のためのマルチモーダル表現

CrysMMNet: Multimodal Representation for Crystal Property Prediction ( http://arxiv.org/abs/2307.05390v1 )

ライセンス: Link先を確認
Kishalay Das, Pawan Goyal, Seung-Cheol Lee, Satadeep Bhattacharjee, Niloy Ganguly(参考訳) 機械学習モデルは、異なる結晶特性を高速かつ正確に予測するための強力なツールとして登場した。 最先端のモデルは結晶データ(結晶グラフ構造)の単一のモジュラリティに依存しており、そこでは近傍の原子間のエッジを3次元空間内に確立し、GNNを適用して材料表現を学ぶ。 これにより、原子の周りの局所的な化学意味論を符号化するが、空間群数、結晶対称性、回転情報などの重要な大域的な周期的構造情報を捕捉できず、異なる結晶特性に影響を及ぼす。 本研究では,資料のテキスト記述を利用して,グローバルな構造情報をグラフ構造にモデル化し,より堅牢でリッチな結晶材料表現を学習する。 そこで本研究では,まず,各資料の記述を含む結晶性材料データベースのテキストデータセットをキュレートする。 さらに,構造表現とテキスト表現の両方を融合して結晶材料の結合多様表現を生成する,単純なマルチモーダルフレームワークであるcrysmmnetを提案する。 我々は、CrysMMNetが既存の最先端のベースラインメソッドよりも優れたマージンを持つことを示すために、10の異なるプロパティにわたる2つのベンチマークデータセットに関する広範な実験を行った。 また, テキスト表現を結晶グラフ構造と融合させることで, 全SOTA GNNモデルのバニラ版と比較して一貫した改善が期待できる。 私たちは、ベンチマーク資料データベースと将来の使用のためにコミュニティの両方でキュレートしたテキストデータセットを共有しました。

Machine Learning models have emerged as a powerful tool for fast and accurate prediction of different crystalline properties. Exiting state-of-the-art models rely on a single modality of crystal data i.e. crystal graph structure, where they construct multi-graph by establishing edges between nearby atoms in 3D space and apply GNN to learn materials representation. Thereby, they encode local chemical semantics around the atoms successfully but fail to capture important global periodic structural information like space group number, crystal symmetry, rotational information, etc, which influence different crystal properties. In this work, we leverage textual descriptions of materials to model global structural information into graph structure and learn a more robust and enriched representation of crystalline materials. To this effect, we first curate a textual dataset for crystalline material databases containing descriptions of each material. Further, we propose CrysMMNet, a simple multi-modal framework, which fuses both structural and textual representation together to generate a joint multimodal representation of crystalline materials. We conduct extensive experiments on two benchmark datasets across ten different properties to show that CrysMMNet outperforms existing state-of-the-art baseline methods with a good margin. We also observe that fusing the textual representation with crystal graph structure provides consistent improvement for all the SOTA GNN models compared to their own vanilla versions. We have shared the textual dataset, that we have curated for both the benchmark material databases, with the community for future use.
翻訳日:2023-07-16 03:44:36 公開日:2023-06-09
# 機械学習システムのベストプラクティス:分析と最適化のための産業的枠組み

Best Practices for Machine Learning Systems: An Industrial Framework for Analysis and Optimization ( http://arxiv.org/abs/2306.13662v1 )

ライセンス: Link先を確認
Georgios Christos Chouliaras, Kornel Kie{\l}czewski, Amit Beka, David Konopnicki, Lucas Bernardi(参考訳) ここ数年、機械学習(ML)と人工知能(AI)コミュニティは、MLシステムの品質向上を目的としたベストプラクティス、ルール、ガイドラインの普及につながる、MLシステムのためのソフトウェアエンジニアリング(SE)への関心が高まっている。 しかし、全体的な品質への影響を理解することは、あまり注目されなかった。 通常、プラクティスは規範的な方法で提示され、ソフトウェア品質への全体的な貢献に明確なつながりがない。 異なるプラクティスがソフトウェア品質の異なる側面に影響を与え、1つの品質面がいくつかのプラクティスによって対処される可能性があるという観察に基づいて、私たちは品質への影響と実装の優先順位付けに焦点を当てたベストプラクティスセットを分析するフレームワークを提案します。 まず,MLシステムに適した階層型ソフトウェア品質モデル(SQM)を紹介する。 専門家の知識に基づいて、個々のプラクティスとソフトウェア品質の側面の関連性は、広く確立されたプラクティスのセットに明示的に引き起こされます。 セットファンクション最適化技術を適用することで、SQMカバレッジを最大化するプラクティスの集合、最も重要なもの、特定の品質面を改善するために実装されるべきプラクティスなど、質問に答えることができます。 我々は、よく知られたプラクティスセットを分析することで、フレームワークの使用方法を説明します。

In the last few years, the Machine Learning (ML) and Artificial Intelligence community has developed an increasing interest in Software Engineering (SE) for ML Systems leading to a proliferation of best practices, rules, and guidelines aiming at improving the quality of the software of ML Systems. However, understanding their impact on the overall quality has received less attention. Practices are usually presented in a prescriptive manner, without an explicit connection to their overall contribution to software quality. Based on the observation that different practices influence different aspects of software-quality and that one single quality aspect might be addressed by several practices we propose a framework to analyse sets of best practices with focus on quality impact and prioritization of their implementation. We first introduce a hierarchical Software Quality Model (SQM) specifically tailored for ML Systems. Relying on expert knowledge, the connection between individual practices and software quality aspects is explicitly elicited for a large set of well-established practices. Applying set-function optimization techniques we can answer questions such as what is the set of practices that maximizes SQM coverage, what are the most important ones, which practices should be implemented in order to improve specific quality aspects, among others. We illustrate the usage of our framework by analyzing well-known sets of practices.
翻訳日:2023-07-02 13:45:42 公開日:2023-06-09
# 遅延宇宙エネルギーに基づくモデリングと粒度分布シフトによる分子設計

Molecule Design by Latent Space Energy-Based Modeling and Gradual Distribution Shifting ( http://arxiv.org/abs/2306.14902v1 )

ライセンス: Link先を確認
Deqian Kong, Bo Pang, Tian Han and Ying Nian Wu(参考訳) 高い薬物類似性、標的タンパク質に対する高い結合親和性など、所望の化学的および生物学的性質を持つ分子の生成は、創薬に不可欠である。 本稿では,分子の結合分布とその特性を捉える確率論的生成モデルを提案する。 我々のモデルは、潜在空間におけるエネルギーベースモデル(EBM)を仮定する。 潜在ベクター上の条件付きでは、分子とその性質は、それぞれ分子生成モデルと特性回帰モデルによってモデル化される。 所望の特性を持つ分子を探索するために,SGDSアルゴリズムを用いたサンプリングを提案し,既存の分子のトレーニングデータとその特性に基づいてモデルを学習した後,提案アルゴリズムは,所望の特性を持つ分子が支持する領域に向けてモデルを徐々にシフトさせる。 実験により, 種々の分子設計タスクにおいて非常に強力な性能が得られることを示した。

Generation of molecules with desired chemical and biological properties such as high drug-likeness, high binding affinity to target proteins, is critical for drug discovery. In this paper, we propose a probabilistic generative model to capture the joint distribution of molecules and their properties. Our model assumes an energy-based model (EBM) in the latent space. Conditional on the latent vector, the molecule and its properties are modeled by a molecule generation model and a property regression model respectively. To search for molecules with desired properties, we propose a sampling with gradual distribution shifting (SGDS) algorithm, so that after learning the model initially on the training data of existing molecules and their properties, the proposed algorithm gradually shifts the model distribution towards the region supported by molecules with desired values of properties. Our experiments show that our method achieves very strong performances on various molecule design tasks.
翻訳日:2023-07-02 13:37:19 公開日:2023-06-09
# KAPLA: スケーラブルNNアクセラレータデータフローの実用的な表現と高速解法

KAPLA: Pragmatic Representation and Fast Solving of Scalable NN Accelerator Dataflow ( http://arxiv.org/abs/2306.15676v1 )

ライセンス: Link先を確認
Zhiyao Li (1), Mingyu Gao (1) ((1) Tsinghua University)(参考訳) データフロースケジューリングの決定は、ニューラルネットワーク(NN)アクセラレーターにとって極めて重要である。 最近のスケーラブルNNアクセラレータは、リッチな高度なデータフロー技術をサポートしている。 最適化されたデータフロースキームを包括的に表現し、迅速に見つけるという問題は、さらに複雑で困難になる。 本研究では,スケーラブルなマルチノードNNアーキテクチャ上での時空間スケジューリングのための包括的で実用的なデータフロー表現を提案する。 非公式な階層的な分類学は、データフロー空間の様々なレベルの密結合を、高速な設計探索の大きな難しさとして強調している。 形式的テンソル中心ディレクティブのセットは、様々な層間および層内スキームを正確に表現し、それらの妥当性と効率を迅速に決定できる。 次に,実用的ディレクティブを用いて効果的な妥当性チェックと効率評価を行い,設計空間を探索する汎用的で最適化された高速データフローソルバkaplaを構築した。 KAPLAは上層間レベルを分離して高速刈り込みを行い、新しいボトムアップコスト降下法により下層間スキームを解く。 KAPLAは、徹底的に探索された最適スキームと比較して、トレーニングのための結果データフローの2.2%と7.7%のエネルギーオーバーヘッドしか達成していない。 また、ランダムおよび機械学習ベースのアプローチを上回り、より最適化された結果と桁違いに高速な検索スピードアップを実現している。

Dataflow scheduling decisions are of vital importance to neural network (NN) accelerators. Recent scalable NN accelerators support a rich set of advanced dataflow techniques. The problems of comprehensively representing and quickly finding optimized dataflow schemes thus become significantly more complicated and challenging. In this work, we first propose comprehensive and pragmatic dataflow representations for temporal and spatial scheduling on scalable multi-node NN architectures. An informal hierarchical taxonomy highlights the tight coupling across different levels of the dataflow space as the major difficulty for fast design exploration. A set of formal tensor-centric directives accurately express various inter-layer and intra-layer schemes, and allow for quickly determining their validity and efficiency. We then build a generic, optimized, and fast dataflow solver, KAPLA, which makes use of the pragmatic directives to explore the design space with effective validity check and efficiency estimation. KAPLA decouples the upper inter-layer level for fast pruning, and solves the lower intra-layer schemes with a novel bottom-up cost descending method. KAPLA achieves within only 2.2% and 7.7% energy overheads on the result dataflow for training and inference, respectively, compared to the exhaustively searched optimal schemes. It also outperforms random and machine-learning-based approaches, with more optimized results and orders of magnitude faster search speedup.
翻訳日:2023-07-02 13:15:46 公開日:2023-06-09
# 教育におけるChatGPTの使用に関する法的・倫理的考察

Legal and ethical considerations regarding the use of ChatGPT in education ( http://arxiv.org/abs/2306.10037v1 )

ライセンス: Link先を確認
Fereniki Panagopoulou, Christina Parpoula, Kostas Karpouzis(参考訳) 人工知能は過去20年間に大きく進化し、教育を含むさまざまな科学分野で主流となり、これまでは主に管理的かつインテリジェントな教育システムサービスと学術的支援を強化するために利用されてきた。 openaiが開発し2022年11月にリリースされた、人工知能ベースのチャットボットであるchatgptは、自然言語処理によるユーザ入力に対する包括的、体系的、情報的な人間的応答の生成において、国際的なコミュニティから急速に注目を集めている。 必然的に、様々な科学分野にまたがる使用に関するいくつかの課題、機会、潜在的な問題や懸念を急速に提起している。 本稿では,この新技術が生み出す法的および倫理的影響を議論し,潜在的なユースケースを特定し,チャットgptなどの生成型aiとその教育能力の理解を深めることを目的とする。

Artificial intelligence has evolved enormously over the last two decades, becoming mainstream in different scientific domains including education, where so far, it is mainly utilized to enhance administrative and intelligent tutoring systems services and academic support. ChatGPT, an artificial intelligence-based chatbot, developed by OpenAI and released in November 2022, has rapidly gained attention from the entire international community for its impressive performance in generating comprehensive, systematic, and informative human-like responses to user input through natural language processing. Inevitably, it has also rapidly posed several challenges, opportunities, and potential issues and concerns raised regarding its use across various scientific disciplines. This paper aims to discuss the legal and ethical implications arising from this new technology, identify potential use cases, and enrich our understanding of Generative AI, such as ChatGPT, and its capabilities in education.
翻訳日:2023-06-26 01:50:10 公開日:2023-06-09
# 合成現実の時代:挑戦と機会

The Age of Synthetic Realities: Challenges and Opportunities ( http://arxiv.org/abs/2306.11503v1 )

ライセンス: Link先を確認
Jo\~ao Phillipe Cardenuto, Jing Yang, Rafael Padilha, Renjie Wan, Daniel Moreira, Haoliang Li, Shiqi Wang, Fernanda Andal\'o, S\'ebastien Marcel and Anderson Rocha(参考訳) 合成現実(synthetic realities)とは、人工知能(ai)の手法によってコンテキスト的に生成されたデジタル創造や拡張であり、大量のデータを活用して新たな物語や現実を構築する。 本稿では,AIの急速に進歩する分野において,合成現実の概念と,その意味をデジタル法科学と社会全体に掘り下げる。 我々は,有害な合成物を識別し,それらを現実と区別できる法医学的手法の開発の必要性を強調する。 これは、フェイクニュース、偽情報、誤情報の創造と拡散を含むシナリオにおいて特に重要である。 画像やビデオ、音声、テキストなど、さまざまなメディアに焦点をあて、合成現実がどのように構築されているかを調べ、これらの悪質な創造物を検出するアプローチを探求する。 さらに、この分野に先立つ重要な研究課題についても光を当てています。 この研究は、ai生成技術の急速な進歩と法医学の基本原理への影響によって、最も重要なものである。

Synthetic realities are digital creations or augmentations that are contextually generated through the use of Artificial Intelligence (AI) methods, leveraging extensive amounts of data to construct new narratives or realities, regardless of the intent to deceive. In this paper, we delve into the concept of synthetic realities and their implications for Digital Forensics and society at large within the rapidly advancing field of AI. We highlight the crucial need for the development of forensic techniques capable of identifying harmful synthetic creations and distinguishing them from reality. This is especially important in scenarios involving the creation and dissemination of fake news, disinformation, and misinformation. Our focus extends to various forms of media, such as images, videos, audio, and text, as we examine how synthetic realities are crafted and explore approaches to detecting these malicious creations. Additionally, we shed light on the key research challenges that lie ahead in this area. This study is of paramount importance due to the rapid progress of AI generative techniques and their impact on the fundamental principles of Forensic Science.
翻訳日:2023-06-26 01:19:27 公開日:2023-06-09
# 深層学習法による免疫蛍光スライドの解釈--抗核抗体のケーススタディ

Interpretation of immunofluorescence slides by deep learning techniques: anti-nuclear antibodies case study ( http://arxiv.org/abs/2306.12432v1 )

ライセンス: Link先を確認
Oumar Khlelfa, Aymen Yahyaoui, Mouna Ben Azaiz, Anwer Ncibi, Ezzedine Gazouani, Adel Ammar, Wadii Boulila(参考訳) 今日では、病気の数や重症度が時間単位で増加している。 世界保健機関(WHO)によると、2017年の世界人口の86%に影響を及ぼす免疫疾患は、このカテゴリーに分類される疾患の発生率が高いため、医療分野で注目に値する分野である。 本研究は、最先端の免疫疾患医療ソリューションの最新のレビューを提供する。 私たちは、初期の異常を検出するためにディープラーニングのような現代的なソリューションでこの問題に取り組むことに集中しています。 進化型ニューラルネットワーク(CNN)のような高度なディープラーニング技術を利用して、効率的なツールを提供しながら、このソリューションの熟練した分析を提供するという目的を達成する。 提案手法はチュニジア軍事教育病院の免疫学部門で試験・評価され,非常に有用なツールであると考えられた。

Nowadays, diseases are increasing in numbers and severity by the hour. Immunity diseases, affecting 8\% of the world population in 2017 according to the World Health Organization (WHO), is a field in medicine worth attention due to the high rate of disease occurrence classified under this category. This work presents an up-to-date review of state-of-the-art immune diseases healthcare solutions. We focus on tackling the issue with modern solutions such as Deep Learning to detect anomalies in the early stages hence providing health practitioners with efficient tools. We rely on advanced deep learning techniques such as Convolutional Neural Networks (CNN) to fulfill our objective of providing an efficient tool while providing a proficient analysis of this solution. The proposed solution was tested and evaluated by the immunology department in the Principal Military Hospital of Instruction of Tunis, which considered it a very helpful tool.
翻訳日:2023-06-26 01:09:34 公開日:2023-06-09
# クロスアーキテクチャなIoTマルウェアの脅威ハンティングに関する調査

A Survey on Cross-Architectural IoT Malware Threat Hunting ( http://arxiv.org/abs/2306.07989v1 )

ライセンス: Link先を確認
Anandharaju Durai Raju, Ibrahim Abualhaol, Ronnie Salvador Giagone, Yang Zhou, and Shengqiang Huang(参考訳) 近年、windows以外のマルウェアの脅威の増加は、サイバーセキュリティコミュニティの焦点となった。 Windows PEベースのマルウェアを狩る研究は成熟しているが、Linuxマルウェアの脅威狩りの開発は比較的少ない。 IoT(Internet of Things)時代の到来により、人間の生活に組み込まれたスマートデバイスは、悪意ある活動のためのハッカーのハイウェイになりつつある。 IoTデバイスは、標準バイナリファイル仕様としてELF(ExecutableとLinkable Format)に従うさまざまなUnixベースのアーキテクチャを採用している。 本研究の目的は、アーキテクチャ横断型IoTマルウェアの検出と分類アプローチの最新動向に関する総合的な調査を提供することである。 現代の分類法に支援され,本研究で採用されている特徴表現,特徴抽出手法,機械学習モデルについて考察する。 クロスアーキテクチャなIoTマルウェアの脅威ハンティングに関わる実践的課題についてさらに洞察し、将来的な研究を取り入れるための様々な方法について議論する。

In recent years, the increase in non-Windows malware threats had turned the focus of the cybersecurity community. Research works on hunting Windows PE-based malwares are maturing, whereas the developments on Linux malware threat hunting are relatively scarce. With the advent of the Internet of Things (IoT) era, smart devices that are getting integrated into human life have become a hackers highway for their malicious activities. The IoT devices employ various Unix-based architectures that follow ELF (Executable and Linkable Format) as their standard binary file specification. This study aims at providing a comprehensive survey on the latest developments in cross-architectural IoT malware detection and classification approaches. Aided by a modern taxonomy, we discuss the feature representations, feature extraction techniques, and machine learning models employed in the surveyed works. We further provide more insights on the practical challenges involved in cross-architectural IoT malware threat hunting and discuss various avenues to instill potential future research.
翻訳日:2023-06-18 12:21:38 公開日:2023-06-09
# ニューラルデアグリゲーションによる都市時空間データ合成

Urban Spatiotemporal Data Synthesis via Neural Disaggregation ( http://arxiv.org/abs/2306.07292v1 )

ライセンス: Link先を確認
Bin Han, Bill Howe(参考訳) オープンデータの粒度のレベルは、しばしばそれが提供できる利益と矛盾します。 個々のプライバシーを保護できるデータは少ないが、ある程度は、オープンデータの約束を妨害して透明性を促進し、研究を支援する。 都市設定と同様に、高水準の地理的単位における集約された都市データは、低いアラルレベルで変化する可能性のある都市動態の下位の特質を隠蔽することができる。 本研究では, 粗大かつ低解像度の地理単位で集約された都市データを分解し, 細粒度で高解像度の都市データを合成することを目的とする。 目標は、ユーザビリティを高め、高度に集約された都市データの可能な限りの価値を実現することだ。 従来のデアグリゲーションメソッドの単純さの問題に対処する。 1) 特徴間の複雑な非線形関係をモデル化できる多数のニューラルベースモデルを実験した。 ニューラルメソッドは、空間的情報と時間的情報の両方を同時に利用することもできる。 従来の分散法よりも,すべてのニューラルメソッドが優れた性能を示した。 時間情報を組み込むことで結果をさらに強化する。 2) トレーニングベースモデルに組み込むことが可能な非集合的タスクであるCOT(Chain-of-Training)のトレーニング手法を提案した。 COTは、中間的な地理的次元を組み込むことで、低い地理的レベルでの予測を強化し、より高いレベルでの結果を高めることによって、過渡的な分散ステップを追加する。 3) 超解像領域から超解像領域への再構成(rec)という考え方を適用し,低解像レベルから高解像レベルへ分離した後,生成した高解像値から低解像レベルへ再集約する。 どちらの戦略も、3つのデータセットと2つの都市での分解結果を改善しました。

The level of granularity of open data often conflicts the benefits it can provide. Less granular data can protect individual privacy, but to certain degrees, sabotage the promise of open data to promote transparency and assist research. Similar in the urban setting, aggregated urban data at high-level geographic units can mask out the underline particularities of city dynamics that may vary at lower areal levels. In this work, we aim to synthesize fine-grained, high resolution urban data, by breaking down aggregated urban data at coarse, low resolution geographic units. The goal is to increase the usability and realize the values as much as possible of highly aggregated urban data. To address the issue of simplicity of some traditional disaggregation methods -- 1) we experimented with numerous neural-based models that are capable of modeling intricate non-linear relationships among features. Neural methods can also leverage both spatial and temporal information concurrently. We showed that all neural methods perform better than traditional disaggregation methods. Incorporating the temporal information further enhances the results. 2) We proposed a training approach for disaggregation task, Chain-of-Training (COT), that can be incorporated into any of the training-based models. COT adds transitional disaggregation steps by incorporating intermediate geographic dimensions, which enhances the predictions at low geographic level and boosts the results at higher levels. 3) We adapted the idea of reconstruction (REC) from super-resolution domain in our disaggregation case -- after disaggregating from low to high geographic level, we then re-aggregate back to the low level from our generated high level values. Both strategies improved disaggregation results on three datasets and two cities we tested on.
翻訳日:2023-06-14 16:37:35 公開日:2023-06-09
# 条件拡散モデルを用いた制御のための値関数推定

Value function estimation using conditional diffusion models for control ( http://arxiv.org/abs/2306.07290v1 )

ライセンス: Link先を確認
Bogdan Mazoure, Walter Talbott, Miguel Angel Bautista, Devon Hjelm, Alexander Toshev, Josh Susskind(参考訳) 深層強化学習のかなり信頼性の高いトレンドは、パフォーマンスがパラメータ数に比例してスケールし、トレーニングデータの量に補完的なスケーリングを提供したことです。 大規模モデルの食欲が高まるにつれて、遅かれ早かれ、高品質なデモがなくなる潜在的な問題に対処しなくてはならない。 この場合、コストのかかる人間のデモンストレーションを通じて新しいデータのみを集めるか、不確実な効果でシミュレーションから現実への転送を危険にさらすのではなく、膨大な量の低品質データを活用することは有益である。 行動クローニングや時間差学習のような古典的な制御アルゴリズムは報酬のないデータやアクションのないデータには使用できないため、このソリューションは継続的な制御のための新しいトレーニングパラダイムを保証している。 本稿では,拡散モデルを用いて環境-ロボット相互作用の連成多段階モデルを学ぶDiffused Value Function (DVF) という単純なアルゴリズムを提案する。 このモデルは、(報酬機能やアクションにアクセスせずに)状態シーケンスから効率的に学習でき、その後、各アクションの値を最初から見積もるために使われる。 本稿では,dvfを用いて複数コントローラの状態来訪手段を効率的に捉える方法を示し,ロボットベンチマークに挑戦する上で,有望な質的・定量的な結果を示す。

A fairly reliable trend in deep reinforcement learning is that the performance scales with the number of parameters, provided a complimentary scaling in amount of training data. As the appetite for large models increases, it is imperative to address, sooner than later, the potential problem of running out of high-quality demonstrations. In this case, instead of collecting only new data via costly human demonstrations or risking a simulation-to-real transfer with uncertain effects, it would be beneficial to leverage vast amounts of readily-available low-quality data. Since classical control algorithms such as behavior cloning or temporal difference learning cannot be used on reward-free or action-free data out-of-the-box, this solution warrants novel training paradigms for continuous control. We propose a simple algorithm called Diffused Value Function (DVF), which learns a joint multi-step model of the environment-robot interaction dynamics using a diffusion model. This model can be efficiently learned from state sequences (i.e., without access to reward functions nor actions), and subsequently used to estimate the value of each action out-of-the-box. We show how DVF can be used to efficiently capture the state visitation measure for multiple controllers, and show promising qualitative and quantitative results on challenging robotics benchmarks.
翻訳日:2023-06-14 16:37:10 公開日:2023-06-09
# ChatGPTによるBERTと微調整RobertAによるAI生成ニュースの検出

Implementing BERT and fine-tuned RobertA to detect AI generated news by ChatGPT ( http://arxiv.org/abs/2306.07401v1 )

ライセンス: Link先を確認
Zecong Wang, Jiaxi Cheng, Chen Cui, and Chenhao Yu(参考訳) ソーシャルメディア上の情報量が多ければ多いほど、正確なリアルタイム情報検出の必要性が高まっている。 AIツールによって生成された偽ニュースを識別し検証する手作業のテクニックは、毎日発生する膨大な量の情報を考えると、実行不可能で時間を要する。 これにより、インターネット上でフェイクニュースを見つける自動化システムの構築に対する関心が高まった。 この研究は、細調整のBERTとRobertAモデルが、AIが生成したニュースを検出するのに最も成功したことを示した。 スコアは98%で、特にロバートAの微調整は精度に優れていた。 結論として,ChatGPTが生み出したニュースAI生成ニュースをニューラルネットワークを用いて識別できることが示唆された。 RobertA と BERT の優れた性能は、これらのモデルが誤報との戦いにおいて重要な役割を果たしていることを示している。

The abundance of information on social media has increased the necessity of accurate real-time rumour detection. Manual techniques of identifying and verifying fake news generated by AI tools are impracticable and time-consuming given the enormous volume of information generated every day. This has sparked an increase in interest in creating automated systems to find fake news on the Internet. The studies in this research demonstrate that the BERT and RobertA models with fine-tuning had the best success in detecting AI generated news. With a score of 98%, tweaked RobertA in particular showed excellent precision. In conclusion, this study has shown that neural networks can be used to identify bogus news AI generation news created by ChatGPT. The RobertA and BERT models' excellent performance indicates that these models can play a critical role in the fight against misinformation.
翻訳日:2023-06-14 15:58:41 公開日:2023-06-09
# 大規模言語モデルによるテレコム言語理解

Understanding Telecom Language Through Large Language Models ( http://arxiv.org/abs/2306.07933v1 )

ライセンス: Link先を確認
Lina Bariah and Hang Zou and Qiyang Zhao and Belkacem Mouhouche and Faouzi Bader and Merouane Debbah(参考訳) 人工知能(AI)の最近の進歩は、テレコムネットワークの設計、実装、展開に関わる多くのタスクを自動化する可能性の新たなフロンティアを開く。 これは、大規模言語モデル(LLM)の出現を含む、ジェネレーティブ人工知能(AI)の進化によってさらに前進し、自己統治型の対話型AIエージェントの実現の基盤となったと考えられている。 そこで本論文では,LLMのパラダイムをテレコム領域に適応させることを目的としている。 特に, BERT, 蒸留されたBERT, RoBERTa, GPT-2などのLCMをテレコムドメイン言語に微調整し, 第3世代パートナーシッププロジェクト(GPP)標準ワーキンググループを識別するためのユースケースを示す。 我々は,2009~2019年までの3GPP技術文書(Tdoc)上で選択したモデルをトレーニングし,2020~2023年のTdocカテゴリを予測する。 その結果,細調整BERTとRoBERTaモデルでは84.6%の精度が得られ,GPT-2モデルは3GPPワーキンググループを83%同定した。 約50%少ないパラメータで蒸留したBERTモデルは、他のモデルと同様の性能を得る。 このことは、微調整済みのLLMがTelecom言語のカテゴリを効果的に識別できることを裏付ける。 開発されたフレームワークは、Telecom言語から意図駆動で自己進化する無線ネットワークの実現に向けた一歩であり、Telecomドメインで生成AIを実装するための道筋を示している。

The recent progress of artificial intelligence (AI) opens up new frontiers in the possibility of automating many tasks involved in Telecom networks design, implementation, and deployment. This has been further pushed forward with the evolution of generative artificial intelligence (AI), including the emergence of large language models (LLMs), which is believed to be the cornerstone toward realizing self-governed, interactive AI agents. Motivated by this, in this paper, we aim to adapt the paradigm of LLMs to the Telecom domain. In particular, we fine-tune several LLMs including BERT, distilled BERT, RoBERTa and GPT-2, to the Telecom domain languages, and demonstrate a use case for identifying the 3rd Generation Partnership Project (3GPP) standard working groups. We consider training the selected models on 3GPP technical documents (Tdoc) pertinent to years 2009-2019 and predict the Tdoc categories in years 2020-2023. The results demonstrate that fine-tuning BERT and RoBERTa model achieves 84.6% accuracy, while GPT-2 model achieves 83% in identifying 3GPP working groups. The distilled BERT model with around 50% less parameters achieves similar performance as others. This corroborates that fine-tuning pretrained LLM can effectively identify the categories of Telecom language. The developed framework shows a stepping stone towards realizing intent-driven and self-evolving wireless networks from Telecom languages, and paves the way for the implementation of generative AI in the Telecom domain.
翻訳日:2023-06-14 12:35:22 公開日:2023-06-09
# 大言語モデルは半パラメトリック強化学習エージェントである

Large Language Model Is Semi-Parametric Reinforcement Learning Agent ( http://arxiv.org/abs/2306.07929v1 )

ライセンス: Link先を確認
Danyang Zhang, Lu Chen, Situo Zhang, Hongshen Xu, Zihan Zhao, Kai Yu(参考訳) 人間の記憶と推論機構に関する認知科学の知見に触発され,REMEMBERERとして,進化可能なLLM(Large Language Model)エージェントフレームワークが提案されている。 長期記憶をLLMに装備することにより、REMEMBERERは、異なるタスク目標に対してであっても過去のエピソードからの経験を活用できる。 さらに、メモリの更新にRLEM(Reinforcement Learning with Experience Memory)を導入します。 したがって、システム全体が成功と失敗の両方の経験から学び、LSMのパラメータを微調整することなくその能力を進化させることができる。 このようにして、提案したREMEMBERERは半パラメトリックRLエージェントを構成する。 提案したフレームワークを評価するために,2つのRLタスクセットに対して大規模な実験を行った。 初期化とトレーニングセットの異なる平均結果は,2つのタスクセットにおける成功率の4%と2%を上回り,REMEMBERERの優位性と堅牢性を示す。

Inspired by the insights in cognitive science with respect to human memory and reasoning mechanism, a novel evolvable LLM-based (Large Language Model) agent framework is proposed as REMEMBERER. By equipping the LLM with a long-term experience memory, REMEMBERER is capable of exploiting the experiences from the past episodes even for different task goals, which excels an LLM-based agent with fixed exemplars or equipped with a transient working memory. We further introduce Reinforcement Learning with Experience Memory (RLEM) to update the memory. Thus, the whole system can learn from the experiences of both success and failure, and evolve its capability without fine-tuning the parameters of the LLM. In this way, the proposed REMEMBERER constitutes a semi-parametric RL agent. Extensive experiments are conducted on two RL task sets to evaluate the proposed framework. The average results with different initialization and training sets exceed the prior SOTA by 4% and 2% for the success rate on two task sets and demonstrate the superiority and robustness of REMEMBERER.
翻訳日:2023-06-14 12:34:31 公開日:2023-06-09
# 教師なし音声認識の一理論

A Theory of Unsupervised Speech Recognition ( http://arxiv.org/abs/2306.07926v1 )

ライセンス: Link先を確認
Liming Wang, Mark Hasegawa-Johnson and Chang D. Yoo(参考訳) 教師なし音声認識(unsupervised speech recognition, asr-u)は、非ペアリング音声認識とテキストのみコーパスから自動音声認識(asr)システムを学習する問題である。 この問題を解決するために様々なアルゴリズムが存在するが、その性質の研究やハイパーパラメータへの感度やトレーニングの不安定性といった問題に対処するための理論的枠組みが欠落している。 本稿では、ランダム行列理論と神経接核の理論に基づくasr-u系の性質を研究するための一般的な理論的枠組みを提案する。 このようなフレームワークにより、ASR-Uの様々な学習可能性条件とサンプル複雑性境界を証明できる。 3種類の遷移グラフを持つ合成言語に関する広範囲なasr-u実験は、我々の理論(cactuswiththoughts/unsupasrtheory.gitで利用可能なコード)に強い実証的証拠を与える。

Unsupervised speech recognition (ASR-U) is the problem of learning automatic speech recognition (ASR) systems from unpaired speech-only and text-only corpora. While various algorithms exist to solve this problem, a theoretical framework is missing from studying their properties and addressing such issues as sensitivity to hyperparameters and training instability. In this paper, we proposed a general theoretical framework to study the properties of ASR-U systems based on random matrix theory and the theory of neural tangent kernels. Such a framework allows us to prove various learnability conditions and sample complexity bounds of ASR-U. Extensive ASR-U experiments on synthetic languages with three classes of transition graphs provide strong empirical evidence for our theory (code available at cactuswiththoughts/UnsupASRTheory.git).
翻訳日:2023-06-14 12:34:14 公開日:2023-06-09
# エンドツーエンド音声認識における非ピークCTCによる単語タイミングのフレームレベル分類法の改善

Improving Frame-level Classifier for Word Timings with Non-peaky CTC in End-to-End Automatic Speech Recognition ( http://arxiv.org/abs/2306.07949v1 )

ライセンス: Link先を確認
Xianzhao Chen, Yist Y. Lin, Kang Wang, Yi He, Zejun Ma(参考訳) エンドツーエンド(E2E)システムは、音声認識のためのハイブリッドシステムと同等の性能を示している。 単語のタイミングは、ASRの副産物として、特にサブタイリングやコンピュータ支援による発音訓練に不可欠である。 本稿では,e2eシステムにおける単語タイミングのフレームレベル分類法を改良し,先行研究から採用したコネクショニスト時間分類(ctc)損失のラベルプリエントを導入し,低レベルメルスケールフィルタバンクと高レベルasrエンコーダ出力を入力特徴として組み合わせた。 中国内部のコーパスでは、単語タイミング精度の93.0%/90.22%のハイブリッドシステムと比較して95.68%/94.18%を達成した。 また、7つの言語におけるメトリクスの4.80%/8.02%を絶対的に増加させ、以前のE2Eアプローチを超えている。 さらに,CTCピークをフレーム単位の知識蒸留で遅延させることにより,単語のタイミング精度をさらに向上する。

End-to-end (E2E) systems have shown comparable performance to hybrid systems for automatic speech recognition (ASR). Word timings, as a by-product of ASR, are essential in many applications, especially for subtitling and computer-aided pronunciation training. In this paper, we improve the frame-level classifier for word timings in E2E system by introducing label priors in connectionist temporal classification (CTC) loss, which is adopted from prior works, and combining low-level Mel-scale filter banks with high-level ASR encoder output as input feature. On the internal Chinese corpus, the proposed method achieves 95.68%/94.18% compared to the hybrid system 93.0%/90.22% on the word timing accuracy metrics. It also surpass a previous E2E approach with an absolute increase of 4.80%/8.02% on the metrics on 7 languages. In addition, we further improve word timing accuracy by delaying CTC peaks with frame-wise knowledge distillation, though only experimenting on LibriSpeech.
翻訳日:2023-06-14 12:23:21 公開日:2023-06-09
# gpt-calls: 大きな言語モデルによる合成会話生成によるコールセグメンテーションとタグ付けの強化

GPT-Calls: Enhancing Call Segmentation and Tagging by Generating Synthetic Conversations via Large Language Models ( http://arxiv.org/abs/2306.07941v1 )

ライセンス: Link先を確認
Itzik Malkiel, Uri Alon, Yakir Yehuda, Shahar Keren, Oren Barkan, Royi Ronen, Noam Koenigstein(参考訳) 電話の書き起こしは、セールス、カスタマーサービス、ヘルスケア、法執行機関など、さまざまな分野において重要な意味を持つ。 それでも、記録された会話の分析は、特に拡張または多面的な対話を扱う場合、困難で時間を要するプロセスである。 本稿では,gptを蒸留したコールセグメンテーションとタギング(gpt-calls)という新しい手法を提案し,効率的なコールセグメンテーションとトピック抽出を行う。 GPT-Callsはオフラインとオンラインのフェーズで構成されている。 オフラインフェーズは、与えられたトピックのリストに一度適用され、GPTモデルを用いて各トピックに対する合成文の分布を生成し、アンカーベクトルを抽出する。 オンラインフェーズはすべての呼び出しに別々に適用され、オフラインフェーズで見られる会話とトピックアンカーの類似性を評価する。 次に、類似度スコアに時間領域分析を適用し、グループ発話をセグメント化し、トピックをタグ付けする。 提案するパラダイムは,ラベル付きデータを必要とせず,様々な領域に適用可能な,高精度かつ効率的なコールセグメンテーションとトピック抽出手法を提供する。 当社のアルゴリズムはdynamics 365セールス会話インテリジェンスの下で運用されており、dynamics 365セールステナントから収集した実際のセールス会話に基づいています。

Transcriptions of phone calls are of significant value across diverse fields, such as sales, customer service, healthcare, and law enforcement. Nevertheless, the analysis of these recorded conversations can be an arduous and time-intensive process, especially when dealing with extended or multifaceted dialogues. In this work, we propose a novel method, GPT-distilled Calls Segmentation and Tagging (GPT-Calls), for efficient and accurate call segmentation and topic extraction. GPT-Calls is composed of offline and online phases. The offline phase is applied once to a given list of topics and involves generating a distribution of synthetic sentences for each topic using a GPT model and extracting anchor vectors. The online phase is applied to every call separately and scores the similarity between the transcripted conversation and the topic anchors found in the offline phase. Then, time domain analysis is applied to the similarity scores to group utterances into segments and tag them with topics. The proposed paradigm provides an accurate and efficient method for call segmentation and topic extraction that does not require labeled data, thus making it a versatile approach applicable to various domains. Our algorithm operates in production under Dynamics 365 Sales Conversation Intelligence, and our research is based on real sales conversations gathered from various Dynamics 365 Sales tenants.
翻訳日:2023-06-14 12:23:02 公開日:2023-06-09
# 適応的および機械学習アプローチを用いたオンラインアルゴリズムとポリシー

Online Algorithms and Policies Using Adaptive and Machine Learning Approaches ( http://arxiv.org/abs/2105.06577v7 )

ライセンス: Link先を確認
Anuradha M. Annaswamy, Anubhav Guha, Yingnan Cui, Sunbochen Tang, Peter A. Fisher, Joseph E. Gaudio(参考訳) 本稿では,パラメトリック不確実性を考慮した動的システムにおける実時間制御と学習の問題を考える。 本稿では,外ループにおける強化学習(RL)に基づくポリシーと,内ループにおける適応制御(AC)とを併用して,実時間ACがRLによって追従される安定軌道に向けて閉ループ力学を収縮させる方法を提案する。 非線形力学系の2つのクラスが考慮され、どちらも制御アフィンである。 力学系の第一級は平衡点 % をこれらの点の周りの展開形式とリャプノフアプローチで利用し、第二級非線形系は縮約理論を用いる。 AC-RLコントローラはいずれのシステムにも提案されており、高次チューナを用いた安定性を保証するオンラインポリシーと、パラメトリック不確実性と入力の規模制限を許容する。 リアルタイム制御による安定性保証の確立に加えて、AC-RLコントローラは、第1クラスのシステムに対して永続的な励振を伴うパラメータ学習につながることも示している。 全アルゴリズムの数値検証は、移動プラットフォーム上の四重項ランディングタスクを用いて行う。

This paper considers the problem of real-time control and learning in dynamic systems subjected to parametric uncertainties. We propose a combination of a Reinforcement Learning (RL) based policy in the outer loop suitably chosen to ensure stability and optimality for the nominal dynamics, together with Adaptive Control (AC) in the inner loop so that in real-time AC contracts the closed-loop dynamics towards a stable trajectory traced out by RL. Two classes of nonlinear dynamic systems are considered, both of which are control-affine. The first class of dynamic systems utilizes equilibrium points %with expansion forms around these points and a Lyapunov approach while second class of nonlinear systems uses contraction theory. AC-RL controllers are proposed for both classes of systems and shown to lead to online policies that guarantee stability using a high-order tuner and accommodate parametric uncertainties and magnitude limits on the input. In addition to establishing a stability guarantee with real-time control, the AC-RL controller is also shown to lead to parameter learning with persistent excitation for the first class of systems. Numerical validations of all algorithms are carried out using a quadrotor landing task on a moving platform.
翻訳日:2023-06-14 03:39:47 公開日:2023-06-09
# 到着モデルとシミュレーションへの応用を含む二重確率シミュレータ

A Doubly Stochastic Simulator with Applications in Arrivals Modeling and Simulation ( http://arxiv.org/abs/2012.13940v3 )

ライセンス: Link先を確認
Yufeng Zheng, Zeyu Zheng, Tingyu Zhu(参考訳) 従来型モンテカルロシミュレータとwasserstein生成逆ネットワークを統合し,一般的な非定常・多次元ランダム到着率による到達過程のモデル化,推定,シミュレーションを行うフレームワークを提案する。 古典的モンテカルロシミュレータは確率的対象の解釈可能な「物理」を捉えるのに有利であるが、ニューラルネットベースのシミュレータは高次元分布内での解釈可能な複雑な依存を捉えるのに有利である。 本研究では,確率的生成ニューラルネットワークと古典的モンテカルロ・ポアソン・シミュレータを併用した二重確率シミュレータを提案する。 このような統合は、シミュレーション出力の分布と実データの分布の間のワッサーシュタイン距離を最小化することにより、与えられた実データの推定のための理論的信頼性と計算的トラクタビリティの両方に課題をもたらす。 理論的性質に関しては,非パラメトリックな平滑性仮定の下で推定シミュレータの一貫性と収束率を示す。 推定手順の計算効率とトラクタビリティについて,モンテカルロ・ポアソンシミュレータの不連続性から生じる勾配評価の課題に対処する。 提案フレームワークの性能を示すために, 合成および実データを用いた数値実験を行った。

We propose a framework that integrates classical Monte Carlo simulators and Wasserstein generative adversarial networks to model, estimate, and simulate a broad class of arrival processes with general non-stationary and multi-dimensional random arrival rates. Classical Monte Carlo simulators have advantages at capturing the interpretable "physics" of a stochastic object, whereas neural-network-based simulators have advantages at capturing less-interpretable complicated dependence within a high-dimensional distribution. We propose a doubly stochastic simulator that integrates a stochastic generative neural network and a classical Monte Carlo Poisson simulator, to utilize both advantages. Such integration brings challenges to both theoretical reliability and computational tractability for the estimation of the simulator given real data, where the estimation is done through minimizing the Wasserstein distance between the distribution of the simulation output and the distribution of real data. Regarding theoretical properties, we prove consistency and convergence rate for the estimated simulator under a non-parametric smoothness assumption. Regarding computational efficiency and tractability for the estimation procedure, we address a challenge in gradient evaluation that arise from the discontinuity in the Monte Carlo Poisson simulator. Numerical experiments with synthetic and real data sets are implemented to illustrate the performance of the proposed framework.
翻訳日:2023-06-14 03:38:32 公開日:2023-06-09
# モーション画像におけるハンドジェスチャ認識を用いたコンピュータポインターの制御

Control of Computer Pointer Using Hand Gesture Recognition in Motion Pictures ( http://arxiv.org/abs/2012.13188v2 )

ライセンス: Link先を確認
Yalda Foroutan, Ahmad Kalhor, Saeid Mohammadi Nejati, Samad Sheikhaei(参考訳) 本稿では,手動検出とジェスチャー分類によるコンピュータカーソル制御を実現するユーザインタフェースを提案する。 6720の画像サンプルからなる包括的ハンドデータセットを収集し、拳、掌、左指、右指の4つの異なるクラスを包括した。 画像は、異なる視点と照明条件のシンプルな背景を含む、さまざまな環境で15人の個人から撮影された。 このデータセット上で畳み込みニューラルネットワーク(cnn)を訓練し、キャプチャした画像ごとにラベルを正確に予測し、類似度を測定する。 このシステムは、カーソル移動、左クリック、右クリックのアクションで定義されたコマンドを組み込む。 実験結果から,提案アルゴリズムは91.88%の精度を達成し,その適用可能性を示した。

This paper presents a user interface designed to enable computer cursor control through hand detection and gesture classification. A comprehensive hand dataset comprising 6720 image samples was collected, encompassing four distinct classes: fist, palm, pointing to the left, and pointing to the right. The images were captured from 15 individuals in various settings, including simple backgrounds with different perspectives and lighting conditions. A convolutional neural network (CNN) was trained on this dataset to accurately predict labels for each captured image and measure their similarity. The system incorporates defined commands for cursor movement, left-click, and right-click actions. Experimental results indicate that the proposed algorithm achieves a remarkable accuracy of 91.88% and demonstrates its potential applicability across diverse backgrounds.
翻訳日:2023-06-14 03:38:11 公開日:2023-06-09
# deep visual geo-localization benchmark (英語)

Deep Visual Geo-localization Benchmark ( http://arxiv.org/abs/2204.03444v2 )

ライセンス: Link先を確認
Gabriele Berton, Riccardo Mereu, Gabriele Trivigno, Carlo Masone, Gabriela Csurka, Torsten Sattler, Barbara Caputo(参考訳) 本稿では,ビジュアルジオローカライゼーション(VG)のための新しいオープンソースのベンチマークフレームワークを提案する。このフレームワークは,ジオローカライゼーションパイプラインの個々のコンポーネントを変更する柔軟性を備えた,広く使用されているアーキテクチャの構築,トレーニング,テストを可能にする。 このフレームワークの目的は2つある。 i) VGパイプラインにおける異なるコンポーネントや設計の選択が、パフォーマンス(recall@Nメトリック)とシステム要件(実行時間やメモリ消費など)の両方の最終的な結果にどのように影響するかについての洞察を得る。 二 異なる方法を比較するための体系的な評価プロトコルを確立すること。 提案フレームワークを用いて,使用状況や要件に応じてバックボーン,アグリゲーション,負マイニングを選択するための基準を提供する実験スイートを多数実施した。 また,プリ/ポスト処理,データ拡張,画像リサイジングといったエンジニアリング手法の影響を評価し,画像の解像度を80%までダウンスケールすることで,抽出時間とデータセットのストレージ要件を36%削減できることを示した。 コードとトレーニングされたモデルはhttps://deep-vg-bench.herokuapp.com/で入手できる。

In this paper, we propose a new open-source benchmarking framework for Visual Geo-localization (VG) that allows to build, train, and test a wide range of commonly used architectures, with the flexibility to change individual components of a geo-localization pipeline. The purpose of this framework is twofold: i) gaining insights into how different components and design choices in a VG pipeline impact the final results, both in terms of performance (recall@N metric) and system requirements (such as execution time and memory consumption); ii) establish a systematic evaluation protocol for comparing different methods. Using the proposed framework, we perform a large suite of experiments which provide criteria for choosing backbone, aggregation and negative mining depending on the use-case and requirements. We also assess the impact of engineering techniques like pre/post-processing, data augmentation and image resizing, showing that better performance can be obtained through somewhat simple procedures: for example, downscaling the images' resolution to 80% can lead to similar results with a 36% savings in extraction time and dataset storage requirement. Code and trained models are available at https://deep-vg-bench.herokuapp.com/.
翻訳日:2023-06-14 03:08:52 公開日:2023-06-09
# DiMS: 機械翻訳のための反復非自己回帰変換器の多段蒸留

DiMS: Distilling Multiple Steps of Iterative Non-Autoregressive Transformers for Machine Translation ( http://arxiv.org/abs/2206.02999v2 )

ライセンス: Link先を確認
Sajad Norouzi, Rasa Hosseinzadeh, Felipe Perez, Maksims Volkovs(参考訳) 繰り返し非自己回帰変換器の計算上の利点は復号ステップの数が増えるにつれて減少する。 本稿では, 簡易かつ効果的な蒸留技術であるDistill Multiple Steps (DiMS)を導入し, 一定の翻訳品質に達するために必要なステップ数を削減した。 蒸留モデルは、いくつかの反復的なステップからの強化を保ちながら、初期のイテレーションの計算上の利点を享受する。 DiMSは学生と教師という2つのモデルに依存している。 生徒は複数のデコードステップを経て教師の出力を予測するように最適化され、教師はゆっくり動く平均で生徒を追いかける。 移動平均は教師の知識を更新させ、教師が提供するラベルの品質を高める。 推論の間、学生は翻訳に使われ、追加の計算は追加されない。 我々は,WMT'14 De-Enの蒸留および原版における単一ステップ翻訳精度の7.8および12.9BLEU点精度向上に対するDiMSの有効性を検証する。

The computational benefits of iterative non-autoregressive transformers decrease as the number of decoding steps increases. As a remedy, we introduce Distill Multiple Steps (DiMS), a simple yet effective distillation technique to decrease the number of required steps to reach a certain translation quality. The distilled model enjoys the computational benefits of early iterations while preserving the enhancements from several iterative steps. DiMS relies on two models namely student and teacher. The student is optimized to predict the output of the teacher after multiple decoding steps while the teacher follows the student via a slow-moving average. The moving average keeps the teacher's knowledge updated and enhances the quality of the labels provided by the teacher. During inference, the student is used for translation and no additional computation is added. We verify the effectiveness of DiMS on various models obtaining 7.8 and 12.9 BLEU points improvements in single-step translation accuracy on distilled and raw versions of WMT'14 De-En.
翻訳日:2023-06-14 03:01:29 公開日:2023-06-09
# ObPose: オブジェクト中心のシーン推論と生成のための3Dモデル

ObPose: Leveraging Pose for Object-Centric Scene Inference and Generation in 3D ( http://arxiv.org/abs/2206.03591v3 )

ライセンス: Link先を確認
Yizhe Wu, Oiwi Parker Jones, Ingmar Posner(参考訳) 本稿では,RGB-Dシーンから3次元構造化された潜在表現を学習するオブジェクト中心推論・生成モデルObPoseを提案する。 2次元表現学習の先行技術に着想を得て、obposeは因子化された潜在空間を考え、対象の位置(場所)と外観(場所)を別々に符号化する。 obposeはさらに、最小体積原理によって定義されるオブジェクトのポーズ(すなわち位置と方向)を、whereコンポーネントを学ぶための新しい帰納的バイアスとして活用する。 そこで本研究では,神経放射場(nerf)から直接物体形状を復元する効率的なボクセル近似手法を提案する。 その結果、ObPoseは各シーンをNeRFの合成としてモデル化し、個々のオブジェクトを豊かに表現する。 学習した表現の質を評価するために,YCB,MultiShapeNet,CLEVRの3次元シーンセグメンテーションにおけるデータセットを定量的に評価し,現状の3Dシーン推論(ObSuRF)を著しく上回った。 生成結果は、同じObPoseモデルが新しいシーンを生成し、その中のオブジェクトを柔軟に編集できるという質的なデモを提供する。 これらの能力は、学習した潜伏者の質と、シーンのどの構成要素と場所を遠ざける利点を再び反映している。 obposeエンコーダで鍵となる設計選択はアブレーションによって検証される。

We present ObPose, an unsupervised object-centric inference and generation model which learns 3D-structured latent representations from RGB-D scenes. Inspired by prior art in 2D representation learning, ObPose considers a factorised latent space, separately encoding object location (where) and appearance (what). ObPose further leverages an object's pose (i.e. location and orientation), defined via a minimum volume principle, as a novel inductive bias for learning the where component. To achieve this, we propose an efficient, voxelised approximation approach to recover the object shape directly from a neural radiance field (NeRF). As a consequence, ObPose models each scene as a composition of NeRFs, richly representing individual objects. To evaluate the quality of the learned representations, ObPose is evaluated quantitatively on the YCB, MultiShapeNet, and CLEVR datatasets for unsupervised scene segmentation, outperforming the current state-of-the-art in 3D scene inference (ObSuRF) by a significant margin. Generative results provide qualitative demonstration that the same ObPose model can both generate novel scenes and flexibly edit the objects in them. These capacities again reflect the quality of the learned latents and the benefits of disentangling the where and what components of a scene. Key design choices made in the ObPose encoder are validated with ablations.
翻訳日:2023-06-14 02:47:26 公開日:2023-06-09
# cuts: 医療用画像セグメンテーションのための教師なしフレームワーク

CUTS: A Fully Unsupervised Framework for Medical Image Segmentation ( http://arxiv.org/abs/2209.11359v3 )

ライセンス: Link先を確認
Chen Liu, Matthew Amodio, Liangbo L. Shen, Feng Gao, Arman Avesta, Sanjay Aneja, Jay Wang, Lucian V. Del Priore, Smita Krishnaswamy(参考訳) この研究では、ラベル付けや注釈付けされていない画像データの大部分をうまく活用するために、医学画像セグメンテーションのための、初めて完全に教師なしのディープラーニングフレームワークであるcuts(contrastive and unsupervised training for segmentation)を紹介します。 医用画像の分離は、患者の診断と定量的研究を促進する重要な課題である。 主な制限要因はラベル付きデータの欠如である。新しい画像データやタスクのセットごとに専門家のアノテーションを取得することは、アノテータ間でコストがかかり、労力がかかり、一貫性がない。 そこで,画素とその周辺地域からの自己スーパービジョンを画像自身で活用する。 教師なしのアプローチは、コントラスト学習や自動エンコーディングの概念を活用するトレーニング目標を最適化します。 従来の作業とは対照的に,どの段階においてもラベル付きデータに頼ることなく,新たな2段階のアプローチで医療画像をセグメント化する。 最初の段階は、高次元の潜在埋め込み空間におけるベクトル表現を用いて、周囲のパッチと共にすべてのピクセルを埋め込む「ピクセル中心のパッチ」を作成することである。 第2段階は、多スケールの位相データ解析手法である拡散凝縮を用いて、これらの埋め込みベクトルを任意のレベルの粒度で動的に粗粒化する。 最終的な結果は、様々なスケールで画像構造をハイライトする粗い部分分割のシリーズである。 自然画像,網膜基底画像,脳MRI画像のマルチスケールセグメンテーションに成功した。 本フレームワークは,臨床解釈に関連のある異なる情報を伝達する構造やパターンを,異なるスケールで記述する。 ラベルに頼らずに複数の意味のある粒度の医療画像の分節化の問題に取り組む中で, 今後, 退屈かつ反復的な手動アノテーションの回避の可能性を示す。

In this work we introduce CUTS (Contrastive and Unsupervised Training for Segmentation), the first fully unsupervised deep learning framework for medical image segmentation to better utilize the vast majority of imaging data that is not labeled or annotated. Segmenting medical images is a critical task for facilitating both patient diagnoses and quantitative research. A major limiting factor is the lack of labeled data, as obtaining expert annotations for each new set of imaging data or task can be expensive, labor intensive, and inconsistent across annotators. Thus, we utilize self-supervision from pixels and their local neighborhoods in the images themselves. Our unsupervised approach optimizes a training objective that leverages concepts from contrastive learning and autoencoding. In contrast to prior work, our framework segments medical images with a novel two-stage approach without relying on any labeled data at any stage. The first stage involves the creation of a "pixel-centered patch" that embeds every pixel along with its surrounding patch, using a vector representation in a high-dimensional latent embedding space. The second stage utilizes diffusion condensation, a multi-scale topological data analysis approach, to dynamically coarse-grain these embedding vectors at all levels of granularity. The final outcome is a series of coarse-to-fine segmentations that highlight image structures at various scales. We show successful multi-scale segmentation on natural images, retinal fundus images, and brain MRI images. Our framework delineates structures and patterns at different scales which may carry distinct information relevant to clinical interpretation. As we tackle the problem of segmenting medical images at multiple meaningful granularities without relying on any label, we demonstrate the possibility to circumvent tedious and repetitive manual annotations in future practice.
翻訳日:2023-06-14 02:42:45 公開日:2023-06-09
# 遅延ニューロン現象:トランスフォーマーの活性化空間の出現について

The Lazy Neuron Phenomenon: On Emergence of Activation Sparsity in Transformers ( http://arxiv.org/abs/2210.06313v2 )

ライセンス: Link先を確認
Zonglin Li, Chong You, Srinadh Bhojanapalli, Daliang Li, Ankit Singh Rawat, Sashank J. Reddi, Ke Ye, Felix Chern, Felix Yu, Ruiqi Guo, Sanjiv Kumar(参考訳) 本稿では,そのアクティベーションマップがばらばらであるトランスフォーマーアーキテクチャを用いた機械学習モデルにおける奇妙な現象について検討する。 アクティベーションマップでは、ReLUアクティベーション関数の後に多層パーセプトロン(MLP)の中間出力を参照し、スパースでは、平均的にごく少数のエントリ(T5-Baseは3.0%、ViT-B16は6.3%)がMLPへの入力毎にゼロでないことを意味する。 さらに、より多くの層と広いMLP隠れ次元を持つ大きなトランスフォーマーは、非ゼロエントリの割合によって測定されるスペーサーである。 広範にわたる実験を通して、空間空間の出現は、自然言語処理と視覚タスクの両方、訓練と評価データ、様々な構成のトランスフォーマー、すべての深さレベルの層、およびMLPミキサーや2層MLPといった他のアーキテクチャにおいて起こる現象であることを示した。 また,ランダムラベルやランダム入力,無限量のデータを用いたデータセットのトレーニングによって,スパーシティが出現することを示し,スパーシティがデータセットの特定のファミリーの結果ではないことを示す。 本稿では,変換器のFLOP数を大幅に削減し,効率を向上する方法について論じる。 さらに,k値の少ないトップkしきい値でさらにスパルサーのアクティベーションを強制することで,ノイズの少ないトレーニングデータに対する感度の低下,入力汚損に対する堅牢性の向上,予測信頼度に対するキャリブレーション向上といったトランスフォーマーの望ましいが欠落した特性のコレクションが実現できることは,おそらく驚くべきことである。

This paper studies the curious phenomenon for machine learning models with Transformer architectures that their activation maps are sparse. By activation map we refer to the intermediate output of the multi-layer perceptrons (MLPs) after a ReLU activation function, and by sparse we mean that on average very few entries (e.g., 3.0% for T5-Base and 6.3% for ViT-B16) are nonzero for each input to MLP. Moreover, larger Transformers with more layers and wider MLP hidden dimensions are sparser as measured by the percentage of nonzero entries. Through extensive experiments we demonstrate that the emergence of sparsity is a prevalent phenomenon that occurs for both natural language processing and vision tasks, on both training and evaluation data, for Transformers of various configurations, at layers of all depth levels, as well as for other architectures including MLP-mixers and 2-layer MLPs. We show that sparsity also emerges using training datasets with random labels, or with random inputs, or with infinite amount of data, demonstrating that sparsity is not a result of a specific family of datasets. We discuss how sparsity immediately implies a way to significantly reduce the FLOP count and improve efficiency for Transformers. Moreover, we demonstrate perhaps surprisingly that enforcing an even sparser activation via Top-k thresholding with a small value of k brings a collection of desired but missing properties for Transformers, namely less sensitivity to noisy training data, more robustness to input corruptions, and better calibration for their prediction confidence.
翻訳日:2023-06-14 02:31:29 公開日:2023-06-09
# インバータへの学習:フェデレーション学習における勾配インバージョンに対する単純な適応攻撃

Learning to Invert: Simple Adaptive Attacks for Gradient Inversion in Federated Learning ( http://arxiv.org/abs/2210.10880v2 )

ライセンス: Link先を確認
Ruihan Wu, Xiangyu Chen, Chuan Guo, Kilian Q. Weinberger(参考訳) グラデーションインバージョンアタックは、フェデレーション学習(fl)におけるモデルグラデーションからのトレーニングサンプルのリカバリを可能にし、データプライバシに対する深刻な脅威となる。 この脆弱性を軽減するため、先行研究は差分プライバシーに基づく原則防御と、勾配圧縮に基づくヒューリスティック防御の両方を対策として提案した。 これらの防御はこれまでにも非常に効果的であり、特に勾配圧縮に基づく攻撃の有効性を大幅に低減しつつ高い精度を維持することができる。 本研究では,FLのプライバシーリスクを過小評価している。 例えば、補助データに基づいて訓練されたモデルが視覚と言語の両方のタスクの勾配を反転させることができる単純な適応攻撃によって、既存の防御を破ることができることを示す。

Gradient inversion attack enables recovery of training samples from model gradients in federated learning (FL), and constitutes a serious threat to data privacy. To mitigate this vulnerability, prior work proposed both principled defenses based on differential privacy, as well as heuristic defenses based on gradient compression as countermeasures. These defenses have so far been very effective, in particular those based on gradient compression that allow the model to maintain high accuracy while greatly reducing the effectiveness of attacks. In this work, we argue that such findings underestimate the privacy risk in FL. As a counterexample, we show that existing defenses can be broken by a simple adaptive attack, where a model trained on auxiliary data is able to invert gradients on both vision and language tasks.
翻訳日:2023-06-14 02:19:43 公開日:2023-06-09
# 準カオス量子スクランブラのための効率的なデコーダの学習

Learning efficient decoders for quasi-chaotic quantum scramblers ( http://arxiv.org/abs/2212.11338v3 )

ライセンス: Link先を確認
Lorenzo Leone, Salvatore F.E. Oliviero, Seth Lloyd and Alioscia Hamma(参考訳) 量子情報のスクランブルは、ランダム化とベンチマークプロトコル、量子カオスの開始、ブラックホール物理学の根底にある重要な特徴である。 この情報を解き放つことは、scrambler[arXiv:1710.03363]の完全な知識によって可能である。 従来のスクランブラーの知識がなくても,効率的なデコーダの構築を可能にする学習アルゴリズムにより,スクランブル情報を検索できることを示す。 驚くべきことに、デコーダは古典的コンピュータ上でクリフォード演算子として効率的に表現できるという意味では古典的である。 古典的デコーダは、完全な量子カオスが存在しない限り、古典的コンピュータ上で「em」が効率的にシミュレートできないようなランダムユニタリによってスクランブルされた全ての情報を忠実に取り出すことができる。 この結果は、量子ユニタリのサルエント性質を古典形式に学習することができ、量子カオスの意味に新しい光を当てることを示している。 さらに、t$ドープクリフォード回路、すなわちt非クリフォードゲートを含むクリフォード回路の代数的構造、それらのゲート複雑性、および独立した興味を持つ学習可能性に関する新たな結果を得る。 特に、$t$ドープクリフォード回路はゲート複雑性$\mathcal{O}(n^2\log^{-1}n+t^3\log^{-1}t)$であり、$\mathcal{O}(poly(n)\exp(t))$リソースで学習可能であることを示す。

Scrambling of quantum information is an important feature at the root of randomization and benchmarking protocols, the onset of quantum chaos, and black-hole physics. Unscrambling this information is possible given perfect knowledge of the scrambler[arXiv:1710.03363]. We show that one can retrieve the scrambled information even without any previous knowledge of the scrambler, by a learning algorithm that allows the building of an efficient decoder. Remarkably, the decoder is classical in the sense that it can be efficiently represented on a classical computer as a Clifford operator. It is striking that a classical decoder can retrieve with fidelity one all the information scrambled by a random unitary that {\em cannot} be efficiently simulated on a classical computer, as long as there is no full-fledged quantum chaos. This result shows that one can learn the salient properties of quantum unitaries in a classical form, and sheds a new light on the meaning of quantum chaos. Furthermore, we obtain novel results concerning the algebraic structure of $t$-doped Clifford circuits, i.e. Clifford circuits containing t non-Clifford gates, their gate complexity, and learnability that are of independent interest. In particular, we show that a $t$-doped Clifford circuit has gate complexity $\mathcal{O}(n^2\log^{-1}n+t^3\log^{-1}t)$ and can be learned with $\mathcal{O}(poly(n)\exp(t))$ resources.
翻訳日:2023-06-14 01:51:14 公開日:2023-06-09
# 位相次数の三分割における絡み合い:図式的アプローチ

Entanglement in tripartitions of topological orders: a diagrammatic approach ( http://arxiv.org/abs/2301.07763v3 )

ライセンス: Link先を確認
Ramanjit Sohal, Shinsei Ryu(参考訳) 近年の研究では、三成分の絡み合いの測度は、二成分の絡み合いが敏感でない位相的に順序付けられた位相を特徴付けるデータを探索できることが示されている。 これらの観測に動機づけられ、エノン図式によるボソニック位相秩序の三分法において、反射エントロピーと対数ネガティビティ、混合状態絡み合い測度を計算した。 3つの部分領域が三分節と四分節で交わる三分節を考える。 前者の場合、アベリア順序と非アベリア順序を区別する負性への寄与を見出す一方、後者では、反射エントロピーに対する明確な普遍的な寄与を見出す。 最後に、反射エントロピーと反射エントロピーの差として定義されたマルコフギャップが消滅しないようなエノン三量体を挿入する構成に対して、負のエントロピーと反射エントロピーが$F$-シンボルに敏感であることを示す。

Recent studies have demonstrated that measures of tripartite entanglement can probe data characterizing topologically ordered phases to which bipartite entanglement is insensitive. Motivated by these observations, we compute the reflected entropy and logarithmic negativity, a mixed state entanglement measure, in tripartitions of bosonic topological orders using the anyon diagrammatic formalism. We consider tripartitions in which three subregions meet at trijunctions and tetrajunctions. In the former case, we find a contribution to the negativity which distinguishes between Abelian and non-Abelian order while in the latter, we find a distinct universal contribution to the reflected entropy. Finally, we demonstrate that the negativity and reflected entropy are sensitive to the $F$-symbols for configurations in which we insert an anyon trimer, for which the Markov gap, defined as the difference between the reflected entropy and mutual information, is also found to be non-vanishing.
翻訳日:2023-06-14 01:42:32 公開日:2023-06-09
# フェルミオン埋め込みによる量子最適化の範囲拡大

Expanding the reach of quantum optimization with fermionic embeddings ( http://arxiv.org/abs/2301.01778v2 )

ライセンス: Link先を確認
Andrew Zhao, Nicholas C. Rubin(参考訳) 直交行列上の二次計画法は、効率的な量子表現を持たない幅広い最適化問題を包含する。 そのような問題は、連続な非可換変数への二項二次プログラムの一般化である小さな非可換グロタンディーク問題 (LNCG) の例である。 本研究では,この種類のlncg問題をフェルミオンハミルトニアンに自然に埋め込み,量子情報のツールを用いて古典問題の研究を可能にする。 この埋め込みは、フェルミオン量子状態として表せる二重被覆を持つ直交群を同定することで達成される。 対応する埋め込み lncg hamiltonian は二体フェルミオンモデルである。 このハミルトン状態の決定は、古典半定値緩和の量子アナログである元の問題に対する外近似を与える。 特に、特殊直交群を最適化する場合、量子緩和は回転行列の凸包に基づく追加の強力な制約に従う。 この凸ハル表現の古典的大きさは行列次元において指数関数的であり、我々の量子表現は線形数の量子ビットしか必要としない。 最後に、緩和された解を実現可能な空間に投影するために、量子状態の適切な測定から直交行列を返すラウンドリング手順を提案する。 数値実験を通じて、この丸い量子緩和が高品質な近似を生み出すことを示す。

Quadratic programming over orthogonal matrices encompasses a broad class of hard optimization problems that do not have an efficient quantum representation. Such problems are instances of the little noncommutative Grothendieck problem (LNCG), a generalization of binary quadratic programs to continuous, noncommutative variables. In this work, we establish a natural embedding for this class of LNCG problems onto a fermionic Hamiltonian, thereby enabling the study of this classical problem with the tools of quantum information. This embedding is accomplished by identifying the orthogonal group with its double cover, which can be represented as fermionic quantum states. Correspondingly, the embedded LNCG Hamiltonian is a two-body fermion model. Determining extremal states of this Hamiltonian provides an outer approximation to the original problem, a quantum analogue to classical semidefinite relaxations. In particular, when optimizing over the special orthogonal group our quantum relaxation obeys additional, powerful constraints based on the convex hull of rotation matrices. The classical size of this convex-hull representation is exponential in matrix dimension, whereas our quantum representation requires only a linear number of qubits. Finally, to project the relaxed solution back into the feasible space, we propose rounding procedures which return orthogonal matrices from appropriate measurements of the quantum state. Through numerical experiments we provide evidence that this rounded quantum relaxation can produce high-quality approximations.
翻訳日:2023-06-14 01:41:16 公開日:2023-06-09
# インスタントNGP加速型NeRFとD-NeRFを用いた非協調型宇宙物体の3次元再構成

3D Reconstruction of Non-cooperative Resident Space Objects using Instant NGP-accelerated NeRF and D-NeRF ( http://arxiv.org/abs/2301.09060v3 )

ライセンス: Link先を確認
Basilio Caruso and Trupti Mahendrakar and Van Minh Nguyen and Ryan T. White and Todd Steffen(参考訳) 軌道上での非協力的な宇宙物体(RSOs)の増殖は、アクティブな宇宙デブリ除去、軌道上サービシング(OOS)、分類、機能同定の要求を刺激している。 近年のコンピュータビジョンの進歩により、異なる角度から撮影された2次元画像群に基づくオブジェクトの高精細な3次元モデリングが可能になっている。 この研究は、Instant NeRFとD-NeRF、ニューラル放射場(NeRF)アルゴリズムのバリエーションを、機能同定とOOSのアシストのために軌道上のROSをマッピングする問題に適用する。 これらのアルゴリズムは、フロリダ工科大学のOrbital Robotic Interaction, On-Orbit Servicing and Navigation (ORION) Laboratoryにおいて、2つの異なる照明と運動条件下で撮影された宇宙船モックアップの画像のデータセットを用いて、3D再構成の品質とハードウェア要件を評価する。 Instant NeRFは、計算コストで高忠実度3Dモデルを学習し、オンボードコンピュータでトレーニングできることが示されている。

The proliferation of non-cooperative resident space objects (RSOs) in orbit has spurred the demand for active space debris removal, on-orbit servicing (OOS), classification, and functionality identification of these RSOs. Recent advances in computer vision have enabled high-definition 3D modeling of objects based on a set of 2D images captured from different viewing angles. This work adapts Instant NeRF and D-NeRF, variations of the neural radiance field (NeRF) algorithm to the problem of mapping RSOs in orbit for the purposes of functionality identification and assisting with OOS. The algorithms are evaluated for 3D reconstruction quality and hardware requirements using datasets of images of a spacecraft mock-up taken under two different lighting and motion conditions at the Orbital Robotic Interaction, On-Orbit Servicing and Navigation (ORION) Laboratory at Florida Institute of Technology. Instant NeRF is shown to learn high-fidelity 3D models with a computational cost that could feasibly be trained on on-board computers.
翻訳日:2023-06-14 01:30:17 公開日:2023-06-09
# Certification Paradox: より良い攻撃を許容する認定

The Certification Paradox: Certifications Admit Better Attacks ( http://arxiv.org/abs/2302.04379v2 )

ライセンス: Link先を確認
Andrew C. Cullen, Shijie Liu, Paul Montague, Sarah M. Erfani, Benjamin I.P. Rubinstein(参考訳) 境界領域内に敵の例が存在しないことを保証するため、認証機構はニューラルネットワークの堅牢性を示す上で重要な役割を果たす。 認定モデルに関する追加情報を公開することで、認証は意図しない結果をもたらすのでしょうか? 我々はこの問いに肯定的に答え、認証がモデルの堅牢性を測定するだけでなく、新たな攻撃面を示すことを実証する。 我々は,認証モデルに対して開始された場合,従来の手法の2倍以上の頻度で,より小さな敵の摂動を発生させる \emph{certification aware attacks} を提案する。 私たちの攻撃は、平均摂動ノルム(ターゲットインスタンスと攻撃インスタンスの比較)を最大$34\%$の削減を実現しますが、pgdのようなアプローチよりも計算時間90 \%$を必要とします。 我々の攻撃が摂動サイズと計算コストの大幅な削減を達成したことは、認証機構の展開における明らかなパラドックスを浮き彫りにする。 我々は、これらのリスクを緩和する可能性について、論文を締めくくります。

In guaranteeing that no adversarial examples exist within a bounded region, certification mechanisms play an important role in demonstrating the robustness of neural networks. In this work we ask: Could certifications have any unintended consequences, through exposing additional information about certified models? We answer this question in the affirmative, demonstrating that certifications not only measure model robustness but also present a new attack surface. We propose \emph{Certification Aware Attacks}, that produce smaller adversarial perturbations more than twice as frequently as any prior approach, when launched against certified models. Our attacks achieve an up to $34\%$ reduction in the median perturbation norm (comparing target and attack instances), while requiring $90 \%$ less computational time than approaches like PGD. That our attacks achieve such significant reductions in perturbation size and computational cost highlights an apparent paradox in deploying certification mechanisms. We end the paper with a discussion of how these risks could potentially be mitigated.
翻訳日:2023-06-14 01:23:42 公開日:2023-06-09
# 個人再同定システムにおけるデータ拡張のための生成型adversarial networkの検討

A Review on Generative Adversarial Networks for Data Augmentation in Person Re-Identification Systems ( http://arxiv.org/abs/2302.09119v3 )

ライセンス: Link先を確認
Victor Uc-Cetina, Laura Alvarez-Gonzalez, Anabel Martin-Gonzalez(参考訳) 近年,監視ソフトやスマートショップソフトの開発を中心に,自動人物識別システムへの関心が高まっている。 人物の姿勢の変化、異なる照明条件、オクルードされたシナリオ、異なるカメラで得られた画像の質の悪さなどにより、現在未解決の問題となっている。 データセットを減らした機械学習ベースのコンピュータビジョンアプリケーションでは、ニューラルモデルのトレーニングに利用可能な画像やビデオの集合を拡大することで、再識別システムの性能を改善する可能性がある。 現在、データ拡張のための合成情報を生成する最も堅牢な方法の1つは、ビデオ、画像、テキストである。 本稿では,データ拡張による人物再識別モデルの性能向上に最も関連性の高いアプローチを,生成的敵ネットワークを用いて概説する。 データ拡張アプローチでは,スタイル転送,ポーズ転送,ランダム生成という3つのカテゴリに注目した。

Interest in automatic people re-identification systems has significantly grown in recent years, mainly for developing surveillance and smart shops software. Due to the variability in person posture, different lighting conditions, and occluded scenarios, together with the poor quality of the images obtained by different cameras, it is currently an unsolved problem. In machine learning-based computer vision applications with reduced data sets, one possibility to improve the performance of re-identification system is through the augmentation of the set of images or videos available for training the neural models. Currently, one of the most robust ways to generate synthetic information for data augmentation, whether it is video, images or text, are the generative adversarial networks. This article reviews the most relevant recent approaches to improve the performance of person re-identification models through data augmentation, using generative adversarial networks. We focus on three categories of data augmentation approaches: style transfer, pose transfer, and random generation.
翻訳日:2023-06-14 01:12:20 公開日:2023-06-09
# クラウドベースのイベントトランジェンスにおけるプッシュの早期検出のためのディープラーニングフレームワーク

A Cloud-based Deep Learning Framework for Early Detection of Pushing at Crowded Event Entrances ( http://arxiv.org/abs/2302.08237v2 )

ライセンス: Link先を確認
Ahmed Alia, Mohammed Maree, Mohcine Chraibi, Anas Toma and Armin Seyfried(参考訳) 大きなイベントの入り口に群がると、特に人々がより早くイベントに到達するために互いに押し合い始めると、危機的かつ命が危うくなる。 プッシュ行動の自動的かつタイムリーな識別は、組織や治安部隊が早期に介入し、危険な状況を軽減するのに役立つ。 本稿では,混雑したイベント入口におけるプッシュの自動早期検出のためのクラウドベースのディープラーニングフレームワークを提案する。 提案されたフレームワークは当初、efficiernetv2b0畳み込みニューラルネットワークモデルを修正およびトレーニングする。 その後、適応モデルと高精度で高速に訓練された深層光フローモデルとカラーホイール法を統合し、ビデオストリームを分析し、プッシュパッチをリアルタイムで識別する。 さらに、このフレームワークはライブキャプチャ技術とクラウドベースの環境を使用して、リアルタイムで群衆のビデオストリームを収集し、初期段階の結果を提供する。 5つの実世界の実験とその関連する真実データに基づいて新しいデータセットを生成し、適応されたEfficientNetV2B0モデルをトレーニングする。 実験は混雑したイベントの入り口をシミュレートし、各ビデオ実験の根拠は社会心理学者が手動で作り出した。 提案フレームワークの精度とアノテーション遅延時間を評価するために,ビデオと生成されたデータセットに関するいくつかの実験を行った。 実験の結果,提案フレームワークは,適切な遅延時間内に,精度87%のプッシュ動作を同定した。

Crowding at the entrances of large events may lead to critical and life-threatening situations, particularly when people start pushing each other to reach the event faster. Automatic and timely identification of pushing behavior would help organizers and security forces to intervene early and mitigate dangerous situations. In this paper, we propose a cloud-based deep learning framework for automatic early detection of pushing in crowded event entrances. The proposed framework initially modifies and trains the EfficientNetV2B0 Convolutional Neural Network model. Subsequently, it integrates the adapted model with an accurate and fast pre-trained deep optical flow model with the color wheel method to analyze video streams and identify pushing patches in real-time. Moreover, the framework uses live capturing technology and a cloud-based environment to collect video streams of crowds in real-time and provide early-stage results. A novel dataset is generated based on five real-world experiments and their associated ground truth data to train the adapted EfficientNetV2B0 model. The experimental setups simulated a crowded event entrance, while the ground truths for each video experiment was generated manually by social psychologists. Several experiments on the videos and the generated dataset are carried out to evaluate the accuracy and annotation delay time of the proposed framework. The experimental results show that the proposed framework identified pushing behaviors with an accuracy rate of 87% within a reasonable delay time.
翻訳日:2023-06-14 01:11:30 公開日:2023-06-09
# Wasserstein Believer:Reliable Latent Space Modelによる部分観測可能な環境に対する信頼度更新の学習

The Wasserstein Believer: Learning Belief Updates for Partially Observable Environments through Reliable Latent Space Models ( http://arxiv.org/abs/2303.03284v2 )

ライセンス: Link先を確認
Raphael Avalos, Florent Delgrange, Ann Now\'e, Guillermo A. P\'erez, Diederik M. Roijers(参考訳) 部分的に観測可能なマルコフ決定プロセス(POMDP)は、エージェントによって完全な状態が認識できない環境をモデル化するための有用なツールである。 このように、エージェントは過去の観察と行動を考慮する必要がある。 しかし、歴史空間の指数的な成長のため、単に歴史全体を記憶することは一般的に難解である。 真の状態に関する信念をモデル化する確率分布を維持することは、歴史の十分な統計量として使用できるが、その計算には環境のモデルへのアクセスが必要であり、また難解である。 state-of-the-artアルゴリズムは、再帰的なニューラルネットワークを使用して、十分な統計値の学習を目的とした観測行動履歴を圧縮する。 そこで本研究では,pomdpの潜在モデルと信念更新の近似を学習するrlアルゴリズムであるwasserstein belief updaterを提案する。 我々のアプローチは、我々の出力された信念が最適な値関数を学習できるように、近似の品質に関する理論的保証が伴う。

Partially Observable Markov Decision Processes (POMDPs) are useful tools to model environments where the full state cannot be perceived by an agent. As such the agent needs to reason taking into account the past observations and actions. However, simply remembering the full history is generally intractable due to the exponential growth in the history space. Keeping a probability distribution that models the belief over what the true state is can be used as a sufficient statistic of the history, but its computation requires access to the model of the environment and is also intractable. State-of-the-art algorithms use Recurrent Neural Networks to compress the observation-action history aiming to learn a sufficient statistic, but they lack guarantees of success and can lead to sub-optimal policies. To overcome this, we propose the Wasserstein Belief Updater, an RL algorithm that learns a latent model of the POMDP and an approximation of the belief update. Our approach comes with theoretical guarantees on the quality of our approximation ensuring that our outputted beliefs allow for learning the optimal value function.
翻訳日:2023-06-14 01:03:40 公開日:2023-06-09
# ChatGPT:すべての取引のジャック、何のマスターも

ChatGPT: Jack of all trades, master of none ( http://arxiv.org/abs/2302.10724v4 )

ライセンス: Link先を確認
Jan Koco\'n, Igor Cichecki, Oliwier Kaszyca, Mateusz Kochanek, Dominika Szyd{\l}o, Joanna Baran, Julita Bielaniewicz, Marcin Gruza, Arkadiusz Janz, Kamil Kanclerz, Anna Koco\'n, Bart{\l}omiej Koptyra, Wiktoria Mieleszczenko-Kowszewicz, Piotr Mi{\l}kowski, Marcin Oleksy, Maciej Piasecki, {\L}ukasz Radli\'nski, Konrad Wojtasik, Stanis{\l}aw Wo\'zniak, Przemys{\l}aw Kazienko(参考訳) openaiはチャット生成型事前学習トランスフォーマー(chatgpt)をリリースし、人工知能のヒューマンモデルインタラクションへのアプローチに革命をもたらした。 chatgpt評価に関するいくつかの出版物は、よく知られた自然言語処理(nlp)タスクの有効性をテストする。 しかし、既存の研究はほとんど自動化されておらず、非常に限定的な規模でテストされている。 本研究では,感情分析,感情認識,不快感,姿勢検出など,人間に対しても主観的であった25の多様分析nlpタスクにおけるchatgptの能力について検討した。 対照的に、他のタスクは、言葉感覚の曖昧さ、言語的受容性、質問応答のようなより客観的な推論を必要とする。 NLPタスクの5つのサブセットに対してGPT-4モデルの評価を行った。 われわれはChatGPTとGPT-4のプロンプト処理を自動化し,49k以上の応答を解析した。 この結果とSOTA(State-of-the-Art)を比較したところ、ChatGPTモデルの平均損失はゼロショットおよび少数ショット評価で約25%であった。 GPT-4モデルでは、意味的タスクの損失はChatGPTよりも大幅に小さい。 その結果、タスク(より低いSOTA性能)が困難であるほど、ChatGPT損失が大きくなることがわかった。 特に感情認識のような現実的なNLP問題を指す。 また,ランダム・コンテクスト・フューショット・パーソナライゼーションにより,選択した主観的タスクに対するChatGPT応答をパーソナライズする機能についても検証した。 さらなる質的分析により、openaiによる人間のトレーナーに課された規則によって、chatgptバイアスが明らかにされた。 本研究は,最近の予測型NLPモデルの高品質化が,ツールの社会への有用性や,そのようなシステムに対する学習・検証手順の確立に寄与するかどうか,基本的な議論の基盤となるものである。

OpenAI has released the Chat Generative Pre-trained Transformer (ChatGPT) and revolutionized the approach in artificial intelligence to human-model interaction. Several publications on ChatGPT evaluation test its effectiveness on well-known natural language processing (NLP) tasks. However, the existing studies are mostly non-automated and tested on a very limited scale. In this work, we examined ChatGPT's capabilities on 25 diverse analytical NLP tasks, most of them subjective even to humans, such as sentiment analysis, emotion recognition, offensiveness, and stance detection. In contrast, the other tasks require more objective reasoning like word sense disambiguation, linguistic acceptability, and question answering. We also evaluated GPT-4 model on five selected subsets of NLP tasks. We automated ChatGPT and GPT-4 prompting process and analyzed more than 49k responses. Our comparison of its results with available State-of-the-Art (SOTA) solutions showed that the average loss in quality of the ChatGPT model was about 25% for zero-shot and few-shot evaluation. For GPT-4 model, a loss for semantic tasks is significantly lower than for ChatGPT. We showed that the more difficult the task (lower SOTA performance), the higher the ChatGPT loss. It especially refers to pragmatic NLP problems like emotion recognition. We also tested the ability to personalize ChatGPT responses for selected subjective tasks via Random Contextual Few-Shot Personalization, and we obtained significantly better user-based predictions. Additional qualitative analysis revealed a ChatGPT bias, most likely due to the rules imposed on human trainers by OpenAI. Our results provide the basis for a fundamental discussion of whether the high quality of recent predictive NLP models can indicate a tool's usefulness to society and how the learning and validation procedures for such systems should be established.
翻訳日:2023-06-14 01:01:12 公開日:2023-06-09
# マルチモーダルc4:テキストとインターリーブされた10億規模の画像コーパス

Multimodal C4: An Open, Billion-scale Corpus of Images Interleaved with Text ( http://arxiv.org/abs/2304.06939v2 )

ライセンス: Link先を確認
Wanrong Zhu and Jack Hessel and Anas Awadalla and Samir Yitzhak Gadre and Jesse Dodge and Alex Fang and Youngjae Yu and Ludwig Schmidt and William Yang Wang and Yejin Choi(参考訳) コンテキスト内ビジョンとflamingoのような言語モデルは、入力として画像とテキストの任意にインターリーブされたシーケンスをサポートする。 このフォーマットは、独立した教師付き(画像、テキスト)例をインターリーブすることで、少数のショット学習を可能にするだけでなく、画像間のインタラクションを含むより複雑なプロンプト、例えば「画像aと画像bの共通点は何か? このインターフェースをサポートするために、インターリーブされた画像+テキストを含むウェブコーパス上でプレトレーニングが行われる。 しかし、現在までこの形式の大規模データは公開されていない。 画像がインターリーブされた人気テキスト専用C4コーパスの拡張であるMultimodal C4をリリースする。 線形代入アルゴリズムを用いて、CLIP機能を用いて、画像の長文体への配置を行う。 マルチモーダルC4は、料理、旅行、技術などの日常的なトピックにまたがる。 ランダムな文書のサンプルを手作業で検査すると、画像の大多数(88%)が局所的に関連しており、線形代入が各画像(80%)に特によく一致する個々の文を頻繁に選択する。 NSFW画像や広告等をフィルタリングした後、得られたコーパスは101.2Mの文書からなり、43Bの英語トークンに571Mの画像をインターリーブした。

In-context vision and language models like Flamingo support arbitrarily interleaved sequences of images and text as input. This format not only enables few-shot learning via interleaving independent supervised (image, text) examples, but also, more complex prompts involving interaction between images, e.g., "What do image A and image B have in common?" To support this interface, pretraining occurs over web corpora that similarly contain interleaved images+text. To date, however, large-scale data of this form have not been publicly available. We release Multimodal C4, an augmentation of the popular text-only C4 corpus with images interleaved. We use a linear assignment algorithm to place images into longer bodies of text using CLIP features, a process that we show outperforms alternatives. Multimodal C4 spans everyday topics like cooking, travel, technology, etc. A manual inspection of a random sample of documents shows that a vast majority (88%) of images are topically relevant, and that linear assignment frequently selects individual sentences specifically well-aligned with each image (80%). After filtering NSFW images, ads, etc., the resulting corpus consists of 101.2M documents with 571M images interleaved in 43B English tokens.
翻訳日:2023-06-14 00:32:52 公開日:2023-06-09
# モデルのスパーシフィケーションは機械学習を単純化する

Model Sparsification Can Simplify Machine Unlearning ( http://arxiv.org/abs/2304.04934v5 )

ライセンス: Link先を確認
Jinghan Jia, Jiancheng Liu, Parikshit Ram, Yuguang Yao, Gaowen Liu, Yang Liu, Pranay Sharma, Sijia Liu(参考訳) 最近のデータ規制要件に応えて、マシンアンラーニング(MU)は、特定のモデルから特定のサンプルの影響を取り除く重要なプロセスとして登場した。 正確なアンラーニングは、残りのデータセットを使った完全なモデルのリトレーニングによって達成できるが、関連する計算コストは、効率的で近似的なアンラーニング技術の開発につながった。 我々の研究は、データ中心のMUアプローチを超えて、新しいモデルベース視点、すなわちウェイトプルーニングによるモデルスペーシフィケーションを導入し、正確なアンラーニングと近似アンラーニングのギャップを減らすことができる。 モデルスパーシリティは、近似的アンラーナーのマルチ基準アンラーニング性能を高め、近似ギャップを閉じながら効率を保ち続けることを理論と実践の両方で示している。 これは新しいMUパラダイムにつながり、まずはPrune、次にはUnlearnと呼ばれ、未学習のプロセスにスパースモデルを注入する。 この知見に基づいて,スパルシティ正規化を利用したスパルシリティ対応学習手法を開発し,近似学習の学習プロセスを強化する。 広範な実験により、我々の提案は様々な未学習シナリオにおいて一貫してmに利益をもたらすことが示された。 77%の未学習の有効性向上(最も単純な未学習手法の1つ)が、スパーシティーを意識した未学習の使用において注目されている。 さらに,バックドア攻撃に対する防御や移動学習の強化など,機械学習の他の課題に対処する上で,提案手法の実践的影響を示す。 コードはhttps://github.com/OPTML-Group/Unlearn-Sparseで入手できる。

In response to recent data regulation requirements, machine unlearning (MU) has emerged as a critical process to remove the influence of specific examples from a given model. Although exact unlearning can be achieved through complete model retraining using the remaining dataset, the associated computational costs have driven the development of efficient, approximate unlearning techniques. Moving beyond data-centric MU approaches, our study introduces a novel model-based perspective: model sparsification via weight pruning, which is capable of reducing the gap between exact unlearning and approximate unlearning. We show in both theory and practice that model sparsity can boost the multi-criteria unlearning performance of an approximate unlearner, closing the approximation gap, while continuing to be efficient. This leads to a new MU paradigm, termed prune first, then unlearn, which infuses a sparse model prior into the unlearning process. Building on this insight, we also develop a sparsity-aware unlearning method that utilizes sparsity regularization to enhance the training process of approximate unlearning. Extensive experiments show that our proposals consistently benefit MU in various unlearning scenarios. A notable highlight is the 77% unlearning efficacy gain of fine-tuning (one of the simplest unlearning methods) when using sparsity-aware unlearning. Furthermore, we demonstrate the practical impact of our proposed MU methods in addressing other machine learning challenges, such as defending against backdoor attacks and enhancing transfer learning. Codes are available at https://github.com/OPTML-Group/Unlearn-Sparse.
翻訳日:2023-06-14 00:31:00 公開日:2023-06-09
# 線形ランダムスパンニング木を用いた高速かつ効果的なGNN訓練

Fast and Effective GNN Training with Linearized Random Spanning Trees ( http://arxiv.org/abs/2306.04828v2 )

ライセンス: Link先を確認
Francesco Bonchi, Claudio Gentile, Andr\'e Panisson, Fabio Vitale(参考訳) グラフ構造化データを用いて,教師付きノード分類タスクにおいて,GNNをトレーニングするための新しい効果的でスケーラブルなフレームワークを提案する。 提案手法は,入力ネットワークから抽出したランダムスパンニング木を線形化することにより得られた経路グラフの列の重み更新操作を改良する。 パスグラフは、元のグラフの本質的なトポロジー情報とノード情報を保持するように設計されている。 同時にパスグラフの幅はより軽量なGNNトレーニングを可能にし、スケーラビリティに加えて、オーバースカッシングやオーバースムーシングといった古典的なトレーニング問題を緩和するのに役立ちます。 我々は,多くの実世界のグラフベンチマークに関する広範な実験を行い,このフレームワークをグラフ畳み込みネットワークに適用し,トレーニング速度とテスト精度を,よく知られたベースラインと比較して同時に改善したことを示す。

We present a new effective and scalable framework for training GNNs in supervised node classification tasks, given graph-structured data. Our approach increasingly refines the weight update operations on a sequence of path graphs obtained by linearizing random spanning trees extracted from the input network. The path graphs are designed to retain essential topological and node information of the original graph. At the same time, the sparsity of path graphs enables a much lighter GNN training which, besides scalability, helps in mitigating classical training issues, like over-squashing and over-smoothing. We carry out an extensive experimental investigation on a number of real-world graph benchmarks, where we apply our framework to graph convolutional networks, showing simultaneous improvement of both training speed and test accuracy, as compared to well-known baselines.
翻訳日:2023-06-13 21:20:38 公開日:2023-06-09
# ディバイドと修復: 対人デモに対する模倣学習のパフォーマンス向上のためのオプションの使用

Divide and Repair: Using Options to Improve Performance of Imitation Learning Against Adversarial Demonstrations ( http://arxiv.org/abs/2306.04581v2 )

ライセンス: Link先を確認
Prithviraj Dasgupta(参考訳) 本研究では,教師や専門家による実演からタスクを実行することの難しさについて考察する。 提案手法は,敵対者によって著しく修正されていない軌道の一部を識別し,時間的に拡張されたポリシーやオプションを用いて学習に活用する手法である。 まず,実験対象の軌跡の空間的特徴と時間的特徴に基づいて,対象とする軌跡の一部を検出・破棄し,学習に用いた場合,学習者の性能を劣化させることのできる軌跡の空間的・時間的特性に基づいて,選択肢に基づくアルゴリズムを用いて,許容可能な軌跡の部分のみから学習する。 提案手法の理論的結果は,学習者の性能を劣化させることなく,部分軌道の修復が実演のサンプル効率を向上させることを示すものである。 そこで,提案手法は,実演されたトラジェクタに対して,異なる種類の攻撃や攻撃の程度が存在する場合に,アタリのようなコンピュータベースのゲームであるルナランダーをプレイすることを学ぶためのものである。 実験結果から,本手法は実演軌跡の逆修正部分を同定し,逆行実験による学習性能の劣化を防止できることが示唆された。

We consider the problem of learning to perform a task from demonstrations given by teachers or experts, when some of the experts' demonstrations might be adversarial and demonstrate an incorrect way to perform the task. We propose a novel technique that can identify parts of demonstrated trajectories that have not been significantly modified by the adversary and utilize them for learning, using temporally extended policies or options. We first define a trajectory divergence measure based on the spatial and temporal features of demonstrated trajectories to detect and discard parts of the trajectories that have been significantly modified by an adversarial expert, and, could degrade the learner's performance, if used for learning, We then use an options-based algorithm that partitions trajectories and learns only from the parts of trajectories that have been determined as admissible. We provide theoretical results of our technique to show that repairing partial trajectories improves the sample efficiency of the demonstrations without degrading the learner's performance. We then evaluate the proposed algorithm for learning to play an Atari-like, computer-based game called LunarLander in the presence of different types and degrees of adversarial attacks of demonstrated trajectories. Our experimental results show that our technique can identify adversarially modified parts of the demonstrated trajectories and successfully prevent the learning performance from degrading due to adversarial demonstrations.
翻訳日:2023-06-13 21:19:06 公開日:2023-06-09
# baa-ngp:バンドル調整型高速化ニューラルグラフィックスプリミティブ

BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives ( http://arxiv.org/abs/2306.04166v2 )

ライセンス: Link先を確認
Sainan Liu, Shan Lin, Jingpei Lu, Shreya Saha, Alexey Supikov, Michael Yip(参考訳) 暗黙的な神経表現は、2d画像から3dシーンを再構築する強力な方法として現れた。 カメラのポーズと関連する画像をセットすれば、モデルは新しく見えないビューを合成するように訓練することができる。 暗黙的な神経表現のユースケースを広げるためには,カメラが一般的に追跡されていない実世界の映像列からシーンを再構築するために必要な表現学習の一環として,カメラのポーズ推定機能を組み込む必要がある。 colmapのような既存のアプローチや、最近では、バンドル調整ニューラルラミアンスフィールドメソッドは、しばしば長い処理時間に苦しむ。 これらの遅延は、時間から日、面倒な特徴マッチング、ハードウェアの制限、高密度点サンプリング、そして多数のパラメータを持つ多層パーセプトロン構造で必要とされる長い訓練時間から生じる。 これらの課題に対処するため,バンドル調整高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。 提案手法は,ポーズリファインメント/推定と3次元シーン再構成の両方を高速化するために,サンプリングとハッシュエンコーディングを高速化する。 実験により,提案手法は,ポーズ推定の品質を犠牲にすることなく,他のバンドル調整型ニューラルラディアンス場法と比較して,新しいビュー合成における10~20ドル以上の速度向上を実現していることが示された。

Implicit neural representation has emerged as a powerful method for reconstructing 3D scenes from 2D images. Given a set of camera poses and associated images, the models can be trained to synthesize novel, unseen views. In order to expand the use cases for implicit neural representations, we need to incorporate camera pose estimation capabilities as part of the representation learning, as this is necessary for reconstructing scenes from real-world video sequences where cameras are generally not being tracked. Existing approaches like COLMAP and, most recently, bundle-adjusting neural radiance field methods often suffer from lengthy processing times. These delays ranging from hours to days, arise from laborious feature matching, hardware limitations, dense point sampling, and long training times required by a multi-layer perceptron structure with a large number of parameters. To address these challenges, we propose a framework called bundle-adjusting accelerated neural graphics primitives (BAA-NGP). Our approach leverages accelerated sampling and hash encoding to expedite both pose refinement/estimation and 3D scene reconstruction. Experimental results demonstrate that our method achieves a more than 10 to 20 $\times$ speed improvement in novel view synthesis compared to other bundle-adjusting neural radiance field methods without sacrificing the quality of pose estimation.
翻訳日:2023-06-13 21:17:26 公開日:2023-06-09
# MEMS加速度計のベイズ校正

Bayesian Calibration of MEMS Accelerometers ( http://arxiv.org/abs/2306.06144v1 )

ライセンス: Link先を確認
Oliver D\"urr, Po-Yu Fan, and Zong-Xian Yin(参考訳) 本研究では,マイクロ・エレクトロメカニカル・システム(MEMS)加速度計の校正におけるベイズ的手法の利用について検討する。 これらの装置は様々な応用にかなりの関心を集めており、通常は誤り訂正機能による校正を必要とする。 これらの誤差補正関数のパラメータは、キャリブレーションプロセス中に決定される。 しかし、様々なノイズ源のため、これらのパラメータは精度で決定できないため、キャリブレーションモデルに不確実性を取り込むことが望ましい。 ベイズモデリングは、モデルパラメータを固定値ではなく変数として扱うことによって不確実性を反映する自然な完全な方法を提供する。 さらに、ベイズモデリングは事前知識の組み入れを可能にし、キャリブレーションの理想的な選択となる。 しかし、センサーの校正にはほとんど使われない。 本研究では,最近の確率的プログラミングの進歩を活かして,mems加速度計データのキャリブレーションにベイズ法を導入する。

This study aims to investigate the utilization of Bayesian techniques for the calibration of micro-electro-mechanical systems (MEMS) accelerometers. These devices have garnered substantial interest in various practical applications and typically require calibration through error-correcting functions. The parameters of these error-correcting functions are determined during a calibration process. However, due to various sources of noise, these parameters cannot be determined with precision, making it desirable to incorporate uncertainty in the calibration models. Bayesian modeling offers a natural and complete way of reflecting uncertainty by treating the model parameters as variables rather than fixed values. Additionally, Bayesian modeling enables the incorporation of prior knowledge, making it an ideal choice for calibration. Nevertheless, it is infrequently used in sensor calibration. This study introduces Bayesian methods for the calibration of MEMS accelerometer data in a straightforward manner using recent advances in probabilistic programming.
翻訳日:2023-06-13 21:00:31 公開日:2023-06-09
# 電気自動車充電ステーションの稼働予測:スマートモビリティの課題

Forecasting Electric Vehicle Charging Station Occupancy: Smarter Mobility Data Challenge ( http://arxiv.org/abs/2306.06142v1 )

ライセンス: Link先を確認
Yvenn Amara-Ouali (EDF R&D), Yannig Goude (EDF R&D), Nathan Doum\`eche (SU, EDF R&D), Pascal Veyret (EDF R&D), Alexis Thomas, Daniel Hebenstreit (TU Graz), Thomas Wedenig (TU Graz), Arthur Satouf, Aymeric Jan, Yannick Deleuze (VeRI), Paul Berhaut, S\'ebastien Treguer, Tiphaine Phe-Neau(参考訳) 輸送部門はヨーロッパにおける温室効果ガス排出の主要な要因である。 低炭素エネルギー混合による電気自動車(EV)へのシフトは、二酸化炭素排出量を減らす。 しかし、電動モビリティの開発を支援するためには、EV充電行動のより深い理解とより正確な予測モデルが必要である。 このギャップを埋めるために、Smarter Mobility Data Challengeは、EV充電ステーションの占有率を予測する予測モデルの開発に注力している。 この課題は、2020-2021年に4つの地理的領域にまたがる91の充電ステーションのデータセットを分析することだった。 予測は、データ固有の階層構造を捉えるために、3つのレベルの集約(個別のステーション、エリア、グローバル)で評価された。 この結果は、EV充電ステーションの占有率を正確に予測するための階層的な予測手法の可能性を強調し、エネルギー提供者やEVユーザーにも貴重な洞察を提供する。 このオープンデータセットは、値の欠如、非定常、時空間相関など、時系列に関連する多くの現実世界の課題に対処する。 データセット、コード、ベンチマークへのアクセスは、将来の研究を促進するためにhttps://gitlab.com/smarter-mobility-data-challenge/tutorialsで利用できる。

The transport sector is a major contributor to greenhouse gas emissions in Europe. Shifting to electric vehicles (EVs) powered by a low-carbon energy mix would reduce carbon emissions. However, to support the development of electric mobility, a better understanding of EV charging behaviours and more accurate forecasting models are needed. To fill that gap, the Smarter Mobility Data Challenge has focused on the development of forecasting models to predict EV charging station occupancy. This challenge involved analysing a dataset of 91 charging stations across four geographical areas over seven months in 2020-2021. The forecasts were evaluated at three levels of aggregation (individual stations, areas and global) to capture the inherent hierarchical structure of the data. The results highlight the potential of hierarchical forecasting approaches to accurately predict EV charging station occupancy, providing valuable insights for energy providers and EV users alike. This open dataset addresses many real-world challenges associated with time series, such as missing values, non-stationarity and spatio-temporal correlations. Access to the dataset, code and benchmarks are available at https://gitlab.com/smarter-mobility-data-challenge/tutorials to foster future research.
翻訳日:2023-06-13 21:00:05 公開日:2023-06-09
# 説明可能なトリガーと関係名の関係によるゼロショット対話関係抽出

Zero-Shot Dialogue Relation Extraction by Relating Explainable Triggers and Relation Names ( http://arxiv.org/abs/2306.06141v1 )

ライセンス: Link先を確認
Ze-Song Xu, Yun-Nung Chen(参考訳) 対話関係抽出(DRE)システムを開発するには、しばしば大量のラベル付きデータを必要とする。 本稿では, 拡張性の向上と多種多様な関係抽出のサポートを目的として, トリガを捕捉し, 従来から知られていなかった関係名に関連付ける手法を提案する。 具体的には,トリガキャプチャ機能を利用したゼロショット対話関係抽出モデルを提案する。 ベンチマークのDialogREデータセットを用いた実験により,提案モデルが目視関係と目視関係の両面で有意な改善を達成できることが示された。 トリガーキャプチャ機能を用いたゼロショット対話関係抽出の試みは,今回が初めてであり,本手法が従来見つからなかった関係型を推定するのに有効であることが示唆された。 全体として,本手法がDREシステムのスケーラビリティと実用性を向上させる可能性を強調した。

Developing dialogue relation extraction (DRE) systems often requires a large amount of labeled data, which can be costly and time-consuming to annotate. In order to improve scalability and support diverse, unseen relation extraction, this paper proposes a method for leveraging the ability to capture triggers and relate them to previously unseen relation names. Specifically, we introduce a model that enables zero-shot dialogue relation extraction by utilizing trigger-capturing capabilities. Our experiments on a benchmark DialogRE dataset demonstrate that the proposed model achieves significant improvements for both seen and unseen relations. Notably, this is the first attempt at zero-shot dialogue relation extraction using trigger-capturing capabilities, and our results suggest that this approach is effective for inferring previously unseen relation types. Overall, our findings highlight the potential for this method to enhance the scalability and practicality of DRE systems.
翻訳日:2023-06-13 20:59:46 公開日:2023-06-09
# null/no information rate (nir): 与えられた問題に対して分類精度が有意かどうかを評価する統計試験

Null/No Information Rate (NIR): a statistical test to assess if a classification accuracy is significant for a given problem ( http://arxiv.org/abs/2306.06140v1 )

ライセンス: Link先を確認
Manuele Bicego and Antonella Mensi(参考訳) 多くの研究の文脈、特に生物医学分野において、分類システムの研究と開発の後、「この精度は十分高いのか」、あるいは「統計的に有意な自信をもって、我々の分類システムが問題を解決できるのか」という自然な疑問が生じる。 この質問に答えるために、本論文で記載された統計テストを利用することができ、ある場合には、nir(no information rate or null information rate)と呼ばれる。

In many research contexts, especially in the biomedical field, after studying and developing a classification system a natural question arises: "Is this accuracy enough high?", or better, "Can we say, with a statistically significant confidence, that our classification system is able to solve the problem"? To answer to this question, we can use the statistical test described in this paper, which is referred in some cases as NIR (No Information Rate or Null Information Rate).
翻訳日:2023-06-13 20:59:31 公開日:2023-06-09
# WePaMaDM-Outlier Detection:Mass Data Miningのためのパターンアプローチを用いた重み付きoutlier Detection

WePaMaDM-Outlier Detection: Weighted Outlier Detection using Pattern Approaches for Mass Data Mining ( http://arxiv.org/abs/2306.06139v1 )

ライセンス: Link先を確認
Ravindrakumar Purohit, Jai Prakash Verma, Rachna Jain, Madhuri Bhavsar(参考訳) 重み付き異常検出(英: weighted outlier detection)は、データセット内の異常または異常なデータポイントを識別する手法である。 異常検知は、システム障害、不正行為、データのパターンに関する重要な情報を明らかにし、これらの異常の根本原因に対処する専門家を支援する。 しかしながら、通常のデータパターンのモデルを作成して外れ値を特定することは、入力データの性質、ラベル付きデータ可用性、問題の特定の要件のために困難である。 本稿では,個別のマスデータマイニング領域を用いたwepamadm-outlier検出法を提案し,その手法がドメインに依存し,通常は特定の問題定式化のために開発されたことを示す。 それにもかかわらず、類似のドメインは修正による解決策を適用することができる。 本研究は, 監視, 故障検出, トレンド解析における異常検出手法におけるデータモデリングの重要性についても検討した。

Weighted Outlier Detection is a method for identifying unusual or anomalous data points in a dataset, which can be caused by various factors like human error, fraud, or equipment malfunctions. Detecting outliers can reveal vital information about system faults, fraudulent activities, and patterns in the data, assisting experts in addressing the root causes of these anomalies. However,creating a model of normal data patterns to identify outliers can be challenging due to the nature of input data, labeled data availability, and specific requirements of the problem. This article proposed the WePaMaDM-Outlier Detection with distinct mass data mining domain, demonstrating that such techniques are domain-dependent and usually developed for specific problem formulations. Nevertheless, similar domains can adapt solutions with modifications. This work also investigates the significance of data modeling in outlier detection techniques in surveillance, fault detection, and trend analysis, also referred to as novelty detection, a semisupervised task where the algorithm learns to recognize abnormality while being taught the normal class.
翻訳日:2023-06-13 20:59:20 公開日:2023-06-09
# 拡散モデルを用いた潜時ダイナミクスアライメントにおける時空間構造抽出と復元

Extraction and Recovery of Spatio-Temporal Structure in Latent Dynamics Alignment with Diffusion Model ( http://arxiv.org/abs/2306.06138v1 )

ライセンス: Link先を確認
Yule Wang, Zijing Wu, Chengrui Li, Anqi Wu(参考訳) 行動関連脳計算の分野では、生の神経集団活動とそれらの間の劇的なシフトを有意に調整する必要がある。 しかし、ほとんどの神経集団の活動は多変量時系列であるので、アライメントは自明ではない。 神経科学研究におけるインストゥルメンタルな枠組みは、試行ベースの神経集団活動が低次元潜在ダイナミクスに依存していることを仮定している。 このような潜在ダイナミクスに注目することはアライメント手順を大いに促進する。 私たちが到達したかなりの進歩にもかかわらず、既存の手法は通常、潜在力学の内在的な時空間構造を無視する。 したがって、これらのソリューションは、動的構造における品質の低下とアライメント後の全体的なパフォーマンスにつながる。 この問題に対処するために,拡散モデルの表現力を利用した手法を提案する。 具体的には、ソースドメインの潜在ダイナミクス構造は、まず拡散モデルによって抽出される。 そして、対象領域上の最大極大アライメント手順により、そのような構造を良好に復元する。 まず,提案手法が合成データセット上で有効であることを示す。 そして, 霊長類運動野からの神経記録に適用した場合, 日次, 対象間両方の設定の下では, 潜時運動の時空間構造を保ち, 既存のアライメント品質のアプローチよりも優れていることを示す。

In the field of behavior-related brain computation, it is necessary to meaningfully align raw neural population activities against the drastic shift between them. However, the alignment is non-trivial since most neural population activities are in a multivariate time-series manner. An instrumental framework within neuroscience research posits that trial-based neural population activities rely on low-dimensional latent dynamics. Focusing on such latent dynamics greatly facilitates the alignment procedure. Despite the considerable progress we have reached, existing methods usually ignore the intrinsic spatio-temporal structures within latent dynamics. Thus, those solutions lead to poor quality in dynamics structures and overall performance after alignment. To tackle this problem, we propose a method leveraging the expressiveness of diffusion model to relieve such issues. Specifically, the latent dynamics structures of the source domain are first extracted by the diffusion model. Then, such structures are well-recovered through a maximum likelihood alignment procedure on the target domain. We first demonstrate the effectiveness of our proposed method on a synthetic dataset. Then, when applied to neural recordings from primate motor cortex, under both cross-day and inter-subject settings, our method consistently manifests its capability of preserving the spatio-temporal structure of latent dynamics and outperforms existing approaches in alignment quality.
翻訳日:2023-06-13 20:59:00 公開日:2023-06-09
# マルチエージェント強化学習のためのロバストネステスト:臨界エージェントの状態摂動

Robustness Testing for Multi-Agent Reinforcement Learning: State Perturbations on Critical Agents ( http://arxiv.org/abs/2306.06136v1 )

ライセンス: Link先を確認
Ziyuan Zhou and Guanjun Liu(参考訳) MARL(Multi-Agent Reinforcement Learning)は、スマート交通や無人航空機など、多くの分野に広く応用されている。 しかし、ほとんどのMARLアルゴリズムはエージェント状態に対する敵の摂動に弱い。 トレーニングされたモデルのロバストネステストは、予期しない摂動に対するモデルの信頼性を確認するための重要なステップである。 本研究は,RTCA (Critical Agents) の状態を攻撃するための新しいロバストネステストフレームワークを提案する。 RTCAには2つの革新がある。 1)決定的エージェントを被害者として選別し、最悪の共同行動を助言するための差分進化(DE)に基づく方法 2)DEの最適化のための目的関数として使用されるチーム協力政策評価手法。 そして、最悪の共同動作に基づいて、臨界剤の逆状態摂動を生成する。 これは、さまざまな被害者エージェントを持つ最初の堅牢性テストフレームワークである。 RTCAは、被害者の数と協力政策を破壊するという点で優れたパフォーマンスを示している。

Multi-Agent Reinforcement Learning (MARL) has been widely applied in many fields such as smart traffic and unmanned aerial vehicles. However, most MARL algorithms are vulnerable to adversarial perturbations on agent states. Robustness testing for a trained model is an essential step for confirming the trustworthiness of the model against unexpected perturbations. This work proposes a novel Robustness Testing framework for MARL that attacks states of Critical Agents (RTCA). The RTCA has two innovations: 1) a Differential Evolution (DE) based method to select critical agents as victims and to advise the worst-case joint actions on them; and 2) a team cooperation policy evaluation method employed as the objective function for the optimization of DE. Then, adversarial state perturbations of the critical agents are generated based on the worst-case joint actions. This is the first robustness testing framework with varying victim agents. RTCA demonstrates outstanding performance in terms of the number of victim agents and destroying cooperation policies.
翻訳日:2023-06-13 20:58:37 公開日:2023-06-09
# 生成モデルにおけるコンテンツモデレーションの安全性と公平性

Safety and Fairness for Content Moderation in Generative Models ( http://arxiv.org/abs/2306.06135v1 )

ライセンス: Link先を確認
Susan Hao, Piyush Kumar, Sarah Laszlo, Shivani Poddar, Bhaktipriya Radharapu, Renee Shelby(参考訳) 生成AIの大幅な進歩により、新しい技術は生成コンポーネントで急速に展開されている。 生成モデルは通常、大規模なデータセットでトレーニングされるため、トレーニングデータ内の最悪の内容を模倣するモデル行動が発生する。 生成技術の責任あるデプロイメントには、安全入力や出力フィルタといったコンテンツモデレーション戦略が必要である。 本稿では,テキストから画像への生成技術に対する責任あるコンテンツモデレーションの概念化のための理論的枠組みを提案する。 安全性、公平性、メートル法等の概念を定義し、区別し、各ドメインで発生可能な例を列挙します。 次に、定義された害を定量化する方法を示す。 最後に、我々は、データ駆動コンテンツのモデレーション決定を可能にする方法のスタイルについて要約する。

With significant advances in generative AI, new technologies are rapidly being deployed with generative components. Generative models are typically trained on large datasets, resulting in model behaviors that can mimic the worst of the content in the training data. Responsible deployment of generative technologies requires content moderation strategies, such as safety input and output filters. Here, we provide a theoretical framework for conceptualizing responsible content moderation of text-to-image generative technologies, including a demonstration of how to empirically measure the constructs we enumerate. We define and distinguish the concepts of safety, fairness, and metric equity, and enumerate example harms that can come in each domain. We then provide a demonstration of how the defined harms can be quantified. We conclude with a summary of how the style of harms quantification we demonstrate enables data-driven content moderation decisions.
翻訳日:2023-06-13 20:58:24 公開日:2023-06-09
# PoET:配列配列としてのタンパク質ファミリーの生成モデル

PoET: A generative model of protein families as sequences-of-sequences ( http://arxiv.org/abs/2306.06156v1 )

ライセンス: Link先を確認
Timothy F. Truong Jr, Tristan Bepler(参考訳) 生成タンパク質言語モデルは、望ましい機能を持つ新しいタンパク質を設計する自然な方法である。 しかしながら、現在のモデルでは、特定の関心ファミリーからタンパク質を生産することは困難であるか、特定の関心ファミリーから大きな多重配列アライメント(MSA)を訓練する必要があるため、家族間での伝達学習の恩恵を受けられない。 この問題に対処するために、我々は、何千万もの天然タンパク質配列の配列として関連タンパク質の集合を生成することを学ぶタンパク質ファミリー全体の自己回帰生成モデルである、$\textbf{P}$r$\textbf{o}$tein $\textbf{E}$volutionary $\textbf{T}$ransformer (PoET)を提案する。 PoETは、関心のあるタンパク質ファミリーで条件付けられた任意の変更を生成し、スコア付けするための検索強化言語モデルとして使用することができ、短いコンテキスト長から外挿して、小さなファミリーでもうまく一般化することができる。 これはユニークなトランスフォーマー層によって実現されており、シーケンス間の順序を不変に保ちながらシーケンス内でトークンを逐次モデル化することで、トレーニング中に使用されるもの以上のコンテキスト長にスケールすることができる。 PoETは、深部突然変異スキャンデータセットに関する広範な実験において、既存のタンパク質言語モデルと変異関数予測のための進化的シーケンスモデルより優れており、すべてのMSA深さのタンパク質間の変異効果予測を改善している。

Generative protein language models are a natural way to design new proteins with desired functions. However, current models are either difficult to direct to produce a protein from a specific family of interest, or must be trained on a large multiple sequence alignment (MSA) from the specific family of interest, making them unable to benefit from transfer learning across families. To address this, we propose $\textbf{P}$r$\textbf{o}$tein $\textbf{E}$volutionary $\textbf{T}$ransformer (PoET), an autoregressive generative model of whole protein families that learns to generate sets of related proteins as sequences-of-sequences across tens of millions of natural protein sequence clusters. PoET can be used as a retrieval-augmented language model to generate and score arbitrary modifications conditioned on any protein family of interest, and can extrapolate from short context lengths to generalize well even for small families. This is enabled by a unique Transformer layer; we model tokens sequentially within sequences while attending between sequences order invariantly, allowing PoET to scale to context lengths beyond those used during training. PoET outperforms existing protein language models and evolutionary sequence models for variant function prediction in extensive experiments on deep mutational scanning datasets, improving variant effect prediction across proteins of all MSA depths.
翻訳日:2023-06-13 20:51:38 公開日:2023-06-09
# Intensity Profile Projection:動的ネットワークのための連続時間表現学習フレームワーク

Intensity Profile Projection: A Framework for Continuous-Time Representation Learning for Dynamic Networks ( http://arxiv.org/abs/2306.06155v1 )

ライセンス: Link先を確認
Alexander Modell, Ian Gallagher, Emma Ceccherini, Nick Whiteley and Patrick Rubin-Delanchy(参考訳) 本稿では,動的ネットワークのノードの連続時間表現を学習するための新しいアルゴリズム・フレームワークであるインテンシティ・プロファイル・プロジェクションを提案する。 我々のフレームワークは3つの段階から構成される:例えば、カーネルスムーシングによるノード間の相互作用の根底にある強度関数の推定、強度再構成誤差を最小化するプロジェクションの学習、学習されたプロジェクションを介して進化するノード表現を誘導的に構築する。 我々の表現はネットワークの基盤構造を保ち、時間的にコヒーレントであることを示し、ノード表現は異なる時点において有意義に比較できることを示した。 バイアス分散トレードオフとしてスムージングが果たす役割を解明する推定理論を開発し,ネットワーク全体の「ボローリング強度」を考慮した信号と雑音の比が増加するにつれて,スムージングを低減できることを示す。

We present a new algorithmic framework, Intensity Profile Projection, for learning continuous-time representations of the nodes of a dynamic network, characterised by a node set and a collection of instantaneous interaction events which occur in continuous time. Our framework consists of three stages: estimating the intensity functions underlying the interactions between pairs of nodes, e.g. via kernel smoothing; learning a projection which minimises a notion of intensity reconstruction error; and inductively constructing evolving node representations via the learned projection. We show that our representations preserve the underlying structure of the network, and are temporally coherent, meaning that node representations can be meaningfully compared at different points in time. We develop estimation theory which elucidates the role of smoothing as a bias-variance trade-off, and shows how we can reduce smoothing as the signal-to-noise ratio increases on account of the algorithm `borrowing strength' across the network.
翻訳日:2023-06-13 20:51:07 公開日:2023-06-09
# HypLL: 双曲学習ライブラリ

HypLL: The Hyperbolic Learning Library ( http://arxiv.org/abs/2306.06154v1 )

ライセンス: Link先を確認
Max van Spengler, Philipp Wirth, Pascal Mettes(参考訳) 双曲空間におけるディープラーニングは、機械学習、マルチメディア、コンピュータビジョンの分野で急速に勢いを増している。 深層ネットワークは一般にユークリッド空間で動作し、データが正規格子上にあることを暗黙的に仮定する。 近年の進歩は、特にデータが階層的であり、埋め込み次元がほとんどない場合に、双曲幾何学がディープラーニングに有効な代替基盤を提供することを示している。 しかし、よく知られたディープラーニングライブラリと同様、ハイパーボリックネットワークモジュールを構築するためにアクセス可能なオープンソースライブラリは存在しない。 我々は,双曲学習ライブラリHypLLを紹介し,双曲深層学習の進歩を両立させる。 hypllはpytorch上に構築されており、そのデザインは使いやすさを重視している。 コードはhttps://github.com/maxvanspengler/hyperbolic_learning_libraryで入手できる。 圧縮アーカイブはhttps://doi.org/10.21942/uva.23385506.v4で利用可能である。

Deep learning in hyperbolic space is quickly gaining traction in the fields of machine learning, multimedia, and computer vision. Deep networks commonly operate in Euclidean space, implicitly assuming that data lies on regular grids. Recent advances have shown that hyperbolic geometry provides a viable alternative foundation for deep learning, especially when data is hierarchical in nature and when working with few embedding dimensions. Currently however, no accessible open-source library exists to build hyperbolic network modules akin to well-known deep learning libraries. We present HypLL, the Hyperbolic Learning Library to bring the progress on hyperbolic deep learning together. HypLL is built on top of PyTorch, with an emphasis in its design for easy-of-use, in order to attract a broad audience towards this new and open-ended research direction. The code is available at: https://github.com/maxvanspengler/hyperbolic_learning_library. The compressed archive is available at: https://doi.org/10.21942/uva.23385506.v4
翻訳日:2023-06-13 20:50:49 公開日:2023-06-09
# EfficientBioAI:バイオイメージングAIモデルをエネルギー、レイテンシ、表現に効率良くする

EfficientBioAI: Making Bioimaging AI Models Efficient in Energy, Latency and Representation ( http://arxiv.org/abs/2306.06152v1 )

ライセンス: Link先を確認
Yu Zhou, Justin Sonneck, Sweta Banerjee, Stefanie D\"orr, Anika Gr\"uneboom, Kristina Lorenz, Jianxu Chen(参考訳) 人工知能(AI)は近年、バイオ画像解析に広く利用されているが、エネルギー消費やレイテンシーといったAIモデルの効率は、モデルのサイズと複雑さの増大や、現代のバイオメディカル研究における急速な分析の必要性によって無視できない。 大規模な画像を圧縮して効率的なストレージと共有ができるのと同じように、AIモデルを圧縮して効率的なアプリケーションやデプロイメントもできます。 本研究では,バイオイメージングAIモデルを圧縮し,CPUおよびGPU上でのエネルギーコストと推論時間を大幅に削減し,精度を損なうことなく動作させることができる,プラグアンドプレイのツールボックスであるEfficientBioAIを提案する。 圧縮手順はモデル表現の冗長な情報を取り除き、過剰フィッティングを減らすことができるため、圧縮後に予測精度が向上する場合もある。 4種類の生体画像解析アプリケーションから, 推定時の2~5倍のスピードアップ, 30~80$\%の省エネ効果が得られた。 大規模なバイオイメージ分析のランタイムを数日から数時間に切るか、あるいは2分間のバイオイメージングAIモデル推論をほぼリアルタイムで行うことで、メソッド開発とバイオメディカル発見のための新たな扉が開く。 われわれのツールボックスは、資源に制約のあるバイオイメージングAIを促進し、大規模なAIベースの定量的生物学的研究をエコフレンドリーな方法で加速し、バイオイメージングAIの効率性に関するさらなる研究を促進することを願っている。

Artificial intelligence (AI) has been widely used in bioimage image analysis nowadays, but the efficiency of AI models, like the energy consumption and latency is not ignorable due to the growing model size and complexity, as well as the fast-growing analysis needs in modern biomedical studies. Like we can compress large images for efficient storage and sharing, we can also compress the AI models for efficient applications and deployment. In this work, we present EfficientBioAI, a plug-and-play toolbox that can compress given bioimaging AI models for them to run with significantly reduced energy cost and inference time on both CPU and GPU, without compromise on accuracy. In some cases, the prediction accuracy could even increase after compression, since the compression procedure could remove redundant information in the model representation and therefore reduce over-fitting. From four different bioimage analysis applications, we observed around 2-5 times speed-up during inference and 30-80$\%$ saving in energy. Cutting the runtime of large scale bioimage analysis from days to hours or getting a two-minutes bioimaging AI model inference done in near real-time will open new doors for method development and biomedical discoveries. We hope our toolbox will facilitate resource-constrained bioimaging AI and accelerate large-scale AI-based quantitative biological studies in an eco-friendly way, as well as stimulate further research on the efficiency of bioimaging AI.
翻訳日:2023-06-13 20:50:33 公開日:2023-06-09
# read, look and detection: イメージキャプチャペアからのバウンディングボックスアノテーション

Read, look and detect: Bounding box annotation from image-caption pairs ( http://arxiv.org/abs/2306.06149v1 )

ライセンス: Link先を確認
Eduardo Hugo Sanchez(参考訳) データアノテーションのコストを低減しつつオブジェクトを検出する様々な方法が提案されている。 例えば、弱い教師付きオブジェクト検出(WSOD)メソッドは、トレーニング中に画像レベルのアノテーションにのみ依存する。 残念なことに、アノテータは各画像の内容を記述するカテゴリを提供しなければならず、ラベル付けは固定されたカテゴリに制限されるため、データアノテーションは高価である。 本稿では,より弱い監督の形式であるイメージ・キャプチャペアを用いて,画像中のオブジェクトの同定とラベル付けを行う手法を提案する。 近年の視覚言語モデル(VL)と自己監督型視覚変換器(ViT)の進歩を利用して, フレーズグラウンドとオブジェクト検出を弱教師付き方式で行うことができる。 Flickr30k Entitiesをベースとした47.51%のリコール@1スコアを達成し,21.1 mAP 50 と 10.5 mAP 50:95 を MS COCO 上で達成し,オブジェクト検出の最先端性を確立した。

Various methods have been proposed to detect objects while reducing the cost of data annotation. For instance, weakly supervised object detection (WSOD) methods rely only on image-level annotations during training. Unfortunately, data annotation remains expensive since annotators must provide the categories describing the content of each image and labeling is restricted to a fixed set of categories. In this paper, we propose a method to locate and label objects in an image by using a form of weaker supervision: image-caption pairs. By leveraging recent advances in vision-language (VL) models and self-supervised vision transformers (ViTs), our method is able to perform phrase grounding and object detection in a weakly supervised manner. Our experiments demonstrate the effectiveness of our approach by achieving a 47.51% recall@1 score in phrase grounding on Flickr30k Entities and establishing a new state-of-the-art in object detection by achieving 21.1 mAP 50 and 10.5 mAP 50:95 on MS COCO when exclusively relying on image-caption pairs.
翻訳日:2023-06-13 20:50:07 公開日:2023-06-09
# 人工知能と放射線防護。 ゲームチェンジャーかアップデートか?

Artificial intelligence and radiation protection. A game changer or an update? ( http://arxiv.org/abs/2306.06148v1 )

ライセンス: Link先を確認
Sylvain Andresz (CEPN), A Z\'ephir, Jeremy Bez (IRSN/PSN-RES/SNC/LN), Maxime Karst, J. Danieli (SPRA)(参考訳) 人工知能(AI)は、世紀で最も破壊的な技術の一つであり、数え切れないほど応用されている。 放射線防護とは何を意味するのか。 本稿では、機械学習(ML)に基づく手法の基礎を説明し、放射線防護の異なる分野における最初の応用について述べる。 AIの使用は放射線保護の増大を予見している。 その結果、本稿では、倫理的問題を含む潜在的な障壁や疑問のいくつかを考察する。 本稿では, 放射線防護専門家とデータ科学者専門家の協力により, 効果的な科学的および技術的成果のためのアルゴリズムの開発を加速し, 指導できることを提案する。

Artificial intelligence (AI) is regarded as one of the most disruptive technology of the century and with countless applications. What does it mean for radiation protection? This article describes the fundamentals of machine learning (ML) based methods and presents the inaugural applications in different fields of radiation protection. It is foreseen that the usage of AI will increase in radiation protection. Consequently, this article explores some of the benefits and also the potential barriers and questions, including ethical ones, that can come out. The article proposes that collaboration between radiation protection professionals and data scientist experts can accelerate and guide the development of the algorithms for effective scientific and technological outcomes.
翻訳日:2023-06-13 20:49:45 公開日:2023-06-09
# SentiGOLD: 大規模バングラ金標準マルチドメインセンシング分析データセットとその評価

SentiGOLD: A Large Bangla Gold Standard Multi-Domain Sentiment Analysis Dataset and its Evaluation ( http://arxiv.org/abs/2306.06147v1 )

ライセンス: Link先を確認
Md. Ekramul Islam, Labib Chowdhury, Faisal Ahamed Khan, Shazzad Hossain, Sourave Hossain, Mohammad Mamun Or Rashid, Nabeel Mohammed and Mohammad Ruhul Amin(参考訳) 本研究では,バングラ・マルチドメイン感情分析データセットsentigoldを紹介する。 70,000のサンプルからなり、多様な情報源から作成され、言語学者の男女バランスの取れたチームによって注釈付けされた。 センティゴールドはバングラデシュ政府とバングラデシュ言語委員会によって合意された確立された言語条約に準拠している。 英語や他の言語とは異なり、バングラは国語学の枠組みがないため、標準感情分析データセットを欠いている。 このデータセットには、オンラインビデオコメント、ソーシャルメディア投稿、ブログ、ニュース、その他のソースからのデータが含まれている。 30のドメイン(例えば政治、娯楽、スポーツ)にまたがり、5つの感情クラス(強い否定、弱い否定、中立、強い肯定)を含んでいる。 国語委員会によって承認されたアノテーションスキームは、フレイスのカッパスコア0.88の堅牢なインターアノテータ協定(IAA)を保証する。 標準分類システムを確立するために、イントラおよびクロスデータセット評価プロトコルを適用する。 SentNoBデータセットのクロスデータセット評価は、難しいテストシナリオを示す。 さらに、ゼロショット実験はSentiGOLDの一般化可能性を示す。 トップモデルでは、マクロf1スコアを5つのクラスで 0.62 (intra-dataset)、ベンチマークを設定し、0.61 (sendnobのcross-dataset) を3つのクラスで達成する。 微調整の感情分析モデルはhttps://sentiment.bangla.gov.bd.comで利用できる。

This study introduces SentiGOLD, a Bangla multi-domain sentiment analysis dataset. Comprising 70,000 samples, it was created from diverse sources and annotated by a gender-balanced team of linguists. SentiGOLD adheres to established linguistic conventions agreed upon by the Government of Bangladesh and a Bangla linguistics committee. Unlike English and other languages, Bangla lacks standard sentiment analysis datasets due to the absence of a national linguistics framework. The dataset incorporates data from online video comments, social media posts, blogs, news, and other sources while maintaining domain and class distribution rigorously. It spans 30 domains (e.g., politics, entertainment, sports) and includes 5 sentiment classes (strongly negative, weakly negative, neutral, and strongly positive). The annotation scheme, approved by the national linguistics committee, ensures a robust Inter Annotator Agreement (IAA) with a Fleiss' kappa score of 0.88. Intra- and cross-dataset evaluation protocols are applied to establish a standard classification system. Cross-dataset evaluation on the noisy SentNoB dataset presents a challenging test scenario. Additionally, zero-shot experiments demonstrate the generalizability of SentiGOLD. The top model achieves a macro f1 score of 0.62 (intra-dataset) across 5 classes, setting a benchmark, and 0.61 (cross-dataset from SentNoB) across 3 classes, comparable to the state-of-the-art. Fine-tuned sentiment analysis model can be accessed at https://sentiment.bangla.gov.bd.
翻訳日:2023-06-13 20:49:35 公開日:2023-06-09
# 隠れ分類層:クラス間の線形分離性が高いデータ隠れ表現に関する研究

Hidden Classification Layers: a study on Data Hidden Representations with a Higher Degree of Linear Separability between the Classes ( http://arxiv.org/abs/2306.06146v1 )

ライセンス: Link先を確認
Andrea Apicella, Francesco Isgr\`o, Roberto Prevete(参考訳) 分類問題の文脈では、Deep Learning (DL) アプローチは最先端技術を表している。 多くのDLアプローチは、標準的な多層フィードフォワードニューラルネットワークのバリエーションに基づいている。 これらはディープネットワークとも呼ばれる。 基本的な考え方は、各隠れたニューラルネットワーク層がデータ変換を完了し、データ表現を以前のものよりも「線形に分離可能である」と期待し、可能な限り線形に分離可能な最終的なデータ表現を得る。 しかし、これらの変換を実行できる適切なニューラルネットワークパラメータを決定することが重要な問題である。 本稿では,隠れた層におけるデータ表現が,標準手法に対するクラス間の線形分離性が高いソリューションを好む学習手法のディープネットワーク分類器性能への影響について検討する。 そこで本研究では,すべてのネットワーク層の出力を含む誤差関数を誘導するニューラルネットワークアーキテクチャを提案する。 類似したアプローチは過去にも部分的に議論されてきたが,本論文では,新しいエラー関数と広範な実験解析を備えたアーキテクチャを提案する。 この実験解析は,4つのデータセットを考慮した画像分類タスクの文脈で行った。 その結果, 提案手法はすべての事例において, テストセットの精度を向上することがわかった。

In the context of classification problems, Deep Learning (DL) approaches represent state of art. Many DL approaches are based on variations of standard multi-layer feed-forward neural networks. These are also referred to as deep networks. The basic idea is that each hidden neural layer accomplishes a data transformation which is expected to make the data representation "somewhat more linearly separable" than the previous one to obtain a final data representation which is as linearly separable as possible. However, determining the appropriate neural network parameters that can perform these transformations is a critical problem. In this paper, we investigate the impact on deep network classifier performances of a training approach favouring solutions where data representations at the hidden layers have a higher degree of linear separability between the classes with respect to standard methods. To this aim, we propose a neural network architecture which induces an error function involving the outputs of all the network layers. Although similar approaches have already been partially discussed in the past literature, here we propose a new architecture with a novel error function and an extensive experimental analysis. This experimental analysis was made in the context of image classification tasks considering four widely used datasets. The results show that our approach improves the accuracy on the test set in all the considered cases.
翻訳日:2023-06-13 20:49:11 公開日:2023-06-09
# LDMRes-Net:効率的な画像分割によるリアルタイム疾患モニタリングの実現

LDMRes-Net: Enabling Real-Time Disease Monitoring through Efficient Image Segmentation ( http://arxiv.org/abs/2306.06145v1 )

ライセンス: Link先を確認
Shahzaib Iqbal, Tariq M. Khan, Musaed Alhussein, Syed S. Naqvi, Muhammad Usman, and Khursheed Aurangzeb(参考訳) 網膜眼疾患は、早期に診断や治療を受けなければ、両眼で不可逆的な視力喪失を引き起こす可能性がある。 網膜疾患の複雑さのため、網膜画像が2つ以上の異常を含む可能性が非常に高い。 現在のディープラーニングアルゴリズムでは、複数のラベルと特徴を持つ網膜画像をセグメント化するのに、不十分な検出精度と一般化性の欠如に苦しんでいる。 本稿では,計算コストを最小化しつつセグメント化性能を向上させるために,マルチレジシデント接続を2つ備えた軽量かつ効率的なネットワークを提案する。 提案ネットワークは, 公開されている8つの網膜画像データセット上で評価され, 提案ネットワークが網膜画像解析タスクに有効であることを示す, 有望なセグメンテーション結果が得られた。 提案するネットワークの軽量かつ効率的な設計は、リアルタイム網膜画像解析アプリケーションに有望な候補となる。

Retinal eye diseases can lead to irreversible vision loss in both eyes if not diagnosed and treated earlier. Owing to the complexities of retinal diseases, the likelihood that retinal images would contain two or more abnormalities is very high. The current deep learning algorithms used for segmenting retinal images with multiple labels and features suffer from inadequate detection accuracy and a lack of generalizability. In this paper, we propose a lightweight and efficient network, featuring dual multi-residual connections to enhance segmentation performance while minimizing computational cost. The proposed network is evaluated on eight publicly available retinal image datasets and achieved promising segmentation results, which demonstrate the effectiveness of the proposed network for retinal image analysis tasks. The proposed network's lightweight and efficient design makes it a promising candidate for real-time retinal image analysis applications.
翻訳日:2023-06-13 20:48:54 公開日:2023-06-09
# $FPDM$:ドキュメントレベルメタデータを用いたドメイン特化高速事前学習技術

$FPDM$: Domain-Specific Fast Pre-training Technique using Document-Level Metadata ( http://arxiv.org/abs/2306.06190v1 )

ライセンス: Link先を確認
Abhilash Nandy, Manav Nitin Kapadnis, Sohan Patnaik, Yash Parag Butala, Pawan Goyal, Niloy Ganguly(参考訳) 事前トレーニングトランスフォーマーは、オープンドメインとドメイン固有のダウンストリームタスクで有望な結果を示している。 しかし、最先端トランスフォーマーは不当に大量の事前学習データと計算を必要とする。 本稿では、文書メタデータとドメイン固有分類法を監督信号として利用し、ドメイン固有コーパス上のトランスフォーマエンコーダを事前学習する、新しい計算効率のよいフレームワークである$fpdm$(文書レベルメタデータを用いた高速事前トレーニング技術)を提案する。 ドメイン固有の事前トレーニングの間、オープンドメインエンコーダは文レベルの埋め込みを入力として(長いドキュメントに対応するために)継続的に事前訓練されるが、細調整はトークンレベルの埋め込みを入力として行う。 FPDM$は、顧客サポート、科学、法定ドメインにおける文字レベルF1スコアやその他の自動メトリクスにおいて、トランスフォーマーベースのベースラインよりも優れており、オープンベンチマークベンチマークでは、パフォーマンスが無視できる低下を示している。 重要なことは、文書レベルの監視と文レベルの埋め込み入力が事前学習の計算を、顧客サポート、科学、法律ドメインにおけるMLMおよびNSPと比較して約1,000ドル、$4,500ドル、および$500ドル減らすことである。 コードとデータセットはhttps://bit.ly/FPDMCodeで入手できる。

Pre-training Transformers has shown promising results on open-domain and domain-specific downstream tasks. However, state-of-the-art Transformers require an unreasonably large amount of pre-training data and compute. In this paper, we propose $FPDM$ (Fast Pre-training Technique using Document Level Metadata), a novel, compute-efficient framework that utilizes Document metadata and Domain-Specific Taxonomy as supervision signals to pre-train transformer encoder on a domain-specific corpus. The main innovation is that during domain-specific pretraining, an open-domain encoder is continually pre-trained using sentence-level embeddings as inputs (to accommodate long documents), however, fine-tuning is done with token-level embeddings as inputs to this encoder. We show that $FPDM$ outperforms several transformer-based baselines in terms of character-level F1 scores and other automated metrics in the Customer Support, Scientific, and Legal Domains, and shows a negligible drop in performance on open-domain benchmarks. Importantly, the novel use of document-level supervision along with sentence-level embedding input for pre-training reduces pre-training compute by around $1,000$, $4,500$, and $500$ times compared to MLM and/or NSP in Customer Support, Scientific, and Legal Domains, respectively. Code and datasets are available at https://bit.ly/FPDMCode.
翻訳日:2023-06-13 20:42:01 公開日:2023-06-09
# fastvit: 階層的注意を持つ高速視覚トランスフォーマー

FasterViT: Fast Vision Transformers with Hierarchical Attention ( http://arxiv.org/abs/2306.06189v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Greg Heinrich, Hongxu Yin, Andrew Tao, Jose M. Alvarez, Jan Kautz, Pavlo Molchanov(参考訳) 我々は、コンピュータビジョン(CV)アプリケーションのための高速スループットに焦点を当てた、FasterViTと呼ばれるハイブリッドCNN-ViTニューラルネットワークの新しいファミリーを設計する。 FasterViTは、CNNにおける高速ローカル表現学習の利点とViTにおけるグローバルモデリング特性を組み合わせる。 新たに導入した階層的注意(hat)アプローチは,2次複雑性を持つグローバル自己注意を,計算コストを低減したマルチレベル注意に分解する。 効率的なウィンドウベースの自己注意の恩恵を受けます。 各ウィンドウは、ローカルおよびグローバル表現学習に参加する専用のキャリアトークンにアクセスする。 高いレベルでは、グローバル・セルフ・アテンションは低コストで効率的なクロスウィンドウ通信を可能にする。 FasterViT は精度 \vs 画像スループットの観点から SOTA Pareto-front を達成する。 我々は,分類,物体検出,セグメンテーションなど様々なCVタスクにおいて,その効果を広く検証してきた。 また,HATを既存ネットワークのプラグイン・アンド・プレイモジュールとして使用し,拡張可能であることを示す。 さらに,解像度の高い画像に対して,より高速で高精度な性能を示す。 コードはhttps://github.com/nvlabs/fastervitで入手できる。

We design a new family of hybrid CNN-ViT neural networks, named FasterViT, with a focus on high image throughput for computer vision (CV) applications. FasterViT combines the benefits of fast local representation learning in CNNs and global modeling properties in ViT. Our newly introduced Hierarchical Attention (HAT) approach decomposes global self-attention with quadratic complexity into a multi-level attention with reduced computational costs. We benefit from efficient window-based self-attention. Each window has access to dedicated carrier tokens that participate in local and global representation learning. At a high level, global self-attentions enable the efficient cross-window communication at lower costs. FasterViT achieves a SOTA Pareto-front in terms of accuracy \vs image throughput. We have extensively validated its effectiveness on various CV tasks including classification, object detection and segmentation. We also show that HAT can be used as a plug-and-play module for existing networks and enhance them. We further demonstrate significantly faster and more accurate performance than competitive counterparts for images with high resolution. Code is available at https://github.com/NVlabs/FasterViT.
翻訳日:2023-06-13 20:41:35 公開日:2023-06-09
# 対話的推定のための統一モデルと次元

A Unified Model and Dimension for Interactive Estimation ( http://arxiv.org/abs/2306.06184v1 )

ライセンス: Link先を確認
Nataly Brukhim, Miroslav Dudik, Aldo Pacchiano, Robert Schapire(参考訳) 本研究では,対話的推定と呼ばれる対話的学習のための抽象フレームワークについて検討し,対象を「類似性」から学習者の問合せ点へ推定することを目的とした。 我々は,モデルにおける学習可能性のほとんどを捉えた不類似性次元と呼ばれる組合せ測度を導入する。 我々は,新しい次元の多項式である後悔とPAC一般化境界の両方を得る,単純で一般かつ広く適用可能なアルゴリズムを提案する。 このフレームワークは,統計的クエリ学習と構造化バンディットの2つの古典的学習モデルを仮定し,統一することを示す。 また、両フレームワークの相似性次元がよく知られたパラメータとどのように関連しているかを述べる。

We study an abstract framework for interactive learning called interactive estimation in which the goal is to estimate a target from its "similarity'' to points queried by the learner. We introduce a combinatorial measure called dissimilarity dimension which largely captures learnability in our model. We present a simple, general, and broadly-applicable algorithm, for which we obtain both regret and PAC generalization bounds that are polynomial in the new dimension. We show that our framework subsumes and thereby unifies two classic learning models: statistical-query learning and structured bandits. We also delineate how the dissimilarity dimension is related to well-known parameters for both frameworks, in some cases yielding significantly improved analyses.
翻訳日:2023-06-13 20:41:20 公開日:2023-06-09
# 量子ゆらぎによる空間モードプロファイラ

Quantum fluctuations spatial mode profiler ( http://arxiv.org/abs/2306.06181v1 )

ライセンス: Link先を確認
Charris Gabaldon, Pratik Barge, Savannah L. Cuozzo, Irina Novikova, Hwang Lee, Lior Cohen, Eugeniy E. Mikhailov(参考訳) 空間モードは電磁場記述に欠かせない要素であるが、圧縮真空のような低い平均光子数を持つ光学場に対して特徴付けることは困難である。 そこで本稿では, マスクの組による2次雑音分散のホモダイン測定に基づいて, その空間モードを復元する手法を提案する。 本研究では, ある条件下では, 測定値と位相を用いて重みが決定される基底マスクの重み付け和を用いて, 個々の空間モード分布を復元できることを理論的に示す。 本稿では,Rb蒸気中に発生する余剰熱雑音を多量に有する圧縮真空場の空間構造を解析するために,本手法を適用した。

The spatial mode is an essential component of an electromagnetic field description, yet it is challenging to characterize it for optical fields with low average photon number, such as in a squeezed vacuum. We present a method for reconstruction of the spatial modes of such fields based on the homodyne measurements of their quadrature noise variance performed with a set of structured masks. We show theoretically that under certain conditions we can recover individual spatial mode distributions by using the weighted sum of the basis masks, where weights are determined using measured variance values and phases. We apply this approach to analyze the spatial structure of a squeezed vacuum field with various amount of excess thermal noise generated in Rb vapor.
翻訳日:2023-06-13 20:41:09 公開日:2023-06-09
# ReLUネットワークの隠れ対称性

Hidden symmetries of ReLU networks ( http://arxiv.org/abs/2306.06179v1 )

ライセンス: Link先を確認
J. Elisenda Grigsby and Kathryn Lindsey and David Rolnick(参考訳) feedforward reluニューラルネットワークの固定されたアーキテクチャのパラメータ空間は、関連する関数クラスのトレーニングの間、プロキシとして機能するが、この表現はどの程度忠実か? 多くの異なるパラメータ設定が同じ関数を決定できることが知られている。 さらに、この冗長性の程度は不均一であり、あるネットワークでは、層内のニューロンの置換とニューロンのパラメータの正のスケーリングのみが対称性であり、他のネットワークは追加の隠れ対称性を認めている。 本研究では, 層が入力よりも狭いネットワークアーキテクチャでは, 隠れ対称性を持たないパラメータ設定が存在することを証明した。 また,隠れ対称性が生じる機構を多数記述し,初期化時に異なるネットワークアーキテクチャの機能的次元を実証的に近似する。 これらの実験は、ネットワークが隠れ対称性を持たない確率が深さが大きくなるにつれて0に減少し、幅と入力次元が増加するにつれて1に上昇することを示している。

The parameter space for any fixed architecture of feedforward ReLU neural networks serves as a proxy during training for the associated class of functions - but how faithful is this representation? It is known that many different parameter settings can determine the same function. Moreover, the degree of this redundancy is inhomogeneous: for some networks, the only symmetries are permutation of neurons in a layer and positive scaling of parameters at a neuron, while other networks admit additional hidden symmetries. In this work, we prove that, for any network architecture where no layer is narrower than the input, there exist parameter settings with no hidden symmetries. We also describe a number of mechanisms through which hidden symmetries can arise, and empirically approximate the functional dimension of different network architectures at initialization. These experiments indicate that the probability that a network has no hidden symmetries decreases towards 0 as depth increases, while increasing towards 1 as width and input dimension increase.
翻訳日:2023-06-13 20:40:58 公開日:2023-06-09
# イベントベースソーシャルネットワークを用いた文化的ダイナミクスの定量的分析

Quantitative Analysis of Cultural Dynamics Seen from an Event-based Social Network ( http://arxiv.org/abs/2306.06176v1 )

ライセンス: Link先を確認
Bayu Adhi Tama, Jaehong Kim, Jaehyuk Park, Lev Manovich, Meeyoung Cha(参考訳) 文化とは、人々が社会の一員として獲得する社会的グループや渡来する考えを特徴づける、つながりのある、潜在的にインタラクティブなパターンの集まりである。 オフライン活動は、オンライン活動よりも文化的特徴の地理的関連をよりよく表すことができるが、そのようなデータを大規模に収集することは困難である。 ここでは,大規模イベントベースのソーシャルネットワーキングサービスであるmeetup.comによる,文化イベントの縦断的記録を用いて,オフライン文化イベントの景観を考察する。 90か国で17年間で収集された200万以上のイベントログを用いて,文化多様性によって駆動される時間的およびカテゴリー的なイベントダイナミクスを分析した。 以上の結果から,全国経済状態は総事象数の変動の44.6%を,個人主義や長期志向といった文化的特徴はトピックカテゴリーの変動の32.8%を説明できることがわかった。 さらに,階層的クラスタリングを用いた分析により,社会文化的活動(政治,レジャー,健康,技術など)のトピック間の文化的近接が明らかになった。 本研究は,世界各国の社会的・文化的活動の展望を提供し,その動態や文化的特徴との関連性をよりよく理解することを可能にすることを期待する。

Culture is a collection of connected and potentially interactive patterns that characterize a social group or a passed-on idea that people acquire as members of society. While offline activities can provide a better picture of the geographical association of cultural traits than online activities, gathering such data on a large scale has been challenging. Here, we use multi-decade longitudinal records of cultural events from Meetup.com, the largest event-based social networking service, to examine the landscape of offline cultural events. We analyze the temporal and categorical event dynamics driven by cultural diversity using over 2 million event logs collected over 17 years in 90 countries. Our results show that the national economic status explains 44.6 percent of the variance in total event count, while cultural characteristics such as individualism and long-term orientation explain 32.8 percent of the variance in topic categories. Furthermore, our analysis using hierarchical clustering reveals cultural proximity between the topics of socio-cultural activities (e.g., politics, leisure, health, technology). We expect that this work provides a landscape of social and cultural activities across the world, which allows us to better understand their dynamical patterns as well as their associations with cultural characteristics.
翻訳日:2023-06-13 20:40:42 公開日:2023-06-09
# パラメトリック非線形システムの効率的なシミュレーションのためのアクティブラーニング駆動サーロゲートモデリング

Active-Learning-Driven Surrogate Modeling for Efficient Simulation of Parametric Nonlinear Systems ( http://arxiv.org/abs/2306.06174v1 )

ライセンス: Link先を確認
Harshit Kapadia, Lihong Feng, Peter Benner(参考訳) 高忠実度物理モデルのパラメータ設定の繰り返し評価が必要な場合、モデルの順序の低減に基づく代理モデリング技術が望まれる。 力学を記述する支配方程式が存在しないため、パラメトリック還元次代理モデルを非侵襲的に構築する必要がある。 この設定では、最小基底法に関連する最適パラメータサンプリングに対する通常の残差に基づく誤差推定は直接利用できない。 本研究は,パラメータスナップショットを効率的に投入するための非インタラクティブ最適性基準を提供し,パラメトリックサーロゲートモデルを効果的に構築することを可能にする。 パラメータ固有固有直交分解 (pod) 部分空間を別々に検討し, カーネル型浅層ニューラルネットワークを用いたアクティブラーニング駆動サーロゲートモデルを提案し, actlearn-pod-ksnnサーロゲートモデルと略した。 提案手法の有効性を実証するため,バーガーズ方程式と浅水方程式の2つの物理モデルを用いて数値実験を行った。 どちらのモデルも、それぞれのパラメータドメイン内で混合(対流的および拡散的)な効果を持ち、それぞれが特定の領域で支配する。 提案したActLearn-POD-KSNNサロゲートモデルは、複数の相互作用するショックプロファイルを持つ設定であっても、新しいパラメータ位置での解を効率的に予測する。

When repeated evaluations for varying parameter configurations of a high-fidelity physical model are required, surrogate modeling techniques based on model order reduction are desired. In absence of the governing equations describing the dynamics, we need to construct the parametric reduced-order surrogate model in a non-intrusive fashion. In this setting, the usual residual-based error estimate for optimal parameter sampling associated with the reduced basis method is not directly available. Our work provides a non-intrusive optimality criterion to efficiently populate the parameter snapshots, thereby, enabling us to effectively construct a parametric surrogate model. We consider separate parameter-specific proper orthogonal decomposition (POD) subspaces and propose an active-learning-driven surrogate model using kernel-based shallow neural networks, abbreviated as ActLearn-POD-KSNN surrogate model. To demonstrate the validity of our proposed ideas, we present numerical experiments using two physical models, namely Burgers' equation and shallow water equations. Both the models have mixed -- convective and diffusive -- effects within their respective parameter domains, with each of them dominating in certain regions. The proposed ActLearn-POD-KSNN surrogate model efficiently predicts the solution at new parameter locations, even for a setting with multiple interacting shock profiles.
翻訳日:2023-06-13 20:40:21 公開日:2023-06-09
# 短距離2体相互作用を有するスピン鎖におけるスケーラブル多体ベル相関の生成

Generation of scalable many-body Bell correlations in spin chains with short-range two-body interactions ( http://arxiv.org/abs/2306.06173v1 )

ライセンス: Link先を確認
Marcin P{\l}odzie\'n, Tomasz Wasak, Emilia Witkowska, Maciej Lewenstein, Jan Chwede\'nczuk(参考訳) 古典的な多体量子系であるスピン鎖は、量子コンピューティングのプロトタイプ、超精密センシング、または量子シミュレータとして用いられる。 したがって、それらの動的および静的な性質、その構造、および ``quantum content''' 、すなわち特定の連鎖が非古典的であるか、という分析に焦点が当てられ、理論的および実験的に注目される。 これらの点に対処し、制御可能な短距離2体相互作用を用いて量子技術の強力な資源、すなわちスピン鎖における多体ベル相関を生成する方法を示す。 その後,生成したベル相関の深さを分類する。 システム内の多体ベル相関を生成するのに必要な臨界範囲を特定し、この臨界行動の背後にある物理的なメカニズムを提供する。 注目すべきは、臨界範囲は鎖の長さごとに短く普遍的であり、このプロトコルの生存可能性を確立することである。 対照的に、システム内で多体ベル相関が発生する臨界時間は、我々の分析が示すように、その大きさに依存する。 重要なことは、これらのベル相関は密度行列の1つの要素だけで完全に決定され、既存の状態トモグラフィー法で測定できることである。 ここで提示された完全に分析的な知見は、短距離の2体相互作用と強い多体非古典的相関を生成する方法への新しい洞察を与え、量子技術への有望な展望を提供する。

Spin chains, the archetypal many-body quantum systems, are used for prototype quantum computing, ultra-precise sensing, or as quantum simulators. Hence, they attract theoretical and experimental attention, focusing on analyzing their dynamic and static properties, their structure, and the ``quantum content'', namely how -- and in what sense -- a particular chain is non-classical. We address these points and show how to generate a potent resource for quantum technologies, namely the many-body Bell correlations in spin chains, with controllable short-range two-body interactions. Subsequently, we classify the depth of produced Bell correlations. We identify a critical range necessary to generate many-body Bell correlations in the system and provide the physical mechanism behind this critical behaviour. Remarkably, the critical range is short and universal for every length of the chain, establishing the viability of this protocol. In contrast, the critical time, at which the many-body Bell correlations emerge in the system depends on its size, as our analysis reveals. Importantly, we show, that these Bell correlations are fully determined by just a single element of the density matrix, and can be measured by the existing state-tomography methods. The fully analytical findings presented here provide novel insight into the methodology of generating strong many-body non-classical correlations with short-range two-body interactions, offering promising prospects for quantum technologies.
翻訳日:2023-06-13 20:39:58 公開日:2023-06-09
# 非可観測物の同時測定 正の変換とインストゥルメンタルリー群

Simultaneous Measurements of Noncommuting Observables. Positive Transformations and Instrumental Lie Groups ( http://arxiv.org/abs/2306.06167v1 )

ライセンス: Link先を確認
Christopher S. Jackson and Carlton M. Caves(参考訳) 我々は, 非可換可観測器の連続的, 微分的, 同時計測を, 状態無しで, 自律的に測定器を記述することに焦点を当てた一般プログラムを策定する。 このような測定プロセスのクラウス作用素は、基本微分正変換の時間順序積であり、それは私たちがインストゥルメンタルリー群と呼ぶ非ユニタリ変換群を生成する。 楽器の時間的進化は、楽器リー群の不変測度 [...] に対して定義されるクラウス作用素分布関数の拡散と等価である。 楽器の進化を考えるこの方法は、インスツルメンツ・マニフォールド・プログラムと呼ばれます。 計測多様体プログラムを状態ベースの確率マスター方程式に関連付ける。 次に、楽器多様体プログラムが、ヒルベルト空間の独立な普遍的インストゥルメンタルリー群(英語版)(universal instrument lie group)の普遍被覆[,]を用いて、楽器の進化を記述するためにどのように用いられるかを説明する。 普遍的な楽器は一般的な無限次元であり、楽器の進化はカオスである。 特殊同時測度は有限次元の普遍測度を持ち、この場合、楽器は主元と見なされ、[...]普遍測度リー群の中で解析することができる。 主要な楽器は量子力学の基礎にある。 観測可能な1つの測度、位置と運動量、角運動量の3つの成分の3つの最も基本的な例を考える。 これらの測定は強い同時測定に制限される。 単一の観測可能であれば、これは非同値なirrep間のコヒーレンス標準崩壊を与える。後者の2つは、各irrep内の崩壊を正準位相空間または球面位相空間に与え、これらのインストゥルメンタルリー群の境界に位相空間を配置する。

We formulate a general program for [...] analyzing continuous, differential weak, simultaneous measurements of noncommuting observables, which focuses on describing the measuring instrument autonomously, without states. The Kraus operators of such measuring processes are time-ordered products of fundamental differential positive transformations, which generate nonunitary transformation groups that we call instrumental Lie groups. The temporal evolution of the instrument is equivalent to the diffusion of a Kraus-operator distribution function defined relative to the invariant measure of the instrumental Lie group [...]. This way of considering instrument evolution we call the Instrument Manifold Program. We relate the Instrument Manifold Program to state-based stochastic master equations. We then explain how the Instrument Manifold Program can be used to describe instrument evolution in terms of a universal cover[,] the universal instrumental Lie group, which is independent [...] of Hilbert space. The universal instrument is generically infinite dimensional, in which situation the instrument's evolution is chaotic. Special simultaneous measurements have a finite-dimensional universal instrument, in which case the instrument is considered to be principal and can be analyzed within the [...] universal instrumental Lie group. Principal instruments belong at the foundation of quantum mechanics. We consider the three most fundamental examples: measurement of a single observable, of position and momentum, and of the three components of angular momentum. These measurements limit to strong simultaneous measurements. For a single observable, this gives the standard decay of coherence between inequivalent irreps; for the latter two, it gives a collapse within each irrep onto the canonical or spherical phase space, locating phase space at the boundary of these instrumental Lie groups.
翻訳日:2023-06-13 20:39:32 公開日:2023-06-09
# ランダムテンソルネットワークにおける浄化の絡み合い

Entanglement of Purification in Random Tensor Networks ( http://arxiv.org/abs/2306.06163v1 )

ライセンス: Link先を確認
Chris Akers, Thomas Faulkner, Simon Lin and Pratik Rath(参考訳) e_p(a\colon b)$ の絡み合いは強力な相関尺度であるが、全ての可能な浄化を最適化するので計算は困難である。 本稿では、新しい不等式を証明する: $E_P(A\colon B)\geq \frac{1}{2}S_R^{(2)}(A\colon B)$, where $S_R^{(n)}(A\colon B)$ はレニイ反射エントロピーである。 これを用いて、大きな結合次元のランダムテンソルネットワークの大きなクラスに対して、$e_p(a\colon b)$ を計算し、それがエンタングルメントウェッジ断面積 $ew(a\colon b)$ に等しいことを示す。

The entanglement of purification $E_P(A\colon B)$ is a powerful correlation measure, but it is notoriously difficult to compute because it involves an optimization over all possible purifications. In this paper, we prove a new inequality: $E_P(A\colon B)\geq \frac{1}{2}S_R^{(2)}(A\colon B)$, where $S_R^{(n)}(A\colon B)$ is the Renyi reflected entropy. Using this, we compute $E_P(A\colon B)$ for a large class of random tensor networks at large bond dimension and show that it is equal to the entanglement wedge cross section $EW(A\colon B)$, proving a previous conjecture motivated from AdS/CFT.
翻訳日:2023-06-13 20:39:01 公開日:2023-06-09
# Aladdin:抽象シーン記述による立体立体集合のゼロショット幻覚

Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract Scene Descriptions ( http://arxiv.org/abs/2306.06212v1 )

ライセンス: Link先を確認
Ian Huang, Vrishab Krishna, Omoruyi Atekha, Leonidas Guibas(参考訳) 特定のシーンの「ビブ」とは何か? 「忙しい、汚れた街の通り」、「アイドルな田舎」、「放棄されたリビングルームの犯罪現場」には何を見つけるべきか。 抽象的なシーン記述からスタイル化されたシーン要素への変換は、厳格で限られた屋内データセットで訓練された既存のシステムでは、いかなる汎用性でも実行できない。 本稿では,基礎モデルが獲得する知識を活用し,この翻訳を実現することを提案する。 本稿では,3Dシーンのスタイル化されたアセットを生成するツールとして,短いフレーズで記述した3Dシーンを列挙したり,その外観を指示したりすることなく作成するシステムを提案する。 さらに、限られたデータで訓練された伝統的な方法がそうでないように、オープンワールドの概念が堅牢であり、3Dアーティストにとってより創造的な自由を与える。 本システムでは,大規模な言語モデル,視覚言語モデル,画像拡散モデルからなる基礎モデル「チーム」を用いて,解釈可能かつユーザ編集可能な中間表現を用いてコミュニケーションを行うことにより,より汎用的で制御可能な3dアーティストのアセット生成を実現する。 そこで本研究では,本課題に対して新たな指標を導入し,その91%の事例において,入力シーン記述のセマンティクスに忠実なシステムアウトプットが判断されることを示すとともに,この手法が3dアーティストの3dコンテンツ作成プロセスを劇的に加速する可能性を強調した。

What constitutes the "vibe" of a particular scene? What should one find in "a busy, dirty city street", "an idyllic countryside", or "a crime scene in an abandoned living room"? The translation from abstract scene descriptions to stylized scene elements cannot be done with any generality by extant systems trained on rigid and limited indoor datasets. In this paper, we propose to leverage the knowledge captured by foundation models to accomplish this translation. We present a system that can serve as a tool to generate stylized assets for 3D scenes described by a short phrase, without the need to enumerate the objects to be found within the scene or give instructions on their appearance. Additionally, it is robust to open-world concepts in a way that traditional methods trained on limited data are not, affording more creative freedom to the 3D artist. Our system demonstrates this using a foundation model "team" composed of a large language model, a vision-language model and several image diffusion models, which communicate using an interpretable and user-editable intermediate representation, thus allowing for more versatile and controllable stylized asset generation for 3D artists. We introduce novel metrics for this task, and show through human evaluations that in 91% of the cases, our system outputs are judged more faithful to the semantics of the input scene description than the baseline, thus highlighting the potential of this approach to radically accelerate the 3D content creation process for 3D artists.
翻訳日:2023-06-13 20:34:28 公開日:2023-06-09
# 多言語BERTモデルのモルフォシンタクティックな探索

Morphosyntactic probing of multilingual BERT models ( http://arxiv.org/abs/2306.06205v1 )

ライセンス: Link先を確認
Judit Acs, Endre Hamerlik, Roy Schwartz, Noah A. Smith, Andras Kornai(参考訳) 言語モデルにおける形態素情報の多言語探索のための広範なデータセット(42言語にわたる10家族から247課題)を導入し、対象語と形態素タグを所望のラベルとする文を共通依存木バンクから導出する。 トレーニング済みのTransformerモデル (mBERT と XLM-RoBERTa) では,これらのタスク間で高い性能を実現することができる。 次に,不明瞭な情報が入力に存在する各探索タスクに対して,2つの方法を適用する。 1つは文脈の様々な部分を隠蔽する新しい摂動法で、2つ目はシェープリー値の古典的な方法である。 出現する最も興味深い発見は、前者の文脈が次の文脈よりも予測に関連するより多くの情報を保持する傾向である。

We introduce an extensive dataset for multilingual probing of morphological information in language models (247 tasks across 42 languages from 10 families), each consisting of a sentence with a target word and a morphological tag as the desired label, derived from the Universal Dependencies treebanks. We find that pre-trained Transformer models (mBERT and XLM-RoBERTa) learn features that attain strong performance across these tasks. We then apply two methods to locate, for each probing task, where the disambiguating information resides in the input. The first is a new perturbation method that masks various parts of context; the second is the classical method of Shapley values. The most intriguing finding that emerges is a strong tendency for the preceding context to hold more information relevant to the prediction than the following context.
翻訳日:2023-06-13 20:34:03 公開日:2023-06-09
# FLSL: 機能レベルの自己教師型学習

FLSL: Feature-level Self-supervised Learning ( http://arxiv.org/abs/2306.06203v1 )

ライセンス: Link先を確認
Qing Su, Anton Netchaev, Hai Li, and Shihao Ji(参考訳) 現在の自己教師型学習(SSL)メソッド(SimCLR、DINO、VICReg、MOCOv3)は、主にインスタンスレベルでの表現をターゲットとしており、オブジェクト検出やセグメンテーションのような高密度な予測タスクには適さない。 本稿では、SSLと高密度な予測の整合性を示すために、視覚変換器(ViT)の基盤となる平均シフトクラスタリングプロセスを、自然画像のセマンティクス(オブジェクトや物の世界など)とうまく一致させることを初めて示す。 共同埋め込みとクラスタリングにトランスフォーマーを用いることにより,FLSL(Feature-Level Self-supervised Learning)と呼ばれる2レベル特徴クラスタリングSSL法を提案する。 FLSL問題の形式的定義を示し、平均シフトおよびk平均視点から目的を構築する。 FLSLは目覚しいセマンティッククラスタ表現を促進し,ビュー内およびビュー間特徴クラスタリングに適した埋め込みスキームを学習する。 実験の結果、FLSLは高密度予測タスクにおいて大幅に改善し、対象検出では44.9 (+2.8)% APと46.5% AP、MS-COCOでは40.8 (+2.3)% APと42.1% APを達成した。 FLSLは、UAVDTでのUAVオブジェクト検出やDAVIS 2017でのビデオインスタンスセグメンテーションなど、既存のSSLメソッドよりも一貫して優れている。 flslの成功をよりよく理解するために,可視化および種々のアブレーション研究を行った。

Current self-supervised learning (SSL) methods (e.g., SimCLR, DINO, VICReg, MOCOv3) target primarily on representations at instance level and do not generalize well to dense prediction tasks, such as object detection and segmentation. Towards aligning SSL with dense predictions, this paper demonstrates for the first time the underlying mean-shift clustering process of Vision Transformers (ViT), which aligns well with natural image semantics (e.g., a world of objects and stuffs). By employing transformer for joint embedding and clustering, we propose a two-level feature clustering SSL method, coined Feature-Level Self-supervised Learning (FLSL). We present the formal definition of the FLSL problem and construct the objectives from the mean-shift and k-means perspectives. We show that FLSL promotes remarkable semantic cluster representations and learns an embedding scheme amenable to intra-view and inter-view feature clustering. Experiments show that FLSL yields significant improvements in dense prediction tasks, achieving 44.9 (+2.8)% AP and 46.5% AP in object detection, as well as 40.8 (+2.3)% AP and 42.1% AP in instance segmentation on MS-COCO, using Mask R-CNN with ViT-S/16 and ViT-S/8 as backbone, respectively. FLSL consistently outperforms existing SSL methods across additional benchmarks, including UAV object detection on UAVDT, and video instance segmentation on DAVIS 2017. We conclude by presenting visualization and various ablation studies to better 20 understand the success of FLSL.
翻訳日:2023-06-13 20:33:49 公開日:2023-06-09
# NeuroGraph:脳コネクトロミクスにおけるグラフ機械学習のベンチマーク

NeuroGraph: Benchmarks for Graph Machine Learning in Brain Connectomics ( http://arxiv.org/abs/2306.06202v1 )

ライセンス: Link先を確認
Anwar Said, Roza G. Bayrak, Tyler Derr, Mudassir Shabbir, Daniel Moyer, Catie Chang, Xenofon Koutsoukos(参考訳) 機械学習は高次元機能的神経画像データを分析する貴重なツールであり、様々な神経疾患、精神疾患、認知パターンを予測するのに効果的である。 機能的磁気共鳴イメージング(MRI)研究において、脳領域間の相互作用はグラフベースの表現を用いて一般的にモデル化される。 グラフ機械学習手法の有効性は、データ解釈と予測モデリングにおける変換ステップを象徴する、無数の領域にまたがって確立されている。 しかし、これらの手法のニューロイメージング領域への変換は、その将来性にもかかわらず、グラフベースのデータセット構築のための拡張前処理パイプラインと大きなパラメータ探索スペースのために驚くほど過小評価されている。 本稿では,行動特性と認知特性の複数のカテゴリにまたがる,グラフベースの神経画像データセットのコレクションであるneurographを提案する。 静的コンテキストと動的コンテキストの両方で35のデータセットを作成し、ベンチマークのための15のベースラインメソッドを実行することで、データセット生成検索スペースを深く掘り下げています。 さらに、静的グラフだけでなく動的にも学習するための汎用フレームワークも提供しています。 私たちの広範な実験は、いくつかの重要な観測につながります。 特に、相関ベクトルをノードの特徴として使用し、より多くの関心領域を取り入れ、スパーザーグラフを使用すると、パフォーマンスが向上する。 グラフベースのデータ駆動ニューロイメージングのさらなる進歩を促進するため、データセット、ベースライン実装、モデルトレーニング、標準評価を含む、包括的なオープンソースPythonパッケージを提供しています。 このパッケージはhttps://anwar-said.github.io/anwarsaid/neurograph.htmlで公開されている。

Machine learning provides a valuable tool for analyzing high-dimensional functional neuroimaging data, and is proving effective in predicting various neurological conditions, psychiatric disorders, and cognitive patterns. In functional Magnetic Resonance Imaging (MRI) research, interactions between brain regions are commonly modeled using graph-based representations. The potency of graph machine learning methods has been established across myriad domains, marking a transformative step in data interpretation and predictive modeling. Yet, despite their promise, the transposition of these techniques to the neuroimaging domain remains surprisingly under-explored due to the expansive preprocessing pipeline and large parameter search space for graph-based datasets construction. In this paper, we introduce NeuroGraph, a collection of graph-based neuroimaging datasets that span multiple categories of behavioral and cognitive traits. We delve deeply into the dataset generation search space by crafting 35 datasets within both static and dynamic contexts, running in excess of 15 baseline methods for benchmarking. Additionally, we provide generic frameworks for learning on dynamic as well as static graphs. Our extensive experiments lead to several key observations. Notably, using correlation vectors as node features, incorporating larger number of regions of interest, and employing sparser graphs lead to improved performance. To foster further advancements in graph-based data driven Neuroimaging, we offer a comprehensive open source Python package that includes the datasets, baseline implementations, model training, and standard evaluation. The package is publicly accessible at https://anwar-said.github.io/anwarsaid/neurograph.html .
翻訳日:2023-06-13 20:33:12 公開日:2023-06-09
# 信頼度チェック: GPT-3 の感性トピックとプロンプトワードに対する反応の分析

Reliability Check: An Analysis of GPT-3's Response to Sensitive Topics and Prompt Wording ( http://arxiv.org/abs/2306.06199v1 )

ライセンス: Link先を確認
Aisha Khatun and Daniel G. Brown(参考訳) 大規模言語モデル(LLM)は、多用途のユースケースと印象的なパフォーマンスで主流技術となっている。 数え切れないほどのアプリケーションにもかかわらず、llmはいまだに信頼できない。 微調整、刺激、RLHF(Reinforcement Learning with Human Feedback)を通じて、これらのモデルの事実的正確性、一貫性、倫理的基準を改善するために多くの作業が行われているが、これらのモデルのさまざまなカテゴリに対する応答の体系的な分析は行われていない。 本研究は,GPT-3を混乱させるもの,すなわち,モデルが特定のセンシティブなトピックにどう反応するか,そしてモデル応答にどのような影響があるのかを解析する。 GPT-3は明らかな陰謀やステレオタイプと正しく一致しないが、一般的な誤解や論争では誤りを犯す。 モデル応答はプロンプトや設定に不整合であり、GPT-3の信頼性の欠如を強調している。 分析のデータセットとコードはhttps://github.com/tanny411/GPT3-Reliability-Check.orgで公開されている。

Large language models (LLMs) have become mainstream technology with their versatile use cases and impressive performance. Despite the countless out-of-the-box applications, LLMs are still not reliable. A lot of work is being done to improve the factual accuracy, consistency, and ethical standards of these models through fine-tuning, prompting, and Reinforcement Learning with Human Feedback (RLHF), but no systematic analysis of the responses of these models to different categories of statements, or on their potential vulnerabilities to simple prompting changes is available. In this work, we analyze what confuses GPT-3: how the model responds to certain sensitive topics and what effects the prompt wording has on the model response. We find that GPT-3 correctly disagrees with obvious Conspiracies and Stereotypes but makes mistakes with common Misconceptions and Controversies. The model responses are inconsistent across prompts and settings, highlighting GPT-3's unreliability. Dataset and code of our analysis is available in https://github.com/tanny411/GPT3-Reliability-Check.
翻訳日:2023-06-13 20:32:32 公開日:2023-06-09
# ElectroCardioGuard: ニューラルネットを用いた心電図データベースにおける患者の誤診防止

ElectroCardioGuard: Preventing Patient Misidentification in Electrocardiogram Databases through Neural Networks ( http://arxiv.org/abs/2306.06196v1 )

ライセンス: Link先を確認
Michal Sej\'ak, Jakub Sido, David \v{Z}ahour(参考訳) 心電図(Electrocardiograms, ECGs)は、心疾患の診断に用いられる。 信頼性の高い心電図の収集は正確な診断に不可欠である。 しかし, 臨床では不適切な患者に対する心電図記録の割り当てが不注意に発生することがある。 そこで本研究では, この課題を認識し, 当院に接触した臨床研究機関と共同で, この問題に対処した研究を紹介する。 本研究では,2つの心電図が同一患者に由来するかどうかを判定する,小型で効率的な神経ネットワークモデルを提案する。 本モデルは, PTB-XL 上でのギャラリープローブによる患者識別において, 760 倍少ないパラメータを用いて, 高い一般化能力を示し, 最先端の性能を実現する。 さらに,本モデルを用いて記録符号誤りの検出を行い,現実的シナリオにおけるその適用可能性を示す手法を提案する。 最後に,本研究用に新たに収集したECGデータセットを用いて,本モデルを評価し,研究コミュニティに公開する。

Electrocardiograms (ECGs) are commonly used by cardiologists to detect heart-related pathological conditions. Reliable collections of ECGs are crucial for precise diagnosis. However, in clinical practice, the assignment of captured ECG recordings to incorrect patients can occur inadvertently. In collaboration with a clinical and research facility which recognized this challenge and reached out to us, we present a study that addresses this issue. In this work, we propose a small and efficient neural-network based model for determining whether two ECGs originate from the same patient. Our model demonstrates great generalization capabilities and achieves state-of-the-art performance in gallery-probe patient identification on PTB-XL while utilizing 760x fewer parameters. Furthermore, we present a technique leveraging our model for detection of recording-assignment mistakes, showcasing its applicability in a realistic scenario. Finally, we evaluate our model on a newly collected ECG dataset specifically curated for this study, and make it public for the research community.
翻訳日:2023-06-13 20:31:49 公開日:2023-06-09
# 高動的条件下における公共交通需要予測:最先端モデルとオープンソースベンチマークインフラストラクチャのメタ分析

Public Transit Demand Prediction During Highly Dynamic Conditions: A Meta-Analysis of State-of-the-Art Models and Open-Source Benchmarking Infrastructure ( http://arxiv.org/abs/2306.06194v1 )

ライセンス: Link先を確認
Juan D. Caicedo, Marta C. Gonz\'alez, Joan L. Walker(参考訳) リアルタイム需要予測は動的バスルーティングにとって重要な入力である。 多くの研究者は短期の交通需要を予測するために多くの複雑な方法を開発したが、アプリケーションは短い、安定した時間枠といくつかの駅に限られている。 これらの手法が極めてダイナミックな環境でどのように機能するかは研究されていない。 econometricおよびdeep learningアプローチを含む5つの一般的な方法論を備えたオープンソースインフラストラクチャを構築し,安定かつ高ダイナミックな条件下でのパフォーマンスを評価した。 我々は,コロンビア・ボゴタのBRTシステムの翌日の需要予測に,スマートカードデータからの時系列を用いた。 時系列のダイナミックな状況には、1カ月にわたる抗議と新型コロナウイルスのパンデミックが含まれる。 どちらの条件も需要の急激な変化を引き起こした。 その結果、ほとんどの試験モデルも同様に安定な条件で動作し、MAAPEは0.08から0.12に変化することがわかった。 このベンチマークは、安定条件と比較して両方の動的条件において、全てのモデルが著しく悪い結果を示した。 この1ヶ月の抗議活動で、マペは0.14から0.24まで増加した。 同様に、新型コロナウイルスのパンデミックの間、MAAPEは0.12から0.82まで増加した。 新型コロナウイルス(COVID-19)のパンデミックでは、適応トレーニングとマルチアウトプットデザインを備えたLSTMモデルが他のモデルより優れ、破壊に迅速に適応した。 予測誤差は約1.5カ月で安定し、他のモデルもパンデミック開始後1年も高い誤差率を示し続けた。 このオープンソースのコードベースインフラストラクチャの目的は、他の研究者によるモデルの複製と再現の障壁の低減、ベンチマークプロセスの改善と短期的なライダーシップ予測モデルの促進のための研究コミュニティの集団的取り組みの促進である。

Real-time demand prediction is a critical input for dynamic bus routing. While many researchers have developed numerous complex methods to predict short-term transit demand, the applications have been limited to short, stable time frames and a few stations. How these methods perform in highly dynamic environments has not been studied, nor has their performance been systematically compared. We built an open-source infrastructure with five common methodologies, including econometric and deep learning approaches, and assessed their performance under stable and highly dynamic conditions. We used a time series from smartcard data to predict demand for the following day for the BRT system in Bogota, Colombia. The dynamic conditions in the time series include a month-long protest and the COVID-19 pandemic. Both conditions triggered drastic shifts in demand. The results reveal that most tested models perform similarly in stable conditions, with MAAPE varying from 0.08 to 0.12. The benchmark demonstrated that all models performed significantly worse in both dynamic conditions compared to the stable conditions. In the month-long protest, the increased MAAPE ranged from 0.14 to 0.24. Similarly, during the COVID-19 pandemic, the increased MAAPE ranged from 0.12 to 0.82. Notably, in the COVID-19 pandemic condition, an LSTM model with adaptive training and a multi-output design outperformed other models, adapting faster to disruptions. The prediction error stabilized within approximately 1.5 months, whereas other models continued to exhibit higher error rates even a year after the start of the pandemic. The aim of this open-source codebase infrastructure is to lower the barrier for other researchers to replicate and reproduce models, facilitate a collective effort within the research community to improve the benchmarking process and accelerate the advancement of short-term ridership prediction models.
翻訳日:2023-06-13 20:31:24 公開日:2023-06-09
# 組立によるモデル不確定性の面の一貫性説明

Consistent Explanations in the Face of Model Indeterminacy via Ensembling ( http://arxiv.org/abs/2306.06193v1 )

ライセンス: Link先を確認
Dan Ley, Leonard Tang, Matthew Nazari, Hongjin Lin, Suraj Srinivas, Himabindu Lakkaraju(参考訳) 本研究は、与えられたデータセットとタスクに対して、複数の(ほぼ)均質なモデルが存在するために生じる、モデル不確定性の存在下で予測モデルに対して一貫した説明を提供するという課題に対処する。 類似した性能にもかかわらず、これらのモデルは予測に矛盾する、あるいは矛盾する説明をしばしば示し、批判的な決定を下すためにこれらのモデルに依存するエンドユーザーに課題を提起する。 この問題を認識し,これらのシナリオで提供される説明の一貫性を高めるアプローチとして,アンサンブル手法を導入する。 ニューラルネットワークのロスランドスケープとモードコネクティビティに関する最近の研究から得た洞察を活かし、トレーニング中のランダムシードの変更のみによって生じるパフォーマンスの変動のあるモデルセットである$\textit{underspecification set}$を効率的に探索するためのアンサンブル戦略を考案する。 5つのベンチマークファイナンシャルデータセットの実験では、アンサンブルは類似性を説明する上で大きな改善をもたらすことが示され、アンサンブル法がアンサンブル法を効果的に探索する可能性を示している。 本研究は,説明を解釈する際にモデル不確定性を考慮することの重要性を浮き彫りにし,機械学習における説明の信頼性向上におけるアンサンブルの有効性を示す。

This work addresses the challenge of providing consistent explanations for predictive models in the presence of model indeterminacy, which arises due to the existence of multiple (nearly) equally well-performing models for a given dataset and task. Despite their similar performance, such models often exhibit inconsistent or even contradictory explanations for their predictions, posing challenges to end users who rely on these models to make critical decisions. Recognizing this issue, we introduce ensemble methods as an approach to enhance the consistency of the explanations provided in these scenarios. Leveraging insights from recent work on neural network loss landscapes and mode connectivity, we devise ensemble strategies to efficiently explore the $\textit{underspecification set}$ -- the set of models with performance variations resulting solely from changes in the random seed during training. Experiments on five benchmark financial datasets reveal that ensembling can yield significant improvements when it comes to explanation similarity, and demonstrate the potential of existing ensemble methods to explore the underspecification set efficiently. Our findings highlight the importance of considering model indeterminacy when interpreting explanations and showcase the effectiveness of ensembles in enhancing the reliability of explanations in machine learning.
翻訳日:2023-06-13 20:30:54 公開日:2023-06-09
# Ada-NAV:ロボットナビゲーションのための適応軌道に基づく効率的な政策学習

Ada-NAV: Adaptive Trajectory-Based Sample Efficient Policy Learning for Robotic Navigation ( http://arxiv.org/abs/2306.06192v1 )

ライセンス: Link先を確認
Bhrij Patel, Kasun Weerakoon, Wesley A. Suttle, Alec Koppel, Brian M. Sadler, Amrit Singh Bedi and Dinesh Manocha(参考訳) 強化学習法は、ロボットナビゲーション戦略の学習に有効であるが、非常に非効率なサンプルであることが知られている。 このサンプルの非効率性は、政策最適化中に特に非定常の存在下での探索-展開のジレンマのバランスが不適切であることから生じる。 サンプル効率のための探索・探索のバランスを組み込むために, シャノンあるいは微分エントロピーで表されるポリシーのランダム性として長さが増加する適応軌道長スキームada-navを提案する。 適応軌跡長スキームは,より頻繁な勾配更新によるトレーニング開始時の探索を強調し,その後,より長い軌道での利用を強調する。 グリッドワールド, シミュレーションロボット環境, 実世界のロボット実験において, 一定かつランダムにサンプリングされた軌道長に対するアプローチの利点を, 性能と試料効率の観点から示す。 固定サンプル予算では、Ada-NAVは航法成功率が18%増加し、航法経路の長さが20~38%減少し、他の方法と比較して標高コストが9.32%低下する。 また,ada-navをclearpath huskyロボットに移し,性能を低下させることなく統合できることを実証した。

Reinforcement learning methods, while effective for learning robotic navigation strategies, are known to be highly sample inefficient. This sample inefficiency comes in part from not suitably balancing the explore-exploit dilemma, especially in the presence of non-stationarity, during policy optimization. To incorporate a balance of exploration-exploitation for sample efficiency, we propose Ada-NAV, an adaptive trajectory length scheme where the length grows as a policy's randomness, represented by its Shannon or differential entropy, decreases. Our adaptive trajectory length scheme emphasizes exploration at the beginning of training due to more frequent gradient updates and emphasizes exploitation later on with longer trajectories. In gridworld, simulated robotic environments, and real-world robotic experiments, we demonstrate the merits of the approach over constant and randomly sampled trajectory lengths in terms of performance and sample efficiency. For a fixed sample budget, Ada-NAV results in an 18% increase in navigation success rate, a 20-38% decrease in the navigation path length, and 9.32% decrease in the elevation cost compared to the policies obtained by the other methods. We also demonstrate that Ada-NAV can be transferred and integrated into a Clearpath Husky robot without significant performance degradation.
翻訳日:2023-06-13 20:30:31 公開日:2023-06-09
# GitHubのオープンデータ - AIの可能性を解き放つ

Open Data on GitHub: Unlocking the Potential of AI ( http://arxiv.org/abs/2306.06191v1 )

ライセンス: Link先を確認
Anthony Cintron Roman, Kevin Xu, Arfon Smith, Jehu Torres Vega, Caleb Robinson, Juan M Lavista Ferres(参考訳) GitHubは、コラボレーションソフトウェア開発のための世界最大のプラットフォームであり、1億人以上のユーザーがいる。 GitHubは8億以上のオープンデータファイルをホストし、合計142テラバイトのデータを収集するオープンデータコラボレーションにも広く利用されている。 この研究は、GitHub上のオープンデータの可能性を強調し、AI研究を加速する方法を実証する。 GitHub上のオープンデータの既存の状況と、ユーザがデータセットを共有する方法のパターンを分析します。 私たちの調査によると、GitHubは世界最大のオープンデータホストの1つであり、過去4年間でオープンデータ資産の急速な成長を経験した。 GitHub上のオープンデータランドスケープを調べることで、ユーザや組織が既存のオープンデータセットを活用して、発見可能性を向上させることを目指しています。 私たちは、この分析をサポートするために収集した3つのデータセットを、https://github.com/github/open-data-on-githubでオープンデータセットとしてリリースします。

GitHub is the world's largest platform for collaborative software development, with over 100 million users. GitHub is also used extensively for open data collaboration, hosting more than 800 million open data files, totaling 142 terabytes of data. This study highlights the potential of open data on GitHub and demonstrates how it can accelerate AI research. We analyze the existing landscape of open data on GitHub and the patterns of how users share datasets. Our findings show that GitHub is one of the largest hosts of open data in the world and has experienced an accelerated growth of open data assets over the past four years. By examining the open data landscape on GitHub, we aim to empower users and organizations to leverage existing open datasets and improve their discoverability -- ultimately contributing to the ongoing AI revolution to help address complex societal issues. We release the three datasets that we have collected to support this analysis as open datasets at https://github.com/github/open-data-on-github.
翻訳日:2023-06-13 20:30:05 公開日:2023-06-09
# beyond weights:pure synaptic-delay trainingを用いたスパイクニューラルネットワークのディープラーニング

Beyond Weights: Deep learning in Spiking Neural Networks with pure synaptic-delay training ( http://arxiv.org/abs/2306.06237v1 )

ライセンス: Link先を確認
Edoardo W. Grappolini and Anand Subramoney(参考訳) 生物学的証拠は、短時間から中程度の時間スケールでのシナプス遅延の適応が脳内の学習において重要な役割を担っていることを示唆している。 生物学に触発されて,シナプス重みがトレーニングされていないがランダムに選択された固定値に保たれている場合でも,シナプス遅延を用いた課題解決の可能性と能力について検討する。 後方伝搬によるフィードフォワードスパイクネットワークの遅延をONLYでトレーニングすることで,従来の重量トレーニングに匹敵する性能が得られることを示す。 さらに、重みを三元値にさらに制約することは、シナプス遅延のみを使用してタスクを解決するネットワークの能力に大きな影響を与えない。 mnistおよびファッションmnistデータセットにおける遅延のみトレーニングのタスク性能を予備実験で実証する。 これは、スパイクニューラルネットワークのトレーニングのための新しいパラダイムを示し、計算に重みを使用するモデルよりも効率の良いモデルのステージを設定する。

Biological evidence suggests that adaptation of synaptic delays on short to medium timescales plays an important role in learning in the brain. Inspired by biology, we explore the feasibility and power of using synaptic delays to solve challenging tasks even when the synaptic weights are not trained but kept at randomly chosen fixed values. We show that training ONLY the delays in feed-forward spiking networks using backpropagation can achieve performance comparable to the more conventional weight training. Moreover, further constraining the weights to ternary values does not significantly affect the networks' ability to solve the tasks using only the synaptic delays. We demonstrate the task performance of delay-only training on MNIST and Fashion-MNIST datasets in preliminary experiments. This demonstrates a new paradigm for training spiking neural networks and sets the stage for models that can be more efficient than the ones that use weights for computation.
翻訳日:2023-06-13 20:22:38 公開日:2023-06-09
# iplan:分散マルチエージェント強化学習による異種交通のインテントアウェア計画

iPLAN: Intent-Aware Planning in Heterogeneous Traffic via Distributed Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2306.06236v1 )

ライセンス: Link先を確認
Xiyang Wu, Rohan Chandra, Tianrui Guan, Amrit Singh Bedi, Dinesh Manocha(参考訳) 密集した均一な交通シナリオで安全かつ効率的に航行することは、近くのドライバーの行動や意図を推測できないため、自動運転車(AV)にとって困難である。 本研究では,高密度および不均一な交通シナリオにおける軌跡と意図予測を備えた分散マルチエージェント強化学習(MARL)アルゴリズムを提案する。 インテント対応プランニングのアプローチであるiPLANにより、エージェントは近くのドライバーの意図をローカルな観察からのみ推測できる。 エージェントの戦略に対する2つの異なるインセンティブをモデル化する:エージェントの運転行動や性格に基づく長期計画に対する行動インセンティブ;エージェントの現在の交通状況に基づく衝突回避のための短期計画に対する即時インセンティブ。 エージェントが相手のインセンティブを推論し、推論した情報を意思決定に組み込む2つのストリーム推論モジュールを設計した。 非協力型ナビゲーションと不均一道路という2つのシミュレーション環境で実験を行う。 ヘテロジニアスハイウェイでは,QMIXやMAPPOなどの集中型MARLベースラインと比較して,本手法は軽度・カオス性交通において4.0%,35.7%,成功率48.1%,カオス性交通において生存時間を80.6%と高い。 また,分散ベースラインippoと比較し,マイルドトラフィックとカオストラフィックでは9.2%,10.3%,成功率25.3%,生存時間13.7%のエピソディック報酬を示した。

Navigating safely and efficiently in dense and heterogeneous traffic scenarios is challenging for autonomous vehicles (AVs) due to their inability to infer the behaviors or intentions of nearby drivers. In this work, we propose a distributed multi-agent reinforcement learning (MARL) algorithm with trajectory and intent prediction in dense and heterogeneous traffic scenarios. Our approach for intent-aware planning, iPLAN, allows agents to infer nearby drivers' intents solely from their local observations. We model two distinct incentives for agents' strategies: Behavioral incentives for agents' long-term planning based on their driving behavior or personality; Instant incentives for agents' short-term planning for collision avoidance based on the current traffic state. We design a two-stream inference module that allows agents to infer their opponents' incentives and incorporate their inferred information into decision-making. We perform experiments on two simulation environments, Non-Cooperative Navigation and Heterogeneous Highway. In Heterogeneous Highway, results show that, compared with centralized MARL baselines such as QMIX and MAPPO, our method yields a 4.0% and 35.7% higher episodic reward in mild and chaotic traffic, with 48.1% higher success rate and 80.6% longer survival time in chaotic traffic. We also compare with a decentralized baseline IPPO and demonstrate a higher episodic reward of 9.2% and 10.3% in mild traffic and chaotic traffic, 25.3% higher success rate, and 13.7% longer survival time.
翻訳日:2023-06-13 20:22:20 公開日:2023-06-09
# 基本モデルを用いた極小スーパービジョンによる政策違反の検出

Using Foundation Models to Detect Policy Violations with Minimal Supervision ( http://arxiv.org/abs/2306.06234v1 )

ライセンス: Link先を確認
Sid Mittal, Vineet Gupta, Frederick Liu, Mukund Sundararajan(参考訳) 基礎モデル、すなわち、大きなテキストコーパスで事前訓練された大きなニューラルネットワークは、NLPに革命をもたらした。 直接指示できる(例:arXiv:2005.14165) - これはハードプロンプトと呼ばれ、非常に小さなデータ(例:arXiv:2104.08691)で調整できる - このテクニックはソフトプロンプトと呼ばれる。 我々はその能力を活用して、政策違反を検出することを目指している。 私たちは、ポリシー違反タスクにチェーン・オブ・マインド(chain-of-thought)プロンプトを適用するハードプロンプトを特定します。 このプロンプトは、その分類を正当化する抽出的説明とともに、ポリシー違反の分類を生成する。 ソフト・プロンプト・チューニングによるハード・プロンプトを構成することで、極めて少ない監督で高精度な分類器を生成する。 監督は分類にのみ作用するが、修正された説明は(調整された)モデルの応答と一致している。 その過程で、基礎モデルのいくつかの直観的側面を同定する。 例えば、特定のクラスから例を追加すると、実際にはそのクラスの予測を減少させます。 技術的結果に基づいて、プロダクトチームが効果的なポリシー違反検出を迅速に開発するための簡単なワークフローを特定します。

Foundation models, i.e. large neural networks pre-trained on large text corpora, have revolutionized NLP. They can be instructed directly (e.g. (arXiv:2005.14165)) - this is called hard prompting - and they can be tuned using very little data (e.g. (arXiv:2104.08691)) - this technique is called soft prompting. We seek to leverage their capabilities to detect policy violations. Our contributions are: We identify a hard prompt that adapts chain-of-thought prompting to policy violation tasks. This prompt produces policy violation classifications, along with extractive explanations that justify the classification. We compose the hard-prompts with soft prompt tuning to produce a classifier that attains high accuracy with very little supervision; the same classifier also produces explanations. Though the supervision only acts on the classifications, we find that the modified explanations remain consistent with the (tuned) model's response. Along the way, we identify several unintuitive aspects of foundation models. For instance, adding an example from a specific class can actually reduce predictions of that class, and separately, the effects of tokenization on scoring etc. Based on our technical results, we identify a simple workflow for product teams to quickly develop effective policy violation detectors.
翻訳日:2023-06-13 20:21:52 公開日:2023-06-09
# 拡散モデルを用いたGUIプロトタイピングの高速化

Boosting GUI Prototyping with Diffusion Models ( http://arxiv.org/abs/2306.06233v1 )

ライセンス: Link先を確認
Jialiang Wei, Anne-Lise Courbis, Thomas Lambolais, Binbin Xu, Pierre Louis Bernard, G\'erard Dray(参考訳) gui(graphical user interface)プロトタイピング(プロトタイピング)は,要件の収集と洗練,開発リスクの低減,ステークホルダの関与の増大といった,要件エンジニアリングにおいて広く使用されているテクニックである。 しかし、GUIプロトタイピングは時間がかかるしコストもかかる。 近年、安定拡散などのディープラーニングモデルが、テキストプロンプトに基づいて詳細な画像を生成する強力なテキスト対画像ツールとして登場している。 本稿では,Stable Diffusionを利用したシンプルなテキスト記述とUIコンポーネントによるモバイルUI生成手法であるUI-Diffuserを提案する。 予備的な結果から、UI-Diffuserは、広範囲なプロトタイピング作業の必要を減らしながら、モバイルGUIデザインを生成するための効率的でコスト効率の良い方法を提供する。 このアプローチは、要求工学におけるGUIプロトタイピングのスピードと効率を大幅に改善する可能性がある。

GUI (graphical user interface) prototyping is a widely-used technique in requirements engineering for gathering and refining requirements, reducing development risks and increasing stakeholder engagement. However, GUI prototyping can be a time-consuming and costly process. In recent years, deep learning models such as Stable Diffusion have emerged as a powerful text-to-image tool capable of generating detailed images based on text prompts. In this paper, we propose UI-Diffuser, an approach that leverages Stable Diffusion to generate mobile UIs through simple textual descriptions and UI components. Preliminary results show that UI-Diffuser provides an efficient and cost-effective way to generate mobile GUI designs while reducing the need for extensive prototyping efforts. This approach has the potential to significantly improve the speed and efficiency of GUI prototyping in requirements engineering.
翻訳日:2023-06-13 20:21:30 公開日:2023-06-09
# 音声・音韻情報に対する自己教師型音声モデルの提案--覚醒を事例として

Probing self-supervised speech models for phonetic and phonemic information: a case study in aspiration ( http://arxiv.org/abs/2306.06232v1 )

ライセンス: Link先を確認
Kinan Martin, Jon Gauthier, Canaan Breiss, Roger Levy(参考訳) 近年,テキストのない自己教師型音声モデルの開発が進んでいるが,それらが符号化する言語情報の性質はまだ十分に検討されていない。 これらのモデルの学習表現が、人間が行った基本的な表現的区別と合致する程度を評価し、単語初期停止でインスタンス化された音素(低レベル)と音素(より抽象的な)のコントラストの集合に焦点を当てた。 これらのモデルのアーキテクチャの初期層には、音韻的・音韻的な区別の堅牢な表現が出現し、より深い層表現の主成分として保存される。 この成功の源泉は2つあり、あるものは音声データのモデル最適化によってのみ説明できるが、あるものはこれらのモデルの高次元アーキテクチャによるものである。 以上の結果から,HuBERTは抽象音韻的区別に対応する低雑音・低次元部分空間を導出した。

Textless self-supervised speech models have grown in capabilities in recent years, but the nature of the linguistic information they encode has not yet been thoroughly examined. We evaluate the extent to which these models' learned representations align with basic representational distinctions made by humans, focusing on a set of phonetic (low-level) and phonemic (more abstract) contrasts instantiated in word-initial stops. We find that robust representations of both phonetic and phonemic distinctions emerge in early layers of these models' architectures, and are preserved in the principal components of deeper layer representations. Our analyses suggest two sources for this success: some can only be explained by the optimization of the models on speech data, while some can be attributed to these models' high-dimensional architectures. Our findings show that speech-trained HuBERT derives a low-noise and low-dimensional subspace corresponding to abstract phonological distinctions.
翻訳日:2023-06-13 20:21:16 公開日:2023-06-09
# avscan2vec: 生産規模マルウェアコーパスのアンチウイルススキャンデータに関する特徴学習

AVScan2Vec: Feature Learning on Antivirus Scan Data for Production-Scale Malware Corpora ( http://arxiv.org/abs/2306.06228v1 )

ライセンス: Link先を確認
Robert J. Joyce, Tirth Patel, Charles Nicholas, Edward Raff(参考訳) 悪意のあるファイルを調べる場合、関連するファイルを探すことは、マルウェアアナリストが実行しなければならない一般的なタスクである。 プロダクションマルウェアコーパスには10億以上のファイルが含まれ、ペタバイトのストレージを消費する可能性があるため、多くの特徴抽出と類似性検索アプローチは計算不可能である。 我々の研究は、マルウェアの機能のスケーラブルな源として、アンチウイルス(AV)スキャンデータの可能性を探るものである。 これは、AVスキャンレポートが VirusTotal などのサービスを通じて広く利用でき、平均的なマルウェアサンプルの約100倍小さいためである。 AVスキャンレポート内の情報は豊富な情報であり、悪意のあるファイルの家族、動作、ターゲットオペレーティングシステム、その他多くの特徴を示すことができる。 AVScan2Vecは、AVスキャンデータのセマンティクスを理解するために訓練された言語モデルである。 AVScan2Vecは悪意のあるファイルのAVスキャンデータを取り込み、意味のあるベクトル表現を出力する。 AVScan2Vecベクターは、現在の一般的な代替品の約3倍から85倍小さく、ベクター比較の高速化とメモリ使用量の削減を実現している。 動的連続インデクシングを組み込むことにより,avscan2vecベクターのニアス・neighborクエリが,最大規模のマルウェア生産データセットにまで拡張可能であることを示す。 また、AVScan2Vecベクターは、評価したほぼすべての分類、クラスタリング、最寄りのルックアップアルゴリズムにおいて、他の主要なマルウェア特徴ベクトル表現よりも優れていることを示した。

When investigating a malicious file, searching for related files is a common task that malware analysts must perform. Given that production malware corpora may contain over a billion files and consume petabytes of storage, many feature extraction and similarity search approaches are computationally infeasible. Our work explores the potential of antivirus (AV) scan data as a scalable source of features for malware. This is possible because AV scan reports are widely available through services such as VirusTotal and are ~100x smaller than the average malware sample. The information within an AV scan report is abundant with information and can indicate a malicious file's family, behavior, target operating system, and many other characteristics. We introduce AVScan2Vec, a language model trained to comprehend the semantics of AV scan data. AVScan2Vec ingests AV scan data for a malicious file and outputs a meaningful vector representation. AVScan2Vec vectors are ~3 to 85x smaller than popular alternatives in use today, enabling faster vector comparisons and lower memory usage. By incorporating Dynamic Continuous Indexing, we show that nearest-neighbor queries on AVScan2Vec vectors can scale to even the largest malware production datasets. We also demonstrate that AVScan2Vec vectors are superior to other leading malware feature vector representations across nearly all classification, clustering, and nearest-neighbor lookup algorithms that we evaluated.
翻訳日:2023-06-13 20:21:00 公開日:2023-06-09
# カダノフ・バイム方程式の時間的非局所成分に対する記憶の重要さについて

On the unimportance of memory for the time non-local components of the Kadanoff-Baym equations ( http://arxiv.org/abs/2306.06225v1 )

ライセンス: Link先を確認
Cian C. Reeves, Yuanran Zhu, Chao Yang, Vojtech Vlcek(参考訳) 一般化されたカダノフ・ベイム・アンサッツ(gkba)は、カダノフ・ベイム方程式(英語版)(kbe)の近似であり、グリーン関数に非等間隔で寄与する特定の記憶効果を無視する。 ここでは,KBE と GKBA が適切である条件下で GKBA を導出する場合に無視される量の実用的意義を示すための議論と数値的な結果を示す。 我々は、無視された項にスケーリングを束縛する数学的証明を提供し、さらにこれらの項が GKBA に保持されている用語と比較して典型的に小さいことを補強する。 我々は様々なモデルと実験的な非平衡励起で計算を行う。 GKBAとKBEはどちらも、中等度で強い相互作用を持つ相互作用系の力学をうまく捉えている。 我々は、GKBA近似で無視された項を明示的に計算し、ここで検証されたシナリオでは、それらが説明される項よりも桁違いに小さいことを示し、すなわち、完全なカダノフ・バイム方程式に含まれるときのみ小さな補正を与える。

The generalized Kadanoff-Baym ansatz(GKBA) is an approximation to the Kadanoff-Baym equations (KBE), that neglects certain memory effects that contribute to the Green's function at non-equal times. Here we present arguments and numerical results to demonstrate the practical insignificance of the quantities neglected when deriving the GKBA at conditions at which KBE and GKBA are appropriate. We provide a mathematical proof that places a scaling bound on the neglected terms, further reinforcing that these terms are typically small in comparison to terms that are kept in the GKBA. We perform calculations in a range of models and experimentally relevant non-equilibrium excitations. We find that both the GKBA and KBE capture the dynamics of interacting systems with moderate and even strong interactions well. We explicitly compute terms neglected in the GKBA approximation and show, in the scenarios tested here, that they are orders of magnitude smaller than the terms that are accounted for, i.e., they offer only a small correction when included in the full Kadanoff-Baym equations.
翻訳日:2023-06-13 20:20:33 公開日:2023-06-09
# コンフォーマル化機械翻訳評価

Conformalizing Machine Translation Evaluation ( http://arxiv.org/abs/2306.06221v1 )

ライセンス: Link先を確認
Chrysoula Zerva, Andr\'e F. T. Martins(参考訳) 近年,機械翻訳評価のための不確実性推定手法が提案されている。 これらの手法は,モデル予測を信頼しない場合に有効な指標となるが,本論文では,モデル不確実性を過小評価する傾向にあり,その結果,基礎的事実をカバーしない不確実性区間がしばしば生じることを示す。 そこで本研究では,信頼区間を得るための分布自由法である共形予測(conformal prediction)の代替案を提案する。 まず,分割共形予測が従来の手法の信頼区間を‘正確に’して,所望のカバレッジレベルが得られることを示す。 次に,推定信頼区間のバイアスを,翻訳言語対と翻訳品質の両方の観点から強調する。 条件付き等角予測手法を適用し,各データサブグループの校正部分集合を得る。

Several uncertainty estimation methods have been recently proposed for machine translation evaluation. While these methods can provide a useful indication of when not to trust model predictions, we show in this paper that the majority of them tend to underestimate model uncertainty, and as a result they often produce misleading confidence intervals that do not cover the ground truth. We propose as an alternative the use of conformal prediction, a distribution-free method to obtain confidence intervals with a theoretically established guarantee on coverage. First, we demonstrate that split conformal prediction can ``correct'' the confidence intervals of previous methods to yield a desired coverage level. Then, we highlight biases in estimated confidence intervals, both in terms of the translation language pairs and the quality of translations. We apply conditional conformal prediction techniques to obtain calibration subsets for each data subgroup, leading to equalized coverage.
翻訳日:2023-06-13 20:20:10 公開日:2023-06-09
# BioGAN: 微生物画像のための画像から画像への変換モデル

BioGAN: An unpaired GAN-based image to image translation model for microbiological images ( http://arxiv.org/abs/2306.06217v1 )

ライセンス: Link先を確認
Saber Mirzaee Bafti, Chee Siang Ang, Gianluca Marcelli, Md. Moinul Hossain, Sadiya Maxamhud, Anastasios D. Tsaousis(参考訳) 多様化されたデータセットは、よく一般化されたコンピュータビジョンアルゴリズムのトレーニングに不可欠である。 しかし、微生物学の分野では、フィールドテイク画像を含む多様なデータセットの生成と注釈は、時間的消費、コスト的、場合によっては不可能である。 画像から画像への変換フレームワークにより、あるドメインから別のドメインに画像を転送することで、データセットを多様化できます。 しかし、既存のほとんどの画像翻訳技術では、ペア化されたデータセット(元の画像とターゲットドメインの対応する画像)が必要であるため、このようなデータセットの収集には大きな課題が生じる。 さらに、これらの画像翻訳フレームワークを微生物学に適用することはめったにない。 本研究では, 微生物画像に対する画像翻訳モデルに対して, 非ペア化gan(generative adversarial network)画像を開発し, 物体検出モデルの一般化能力を向上させる方法について検討する。 本稿では,GANネットワークと知覚的損失関数の最近の進歩を基盤として,実験室が取り込んだ微生物画像からフィールド画像への変換を行う。 本稿では, 空間的特徴を維持しつつ, 室内画像の高レベルな特徴をフィールド画像に変換するために, 対角的・知覚的損失を利用したGANモデルBioGANを提案する。 実写フィールド画像の生成における敵意的および知覚的損失の寄与について検討した。 我々は,BioGANによって生成された合成フィールド画像を用いて,対象検出フレームワークをトレーニングし,実験室画像で訓練した対象検出フレームワークと比較し,F1スコアとmAPで最大68.1%,75.3%改善した。 Codesはhttps://github.com/Kahroba2000/BioGANで公開されている。

A diversified dataset is crucial for training a well-generalized supervised computer vision algorithm. However, in the field of microbiology, generation and annotation of a diverse dataset including field-taken images are time consuming, costly, and in some cases impossible. Image to image translation frameworks allow us to diversify the dataset by transferring images from one domain to another. However, most existing image translation techniques require a paired dataset (original image and its corresponding image in the target domain), which poses a significant challenge in collecting such datasets. In addition, the application of these image translation frameworks in microbiology is rarely discussed. In this study, we aim to develop an unpaired GAN-based (Generative Adversarial Network) image to image translation model for microbiological images, and study how it can improve generalization ability of object detection models. In this paper, we present an unpaired and unsupervised image translation model to translate laboratory-taken microbiological images to field images, building upon the recent advances in GAN networks and Perceptual loss function. We propose a novel design for a GAN model, BioGAN, by utilizing Adversarial and Perceptual loss in order to transform high level features of laboratory-taken images into field images, while keeping their spatial features. The contribution of Adversarial and Perceptual loss in the generation of realistic field images were studied. We used the synthetic field images, generated by BioGAN, to train an object-detection framework, and compared the results with those of an object-detection framework trained with laboratory images; this resulted in up to 68.1% and 75.3% improvement on F1-score and mAP, respectively. Codes is publicly available at https://github.com/Kahroba2000/BioGAN.
翻訳日:2023-06-13 20:19:56 公開日:2023-06-09
# 多種分類のためのロバスト双対パラメトリックマージン支持ベクターマシン

Robust Twin Parametric Margin Support Vector Machine for Multiclass Classification ( http://arxiv.org/abs/2306.06213v1 )

ライセンス: Link先を確認
Renato De Leone, Francesca Maggioni and Andrea Spinelli(参考訳) 本稿では,マルチクラス分類の問題に取り組むために,Twin Parametric-Margin Support Vector Machine (TPMSVM) モデルを提案する。 1対全パラダイムの精神では、各クラスに対してTPMSVM型モデルを解くことで分類器を構築する。 すべての分類器が決定されると、それらは集約決定関数に結合される。 線形および非線形カーネル誘導型分類器の事例を考察する。 さらに,提案手法をロバスト最適化手法により堅牢化する。 実際、実世界のアプリケーションでは、観測は測定誤差とノイズが伴い、ソリューションの品質に影響を及ぼす。 したがって、分類過程における低い精度を避けるために、モデルにデータ不確実性を含める必要がある。 実世界のデータセットに関する予備計算実験は,提案手法の性能を示す。

In this paper we present a Twin Parametric-Margin Support Vector Machine (TPMSVM) model to tackle the problem of multiclass classification. In the spirit of one-versus-all paradigm, for each class we construct a classifier by solving a TPMSVM-type model. Once all classifiers have been determined, they are combined into an aggregate decision function. We consider the cases of both linear and nonlinear kernel-induced classifiers. In addition, we robustify the proposed approach through robust optimization techniques. Indeed, in real-world applications observations are subject to measurement errors and noise, affecting the quality of the solutions. Consequently, data uncertainties need to be included within the model in order to prevent low accuracies in the classification process. Preliminary computational experiments on real-world datasets show the good performance of the proposed approach.
翻訳日:2023-06-13 20:19:28 公開日:2023-06-09
# 回路量子力学のための広帯域帯域通過パーセルフィルタ

Broadband Bandpass Purcell Filter for Circuit Quantum Electrodynamics ( http://arxiv.org/abs/2306.06258v1 )

ライセンス: Link先を確認
Haoxiong Yan and Xuntao Wu and Andrew Lingenfelter and Yash J. Joshi and Gustav Andersson and Christopher R. Conner and Ming-Han Chou and Joel Grebel and Jacob M. Miller and Rhys G. Povey and Hong Qiao and Aashish A. Clerk and Andrew N. Cleland(参考訳) 回路量子電磁力学(qed)では、量子ビットは通常分散結合した読み出し共振器を用いて測定される。 それぞれのリードアウト共振器と電気環境の結合は、パーセル効果によってクビット寿命を減少させる。 Purcellフィルタの挿入は、高い読み出し精度を維持しながらこの効果に対処するが、測定帯域幅を減らし、多重読み出し容量を制限する。 本稿では,帯域幅と多重化容量を増加させながら,より優れた量子ビット保護を実現する多段帯域通過パーセルフィルタを開発し実装する。 提案手法の伝送ラインベース実装の実験的性能について報告する。このフレキシブルな設計は、現在のスケールアップで長いコヒーレンス時間超伝導量子プロセッサと容易に統合できる。

In circuit quantum electrodynamics (QED), qubits are typically measured using dispersively-coupled readout resonators. Coupling between each readout resonator and its electrical environment however reduces the qubit lifetime via the Purcell effect. Inserting a Purcell filter counters this effect while maintaining high readout fidelity, but reduces measurement bandwidth and thus limits multiplexing readout capacity. In this letter, we develop and implement a multi-stage bandpass Purcell filter that yields better qubit protection while simultaneously increasing measurement bandwidth and multiplexed capacity. We report on the experimental performance of our transmission-line--based implementation of this approach, a flexible design that can easily be integrated with current scaled-up, long coherence time superconducting quantum processors.
翻訳日:2023-06-13 20:13:46 公開日:2023-06-09
# 置換に基づく仮説テストのための永続図のベクトルサマリ

Vector Summaries of Persistence Diagrams for Permutation-based Hypothesis Testing ( http://arxiv.org/abs/2306.06257v1 )

ライセンス: Link先を確認
Umar Islambekov, Hasani Pathirana(参考訳) 過去10年にわたり、トポロジカルデータ分析(tda)の技術は、データの形状を記述するために普及してきた。 近年,統計手法の開発,特にTDAの仮説検証への関心が高まっている。 統計的な観点では、TDAが提供するデータの中心的なマルチスケールトポロジカル記述子である永続化図は、一部の人口やプロセスからサンプルされたランダムな観察と見なされる。 この文脈において、仮説テストに関する初期の研究の1つは、2-group permutation-basedアプローチに焦点をあて、関連する損失関数はパーシステンスダイアグラム(robinson and turner, 2017)間のグループ内ペアワイズボトルネックまたはwasserstein距離によって定義される。 しかし、永続図のサイズと数が大きい状況では、問題となる置換テストの方が計算コストが高くなる。 この制限に対処するために、損失関数に対する永続化図形のベクトル化された機能的要約間のペアワイズ距離を考える。 本研究は,永続図形の最も単純な関数要約の一つであるベティ関数の有用性について考察する。 本稿では,積分に基づくベッチ関数の代替ベクトル化法を提案し,ワッサーシュタイン距離に対する安定性を証明した。 さらに,テストのパワーを高めるため,グループラベルの新しいシャッフル手法を提案する。 合成データと実データの両方について、いくつかの実験を通して、ベクトル化されたベッチ関数は、置換テストのためのワッサースタイン距離を含むベースライン法と比較して競合結果をもたらすことを示した。

Over the past decade, the techniques of topological data analysis (TDA) have grown into prominence to describe the shape of data. In recent years, there has been increasing interest in developing statistical methods and in particular hypothesis testing procedures for TDA. Under the statistical perspective, persistence diagrams -- the central multi-scale topological descriptors of data provided by TDA -- are viewed as random observations sampled from some population or process. In this context, one of the earliest works on hypothesis testing focuses on the two-group permutation-based approach where the associated loss function is defined in terms of within-group pairwise bottleneck or Wasserstein distances between persistence diagrams (Robinson and Turner, 2017). However, in situations where persistence diagrams are large in size and number, the permutation test in question gets computationally more costly to apply. To address this limitation, we instead consider pairwise distances between vectorized functional summaries of persistence diagrams for the loss function. In the present work, we explore the utility of the Betti function in this regard, which is one of the simplest function summaries of persistence diagrams. We introduce an alternative vectorization method for the Betti function based on integration and prove stability results with respect to the Wasserstein distance. Moreover, we propose a new shuffling technique of group labels to increase the power of the test. Through several experimental studies, on both synthetic and real data, we show that the vectorized Betti function leads to competitive results compared to the baseline method involving the Wasserstein distances for the permutation test.
翻訳日:2023-06-13 20:13:33 公開日:2023-06-09
# 画像強化のメリットを理解する

Understanding the Benefits of Image Augmentations ( http://arxiv.org/abs/2306.06254v1 )

ライセンス: Link先を確認
Matthew Iceland, Christopher Kanan(参考訳) 画像拡張は、ニューラルネットワークの過剰フィッティングを減らすために広く使われている。 しかし、その利点の説明可能性はほとんど謎のままである。 残留ニューラルネットワーク(resnet)のどの層がセンタード・カーネルアライメント(cka)を用いた拡張によって最も影響を受けるかを検討した。 私たちは、幅と深さの異なるモデルを分析し、その重みがランダムに初期化されているか、転送学習を通して行われるかを分析します。 このパターンはモデルの深さに依存しており、2つの画像から情報を利用する拡張で訓練されたネットワークは、1つの画像で操作する拡張よりも学習重量に大きく影響している。 ImageNet-1Kの重みと微調整で初期化されたResNetの深いレイヤは、初期レイヤよりも拡張の影響が大きい。 CNNに対する画像強化の効果を理解するには、ネットワークを微調整するために必要な後方と、層凍結アルゴリズムを実装する際にどの層を凍結すべきかを決定するなど、さまざまなアプリケーションがある。

Image Augmentations are widely used to reduce overfitting in neural networks. However, the explainability of their benefits largely remains a mystery. We study which layers of residual neural networks (ResNets) are most affected by augmentations using Centered Kernel Alignment (CKA). We do so by analyzing models of varying widths and depths, as well as whether their weights are initialized randomly or through transfer learning. We find that the pattern of how the layers are affected depends on the model's depth, and that networks trained with augmentation that use information from two images affect the learned weights significantly more than augmentations that operate on a single image. Deeper layers of ResNets initialized with ImageNet-1K weights and fine-tuned receive more impact from the augmentations than early layers. Understanding the effects of image augmentations on CNNs will have a variety of applications, such as determining how far back one needs to fine-tune a network and which layers should be frozen when implementing layer freezing algorithms.
翻訳日:2023-06-13 20:13:04 公開日:2023-06-09
# 決定スタック: モジュール生成モデルによる柔軟な強化学習

Decision Stacks: Flexible Reinforcement Learning via Modular Generative Models ( http://arxiv.org/abs/2306.06253v1 )

ライセンス: Link先を確認
Siyan Zhao and Aditya Grover(参考訳) 強化学習は、複雑な目標の特定、将来の観察と行動の計画、ユーティリティの評価など、シーケンシャルな意思決定のいくつかの異なる側面を推論するための魅力的なパラダイムを提供する。 しかし、これらの能力の統合は、効率的な学習と推論のためのモデリング選択の柔軟性を許容しながら、最大表現性を維持するためのアルゴリズム的課題を競合する。 目標条件付きポリシーエージェントを3つの生成モジュールに分解する生成フレームワークであるDecision Stacksを提案する。 これらのモジュールは、教師の強制によって並列に学習できる独立した生成モデルを通じて、観察、報酬、行動の時間的進化をシミュレートする。 このフレームワークは、アーキテクチャバイアス、最適化目標とダイナミクス、ドメイン間の転送可能性、推論速度といった重要な要因を考慮して、個々のモジュールを設計する際の表現性と柔軟性の両方を保証します。 実験の結果,いくつかのMDPおよびPMDP環境におけるオフラインポリシー最適化における決定スタックの有効性が実証された。

Reinforcement learning presents an attractive paradigm to reason about several distinct aspects of sequential decision making, such as specifying complex goals, planning future observations and actions, and critiquing their utilities. However, the combined integration of these capabilities poses competing algorithmic challenges in retaining maximal expressivity while allowing for flexibility in modeling choices for efficient learning and inference. We present Decision Stacks, a generative framework that decomposes goal-conditioned policy agents into 3 generative modules. These modules simulate the temporal evolution of observations, rewards, and actions via independent generative models that can be learned in parallel via teacher forcing. Our framework guarantees both expressivity and flexibility in designing individual modules to account for key factors such as architectural bias, optimization objective and dynamics, transferrability across domains, and inference speed. Our empirical results demonstrate the effectiveness of Decision Stacks for offline policy optimization for several MDP and POMDP environments, outperforming existing methods and enabling flexible generative decision making.
翻訳日:2023-06-13 20:12:49 公開日:2023-06-09
# 多変量時系列予測のための特徴計画

Feature Programming for Multivariate Time Series Prediction ( http://arxiv.org/abs/2306.06252v1 )

ライセンス: Link先を確認
Alex Reneau, Jerry Yao-Chieh Hu, Chenwei Xu, Weijian Li, Ammar Gilani, Han Liu(参考訳) 本稿では,時系列モデリングのためのプログラマブル機能工学の概念を紹介し,機能プログラミングフレームワークを提案する。 このフレームワークは、ノイズの多い多変量時系列に対して大量の予測機能を生成し、ユーザが最小限の労力でインダクティブバイアスを組み込むことができる。 我々のフレームワークの鍵となる動機は、任意の多変量時系列を、新しいスピンガス力学イジングモデルによって制御された細粒度軌跡インクリメントの累積和として見ることである。 この細かな視点は、多変量時系列を抽象的な方法で要約し、大規模な自動機能エンジニアリングの基礎となる、控えめな演算子セットの開発を動機付ける。 提案手法の有効性を,複数の合成および実世界の雑音時系列データセットで検証した。

We introduce the concept of programmable feature engineering for time series modeling and propose a feature programming framework. This framework generates large amounts of predictive features for noisy multivariate time series while allowing users to incorporate their inductive bias with minimal effort. The key motivation of our framework is to view any multivariate time series as a cumulative sum of fine-grained trajectory increments, with each increment governed by a novel spin-gas dynamical Ising model. This fine-grained perspective motivates the development of a parsimonious set of operators that summarize multivariate time series in an abstract fashion, serving as the foundation for large-scale automated feature engineering. Numerically, we validate the efficacy of our method on several synthetic and real-world noisy time series datasets.
翻訳日:2023-06-13 20:12:32 公開日:2023-06-09
# コミュニケーションシステムにおけるAIの一般化とスケーラビリティのための設計原理

Design Principles for Generalization and Scalability of AI in Communication Systems ( http://arxiv.org/abs/2306.06251v1 )

ライセンス: Link先を確認
Pablo Soldati, Euhanna Ghadimi, Burak Demirel, Yu Wang, Raimundas Gaigalas and Mathias Sintorn(参考訳) 人工知能(AI)は、従来のルールベースのアルゴリズムがしばしば苦労する通信システムにおいて、複雑で動的なタスクに対処するための強力なツールとして登場した。 しかし、ネットワークタスクに対するほとんどのAIアプリケーションは、特定の限られた条件のために設計、訓練されており、LAN(Radio Access Network)にまたがるような一般的な状況へのアルゴリズムの学習と適応を妨げる。 本稿では,コミュニケーションシステムにおける持続的かつスケーラブルなAI統合のための設計原則を提案し,ネットワーク環境,意図,制御タスクをまたいで一般化可能なAIアルゴリズムの開発に焦点をあてる。 このアプローチにより、AI駆動のRAN関数の限られた数で、より大きな問題に対処し、システムパフォーマンスを改善し、ライフサイクル管理を簡素化できる。 持続可能性と自動化を達成するため、システム内のすべてのデプロイされたAIアプリケーションをサポートするスケーラブルな学習アーキテクチャを導入します。 このアーキテクチャは、集中学習機能を分散アクティベーションと推論関数から分離し、効率的なデータ収集と管理、計算とストレージリソースの最適化、コスト削減を可能にする。 これらの概念を一般化リンク適応アルゴリズムの設計により説明し,提案手法の利点を示す。

Artificial intelligence (AI) has emerged as a powerful tool for addressing complex and dynamic tasks in communication systems, where traditional rule-based algorithms often struggle. However, most AI applications to networking tasks are designed and trained for specific, limited conditions, hindering the algorithms from learning and adapting to generic situations, such as those met across radio access networks (RAN). This paper proposes design principles for sustainable and scalable AI integration in communication systems, focusing on creating AI algorithms that can generalize across network environments, intents, and control tasks. This approach enables a limited number of AI-driven RAN functions to tackle larger problems, improve system performance, and simplify lifecycle management. To achieve sustainability and automation, we introduce a scalable learning architecture that supports all deployed AI applications in the system. This architecture separates centralized learning functionalities from distributed actuation and inference functions, enabling efficient data collection and management, computational and storage resources optimization, and cost reduction. We illustrate these concepts by designing a generalized link adaptation algorithm, demonstrating the benefits of our proposed approach.
翻訳日:2023-06-13 20:12:18 公開日:2023-06-09
# 戦略的アップル味覚

Strategic Apple Tasting ( http://arxiv.org/abs/2306.06250v1 )

ライセンス: Link先を確認
Keegan Harris, Chara Podimata, Zhiwei Steven Wu(参考訳) アルゴリズムによる意思決定は、しばしばアルゴリズムへの入力を戦略的に修正するインセンティブを持つエージェントに決定を割り当てる。 インセンティブを扱うことに加えて、多くの関心領域(例えば貸付や雇用)において、意思決定者は、エージェントに肯定的な決定を割り当てるラウンドに対する政策に関するフィードバックのみを観察する。 私たちは、この設定をapple-tastingフィードバックによるオンライン学習問題として定式化し、プリンシパルが$t$エージェントのシーケンスについて決定を下します。 我々の目標は、もしエージェントが彼らの状況を明らかにする際に真実であるならば、プリンシパルのパフォーマンスを後見の最良の固定政策のパフォーマンスと比較する、サブリニアな戦略的後悔を達成することです。 我々の主な成果は、エージェントの列が確率的に選択されたときに、$\tilde{\mathcal{O}}(\sqrt{T})$戦略的後悔を引き起こす学習アルゴリズムである。 また、$\tilde{\mathcal{o}}(t^{(d+1)/(d+2)})$ strategic regret(ここで$d$は文脈の次元である)のコストで、敵対的なchosenエージェントを処理できるアルゴリズムを与える。 私たちのアルゴリズムは、プリンシパルがバンディットフィードバックを受け取る設定に容易に適応することができます -- この設定は、(インセンティブのあるエージェントを考えることによって)線形文脈バンディット問題と(部分的なフィードバックを可能にすることによって)戦略的分類問題の両方を一般化します。

Algorithmic decision-making in high-stakes domains often involves assigning decisions to agents with incentives to strategically modify their input to the algorithm. In addition to dealing with incentives, in many domains of interest (e.g. lending and hiring) the decision-maker only observes feedback regarding their policy for rounds in which they assign a positive decision to the agent; this type of feedback is often referred to as apple tasting (or one-sided) feedback. We formalize this setting as an online learning problem with apple-tasting feedback where a principal makes decisions about a sequence of $T$ agents, each of which is represented by a context that may be strategically modified. Our goal is to achieve sublinear strategic regret, which compares the performance of the principal to that of the best fixed policy in hindsight, if the agents were truthful when revealing their contexts. Our main result is a learning algorithm which incurs $\tilde{\mathcal{O}}(\sqrt{T})$ strategic regret when the sequence of agents is chosen stochastically. We also give an algorithm capable of handling adversarially-chosen agents, albeit at the cost of $\tilde{\mathcal{O}}(T^{(d+1)/(d+2)})$ strategic regret (where $d$ is the dimension of the context). Our algorithms can be easily adapted to the setting where the principal receives bandit feedback -- this setting generalizes both the linear contextual bandit problem (by considering agents with incentives) and the strategic classification problem (by allowing for partial feedback).
翻訳日:2023-06-13 20:11:59 公開日:2023-06-09
# 集合価値フィードバックによるオンライン学習

Online Learning with Set-Valued Feedback ( http://arxiv.org/abs/2306.06247v1 )

ライセンス: Link先を確認
Vinod Raman, Unique Subedi, Ambuj Tewari(参考訳) 学習者が1つのラベルを予測するが、フィードバックとして \textit{set of labels} を受け取るオンラインマルチクラス分類の変種を調査した。 このモデルでは、明らかにされた集合に含まれるラベルを出力しないために学習者がペナルティを課される。 単一ラベルフィードバックによるオンラインマルチクラス学習とは異なり、決定論的かつランダム化されたオンライン学習能力は、セット値フィードバックで実現可能な設定でも \textit{not equivalent} である。 そこで我々は, 決定論的およびランダムなオンライン学習を, 実現可能な設定でそれぞれ特徴付ける2つの新しい組合せ次元, Set Littlestone と Measure Shattering を提示する。 さらに,測定シェータリング次元は,非依存的な環境下でのオンライン学習性を強く特徴付けることを示す。 最後に,オンラインのマルチラベルランキングやオンラインのマルチラベル分類といった実践的な学習環境が,一般的なオンライン学習フレームワークの具体例であることを示す。

We study a variant of online multiclass classification where the learner predicts a single label but receives a \textit{set of labels} as feedback. In this model, the learner is penalized for not outputting a label contained in the revealed set. We show that unlike online multiclass learning with single-label feedback, deterministic and randomized online learnability are \textit{not equivalent} even in the realizable setting with set-valued feedback. Accordingly, we give two new combinatorial dimensions, named the Set Littlestone and Measure Shattering dimension, that tightly characterize deterministic and randomized online learnability respectively in the realizable setting. In addition, we show that the Measure Shattering dimension tightly characterizes online learnability in the agnostic setting. Finally, we show that practical learning settings like online multilabel ranking and online multilabel classification are specific instances of our general online learning framework.
翻訳日:2023-06-13 20:11:28 公開日:2023-06-09
# asr転写におけるエンティティ分布モデリングのためのレコード重複

Record Deduplication for Entity Distribution Modeling in ASR Transcripts ( http://arxiv.org/abs/2306.06246v1 )

ライセンス: Link先を確認
Tianyu Huang, Chung Hoon Hong, Carl Wivagg, Kanna Shimizu(参考訳) 音声デジタルアシスタントはトレンド検索に追随しなければならない。 我々は,頻繁なモデル再訓練ではなく,文脈バイアスを用いた音声認識モデルを用いて傾向に追従する。 このアプローチには,(1) エンティティセットを頻繁に再構成しなければならない,(2) エンティティセットはレイテンシと精度のトレードオフによる限られたサイズであり,(3) バイアスの真のエンティティ分布を見つけることは,ASR の誤認識によって複雑になる,という課題がある。 我々は,これらの課題に対処し,本番環境でのasr出力から真に要求されるエンティティ分布をモデル化したエンティティセットを,エンティティ解決の分野からの手法であるレコード重複を用いて定義する。 record deduplicationは、同じ潜在エンティティの誤認識を含むコリファレンスを解決または重複させる。 本手法は誤認識されたエンティティの95%の検索に成功し,文脈バイアスに用いると5%の単語誤り率低下が推定される。

Voice digital assistants must keep up with trending search queries. We rely on a speech recognition model using contextual biasing with a rapidly updated set of entities, instead of frequent model retraining, to keep up with trends. There are several challenges with this approach: (1) the entity set must be frequently reconstructed, (2) the entity set is of limited size due to latency and accuracy trade-offs, and (3) finding the true entity distribution for biasing is complicated by ASR misrecognition. We address these challenges and define an entity set by modeling customers true requested entity distribution from ASR output in production using record deduplication, a technique from the field of entity resolution. Record deduplication resolves or deduplicates coreferences, including misrecognitions, of the same latent entity. Our method successfully retrieves 95% of misrecognized entities and when used for contextual biasing shows an estimated 5% relative word error rate reduction.
翻訳日:2023-06-13 20:11:10 公開日:2023-06-09
# ニューラルネットワークの圧縮におけるロングテールの効果の理解

Understanding the Effect of the Long Tail on Neural Network Compression ( http://arxiv.org/abs/2306.06238v1 )

ライセンス: Link先を確認
Harvey Dam, Vinu Joseph, Aditya Bhaskara, Ganesh Gopalakrishna, Saurav Muralidharan, Michael Garland(参考訳) ニューラルネットワーク研究の成熟したサブフィールドであるネットワーク圧縮は、この10年間で、モデルのサイズを減らし、推論を高速化し、分類精度を維持しながら大きな進歩を遂げた。 しかし、多くの研究が、全体的な精度だけに焦点を合わせることは誤解される可能性があると指摘している。 例えば、フルモデルと圧縮モデルのミスマッチは、表現不足のクラスに偏る可能性があることが示されている。 これは、元のネットワークと 'semantic equivalence'' を維持しながら、ネットワーク圧縮を達成することができるか? 本研究は,Feldmanらによって観測されたコンピュータビジョンデータセットにおける「長い尾」現象の文脈において,この問題を考察する。 彼らは、特定の入力(適切に定義された)の \emph{memorization} はよい一般化を達成するために必須であると主張する。 圧縮によってネットワークの容量が制限されるため(それゆえ記憶能力も制限される)、本研究では、フルモデルと圧縮モデルのミスマッチは記憶されたトレーニングデータと相関しているか? 異なるベースアーキテクチャと圧縮スキームを考慮して,画像分類タスクに対して,この方向の肯定的な証拠を示す。

Network compression is now a mature sub-field of neural network research: over the last decade, significant progress has been made towards reducing the size of models and speeding up inference, while maintaining the classification accuracy. However, many works have observed that focusing on just the overall accuracy can be misguided. E.g., it has been shown that mismatches between the full and compressed models can be biased towards under-represented classes. This raises the important research question, \emph{can we achieve network compression while maintaining ``semantic equivalence'' with the original network?} In this work, we study this question in the context of the ``long tail'' phenomenon in computer vision datasets observed by Feldman, et al. They argue that \emph{memorization} of certain inputs (appropriately defined) is essential to achieving good generalization. As compression limits the capacity of a network (and hence also its ability to memorize), we study the question: are mismatches between the full and compressed models correlated with the memorized training data? We present positive evidence in this direction for image classification tasks, by considering different base architectures and compression schemes.
翻訳日:2023-06-13 20:10:52 公開日:2023-06-09
# LLMが物質科学と化学を変換する14の例:大規模言語モデルハッカソンのリフレクション

14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon ( http://arxiv.org/abs/2306.06283v1 )

ライセンス: Link先を確認
Kevin Maik Jablonka, Qianxiang Ai, Alexander Al-Feghali, Shruti Badhwar, Joshua D. Bocarsly Andres M Bran, Stefan Bringuier, L. Catherine Brinson, Kamal Choudhary, Defne Circi, Sam Cox, Wibe A. de Jong, Matthew L. Evans, Nicolas Gastellu, Jerome Genzling, Mar\'ia Victoria Gil, Ankur K. Gupta, Zhi Hong, Alishba Imran, Sabine Kruschwitz, Anne Labarre, Jakub L\'ala, Tao Liu, Steven Ma, Sauradeep Majumdar, Garrett W. Merz, Nicolas Moitessier, Elias Moubarak, Beatriz Mouri\~no, Brenden Pelkie, Michael Pieler, Mayk Caldas Ramos, Bojana Rankovi\'c, Samuel G. Rodriques, Jacob N. Sanders, Philippe Schwaller, Marcus Schwarting, Jiale Shi, Berend Smit, Ben E. Smith, Joren Van Heck, Christoph V\"olker, Logan Ward, Sean Warren, Benjamin Weiser, Sylvester Zhang, Xiaoqi Zhang, Ghezal Ahmad Zia, Aristana Scourtas, KJ Schmidt, Ian Foster, Andrew D. White, Ben Blaiszik(参考訳) 化学と材料科学は複雑である。 近年、データ駆動や計算技術を用いて、この複雑さに対処することに成功した。 しかし、非常に特定の形式で構造化された入力の必要性と、ツールがどんどん増え続けているという事実は、ユーザビリティとアクセシビリティの課題を生み出します。 これらの分野の多くのデータが構造化されていないという事実と相まって、これらのツールの有効性は限られている。 大規模言語モデル(LLM)がこれらの問題に対処する可能性があることを示す最近の研究によって、我々は化学、材料科学などにおけるLLMの応用に関するハッカソンイベントを開催した。 この記事では、このハッカソンで構築されたプロジェクトについて紹介する。 参加者は、分子や材料の特性の予測、ツールの新しいインターフェースの設計、構造化されていないデータからの知識の抽出、新しい教育アプリケーションの開発など、様々な用途にLLMを使用した。 多様なトピックや作業プロトタイプが2日以内で生成されるという事実は、LLMが私たちの分野の将来に大きな影響を与えることを浮き彫りにします。 アイデアとプロジェクトの豊富な収集は、LLMの応用は物質科学や化学に限らず、幅広い科学分野に潜在的利益をもたらすことを示している。

Chemistry and materials science are complex. Recently, there have been great successes in addressing this complexity using data-driven or computational techniques. Yet, the necessity of input structured in very specific forms and the fact that there is an ever-growing number of tools creates usability and accessibility challenges. Coupled with the reality that much data in these disciplines is unstructured, the effectiveness of these tools is limited. Motivated by recent works that indicated that large language models (LLMs) might help address some of these issues, we organized a hackathon event on the applications of LLMs in chemistry, materials science, and beyond. This article chronicles the projects built as part of this hackathon. Participants employed LLMs for various applications, including predicting properties of molecules and materials, designing novel interfaces for tools, extracting knowledge from unstructured data, and developing new educational applications. The diverse topics and the fact that working prototypes could be generated in less than two days highlight that LLMs will profoundly impact the future of our fields. The rich collection of ideas and projects also indicates that the applications of LLMs are not limited to materials science and chemistry but offer potential benefits to a wide range of scientific disciplines.
翻訳日:2023-06-13 20:04:38 公開日:2023-06-09
# エネルギー散逸型進化型深部演算子ニューラルネットワーク

Energy-Dissipative Evolutionary Deep Operator Neural Networks ( http://arxiv.org/abs/2306.06281v1 )

ライセンス: Link先を確認
Jiahao Zhang, Shiheng Zhang, Jie Shen, Guang Lin(参考訳) Energy-Dissipative Evolutionary Deep Operator Neural Networkは、ニューラルネットワークを学習するオペレータである。 異なるパラメータを持つ偏微分方程式や異なる初期条件を持つ偏微分方程式のような単一の偏微分方程式の代わりに、偏微分方程式のクラスの数値解をシードするように設計されている。 このネットワークは2つのサブネットワーク、ブランチネットとトランクネットで構成されている。 対象演算子Gに対して、ブランチネットは同じセンサ数で異なる入力関数uを符号化し、トランクネットは任意の位置で出力関数を評価する。 評価された出力 q と期待出力 G(u)(y) との誤差を最小化することにより、DeepONet は演算子 G の良好な近似を生成する。 修正エネルギーを導入し、離散レベルで無条件エネルギー散逸の法則を可能にする。 パラメータを時間tの関数とすることで、このネットワークは、初期状態のみにデータを供給することで、いつでも正確な解を予測できる。 必要なデータは、容易に利用可能な初期条件によって生成される。 ニューラルネットワークの精度と効率性を検証するため、熱方程式、パラメトリック熱方程式、アレン・カーン方程式などいくつかの偏微分方程式の数値シミュレーションを行う。

Energy-Dissipative Evolutionary Deep Operator Neural Network is an operator learning neural network. It is designed to seed numerical solutions for a class of partial differential equations instead of a single partial differential equation, such as partial differential equations with different parameters or different initial conditions. The network consists of two sub-networks, the Branch net and the Trunk net. For an objective operator G, the Branch net encodes different input functions u at the same number of sensors, and the Trunk net evaluates the output function at any location. By minimizing the error between the evaluated output q and the expected output G(u)(y), DeepONet generates a good approximation of the operator G. In order to preserve essential physical properties of PDEs, such as the Energy Dissipation Law, we adopt a scalar auxiliary variable approach to generate the minimization problem. It introduces a modified energy and enables unconditional energy dissipation law at the discrete level. By taking the parameter as a function of time t, this network can predict the accurate solution at any further time with feeding data only at the initial state. The data needed can be generated by the initial conditions, which are readily available. In order to validate the accuracy and efficiency of our neural networks, we provide numerical simulations of several partial differential equations, including heat equations, parametric heat equations and Allen-Cahn equations.
翻訳日:2023-06-13 20:04:15 公開日:2023-06-09
# 遺伝子発現値を用いた癌予後予測のためのコントラスト学習

Contrastive Learning for Predicting Cancer Prognosis Using Gene Expression Values ( http://arxiv.org/abs/2306.06276v1 )

ライセンス: Link先を確認
Anchen Sun, Zhibin Chen, Xiaodong Cai(参考訳) いくつかのニューラルネットワーク(anns)は、腫瘍転写学に基づいた癌予後予測のためのcox比例ハザードモデルとして最近開発されている。 しかし、彼らは正規化を伴う従来のcox回帰よりも優れた性能を示さなかった。 限られたデータサンプルと高次元の特徴空間が存在する場合、予測能力の高いANNのトレーニングは困難である。 画像分類の最近の進歩は、限られた数のデータサンプルから良い特徴表現を学習することで、コントラスト学習によりさらなる学習タスクが促進されることを示している。 本稿では,腫瘍遺伝子発現と臨床データに教師付きコントラスト学習を適用し,低次元空間における特徴表現の学習を行った。 そして、これらの学習機能を用いてcoxモデルをトレーニングし、がんの予後を予測した。 がんゲノムアトラス (tcga) のデータを用いて, 比較学習に基づくcoxモデル (clcox) が18種類のがんの予後予測において, 既存の手法を大きく上回ることを示した。 また,腫瘍を異なるリスクグループに分類するコントラスト学習ベース分類器を開発し,コントラスト学習が分類精度を大幅に向上することを示した。

Several artificial neural networks (ANNs) have recently been developed as the Cox proportional hazard model for predicting cancer prognosis based on tumor transcriptome. However, they have not demonstrated significantly better performance than the traditional Cox regression with regularization. Training an ANN with high prediction power is challenging in the presence of a limited number of data samples and a high-dimensional feature space. Recent advancements in image classification have shown that contrastive learning can facilitate further learning tasks by learning good feature representation from a limited number of data samples. In this paper, we applied supervised contrastive learning to tumor gene expression and clinical data to learn feature representations in a low-dimensional space. We then used these learned features to train the Cox model for predicting cancer prognosis. Using data from The Cancer Genome Atlas (TCGA), we demonstrated that our contrastive learning-based Cox model (CLCox) significantly outperformed existing methods in predicting the prognosis of 18 types of cancer under consideration. We also developed contrastive learning-based classifiers to classify tumors into different risk groups and showed that contrastive learning can significantly improve classification accuracy.
翻訳日:2023-06-13 20:03:53 公開日:2023-06-09
# オンライン教育プラットフォームにおけるA/Bテストの精度向上のための補助データの利用:新しいデータと新しい結果

Using Auxiliary Data to Boost Precision in the Analysis of A/B Tests on an Online Educational Platform: New Data and New Results ( http://arxiv.org/abs/2306.06273v1 )

ライセンス: Link先を確認
Adam C. Sales, Ethan B. Prihar, Johann A. Gagnon-Bartsch, Neil T. Heffernan(参考訳) オンライン学習プラットフォームにおけるランダムa/bテストは、学習科学におけるエキサイティングな方向性を表している。 最小の仮定では、小さなサンプルであってもバイアスや正確な統計的推論を伴わずに因果効果を推定できる。 しかし、しばしば実験試料や治療効果は小さく、A/B試験は低出力であり、効果推定は過度に不正確である。 近年の方法論的な進歩は、設計に基づく因果推定と、実験に参加していない歴史的ユーザからのリッチログデータの機械学習モデルとの結合により、パワーと統計的精度が大幅に向上することを示した。 これらの手法を用いた推定は偏りがなく、推論は追加の仮定なしに正確である。 オンライン学習プラットフォームである assistments で実施した250以上のランダム化 a/b 比較を含む,新しいデータセットに適用する。 補助データの4つの新しいディープラーニングモデルを用いて実験結果を比較し、補助データを因果推定に組み込むことは、tテストと比較して、サンプルサイズを平均で20-%増加させたり、50-80-%増加させたり、平均で約10-%、30-50-%増加させたりすることと同値であることを示した。 その結果,a/bテスト試料の残差が示されない場合においても,サブグループ効果の推定にはさらに大きな効果が得られ,成層後集団効果推定にも拡張できることがわかった。

Randomized A/B tests within online learning platforms represent an exciting direction in learning sciences. With minimal assumptions, they allow causal effect estimation without confounding bias and exact statistical inference even in small samples. However, often experimental samples and/or treatment effects are small, A/B tests are underpowered, and effect estimates are overly imprecise. Recent methodological advances have shown that power and statistical precision can be substantially boosted by coupling design-based causal estimation to machine-learning models of rich log data from historical users who were not in the experiment. Estimates using these techniques remain unbiased and inference remains exact without any additional assumptions. This paper reviews those methods and applies them to a new dataset including over 250 randomized A/B comparisons conducted within ASSISTments, an online learning platform. We compare results across experiments using four novel deep-learning models of auxiliary data and show that incorporating auxiliary data into causal estimates is roughly equivalent to increasing the sample size by 20\% on average, or as much as 50-80\% in some cases, relative to t-tests, and by about 10\% on average, or as much as 30-50\%, compared to cutting-edge machine learning unbiased estimates that use only data from the experiments. We show that the gains can be even larger for estimating subgroup effects, hold even when the remnant is unrepresentative of the A/B test sample, and extend to post-stratification population effects estimators.
翻訳日:2023-06-13 20:03:34 公開日:2023-06-09
# オープンワールド進化における適応操作のためのドメイン非依存エージェントアーキテクチャ

A Domain-Independent Agent Architecture for Adaptive Operation in Evolving Open Worlds ( http://arxiv.org/abs/2306.06272v1 )

ライセンス: Link先を確認
Shiwali Mohan, Wiktor Piotrowski, Roni Stern, Sachin Grover, Sookyung Kim, Jacob Le, Johan De Kleer(参考訳) モデルに基づく推論エージェントは、環境のモデルがもはや世界を十分に表現していない新しい状況下では機能しない。 本研究では、混在した離散連続環境で動作するモデルベースエージェントを設計するためのフレームワークHYDRAを提案し、環境が標準的設定から進化したことを自律的に検出し、どのように進化したかを理解し、エージェントのモデルを効果的に動作させる。 HYDRAは、混合した離散連続環境における計画のためのリッチなモデリング言語PDDL+に基づいている。 複雑な環境とのクローズドループインタラクションのための視覚的推論、タスク選択、アクション実行モジュールで計画モジュールを拡張する。 HYDRAは、エージェントが様々な側面から自身の行動を監視することができる新しいメタ推論プロセスを実装している。 このプロセスは様々な計算手法を用いて、環境におけるエージェント自身の振る舞いに対する期待を維持する。 これらの期待の相違は、環境がいつ進化したかを検出し、基礎となるモデルに適応する機会を特定するのに役立つ。 HYDRAは診断と修復のアイデアに基づいて構築され、新しい状況において有能になるようなモデル変更に対するヒューリスティックス誘導探索を使用している。 HYDRAフレームワークは、CartPole++(古典的な制御問題の高次元変種)、Science Birds(IJCAI競合問題)、PogoStick(Minecraftの特定の問題領域)の3つの異なるドメインに対して、斬新なエージェントを実装するために使用されている。 本稿では,これらの領域から経験的観察を行い,新規なメタ推論プロセスにおける各種成分の有効性を実証する。

Model-based reasoning agents are ill-equipped to act in novel situations in which their model of the environment no longer sufficiently represents the world. We propose HYDRA - a framework for designing model-based agents operating in mixed discrete-continuous worlds, that can autonomously detect when the environment has evolved from its canonical setup, understand how it has evolved, and adapt the agents' models to perform effectively. HYDRA is based upon PDDL+, a rich modeling language for planning in mixed, discrete-continuous environments. It augments the planning module with visual reasoning, task selection, and action execution modules for closed-loop interaction with complex environments. HYDRA implements a novel meta-reasoning process that enables the agent to monitor its own behavior from a variety of aspects. The process employs a diverse set of computational methods to maintain expectations about the agent's own behavior in an environment. Divergences from those expectations are useful in detecting when the environment has evolved and identifying opportunities to adapt the underlying models. HYDRA builds upon ideas from diagnosis and repair and uses a heuristics-guided search over model changes such that they become competent in novel conditions. The HYDRA framework has been used to implement novelty-aware agents for three diverse domains - CartPole++ (a higher dimension variant of a classic control problem), Science Birds (an IJCAI competition problem), and PogoStick (a specific problem domain in Minecraft). We report empirical observations from these domains to demonstrate the efficacy of various components in the novelty meta-reasoning process.
翻訳日:2023-06-13 20:03:05 公開日:2023-06-09
# DeepLCZChange: 都市気候回復のためのリモートセンシングディープラーニングモデルアーキテクチャ

DeepLCZChange: A Remote Sensing Deep Learning Model Architecture for Urban Climate Resilience ( http://arxiv.org/abs/2306.06269v1 )

ライセンス: Link先を確認
Wenlu Sun, Yao Sun, Chenying Liu, Conrad M Albrecht(参考訳) 都市の土地利用構造は大都市の気候に影響を及ぼす。 局地的な気候変化のメカニズムに光を当てる。 本研究では,Landsat 8衛星の表面温度積と空中LiDARデータ統計を相関付けるために,新しいデータ駆動型ディープラーニングアーキテクチャとパイプラインであるDeepLCZChangeを提案する。 概念実証数値実験は、都市森林の冷却効果を検証するために、ニューヨーク市のリモートセンシングデータを利用する。

Urban land use structures impact local climate conditions of metropolitan areas. To shed light on the mechanism of local climate wrt. urban land use, we present a novel, data-driven deep learning architecture and pipeline, DeepLCZChange, to correlate airborne LiDAR data statistics with the Landsat 8 satellite's surface temperature product. A proof-of-concept numerical experiment utilizes corresponding remote sensing data for the city of New York to verify the cooling effect of urban forests.
翻訳日:2023-06-13 20:02:38 公開日:2023-06-09
# 製造システムのオンラインモニタリングのためのAS-GAN(Attention-stacked Generative Adversarial Network)を用いたセンサデータ拡張

Attention-stacked Generative Adversarial Network (AS-GAN)-empowered Sensor Data Augmentation for Online Monitoring of Manufacturing System ( http://arxiv.org/abs/2306.06268v1 )

ライセンス: Link先を確認
Yuxuan Li, Chenang Liu(参考訳) 機械学習(ML)は、先進的な製造システムにおけるオンラインセンシングベースのモニタリングに広く採用されている。 しかし、異常な状態下で収集されたセンサデータは、通常不十分であり、教師付き機械学習において重要なデータ不均衡問題を引き起こす。 この問題の一般的な解決策は、データ増強技術、すなわち、利用可能な異常状態データ(例えば、少数サンプル)を合成生成によって増強することである。 高品質のマイノリティサンプルを効果的に生成するには,異常状態データの基盤となる分布を知ることが不可欠である。 近年,gan(generative adversarial network)ベースのアプローチが普及し,データ分散の学習やデータ拡張が実現されている。 しかし、実際にはganベースのデータ拡張から生成されたサンプルの品質は大きく異なる可能性がある。 また、センサ信号は製造システムから時系列に収集されるので、データ拡張においてもシーケンシャルな情報の考慮が非常に重要である。 マルチヘッドアテンション機構にインスパイアされたこれらの制約に対処するため,先進的な製造におけるオンライン監視のセンサデータ増強のための注意喚起型GANアーキテクチャを提案する。 提案するAS-GANでは,逐次情報を考慮した学習能力を備えたGANのジェネレータを強化するために,新たなアテンションスタックフレームワークが組み込まれている。 さらに、注目度の高いフレームワークは、生成したセンサ信号の品質向上にも大きく貢献する。 追加製造におけるケーススタディは、製造システムのオンライン監視のための高品質な人工マルチチャネルセンサ信号の増強におけるAS-GANの有効性の検証にも成功している。

Machine learning (ML) has been extensively adopted for the online sensing-based monitoring in advanced manufacturing systems. However, the sensor data collected under abnormal states are usually insufficient, leading to significant data imbalanced issue for supervised machine learning. A common solution for this issue is to incorporate data augmentation technique, i.e., augmenting the available abnormal states data (i.e., minority samples) via synthetic generation. To generate the high-quality minority samples effectively, it is vital to learn the underlying distribution of the abnormal states data. In recent years, the generative adversarial network (GAN)-based approaches become popular to learn data distribution as well as perform data augmentation. However, in practice, the quality of generated samples from GAN-based data augmentation may vary drastically. In addition, the sensor signals are collected sequentially by time from the manufacturing systems, which means the consideration of sequential information is also very important in data augmentation. To address these limitations, inspired by the multi-head attention mechanism, this paper proposed an attention-stacked GAN (AS-GAN) architecture for the sensor data augmentation of online monitoring in advanced manufacturing. In this proposed AS-GAN, a new attention-stacked framework is incorporated to strengthen the generator in GAN with the learning capability of considering sequential information. Furthermore, the developed attention-stacked framework also greatly helps to improve the quality of generated sensor signals. The case studies conducted in additive manufacturing also successfully validate the effectiveness of AS-GAN to augment high-quality artificial multi-channel sensor signals for online monitoring of manufacturing systems.
翻訳日:2023-06-13 20:02:29 公開日:2023-06-09
# エピソード的制約下における強化学習における準最適保守探索

Near-optimal Conservative Exploration in Reinforcement Learning under Episode-wise Constraints ( http://arxiv.org/abs/2306.06265v1 )

ライセンス: Link先を確認
Donghao Li, Ruiquan Huang, Cong Shen, Jing Yang(参考訳) 本稿では,学習エージェントの性能が一定の閾値を超えることを保証した強化学習における保守的探索について検討する。 有限状態と作用を持つ表層的なマルコフ決定過程(MDP)に焦点を当てている。 既存の安全基準ポリシーの知識により、SteepMixと呼ばれるアルゴリズムが提案され、エクスプロイトと探索のバランスを保ちながら、保守的な制約が各エピソードにおいて高い確率で違反しないことを保証する。 StepMixは、ベースラインポリシーと楽観的なポリシーを適応的にスムーズに補間する混合ポリシーのユニークな設計を特徴としている。 理論的解析により、StepMixは制約のない設定のように、ほぼ最適の後悔順序を達成し、厳密なエピソードの保守的な制約に従うことが学習性能を損なうことはないことを示した。 さらに、確率化に基づくEpsMixアルゴリズムも提案され、StepMixと同じ性能を実現する。 アルゴリズム設計と理論的解析は、ベースラインポリシーが予め与えられていないがオフラインデータセットから学ばなければならない設定にさらに拡張され、オフラインデータセットが十分に大きい場合には、同様の保守的保証と後悔が達成できることが証明される。 実験の結果,理論解析と保存的探索戦略の有効性が実証された。

This paper investigates conservative exploration in reinforcement learning where the performance of the learning agent is guaranteed to be above a certain threshold throughout the learning process. It focuses on the tabular episodic Markov Decision Process (MDP) setting that has finite states and actions. With the knowledge of an existing safe baseline policy, an algorithm termed as StepMix is proposed to balance the exploitation and exploration while ensuring that the conservative constraint is never violated in each episode with high probability. StepMix features a unique design of a mixture policy that adaptively and smoothly interpolates between the baseline policy and the optimistic policy. Theoretical analysis shows that StepMix achieves near-optimal regret order as in the constraint-free setting, indicating that obeying the stringent episode-wise conservative constraint does not compromise the learning performance. Besides, a randomization-based EpsMix algorithm is also proposed and shown to achieve the same performance as StepMix. The algorithm design and theoretical analysis are further extended to the setting where the baseline policy is not given a priori but must be learned from an offline dataset, and it is proved that similar conservative guarantee and regret can be achieved if the offline dataset is sufficiently large. Experiment results corroborate the theoretical analysis and demonstrate the effectiveness of the proposed conservative exploration strategies.
翻訳日:2023-06-13 20:02:02 公開日:2023-06-09
# 大規模言語モデルにおけるファクチュアル知識の測定と修正

Measuring and Modifying Factual Knowledge in Large Language Models ( http://arxiv.org/abs/2306.06264v1 )

ライセンス: Link先を確認
Pouya Pezeshkpour(参考訳) 大規模言語モデル(LLM)は膨大なテキストコレクションから得られた膨大な事実知識を格納する。 これらのモデルを下流タスクに効果的に活用するためには、その知識を測定するための信頼性の高い方法が不可欠である。 しかし、既存の知識測定手法には一定の限界があり、近年の取り組みにもかかわらず、正確な測定やLLM内の知識の修正に必要な洞察を得られていない。 本研究では,情報理論に基づく測度を用いて,大規模言語モデルに含まれる事実知識を推定する枠組みを提供する。 より具体的には、対象知識の注入前後におけるllmの予測確率分布を分析し、エントロピーやkl-divergenceなどの指標を用いて知識を測定する。 分析結果を紹介すると、まず、従来のランキングベースの手法と比較して、その正確性を評価し、合成実験で35ドル以上もする結果が得られた。 次に,これらの方法の特定の状況下では,llmが新たな知識の獲得に限界があることを発見した。 最後に,llmにおける非学習的事実と誤解された事実を,文脈内学習に応用して抽出する手法の適用性を示す。 この論文では、すべてのメソッドと実験のコードとデータを公開しています。

Large Language Models (LLMs) store an extensive amount of factual knowledge obtained from vast collections of text. To effectively utilize these models for downstream tasks, it is crucial to have reliable methods for measuring their knowledge. However, existing approaches for knowledge measurement have certain limitations, and despite recent efforts, they fail to provide accurate measurements and the necessary insights for modifying the knowledge within LLMs. In this work, we employ information theory-based measurements to provide a framework estimating the factual knowledge contained within large language models. More specifically, we measure knowledge by analyzing the LLM's prediction probability distribution before and after instilling the target knowledge, employing metrics such as entropy and KL-divergence. Introducing our metrics, we first assess their accuracy in comparison to previous ranking-based methods, surpassing them by over $35\%$ in a synthetic experiment. Then, we explore two prominent methods of knowledge instillation, discovering that LLMs exhibit limitations in capturing new knowledge under specific circumstances for one of these methods. Lastly, we demonstrate the applicability of our methods in extracting unlearned and mislearned facts in LLMs through their application to in-context learning. We make code and data for all methods and experiments in this paper publicly available.
翻訳日:2023-06-13 20:01:38 公開日:2023-06-09
# スペクトルギャップに基づく決定論的テンソル補完

Spectral gap-based deterministic tensor completion ( http://arxiv.org/abs/2306.06262v1 )

ライセンス: Link先を確認
Kameron Decker Harris and Oscar L\'opez and Angus Read and Yizhe Zhu(参考訳) テンソル補完(Tensor completion)は、レコメンデータシステムや他のドメインで使用されるコア機械学習アルゴリズムである。 行列ケースはよく理解されているが、特にサンプリングパターンが決定論的である場合、テンソル問題の理論的結果は限られている。 ここでは、2つのテンソル完備化法、ポアソン損失と原子ノルム最小化の解の一般化誤差を有界とし、ターゲットテンソル階数の観点からより厳密な境界を与える。 基底トラステンソルが CP-ランク$r$ で$t$ であるなら、$r$ への依存は $r^{2(t-1)(t^2-t-1)}$ arXiv:1910.10692 から $r^{2(t-1)(3t-5)}$ に改善される。 我々の境界における誤差はサンプリング間隔パターンのスペクトルギャップによって決定的に制御される。 また、原子テンソルノルムに対するいくつかの新しい性質を証明し、arXiv:1711.04965 において $r^{3t-3} から $r^{3t-5} へのランク依存をランダムサンプリングスキームで減らした。 制限は、原子ノルムの最小化は理論上は興味深いが、非効率なアルゴリズムにつながることである。 しかし、数値実験により、実用的なmax-quasinorm、リッジペナルティ、ポアソン損失最小化アルゴリズムのスペクトルギャップに対する再構成誤差の依存性が示されている。 スペクトルギャップを通したこの見解は、テンソルアルゴリズムのさらなる研究のための有望な窓である。

Tensor completion is a core machine learning algorithm used in recommender systems and other domains with missing data. While the matrix case is well-understood, theoretical results for tensor problems are limited, particularly when the sampling patterns are deterministic. Here we bound the generalization error of the solutions of two tensor completion methods, Poisson loss and atomic norm minimization, providing tighter bounds in terms of the target tensor rank. If the ground-truth tensor is order $t$ with CP-rank $r$, the dependence on $r$ is improved from $r^{2(t-1)(t^2-t-1)}$ in arXiv:1910.10692 to $r^{2(t-1)(3t-5)}$. The error in our bounds is deterministically controlled by the spectral gap of the sampling sparsity pattern. We also prove several new properties for the atomic tensor norm, reducing the rank dependence from $r^{3t-3}$ in arXiv:1711.04965 to $r^{3t-5}$ under random sampling schemes. A limitation is that atomic norm minimization, while theoretically interesting, leads to inefficient algorithms. However, numerical experiments illustrate the dependence of the reconstruction error on the spectral gap for the practical max-quasinorm, ridge penalty, and Poisson loss minimization algorithms. This view through the spectral gap is a promising window for further study of tensor algorithms.
翻訳日:2023-06-13 20:01:18 公開日:2023-06-09
# AIアシスタントアプリケーションにおけるゼロショットとマルチドメインレコメンデーションのためのマルチタスク知識の強化

Multi-Task Knowledge Enhancement for Zero-Shot and Multi-Domain Recommendation in an AI Assistant Application ( http://arxiv.org/abs/2306.06302v1 )

ライセンス: Link先を確認
Elan Markowitz, Ziyan Jiang, Fan Yang, Xing Fan, Tony Chen, Greg Ver Steeg, Aram Galstyan(参考訳) レコメンダシステムは商業的に大きな成功を収めているが、新しいユーザーの統合には苦戦している。 ユーザは、しばしば異なるドメイン内のコンテンツと対話するため、以前のドメインにおけるユーザのインタラクションを活用して、新しいドメインでのユーザの推奨を改善することができる(マルチドメインレコメンデーション)。 知識グラフ拡張に関する別の研究スレッドでは、外部知識グラフを使用して単一のドメインレコメンデーションを改善する(知識グラフ拡張)。 どちらの研究スレッドも、新しいドメインの予測を改善するために関連する情報を取り込んでいる。 本研究は、これらのアプローチを統合するためのものである: 外部の知識グラフだけでなく、他のドメインの相互作用からの情報を用いて、情報ソースだけでは不可能な新しいドメインでの予測を行う。 これらのアイデアを、ライブバーチャルアシスタントアプリケーションにおける3つのドメイン(ビデオ、音楽、書籍)にわたる数百万のユーザからのコンテンツ要求から得られたデータセットに適用する。 本稿では,知識グラフの強化と従来の複数ドメインのレコメンデーション手法を組み合わせることで,ドメインの新規ユーザに対するレコメンデーションを改善できることを実証する。

Recommender systems have found significant commercial success but still struggle with integrating new users. Since users often interact with content in different domains, it is possible to leverage a user's interactions in previous domains to improve that user's recommendations in a new one (multi-domain recommendation). A separate research thread on knowledge graph enhancement uses external knowledge graphs to improve single domain recommendations (knowledge graph enhancement). Both research threads incorporate related information to improve predictions in a new domain. We propose in this work to unify these approaches: Using information from interactions in other domains as well as external knowledge graphs to make predictions in a new domain that would be impossible with either information source alone. We apply these ideas to a dataset derived from millions of users' requests for content across three domains (videos, music, and books) in a live virtual assistant application. We demonstrate the advantage of combining knowledge graph enhancement with previous multi-domain recommendation techniques to provide better overall recommendations as well as for better recommendations on new users of a domain.
翻訳日:2023-06-13 19:55:19 公開日:2023-06-09
# NERFBK: NERFに基づく3次元再構成のための高品質ベンチマーク

NERFBK: A High-Quality Benchmark for NERF-Based 3D Reconstruction ( http://arxiv.org/abs/2306.06300v1 )

ライセンス: Link先を確認
Ali Karami, Simone Rigon, Gabriele Mazzacca, Ziyang Yan, Fabio Remondino(参考訳) 本稿では,NeRFに基づく3次元再構成アルゴリズムのテストと比較を目的とした,NeRFBKと呼ばれる新しい実合成データセットを提案する。 高品質な3D再構成は様々な分野で大きな可能性を秘めており、画像ベースアルゴリズムの進歩は、新しい高度な技術を評価することが不可欠である。 しかし、正確な土台真実で多様なデータを収集することは困難であり、関連するすべてのアプリケーションを含めることはできない。 NeRFBKデータセットは、NeRFベースのアルゴリズムのテストと比較のために、高解像度の画像とビデオとカメラパラメータを備えたマルチスケール、屋内、屋外のデータセットを提供することによって、この問題に対処する。 本稿では,nerfbkベンチマークの設計と作成,様々な例とアプリケーションのシナリオについて述べるとともに,その3次元再構築の可能性について述べる。

This paper introduces a new real and synthetic dataset called NeRFBK specifically designed for testing and comparing NeRF-based 3D reconstruction algorithms. High-quality 3D reconstruction has significant potential in various fields, and advancements in image-based algorithms make it essential to evaluate new advanced techniques. However, gathering diverse data with precise ground truth is challenging and may not encompass all relevant applications. The NeRFBK dataset addresses this issue by providing multi-scale, indoor and outdoor datasets with high-resolution images and videos and camera parameters for testing and comparing NeRF-based algorithms. This paper presents the design and creation of the NeRFBK benchmark, various examples and application scenarios, and highlights its potential for advancing the field of 3D reconstruction.
翻訳日:2023-06-13 19:55:01 公開日:2023-06-09
# プロンプトを保護する - llmアプリケーションにおけるip保護プロトコル

Protect Your Prompts: Protocols for IP Protection in LLM Applications ( http://arxiv.org/abs/2306.06297v1 )

ライセンス: Link先を確認
M.A. van Wyk, M. Bekker, X.L. Richards, K.J. Nixon(参考訳) 大規模言語モデル(LLM)という形でAIが急速に採用されるにつれ、慎重に設計されたプロンプトの潜在的な価値が重要になっている。 しかし、この可能性を実現するために、プロンプトは公開市場で取引可能であるべきである。 現在、プロンプトは、テキストとしての本質により、経済的に排除できないため、一般的な競争市場は確立されていない。 本稿では, プロンプトの保護, 知的財産としての地位の向上, プロンプト技術者の知的財産権の確認, LLMプロンプトのオープンマーケットの興隆を支える2つのプロトコルについて論じる。

With the rapid adoption of AI in the form of large language models (LLMs), the potential value of carefully engineered prompts has become significant. However, to realize this potential, prompts should be tradable on an open market. Since prompts are, at present, generally economically non-excludable, by virtue of their nature as text, no general competitive market has yet been established. This note discusses two protocols intended to provide protection of prompts, elevating their status as intellectual property, thus confirming the intellectual property rights of prompt engineers, and potentially supporting the flourishing of an open market for LLM prompts.
翻訳日:2023-06-13 19:54:44 公開日:2023-06-09
# 応答時間による知覚と嗜好のガウス過程モデルの選択予測と関数推定の改善

Response Time Improves Choice Prediction and Function Estimation for Gaussian Process Models of Perception and Preferences ( http://arxiv.org/abs/2306.06296v1 )

ライセンス: Link先を確認
Michael Shvartsman, Benjamin Letham, Stephen Keeley(参考訳) 選好学習と心理物理学における人間の選択予測モデルはしばしば二分反応データのみを考慮し、多くのサンプルが選好や知覚検出閾値を正確に学習する必要がある。 各選択を行う応答時間(RT)は、決定プロセスに関する追加情報を取得するが、選択予測のためにRTを組み込んだ既存のモデルは、完全にパラメトリックな設定や離散的な刺激セットで行う。 これは、選択RTのデファクト標準モデルである拡散決定モデル(DDM)が、抽出可能で微分可能な推論を認めていないためである。 したがって、DDMは連続多変量関数近似(特にガウス過程(GP)モデル)の柔軟なモデルと簡単には統合できない。 本稿では,3パラメータ分布の既知の家系を用いて,DDM確率の新たな微分可能近似を提案する。 次に、この新たな可能性を使って、二進選択のためにRTをGPモデルに組み込む。 我々のRT選択GPは,人間の心理物理学と嗜好学習の両分野をカバーする実世界の3つの多変量データセットにおいて,ベースラインに対してより優れた潜伏値推定と保留選択予測を可能にする。

Models for human choice prediction in preference learning and psychophysics often consider only binary response data, requiring many samples to accurately learn preferences or perceptual detection thresholds. The response time (RT) to make each choice captures additional information about the decision process, however existing models incorporating RTs for choice prediction do so in fully parametric settings or over discrete stimulus sets. This is in part because the de-facto standard model for choice RTs, the diffusion decision model (DDM), does not admit tractable, differentiable inference. The DDM thus cannot be easily integrated with flexible models for continuous, multivariate function approximation, particularly Gaussian process (GP) models. We propose a novel differentiable approximation to the DDM likelihood using a family of known, skewed three-parameter distributions. We then use this new likelihood to incorporate RTs into GP models for binary choices. Our RT-choice GPs enable both better latent value estimation and held-out choice prediction relative to baselines, which we demonstrate on three real-world multivariate datasets covering both human psychophysics and preference learning applications.
翻訳日:2023-06-13 19:54:33 公開日:2023-06-09
# 因果推論によるSAT解法の説明

Explaining SAT Solving Using Causal Reasoning ( http://arxiv.org/abs/2306.06294v1 )

ライセンス: Link先を確認
Jiong Yang, Arijit Shaw, Teodora Baluta, Mate Soos, and Kuldeep S. Meel(参考訳) 過去30年間、効率的なSATソルバの設計に顕著な成功を収め、現代のソルバは数百万の変数を含む産業ベンチマークをわずか数秒で解くことができる。 現代のSATソルバの成功は、包括的な理論的研究を欠いた広く使われているCDCLアルゴリズムによるものである。 さらに、CDCLソルバは、現実のアプリケーションで広く使われているのとは対照的に、数百の変数からなるベンチマークの特定のクラスを扱うのに苦慮している。 そのため、これらの一見弱いが強力なブラックボックスの内部動作を明らかにする必要がある。 本稿では,現代のSATソルバの機能に関する洞察を得るために因果推論を用いたCausalSATというアプローチを導入することで,この目標に向けた第一歩を示す。 CausalSATは、SATソルバの実行から観測データを生成し、SATソルバのコンポーネント間の因果関係を表す構造化グラフを学習する。 その後、低いリテラルを持つ節が距離(LBD)をブロックするかどうかといったクエリがより高い句ユーティリティを持つ場合、CausalSATは、節ユーティリティに対するLBDの因果効果を計算し、質問に対する回答を提供する。 我々はCausalSATを用いて、これまで「親指のルール」と考えられていた仮説や、上記のクエリのような経験的な発見を定量的に検証する。 さらに、CausalSATは、分岐ヒューリスティックが分岐管理と節管理の関係を研究するためにより大きな節ユーティリティをもたらすような、未探索の質問に対処することができる。 実用ベンチマークを用いた実験的評価では、CausalSATはデータに効果的に適合し、4つの「親指のルール」を検証し、現代の解法の実装と密接に関連する3つの質問に対する回答を提供する。

The past three decades have witnessed notable success in designing efficient SAT solvers, with modern solvers capable of solving industrial benchmarks containing millions of variables in just a few seconds. The success of modern SAT solvers owes to the widely-used CDCL algorithm, which lacks comprehensive theoretical investigation. Furthermore, it has been observed that CDCL solvers still struggle to deal with specific classes of benchmarks comprising only hundreds of variables, which contrasts with their widespread use in real-world applications. Consequently, there is an urgent need to uncover the inner workings of these seemingly weak yet powerful black boxes. In this paper, we present a first step towards this goal by introducing an approach called CausalSAT, which employs causal reasoning to gain insights into the functioning of modern SAT solvers. CausalSAT initially generates observational data from the execution of SAT solvers and learns a structured graph representing the causal relationships between the components of a SAT solver. Subsequently, given a query such as whether a clause with low literals blocks distance (LBD) has a higher clause utility, CausalSAT calculates the causal effect of LBD on clause utility and provides an answer to the question. We use CausalSAT to quantitatively verify hypotheses previously regarded as "rules of thumb" or empirical findings such as the query above. Moreover, CausalSAT can address previously unexplored questions, like which branching heuristic leads to greater clause utility in order to study the relationship between branching and clause management. Experimental evaluations using practical benchmarks demonstrate that CausalSAT effectively fits the data, verifies four "rules of thumb", and provides answers to three questions closely related to implementing modern solvers.
翻訳日:2023-06-13 19:54:10 公開日:2023-06-09
# PLPCA:マイクロアレイデータ解析のための永続ラプラシア拡張PCA

PLPCA: Persistent Laplacian Enhanced-PCA for Microarray Data Analysis ( http://arxiv.org/abs/2306.06292v1 )

ライセンス: Link先を確認
Sean Cottrell, Rui Wang, Guowei Wei(参考訳) 長年にわたって、主成分分析(PCA)は、遺伝子発現データ解析における次元の減少のための基準的アプローチとして機能してきた。 主な目的は、数千の遺伝子のプールから病気を引き起こす遺伝子のサブセットを特定することである。 しかし、PCAはその解釈可能性を妨げる固有の制限を持ち、分類の曖昧さを導入し、データの複雑な幾何学的構造を捉えることができない。 これらの制限は、グラフラプラシア正規化のような様々な正規化器を組み込むことによって、文献で部分的に解決されているが、既存のPCA法は、マルチスケール解析とデータにおける高次相互作用のキャプチャに関する課題に直面している。 これらの課題に対処するため,我々はPLPCA(Persistent Laplacian-enhanced principal Component Analysis)と呼ばれる新しい手法を提案する。 PLPCAは、より初期の正規化されたPCA法と永続スペクトルグラフ理論、特に代数トポロジーから派生したラプラシアンの利点を満たす。 グラフラプラシアンとは対照的に、永続ラプラシアンは濾過によるマルチスケール解析を可能にし、データの高次相互作用を捉えるために高次単純錯体を組み込む。 正常な組織サンプルと4種類の癌組織を含むベンチマークマイクロアレイデータセットを用いて, PLPCAの性能を評価し, 評価した。 本研究は, PLPCAが次元減少後の分類タスクの他の最先端モデルよりも優れていることを示す。

Over the years, Principal Component Analysis (PCA) has served as the baseline approach for dimensionality reduction in gene expression data analysis. It primary objective is to identify a subset of disease-causing genes from a vast pool of thousands of genes. However, PCA possesses inherent limitations that hinder its interpretability, introduce classification ambiguity, and fail to capture complex geometric structures in the data. Although these limitations have been partially addressed in the literature by incorporating various regularizers such as graph Laplacian regularization, existing improved PCA methods still face challenges related to multiscale analysis and capturing higher-order interactions in the data. To address these challenges, we propose a novel approach called Persistent Laplacian-enhanced Principal Component Analysis (PLPCA). PLPCA amalgamates the advantages of earlier regularized PCA methods with persistent spectral graph theory, specifically persistent Laplacians derived from algebraic topology. In contrast to graph Laplacians, persistent Laplacians enable multiscale analysis through filtration and incorporate higher-order simplicial complexes to capture higher-order interactions in the data. We evaluate and validate the performance of PLPCA using benchmark microarray datasets that involve normal tissue samples and four different cancer tissues. Our extensive studies demonstrate that PLPCA outperforms all other state-of-the-art models for classification tasks after dimensionality reduction.
翻訳日:2023-06-13 19:53:37 公開日:2023-06-09
# 最適不均質な線形回帰と文脈的バンディット

Optimal Heterogeneous Collaborative Linear Regression and Contextual Bandits ( http://arxiv.org/abs/2306.06291v1 )

ライセンス: Link先を確認
Xinmeng Huang, Kan Xu, Donghwan Lee, Hamed Hassani, Hamsa Bastani, Edgar Dobriban(参考訳) 大規模で複雑なデータセットは、しばしば、多種多様な情報源から収集される。 協調学習手法は、データセット間の共通性を活用しながら、それらの相違を考慮し、効率を向上する。 本稿では,協調的線形回帰と文脈的バンディットについて検討する。各インスタンスの関連するパラメータはグローバルパラメータとスパースなインスタンス固有項に等しい。 MOLARと呼ばれる新しい2段階推定器を提案し、まずインスタンスの線形回帰推定のエントリーワイド中央値を構築し、次にインスタンス固有推定値を中央値に向けて縮小する。 MOLARは、データ次元に対する推定誤差の依存性を、独立した最小二乗推定よりも改善する。 そこで我々はmolarを用いて,不均質な協調的協調的バンディットの手法を開発し,独立的なバンディット法と比較して後悔の保証を改善した。 さらに,本手法は下限を多数提供することにより,ミニマックス最適であることを示す。 最後に、異種諸国の学生教育成果に対する合成データとPISAデータセットの両方の実験を行うことにより、本手法の効率化を支援する。

Large and complex datasets are often collected from several, possibly heterogeneous sources. Collaborative learning methods improve efficiency by leveraging commonalities across datasets while accounting for possible differences among them. Here we study collaborative linear regression and contextual bandits, where each instance's associated parameters are equal to a global parameter plus a sparse instance-specific term. We propose a novel two-stage estimator called MOLAR that leverages this structure by first constructing an entry-wise median of the instances' linear regression estimates, and then shrinking the instance-specific estimates towards the median. MOLAR improves the dependence of the estimation error on the data dimension, compared to independent least squares estimates. We then apply MOLAR to develop methods for sparsely heterogeneous collaborative contextual bandits, which lead to improved regret guarantees compared to independent bandit methods. We further show that our methods are minimax optimal by providing a number of lower bounds. Finally, we support the efficiency of our methods by performing experiments on both synthetic data and the PISA dataset on student educational outcomes from heterogeneous countries.
翻訳日:2023-06-13 19:53:10 公開日:2023-06-09
# segvitv2:プレーンビジョントランスフォーマーによる効率的かつ連続的な意味セグメンテーションの検討

SegViTv2: Exploring Efficient and Continual Semantic Segmentation with Plain Vision Transformers ( http://arxiv.org/abs/2306.06289v1 )

ライセンス: Link先を確認
Bowen Zhang, Liyang Liu, Minh Hieu Phan, Zhi Tian, Chunhua Shen, Yifan Liu(参考訳) エンコーダデコーダフレームワークを用いたセマンティックセマンティックセグメンテーションのためのプレーンビジョントランスフォーマー(ViT)の機能について検討し,SegViTv2を紹介する。 本研究では,vitバックボーンに固有のグローバルアテンション機構を備えたデコーダを実装し,グローバルアテンションマップを高品質セグメンテーション結果に効果的に意味的マスクに変換する軽量アテンション・ツー・マスクモジュールを提案する。 我々のデコーダは、様々なViTバックボーンにおいて最もよく使われるアッパーネットより優れ、計算コストの5倍程度しか消費しない。 エンコーダでは、ViTベースのエンコーダの比較的高い計算コストの懸念に対処し、エッジ対応クエリベースのダウンサンプリング(EQD)とクエリベースのアップサンプリング(QU)モジュールを組み込んだShrunk++構造を提案する。 shrunk++の構造は、競合性能を維持しつつ、エンコーダの計算コストを最大$50\%$削減する。 さらに、私たちのViTベースのアーキテクチャの柔軟性のため、連続学習の設定下でセマンティックセグメンテーションに容易に拡張することができ、ほとんど忘れることができない。 提案するsegvitは,ade20k,coco-stuff-10k,pascal-contextデータセットの3つのベンチマークにおいて,近年のセグメンテーション手法を上回っている。 コードは以下のリンクで利用可能である。

We explore the capability of plain Vision Transformers (ViTs) for semantic segmentation using the encoder-decoder framework and introduce SegViTv2. In our work, we implement the decoder with the global attention mechanism inherent in ViT backbones and propose the lightweight Attention-to-Mask module that effectively converts the global attention map into semantic masks for high-quality segmentation results. Our decoder can outperform the most commonly-used decoder UpperNet in various ViT backbones while consuming only about 5\% of the computational cost. For the encoder, we address the concern of the relatively high computational cost in the ViT-based encoders and propose a Shrunk++ structure that incorporates edge-aware query-based down-sampling (EQD) and query-based up-sampling (QU) modules. The Shrunk++ structure reduces the computational cost of the encoder by up to $50\%$ while maintaining competitive performance. Furthermore, due to the flexibility of our ViT-based architecture, SegVit can be easily extended to semantic segmentation under the setting of continual learning, achieving nearly zero forgetting. Experiments show that our proposed SegViT outperforms recent segmentation methods on three popular benchmarks including ADE20k, COCO-Stuff-10k and PASCAL-Context datasets. The code is available through the following link: \url{https://github.com/zbwxp/SegVit}.
翻訳日:2023-06-13 19:52:50 公開日:2023-06-09
# SAGE-NDVI:衛星間NDVI知識を用いたリモートセンシング画像デハージングのためのステレオタイプブラッキング評価指標

SAGE-NDVI: A Stereotype-Breaking Evaluation Metric for Remote Sensing Image Dehazing Using Satellite-to-Ground NDVI Knowledge ( http://arxiv.org/abs/2306.06288v1 )

ライセンス: Link先を確認
Zepeng Liu, Zhicheng Yang, Mingye Zhu, Andy Wong, Yibing Wei, Mei Han, Jun Yu, Jui-Hsin Lai(参考訳) イメージデハジングは意味のある低レベルのコンピュータビジョンタスクであり、様々な状況に適用することができる。 リモートセンシング(RS)画像に基づく産業展開シナリオでは、画像のデハージングの質が作物の識別および成長監視製品の品位に直接影響を与える。 しかし、広く使われているピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)は曖昧な視覚的解釈を提供する。 本稿では,rs画像デハジング評価のための新しい客観的指標を考案する。 提案手法では,地上現象観測資源を活用し,静止日におけるrsと地上画像の植生指標誤差を算出した。 広範な実験により、測定値が異なるデハジングモデルを適切に評価し、人間の視覚知覚と一致していることが確認された。

Image dehazing is a meaningful low-level computer vision task and can be applied to a variety of contexts. In our industrial deployment scenario based on remote sensing (RS) images, the quality of image dehazing directly affects the grade of our crop identification and growth monitoring products. However, the widely used peak signal-to-noise ratio (PSNR) and structural similarity index (SSIM) provide ambiguous visual interpretation. In this paper, we design a new objective metric for RS image dehazing evaluation. Our proposed metric leverages a ground-based phenology observation resource to calculate the vegetation index error between RS and ground images at a hazy date. Extensive experiments validate that our metric appropriately evaluates different dehazing models and is in line with human visual perception.
翻訳日:2023-06-13 19:52:22 公開日:2023-06-09
# 誰もが作曲する音楽のディープビート

Everybody Compose: Deep Beats To Music ( http://arxiv.org/abs/2306.06284v1 )

ライセンス: Link先を確認
Conghao Shen, Violet Z. Yao, Yixin Liu(参考訳) このプロジェクトは、入力ビートに基づいて単音節の旋律を生成するためのディープラーニングアプローチを示し、アマチュアでも独自の楽曲を作成できるようにしている。 本手法では, フルアテンション付きLSTM, ローカルアテンション付きLSTM, 相対位置表現付きトランスフォーマーの3つの有効手法を提案する。 このプロジェクトでは、既存の作品からキーボードや'recoloring'ビートシーケンスをタップすることで、誰でも独自の楽曲を作成できる。

This project presents a deep learning approach to generate monophonic melodies based on input beats, allowing even amateurs to create their own music compositions. Three effective methods - LSTM with Full Attention, LSTM with Local Attention, and Transformer with Relative Position Representation - are proposed for this novel task, providing great variation, harmony, and structure in the generated music. This project allows anyone to compose their own music by tapping their keyboards or ``recoloring'' beat sequences from existing works.
翻訳日:2023-06-13 19:52:06 公開日:2023-06-09
# DocumentCLIP: リフロード文書における図形と本文のリンク

DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents ( http://arxiv.org/abs/2306.06306v1 )

ライセンス: Link先を確認
Fuxiao Liu, Hao Tan, Chris Tensmeyer(参考訳) 視覚言語事前学習モデルは、画像とテキストのアライメントを理解することによってマルチメディアアプリケーションをサポートすることに成功している。 既存の視覚言語事前学習モデルは、主に1つのテキストに関連付けられた1つの画像を理解することに焦点を当てるが、それらは文書内レベルでのアライメントを無視することが多い。 本研究では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制する,サラレンス対応のコントラスト学習フレームワークであるDocumentCLIPを提案する。 私たちのモデルは、ニュース記事、雑誌、製品説明のような、言語的および視覚的にリッチなコンテンツを含む現実世界のマルチモーダルなドキュメント理解に有益です。 我々の知る限りでは、コントラッシブラーニングによって文書内リンクをマルチモーダルに探索するのは初めてである。 さらに、さまざまなトピックや構造を提供する事前学習用の大きなウィキペディアデータセットを収集します。 実験の結果,DocumentCLIPは教師付きセッティングにおいて最先端のベースラインを上回るだけでなく,人的評価後の野における最高のゼロショット性能も達成できることがわかった。 私たちのコードはhttps://github.com/FuxiaoLiu/DocumentCLIPで利用可能です。

Vision-language pretraining models have achieved great success in supporting multimedia applications by understanding the alignments between images and text. While existing vision-language pretraining models primarily focus on understanding single image associated with a single piece of text, they often ignore the alignment at the intra-document level, consisting of multiple sentences with multiple images. In this work, we propose DocumentCLIP, a salience-aware contrastive learning framework to enforce vision-language pretraining models to comprehend the interaction between images and longer text within documents. Our model is beneficial for the real-world multimodal document understanding like news article, magazines, product descriptions, which contain linguistically and visually richer content. To the best of our knowledge, we are the first to explore multimodal intra-document links by contrastive learning. In addition, we collect a large Wikipedia dataset for pretraining, which provides various topics and structures. Experiments show DocumentCLIP not only outperforms the state-of-the-art baselines in the supervised setting, but also achieves the best zero-shot performance in the wild after human evaluation. Our code is available at https://github.com/FuxiaoLiu/DocumentCLIP.
翻訳日:2023-06-13 19:41:46 公開日:2023-06-09
# 深部物理誘導粒子流場を用いた非教師なしクロスドメインソフトセンサモデリング

Unsupervised Cross-Domain Soft Sensor Modelling via Deep Physics-Inspired Particle Flow Bayes ( http://arxiv.org/abs/2306.04919v2 )

ライセンス: Link先を確認
Junn Yong Loo, Ze Yang Ding, Surya G. Nurzaman, Chee-Ming Ting, Vishnu Monn Baskaran and Chee Pin Tan(参考訳) データ駆動型ソフトセンサーは、信頼できる状態推定によって正確な知覚を達成するために不可欠である。 しかし、代表的なソフトセンサーモデルの開発には、ラベルの欠如、ドメイン適応性、データの時間的コヒーレンスといった問題がある。 これらの課題に対処するため,我々は,対象とする状態ラベルがない場合のクロスドメインソフトセンサモデリングのためのdpfb(deep particle flow bayes)フレームワークを提案する。 特に、シーケンシャルベイズ目標を最初に定式化し、クロスドメインソフトセンシング問題の基礎となる最大確率推定を行う。 フレームワークのコアには物理に触発された粒子の流れが組み込まれており、シーケンシャルベイズ目標を最適化し、抽出された潜在性と隠れた特徴の正確なベイズ更新を行う。 その結果,提案手法は複雑なクロスドメインシステムのダイナミクスを特徴付け,効率的な時系列非教師なしドメイン適応 (uda) を実現することができる。 最後に,複雑なダイナミクスと複数の動作条件を有する複合産業多相流プロセスシステム上での枠組みを検証する。 その結果,DPFBフレームワークは高いドメイン間ソフトセンシング性能,最先端の深部UDA性能,正規化フローアプローチを実現していることがわかった。

Data-driven soft sensors are essential for achieving accurate perception through reliable state inference. However, developing representative soft sensor models is challenged by issues such as missing labels, domain adaptability, and temporal coherence in data. To address these challenges, we propose a deep Particle Flow Bayes (DPFB) framework for cross-domain soft sensor modeling in the absence of target state labels. In particular, a sequential Bayes objective is first formulated to perform the maximum likelihood estimation underlying the cross-domain soft sensing problem. At the core of the framework, we incorporate a physics-inspired particle flow that optimizes the sequential Bayes objective to perform an exact Bayes update of the model extracted latent and hidden features. As a result, these contributions enable the proposed framework to learn a rich approximate posterior feature representation capable of characterizing complex cross-domain system dynamics and performing effective time series unsupervised domain adaptation (UDA). Finally, we validate the framework on a complex industrial multiphase flow process system with complex dynamics and multiple operating conditions. The results demonstrate that the DPFB framework achieves superior cross-domain soft sensing performance, outperforming state-of-the-art deep UDA and normalizing flow approaches.
翻訳日:2023-06-13 11:36:31 公開日:2023-06-09
# 直交群の部分群上の同期問題への統一的アプローチ

A Unified Approach to Synchronization Problems over Subgroups of the Orthogonal Group ( http://arxiv.org/abs/2009.07514v3 )

ライセンス: Link先を確認
Huikang Liu, Man-Chung Yue, Anthony Man-Cho So(参考訳) 群 $\mathcal{G}$ 上の同期問題は、群要素の集合 $G^*_1, \dots, G^*_n \in \mathcal{G}$ を、形式 $G^*_i {G^*_j}^{-1}$ の任意の対比の集合の雑音的な観測に基づいて推定することを目的としている。 このような問題は近年注目を集め、幅広い科学や工学分野に応用されている。 本稿では、群が直交群の閉部分群である同期問題のクラスを考える。 このクラスは、実際に発生する多くのグループ同期問題をカバーする。 私たちの貢献は5倍です。 まず,一般化パワー法に基づく適切な初期化ステップと反復的改良ステップからなる群同期問題に対する統一的な解法を提案し,群,測定グラフ,雑音,初期化における推定誤差の強い理論的保証を享受することを示す。 第二に、我々のアプローチで要求される2つの幾何学的条件を定式化し、それらが直交群の様々な実用的な部分群に対して成り立つことを示す。 条件は部分群の誤差有界幾何と密接に関連しており、最適化の重要な概念である。 第3に、標準ランダムグラフとランダム行列モデルに対する測定グラフとノイズの仮定を検証する。 第4に、古典的な距離エントロピーの概念に基づいて、新しいスペクトル型推定器を開発し分析する。 最後に,提案手法が計算速度,スケーラビリティ,推定誤差の点で既存の手法よりも優れていることを示す。

The problem of synchronization over a group $\mathcal{G}$ aims to estimate a collection of group elements $G^*_1, \dots, G^*_n \in \mathcal{G}$ based on noisy observations of a subset of all pairwise ratios of the form $G^*_i {G^*_j}^{-1}$. Such a problem has gained much attention recently and finds many applications across a wide range of scientific and engineering areas. In this paper, we consider the class of synchronization problems in which the group is a closed subgroup of the orthogonal group. This class covers many group synchronization problems that arise in practice. Our contribution is fivefold. First, we propose a unified approach for solving this class of group synchronization problems, which consists of a suitable initialization step and an iterative refinement step based on the generalized power method, and show that it enjoys a strong theoretical guarantee on the estimation error under certain assumptions on the group, measurement graph, noise, and initialization. Second, we formulate two geometric conditions that are required by our approach and show that they hold for various practically relevant subgroups of the orthogonal group. The conditions are closely related to the error-bound geometry of the subgroup -- an important notion in optimization. Third, we verify the assumptions on the measurement graph and noise for standard random graph and random matrix models. Fourth, based on the classic notion of metric entropy, we develop and analyze a novel spectral-type estimator. Finally, we show via extensive numerical experiments that our proposed non-convex approach outperforms existing approaches in terms of computational speed, scalability, and/or estimation error.
翻訳日:2023-06-12 18:50:06 公開日:2023-06-09
# 機械セミオティックス

Machine Semiotics ( http://arxiv.org/abs/2008.10522v2 )

ライセンス: Link先を確認
Peter beim Graben, Markus Huber-Liebl, Peter Klimczak, and G\"unther Wirsching(参考訳) 人間と機械のセミオティックスの基本的違いを認識することは、現在の音声補助装置の欠点を克服する可能性を示す。 機械にとって、(人間の)発話の意味は、その行動の範囲によって定義される。 したがって、機械は従来の発話の意味を理解する必要はない。 むしろ、彼らは(ネオ)グリチアン・プラグマティクスの意味で会話的模倣を描いている。 音声補助装置では、人間の発話の機械固有の意味の学習、すなわち、会話的模倣の試行による一般化と語彙化による誤りの化石化が十分と思われる。 認知的加熱装置の非常に自明な例を用いて、動的意味論に基づくこのプロセスは、発話意味ペア(UMP)の強化学習として形式化できることを示す。

Recognizing a basic difference between the semiotics of humans and machines presents a possibility to overcome the shortcomings of current speech assistive devices. For the machine, the meaning of a (human) utterance is defined by its own scope of actions. Machines, thus, do not need to understand the conventional meaning of an utterance. Rather, they draw conversational implicatures in the sense of (neo-)Gricean pragmatics. For speech assistive devices, the learning of machine-specific meanings of human utterances, i.e. the fossilization of conversational implicatures into conventionalized ones by trial and error through lexicalization appears to be sufficient. Using the quite trivial example of a cognitive heating device, we show that - based on dynamic semantics - this process can be formalized as the reinforcement learning of utterance-meaning pairs (UMP).
翻訳日:2023-06-12 18:49:39 公開日:2023-06-09
# bvit: 幅広い注意に基づく視覚トランスフォーマー

BViT: Broad Attention based Vision Transformer ( http://arxiv.org/abs/2202.06268v2 )

ライセンス: Link先を確認
Nannan Li, Yaran Chen, Weifan Li, Zixiang Ding, Dongbin Zhao(参考訳) 近年の研究では、画像パッチと自己注意の関係を利用して、トランスフォーマーがコンピュータビジョンにおいて有望な性能を達成できることが示されている。 注意は単一の機能層でのみ考慮するが、異なるレベルの注意の相補性は無視する。 本稿では,BViTと呼ばれる視覚変換器の異なるレイヤの注意関係を組み込むことにより,性能向上のための幅広い注意点を提案する。 幅広い注意は、幅広い接続とパラメータフリーな注意によって実装される。 各トランス層の広帯域接続は、BViTの情報伝達と統合を促進する。 追加のトレーニング可能なパラメータを導入することなく、パラメータフリーアテンションは、有用な情報を抽出し、それらの関係を構築するために、さまざまなレイヤで既に利用可能なアテンション情報に共同でフォーカスする。 画像分類タスクの実験では、BViTは5M/22Mパラメータを持つImageNet上で74.8\%/81.6\%のトップ-1精度を提供する。 さらに、BViTを下流オブジェクト認識ベンチマークに転送し、より少ないパラメータでViTを超えるCIFAR10とCIFAR100で98.9\%と89.9\%を達成する。 一般化試験では、Swin Transformer と T2T-ViT の注目度も 1 % 以上向上した。 まとめると、広く注目されるのは、注意に基づくモデルのパフォーマンスを促進することだ。 コードと事前訓練されたモデルはhttps://github.com/DRL-CASIA/Broad_ViT.comで入手できる。

Recent works have demonstrated that transformer can achieve promising performance in computer vision, by exploiting the relationship among image patches with self-attention. While they only consider the attention in a single feature layer, but ignore the complementarity of attention in different levels. In this paper, we propose the broad attention to improve the performance by incorporating the attention relationship of different layers for vision transformer, which is called BViT. The broad attention is implemented by broad connection and parameter-free attention. Broad connection of each transformer layer promotes the transmission and integration of information for BViT. Without introducing additional trainable parameters, parameter-free attention jointly focuses on the already available attention information in different layers for extracting useful information and building their relationship. Experiments on image classification tasks demonstrate that BViT delivers state-of-the-art accuracy of 74.8\%/81.6\% top-1 accuracy on ImageNet with 5M/22M parameters. Moreover, we transfer BViT to downstream object recognition benchmarks to achieve 98.9\% and 89.9\% on CIFAR10 and CIFAR100 respectively that exceed ViT with fewer parameters. For the generalization test, the broad attention in Swin Transformer and T2T-ViT also bring an improvement of more than 1\%. To sum up, broad attention is promising to promote the performance of attention based models. Code and pre-trained models are available at https://github.com/DRL-CASIA/Broad_ViT.
翻訳日:2023-06-12 18:45:48 公開日:2023-06-09
# L0Learn: L0正規化を用いたスパース学習用スケーラブルパッケージ

L0Learn: A Scalable Package for Sparse Learning using L0 Regularization ( http://arxiv.org/abs/2202.04820v2 )

ライセンス: Link先を確認
Hussein Hazimeh, Rahul Mazumder, Tim Nonet(参考訳) スパース線形回帰と分類のためのオープンソースパッケージ L0Learn を $\ell_0$ 正規化を用いて提示する。 l0learnは座標降下と局所組合せ最適化に基づくスケーラブルな近似アルゴリズムを実装している。 パッケージはC++を使って構築されており、ユーザフレンドリーなRとPythonのインターフェースを備えている。 L0Learnは何百万もの機能で問題に対処でき、最先端のスパース学習パッケージで競争力のある実行時間と統計的パフォーマンスを達成することができる。 L0LearnはCRANとGitHubの両方で利用できる(https://cran.r-project.org/package=L0Learnとhttps://github.com/hazimeh/L0Learn)。

We present L0Learn: an open-source package for sparse linear regression and classification using $\ell_0$ regularization. L0Learn implements scalable, approximate algorithms, based on coordinate descent and local combinatorial optimization. The package is built using C++ and has user-friendly R and Python interfaces. L0Learn can address problems with millions of features, achieving competitive run times and statistical performance with state-of-the-art sparse learning packages. L0Learn is available on both CRAN and GitHub (https://cran.r-project.org/package=L0Learn and https://github.com/hazimehh/L0Learn).
翻訳日:2023-06-12 18:45:25 公開日:2023-06-09
# 高次元行列値データに対する最適可変クラスタリング

Optimal Variable Clustering for High-Dimensional Matrix Valued Data ( http://arxiv.org/abs/2112.12909v2 )

ライセンス: Link先を確認
Inbeom Lee, Siyi Deng, Yang Ning(参考訳) 行列値データは多くのアプリケーションでますます普及している。 このタイプのデータに対する既存のクラスタリング手法のほとんどは、平均モデルに合わせて調整されており、特に高次元の設定において非常に有意義な特徴の依存構造を考慮していない。 クラスタリングのための依存構造から情報を抽出するために,列と列のクラスタを表す未知のメンバシップ行列を用いて,行列形式で配置された特徴に対する新しい潜在変数モデルを提案する。 このモデルでは、重み付き共分散行列の差分を相似性尺度として用いた階層的クラスタリングアルゴリズムのクラスをさらに提案する。 理論上,温和な条件下では,高次元環境でのクラスタリング一貫性を実現する。 この一貫性の結果は、重み付き共分散行列の幅広いクラスを持つアルゴリズムに対して成立するが、この結果の条件は重みの選択に依存する。 この重みがアルゴリズムの理論的性能にどのように影響するかを調べるため、潜在変数モデルに基づいてクラスタリングのためのミニマックス下限を確立する。 これらの結果から, この重みを用いることで, クラスター分離計量の大きさの観点で, アルゴリズムが最小のレート最適となることを保証できるという意味で, 最適重みを同定する。 また,最適重み付きアルゴリズムの実用的実装についても論じる。 最後に,本アルゴリズムの有限サンプル性能を評価するためのシミュレーション研究を行い,その手法をゲノムデータセットに適用する。

Matrix valued data has become increasingly prevalent in many applications. Most of the existing clustering methods for this type of data are tailored to the mean model and do not account for the dependence structure of the features, which can be very informative, especially in high-dimensional settings. To extract the information from the dependence structure for clustering, we propose a new latent variable model for the features arranged in matrix form, with some unknown membership matrices representing the clusters for the rows and columns. Under this model, we further propose a class of hierarchical clustering algorithms using the difference of a weighted covariance matrix as the dissimilarity measure. Theoretically, we show that under mild conditions, our algorithm attains clustering consistency in the high-dimensional setting. While this consistency result holds for our algorithm with a broad class of weighted covariance matrices, the conditions for this result depend on the choice of the weight. To investigate how the weight affects the theoretical performance of our algorithm, we establish the minimax lower bound for clustering under our latent variable model. Given these results, we identify the optimal weight in the sense that using this weight guarantees our algorithm to be minimax rate-optimal in terms of the magnitude of some cluster separation metric. The practical implementation of our algorithm with the optimal weight is also discussed. Finally, we conduct simulation studies to evaluate the finite sample performance of our algorithm and apply the method to a genomic dataset.
翻訳日:2023-06-12 18:45:14 公開日:2023-06-09
# 画像変換を使ってネットワーク構造を学ぶ

Using Image Transformations to Learn Network Structure ( http://arxiv.org/abs/2112.03419v2 )

ライセンス: Link先を確認
Brayan Ortiz and Amitabh Sinha(参考訳) 多くの学習タスクでは、一連の画像を観察し、意思決定する必要がある。 ノード間の配送ボックスを設計・計画する輸送問題において、ノード間のネットワークとそれらの間のフローを画像として扱う方法を示す。 これらの画像は統計的に要約できる有用な構造情報を持っている。 画像圧縮技術を用いて、地理的シグネチャと呼ばれる解釈可能な地理的情報を含む数値の集合まで画像を縮小する。 地理的シグネチャを用いて,将来的なネットワーク接続を推奨できるネットワーク構造を学習する。 本研究では,ネットワーク情報を事前情報として統計的に要約し,エージェントの確率的決定を補強するベイズ強化アルゴリズムを開発した。 さらに、簡単なタスクで解釈することなく、直接圧縮で強化学習をどのように利用できるかを示す。

Many learning tasks require observing a sequence of images and making a decision. In a transportation problem of designing and planning for shipping boxes between nodes, we show how to treat the network of nodes and the flows between them as images. These images have useful structural information that can be statistically summarized. Using image compression techniques, we reduce an image down to a set of numbers that contain interpretable geographic information that we call geographic signatures. Using geographic signatures, we learn network structure that can be utilized to recommend future network connectivity. We develop a Bayesian reinforcement algorithm that takes advantage of statistically summarized network information as priors and user-decisions to reinforce an agent's probabilistic decision. Additionally, we show how reinforcement learning can be used with compression directly without interpretation in simple tasks.
翻訳日:2023-06-12 18:44:52 公開日:2023-06-09
# 10 大規模ファンデーションモデルにおけるセキュリティとプライバシの問題

10 Security and Privacy Problems in Large Foundation Models ( http://arxiv.org/abs/2110.15444v3 )

ライセンス: Link先を確認
Jinyuan Jia, Hongbin Liu, Neil Zhenqiang Gong(参考訳) GPT、CLIP、DINOといったファンデーションモデルは、ここ数年で革命的な進歩を遂げており、汎用AIにとって有望なアプローチであると一般的に信じられている。 特に,大量のラベルなしデータを用いた基礎モデルの事前学習には,自己教師あり学習が採用されている。 事前トレーニングされた基盤モデルは、AIエコシステムの‘運用システム’のようなものです。 特に、基礎モデルは、ラベル付きトレーニングデータが少なく、あるいは全くない多くのダウンストリームタスクの機能抽出器として使用できる。 基礎モデルの既存の研究は、主に、非敵の設定で下流タスクのパフォーマンスを改善するためのより良い基礎モデルの事前訓練に焦点を当てており、敵の設定におけるセキュリティとプライバシは、ほとんど探索されていない。 事前訓練された基盤モデルのセキュリティやプライバシの問題は、AIエコシステムの単一障害点につながる。 本章では,6つの機密性問題,3つの整合性問題,1つの可用性問題を含む,事前学習された基盤モデルに対する10の基本的なセキュリティとプライバシの問題について論じる。 それぞれの問題に対して、潜在的な機会と課題について話し合う。 私たちの本章は、ファンデーションモデルのセキュリティとプライバシに関する将来の研究を刺激することを期待しています。

Foundation models--such as GPT, CLIP, and DINO--have achieved revolutionary progress in the past several years and are commonly believed to be a promising approach for general-purpose AI. In particular, self-supervised learning is adopted to pre-train a foundation model using a large amount of unlabeled data. A pre-trained foundation model is like an ``operating system'' of the AI ecosystem. Specifically, a foundation model can be used as a feature extractor for many downstream tasks with little or no labeled training data. Existing studies on foundation models mainly focused on pre-training a better foundation model to improve its performance on downstream tasks in non-adversarial settings, leaving its security and privacy in adversarial settings largely unexplored. A security or privacy issue of a pre-trained foundation model leads to a single point of failure for the AI ecosystem. In this book chapter, we discuss 10 basic security and privacy problems for the pre-trained foundation models, including six confidentiality problems, three integrity problems, and one availability problem. For each problem, we discuss potential opportunities and challenges. We hope our book chapter will inspire future research on the security and privacy of foundation models.
翻訳日:2023-06-12 18:44:41 公開日:2023-06-09
# 多関節バンドにおけるレギュレット最小化のパレートフロンティア達成とベストアーム識別

Achieving the Pareto Frontier of Regret Minimization and Best Arm Identification in Multi-Armed Bandits ( http://arxiv.org/abs/2110.08627v3 )

ライセンス: Link先を確認
Zixin Zhong, Wang Chi Cheung, Vincent Y. F. Tan(参考訳) 多腕包帯における2つの根尖目標のパレートフロンティア、すなわち、後悔最小化(RM)とベストアーム識別(BAI)を固定地平線で検討した。 RMとBAIの双方にとって, エクスプロイトと探索のバランスは重要であるが, 後者の目的を達成するためには, 探索がより重要である。 この目的のために,BoBW-lil'UCB$(\gamma)$アルゴリズムの設計と解析を行う。 補足的に、与えられた bai の失敗確率を持つ任意のアルゴリズムで達成可能な後悔の限界を低く設定することで、そのことを示す。 i)RMとBAIの両方の目的に対して最適なアルゴリズムを同時に実行することができず、 (ii) BoBW-lil'UCB$(\gamma)$ は RM または BAI に対して$\gamma$ の異なる値で順番に最適な性能を達成する。 我々の研究は、以前の作業の定数が特定の硬さパラメータに依存するかを示すことによって、トレードオフをより正確に解明する。 最後に、BoBW-lil'UCBは、時間複雑性とMovieLensやPublished Kinase Inhibitor Setといった多様なデータセットに対する後悔の点において、競合するUCB$_\alpha$(Degenne et al., 2019)を上回っていることを示す。

We study the Pareto frontier of two archetypal objectives in multi-armed bandits, namely, regret minimization (RM) and best arm identification (BAI) with a fixed horizon. It is folklore that the balance between exploitation and exploration is crucial for both RM and BAI, but exploration is more critical in achieving the optimal performance for the latter objective. To this end, we design and analyze the BoBW-lil'UCB$(\gamma)$ algorithm. Complementarily, by establishing lower bounds on the regret achievable by any algorithm with a given BAI failure probability, we show that (i) no algorithm can simultaneously perform optimally for both the RM and BAI objectives, and (ii) BoBW-lil'UCB$(\gamma)$ achieves order-wise optimal performance for RM or BAI under different values of $\gamma$. Our work elucidates the trade-off more precisely by showing how the constants in previous works depend on certain hardness parameters. Finally, we show that BoBW-lil'UCB outperforms a close competitor UCB$_\alpha$ (Degenne et al., 2019) in terms of the time complexity and the regret on diverse datasets such as MovieLens and Published Kinase Inhibitor Set.
翻訳日:2023-06-12 18:44:06 公開日:2023-06-09
# 異常検出のための深い孤立林

Deep Isolation Forest for Anomaly Detection ( http://arxiv.org/abs/2206.06602v4 )

ライセンス: Link先を確認
Hongzuo Xu and Guansong Pang and Yijie Wang and Yongjun Wang(参考訳) アイソレーションフォレスト(iforest)は、さまざまなベンチマークと強力なスケーラビリティにより、近年最も人気のある異常検知器として登場している。 それでも、その線形軸並列分離法は、しばしば、 一)高次元・非線形分離データ空間において孤立し難いハード異常の検出の失敗、及び (ii)不意に低い異常スコアをアーティファクト領域に割り当てる悪名高いアルゴリズムバイアス。 これらの問題は偽陰性な誤りに寄与する。 いくつかのiforest拡張が導入されているが、本質的には浅い線形データ分割を採用しており、真の異常を分離する能力を制限する。 そこで本論文では,深い孤立林を提案する。 そこで我々は,カジュアルに初期化されたニューラルネットワークを用いて,元のデータをランダムな表現アンサンブルにマッピングする新しい表現手法を提案する。 この表現スキームは、元のデータ空間におけるパーティションの高自由化(様々なサイズのサブ空間上の非線形パーティションと等価)を促進し、ランダム表現とランダムなパーティションベース分離のユニークな相乗性を促進する。 広範な実験により,我々のモデルは,最先端のアイソレーションベース手法や,表型,グラフ型,時系列のデータセット上でのディープディテクターよりも大きな改善を達成していることが示された。

Isolation forest (iForest) has been emerging as arguably the most popular anomaly detector in recent years due to its general effectiveness across different benchmarks and strong scalability. Nevertheless, its linear axis-parallel isolation method often leads to (i) failure in detecting hard anomalies that are difficult to isolate in high-dimensional/non-linear-separable data space, and (ii) notorious algorithmic bias that assigns unexpectedly lower anomaly scores to artefact regions. These issues contribute to high false negative errors. Several iForest extensions are introduced, but they essentially still employ shallow, linear data partition, restricting their power in isolating true anomalies. Therefore, this paper proposes deep isolation forest. We introduce a new representation scheme that utilises casually initialised neural networks to map original data into random representation ensembles, where random axis-parallel cuts are subsequently applied to perform the data partition. This representation scheme facilitates high freedom of the partition in the original data space (equivalent to non-linear partition on subspaces of varying sizes), encouraging a unique synergy between random representations and random partition-based isolation. Extensive experiments show that our model achieves significant improvement over state-of-the-art isolation-based methods and deep detectors on tabular, graph and time series datasets; our model also inherits desired scalability from iForest.
翻訳日:2023-06-12 18:36:15 公開日:2023-06-09
# 潜伏低ランク構造を用いたサンプル効率強化学習のための長水平バリアの克服

Overcoming the Long Horizon Barrier for Sample-Efficient Reinforcement Learning with Latent Low-Rank Structure ( http://arxiv.org/abs/2206.03569v4 )

ライセンス: Link先を確認
Tyler Sam, Yudong Chen, and Christina Lee Yu(参考訳) 強化学習アルゴリズムの実用性は、問題サイズに関するスケーリングの貧弱さによって制限されている。$\epsilon$-optimal policyの学習のサンプル複雑性は$\tilde{\omega}\left(|s||a|h^3 / \epsilon^2\right)$ 状態空間$s$、アクションスペース$a$、ホライズン$h$である。 我々は、関連する最適な$q^*$関数が低ランクであるmdpのクラスを考える。 低ランク構造のため、$|s|$ と $|a|$ で線形なサンプル複雑性を達成することを望んでいるが、低ランクの$q^*$ を超える仮定を課すことなく、エントリのサブセットからの観察のみを用いて$q$関数を推定することに制約されている場合、ほぼ最適に近いポリシーを学ぶために、サンプルの複雑性を指数関数的に負わなければならない最悪のケースがある。 その後、より強い低階構造仮定の下で、生成モデル(LR-MCPI)と低階経験値イテレーション(LR-EVI)が与えられた場合、$\tilde{O}\left((|S|+|A|)\mathrm{poly}(d,H)/\epsilon^2\right)$が望ましく、$d$設定は$|S|, |A|$, $\epsilon$のスケーリングに対して最適である。 線形および低ランクのMDPに関する文献とは対照的に、既知の特徴マッピングは必要とせず、アルゴリズムは計算的に単純であり、その結果は長期間の地平線を保っている。 この結果から, MDP 上で必要となる最小限の低ランク構造仮定を, 遷移カーネルと最適作用値関数に対して考察した。

The practicality of reinforcement learning algorithms has been limited due to poor scaling with respect to the problem size, as the sample complexity of learning an $\epsilon$-optimal policy is $\tilde{\Omega}\left(|S||A|H^3 / \epsilon^2\right)$ over worst case instances of an MDP with state space $S$, action space $A$, and horizon $H$. We consider a class of MDPs for which the associated optimal $Q^*$ function is low rank, where the latent features are unknown. While one would hope to achieve linear sample complexity in $|S|$ and $|A|$ due to the low rank structure, we show that without imposing further assumptions beyond low rank of $Q^*$, if one is constrained to estimate the $Q$ function using only observations from a subset of entries, there is a worst case instance in which one must incur a sample complexity exponential in the horizon $H$ to learn a near optimal policy. We subsequently show that under stronger low rank structural assumptions, given access to a generative model, Low Rank Monte Carlo Policy Iteration (LR-MCPI) and Low Rank Empirical Value Iteration (LR-EVI) achieve the desired sample complexity of $\tilde{O}\left((|S|+|A|)\mathrm{poly}(d,H)/\epsilon^2\right)$ for a rank $d$ setting, which is minimax optimal with respect to the scaling of $|S|, |A|$, and $\epsilon$. In contrast to literature on linear and low-rank MDPs, we do not require a known feature mapping, our algorithm is computationally simple, and our results hold for long time horizons. Our results provide insights on the minimal low-rank structural assumptions required on the MDP with respect to the transition kernel versus the optimal action-value function.
翻訳日:2023-06-12 18:35:52 公開日:2023-06-09
# 高レベル随伴微分に基づくメモリ効率ニューラルODEフレームワーク

A memory-efficient neural ODE framework based on high-level adjoint differentiation ( http://arxiv.org/abs/2206.01298v3 )

ライセンス: Link先を確認
Hong Zhang, Wenjun Zhao(参考訳) ニューラル常微分方程式(ニューラルODE)は動的システムとディープラーニングを橋渡しする新しいネットワークアーキテクチャとして登場した。 しかし、バニラ神経回路における連続随伴法で得られる勾配は逆精度ではない。 他のアプローチでは、深層計算グラフによる過剰なメモリ要求や時間積分方式の選択に悩まされ、大規模な複雑な力学系への応用を妨げている。 メモリ効率と柔軟性を損なうことなく正確な勾配を実現するために,高レベル離散随伴アルゴリズムの微分に基づくニューラルODEフレームワークPNODEを提案する。 離散随伴時間積分器とこれらの積分器に適した高度なチェックポイント戦略を利用することで、PNODEは勾配を一貫して正確に計算しながら、メモリと計算コストのバランスをとることができる。 当社はpytorchとpetscをベースにしたオープンソース実装を提供しており、最も一般的に使用されているポータブルでスケーラブルな科学計算ライブラリの1つです。 画像分類と連続正規化フロー問題に関する広範囲な数値実験により,その性能を実証する。 PNODEは他の逆精度の手法と比較してメモリ効率が最も高いことを示す。 画像分類問題では、PNODEはバニラニューラルODEの最大2倍、既存の逆精度法よりも最大2.3倍高速である。 また,pnodeでは,強固な動的システムに必要な暗黙的時間積分法が利用できることを示した。

Neural ordinary differential equations (neural ODEs) have emerged as a novel network architecture that bridges dynamical systems and deep learning. However, the gradient obtained with the continuous adjoint method in the vanilla neural ODE is not reverse-accurate. Other approaches suffer either from an excessive memory requirement due to deep computational graphs or from limited choices for the time integration scheme, hampering their application to large-scale complex dynamical systems. To achieve accurate gradients without compromising memory efficiency and flexibility, we present a new neural ODE framework, PNODE, based on high-level discrete adjoint algorithmic differentiation. By leveraging discrete adjoint time integrators and advanced checkpointing strategies tailored for these integrators, PNODE can provide a balance between memory and computational costs, while computing the gradients consistently and accurately. We provide an open-source implementation based on PyTorch and PETSc, one of the most commonly used portable, scalable scientific computing libraries. We demonstrate the performance through extensive numerical experiments on image classification and continuous normalizing flow problems. We show that PNODE achieves the highest memory efficiency when compared with other reverse-accurate methods. On the image classification problems, PNODE is up to two times faster than the vanilla neural ODE and up to 2.3 times faster than the best existing reverse-accurate method. We also show that PNODE enables the use of the implicit time integration methods that are needed for stiff dynamical systems.
翻訳日:2023-06-12 18:34:59 公開日:2023-06-09
# 共形クレダル自己教師付き学習

Conformal Credal Self-Supervised Learning ( http://arxiv.org/abs/2205.15239v2 )

ライセンス: Link先を確認
Julian Lienen, Caglar Demir, Eyke H\"ullermeier(参考訳) 半教師付き学習では、自己学習のパラダイムは学習者自身が提案した擬似ラベルから学習する考え方を指す。 様々な分野において、対応する手法が有効であることが証明され、最先端のパフォーマンスが達成されている。 しかし、疑似ラベルは大抵、その妥当性を保証せずに予測の質に依存する、アドホックなヒューリスティックスに由来する。 そのような方法の1つ、いわゆるcredal self-supervised learningは、ラベル上の(単一の)確率分布の集合の形で擬似スーパービジョンを維持し、柔軟だが不確実性のあるラベリングを可能にする。 しかし、実証的有効性以上の正当性はない。 この欠陥に対処するために、設定値予測の有効性の保証を伴うアプローチである共形予測を利用する。 その結果、ラベルのクレーダルセットの構築は厳密な理論基盤によって支えられ、未ラベルデータに対するキャリブレーションが向上し、エラーの少ない監視が可能となった。 そこで本研究では,credal self-supervisionから学習するための効果的なアルゴリズムを提案する。 実証実験により,疑似スーパービジョンのキャリブレーション特性と,複数のベンチマークデータセットにおける本手法の競合性が示された。

In semi-supervised learning, the paradigm of self-training refers to the idea of learning from pseudo-labels suggested by the learner itself. Across various domains, corresponding methods have proven effective and achieve state-of-the-art performance. However, pseudo-labels typically stem from ad-hoc heuristics, relying on the quality of the predictions though without guaranteeing their validity. One such method, so-called credal self-supervised learning, maintains pseudo-supervision in the form of sets of (instead of single) probability distributions over labels, thereby allowing for a flexible yet uncertainty-aware labeling. Again, however, there is no justification beyond empirical effectiveness. To address this deficiency, we make use of conformal prediction, an approach that comes with guarantees on the validity of set-valued predictions. As a result, the construction of credal sets of labels is supported by a rigorous theoretical foundation, leading to better calibrated and less error-prone supervision for unlabeled data. Along with this, we present effective algorithms for learning from credal self-supervision. An empirical study demonstrates excellent calibration properties of the pseudo-supervision, as well as the competitiveness of our method on several benchmark datasets.
翻訳日:2023-06-12 18:34:36 公開日:2023-06-09
# 算術に基づく事前学習-事前学習言語モデルの数理化

Arithmetic-Based Pretraining -- Improving Numeracy of Pretrained Language Models ( http://arxiv.org/abs/2205.06733v2 )

ライセンス: Link先を確認
Dominic Petrak, Nafise Sadat Moosavi, Iryna Gurevych(参考訳) 最先端の事前学習された言語モデルは、数字の理解と処理を必要とするタスクにアウト・オブ・ボックスを適用すると能力以下になる傾向がある。 最近の研究は、2つの主な理由を示唆している: (1) 一般的なトークン化アルゴリズムは数値の表現力に制限があり、(2) 共通の事前学習対象は数値を対象としない。 これらの欠点に対処するアプローチは通常、アーキテクチャの変更や、ゼロから事前訓練が必要です。 本稿では,設計上の変更やスクラッチからの事前トレーニングを必要とせず,一つの拡張事前学習ステップで共同で対処する,算術ベースプリトレーニングと呼ばれる新しい拡張プリトレーニング手法を提案する。 算術に基づく事前学習は、対照的な学習と、数値表現を改善するために推論可能数予測タスクと呼ばれる新しい事前学習目標を組み合わせる。 実験では,DROPデータセットの理解,InfoTabsデータセットの推論・オン・テーブル,WikiBioデータセットとSciGenデータセットのテーブル・ツー・テキスト生成の3つのタスクにおいて,算術的事前学習の有効性を示す。

State-of-the-art pretrained language models tend to perform below their capabilities when applied out-of-the-box on tasks that require understanding and working with numbers. Recent work suggests two main reasons for this: (1) popular tokenisation algorithms have limited expressiveness for numbers, and (2) common pretraining objectives do not target numeracy. Approaches that address these shortcomings usually require architectural changes or pretraining from scratch. In this paper, we propose a new extended pretraining approach called Arithmetic-Based Pretraining that jointly addresses both in one extended pretraining step without requiring architectural changes or pretraining from scratch. Arithmetic-Based Pretraining combines contrastive learning to improve the number representation, and a novel extended pretraining objective called Inferable Number Prediction Task to improve numeracy. Our experiments show the effectiveness of Arithmetic-Based Pretraining in three different tasks that require improved numeracy, i.e., reading comprehension in the DROP dataset, inference-on-tables in the InfoTabs dataset, and table-to-text generation in the WikiBio and SciGen datasets.
翻訳日:2023-06-12 18:34:15 公開日:2023-06-09
# アニメーション線形射影を用いた非線形モデルの局所的説明

Exploring Local Explanations of Nonlinear Models Using Animated Linear Projections ( http://arxiv.org/abs/2205.05359v2 )

ライセンス: Link先を確認
Nicholas Spyrison, Dianne Cook, Przemyslaw Biecek(参考訳) 機械学習モデルの予測能力の増大は、特にパラメトリック統計モデルと比較して、複雑さの増大と解釈可能性の喪失のコストが伴う。 このトレードオフによってeXplainable AI(XAI)が出現し、モデルが予測子を使用して予測に到達する方法を明らかにするために、ローカル説明(LE)やローカル変数属性(LVA)などの方法を提供する。 これらは、単一の観測近傍における線形変数の重要性をポイント推定する。 しかし、LVAは予測器間の関係を効果的に扱わない傾向がある。 予測器間の相互作用が変数重要度推定にどのように影響するかを理解するために,LVAを線形射影に変換し,ラジアルツアーを利用する。 これはまた、モデルがどのように過ちを犯したか、または外れ値の影響、あるいは観測のクラスタリングを学習するのにも有用である。 このアプローチは、カテゴリー(penguin種、チョコレートタイプ)と量的(soccer/football salaries、house prices)の反応モデルからの例で示される。 これらのメソッドは、CRANで利用可能なRパッケージのcheemで実装されている。

The increased predictive power of machine learning models comes at the cost of increased complexity and loss of interpretability, particularly in comparison to parametric statistical models. This trade-off has led to the emergence of eXplainable AI (XAI) which provides methods, such as local explanations (LEs) and local variable attributions (LVAs), to shed light on how a model use predictors to arrive at a prediction. These provide a point estimate of the linear variable importance in the vicinity of a single observation. However, LVAs tend not to effectively handle association between predictors. To understand how the interaction between predictors affects the variable importance estimate, we can convert LVAs into linear projections and use the radial tour. This is also useful for learning how a model has made a mistake, or the effect of outliers, or the clustering of observations. The approach is illustrated with examples from categorical (penguin species, chocolate types) and quantitative (soccer/football salaries, house prices) response models. The methods are implemented in the R package cheem, available on CRAN.
翻訳日:2023-06-12 18:33:55 公開日:2023-06-09
# 弱スーパービジョンによるガウス過程のアクティブラーニング

Active Learning with Weak Supervision for Gaussian Processes ( http://arxiv.org/abs/2204.08335v2 )

ライセンス: Link先を確認
Amanda Olmin and Jakob Lindqvist and Lennart Svensson and Fredrik Lindsten(参考訳) 教師付き学習のためのデータアノテーションはコストがかかる。 アノテーションの予算が限られている場合、アクティブな学習は、モデルのパフォーマンスにおいて最も利益を得られるであろう観察を選択および注釈付けするために使用することができる。 そこで本研究では,アノテートする観測項目の選択に加えて,取得したアノテーションの精度を選択する能動的学習アルゴリズムを提案する。 精度の低いアノテーションはより安価に得られると仮定すると、モデルは同じアノテーション予算で入力空間の大部分を探索できる。 提案したガウス過程のBALD目標に基づいて獲得関数を構築し、アクティブ学習ループにおけるアノテーションの精度を調整できることの利点を実証的に実証する。

Annotating data for supervised learning can be costly. When the annotation budget is limited, active learning can be used to select and annotate those observations that are likely to give the most gain in model performance. We propose an active learning algorithm that, in addition to selecting which observation to annotate, selects the precision of the annotation that is acquired. Assuming that annotations with low precision are cheaper to obtain, this allows the model to explore a larger part of the input space, with the same annotation budget. We build our acquisition function on the previously proposed BALD objective for Gaussian Processes, and empirically demonstrate the gains of being able to adjust the annotation precision in the active learning loop.
翻訳日:2023-06-12 18:33:37 公開日:2023-06-09
# 量子純雑音誘起遷移:数パリティに敏感な真非古典的極限サイクル

Quantum pure noise-induced transitions: A truly nonclassical limit cycle sensitive to number parity ( http://arxiv.org/abs/2204.03267v6 )

ライセンス: Link先を確認
A. Chia, W.-K. Mok, C. Noh and L. C. Kwek(参考訳) ノイズが複雑な非平衡系に秩序をもたらすことは広く受け入れられている。 最も驚くべきことに、ノイズのないシステムでは見られない全く新しい状態は、純粋に乗法的なノイズを含むことによって引き起こされる。 1980年代にスーパー流体で初めて観測された。 複雑な非平衡系における最近の結果は、昆虫コロニーの採餌行動や魚類の放流など、純粋なノイズによって引き起こされる遷移から新しい集団状態が生まれることも示している。 ここでは古典的極限のない量子力学系におけるノイズの影響を報告する。 我々は, 非線形減衰振動子の最小限のモデルを用いて, 解析的に牽引可能で, 微視的物理の理解が可能な変動環境について検討した。 乗算環境ノイズを含む場合、システムはリミットサイクル状態に遷移する。 ノイズによって引き起こされる量子極限サイクルは、位相空間におけるウィグナーネガティビティや数パリティに敏感な循環など、他の真の非古典的特徴も示している。 このような量子極限サイクルも保守的である。 これらの性質は、文学において広く使われる極限サイクルとは対照的で、散逸性があり、全てのウィグナーネガティビティを失う。 この結果は、非古典的でオープン量子系に特有の純粋ノイズ誘起遷移の存在を確立した。 これらは量子ノイズと古典ノイズの根本的な違いを示している。

It is universally accepted that noise may bring order to complex nonequilibrium systems. Most strikingly, entirely new states not seen in the noiseless system can be induced purely by including multiplicative noise -- an effect known as pure noise-induced transitions. It was first observed in superfluids in the 1980s. Recent results in complex nonequilibrium systems have also shown how new collective states emerge from such pure noise-induced transitions, such as the foraging behavior of insect colonies, and schooling in fish. Here we report such effects of noise in a quantum-mechanical system without a classical limit. We use a minimal model of a nonlinearly damped oscillator in a fluctuating environment that is analytically tractable, and whose microscopic physics can be understood. When multiplicative environmental noise is included, the system is seen to transition to a limit-cycle state. The noise-induced quantum limit cycle also exhibits other genuinely nonclassical traits, such as Wigner negativity and number-parity sensitive circulation in phase space. Such quantum limit cycles are also conservative. These properties are in stark contrast to those of a widely used limit cycle in the literature, which is dissipative and loses all Wigner negativity. Our results establish the existence of a pure noise-induced transition that is nonclassical and unique to open quantum systems. They illustrate a fundamental difference between quantum and classical noise.
翻訳日:2023-06-12 18:33:25 公開日:2023-06-09
# フォグコンピューティングにおける分散タスク管理: 社会的にコンケーブなバンディットゲーム

Distributed Task Management in Fog Computing: A Socially Concave Bandit Game ( http://arxiv.org/abs/2203.14572v2 )

ライセンス: Link先を確認
Xiaotong Cheng and Setareh Maghsudi(参考訳) フォグコンピューティングはネットワークエッジのタスクオフロード機能を活用し、効率を改善し、アプリケーション要求に対する迅速な応答を可能にする。 しかし,フォグノードの不均一性やシステムダイナミクスの不確実性のため,フォグコンピューティングネットワークにおけるタスク割り当て戦略の設計は依然として難しい。 分散タスク割当問題を,バンディットフィードバックを伴うソーシャル・コンケーブゲームとして定式化し,非回帰学習戦略(サブリニア成長に応答する)を用いて実装可能なナッシュ均衡が存在することを示す。 次に,オンライン意思決定戦略を2つ開発する。 一つの戦略、すなわちbandit gradient ascent with momentumは、banditフィードバックを伴うオンライン凸最適化アルゴリズムである。 もう1つの戦略は、初期化を伴うリプシッツ・バンディットであり、EXP3多重武装バンディットアルゴリズムである。 両戦略に対する後悔の限界を確立し,その収束特性を解析する。 さらに,提案手法を線形報酬を用いた学習というアロケーション戦略と比較した。 理論的および数値解析により,提案手法は最先端手法と比較して効率的なタスク割当を行うための優れた性能を示す。

Fog computing leverages the task offloading capabilities at the network's edge to improve efficiency and enable swift responses to application demands. However, the design of task allocation strategies in a fog computing network is still challenging because of the heterogeneity of fog nodes and uncertainties in system dynamics. We formulate the distributed task allocation problem as a social-concave game with bandit feedback and show that the game has a unique Nash equilibrium, which is implementable using no-regret learning strategies (regret with sublinear growth). We then develop two no-regret online decision-making strategies. One strategy, namely bandit gradient ascent with momentum, is an online convex optimization algorithm with bandit feedback. The other strategy, Lipschitz bandit with initialization, is an EXP3 multi-armed bandit algorithm. We establish regret bounds for both strategies and analyze their convergence characteristics. Moreover, we compare the proposed strategies with an allocation strategy named learning with linear rewards. Theoretical- and numerical analysis shows the superior performance of the proposed strategies for efficient task allocation compared to the state-of-the-art methods.
翻訳日:2023-06-12 18:33:04 公開日:2023-06-09
# EmotionNAS:音声感情認識のための2ストリームニューラルアーキテクチャ探索

EmotionNAS: Two-stream Neural Architecture Search for Speech Emotion Recognition ( http://arxiv.org/abs/2203.13617v2 )

ライセンス: Link先を確認
Haiyang Sun, Zheng Lian, Bin Liu, Ying Li, Licai Sun, Cong Cai, Jianhua Tao, Meng Wang, Yuan Cheng(参考訳) 音声感情認識(SER)は人間とコンピュータの相互作用において重要な研究課題である。 既存の作品は、主にモデルの設計に人間の専門知識に依存している。 その成功にもかかわらず、異なるデータセットは、しばしば異なる構造とハイパーパラメータを必要とする。 データセットごとに最適なモデルを探すのは、時間と労力を要する。 この問題に対処するため,我々は2ストリームニューラルネットワーク検索(nas)ベースのフレームワークである \enquote{emotionnas} を提案する。 具体的には、入力として2つのストリーム特徴(手工芸品と深い特徴)を、次にNASを用いて各ストリームの最適構造を探索する。 さらに,効率的な情報補完モジュールにより,異なるストリームに補完情報を組み込む。 実験の結果,本手法は既存の手作業で設計したnasベースのモデルよりも優れており,最新記録を樹立した。

Speech emotion recognition (SER) is an important research topic in human-computer interaction. Existing works mainly rely on human expertise to design models. Despite their success, different datasets often require distinct structures and hyperparameters. Searching for an optimal model for each dataset is time-consuming and labor-intensive. To address this problem, we propose a two-stream neural architecture search (NAS) based framework, called \enquote{EmotionNAS}. Specifically, we take two-stream features (i.e., handcrafted and deep features) as the inputs, followed by NAS to search for the optimal structure for each stream. Furthermore, we incorporate complementary information in different streams through an efficient information supplement module. Experimental results demonstrate that our method outperforms existing manually-designed and NAS-based models, setting the new state-of-the-art record.
翻訳日:2023-06-12 18:32:49 公開日:2023-06-09
# customsインポート宣言データセット

Customs Import Declaration Datasets ( http://arxiv.org/abs/2208.02484v2 )

ライセンス: Link先を確認
Chaeyoon Jeong and Sundong Kim and Jaewoo Park and Yeonsoo Choi(参考訳) 国境を越えた大量の流れを考えると、違法貿易から人々や社会を守るために、効果的かつ効率的な貿易統制がより重要となる。 しかし、トランザクションレベルの取引データセットのアクセシビリティの制限は、オープンリサーチの進展を妨げるものであり、データベースのリスク管理の最近の進歩から多くの税関管理が恩恵を受けていない。 本稿では,税関管理のドメインエキスパートと,データサイエンスや機械学習など多様な分野の研究者のコラボレーションを促進するために,インポート宣言データセットを提案する。 データセットは、22のキー属性を持つ54,000の人工的に生成された取引を含み、相関した特徴を維持しながら条件付き表状GANで合成される。 合成データにはいくつかの利点がある。 まず、データセットのリリースは、オリジナルのインポートデータを公開できない制限から解放される。 製造段階は、貿易統計に存在している可能性のあるアイデンティティリスクを最小化する。 第二に、公開されたデータはソースデータと同様の分布に従っており、様々な下流タスクで使用することができる。 したがって、我々のデータセットは任意の分類アルゴリズムの性能をテストするベンチマークとして利用できる。 データの提供と生成プロセスにより、我々は不正検出タスクのベースラインコードを開く。

Given the huge volume of cross-border flows, effective and efficient control of trade becomes more crucial in protecting people and society from illicit trade. However, limited accessibility of the transaction-level trade datasets hinders the progress of open research, and lots of customs administrations have not benefited from the recent progress in data-based risk management. In this paper, we introduce an import declaration dataset to facilitate the collaboration between domain experts in customs administrations and researchers from diverse domains, such as data science and machine learning. The dataset contains 54,000 artificially generated trades with 22 key attributes, and it is synthesized with conditional tabular GAN while maintaining correlated features. Synthetic data has several advantages. First, releasing the dataset is free from restrictions that do not allow disclosing the original import data. The fabrication step minimizes the possible identity risk which may exist in trade statistics. Second, the published data follow a similar distribution to the source data so that it can be used in various downstream tasks. Hence, our dataset can be used as a benchmark for testing the performance of any classification algorithm. With the provision of data and its generation process, we open baseline codes for fraud detection tasks, as we empirically show that more advanced algorithms can better detect fraud.
翻訳日:2023-06-12 18:27:16 公開日:2023-06-09
# 量子スイッチにおける不定因果順序のデバイス非依存認証

Device-independent certification of indefinite causal order in the quantum switch ( http://arxiv.org/abs/2208.00719v2 )

ライセンス: Link先を確認
Tein van der Lugt, Jonathan Barrett and Giulio Chiribella(参考訳) 量子論は、操作の順序が不確定なシナリオと互換性がある。 このようなシナリオの実験的な調査は、量子スイッチと呼ばれるプロセスに基づいており、実験室で使用される装置の仮定に基づいて条件付けられた不定因果順序の実証を行っている。 しかし、ベルの不等式違反によるベル非局所性の認証と同様に、デバイス非依存の認証は可能か? 以前の結果は、スイッチを分離して考えると、答えが負であることが示されている。 しかし,本論文では,超明光と逆光の影響の不可能性を仮定した仮定の下で,追加の空間的分離オブザーバの存在下で,量子スイッチにおける不定因果秩序をデバイス独立に証明するために使用できる不等式を提案する。

Quantum theory is compatible with scenarios in which the order of operations is indefinite. Experimental investigations of such scenarios, all of which have been based on a process known as the quantum switch, have provided demonstrations of indefinite causal order conditioned on assumptions on the devices used in the laboratory. But is a device-independent certification possible, similar to the certification of Bell nonlocality through the violation of Bell inequalities? Previous results have shown that the answer is negative if the switch is considered in isolation. Here, however, we present an inequality that can be used to device-independently certify indefinite causal order in the quantum switch in the presence of an additional spacelike-separated observer under an assumption asserting the impossibility of superluminal and retrocausal influences.
翻訳日:2023-06-12 18:26:57 公開日:2023-06-09
# 感性属性予測器による等化オッドの推定と制御

Estimating and Controlling for Equalized Odds via Sensitive Attribute Predictors ( http://arxiv.org/abs/2207.12497v4 )

ライセンス: Link先を確認
Beepul Bharti, Paul Yi, Jeremias Sulam(参考訳) 実世界のハイテイクな意思決定設定における機械学習モデルの使用は増え続けており、これらのモデルが特定のグループに対して提示する潜在的公正性違反の監査と制御が極めて重要である。 そのためには、人口統計、性別、あるいはグループメンバーシップを決定する潜在的に敏感な機能など、センシティブな属性にアクセスする必要がある。 残念ながら、多くの設定では、この情報は利用できないことが多い。 本研究では、よく知られた「emph{equalized odds} (EOD) の公正性の定義を研究する。 センシティブな属性を持たない設定では、まず予測器のEDD違反に対して、厳密で計算可能な上限を提供する。 これらの境界は、最悪のEOD違反を正確に反映している。 第2に,新たな後処理補正法により,最悪のEODを確実に制御できることを示す。 我々の結果は,予測された機密属性に対してEODを直接制御する場合が,最悪のEODを制御する場合に最適である,と特徴付けている。 本研究は, 従来の研究よりも軽度な仮定の下で行われ, 合成および実データを用いた実験を行った結果について述べる。

As the use of machine learning models in real world high-stakes decision settings continues to grow, it is highly important that we are able to audit and control for any potential fairness violations these models may exhibit towards certain groups. To do so, one naturally requires access to sensitive attributes, such as demographics, gender, or other potentially sensitive features that determine group membership. Unfortunately, in many settings, this information is often unavailable. In this work we study the well known \emph{equalized odds} (EOD) definition of fairness. In a setting without sensitive attributes, we first provide tight and computable upper bounds for the EOD violation of a predictor. These bounds precisely reflect the worst possible EOD violation. Second, we demonstrate how one can provably control the worst-case EOD by a new post-processing correction method. Our results characterize when directly controlling for EOD with respect to the predicted sensitive attributes is -- and when is not -- optimal when it comes to controlling worst-case EOD. Our results hold under assumptions that are milder than previous works, and we illustrate these results with experiments on synthetic and real datasets.
翻訳日:2023-06-12 18:26:45 公開日:2023-06-09
# 視覚変換器を用いたポーカーフェイス生成による表情からの感情分離と認識

Emotion Separation and Recognition from a Facial Expression by Generating the Poker Face with Vision Transformers ( http://arxiv.org/abs/2207.11081v3 )

ライセンス: Link先を確認
Jia Li, Jiantao Nie, Dan Guo, Richang Hong, Meng Wang(参考訳) 表現学習と特徴のゆがみは、近年、表情認識に多くの研究関心を惹きつけている。 感情ラベルのユビキタスな曖昧さは、従来の教師付き表現学習に基づく手法に有害である。 一方、表情画像から感情ラベルへのマッピングを直接学習するには、顔の詳細の明確な監視信号が欠けている。 本稿では,PF-ViT(Poker Face Vision Transformer)と呼ばれる新しいFERモデルを提案する。 ここでは、表情的顔は、表情行動符号化システムにインスパイアされたポーカー顔(即ち無情顔)の顔面筋運動の集合の包括的結果であると考えている。 提案したPF-ViTは、バニラビジョントランスフォーマーを活用し、感情ラベルのない大きな表情データセット上で、まずMasked Autoencodersとして事前訓練され、優れた表現が得られる。 主に5つの要素からなる。 1)表情を完全な表現にマッピングするエンコーダ 2)表象を感情成分と直交残基に分解する分離器。 3)表現面を再構成してポーカー面を合成できる発電機。 4) コーダ及びジェネレータと敵対的に訓練されたジェネレータによって生成された偽の顔を識別する判別器 5)感情を認識した分類ヘッド。 提案手法の有効性を定量的・定性的に検証し,4つのFERテストセットにおける最先端の手法を実証した。

Representation learning and feature disentanglement have recently attracted much research interests in facial expression recognition. The ubiquitous ambiguity of emotion labels is detrimental to those methods based on conventional supervised representation learning. Meanwhile, directly learning the mapping from a facial expression image to an emotion label lacks explicit supervision signals of facial details. In this paper, we propose a novel FER model, called Poker Face Vision Transformer or PF-ViT, to separate and recognize the disturbance-agnostic emotion from a static facial image via generating its corresponding poker face without the need for paired images. Here, we regard an expressive face as the comprehensive result of a set of facial muscle movements on one's poker face (i.e., emotionless face), inspired by Facial Action Coding System. The proposed PF-ViT leverages vanilla Vision Transformers, and are firstly pre-trained as Masked Autoencoders on a large facial expression dataset without emotion labels, obtaining excellent representations. It mainly consists of five components: 1) an encoder mapping the facial expression to a complete representation, 2) a separator decomposing the representation into an emotional component and an orthogonal residue, 3) a generator that can reconstruct the expressive face and synthesize the poker face, 4) a discriminator distinguishing the fake face produced by the generator, trained adversarially with the encoder and generator, 5) a classification head recognizing the emotion. Quantitative and qualitative results demonstrate the effectiveness of our method, which trumps the state-of-the-art methods on four popular FER testing sets.
翻訳日:2023-06-12 18:26:24 公開日:2023-06-09
# グラフニューラルネットワークベンチマークのためのグラフ生成モデル

Graph Generative Model for Benchmarking Graph Neural Networks ( http://arxiv.org/abs/2207.04396v4 )

ライセンス: Link先を確認
Minji Yoon, Yue Wu, John Palowitch, Bryan Perozzi, Ruslan Salakhutdinov(参考訳) グラフニューラルネットワーク(GNN)の分野が成長を続けるにつれ、挑戦的で現実的な問題に対して、新しいGNNモデルをトレーニングし、テストするための、大規模で現実世界のデータセットの必要性が増大する。 残念ながら、このようなグラフデータセットは、しばしば、非常にプライバシーに制限されたオンラインのエコシステムから生成されるため、これらのデータセットの研究と開発は困難である。 これにより、研究者が利用可能なベンチマークグラフの量が大幅に削減され、フィールドは公開データセットにのみ依存するようになる。 この問題に対処するために,プライバシ制御により実世界のグラフの分布を学習し,再現する新しいグラフ生成モデルであるComputation Graph Transformer(CGT)を導入する。 より具体的には、CGT (1) は、GNNがソースグラフと同様のタスク性能を示す効果的なベンチマークグラフを生成し、(2)大規模グラフを処理するスケール、(3) 生成したグラフのエンドユーザプライバシを保証するために、既製のプライバシモジュールを組み込んだ。 膨大なグラフ生成モデルにわたる広範囲な実験により、我々のモデルのみがgnnモデルのベンチマークに効果的に使用できる大規模な実世界のグラフのプライバシ制御された合成代用品を生成できることが示されている。

As the field of Graph Neural Networks (GNN) continues to grow, it experiences a corresponding increase in the need for large, real-world datasets to train and test new GNN models on challenging, realistic problems. Unfortunately, such graph datasets are often generated from online, highly privacy-restricted ecosystems, which makes research and development on these datasets hard, if not impossible. This greatly reduces the amount of benchmark graphs available to researchers, causing the field to rely only on a handful of publicly-available datasets. To address this problem, we introduce a novel graph generative model, Computation Graph Transformer (CGT) that learns and reproduces the distribution of real-world graphs in a privacy-controlled way. More specifically, CGT (1) generates effective benchmark graphs on which GNNs show similar task performance as on the source graphs, (2) scales to process large-scale graphs, (3) incorporates off-the-shelf privacy modules to guarantee end-user privacy of the generated graph. Extensive experiments across a vast body of graph generative models show that only our model can successfully generate privacy-controlled, synthetic substitutes of large-scale real-world graphs that can be effectively used to benchmark GNN models.
翻訳日:2023-06-12 18:25:43 公開日:2023-06-09
# DGraph: グラフ異常検出のための大規模財務データセット

DGraph: A Large-Scale Financial Dataset for Graph Anomaly Detection ( http://arxiv.org/abs/2207.03579v4 )

ライセンス: Link先を確認
Xuanwen Huang, Yang Yang, Yang Wang, Chunping Wang, Zhisheng Zhang, Jiarong Xu, Lei Chen, Michalis Vazirgiannis(参考訳) グラフ異常検出(GAD)はその実用性と理論的価値から最近ホットな研究スポットとなっている。 GADは異常サンプルの応用と希少性を強調するため、そのデータセットの多様性を豊かにすることは基本的な作業である。 そこで本稿では,金融分野における実世界の動的グラフであるdgraphを提案する。 DGraphは、現在のGADデータセットの多くの制限を克服する。 約3Mノード、4Mダイナミックエッジ、1Mグランドトラスノードを含む。 dgraphの包括的観察を行い、異常ノードと正常ノードは一般に異なる構造、近傍分布、時間的ダイナミクスを有することを明らかにした。 さらに,未ラベルノードは不正行為の検出にも不可欠であることを示す。 さらに,DGraphについて広範な実験を行った。 観察と実験により、dgraphはgad研究を前進させ、異常ノードの詳細な探索を可能にする。

Graph Anomaly Detection (GAD) has recently become a hot research spot due to its practicability and theoretical value. Since GAD emphasizes the application and the rarity of anomalous samples, enriching the varieties of its datasets is fundamental work. Thus, this paper present DGraph, a real-world dynamic graph in the finance domain. DGraph overcomes many limitations of current GAD datasets. It contains about 3M nodes, 4M dynamic edges, and 1M ground-truth nodes. We provide a comprehensive observation of DGraph, revealing that anomalous nodes and normal nodes generally have different structures, neighbor distribution, and temporal dynamics. Moreover, it suggests that unlabeled nodes are also essential for detecting fraudsters. Furthermore, we conduct extensive experiments on DGraph. Observation and experiments demonstrate that DGraph is propulsive to advance GAD research and enable in-depth exploration of anomalous nodes.
翻訳日:2023-06-12 18:25:21 公開日:2023-06-09
# ギロチン正則化:自己教師付き学習における一般化を改善するためにレイヤーの除去がなぜ必要か

Guillotine Regularization: Why removing layers is needed to improve generalization in Self-Supervised Learning ( http://arxiv.org/abs/2206.13378v2 )

ライセンス: Link先を確認
Florian Bordes, Randall Balestriero, Quentin Garrido, Adrien Bardes, Pascal Vincent(参考訳) 近年の予期せぬテクニックの1つは、Deep Network(DN)を自己監視学習(SSL)メソッドでトレーニングすることと、このネットワークを下流タスクで使用することと、最後のプロジェクタ層を完全に削除することである。 プロジェクタを捨てるこのトリックは、SSLメソッドがImageNet上で、30パーセント以上のポイントを獲得可能な競合パフォーマンスを表示するために、実際には非常に重要です。 トレーニング中にSSLの基準(最後のプロジェクタ層)によって明確に不変性が強制されるネットワーク層が、下流で最高の一般化パフォーマンスのために使用されるべきだと期待するからです。 しかし、そうではないように思える。この研究は、その理由に光を当てている。 この手法はGuillotine Regularization (GR) と呼ばれ、転送学習シナリオにおける一般化性能の向上に利用されてきた汎用的な手法である。 本研究は,その成功の背景にある要因を特定し,その利用に必要な最適な層が,トレーニングのセットアップやデータ,あるいは下流タスクによって大きく変化する可能性を示す。 最後に、プリテキストSSLタスクと下流タスクを調整することで、SSLにおけるプロジェクタの必要性を減らす方法について、いくつかの洞察を提供する。

One unexpected technique that emerged in recent years consists in training a Deep Network (DN) with a Self-Supervised Learning (SSL) method, and using this network on downstream tasks but with its last few projector layers entirely removed. This trick of throwing away the projector is actually critical for SSL methods to display competitive performances on ImageNet for which more than 30 percentage points can be gained that way. This is a little vexing, as one would hope that the network layer at which invariance is explicitly enforced by the SSL criterion during training (the last projector layer) should be the one to use for best generalization performance downstream. But it seems not to be, and this study sheds some light on why. This trick, which we name Guillotine Regularization (GR), is in fact a generically applicable method that has been used to improve generalization performance in transfer learning scenarios. In this work, we identify the underlying reasons behind its success and show that the optimal layer to use might change significantly depending on the training setup, the data or the downstream task. Lastly, we give some insights on how to reduce the need for a projector in SSL by aligning the pretext SSL task and the downstream task.
翻訳日:2023-06-12 18:25:07 公開日:2023-06-09
# BridgeTower:ビジョンランゲージ表現学習におけるエンコーダ間のブリッジ構築

BridgeTower: Building Bridges Between Encoders in Vision-Language Representation Learning ( http://arxiv.org/abs/2206.08657v5 )

ライセンス: Link先を確認
Xiao Xu, Chenfei Wu, Shachar Rosenman, Vasudev Lal, Wanxiang Che, Nan Duan(参考訳) 近年,2towerアーキテクチャを用いた視覚言語モデル(VL)が視覚言語表現学習を支配している。 現在のvlモデルは軽量なユニモーダルエンコーダを使用して、ディープクロスモーダルエンコーダで同時に両方のモダリティを抽出、調整、融合するか、またはディーププリトレーニングされたユニモーダルエンコーダからトップクロスモーダルエンコーダにラスト層ユニモーダル表現を供給するかのどちらかである。 どちらのアプローチも、視覚言語表現学習とモデルパフォーマンスを制限する可能性がある。 本稿では,一様エンコーダの上位層とクロスモーダルエンコーダの各層とを接続するブリッジ層を複数導入するBridgeTowerを提案する。 これにより、クロスモーダルエンコーダにおける事前訓練されたユニモーダルエンコーダの意味レベルの異なる視覚的およびテキスト的表現間の効果的なボトムアップクロスモーダルアライメントと融合が可能になる。 4Mイメージのみを事前トレーニングしたBridgeTowerは、さまざまな下流視覚言語タスクで最先端のパフォーマンスを実現する。 特にvqav2テストstdセットでは、bridgetowerは78.73%の精度を達成し、同じ事前トレーニングデータとほぼ無視できる追加パラメータと計算コストで以前の最先端モデルメーターを1.09%上回った。 特に、モデルをさらにスケールする場合、BridgeTowerは81.15%の精度を達成し、マグニチュードの大きなデータセットに基づいて事前トレーニングされたモデルを上回る。 コードとチェックポイントはhttps://github.com/microsoft/BridgeTower.comで入手できる。

Vision-Language (VL) models with the Two-Tower architecture have dominated visual-language representation learning in recent years. Current VL models either use lightweight uni-modal encoders and learn to extract, align and fuse both modalities simultaneously in a deep cross-modal encoder, or feed the last-layer uni-modal representations from the deep pre-trained uni-modal encoders into the top cross-modal encoder. Both approaches potentially restrict vision-language representation learning and limit model performance. In this paper, we propose BridgeTower, which introduces multiple bridge layers that build a connection between the top layers of uni-modal encoders and each layer of the cross-modal encoder. This enables effective bottom-up cross-modal alignment and fusion between visual and textual representations of different semantic levels of pre-trained uni-modal encoders in the cross-modal encoder. Pre-trained with only 4M images, BridgeTower achieves state-of-the-art performance on various downstream vision-language tasks. In particular, on the VQAv2 test-std set, BridgeTower achieves an accuracy of 78.73%, outperforming the previous state-of-the-art model METER by 1.09% with the same pre-training data and almost negligible additional parameters and computational costs. Notably, when further scaling the model, BridgeTower achieves an accuracy of 81.15%, surpassing models that are pre-trained on orders-of-magnitude larger datasets. Code and checkpoints are available at https://github.com/microsoft/BridgeTower.
翻訳日:2023-06-12 18:24:18 公開日:2023-06-09
# ライン間の読書:AI支援プログラミングにおけるユーザ行動とコストのモデリング

Reading Between the Lines: Modeling User Behavior and Costs in AI-Assisted Programming ( http://arxiv.org/abs/2210.14306v4 )

ライセンス: Link先を確認
Hussein Mozannar, Gagan Bansal, Adam Fourney, Eric Horvitz(参考訳) CopilotやCodeWhispererのようなコード推奨システムは、コードの提案と自動補完によってプログラマの生産性を向上させる可能性がある。 しかし、その可能性を完全に認識するには、プログラマがこれらのシステムとどのように相互作用するかを理解し、その相互作用を改善する方法を見つけなければなりません。 GitHub Copilotは、何百万人ものプログラマが毎日使っているコード推奨システムです。 Copilotと対話する際の共通プログラマ活動の分類であるCUPSを開発した。 プログラミングタスクを完了し、CUPSでセッションを振り返ってラベル付けした21人のプログラマを対象に、CUPSはプログラマがコード推奨システムとどのように相互作用するかを理解し、非効率性と時間的コストを明らかにするのに役立ちます。 私たちの洞察は、プログラマがCopilotとどのように相互作用し、新しいインターフェース設計とメトリクスを動機付けるかを明らかにします。

Code-recommendation systems, such as Copilot and CodeWhisperer, have the potential to improve programmer productivity by suggesting and auto-completing code. However, to fully realize their potential, we must understand how programmers interact with these systems and identify ways to improve that interaction. To make progress, we studied GitHub Copilot, a code-recommendation system used by millions of programmers daily. We developed CUPS, a taxonomy of common programmer activities when interacting with Copilot. Our study of 21 programmers, who completed coding tasks and retrospectively labeled their sessions with CUPS, showed that CUPS can help us understand how programmers interact with code-recommendation systems, revealing inefficiencies and time costs. Our insights reveal how programmers interact with Copilot and motivate new interface designs and metrics.
翻訳日:2023-06-12 18:15:49 公開日:2023-06-09
# 3次元視覚接地のためのポイント言語階層アライメントの学習

Learning Point-Language Hierarchical Alignment for 3D Visual Grounding ( http://arxiv.org/abs/2210.12513v4 )

ライセンス: Link先を確認
Jiaming Chen, Weixin Luo, Ran Song, Xiaolin Wei, Lin Ma, Wei Zhang(参考訳) 本稿では,多粒度視覚および言語表現をエンドツーエンドに学習する階層アライメントモデル(HAM)を提案する。 そこで我々は,3次元コンテキストとインスタンスをモデル化するためのキーポイントと提案ポイントを抽出し,単語レベルと文レベルの言語埋め込みを視覚的表現に徐々に整合させることを学習する,文脈変調(PLACM)機構によるポイント言語アライメントを提案する。 本研究では,グローバルフィールドとローカルフィールドの両方にPLACMを適用した空間的多粒性モデリング手法を提案する。 実験結果はHAMの優位性を示し, 視覚的および言語的表現を動的にモデル化できることを示す。 HAMは既存の手法をかなりの差で上回り、2つの公開データセットで最先端のパフォーマンスを達成し、ECCV 2022 ScanReferチャレンジで優勝した。 コードは~\url{https://github.com/PPjmchen/HAM}で入手できる。

This paper presents a novel hierarchical alignment model (HAM) that learns multi-granularity visual and linguistic representations in an end-to-end manner. We extract key points and proposal points to model 3D contexts and instances, and propose point-language alignment with context modulation (PLACM) mechanism, which learns to gradually align word-level and sentence-level linguistic embeddings with visual representations, while the modulation with the visual context captures latent informative relationships. To further capture both global and local relationships, we propose a spatially multi-granular modeling scheme that applies PLACM to both global and local fields. Experimental results demonstrate the superiority of HAM, with visualized results showing that it can dynamically model fine-grained visual and linguistic representations. HAM outperforms existing methods by a significant margin and achieves state-of-the-art performance on two publicly available datasets, and won the championship in ECCV 2022 ScanRefer challenge. Code is available at~\url{https://github.com/PPjmchen/HAM}.
翻訳日:2023-06-12 18:15:33 公開日:2023-06-09
# オープン量子システムにおけるセンシングの最適時間

Optimal time for sensing in open quantum systems ( http://arxiv.org/abs/2210.10926v2 )

ライセンス: Link先を確認
Zain H. Saleem, Anil Shaji, Stephen K. Gray(参考訳) 我々は,gorini-kossakowski-sudarshan-lindbladマスター方程式を満たすオープン量子システムにおける時間依存量子フィッシャー情報(qfi)の研究を行った。 また,実効的な非エルミート力学の観点からシステムのダイナミクスを研究し,複数のプローブを用いた場合のqfiのスケーリングを理解するために使用する。 我々の研究の焦点は、ある時点でQFIを最大化する方法であり、パラメータ推定の最良の精度は、これらの時間に焦点を当てることによって達成できることを示している。 エラー解析の伝播により、私たちはこのアイデアを確認でき、よりよく理解できます。 また,資源消費率を比較的低くし,資源消費率を高くするパラメータ推定手法を提案し,シミュレーションで実証する。

We study the time-dependent quantum Fisher information (QFI) in an open quantum system satisfying the Gorini-Kossakowski-Sudarshan-Lindblad master equation. We also study the dynamics of the system from an effective non-Hermitian dynamics standpoint and use it to understand the scaling of the QFI when multiple probes are used. A focus of our work is how the QFI is maximized at certain times suggesting that the best precision in parameter estimation can be achieved by focusing on these times. The propagation of errors analysis allows us to confirm and better understand this idea. We also propose a parameter estimation procedure involving relatively low resource consuming measurements followed by higher resource consuming measurements and demonstrate it in simulation.
翻訳日:2023-06-12 18:15:09 公開日:2023-06-09
# 変圧器のさらなる予習のための自己蒸留

Self-Distillation for Further Pre-training of Transformers ( http://arxiv.org/abs/2210.02871v3 )

ライセンス: Link先を確認
Seanie Lee, Minki Kang, Juho Lee, Sung Ju Hwang, Kenji Kawaguchi(参考訳) 大量のラベル付きデータ上で大きなトランスフォーマーモデルを事前トレーニングし、さまざまな下流タスクのためにラベル付きデータセットで微調整することは、さまざまなビジョンや自然言語処理タスクにおいて、成功した戦略であることが証明されている。 しかし、事前学習と微調整のためのデータ領域に大きな差異がある場合、事前学習モデルの直接的微調整は最適ではないかもしれない。 この問題に対処するために、いくつかの先行研究がさらなる事前学習戦略を提案しており、微調整前にターゲット未ラベルデータセット上でモデルを事前訓練し続けている。 しかし、これらはいずれも言語モデルにのみ焦点を合わせており、ターゲットの未ラベルデータに対してモデルを事前訓練し続けながら、Vision Transformerが過度な適合に弱いことを経験的に見出した。 この制限に対処するために, さらなる予習段階の定期化として, 自己蒸留を提案する。 具体的には,まず,対象の未ラベルデータに対する事前学習モデルの事前学習を行い,それを自己蒸留の教師とみなす。 そして,学生と同じ事前学習モデルを用いて,隠された表現を教師のそれに近いものにし,マスク付き自動符号化の目的で生徒を最適化する。 画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。 実験により,提案手法は関連するベースラインを全て上回ることを示す。 理論的には,提案手法を単純化したモデルを用いて解析し,さらなる事前学習のための自己蒸留が下流タスクの性能向上にどのように役立つかを理解する。

Pre-training a large transformer model on a massive amount of unlabeled data and fine-tuning it on labeled datasets for diverse downstream tasks has proven to be a successful strategy, for a variety of vision and natural language processing tasks. However, direct fine-tuning of the pre-trained model may be suboptimal if there exist large discrepancies across data domains for pre-training and fine-tuning. To tackle this issue, several previous studies have proposed further pre-training strategies, where we continue to pre-train the model on the target unlabeled dataset before fine-tuning. However, all of them solely focus on language models and we empirically find that a Vision Transformer is vulnerable to overfitting as we continue to pretrain the model on target unlabeled data. In order to tackle this limitation, we propose self-distillation as a regularization for a further pre-training stage. Specifically, we first further pre-train the initial pre-trained model on the target unlabeled data and then consider it as a teacher for self-distillation. Then we take the same initial pre-trained model as a student and enforce its hidden representations to be close to those of the teacher while optimizing the student with a masked auto-encoding objective. We empirically validate the efficacy of self-distillation on a variety of benchmark datasets for image and text classification tasks. Experimentally, we show that our proposed method outperforms all the relevant baselines. Theoretically, we analyze the proposed method with a simplified model to understand how self-distillation for further pre-training can potentially help improve the performance of the downstream tasks.
翻訳日:2023-06-12 18:14:38 公開日:2023-06-09
# OCD: 条件付き拡散モデルによるオーバーフィットの学習

OCD: Learning to Overfit with Conditional Diffusion Models ( http://arxiv.org/abs/2210.00471v5 )

ライセンス: Link先を確認
Shahar Lutati and Lior Wolf(参考訳) 本稿では,入力サンプル x 上で重みを条件付けし,x 上の基底モデルとそのラベル y を微調整して得られる重みと一致するように学習する動的モデルを提案する。 この入力サンプルとネットワーク重みのマッピングは、ノイズ拡散モデルによって近似される。 私たちが採用する拡散モデルは、ベースモデルの単一層の変更に重点を置いており、この層の入出力、アクティベーション、出力を条件としている。 拡散モデルは本質的に確率的であるため、複数の初期化が異なるネットワークを生成し、アンサンブルを形成し、さらなる改善をもたらす。 本実験は,画像分類法,3次元再構成法,表データ法,音声分離法,自然言語処理法の適用性を示す。 私たちのコードはhttps://github.com/ShaharLutatiPersonal/OCDで利用可能です。

We present a dynamic model in which the weights are conditioned on an input sample x and are learned to match those that would be obtained by finetuning a base model on x and its label y. This mapping between an input sample and network weights is approximated by a denoising diffusion model. The diffusion model we employ focuses on modifying a single layer of the base model and is conditioned on the input, activations, and output of this layer. Since the diffusion model is stochastic in nature, multiple initializations generate different networks, forming an ensemble, which leads to further improvements. Our experiments demonstrate the wide applicability of the method for image classification, 3D reconstruction, tabular data, speech separation, and natural language processing. Our code is available at https://github.com/ShaharLutatiPersonal/OCD
翻訳日:2023-06-12 18:14:12 公開日:2023-06-09
# 異種環境における分散クラスタ学習のためのワンショットフレームワーク

A One-shot Framework for Distributed Clustered Learning in Heterogeneous Environments ( http://arxiv.org/abs/2209.10866v4 )

ライセンス: Link先を確認
Aleksandar Armacki, Dragana Bajovic, Dusan Jakovetic, Soummya Kar(参考訳) 異種環境における分散学習のためのコミュニケーション効率のよい手法のファミリーを提案し,K$の異なる分布の1つからデータを取得する。 提案した設定では,ユーザグループ化(サンプリングしたデータ分布に基づく)と,その基礎となる統計特性が不明である。 1ショット分散クラスタリング学習手法のファミリー(ODCL-$\mathcal{C}$)が提案され、各ユーザで真のモデルを学ぶことを目的として、許容クラスタリングアルゴリズムのセット$\mathcal{C}$によってパラメータ化される。 K$-means (KM) とconvex clustering (CC) は、ODCL-KM や ODCL-CC のような、提案されたファミリー内で様々なワンショットの手法をもたらす。 提案したワンショットアプローチは,ユーザのローカル計算とサーバのクラスタリングベースの集約ステップに基づいて,強力な学習保証を提供する。 特に,強い凸問題に対しては,ユーザ毎のデータポイント数がしきい値を超えている限り,サンプルサイズの観点からmse(order-optimal mean-squared error)率を達成できることが示されている。 しきい値の明示的な特徴付けは問題パラメータの観点で与えられる。 各種クラスタリング手法(ODCL-CC, ODCL-KM)の選択に関するトレードオフについて論じ, 最先端技術に対する大幅な改善が示された。 数値実験により,提案手法の有効性を実証し,考察した。

The paper proposes a family of communication efficient methods for distributed learning in heterogeneous environments in which users obtain data from one of $K$ different distributions. In the proposed setup, the grouping of users (based on the data distributions they sample), as well as the underlying statistical properties of the distributions, are apriori unknown. A family of One-shot Distributed Clustered Learning methods (ODCL-$\mathcal{C}$) is proposed, parametrized by the set of admissible clustering algorithms $\mathcal{C}$, with the objective of learning the true model at each user. The admissible clustering methods include $K$-means (KM) and convex clustering (CC), giving rise to various one-shot methods within the proposed family, such as ODCL-KM and ODCL-CC. The proposed one-shot approach, based on local computations at the users and a clustering based aggregation step at the server is shown to provide strong learning guarantees. In particular, for strongly convex problems it is shown that, as long as the number of data points per user is above a threshold, the proposed approach achieves order-optimal mean-squared error (MSE) rates in terms of the sample size. An explicit characterization of the threshold is provided in terms of problem parameters. The trade-offs with respect to selecting various clustering methods (ODCL-CC, ODCL-KM) are discussed and significant improvements over state-of-the-art are demonstrated. Numerical experiments illustrate the findings and corroborate the performance of the proposed methods.
翻訳日:2023-06-12 18:13:58 公開日:2023-06-09
# 量子電磁力学におけるツリーレベルの絡み合い

Tree-level entanglement in Quantum Electrodynamics ( http://arxiv.org/abs/2209.01405v3 )

ライセンス: Link先を確認
Samuel Fedida and Alessio Serafini(参考訳) 量子電磁力学2粒子散乱過程において,木レベルで発生する自由度と自由度との絡み合いに関する系統的研究について報告する。 粒子が互いに絡み合う必要十分かつ十分な動的条件を定め,ババ散乱とコンプトン散乱による最大あるいはほぼ極大絡みのヒッヘルト未知の発生を明らかにする。 我々の研究は、量子場理論と高エネルギー物理学を量子情報理論に照らして再検討する最初の段階である。

We report on a systematic study on the entanglement between helicity degrees of freedom generated at tree-level in quantum electrodynamics two-particle scattering processes. We determine the necessary and sufficient dynamical conditions for outgoing particles to be entangled with one another, and expose the hitherto unknown generation of maximal or nearly maximal entanglement through Bhabha and Compton scattering. Our work is an early step in revisiting quantum field theory and high-energy physics in the light of quantum information theory.
翻訳日:2023-06-12 18:13:29 公開日:2023-06-09
# 非教師なしビデオ領域適応による行動認識:対角的視点

Unsupervised Video Domain Adaptation for Action Recognition: A Disentanglement Perspective ( http://arxiv.org/abs/2208.07365v2 )

ライセンス: Link先を確認
Pengfei Wei, Lingdong Kong, Xinghua Qu, Yi Ren, Zhiqiang Xu, Jing Jiang, Xiang Yin(参考訳) 教師なしビデオドメイン適応は実用的だが難しい課題である。 この作業では、初めて、歪んだ視点からそれに取り組む。 我々のキーとなる考え方は、空間的領域と時間的領域の分断を分離して扱うことである。 具体的には,静的情報のエンコードと動的情報をエンコードする2組の潜在要因によるクロスドメインビデオの生成を検討する。 その後、トランスファーシーケンスVAE(TranSVAE)フレームワークが開発され、そのような世代をモデル化する。 適応性を高めるために,潜在因子を制約する目的をいくつか提案する。 これらの制約により、静的なドメイン固有情報を切り離すことで空間的ばらつきを容易に取り除き、対角学習により時間的ばらつきをフレームレベルとビデオレベルの両方からさらに低減することができる。 UCF-HMDB、Jester、Epic-Kitchensのデータセットに対する大規模な実験は、いくつかの最先端手法と比較してTranSVAEの有効性と優位性を検証する。 再現可能な結果を持つコードは、公開アクセス可能である。

Unsupervised video domain adaptation is a practical yet challenging task. In this work, for the first time, we tackle it from a disentanglement view. Our key idea is to handle the spatial and temporal domain divergence separately through disentanglement. Specifically, we consider the generation of cross-domain videos from two sets of latent factors, one encoding the static information and another encoding the dynamic information. A Transfer Sequential VAE (TranSVAE) framework is then developed to model such generation. To better serve for adaptation, we propose several objectives to constrain the latent factors. With these constraints, the spatial divergence can be readily removed by disentangling the static domain-specific information out, and the temporal divergence is further reduced from both frame- and video-levels through adversarial learning. Extensive experiments on the UCF-HMDB, Jester, and Epic-Kitchens datasets verify the effectiveness and superiority of TranSVAE compared with several state-of-the-art methods. The code with reproducible results is publicly accessible.
翻訳日:2023-06-12 18:13:20 公開日:2023-06-09
# バックドア拡散モデルはどうすればよいか?

How to Backdoor Diffusion Models? ( http://arxiv.org/abs/2212.05400v3 )

ライセンス: Link先を確認
Sheng-Yen Chou, Pin-Yu Chen, Tsung-Yi Ho(参考訳) 拡散モデルは最先端のディープラーニングエンパワードジェネレーティブモデルであり、プログレッシブノイズ付加とデノージングを通じて前方および逆拡散プロセスを学習する原理に基づいて訓練される。 そこで本研究では,バックドア攻撃に対する拡散モデルのロバスト性に関する最初の研究を行った。 具体的には,バックドア植込みのモデルトレーニング中に拡散過程を破る新たな攻撃フレームワークであるbaddiffusionを提案する。 推論段階では、バックドア拡散モデルは通常のデータ入力のためのアンタンパードジェネレータのように振る舞うが、埋め込みされたトリガー信号を受け取ると、悪いアクターが設計したターゲット結果が誤って生成される。 このような重大なリスクは、問題のあるモデルの上に構築された下流のタスクやアプリケーションに対して恐れられる。 様々なバックドアアタック設定に関する広範な実験により,baddiffusionは,高い実用性とターゲット特異性を持つ拡散モデルに一貫して影響することが示された。 さらに悪いことに、BadDiffusionは、クリーンなトレーニング済みの拡散モデルをバックドアに移植することで、コスト効率を上げることができる。 リスク軽減対策の可能性についても検討する。 以上より,拡散モデルのリスクと誤用の可能性に注目した。 私たちのコードはhttps://github.com/IBM/BadDiffusion.comで利用可能です。

Diffusion models are state-of-the-art deep learning empowered generative models that are trained based on the principle of learning forward and reverse diffusion processes via progressive noise-addition and denoising. To gain a better understanding of the limitations and potential risks, this paper presents the first study on the robustness of diffusion models against backdoor attacks. Specifically, we propose BadDiffusion, a novel attack framework that engineers compromised diffusion processes during model training for backdoor implantation. At the inference stage, the backdoored diffusion model will behave just like an untampered generator for regular data inputs, while falsely generating some targeted outcome designed by the bad actor upon receiving the implanted trigger signal. Such a critical risk can be dreadful for downstream tasks and applications built upon the problematic model. Our extensive experiments on various backdoor attack settings show that BadDiffusion can consistently lead to compromised diffusion models with high utility and target specificity. Even worse, BadDiffusion can be made cost-effective by simply finetuning a clean pre-trained diffusion model to implant backdoors. We also explore some possible countermeasures for risk mitigation. Our results call attention to potential risks and possible misuse of diffusion models. Our code is available on https://github.com/IBM/BadDiffusion.
翻訳日:2023-06-12 18:07:20 公開日:2023-06-09
# 不均一データを用いたフェデレーション学習における部分分散低減の効果について

On the effectiveness of partial variance reduction in federated learning with heterogeneous data ( http://arxiv.org/abs/2212.02191v2 )

ライセンス: Link先を確認
Bo Li, Mikkel N. Schmidt, Tommy S. Alstr{\o}m, Sebastian U. Stich(参考訳) クライアント間のデータの異質性は、連合学習における重要な課題である。 クライアントとサーバのモデルを調整するか、クライアントモデルのドリフトを修正するために制御変数を使用する。 これらの手法は凸問題や単純非凸問題において高速収束を実現するが、ディープニューラルネットワークのような超パラメータモデルの性能は不足している。 本稿では,深層ニューラルネットワークにおいて広く使用されているFedAvgアルゴリズムを再検討し,データの不均一性がニューラルネットワーク層全体の勾配更新に与える影響を理解する。 特徴抽出層はFedAvgによって効率的に学習されるが、クライアント間の最終分類層のかなりの多様性は性能を阻害する。 そこで本研究では,最終層のみの分散還元によるモデルドリフトの補正を提案する。 同様の通信コストや低い通信コストで既存のベンチマークを著しく上回ります。 さらに,アルゴリズムの収束率の証明も提供する。

Data heterogeneity across clients is a key challenge in federated learning. Prior works address this by either aligning client and server models or using control variates to correct client model drift. Although these methods achieve fast convergence in convex or simple non-convex problems, the performance in over-parameterized models such as deep neural networks is lacking. In this paper, we first revisit the widely used FedAvg algorithm in a deep neural network to understand how data heterogeneity influences the gradient updates across the neural network layers. We observe that while the feature extraction layers are learned efficiently by FedAvg, the substantial diversity of the final classification layers across clients impedes the performance. Motivated by this, we propose to correct model drift by variance reduction only on the final layers. We demonstrate that this significantly outperforms existing benchmarks at a similar or lower communication cost. We furthermore provide proof for the convergence rate of our algorithm.
翻訳日:2023-06-12 18:06:58 公開日:2023-06-09
# 観測データを用いた因果深い強化学習

Causal Deep Reinforcement Learning Using Observational Data ( http://arxiv.org/abs/2211.15355v2 )

ライセンス: Link先を確認
Wenxuan Zhu, Chao Yu, Qiang Zhang(参考訳) 深層強化学習(DRL)は介入データの収集を必要とするが、これは時として、自動運転車や医療分野のような現実世界では高価で非倫理的である。 オフライン強化学習は、現実世界で利用可能な膨大な観測データを活用することでこの問題を軽減することを約束している。 しかし、観測データは、データを生成する行動ポリシーが観測されていない確率変数(つまり共同設立者)に依存する場合、学習エージェントを望ましくない結果へと誤解させる可能性がある。 本稿では,この問題に対処するため,DRLにおける2つの分離手法を提案する。 提案手法はまず,因果推論手法に基づいて異なるサンプルの重要度を算出し,その不偏性を確保するためにオフラインデータセットを再重み付けあるいは再サンプリングすることにより,損失関数に対する異なるサンプルの影響を調整する。 これらの解離法は、これらのアルゴリズムの損失関数によって弱条件を満たすことができることを条件として、ソフトアクター批判や深部Q-ラーニングのような既存のモデルフリーDRLアルゴリズムと柔軟に組み合わせることができる。 本手法の有効性を実証し,実験的に検証する。

Deep reinforcement learning (DRL) requires the collection of interventional data, which is sometimes expensive and even unethical in the real world, such as in the autonomous driving and the medical field. Offline reinforcement learning promises to alleviate this issue by exploiting the vast amount of observational data available in the real world. However, observational data may mislead the learning agent to undesirable outcomes if the behavior policy that generates the data depends on unobserved random variables (i.e., confounders). In this paper, we propose two deconfounding methods in DRL to address this problem. The methods first calculate the importance degree of different samples based on the causal inference technique, and then adjust the impact of different samples on the loss function by reweighting or resampling the offline dataset to ensure its unbiasedness. These deconfounding methods can be flexibly combined with existing model-free DRL algorithms such as soft actor-critic and deep Q-learning, provided that a weak condition can be satisfied by the loss functions of these algorithms. We prove the effectiveness of our deconfounding methods and validate them experimentally.
翻訳日:2023-06-12 18:06:42 公開日:2023-06-09
# 深層学習による時系列変化点の自動検出

Automatic Change-Point Detection in Time Series via Deep Learning ( http://arxiv.org/abs/2211.03860v2 )

ライセンス: Link先を確認
Jie Li, Paul Fearnhead, Piotr Fryzlewicz, Tengyao Wang(参考訳) データにおける変更点の検出は、変更がない場合にデータの種類や動作のタイプが変更される可能性があるため、難しい。 統計的に効率的な変化検出手法はこれらの特徴の双方に依存しており、実践者が関心をそそる適切な検出方法を開発することは困難である。 ニューラルネットワークのトレーニングに基づいて,新しいオフライン検出手法を自動生成する方法を示す。 我々のアプローチは、変更点の存在を単純なニューラルネットワークで表現できるような既存の多くのテストによって動機付けられており、十分なデータでトレーニングされたニューラルネットワークは、これらの手法に匹敵するパフォーマンスを持つべきである。 このようなアプローチの誤り率を定量化する理論と、トレーニングデータの量に依存する方法を提案する。 実験結果から, 学習データに制限がある場合でも, ノイズが独立かつガウス的である場合の平均変化を検出する標準のCUSUM分類器と競合し, オートコラージュノイズやヘビーテールノイズの存在下では著しく優れることがわかった。 また,加速度計データに基づく活動変化の検出と位置推定にも強い効果が得られた。

Detecting change-points in data is challenging because of the range of possible types of change and types of behaviour of data when there is no change. Statistically efficient methods for detecting a change will depend on both of these features, and it can be difficult for a practitioner to develop an appropriate detection method for their application of interest. We show how to automatically generate new offline detection methods based on training a neural network. Our approach is motivated by many existing tests for the presence of a change-point being representable by a simple neural network, and thus a neural network trained with sufficient data should have performance at least as good as these methods. We present theory that quantifies the error rate for such an approach, and how it depends on the amount of training data. Empirical results show that, even with limited training data, its performance is competitive with the standard CUSUM-based classifier for detecting a change in mean when the noise is independent and Gaussian, and can substantially outperform it in the presence of auto-correlated or heavy-tailed noise. Our method also shows strong results in detecting and localising changes in activity based on accelerometer data.
翻訳日:2023-06-12 18:06:08 公開日:2023-06-09
# デチューン2次系における解析解

An Analytical Solution in Detuned Two Level Systems ( http://arxiv.org/abs/2211.03342v3 )

ライセンス: Link先を確認
Zhi-Cheng He, Yi-Xuan Wu and Zheng-Yuan Xue(参考訳) 2レベルハミルトニアンの進化を見つけることは、量子実験制御の必要性から、量子計算と量子精度操作において非常に重要である。 しかし、任意の時間依存2レベルハミルトニアンのシュル=オディンガー方程式は、異なる時間における非可換ハミルトニアンのため、ほとんど解けない。 本稿では、いくつかの制限のある一般二段階系に対するシュリンガー方程式の厳密な解を拡張して実演する。 この解析解には多くの操作パラメータといくつかの境界制限があり、多くのアプリケーションを駆動することができる。 さらに,提案手法を広く活用した適応能力を示し,実験ハミルトニアンのほとんどに適応させる。

Finding the evolution of two level Hamiltonian is of great importance in quantum computation and quantum precision manipulation due to the requirement of quantum experiment control. However, the Schr\"odinger equation of an arbitrary time-dependent two level Hamiltonian is hardly solvable due to its non-commutativity Hamiltonian in different times. In this article, we expand and demonstrate an exact solution of Schr\"odinger equation respect to general two level systems with a few limitations. This analytical solution has lots of manipulative parameters and a few boundary restrictions, which could drive many applications. Furthermore, we show the adaptive capacity of our scheme, which demonstrated the widely use of our scheme, and make it suitable for most of experiment Hamiltonian directly.
翻訳日:2023-06-12 18:05:47 公開日:2023-06-09
# ViT-CX:視覚変換器の因果説明

ViT-CX: Causal Explanation of Vision Transformers ( http://arxiv.org/abs/2211.03064v3 )

ライセンス: Link先を確認
Weiyan Xie, Xiao-Hui Li, Caleb Chen Cao, Nevin L.Zhang(参考訳) ViT(Vision Transformers)とeXplainable AI(XAI)の人気にもかかわらず、これまでViT用に特別に設計されたいくつかの説明方法しかなかった。 彼らは主にパッチの埋め込みに[CLS]トークンの注意重みを使い、しばしば満足のいく満足度マップを作成します。 本稿では, ViT-CX と呼ばれる新しい ViT 記述法を提案する。 それは、それらに注意を払うのではなく、パッチの埋め込みと、それらがモデル出力に与える影響に基づいている。 また、VT-CXの設計においては、因果判定などのViTの他の特性も考慮されている。 実験の結果,ViT-CXはより有意義なサリエンシマップを作成でき,従来の方法よりも重要な証拠をすべて明らかにできる。 ViT-CXによる説明では、モデルへの忠実性も著しく向上している。 コードはhttps://github.com/vaynexie/causalx-vitで入手できる。

Despite the popularity of Vision Transformers (ViTs) and eXplainable AI (XAI), only a few explanation methods have been designed specially for ViTs thus far. They mostly use attention weights of the [CLS] token on patch embeddings and often produce unsatisfactory saliency maps. This paper proposes a novel method for explaining ViTs called ViT-CX. It is based on patch embeddings, rather than attentions paid to them, and their causal impacts on the model output. Other characteristics of ViTs such as causal overdetermination are also considered in the design of ViT-CX. The empirical results show that ViT-CX produces more meaningful saliency maps and does a better job revealing all important evidence for the predictions than previous methods. The explanation generated by ViT-CX also shows significantly better faithfulness to the model. The codes and appendix are available at https://github.com/vaynexie/CausalX-ViT.
翻訳日:2023-06-12 18:05:36 公開日:2023-06-09
# Pseudorandom(Function-like)量子状態発生器:新しい定義と応用

Pseudorandom (Function-Like) Quantum State Generators: New Definitions and Applications ( http://arxiv.org/abs/2211.01444v3 )

ライセンス: Link先を確認
Prabhanjan Ananth, Aditya Gulati, Luowen Qian, Henry Yuen(参考訳) Pseudorandom quantum state (PRS) は、計算的にHaar-randomと区別できない効率的な構成可能な状態であり、最近暗号アプリケーションを発見した。 新しい定義、新しい性質、および擬似乱数状態の応用について検討し、1.新しい定義: ananth, qian, yuen (crypto'22) によって導入された疑似乱数関数様状態 (prfs) 生成器の変種について検討する。 量子後片方向関数の存在を前提として,これらの変種の有効性を示す。 2. 古典通信: 対数出力長のPSSジェネレータは, 古典通信のコミットメントと暗号化スキームを暗示することを示す。 PRSジェネレータからのこのようなスキームの以前の構築は、量子通信を必要とした。 3. 単純化された証明: ブラカースキー-シュマウレイ (TCC'19) の結果のより単純な証明は、ランダムな二項相を持つ一様重ね合わせ状態の多項式的に多くのコピーがハールランダム状態と区別できないことである。 4. 計算的仮定の必要性: 出力長対数あるいはキー長の大きいセキュアなPSSは必ずしも計算的な仮定を必要とすることを示す。

Pseudorandom quantum states (PRS) are efficiently constructible states that are computationally indistinguishable from being Haar-random, and have recently found cryptographic applications. We explore new definitions, new properties and applications of pseudorandom states, and present the following contributions: 1. New Definitions: We study variants of pseudorandom function-like state (PRFS) generators, introduced by Ananth, Qian, and Yuen (CRYPTO'22), where the pseudorandomness property holds even when the generator can be queried adaptively or in superposition. We show feasibility of these variants assuming the existence of post-quantum one-way functions. 2. Classical Communication: We show that PRS generators with logarithmic output length imply commitment and encryption schemes with classical communication. Previous constructions of such schemes from PRS generators required quantum communication. 3. Simplified Proof: We give a simpler proof of the Brakerski--Shmueli (TCC'19) result that polynomially-many copies of uniform superposition states with random binary phases are indistinguishable from Haar-random states. 4. Necessity of Computational Assumptions: We also show that a secure PRS with output length logarithmic, or larger, in the key length necessarily requires computational assumptions.
翻訳日:2023-06-12 18:05:20 公開日:2023-06-09
# l-greco:効率良く正確なディープラーニングのための層適応勾配圧縮

L-GreCo: Layerwise-Adaptive Gradient Compression for Efficient and Accurate Deep Learning ( http://arxiv.org/abs/2210.17357v2 )

ライセンス: Link先を確認
Mohammadreza Alimohammadi, Ilia Markov, Elias Frantar, Dan Alistarh(参考訳) ディープニューラルネットワーク(DNN)のデータ並列分散トレーニングは非常に広く採用されているが、通信ボトルネックを経験することができる。 この問題に対処するため、量子化、スパーシフィケーション、低ランク近似を含む圧縮機構のすべてのファミリーが開発され、その一部はかなり実用化されている。 この進歩にもかかわらず、ほとんどすべての既知の圧縮スキームはDNN層に一様に適用されるが、パラメータ数とモデル精度への影響は不均一である。 本研究では,トレーニング中にモデルの層間圧縮の度合いを動的に調整し,全体的な圧縮を改善しながら,精度を犠牲にすることなく大幅な高速化を実現するための一般的なフレームワークを提供する。 l-grecoと呼ばれるこのフレームワークは適応アルゴリズムに基づいており、エラー制約を満たしながら最適な圧縮率を保証するモデル層に対する最適な圧縮パラメータを自動的に選択する。 画像分類と言語モデリングタスクに関する大規模な実験により、L-GreCoは既存の圧縮メソッドのすべてのファミリーで有効であり、トレーニングスピードアップで2.5$\times$、既存のアプローチの効率的な実装よりも最大5$\times$圧縮の改善を実現し、完全精度を回復する。 さらに、l-grecoは既存の適応アルゴリズムを補完し、圧縮比を50%、実用スループットを66%向上させる。

Data-parallel distributed training of deep neural networks (DNN) has gained very widespread adoption, but can still experience communication bottlenecks. To address this issue, entire families of compression mechanisms have been developed, including quantization, sparsification, and low-rank approximation, some of which are seeing significant practical adoption. Despite this progress, almost all known compression schemes apply compression uniformly across DNN layers, although layers are heterogeneous in terms of parameter count and their impact on model accuracy. In this work, we provide a general framework for adapting the degree of compression across the model's layers dynamically during training, improving the overall compression, while leading to substantial speedups, without sacrificing accuracy. Our framework, called L-GreCo, is based on an adaptive algorithm, which automatically picks the optimal compression parameters for model layers guaranteeing the best compression ratio while satisfying an error constraint. Extensive experiments over image classification and language modeling tasks shows that L-GreCo is effective across all existing families of compression methods, and achieves up to 2.5$\times$ training speedup and up to 5$\times$ compression improvement over efficient implementations of existing approaches, while recovering full accuracy. Moreover, L-GreCo is complementary to existing adaptive algorithms, improving their compression ratio by 50% and practical throughput by 66%.
翻訳日:2023-06-12 18:04:50 公開日:2023-06-09
# 平均フィールドゲームにおける効率的・独立学習のためのポリシーミラーアセンシング

Policy Mirror Ascent for Efficient and Independent Learning in Mean Field Games ( http://arxiv.org/abs/2212.14449v2 )

ライセンス: Link先を確認
Batuhan Yardim, Semih Cayci, Matthieu Geist, Niao He(参考訳) 平均場ゲームは、対称で匿名の$n$-playerゲームのナッシュ均衡を得るための理論的ツールとして使われてきた。 しかし、適用性を制限するため、既存の理論結果は「集団生成モデル」のバリエーションを仮定し、学習アルゴリズムによる集団分布の任意の修正を可能にする。 さらに、学習アルゴリズムは一般に$N$-playerゲームの代わりに人口を持つ抽象シミュレータで動作する。 代わりに、n$エージェントがポリシーミラーを実行すると、平均場に起因する標準の$\mathcal{o}(\frac{1}{\sqrt{n}})$エラーまで、集団生成モデルのない単一のサンプル軌道からのサンプルが、$\widetilde{\mathcal{o}}(\varepsilon^{-2})の範囲内で正規化されたゲームのnash平衡に収束する。 文献から異なるアプローチをとることで、最善の応答写像を扱う代わりに、まずポリシーミラー上昇写像を用いてnash平衡を固定点とする収縮作用素を構築することができることを示した。 n$-agentゲームのための単一パスtd学習を分析し,人口生成モデルを用いず,n$-agentシミュレータからのサンプルパスのみを用いてサンプル複雑性の保証を証明した。 さらに,本手法はサンプル保証が有限である$N$エージェントによる独立学習を可能にすることを示す。

Mean-field games have been used as a theoretical tool to obtain an approximate Nash equilibrium for symmetric and anonymous $N$-player games. However, limiting applicability, existing theoretical results assume variations of a "population generative model", which allows arbitrary modifications of the population distribution by the learning algorithm. Moreover, learning algorithms typically work on abstract simulators with population instead of the $N$-player game. Instead, we show that $N$ agents running policy mirror ascent converge to the Nash equilibrium of the regularized game within $\widetilde{\mathcal{O}}(\varepsilon^{-2})$ samples from a single sample trajectory without a population generative model, up to a standard $\mathcal{O}(\frac{1}{\sqrt{N}})$ error due to the mean field. Taking a divergent approach from the literature, instead of working with the best-response map we first show that a policy mirror ascent map can be used to construct a contractive operator having the Nash equilibrium as its fixed point. We analyze single-path TD learning for $N$-agent games, proving sample complexity guarantees by only using a sample path from the $N$-agent simulator without a population generative model. Furthermore, we demonstrate that our methodology allows for independent learning by $N$ agents with finite sample guarantees.
翻訳日:2023-06-12 17:57:33 公開日:2023-06-09
# 制約付き非凸非凸ミニマックス最適化のための2重平滑化gda

Doubly Smoothed GDA for Constrained Nonconvex-Nonconcave Minimax Optimization ( http://arxiv.org/abs/2212.12978v4 )

ライセンス: Link先を確認
Taoli Zheng, Linglingzhi Zhu, Anthony Man-Cho So, Jose Blanchet, Jiajin Li(参考訳) nonconvex-nonconcave minimaxの最適化は、機械学習の幅広い応用により、過去10年間、大きな注目を集めてきた。 残念なことに、ほとんどの既存のアルゴリズムはグローバル収束を保証できず、制限サイクルに苦しむことさえできない。 この問題に対処するために,2重平滑化勾配降下昇降法(dsgda)と呼ばれる,プライマルとデュアルの更新を自然にバランスさせる新しい単一ループアルゴリズムを提案する。 提案したDSGDAは、Forsaken、Bilinearly-coupled minimax、Sixth-order polynomial、PolarGameなど、様々な難解な非凸非凸例の極限サイクルを除去することができる。 さらに、指数 $\theta\in(0,1)$ (resp.convex primal/concave dual function) を持つ一方のKurtyka-\L{}ojasiewicz条件の下で、DSGDA は $\mathcal{O}(\epsilon^{-2\max\{2\theta,1\}})$ (resp.convex primal/concave dual function) の反復複雑性を持つゲーム定常点を見つけることができる。 o (\epsilon^{-4})$) である。 これらは、非凸凹や非凸凹のミニマックス問題を解くシングルループアルゴリズムや、より限定的な一方的なポリアック-\L{}ojasiewicz条件を満たす問題に対する最良の結果と一致する。 本研究は,非凸非凸,非凸凸および凸非凸ミニマックス問題を解決するための単純で統一された単一ループアルゴリズムを初めて持つことを実証する。

Nonconvex-nonconcave minimax optimization has received intense attention over the last decade due to its broad applications in machine learning. Unfortunately, most existing algorithms cannot be guaranteed to converge globally and even suffer from limit cycles. To address this issue, we propose a novel single-loop algorithm called doubly smoothed gradient descent ascent method (DSGDA), which naturally balances the primal and dual updates. The proposed DSGDA can get rid of limit cycles in various challenging nonconvex-nonconcave examples in the literature, including Forsaken, Bilinearly-coupled minimax, Sixth-order polynomial, and PolarGame. We further show that under an one-sided Kurdyka-\L{}ojasiewicz condition with exponent $\theta\in(0,1)$ (resp. convex primal/concave dual function), DSGDA can find a game-stationary point with an iteration complexity of $\mathcal{O}(\epsilon^{-2\max\{2\theta,1\}})$ (resp. $\mathcal{O}(\epsilon^{-4})$). These match the best results for single-loop algorithms that solve nonconvex-concave or convex-nonconcave minimax problems, or problems satisfying the rather restrictive one-sided Polyak-\L{}ojasiewicz condition. Our work demonstrates, for the first time, the possibility of having a simple and unified single-loop algorithm for solving nonconvex-nonconcave, nonconvex-concave, and convex-nonconcave minimax problems.
翻訳日:2023-06-12 17:56:46 公開日:2023-06-09
# MM-3DScene: Informative-Preserved Reconstruction and Self-Distilled Consistencyを用いたマスケッドモデリングのカスタマイズによる3次元シーン理解

MM-3DScene: 3D Scene Understanding by Customizing Masked Modeling with Informative-Preserved Reconstruction and Self-Distilled Consistency ( http://arxiv.org/abs/2212.09948v2 )

ライセンス: Link先を確認
Mingye Xu, Mutian Xu, Tong He, Wanli Ouyang, Yali Wang, Xiaoguang Han, Yu Qiao(参考訳) Masked Modeling (MM)は、マスク付き視覚パッチを再構築することで、様々な視覚的課題において広く成功している。 しかし、大規模な3DシーンにMMを適用することは、データの空間性とシーンの複雑さのため、未解決の問題である。 2d画像で使用される従来のランダムマスキングパラダイムは、3dシーンのマスキング領域を回復する際、曖昧さのリスクが高い。 そこで本研究では,3次元シーン理解のためのプリテキストマスキングタスクを効果的に強化し,局所統計を探索し,代表的構造化点の発見と保存を行う新しい情報保存型再構築を提案する。 本手法は, プログレッシブな再構築手法と統合され, 地域形状のモデリングに集中し, マスク付き復元のあいまいさを軽減できる。 また、プログレッシブ・マスキング比を持つシーンは、その内在的な空間的一貫性を自己蒸留し、未マスク領域から一貫した表現を学ばなければならない。 マスク領域における情報保存型再構成と非マスク領域からの自己蒸留をエレガントに組み合わせることにより、mm-3dsceneと呼ばれる統一的な枠組みが得られる。 下流タスクのホストに対して包括的な実験を行う。 一貫性のある改善(オブジェクト検出では+6.1 mAP@0.5、セマンティックセグメンテーションでは+2.2% mIoU)は、我々のアプローチの優位性を示している。

Masked Modeling (MM) has demonstrated widespread success in various vision challenges, by reconstructing masked visual patches. Yet, applying MM for large-scale 3D scenes remains an open problem due to the data sparsity and scene complexity. The conventional random masking paradigm used in 2D images often causes a high risk of ambiguity when recovering the masked region of 3D scenes. To this end, we propose a novel informative-preserved reconstruction, which explores local statistics to discover and preserve the representative structured points, effectively enhancing the pretext masking task for 3D scene understanding. Integrated with a progressive reconstruction manner, our method can concentrate on modeling regional geometry and enjoy less ambiguity for masked reconstruction. Besides, such scenes with progressive masking ratios can also serve to self-distill their intrinsic spatial consistency, requiring to learn the consistent representations from unmasked areas. By elegantly combining informative-preserved reconstruction on masked areas and consistency self-distillation from unmasked areas, a unified framework called MM-3DScene is yielded. We conduct comprehensive experiments on a host of downstream tasks. The consistent improvement (e.g., +6.1 mAP@0.5 on object detection and +2.2% mIoU on semantic segmentation) demonstrates the superiority of our approach.
翻訳日:2023-06-12 17:55:24 公開日:2023-06-09
# 軽度文脈感性文法を用いた教師なし不連続成分解析

Unsupervised Discontinuous Constituency Parsing with Mildly Context-Sensitive Grammars ( http://arxiv.org/abs/2212.09140v2 )

ライセンス: Link先を確認
Songlin Yang, Roger P. Levy, Yoon Kim(参考訳) 非教師なし不連続解析のための軽度文脈感応文法を用いた文法帰納法について検討した。 確率的線形文脈自由書き換えシステム (lcfrs) 形式を用いて, 規則構造を事前に修正し, 最大確率でパラメータ学習に焦点をあてた。 解析とパラメータ推定の両方の計算の複雑さを減らすため、文法形式を lcfrs-2 に制限し、さらに解析に o(n^6) 時間を要するルールを破棄し、o(n^5) への推論を減少させる。 多数の非終端数を用いることは有用であり、したがってテンソル分解に基づく階数空間動的プログラミングと、非終端数のスケールアップにルール確率の埋め込みに基づくパラメータ化を用いる。 ドイツ語とオランダ語の実験により,我々のアプローチは連続的かつ不連続な構造を持つ言語的に有意義な木を誘導できることを示した。

We study grammar induction with mildly context-sensitive grammars for unsupervised discontinuous parsing. Using the probabilistic linear context-free rewriting system (LCFRS) formalism, our approach fixes the rule structure in advance and focuses on parameter learning with maximum likelihood. To reduce the computational complexity of both parsing and parameter estimation, we restrict the grammar formalism to LCFRS-2 (i.e., binary LCFRS with fan-out two) and further discard rules that require O(n^6) time to parse, reducing inference to O(n^5). We find that using a large number of nonterminals is beneficial and thus make use of tensor decomposition-based rank-space dynamic programming with an embedding-based parameterization of rule probabilities to scale up the number of nonterminals. Experiments on German and Dutch show that our approach is able to induce linguistically meaningful trees with continuous and discontinuous structures
翻訳日:2023-06-12 17:54:57 公開日:2023-06-09
# マルチエージェントパトロール問題に対する省エネルギー・フォールトトレラント深層強化学習のアプローチ

An Energy-aware and Fault-tolerant Deep Reinforcement Learning based approach for Multi-agent Patrolling Problems ( http://arxiv.org/abs/2212.08230v4 )

ライセンス: Link先を確認
Chenhao Tong, Aaron Harwood, Maria A. Rodriguez, Richard O. Sinnott(参考訳) 自動運転車は、継続的な地域パトロール問題に向いている。 しかし、多くの理由から最適なパトロール戦略を見つけることは困難である。 まず、パトロール環境はしばしば複雑であり、風や風景のような未知の環境要素を含んでいる。 第二に、自動運転車はバッテリー寿命の制限など、故障やハードウェアの制約がある。 重要なことに、大きなエリアをパトロールするには、複数のエージェントが必要である。 本研究では,これらの制約を考慮し,モデルフリーで深いマルチエージェント強化学習に基づくアプローチを提案する。 このアプローチでは、エージェントは様々な未知のダイナミクスや要因で環境をパトロールするように訓練される。 連続的なパトロールを支援するために自動的に充電することができる。 全てのパトロールエージェントがローカルな観測と共有位置情報に基づいて同一のポリシーをローカルに実行する分散同種マルチエージェントアーキテクチャを提案する。 このアーキテクチャは、エージェントの故障を許容し、失敗したエージェントを置き換えたり、全体的なパトロール性能を向上させるために補助エージェントを追加することができるパトロールシステムを提供する。 このソリューションは、全体的なパトロール性能、バッテリリリチャージ戦略の効率、全体的な耐障害性、補足的なエージェントと協調する能力など、複数の観点からのシミュレーション実験によって検証される。

Autonomous vehicles are suited for continuous area patrolling problems. However, finding an optimal patrolling strategy can be challenging for many reasons. Firstly, patrolling environments are often complex and can include unknown environmental factors, such as wind or landscape. Secondly, autonomous vehicles can have failures or hardware constraints, such as limited battery life. Importantly, patrolling large areas often requires multiple agents that need to collectively coordinate their actions. In this work, we consider these limitations and propose an approach based on model-free, deep multi-agent reinforcement learning. In this approach, the agents are trained to patrol an environment with various unknown dynamics and factors. They can automatically recharge themselves to support continuous collective patrolling. A distributed homogeneous multi-agent architecture is proposed, where all patrolling agents execute identical policies locally based on their local observations and shared location information. This architecture provides a patrolling system that can tolerate agent failures and allow supplementary agents to be added to replace failed agents or to increase the overall patrol performance. The solution is validated through simulation experiments from multiple perspectives, including the overall patrol performance, the efficiency of battery recharging strategies, the overall fault tolerance, and the ability to cooperate with supplementary agents.
翻訳日:2023-06-12 17:54:39 公開日:2023-06-09
# フーバーエネルギー測度量子化

Huber-energy measure quantization ( http://arxiv.org/abs/2212.08162v2 )

ライセンス: Link先を確認
Gabriel Turinici(参考訳) 目的確率法則(およびより一般的に署名された有限変動測度)の最適近似を、量子化パラメータである$Q$Dirac masses(Q$)の和で求めるアルゴリズムについて述べる。 この手順は、元の測度と量子化されたバージョンの間の統計距離を最小化し、負の定値カーネルから距離を構築でき、必要に応じてフライ上で計算し、確率的最適化アルゴリズム(sgd、adam、...など)に供給することができる。 最適測度量子化器の存在に関する基本的な疑問を理論的に検討し、適切な振る舞いを保証するために必要なカーネル特性を同定する。 正方形統計距離に対する2つの最適線形非偏微分(BLUE)推定器を提案し、最適量子化を求めるためにHEMQと呼ばれる非偏微分手順でそれらを用いる。 HEMQは,多次元ガウス混合,ウィーナー空間キュキュア,イタリアワイン品種,MNIST画像データベースなど,複数のデータベース上でテストする。 その結果、HEMQアルゴリズムは堅牢で汎用性があり、ハマーエネルギーカーネルのクラスでは、期待される直感的な振る舞いと一致していることがわかった。

We describe a measure quantization procedure i.e., an algorithm which finds the best approximation of a target probability law (and more generally signed finite variation measure) by a sum of $Q$ Dirac masses ($Q$ being the quantization parameter). The procedure is implemented by minimizing the statistical distance between the original measure and its quantized version; the distance is built from a negative definite kernel and, if necessary, can be computed on the fly and feed to a stochastic optimization algorithm (such as SGD, Adam, ...). We investigate theoretically the fundamental questions of existence of the optimal measure quantizer and identify what are the required kernel properties that guarantee suitable behavior. We propose two best linear unbiased (BLUE) estimators for the squared statistical distance and use them in an unbiased procedure, called HEMQ, to find the optimal quantization. We test HEMQ on several databases: multi-dimensional Gaussian mixtures, Wiener space cubature, Italian wine cultivars and the MNIST image database. The results indicate that the HEMQ algorithm is robust and versatile and, for the class of Huber-energy kernels, matches the expected intuitive behavior.
翻訳日:2023-06-12 17:54:19 公開日:2023-06-09
# AIフェアネスの遺伝的限界

Inherent Limitations of AI Fairness ( http://arxiv.org/abs/2212.06495v2 )

ライセンス: Link先を確認
Maarten Buyl, Tijl De Bie(参考訳) 人工知能(AI)システムの現実的な影響は着実に増加しており、これらのシステムも精査されている。 これに対し、AIフェアネスの研究は、コンピュータ科学、社会科学、法学、哲学と結びついた豊富な研究分野へと急速に発展してきた。 AIフェアネスの測定と達成のための多くの技術的ソリューションが提案されているが、そのアプローチは近年、誤解を招く、非現実的で有害であるとして批判されている。 本稿では,AIフェアネスに対するこれらの批判を調査し,AIフェアネスの原型的パラダイムに固有の重要な限界を特定する。 技術的ソリューションがAIフェアネスの達成に現実的に役立つ範囲を慎重に概説することによって、公正なAIの開発に関する微妙な意見を形成するために必要な背景を提供することを目指している。 このガイドラインはまた、公正な意思決定プロセスを支援するために、AIシステムに隣接する非AIソリューションの研究機会を提供する。

As the real-world impact of Artificial Intelligence (AI) systems has been steadily growing, so too have these systems come under increasing scrutiny. In response, the study of AI fairness has rapidly developed into a rich field of research with links to computer science, social science, law, and philosophy. Many technical solutions for measuring and achieving AI fairness have been proposed, yet their approach has been criticized in recent years for being misleading, unrealistic and harmful. In our paper, we survey these criticisms of AI fairness and identify key limitations that are inherent to the prototypical paradigm of AI fairness. By carefully outlining the extent to which technical solutions can realistically help in achieving AI fairness, we aim to provide the background necessary to form a nuanced opinion on developments in fair AI. This delineation also provides research opportunities for non-AI solutions peripheral to AI systems in supporting fair decision processes.
翻訳日:2023-06-12 17:53:55 公開日:2023-06-09
# 自己駆動ハイブリッド原子スピン発振器

Self-driven Hybrid Atomic Spin Oscillator ( http://arxiv.org/abs/2301.12121v2 )

ライセンス: Link先を確認
Erwei Li, Qianjin Ma, Guobin Liu, Peter Yun and Shougang Zhang(参考訳) 自己駆動型ハイブリッド原子スピン発振器を理論実証し,気相rb-xeデュアルスピン系の実験を行った。 Rbスピン発振の生信号は増幅され、位相シフトされ、Xeスピンをコヒーレントに駆動するために送り返される。 駆動磁場強度と位相を微調整することにより、周波数シフトゼロの自己持続スピン発振信号を得る。 有効コヒーレンス時間はxeスピンの固有コヒーレンス時間を超えて無限に長くなり、ハイブリッド原子スピン発振器を形成する。 スペクトル分析により13.1nHzの周波数分解能が達成され、磁場の検出感度が向上した。 アラン偏差解析はスピン発振器がスピンメーザのように連続波モードで動作可能であることを示している。 プロトタイプスピン発振器は、他のハイブリッドスピン系に容易に組み込むことができ、アルカリ金属-ノーブルガスコマグネトメータの検出感度を高めることができる。

A self-driven hybrid atomic spin oscillator is demonstrated in theory and experiment with a vapor Rb-Xe dual-spin system. The raw signal of Rb spin oscillation is amplified, phase-shifted and sent back to drive the Xe spins coherently. By fine tuning the driving field strength and phase, a self-sustaining spin oscillation signal with zero frequency shift is obtained. The effective coherence time is infinitely prolonged beyond the intrinsic coherence time of Xe spins, forming a hybrid atomic spin oscillator. Spectral analysis indicates that a frequency resolution of 13.1 nHz is achieved, enhancing the detection sensitivity for magnetic field. Allan deviation analysis shows that the spin oscillator can operate in continuous wave mode like a spin maser. The prototype spin oscillator can be easily implanted into other hybrid spin systems and enhance the detection sensitivity of alkali metal-noble gas comagnetometers.
翻訳日:2023-06-12 17:48:43 公開日:2023-06-09
# MPNNとグラフ変換器の接続について

On the Connection Between MPNN and Graph Transformer ( http://arxiv.org/abs/2301.11956v3 )

ライセンス: Link先を確認
Chen Cai, Truong Son Hy, Rose Yu, Yusu Wang(参考訳) グラフトランスフォーマー(GT)は最近、グラフ学習アルゴリズムの新しいパラダイムとして登場し、これまで人気があったMPNN(Message Passing Neural Network)を、複数のベンチマークで上回っている。 以前の研究 (Kim et al., 2022) は、適切な位置埋め込みで、GTがMPNNを任意に近似できることを示し、GTが少なくともMPNNと同じくらい強力であることを示唆している。 本稿では, 逆接続について検討し, 理論的な理解がほとんどない一般のヒューリスティックである仮想ノード (vn) を持つ mpnn が gt の自己結合層を任意に近似できるほど強力であることを示す。 特に,1種類の線形変換器,いわゆるPerformer/Linear Transformer(Choromanski et al., 2020; Katharopoulos et al., 2020)を考えると,O(1)深さとO(1)幅しか持たないMPNN+VNはPerformer/Linear Transformerの自己保持層を近似することができる。 次に、MPNN + VN と DeepSets の接続を通して、MPNN + VN を O(n^d) 幅で証明し、O(1) 深さは d が入力特徴次元であるような自己認識層を任意に近似することができる。 最後に、いくつかの仮定の下で、GT における自己保持層を任意に近似する O(1) 幅と O(n) 深さの MPNN + VN の明示的な構成を提供する。 実証的な側面では、 1) MPNN + VNは驚くほど強力なベースラインであり、最近提案されたLong Range Graph Benchmark(LRGB)データセットでGTを上回っている。 2)MPNN+VNは、幅広いOGBデータセットの早期実装よりも改善されている。 3)MPNN+VNはLinear TransformerとMPNNより気候モデリングに優れる。

Graph Transformer (GT) recently has emerged as a new paradigm of graph learning algorithms, outperforming the previously popular Message Passing Neural Network (MPNN) on multiple benchmarks. Previous work (Kim et al., 2022) shows that with proper position embedding, GT can approximate MPNN arbitrarily well, implying that GT is at least as powerful as MPNN. In this paper, we study the inverse connection and show that MPNN with virtual node (VN), a commonly used heuristic with little theoretical understanding, is powerful enough to arbitrarily approximate the self-attention layer of GT. In particular, we first show that if we consider one type of linear transformer, the so-called Performer/Linear Transformer (Choromanski et al., 2020; Katharopoulos et al., 2020), then MPNN + VN with only O(1) depth and O(1) width can approximate a self-attention layer in Performer/Linear Transformer. Next, via a connection between MPNN + VN and DeepSets, we prove the MPNN + VN with O(n^d) width and O(1) depth can approximate the self-attention layer arbitrarily well, where d is the input feature dimension. Lastly, under some assumptions, we provide an explicit construction of MPNN + VN with O(1) width and O(n) depth approximating the self-attention layer in GT arbitrarily well. On the empirical side, we demonstrate that 1) MPNN + VN is a surprisingly strong baseline, outperforming GT on the recently proposed Long Range Graph Benchmark (LRGB) dataset, 2) our MPNN + VN improves over early implementation on a wide range of OGB datasets and 3) MPNN + VN outperforms Linear Transformer and MPNN on the climate modeling task.
翻訳日:2023-06-12 17:48:25 公開日:2023-06-09
# パラメーター効率の高い転送学習による言語モデルの分布外ロバスト性の検出

Probing Out-of-Distribution Robustness of Language Models with Parameter-Efficient Transfer Learning ( http://arxiv.org/abs/2301.11660v3 )

ライセンス: Link先を確認
Hyunsoo Cho, Choonghyun Park, Junyeop Kim, Hyuhng Joon Kim, Kang Min Yoo, and Sang-goo Lee(参考訳) プレトレーニング言語モデル (PLM) のサイズが増加し続けるにつれて, 微調整の膨大なコストを補うために, パラメータ効率の学習手法が多数提案されている。 大規模な事前学習言語モデル (PLM) と各種パラメータ効率変換学習法 (PETL) が日没ベンチマークで達成した印象的な結果にもかかわらず, 分散的にシフトした入力を効果的に処理できるかどうかは不明である。 本研究では,plmの大きさや転送方法が変化するにつれて,od(out-of-distribution)がどう変化するかを体系的に検討する。 具体的には,異なるスケールの様々な言語モデルを用いて,3つの異なる意図分類タスクにおいて,微調整,アダプタ,lora,プレフィックスチューニングを含む様々なpetl手法を評価した。

As the size of the pre-trained language model (PLM) continues to increase, numerous parameter-efficient transfer learning methods have been proposed recently to compensate for the tremendous cost of fine-tuning. Despite the impressive results achieved by large pre-trained language models (PLMs) and various parameter-efficient transfer learning (PETL) methods on sundry benchmarks, it remains unclear if they can handle inputs that have been distributionally shifted effectively. In this study, we systematically explore how the ability to detect out-of-distribution (OOD) changes as the size of the PLM grows or the transfer methods are altered. Specifically, we evaluated various PETL techniques, including fine-tuning, Adapter, LoRA, and prefix-tuning, on three different intention classification tasks, each utilizing various language models with different scales.
翻訳日:2023-06-12 17:47:34 公開日:2023-06-09
# 時間拡張探査のための深いラプラシアンに基づく選択肢

Deep Laplacian-based Options for Temporally-Extended Exploration ( http://arxiv.org/abs/2301.11181v2 )

ライセンス: Link先を確認
Martin Klissarov and Marlos C. Machado(参考訳) より良い学習のために豊富な経験の流れを生み出す探索行動を選択することは、強化学習(RL)における根本的な課題である。 この問題に取り組むアプローチは、特定のポリシーに従って、オプションとしても知られる長期にわたってアクションを選択することで成り立っている。 このような探索的オプションを導出するための最近の作業は、グラフラプラシアンの固有関数に基づいている。 重要なことに、これらの手法は、(1)グラフラプラシア行列が与えられたか、あるいは完全に推定できるような表付き領域に限られており、(2)この行列上で固有分解を行うことは、計算的に抽出可能であり、(3)値関数を正確に学習することができる。 さらに、これらのメソッドは別のオプション発見フェーズを必要とした。 これらの仮定は基本的にスケーラブルではない。 本稿では,ラプラシアンの固有関数を直接近似する最近の結果が,選択肢に基づく探索の真のスケールアップにどのように役立つかを示す。 そこで我々は,ラプラシアンベースの選択肢を発見するための完全オンラインディープRLアルゴリズムを導入し,様々なピクセルベースのタスクに対するアプローチを評価する。 我々は,いくつかの最先端探査手法と比較し,本手法が非定常環境で有効であり,特に有望であることを示す。

Selecting exploratory actions that generate a rich stream of experience for better learning is a fundamental challenge in reinforcement learning (RL). An approach to tackle this problem consists in selecting actions according to specific policies for an extended period of time, also known as options. A recent line of work to derive such exploratory options builds upon the eigenfunctions of the graph Laplacian. Importantly, until now these methods have been mostly limited to tabular domains where (1) the graph Laplacian matrix was either given or could be fully estimated, (2) performing eigendecomposition on this matrix was computationally tractable, and (3) value functions could be learned exactly. Additionally, these methods required a separate option discovery phase. These assumptions are fundamentally not scalable. In this paper we address these limitations and show how recent results for directly approximating the eigenfunctions of the Laplacian can be leveraged to truly scale up options-based exploration. To do so, we introduce a fully online deep RL algorithm for discovering Laplacian-based options and evaluate our approach on a variety of pixel-based tasks. We compare to several state-of-the-art exploration methods and show that our approach is effective, general, and especially promising in non-stationary settings.
翻訳日:2023-06-12 17:47:16 公開日:2023-06-09
# 量子古典的適応ゲーティングによる時変量子リカレントニューラルネットワーク

Time-Warping Invariant Quantum Recurrent Neural Networks via Quantum-Classical Adaptive Gating ( http://arxiv.org/abs/2301.08173v3 )

ライセンス: Link先を確認
Ivana Nikoloska, Osvaldo Simeone, Leonardo Banchi, and Petar Veli\v{c}kovi\'c(参考訳) アダプティブゲーティングは、未来を予測するのに必要な過去の情報の保持を容易にするため、古典的なリカレントニューラルネットワーク(rnn)による時間的データ処理において重要な役割を果たす。 本稿では,量子メモリを持つ動的モデルであるquantum recurrent neural networks (qrnns) を基盤として,(古典的)入力-出力列の時間-ウォーピング変換に対する不変性を保持する,新しい時間的データ処理量子モデルを提案する。 TWI-QRNN(Time Warping-invariant QRNN)と呼ばれるこのモデルは、古典的リカレントモデルを介して入力シーケンスの過去のサンプルの関数として、各ステップでパラメータ化されたユニタリ変換を適用するかどうかを選択する量子古典的適応ゲーティング機構でQRNNを拡張する。 twi-qrnnモデルクラスは第一原理から導出され、時制変換をうまく実装する能力は古典力学や量子力学の例で実験的に実証されている。

Adaptive gating plays a key role in temporal data processing via classical recurrent neural networks (RNN), as it facilitates retention of past information necessary to predict the future, providing a mechanism that preserves invariance to time warping transformations. This paper builds on quantum recurrent neural networks (QRNNs), a dynamic model with quantum memory, to introduce a novel class of temporal data processing quantum models that preserve invariance to time-warping transformations of the (classical) input-output sequences. The model, referred to as time warping-invariant QRNN (TWI-QRNN), augments a QRNN with a quantum-classical adaptive gating mechanism that chooses whether to apply a parameterized unitary transformation at each time step as a function of the past samples of the input sequence via a classical recurrent model. The TWI-QRNN model class is derived from first principles, and its capacity to successfully implement time-warping transformations is experimentally demonstrated on examples with classical or quantum dynamics.
翻訳日:2023-06-12 17:46:55 公開日:2023-06-09
# ほぼ確実に$\sqrt{T}$ Regret Bound for Adaptive LQR

Almost Surely $\sqrt{T}$ Regret Bound for Adaptive LQR ( http://arxiv.org/abs/2301.05537v3 )

ライセンス: Link先を確認
Yiwen Lu and Yilin Mo(参考訳) 未知のシステムパラメータを持つLQR(Linear-Quadratic Regulation)問題は広く研究されているが、最もよく知られた時間依存である $\tilde{ \mathcal{O}}(\sqrt{T})$ regret がほぼ確実に達成できるかどうかは不明である。 本稿では,ほぼ確実に$\tilde{ \mathcal{O}}(\sqrt{T})$ regret upper boundを持つ適応型LQRコントローラを提案する。 制御器は、潜在的な安全違反を回避し、システムパラメータ推定の収束を保証する回路破壊機構を備えているが、有限回のみトリガされることが示され、したがって制御器の漸近性能に無視できる効果がある。 提案されたコントローラは、よく使われる工業プロセスの例であるテネシー・イーストマン・プロセス~(tep)のシミュレーションによっても検証される。

The Linear-Quadratic Regulation (LQR) problem with unknown system parameters has been widely studied, but it has remained unclear whether $\tilde{ \mathcal{O}}(\sqrt{T})$ regret, which is the best known dependence on time, can be achieved almost surely. In this paper, we propose an adaptive LQR controller with almost surely $\tilde{ \mathcal{O}}(\sqrt{T})$ regret upper bound. The controller features a circuit-breaking mechanism, which circumvents potential safety breach and guarantees the convergence of the system parameter estimate, but is shown to be triggered only finitely often and hence has negligible effect on the asymptotic performance of the controller. The proposed controller is also validated via simulation on Tennessee Eastman Process~(TEP), a commonly used industrial process example.
翻訳日:2023-06-12 17:46:33 公開日:2023-06-09
# CI-GNN:脳ネットワークに基づく精神診断のためのグランガー因果グラフニューラルネットワーク

CI-GNN: A Granger Causality-Inspired Graph Neural Network for Interpretable Brain Network-Based Psychiatric Diagnosis ( http://arxiv.org/abs/2301.01642v2 )

ライセンス: Link先を確認
Kaizhong Zheng, Shujian Yu, Badong Chen(参考訳) 近年、脳ネットワークに基づく精神医学診断にグラフニューラルネットワーク(GNN)のパワーを活用する傾向があり、これはまた、使用済みのGNNの決定行動を完全に理解するために精神科医が緊急に必要であることを意味している。 しかしながら、既存のgnn説明者は、十分に訓練されたgnnを説明するために別の解釈モデルを作成する必要があるポストホックであるか、抽出された説明と決定との因果関係を考慮していないため、説明自体がスプリアス相関を含み、弱い忠実さに苦しむ。 本研究では,その決定に因果関係のある最も影響力のある部分グラフ(例えば,大うつ病患者や健常なコントロールなど)を,補助的解釈ネットワークの訓練なしで識別可能な,組み込みの解釈モデルであるgranger causality-inspired graph neural network(ci-gnn)を提案する。 CI-GNNは、それぞれ、条件付き相互情報(CMI)制約によって正規化されたグラフ変動オートエンコーダフレームワークの下で、元のグラフの因果的側面と非因果的側面をエンコードする非絡み合った部分グラフレベルの表現 {\alpha} と \b{eta} を学習する。 因果関係の把握におけるCMI規制の有効性を理論的に正当化する。 また,3つのベースラインGNNと4つの最先端GNNの合成データと3つの大規模脳疾患データセットに対するCI-GNNの性能を実証的に評価した。 我々は,CI-GNNが幅広い指標において最高の性能を達成し,より信頼性が高く簡潔な説明を提供することを観察した。

There is a recent trend to leverage the power of graph neural networks (GNNs) for brain-network based psychiatric diagnosis, which,in turn, also motivates an urgent need for psychiatrists to fully understand the decision behavior of the used GNNs. However, most of the existing GNN explainers are either post-hoc in which another interpretive model needs to be created to explain a well-trained GNN, or do not consider the causal relationship between the extracted explanation and the decision, such that the explanation itself contains spurious correlations and suffers from weak faithfulness. In this work, we propose a granger causality-inspired graph neural network (CI-GNN), a built-in interpretable model that is able to identify the most influential subgraph (i.e., functional connectivity within brain regions) that is causally related to the decision (e.g., major depressive disorder patients or healthy controls), without the training of an auxillary interpretive network. CI-GNN learns disentangled subgraph-level representations {\alpha} and \b{eta} that encode, respectively, the causal and noncausal aspects of original graph under a graph variational autoencoder framework, regularized by a conditional mutual information (CMI) constraint. We theoretically justify the validity of the CMI regulation in capturing the causal relationship. We also empirically evaluate the performance of CI-GNN against three baseline GNNs and four state-of-the-art GNN explainers on synthetic data and three large-scale brain disease datasets. We observe that CI-GNN achieves the best performance in a wide range of metrics and provides more reliable and concise explanations which have clinical evidence.
翻訳日:2023-06-12 17:45:20 公開日:2023-06-09
# Smooth Nonconvex ERMの微分プライベート最適化

Differentially Private Optimization for Smooth Nonconvex ERM ( http://arxiv.org/abs/2302.04972v2 )

ライセンス: Link先を確認
Changyu Gao and Stephen J. Wright(参考訳) 非凸ERMの近似二階解を求めるために、(予測)降下方向に沿って移動する単純な微分プライベート最適化アルゴリズムを開発した。 このアルゴリズムの速度と実用性を改善するために,線探索,ミニバッチ,二相戦略を用いる。 数値実験はこれらの手法の有効性を示す。

We develop simple differentially private optimization algorithms that move along directions of (expected) descent to find an approximate second-order solution for nonconvex ERM. We use line search, mini-batching, and a two-phase strategy to improve the speed and practicality of the algorithm. Numerical experiments demonstrate the effectiveness of these approaches.
翻訳日:2023-06-12 17:37:32 公開日:2023-06-09
# 分散学習におけるモデル一貫性の改善

Improving the Model Consistency of Decentralized Federated Learning ( http://arxiv.org/abs/2302.04083v2 )

ライセンス: Link先を確認
Yifan Shi, Li Shen, Kang Wei, Yan Sun, Bo Yuan, Xueqian Wang, Dacheng Tao(参考訳) フェデレートラーニング(FL)のプライバシー漏洩と通信負担を軽減するため、分散FL(DFL)は中央サーバを捨て、各クライアントは、分散化された通信ネットワークにおいて隣人とのみ通信する。 しかし、既存のDFLは、特に異種データや疎通信トポロジにおいて、集中型FL(CFL)と比較して、分布シフトと性能の低下をもたらすローカルクライアント間の不整合に悩まされている。 この問題を軽減するために,DFedSAMとDFedSAM-MGSという2つのDFLアルゴリズムを提案する。 具体的には、DFedSAMは勾配の摂動を利用してシャープネス認識最小化(SAM)を介して局所的な平坦なモデルを生成する。 DFedSAM-MGSはさらに、複数のGossip Steps(MGS)を採用して、モデルの一貫性を改善し、局所的なフラットモデルの集約を加速し、通信の複雑さと一般化のバランスを改善することで、DFedSAMをさらに強化する。 理論的には、改善収束率 $\small \mathcal{O}\big(\frac{1}{\sqrt{KT}}+\frac{1}{K^{1/2}T^{3/2}(1-\lambda)^2}\big)$と$\small \mathcal{O}\big(\frac{1}{\sqrt{KT}}+\frac{1}{T}+\frac{\lambda^Q+1}{K^{1/2}T^{3/2}(1-\lambda^Q)^2}\big)$はそれぞれDFedSAMとDFedSAM-MGSの非凸設定において、1-\lambda$はゴシップのギャップであり、$QはMGSのギャップである。 実験により,提案手法は既存のDFL法よりも優れ,CFL法と比較して競争性能が向上する。

To mitigate the privacy leakages and communication burdens of Federated Learning (FL), decentralized FL (DFL) discards the central server and each client only communicates with its neighbors in a decentralized communication network. However, existing DFL suffers from high inconsistency among local clients, which results in severe distribution shift and inferior performance compared with centralized FL (CFL), especially on heterogeneous data or sparse communication topology. To alleviate this issue, we propose two DFL algorithms named DFedSAM and DFedSAM-MGS to improve the performance of DFL. Specifically, DFedSAM leverages gradient perturbation to generate local flat models via Sharpness Aware Minimization (SAM), which searches for models with uniformly low loss values. DFedSAM-MGS further boosts DFedSAM by adopting Multiple Gossip Steps (MGS) for better model consistency, which accelerates the aggregation of local flat models and better balances communication complexity and generalization. Theoretically, we present improved convergence rates $\small \mathcal{O}\big(\frac{1}{\sqrt{KT}}+\frac{1}{T}+\frac{1}{K^{1/2}T^{3/2}(1-\lambda)^2}\big)$ and $\small \mathcal{O}\big(\frac{1}{\sqrt{KT}}+\frac{1}{T}+\frac{\lambda^Q+1}{K^{1/2}T^{3/2}(1-\lambda^Q)^2}\big)$ in non-convex setting for DFedSAM and DFedSAM-MGS, respectively, where $1-\lambda$ is the spectral gap of gossip matrix and $Q$ is the number of MGS. Empirically, our methods can achieve competitive performance compared with CFL methods and outperform existing DFL methods.
翻訳日:2023-06-12 17:37:11 公開日:2023-06-09
# 絡み合うことなく重力の量子性をテストする

Testing the quantum nature of gravity without entanglement ( http://arxiv.org/abs/2302.03075v2 )

ライセンス: Link先を確認
Ludovico Lami, Julen S. Pedernales, Martin B. Plenio(参考訳) マルチパーティ量子システム上のユニタリ進化$U$と初期状態のアンサンブルが与えられたら、そのアンサンブル上のローカル操作と古典的通信(LOCC)によって、$U$をシミュレートできるだろうか? 我々は,「LOCC不等式」と呼ぶ最大LOCCシミュレーション忠実度に関する一般計算可能な上限を確立することで,この問題に答える。 次に、量子ニュートンハミルトニアンを重力相互作用系上に実装する基本設定に、我々の研究結果を適用する。 LOCCの不等式は、基礎となる進化のLOCC性を排除し、局所古典場では説明できない重力力学の非古典性を確立することができる。 このスキームの顕著な応用として、正規分布に従ってコヒーレントな状態に初期化されニュートン重力を介して相互作用する量子調和振動子の系を研究し、トーションペンデュラによる物理的実装の可能性について議論する。 我々の主な技術的貢献の1つは、上記のLOCC不等式の解析的計算である。 重力によって媒介される絡み合いの検出に基づく既存のテストとは対照的に、我々の提案はコヒーレントな状態のみで動作するため、運動の大部分が非局在化された状態の生成や絡み合いの検出は必要としない。

Given a unitary evolution $U$ on a multi-partite quantum system and an ensemble of initial states, how well can $U$ be simulated by local operations and classical communication (LOCC) on that ensemble? We answer this question by establishing a general, efficiently computable upper bound on the maximal LOCC simulation fidelity -- what we call an "LOCC inequality". We then apply our findings to the fundamental setting where $U$ implements a quantum Newtonian Hamiltonian over a gravitationally interacting system. Violation of our LOCC inequality can rule out the LOCCness of the underlying evolution, thereby establishing the non-classicality of the gravitational dynamics, which can no longer be explained by a local classical field. As a prominent application of this scheme we study systems of quantum harmonic oscillators initialised in coherent states following a normal distribution and interacting via Newtonian gravity, and discuss a possible physical implementation with torsion pendula. One of our main technical contributions is the analytical calculation of the above LOCC inequality for this family of systems. As opposed to existing tests based on the detection of gravitationally mediated entanglement, our proposal works with coherent states alone, and thus it does not require the generation of largely delocalised states of motion nor the detection of entanglement, which is never created at any point in the process.
翻訳日:2023-06-12 17:35:49 公開日:2023-06-09
# rbmsの学習ダイナミクスを用いた教師なし階層クラスタリング

Unsupervised hierarchical clustering using the learning dynamics of RBMs ( http://arxiv.org/abs/2302.01851v3 )

ライセンス: Link先を確認
Aur\'elien Decelle, Lorenzo Rosset, Beatriz Seoane(参考訳) 実世界のデータセットは、しばしば複雑である程度階層的であり、異なる抽象レベルで共通の特徴を共有するデータのグループとサブグループがある。 これらのデータセットの隠れた構造を理解し、解明することは、多くの実用的応用を持つ重要なタスクである。 本稿では,制約付きボルツマンマシン(rbm)の学習ダイナミクスを活用し,リレーショナル・データ・ツリーを構築するための新しい汎用的手法を提案する。 提案手法は,Plefka展開から派生した平均場アプローチに基づいて,無秩序なシステムの文脈で開発された。 容易に解釈できるように設計されている。 本手法を人工的に作成した階層型データセットと3つの異なる実世界のデータセット(桁の画像、ヒトゲノムの変異、相同なタンパク質群)で検証した。 この手法はデータの階層構造を自動的に識別することができる。 これは、タンパク質間の関係がそれらの機能と進化を理解するために重要である相同性タンパク質配列の研究に有用である。

Datasets in the real world are often complex and to some degree hierarchical, with groups and sub-groups of data sharing common characteristics at different levels of abstraction. Understanding and uncovering the hidden structure of these datasets is an important task that has many practical applications. To address this challenge, we present a new and general method for building relational data trees by exploiting the learning dynamics of the Restricted Boltzmann Machine (RBM). Our method is based on the mean-field approach, derived from the Plefka expansion, and developed in the context of disordered systems. It is designed to be easily interpretable. We tested our method in an artificially created hierarchical dataset and on three different real-world datasets (images of digits, mutations in the human genome, and a homologous family of proteins). The method is able to automatically identify the hierarchical structure of the data. This could be useful in the study of homologous protein sequences, where the relationships between proteins are critical for understanding their function and evolution.
翻訳日:2023-06-12 17:35:25 公開日:2023-06-09
# AdSformers:Etsy Adsにおける短期シーケンスと表現の多様性からのパーソナライズ

adSformers: Personalization from Short-Term Sequences and Diversity of Representations in Etsy Ads ( http://arxiv.org/abs/2302.01255v2 )

ライセンス: Link先を確認
Alaa Awad, Denisa Roberts, Eden Dolev, Andrea Heyman, Zahra Ebrahimzadeh, Zoe Weil, Marcin Mejran, Vaibhav Malpani, Mahir Yavuz(参考訳) 本稿では,最近のユーザ行動や多彩な表現の可変長シーケンスをエンコードし,学習することで広告をパーソナライズする一般的なアプローチを提案する。 この目的のために,動的ユーザ表現を学習するadSformer diversibility Personalization Module (ADPM)と呼ばれる3成分モジュールを導入する。 CTR(Click-Through Rate)モデルとPCCVR(Post-Click Conversion Rate)モデルをパーソナライズすることで,モジュールの有効性と柔軟性を説明する。 ADPMの最初のコンポーネントであるadSformerエンコーダは、最も顕著なシーケンス信号を学習する新しいadSformerブロックを含んでいる。 ADPMの第2のコンポーネントは、視覚、マルチモーダル、その他の事前訓練された表現を通じて学習した信号を豊かにする。 最後に、第3のADPMは"learned on the fly"コンポーネントで、動的ユーザ表現にエンコードされた信号をさらに多様化する。 ADPMが個人化したCTRとPCCVRのモデルでは、AdSformer CTRとAdSformer PCCVRと呼ばれ、CTRとPCCVRの生産ベースラインをそれぞれ$+2.66\%$と$+2.42\%$で上回っている。 A/Bテストの堅牢なオンライン化に続いて、Etsy AdsはADPMが個人でスポンサードする検索システムを2023年2月時点で100\%のトラフィックに展開した。

In this article, we present a general approach to personalizing ads through encoding and learning from variable-length sequences of recent user actions and diverse representations. To this end we introduce a three-component module called the adSformer diversifiable personalization module (ADPM) that learns a dynamic user representation. We illustrate the module's effectiveness and flexibility by personalizing the Click-Through Rate (CTR) and Post-Click Conversion Rate (PCCVR) models used in sponsored search. The first component of the ADPM, the adSformer encoder, includes a novel adSformer block which learns the most salient sequence signals. ADPM's second component enriches the learned signal through visual, multimodal, and other pretrained representations. Lastly, the third ADPM "learned on the fly" component further diversifies the signal encoded in the dynamic user representation. The ADPM-personalized CTR and PCCVR models, henceforth referred to as adSformer CTR and adSformer PCCVR, outperform the CTR and PCCVR production baselines by $+2.66\%$ and $+2.42\%$, respectively, in offline Area Under the Receiver Operating Characteristic Curve (ROC-AUC). Following the robust online gains in A/B tests, Etsy Ads deployed the ADPM-personalized sponsored search system to $100\%$ of traffic as of February 2023.
翻訳日:2023-06-12 17:35:09 公開日:2023-06-09
# MonoFlow: Wassersteinグラディエントフローの観点からの多様性GANの再考

MonoFlow: Rethinking Divergence GANs via the Perspective of Wasserstein Gradient Flows ( http://arxiv.org/abs/2302.01075v3 )

ライセンス: Link先を確認
Mingxuan Yi, Zhanxing Zhu, Song Liu(参考訳) GAN(Generative Adversarial Network)における対人訓練の従来の理解は、判別器が分散を推定するために訓練され、生成器はこの分散を最小化する。 GANの多くの変種がこのパラダイムに従って開発されたという事実にもかかわらず、GANとその実践的アルゴリズムの現在の理論的理解は矛盾している。 本稿では,サンプル空間における粒子の進化を特徴づけるwasserstein勾配流を利用して,ganの理論的洞察とアルゴリズム的インスピレーションを得る。 粒子の進化は単調に増大する対数密度比のマッピングによって再スケールされる。 本手法では, 識別器の訓練によりモノフローのベクトル場を得る手順として, 相手のベクトル場によって定義される粒子流を描画することを学ぶ。 また,変動発散最小化と逆行訓練の基本的な違いを明らかにする。 この解析は,ganの学習にどのような種類のジェネレータ損失関数が寄与するかを明らかにするのに役立ち,モノフローを実現する限り,ganは文献以上の損失設計(例えば,不飽和損失)を持つ可能性があることを示唆する。 本フレームワークの有効性を検証するため, 一貫性のある実証研究を含む。

The conventional understanding of adversarial training in generative adversarial networks (GANs) is that the discriminator is trained to estimate a divergence, and the generator learns to minimize this divergence. We argue that despite the fact that many variants of GANs were developed following this paradigm, the current theoretical understanding of GANs and their practical algorithms are inconsistent. In this paper, we leverage Wasserstein gradient flows which characterize the evolution of particles in the sample space, to gain theoretical insights and algorithmic inspiration of GANs. We introduce a unified generative modeling framework - MonoFlow: the particle evolution is rescaled via a monotonically increasing mapping of the log density ratio. Under our framework, adversarial training can be viewed as a procedure first obtaining MonoFlow's vector field via training the discriminator and the generator learns to draw the particle flow defined by the corresponding vector field. We also reveal the fundamental difference between variational divergence minimization and adversarial training. This analysis helps us to identify what types of generator loss functions can lead to the successful training of GANs and suggest that GANs may have more loss designs beyond the literature (e.g., non-saturated loss), as long as they realize MonoFlow. Consistent empirical studies are included to validate the effectiveness of our framework.
翻訳日:2023-06-12 17:34:41 公開日:2023-06-09
# FLSTRA: 成層圏におけるフェデレーションラーニング

FLSTRA: Federated Learning in Stratosphere ( http://arxiv.org/abs/2302.00163v3 )

ライセンス: Link先を確認
Amin Farajzadeh, Animesh Yadav, Omid Abbasi, Wael Jaafar, Halim Yanikomeroglu(参考訳) 成層圏(FLSTRA)における統合学習(FL)を提案し,高高度プラットフォームステーション(HAPS)が多数の地球規模のクライアントに対して,トレーニングデータを共有せずに協調的にグローバルモデルを学習できるようにする。 FLSTRAは、クライアント参加の制限やマルチホップ通信による収束の遅さや通信遅延などの、地上ネットワークにおけるFLが直面する課題を克服する。 HAPSはその高度とサイズを活用し、LOS(Line-of-sight)リンクと強力なサーバの配置によるより多くのクライアントの参加を可能にする。 しかし、多くのクライアントを同時に扱うと、計算と送信の遅延が発生する。 そこで我々は、FLSTRAの遅延精度トレードオフを得る。 具体的には,エネルギー・サービス品質(qos)制約によるfl遅延を最小限に抑えるため,まず,アップリンク・ダウンリンクのためのクライアント選択・リソース割り当てアルゴリズムを開発した。 次に,通信・計算資源認識アルゴリズム(CCRA-FL)を提案し,その収束率の上限を導出しながら目標FL精度を実現する。 定式化問題は非凸であり,その解法として反復アルゴリズムを提案する。 シミュレーション結果は、FL遅延と精度の観点から、地上ベンチマークと比較して提案したFLSTRAシステムの有効性を示す。

We propose a federated learning (FL) in stratosphere (FLSTRA) system, where a high altitude platform station (HAPS) facilitates a large number of terrestrial clients to collaboratively learn a global model without sharing the training data. FLSTRA overcomes the challenges faced by FL in terrestrial networks, such as slow convergence and high communication delay due to limited client participation and multi-hop communications. HAPS leverages its altitude and size to allow the participation of more clients with line-of-sight (LOS) links and the placement of a powerful server. However, handling many clients at once introduces computing and transmission delays. Thus, we aim to obtain a delay-accuracy trade-off for FLSTRA. Specifically, we first develop a joint client selection and resource allocation algorithm for uplink and downlink to minimize the FL delay subject to the energy and quality-of-service (QoS) constraints. Second, we propose a communication and computation resource-aware (CCRA-FL) algorithm to achieve the target FL accuracy while deriving an upper bound for its convergence rate. The formulated problem is non-convex; thus, we propose an iterative algorithm to solve it. Simulation results demonstrate the effectiveness of the proposed FLSTRA system, compared to terrestrial benchmarks, in terms of FL delay and accuracy.
翻訳日:2023-06-12 17:34:18 公開日:2023-06-09
# SGDをシャッフルするためのより低い境界:ランダムな置換とそれを超える

Tighter Lower Bounds for Shuffling SGD: Random Permutations and Beyond ( http://arxiv.org/abs/2303.07160v2 )

ライセンス: Link先を確認
Jaeyoung Cha, Jaewook Lee, Chulhee Yun(参考訳) 非置換確率勾配勾配勾配(SGD)の収束下界を滑らかな(強い-)凸有限サム最小化問題の解法として検討する。 成分数$n$とエポック数$K$という観点で最終反復下界に焦点を絞った既存の結果とは異なり、条件数$\kappa$を含むすべての因子において厳密な任意の重み付き平均的反復に対する境界を求める。 Random Reshuffling を持つ SGD の場合、既存の境界よりもより強い$\kappa$ 依存を持つ低い境界を示す。 その結果, 強凸と凸のいずれにおいても, 重み付き平均イテレートに対する下界と上界のギャップを完全に閉じることができた。 また、重み付け平均は任意の置換ベースのsgdに対して下限を反復し、最良の置換を慎重に選択する全ての変種に適用する。 我々の境界は、$n$と$\kappa$の因子の既存の境界を改善し、その結果、最近提案されたGraBアルゴリズムで示される上限と一致する。

We study convergence lower bounds of without-replacement stochastic gradient descent (SGD) for solving smooth (strongly-)convex finite-sum minimization problems. Unlike most existing results focusing on final iterate lower bounds in terms of the number of components $n$ and the number of epochs $K$, we seek bounds for arbitrary weighted average iterates that are tight in all factors including the condition number $\kappa$. For SGD with Random Reshuffling, we present lower bounds that have tighter $\kappa$ dependencies than existing bounds. Our results are the first to perfectly close the gap between lower and upper bounds for weighted average iterates in both strongly-convex and convex cases. We also prove weighted average iterate lower bounds for arbitrary permutation-based SGD, which apply to all variants that carefully choose the best permutation. Our bounds improve the existing bounds in factors of $n$ and $\kappa$ and thereby match the upper bounds shown for a recently proposed algorithm called GraB.
翻訳日:2023-06-12 17:28:19 公開日:2023-06-09
# AUTODIAL:効率的な非同期タスク指向対話モデル

AUTODIAL: Efficient Asynchronous Task-Oriented Dialogue Model ( http://arxiv.org/abs/2303.06245v3 )

ライセンス: Link先を確認
Prajjwal Bhargava, Pooyan Amini, Shahin Shayandeh, Chinnadhurai Sankar(参考訳) 大規模な対話モデルが実際に一般的になるにつれて、トレーニング、推論、より大きなメモリフットプリントに対する高い計算要求を取り巻く問題が続いている。 本稿では,対話モデルの展開における課題を解決するマルチタスク対話モデルであるautodialを提案する。 AUTODIALは並列デコーダを使用して対話行動予測、ドメイン予測、意図予測、対話状態追跡などのタスクを実行する。 生成デコーダ上の分類デコーダを使用することで、AUTODIALは既存の生成的アプローチであるSimpleTODと比較してメモリフットプリントを大幅に削減し、推論時間を短縮できる。 AUTODIALは3つの対話タスクに対して,SimpleTODに比べて11倍少ないパラメータで,推論中に3~6倍の高速化を実現する。 以上の結果から,並列デコーダを持つ現在の対話モデルを拡張することは,リソース制約のある環境にデプロイする上で有効な代替手段となる可能性が示唆された。

As large dialogue models become commonplace in practice, the problems surrounding high compute requirements for training, inference and larger memory footprint still persists. In this work, we present AUTODIAL, a multi-task dialogue model that addresses the challenges of deploying dialogue model. AUTODIAL utilizes parallel decoders to perform tasks such as dialogue act prediction, domain prediction, intent prediction, and dialogue state tracking. Using classification decoders over generative decoders allows AUTODIAL to significantly reduce memory footprint and achieve faster inference times compared to existing generative approach namely SimpleTOD. We demonstrate that AUTODIAL provides 3-6x speedups during inference while having 11x fewer parameters on three dialogue tasks compared to SimpleTOD. Our results show that extending current dialogue models to have parallel decoders can be a viable alternative for deploying them in resource-constrained environments.
翻訳日:2023-06-12 17:28:00 公開日:2023-06-09
# 言語による視覚的抽象化と推論

Visual Abstraction and Reasoning through Language ( http://arxiv.org/abs/2303.04091v2 )

ライセンス: Link先を確認
Giacomo Camposampiero, Loic Houmard, Benjamin Estermann, Jo\"el Mathys, Roger Wattenhofer(参考訳) 人工知能(AI)モデルは、狭義のアプリケーションで人間や超人的なパフォーマンスを達成したが、より広範で柔軟な知性を示すのに苦戦している。 Fran\c{c}ois Chollet氏が紹介したARC(Abstraction and Reasoning Corpus)は、AIシステムが人間のような認知能力にどの程度近いかを評価することを目的としている。 現在のアプローチのほとんどは、ARCに存在するタスクに対するブルートフォースソリューションに使用される、慎重に手作りのドメイン固有言語(DSL)に依存しています。 本研究では,タスクの自然言語記述に基づいてARCを解くための一般的なフレームワークを提案する。 ARC上ではまだ最先端のDSLモデルに勝っていないが、これまで未解決のタスクを解く能力によって示唆された我々のアプローチの巨大な可能性を実証している。

While Artificial Intelligence (AI) models have achieved human or even superhuman performance in narrowly defined applications, they still struggle to show signs of broader and more flexible intelligence. The Abstraction and Reasoning Corpus (ARC), introduced by Fran\c{c}ois Chollet, aims to assess how close AI systems are to human-like cognitive abilities. Most current approaches rely on carefully handcrafted domain-specific languages (DSLs), which are used to brute-force solutions to the tasks present in ARC. In this work, we propose a general framework for solving ARC based on natural language descriptions of the tasks. While not yet beating state-of-the-art DSL models on ARC, we demonstrate the immense potential of our approach hinted at by the ability to solve previously unsolved tasks.
翻訳日:2023-06-12 17:27:20 公開日:2023-06-09
# 4-\epsilon$ dimensional hermitian field theory と a 軸に結合したフェルミオンに対する $\mathcal{pt}$-symmetric theory を結ぶ再正規化群フロー

Renormalisation group flows connecting a $4-\epsilon$ dimensional Hermitian field theory to a $\mathcal{PT}$-symmetric theory for a fermion coupled to an axion ( http://arxiv.org/abs/2302.14780v3 )

ライセンス: Link先を確認
Lewis Croney, Sarben Sarkar(参考訳) エルミート場理論の再正規化群フローは、時空次元のフェルミオンに結合された公理に対する非エルミート的パリティ時間(英語版)(\mathcal{pt}$)対称場理論(英語版)を導く軌道を持つことが示され、ここでは$\epsilon >0$である。 この正規化可能体論において、ディラックフェルミオン場は擬スカラー (xion) 場へのユーカワカップリング$g$を持ち、擬スカラー自己カップリング$u$が存在する。 この発見のロバスト性は、$\epsilon$ dpependent wilson-fisher の不動点間の流れを考慮し、また湯川カップリングの \emph{three loops} と四次スカラーカップリングの \emph{two loops} に作用させることによって確立される。 非自明な固定点近傍のフローは、$\epsilon$展開とともに摂動解析を用いて計算される。 グローバルフローパターンは、正の$u$から負の$u$へのフローを示している。 和法を用いて、非摂動的$\mathcal{pt}$-symmetric saddle point を $d=3$ で示す。

The renormalisation group flow of a Hermitian field theory is shown to have trajectories which lead to a non-Hermitian Parity-Time ($\mathcal{PT}$) symmetric field theory for an axion coupled to a fermion in spacetime dimensions $D=4-\epsilon$, where $\epsilon >0 $. In this renormalisable field theory, the Dirac fermion field has a Yukawa coupling $g$ to a pseudoscalar (axion) field and there is quartic pseudoscalar self-coupling $u$. The robustness of this finding is established by considering flows between $\epsilon$ dpependent Wilson-Fisher fixed points and also by working to \emph{three loops} in the Yukawa coupling and to \emph{two loops} in the quartic scalar coupling. The flows in the neighbourhood of the non-trivial fixed points are calculated using perturbative analysis, together with the $\epsilon$ expansion. The global flow pattern indicates flows from positive $u$ to negative $u$; there are no flows between real and imaginary $g$. Using summation techniques we demonstrate a possible non-perturbative $\mathcal{PT}$-symmetric saddle point for $D=3$.
翻訳日:2023-06-12 17:27:05 公開日:2023-06-09
# ニューラルネットワークを用いた連合学習における重み付きアグリゲーションの再検討

Revisiting Weighted Aggregation in Federated Learning with Neural Networks ( http://arxiv.org/abs/2302.10911v3 )

ライセンス: Link先を確認
Zexi Li, Tao Lin, Xinyi Shang, Chao Wu(参考訳) 連合学習(fl)では、局所モデルの重み付き集計を行い、大域モデルを生成し、重み付け重みを正規化し(重みの和は1である)、局所データサイズに比例する。 本稿では,重み付け集約プロセスを再検討し,flのトレーニングダイナミクスに関する新たな知見を得る。 まず,重みの総和が1より小さくなり,大域的な重み縮小効果(重み減少と類似)が生じ,一般化が改善されることが判明した。 クライアントのデータ不均一性と局所的エポックに最適な縮小係数がどう影響するかを検討する。 次に、クライアント間の相対的な集約重みを掘り下げて、クライアントの重要性を説明します。 学習のダイナミクスを研究するためにクライアントコヒーレンスを開発し,その重要な点を見出す。 臨界点に入る前に、よりコヒーレントなクライアントは一般化においてより重要な役割を果たす。 以上の知見に基づいて,FedLAWと命名された学習可能な集約重み付きフェデレート学習の効果的な方法を提案する。 広範な実験により,本手法が異なるデータセットとモデルに対して大きなマージンでグローバルモデルの一般化を改善できることが確かめられた。

In federated learning (FL), weighted aggregation of local models is conducted to generate a global model, and the aggregation weights are normalized (the sum of weights is 1) and proportional to the local data sizes. In this paper, we revisit the weighted aggregation process and gain new insights into the training dynamics of FL. First, we find that the sum of weights can be smaller than 1, causing global weight shrinking effect (analogous to weight decay) and improving generalization. We explore how the optimal shrinking factor is affected by clients' data heterogeneity and local epochs. Second, we dive into the relative aggregation weights among clients to depict the clients' importance. We develop client coherence to study the learning dynamics and find a critical point that exists. Before entering the critical point, more coherent clients play more essential roles in generalization. Based on the above insights, we propose an effective method for Federated Learning with Learnable Aggregation Weights, named as FedLAW. Extensive experiments verify that our method can improve the generalization of the global model by a large margin on different datasets and models.
翻訳日:2023-06-12 17:26:33 公開日:2023-06-09
# 大域的親和性を持つ視覚的表現誘導フレームワークによる弱教師付きサルエント物体検出

A Visual Representation-guided Framework with Global Affinity for Weakly Supervised Salient Object Detection ( http://arxiv.org/abs/2302.10697v2 )

ライセンス: Link先を確認
Binwei Xu, Haoran Liang, Weihua Gong, Ronghua Liang, Peng Chen(参考訳) 完全教師付きサルエントオブジェクト検出(SOD)法は性能に大きな進歩をもたらしたが、これらのモデルは高価なピクセル単位のラベルに大きく依存している。 近年,ラベル付け負荷と性能のトレードオフを実現するために,スクリブル方式のSOD法が注目されている。 従来のスクリブルモデルでは、限られた情報を持つSODトレーニングデータのみに基づいて、SODタスクを直接実装しており、画像を理解し、さらに優れたSODタスクを実現することは極めて困難である。 本稿では,スクリブルに基づくSODのためのコンテキスト意味知識が豊富である汎用視覚表現によってガイドされる,シンプルで効果的なフレームワークを提案する。 これらの一般的な視覚表現は、大規模未ラベルデータセットに基づいた自己教師付き学習によって生成される。 本フレームワークは,タスク関連エンコーダ,汎用視覚モジュール,情報統合モジュールで構成され,汎用視覚表現とタスク関連特徴を効率的に結合し,画像の文脈接続の理解に基づいてsodタスクを実行する。 一方,本研究では,このモデルが有意な対象のグローバルな構造を知覚するための,新たなグローバルなセマンティック親和性損失を提案する。 5つの公開ベンチマークデータセットによる実験結果から,余分なラベルを導入することなくスクリブルアノテーションのみを利用する手法が,最先端の弱教師付きSOD法より優れていることが示された。 具体的には、すべてのデータセットにおいて、以前の最高のスクリブルベースの手法よりも、最大F測定で平均5.5%、平均F測定で平均5.8%、MAEで24%、E測定で3.1%向上した。 さらに,本手法は,最先端の完全教師付きモデルと同等,あるいはさらに優れた性能を実現する。

Fully supervised salient object detection (SOD) methods have made considerable progress in performance, yet these models rely heavily on expensive pixel-wise labels. Recently, to achieve a trade-off between labeling burden and performance, scribble-based SOD methods have attracted increasing attention. Previous scribble-based models directly implement the SOD task only based on SOD training data with limited information, it is extremely difficult for them to understand the image and further achieve a superior SOD task. In this paper, we propose a simple yet effective framework guided by general visual representations with rich contextual semantic knowledge for scribble-based SOD. These general visual representations are generated by self-supervised learning based on large-scale unlabeled datasets. Our framework consists of a task-related encoder, a general visual module, and an information integration module to efficiently combine the general visual representations with task-related features to perform the SOD task based on understanding the contextual connections of images. Meanwhile, we propose a novel global semantic affinity loss to guide the model to perceive the global structure of the salient objects. Experimental results on five public benchmark datasets demonstrate that our method, which only utilizes scribble annotations without introducing any extra label, outperforms the state-of-the-art weakly supervised SOD methods. Specifically, it outperforms the previous best scribble-based method on all datasets with an average gain of 5.5% for max f-measure, 5.8% for mean f-measure, 24% for MAE, and 3.1% for E-measure. Moreover, our method achieves comparable or even superior performance to the state-of-the-art fully supervised models.
翻訳日:2023-06-12 17:26:13 公開日:2023-06-09
# 計測誘起相転移の計測と多成分絡み合い

Metrology and multipartite entanglement in measurement-induced phase transition ( http://arxiv.org/abs/2302.10132v3 )

ライセンス: Link先を確認
Giovanni Di Fresco, Bernardo Spagnolo, Davide Valenti, Angelo Carollo(参考訳) 測定誘起相転移は、決定論的量子進化と繰り返し測定過程の競合から生じる。 量子フィッシャー情報を通して測定誘起相転移を2つの異なるメトロロジカルなシナリオで検討する。 我々は、量子フィッシャー情報のスケーリング動作を通じて、位相間の多粒子交絡の遷移を実演する。 標準量子相転移と同様、測定強度が臨界値に近づくにつれて、量子フィッシャー情報の非解析的挙動における測定誘起相転移のシグネチャが明らかにされる。 以上の結果は、測定誘起相転移中の量子系の特徴に新たな洞察を与え、量子物理学の分野におけるさらなる探究の道筋を示す。

Measurement-induced phase transition arises from the competition between a deterministic quantum evolution and a repeated measurement process. We explore the measurement-induced phase transition through the Quantum Fisher Information in two different metrological scenarios. We demonstrate through the scaling behavior of the quantum Fisher information the transition of the multi-partite entanglement across the phases. In analogy with standard quantum phase transition, we reveal signature of a measurement-induced phase transition in the non-analytic behaviour of the quantum Fisher information as the measurement strength approaches the critical value. Our results offer novel insights into the features of a quantum systems undergoing measurement-induced phase transition and indicate potential avenues for further exploration in the field of quantum physics.
翻訳日:2023-06-12 17:25:44 公開日:2023-06-09
# 回転波近似のない原子場相互作用によるコヒーレント状態の識別

Discrimination of Coherent States via Atom-Field Interaction without Rotation Wave Approximation ( http://arxiv.org/abs/2302.08073v2 )

ライセンス: Link先を確認
Jin-Hua Zhang and Fu-Lin Zhang and Mai-Lin Liang and Zhi-Xi Wang and Shao-Ming Fei(参考訳) 量子状態の識別は量子情報処理の重要な部分である。 我々は,jaynes-cummings(jc)モデルによる回転波近似(rwa)を伴わないコヒーレント状態の識別について検討した。 我々は、RWAがJCモデルから排除され、フィールドの量子効果(例えば、RWAのないJCモデルにおける仮想光子過程)に付随する非RWA項が状態判別を高めるため、最小の故障確率を減少させることができることを示す。 あいまいな状態判別のためのRWAのないJCモデルは、特に逐次測定数が増加すると、あいまいな状態判別よりも優れている。 非RWA JCモデルによって実現されたあいまいな状態識別は、リソースコストの削減に有用である。

The quantum state discrimination is an important part of quantum information processing. We investigate the discrimination of coherent states through Jaynes-Cummings (JC) model interaction between the field and the ancilla without rotation wave approximation (RWA). We show that the minimum failure probability can be reduced as RWA is eliminated from JC model and the non-RWA terms accompanied by the quantum effects of fields (e.g. the virtual photon process in the JC model without RWA) can enhance the state discrimination. The JC model without RWA for unambiguous state discrimination is superior to ambiguous state discrimination, particularly when the number of sequential measurements increases. Unambiguous state discrimination implemented via the non-RWA JC model is beneficial to saving resource cost.
翻訳日:2023-06-12 17:25:35 公開日:2023-06-09
# 因果戦略分類:二つの変遷の物語

Causal Strategic Classification: A Tale of Two Shifts ( http://arxiv.org/abs/2302.06280v3 )

ライセンス: Link先を確認
Guy Horowitz, Nir Rosenfeld(参考訳) 特定の予測結果の恩恵を受けることができる場合、ユーザーは、例えば、戦略的に機能を変更することで、それらの結果を達成するために行動する傾向がある。 戦略分類の目標は、そのような行動に対して堅牢な予測モデルを訓練することである。 しかし、従来のフレームワークでは、機能変更は実際の結果を変えないことを前提としており、ユーザがシステムを“ゲーム化”している。 ここでは、この仮定を取り除き、真の結果が変わる因果戦略的な環境で学習を研究する。 我々の主目的として正確性に注目して、戦略的行動と因果効果が2つの相補的な分布シフトをいかに生み出すかを示す。 これらの変化を特徴付け,これら2つの力と時間とともにバランスをとり,エンドツーエンドのトレーニングを可能にする学習アルゴリズムを提案する。 合成および半合成データ実験により,本手法の有用性が示された。

When users can benefit from certain predictive outcomes, they may be prone to act to achieve those outcome, e.g., by strategically modifying their features. The goal in strategic classification is therefore to train predictive models that are robust to such behavior. However, the conventional framework assumes that changing features does not change actual outcomes, which depicts users as "gaming" the system. Here we remove this assumption, and study learning in a causal strategic setting where true outcomes do change. Focusing on accuracy as our primary objective, we show how strategic behavior and causal effects underlie two complementing forms of distribution shift. We characterize these shifts, and propose a learning algorithm that balances between these two forces and over time, and permits end-to-end training. Experiments on synthetic and semi-synthetic data demonstrate the utility of our approach.
翻訳日:2023-06-12 17:25:22 公開日:2023-06-09
# 双対性ツイスト境界条件をもつ非可積分フロケイジングモデル

Non-integrable Floquet Ising model with duality twisted boundary conditions ( http://arxiv.org/abs/2304.05488v2 )

ライセンス: Link先を確認
Aditi Mitra, Hsiu-Chung Yeh, Fei Yan, and Achim Rosch(参考訳) 双対性ツイスト境界条件を持つフロッケイジング鎖に対して, 4-フェルミオン相互作用の形での弱可積分性の破れの役割を考慮に入れて, 結果が示される。 可積分の場合、単一の孤立マヨラナ零モードが存在し、これはフロケユニタリとフロケユニタリの$Z_2$対称性の両方で可換であるという意味で対称性である。 積分性が弱く、ともに$Z_2$対称性を保存または破る方法で破られるとき、マヨラナ零モードは小さなシステムサイズで保存される。 これは無限温度自己相関関数のダイナミクスに反映され、積分可能性破断項の強さによって制御される初期過渡関数の後、時間とともに崩壊しない台地に近づく。 高原の高さは、数値的に構築された保存量と一致し、システムサイズの増加とともに減少する。 台地の存在とより大きなシステムサイズに対する消滅は、積分可能性と破壊的相互作用によって引き起こされるフォック空間の局所的非局在化遷移と密接に関連していると論じられている。

Results are presented for a Floquet Ising chain with duality twisted boundary conditions, taking into account the role of weak integrability breaking in the form of four-fermion interactions. In the integrable case, a single isolated Majorana zero mode exists which is a symmetry in the sense that it commutes both with the Floquet unitary and the $Z_2$ symmetry of the Floquet unitary. When integrability is weakly broken, both in a manner so as to preserve or break the $Z_2$ symmetry, the Majorana zero mode is still found to be conserved for small system sizes. This is reflected in the dynamics of an infinite temperature autocorrelation function which, after an initial transient that is controlled by the strength of the integrability breaking term, approaches a plateau that does not decay with time. The height of the plateau agrees with a numerically constructed conserved quantity, and is found to decrease with increasing system sizes. It is argued that the existence of the plateau and its vanishing for larger system sizes is closely related to a localization-delocalization transition in Fock space triggered by the integrability-breaking interactions.
翻訳日:2023-06-12 17:17:53 公開日:2023-06-09
# 非平衡モンテカルロシミュレーションによる絡み合いエントロピー

Entanglement entropy from non-equilibrium Monte Carlo simulations ( http://arxiv.org/abs/2304.03311v2 )

ライセンス: Link先を確認
Andrea Bulgarelli, Marco Panero(参考訳) 我々はジャジンスキーの定理に基づくシミュレーションアルゴリズムを用いて格子場理論における絡み合いエントロピーを研究する。 我々は,イジングモデルに対する2次元および3次元のエントロピーc-函数に着目し,2次元の共形場理論による既知の解析結果に対してアルゴリズムを検証した後,3次元の場合の新しい結果を示す。 我々は,グラフィック処理ユニットに高度に並列化されているアルゴリズムを用いて,最近研究されている領域法則に対する部分的修正を精度良く決定できることを示す。 この研究の他の強結合理論への可能な一般化について論じる。

We study the entanglement entropy in lattice field theory using a simulation algorithm based on Jarzynski's theorem. We focus on the entropic c-function for the Ising model in two and in three dimensions: after validating our algorithm against known analytical results from conformal field theory in two dimensions, we present novel results for the three-dimensional case. We show that our algorithm, which is highly parallelized on graphics processing units, allows one to precisely determine the subleading corrections to the area law, which have been investigated in many recent works. Possible generalizations of this study to other strongly coupled theories are discussed.
翻訳日:2023-06-12 17:17:12 公開日:2023-06-09
# YOLOの総合的なレビュー: YOLOv1とBeyond

A Comprehensive Review of YOLO: From YOLOv1 and Beyond ( http://arxiv.org/abs/2304.00501v3 )

ライセンス: Link先を確認
Juan Terven and Diana Cordova-Esparza(参考訳) YOLOは、ロボット工学、無人運転車、ビデオ監視アプリケーションのための中心的なリアルタイムオブジェクト検出システムになっている。 本稿では, YOLOの進化を総合的に分析し, 元のYOLOからYOLOv8, YOLO-NASまでの各イテレーションにおけるイノベーションとコントリビューションについて考察する。 まず、標準メトリクスと後処理を説明し、次に、ネットワークアーキテクチャにおける大きな変化と各モデルに対するトレーニングトリックについて論じる。 最後に, YOLOの開発から重要な教訓を要約し, リアルタイム物体検出システムの実現に向けた研究の方向性を明らかにする。

YOLO has become a central real-time object detection system for robotics, driverless cars, and video monitoring applications. We present a comprehensive analysis of YOLO's evolution, examining the innovations and contributions in each iteration from the original YOLO to YOLOv8 and YOLO-NAS. We start by describing the standard metrics and postprocessing; then, we discuss the major changes in network architecture and training tricks for each model. Finally, we summarize the essential lessons from YOLO's development and provide a perspective on its future, highlighting potential research directions to enhance real-time object detection systems.
翻訳日:2023-06-12 17:17:01 公開日:2023-06-09
# 論証交換による紛争解決による対話的説明

Interactive Explanations by Conflict Resolution via Argumentative Exchanges ( http://arxiv.org/abs/2303.15022v2 )

ライセンス: Link先を確認
Antonio Rago, Hengzhi Li and Francesca Toni(参考訳) 説明可能なAI(XAI)の分野が成熟するにつれて、AIモデルの(アウトプットの)インタラクティブな説明を求める声が高まっている。 本稿では,エージェント間の衝突解決(AIモデルや人間など)を計算的議論に頼って,対話的な説明に焦点をあてる。 具体的には,複数エージェントシステムにおいて,エージェント間の衝突を解決するために,個々のエージェントの定量的双極性議論フレームワークに格納された情報を動的に共有するための議論的交換(axs)を定義する。 次に、マシンと人間がマシンの予測について対話するXAI設定にAXをデプロイする。 XAIに適したAXを特徴付けるいくつかの理論的特性を特定し評価する。 最後に,機械における推論の反現実的パターンを捉え,人間の認知バイアスの影響を強調するなど,様々なエージェント行動を定義することで,XAIのためのAXをインスタンス化する。 実験により(シミュレーション環境において)これらの行動の比較的な利点を競合解決の観点から示し、最強の議論が必ずしも最も効果的であるとは限らないことを示した。

As the field of explainable AI (XAI) is maturing, calls for interactive explanations for (the outputs of) AI models are growing, but the state-of-the-art predominantly focuses on static explanations. In this paper, we focus instead on interactive explanations framed as conflict resolution between agents (i.e. AI models and/or humans) by leveraging on computational argumentation. Specifically, we define Argumentative eXchanges (AXs) for dynamically sharing, in multi-agent systems, information harboured in individual agents' quantitative bipolar argumentation frameworks towards resolving conflicts amongst the agents. We then deploy AXs in the XAI setting in which a machine and a human interact about the machine's predictions. We identify and assess several theoretical properties characterising AXs that are suitable for XAI. Finally, we instantiate AXs for XAI by defining various agent behaviours, e.g. capturing counterfactual patterns of reasoning in machines and highlighting the effects of cognitive biases in humans. We show experimentally (in a simulated environment) the comparative advantages of these behaviours in terms of conflict resolution, and show that the strongest argument may not always be the most effective.
翻訳日:2023-06-12 17:16:26 公開日:2023-06-09
# MGTBench: ベンチマークマシン生成テキスト検出

MGTBench: Benchmarking Machine-Generated Text Detection ( http://arxiv.org/abs/2303.14822v2 )

ライセンス: Link先を確認
Xinlei He and Xinyue Shen and Zeyuan Chen and Michael Backes and Yang Zhang(参考訳) 今日では、テキスト分類、感情分析、言語翻訳、質問応答など、さまざまな自然言語処理(NLP)タスクにおいて、大きな言語モデル(LLM)が革命的な力を示している。 このように、機械生成テキスト(MGT)の検出は、LLMの進歩と普及に伴ってますます重要になっている。 これらのモデルは、人間が書いたテキストと区別しにくい人間のような言語を生成でき、それは、真正性、説明責任、潜在的なバイアスに関する懸念を引き起こす。 しかし,MGTBench と呼ばれるMGT検出のためのベンチマークフレームワークを提案することで,MGT に対する既存の検出手法を異なるモデルアーキテクチャ,データセット,実験条件で評価し,その結果,異なる手法にまたがる包括的な評価フレームワークが欠如している。 ChatGPT(これまで最も代表的で強力なLCM)が生成した公開データセットの広範囲な評価は、現在の検出手法のほとんどがMGTに対して満足度が低いことを示している。 例外的にChatGPT Detectorは、ChatGPT生成したテキストで訓練され、MGTの検出に優れた性能を示す。 ともあれ、MGTの逆転型摂動のごく一部しかChatGPT検出器を回避できないことに留意し、より堅牢なMGT検出方法の必要性を強調した。 MGTBenchは,それぞれのデータセット上での最先端のMGT検出手法の評価や,より高度なMGT検出手法の開発など,将来の調査を加速するためのベンチマークツールとして機能することを期待している。 ソースコードとデータセットはhttps://github.com/xinleihe/mgtbench.com/で利用可能です。

Nowadays large language models (LLMs) have shown revolutionary power in a variety of natural language processing (NLP) tasks such as text classification, sentiment analysis, language translation, and question-answering. In this way, detecting machine-generated texts (MGTs) is becoming increasingly important as LLMs become more advanced and prevalent. These models can generate human-like language that can be difficult to distinguish from text written by a human, which raises concerns about authenticity, accountability, and potential bias. However, existing detection methods against MGTs are evaluated under different model architectures, datasets, and experimental settings, resulting in a lack of a comprehensive evaluation framework across different methodologies In this paper, we fill this gap by proposing the first benchmark framework for MGT detection, named MGTBench. Extensive evaluations on public datasets with curated answers generated by ChatGPT (the most representative and powerful LLMs thus far) show that most of the current detection methods perform less satisfactorily against MGTs. An exceptional case is ChatGPT Detector, which is trained with ChatGPT-generated texts and shows great performance in detecting MGTs. Nonetheless, we note that only a small fraction of adversarial-crafted perturbations on MGTs can evade the ChatGPT Detector, thus highlighting the need for more robust MGT detection methods. We envision that MGTBench will serve as a benchmark tool to accelerate future investigations involving the evaluation of state-of-the-art MGT detection methods on their respective datasets and the development of more advanced MGT detection methods. Our source code and datasets are available at https://github.com/xinleihe/MGTBench.
翻訳日:2023-06-12 17:15:44 公開日:2023-06-09
# 非マルコフ効果を含む導波管-QED系における巨大原子絡み合い

Giant-atom entanglement in waveguide-QED systems including non-Markovian effect ( http://arxiv.org/abs/2303.14746v2 )

ライセンス: Link先を確認
Xian-Li Yin, Jie-Qiao Liao(参考訳) 共用1次元導波路に結合した2つの巨大原子間の量子絡み合いの発生について検討する。 ここで、各巨大原子は2つの異なる結合点で導波路と相互作用する。 単一結合点に対するwigner-weisskopfフレームワークの中で、分割、連結、ネスト結合の3つの異なる結合構成で、2つの巨大原子の進化を支配する時間遅延量子マスター方程式を得る。 各結合構成について、まずは単励起状態と二重励起状態という2つの異なる分離状態にある巨大原子のマルコフ的および非マルコフ的絡み合いダイナミクスを考える。 その結果, 生成した絡み合いは, 位相シフト, 時間遅延, 原子初期状態, 結合構成に依存することがわかった。 単励起初期状態に対しては、暗黒状態の出現によりマルコフ系と非マルコフ系の両方において、各結合に対して定常状態の絡み合いが存在する。 二重励起初期状態については, 両レジームの位相シフトを調整し, 突然の絡み合いを観察した。 特に、ネストカップリングの最大到達可能な絡み合いは、分離結合および連結カップリングのそれよりも約1桁大きい。 また,これら3つの結合構成の最大絡み合いは,時間遅延が小さい場合にも拡張できることがわかった。 この研究は、量子情報処理に幅広い可能性を持つ巨大原子導波路-QED系に基づく量子ネットワークの絡み合いの生成と制御に利用することができる。

We study the generation of quantum entanglement between two giant atoms coupled to a common one-dimensional waveguide. Here each giant atom interacts with the waveguide at two separate coupling points. Within the Wigner-Weisskopf framework for single coupling points, we obtain the time-delayed quantum master equations governing the evolution of the two giant atoms for three different coupling configurations: separated, braided, and nested couplings. For each coupling configuration, we consider both the Markovian and non-Markovian entanglement dynamics of the giant atoms, which are initially in two different separable states: single- and double-excitation states. Our results show that the generated entanglement depends on the phase shift, time delay, atomic initial state, and the coupling configuration. For the single-excitation initial state, there exists the steady-state entanglement for each coupling in both the Markovian and non-Markovian regimes due to the appearance of the dark state. For the double-excitation initial state, we observe entanglement sudden birth via adjusting the phase shift in both regimes. In particular, the maximally achievable entanglement for the nested coupling is about one order of magnitude larger than those of separate and braided couplings. We also find that the maximal entanglement for these three coupling configurations can be enhanced in the case of small time delays. This work can be utilized for the generation and control of entanglement in quantum networks based on giant-atom waveguide-QED systems, which have wide potential applications in quantum information processing.
翻訳日:2023-06-12 17:15:13 公開日:2023-06-09
# 混合系における時間外順序コリケータの平衡に対する古典的アプローチ

Classical approach to equilibrium of out-of-time ordered correlators in mixed systems ( http://arxiv.org/abs/2303.08047v2 )

ライセンス: Link先を確認
Tom\'as Notenson, Ignacio Garc\'ia-Mata, Augusto J. Roncaglia, and Diego A. Wisniacki(参考訳) out-of-time ordered correlator (otoc) は量子情報のスクランブルの尺度である。 スクランブルは直感的にはカオスシステムの重要な特徴であると考えられており、OTOCはカオスの尺度として広く使われている。 短期間、指数的成長は古典的なリアプノフ指数(バタフライ効果と呼ばれることもある)と関連している。 OTOCは長い間、振動可能な平均平衡値を得る。 完全なカオス系では、漸近的体制へのアプローチは古典的なルネ=ポリコット共鳴によって与えられる速度で指数関数的である。 本研究では, 古典的一般化共鳴が, 混合力学系, 特に標準写像のユビキタスな場合におけるotocの平衡緩和を制御していることを示すことにより, この概念を拡張した。

The out-of-time ordered correlator (OTOC) is a measure of scrambling of quantum information. Scrambling is intuitively considered to be a significant feature of chaotic systems and thus the OTOC is widely used as a measure of chaos. For short times exponential growth is related to the classical Lyapunov exponent, sometimes known as butterfly effect. At long times the OTOC attains an average equilibrium value with possible oscillations. For fully chaotic systems the approach to the asymptotic regime is exponential with a rate given by the classical Ruelle-Pollicott resonances. In this work, we extend this notion by showing that classical generalized resonances govern the relaxation to equilibrium of the OTOC in the ubiquitous case of a system with mixed dynamics, in particular, the standard map.
翻訳日:2023-06-12 17:14:51 公開日:2023-06-09
# トップmコンテキスト依存型設計の効率的な学習

Efficient Learning for Selecting Top-m Context-Dependent Designs ( http://arxiv.org/abs/2305.04086v2 )

ライセンス: Link先を確認
Gongbo Zhang, Sihua Chen, Kuihua Huang, Yijie Peng(参考訳) 我々は,すべての文脈におけるトップm設計を決定することを目的とした,文脈依存意思決定のためのシミュレーション最適化問題を考える。 ベイズ・フレームワークの下で, 最適動的サンプリング決定を確率的動的プログラミング問題として定式化し, 各文脈における各設計の性能を効率的に学習するための逐次サンプリング・ポリシーを開発する。 漸近的に最適なサンプリング比を求め、偽選択確率の最悪の場合の最適大きな偏差率を求める。 提案手法は,漸近的サンプリング比が漸近的に最適であることを示す。 数値実験により,提案手法はトップmの文脈依存設計の選択効率を向上することを示した。

We consider a simulation optimization problem for a context-dependent decision-making, which aims to determine the top-m designs for all contexts. Under a Bayesian framework, we formulate the optimal dynamic sampling decision as a stochastic dynamic programming problem, and develop a sequential sampling policy to efficiently learn the performance of each design under each context. The asymptotically optimal sampling ratios are derived to attain the optimal large deviations rate of the worst-case of probability of false selection. The proposed sampling policy is proved to be consistent and its asymptotic sampling ratios are asymptotically optimal. Numerical experiments demonstrate that the proposed method improves the efficiency for selection of top-m context-dependent designs.
翻訳日:2023-06-12 17:08:36 公開日:2023-06-09
# 複数の観測可能な天体の量子速度限界:保存法則、相関法、マクロシステム

Quantum Velocity Limits for Multiple Observables: Conservation Laws, Correlations, and Macroscopic Systems ( http://arxiv.org/abs/2305.03190v2 )

ライセンス: Link先を確認
Ryusuke Hamazaki(参考訳) 複数のオブザーバブルが相互にダイナミクスにどのように影響するかは、統計力学において重要な問題である。 本研究では,非平衡量子力学の定量的かつ厳密な理論を確立すべく,量子速度限界という新しい概念を導入する。 量子速度制限は、複数の可観測体の速度を記述するベクトルの普遍的不等式である。 彼らは、実験的にアクセス可能なものや保存量といった他の観測可能量の知識がある場合、観測可能の速度は、単一の観測可能に対する従来の速度制限と比較して、より厳密な境界を持つことができることを明らかにした。 まず,観測対象の一般化相関行列と量子フィッシャー情報を用いて,情報理論的な速度限界を求める。 速度制限は様々な新しい結果をもたらす。 (i) 量子力学の基本成分である系の保存則は、観測量と保存量との相関を通じて、速度限界を改善することができる。 (ii)可観測物の速度は,他の可観測物の情報から非自明な下限で制限することができる。 (iii)非平衡的トレードオフ関係が存在し、非相関可観測性(例えば、反可換可観測性)の速度が同時に大きくならないこと。 (4) 局所的に相互作用する多体系における局所的なサブシステムの観測可能量に対する速度制限は、熱力学極限においても収束する。 さらに、確率電流の局所保存則に基づいて、複数の観測値に対する別の異なる速度制限を発見し、これは多量のマクロ遷移に有利となる。

How multiple observables mutually influence their dynamics has been a crucial issue in statistical mechanics. We introduce a new concept, "quantum velocity limits," to establish a quantitative and rigorous theory for non-equilibrium quantum dynamics for multiple observables. Quantum velocity limits are universal inequalities for a vector the describes velocities of multiple observables. They elucidate that the speed of an observable of our interest can be tighter bounded when we have knowledge of other observables, such as experimentally accessible ones or conserved quantities, compared with the conventional speed limits for a single observable. We first derive an information-theoretical velocity limit in terms of the generalized correlation matrix of the observables and the quantum Fisher information. The velocity limit has various novel consequences: (i) conservation law in the system, a fundamental ingredient of quantum dynamics, can improve the velocity limits through the correlation between the observables and conserved quantities; (ii) speed of an observable can be bounded by a nontrivial lower bound from the information on another observable; (iii) there exists a notable non-equilibrium tradeoff relation, stating that speeds of uncorrelated observables, e.g., anti-commuting observables, cannot be simultaneously large; (iv) velocity limits for any observables on a local subsystem in locally interacting many-body systems remain convergent even in the thermodynamic limit. Moreover, we discover another distinct velocity limit for multiple observables on the basis of the local conservation law of probability current, which becomes advantageous for macroscopic transitions of multiple quantities.
翻訳日:2023-06-12 17:08:04 公開日:2023-06-09
# スパースモデル適応による効果的な個人化フェデレーション学習

Efficient Personalized Federated Learning via Sparse Model-Adaptation ( http://arxiv.org/abs/2305.02776v2 )

ライセンス: Link先を確認
Daoyuan Chen, Liuyi Yao, Dawei Gao, Bolin Ding, Yaliang Li(参考訳) Federated Learning (FL)は、複数のクライアントで独自のプライベートデータを共有せずに機械学習モデルをトレーニングすることを目的としている。 クライアントのローカルデータ分布の不均一性のため、最近の研究では、補助的グローバルモデルを用いて異なるローカルモデルを学習し、デプロイするパーソナライズされたFLを探索している。 しかし、クライアントは、ローカルなデータ分散だけでなく、計算や通信リソースについても異質である。 パーソナライズされたモデルのキャパシティと効率は、最低リソースのクライアントによって制限され、サブ最適性能とパーソナライズされたFLの実用性が制限される。 これらの課題を克服するために,スパースローカルモデルを適応的かつ効率的に学習することにより,効率的なパーソナライズFLのためのpFedGateという新しいアプローチを提案する。 軽量なトレーニング可能なゲーティング層により、pfedgateは、異種データ分散とリソース制約の両方を考慮に入れて異なるスパースモデルを生成することで、クライアントがモデルキャパシティの完全な潜在能力を実現できる。 一方、モデルスパーシリティとクライアントのリソース間の適合性により、計算と通信効率はともに改善される。 さらに,提案した pFedGate は収束と一般化誤差が保証されるほど複雑であることを示す。 大規模な実験により,pFedGateは最先端の手法よりも優れた大域的精度,個人的精度,効率性が得られた。 pFedGateは、新規クライアント参加や部分クライアント参加のシナリオにおいて競合相手よりも優れた性能を示し、異なるデータ分散に適応した意味の少ないローカルモデルを学ぶことができる。

Federated Learning (FL) aims to train machine learning models for multiple clients without sharing their own private data. Due to the heterogeneity of clients' local data distribution, recent studies explore the personalized FL that learns and deploys distinct local models with the help of auxiliary global models. However, the clients can be heterogeneous in terms of not only local data distribution, but also their computation and communication resources. The capacity and efficiency of personalized models are restricted by the lowest-resource clients, leading to sub-optimal performance and limited practicality of personalized FL. To overcome these challenges, we propose a novel approach named pFedGate for efficient personalized FL by adaptively and efficiently learning sparse local models. With a lightweight trainable gating layer, pFedGate enables clients to reach their full potential in model capacity by generating different sparse models accounting for both the heterogeneous data distributions and resource constraints. Meanwhile, the computation and communication efficiency are both improved thanks to the adaptability between the model sparsity and clients' resources. Further, we theoretically show that the proposed pFedGate has superior complexity with guaranteed convergence and generalization error. Extensive experiments show that pFedGate achieves superior global accuracy, individual accuracy and efficiency simultaneously over state-of-the-art methods. We also demonstrate that pFedGate performs better than competitors in the novel clients participation and partial clients participation scenarios, and can learn meaningful sparse local models adapted to different data distributions.
翻訳日:2023-06-12 17:07:41 公開日:2023-06-09
# 不変特徴によるロバストなマルチビット自然言語透かし

Robust Multi-bit Natural Language Watermarking through Invariant Features ( http://arxiv.org/abs/2305.01904v2 )

ライセンス: Link先を確認
KiYoon Yoo, Wonhyuk Ahn, Jiho Jang, Nojun Kwak(参考訳) 近年,サブスクリプションベースのメディアやウェブの新しいプラットフォーム,大規模言語モデルのアウトプットなどにおいて,貴重な自然言語コンテンツが急増している。 しかし、これらの内容は違法な海賊行為や、適切なセキュリティ対策なしに悪用される可能性がある。 これにより、漏洩追跡や所有権の識別を通じて著作権保護を保証するセキュアな透かしシステムが必要となる。 海賊行為を効果的に防ぎ、著作権を保護するためには、マルチビットの透かしフレームワークが適切な情報を埋め込んで、汚職の可能性にもかかわらず堅牢な方法で透かしを抽出できる必要がある。 本研究では、画像透かしからよく知られた提案に従うことにより、ペイロードとロバスト性の両方を推し進める方法を模索し、小さな汚職に不変な自然言語の特徴を特定する。 さらに, エラー発生源の系統的解析を通じて, 汚損耐性の埋没モデルを提案する。 従来のロバスト性に関する作業では,4つのデータセット,3つの腐敗タイプ,2つの腐敗率の平均値が16.8%向上した。 コードはhttps://github.com/bangawayoo/nlp-watermarking。

Recent years have witnessed a proliferation of valuable original natural language contents found in subscription-based media outlets, web novel platforms, and outputs of large language models. However, these contents are susceptible to illegal piracy and potential misuse without proper security measures. This calls for a secure watermarking system to guarantee copyright protection through leakage tracing or ownership identification. To effectively combat piracy and protect copyrights, a multi-bit watermarking framework should be able to embed adequate bits of information and extract the watermarks in a robust manner despite possible corruption. In this work, we explore ways to advance both payload and robustness by following a well-known proposition from image watermarking and identify features in natural language that are invariant to minor corruption. Through a systematic analysis of the possible sources of errors, we further propose a corruption-resistant infill model. Our full method improves upon the previous work on robustness by +16.8% point on average on four datasets, three corruption types, and two corruption ratios. Code available at https://github.com/bangawayoo/nlp-watermarking.
翻訳日:2023-06-12 17:07:02 公開日:2023-06-09
# 限定的関係抽出のための大規模言語モデルのパワーを解き放つには?

How to Unleash the Power of Large Language Models for Few-shot Relation Extraction? ( http://arxiv.org/abs/2305.01555v4 )

ライセンス: Link先を確認
Xin Xu, Yuqi Zhu, Xiaohan Wang, Ningyu Zhang(参考訳) 言語モデルのスケーリングは、広範囲にわたるnlpタスクに革命をもたらしたが、大規模言語モデルによる限定的な関係抽出を包括的に検討した例はほとんどない。 本稿では,GPT-3.5による一括関係抽出のための基本手法,文脈内学習とデータ生成について,徹底的な実験により検討する。 少数ショットの性能を向上させるため,タスク関連命令とスキーマ制約付きデータ生成を提案する。 コンテキスト内学習は,従来のプロンプト学習手法と同等のパフォーマンスを達成し,大規模言語モデルによるデータ生成は,4つの広く研究された関係抽出データセットに対して,新たな最先端の限定的な結果を得るための,これまでのソリューションを促進できる。 我々の研究が、数ショットの関係抽出における大規模言語モデルの能力に関する将来の研究を刺激することを期待している。 コードはhttps://github.com/zjunlp/DeepKE/tree/main/example/llmで入手できる。

Scaling language models have revolutionized widespread NLP tasks, yet little comprehensively explored few-shot relation extraction with large language models. In this paper, we investigate principal methodologies, in-context learning and data generation, for few-shot relation extraction via GPT-3.5 through exhaustive experiments. To enhance few-shot performance, we further propose task-related instructions and schema-constrained data generation. We observe that in-context learning can achieve performance on par with previous prompt learning approaches, and data generation with the large language model can boost previous solutions to obtain new state-of-the-art few-shot results on four widely-studied relation extraction datasets. We hope our work can inspire future research for the capabilities of large language models in few-shot relation extraction. Code is available in https://github.com/zjunlp/DeepKE/tree/main/example/llm.
翻訳日:2023-06-12 17:06:43 公開日:2023-06-09
# デバイアス条件付き確率最適化

Debiasing Conditional Stochastic Optimization ( http://arxiv.org/abs/2304.10613v2 )

ライセンス: Link先を確認
Lie He and Shiva Prasad Kasiviswanathan(参考訳) 本稿では,ポートフォリオ選択や強化学習,頑健な学習,因果推論など,さまざまな応用をカバーする条件付き確率最適化(CSO)問題について検討する。 csoの目的のサンプル平均勾配はネスト構造のために偏りがあるため、収束に達するには高いサンプル複雑性を必要とする。 バイアスを効果的に低減する一般的な確率的外挿手法を提案する。 非凸な滑らかな目的に対して、この補間と分散低減技術を組み合わせることで、既存の境界よりもはるかに優れたサンプル複雑性が得られることを示す。 さらに,CSO問題の有限サム変量に対する新しいアルゴリズムを開発し,既存の結果を大幅に改善する。 最後に、我々のデバイアス技術は、他の確率的最適化問題における同様の課題に対処するための有用なツールとなる可能性があると信じている。

In this paper, we study the conditional stochastic optimization (CSO) problem which covers a variety of applications including portfolio selection, reinforcement learning, robust learning, causal inference, etc. The sample-averaged gradient of the CSO objective is biased due to its nested structure, and therefore requires a high sample complexity to reach convergence. We introduce a general stochastic extrapolation technique that effectively reduces the bias. We show that for nonconvex smooth objectives, combining this extrapolation with variance reduction techniques can achieve a significantly better sample complexity than existing bounds. Additionally, we develop new algorithms for the finite-sum variant of the CSO problem that also significantly improve upon existing results. Finally, we believe that our debiasing technique has the potential to be a useful tool for addressing similar challenges in other stochastic optimization problems.
翻訳日:2023-06-12 17:06:29 公開日:2023-06-09
# 判別モデルの変数外一般化

Out-of-Variable Generalization for Discriminative Models ( http://arxiv.org/abs/2304.07896v2 )

ライセンス: Link先を確認
Siyuan Guo, Jonas Wildberger, Bernhard Sch\"olkopf(参考訳) エージェントが新しい環境でうまく機能する能力は、知性の重要な側面である。 機械学習では、この機能は$\textit{strong}$または$\textit{out-of-distribution}$ generalizationとして知られている。 しかし,学習環境間の差異を完全に把握するには,データ分布の違いを考慮するだけでは不十分である。 本稿では,これまで共同で観測されなかった変数を持つ環境に関するエージェントの一般化機能に関連する,$\textit{out-of-variable}$の一般化について検討する。 このスキルは、学習をアニメーション化する過程をよく反映している。我々は、常に$\textit{subsets}$の変数を探索し、観察し、測定することで自然を探索する。 数学的には、$\textit{out-of-variable}$ generalization は過去の限界情報の効率的な再利用を必要とする。 重なり合うが、異なる原因の集合を含む環境における予測タスクに着目し、この問題について検討する。 分類器を装着すると、ある環境における残差分布は、その環境における観測されていない因果親に対する真の生成関数の部分微分を明らかにする。 我々は,この情報を活用し,重なり合うが相違する因果予測器の集合に直面する場合の,非自明な変数外一般化性能を示す手法を提案する。

The ability of an agent to do well in new environments is a critical aspect of intelligence. In machine learning, this ability is known as $\textit{strong}$ or $\textit{out-of-distribution}$ generalization. However, merely considering differences in data distributions is inadequate for fully capturing differences between learning environments. In the present paper, we investigate $\textit{out-of-variable}$ generalization, which pertains to an agent's generalization capabilities concerning environments with variables that were never jointly observed before. This skill closely reflects the process of animate learning: we, too, explore Nature by probing, observing, and measuring $\textit{subsets}$ of variables at any given time. Mathematically, $\textit{out-of-variable}$ generalization requires the efficient re-use of past marginal information, i.e., information over subsets of previously observed variables. We study this problem, focusing on prediction tasks across environments that contain overlapping, yet distinct, sets of causes. We show that after fitting a classifier, the residual distribution in one environment reveals the partial derivative of the true generating function with respect to the unobserved causal parent in that environment. We leverage this information and propose a method that exhibits non-trivial out-of-variable generalization performance when facing an overlapping, yet distinct, set of causal predictors.
翻訳日:2023-06-12 17:06:17 公開日:2023-06-09
# 線上の線伸張ダンクル発振器

Rationally-extended Dunkl oscillator on the line ( http://arxiv.org/abs/2304.05846v2 )

ライセンス: Link先を確認
C. Quesne(参考訳) ダンクル多項式による通常の微分の置き換えと古典直交多項式の例外的直交多項式の置き換えと、正確に解ける量子力学的問題の拡張は容易に結合できることが示されている。 このような目的のために、線上のダンクル発振器の例を検討し、3種類の有理拡張ダンクル発振器を構築する。 対応する波動関数は、X_m$-Laguerre の3つの異なるタイプの直交多項式の項で定義される、例外的直交一般化エルミート多項式の項で表される。 さらに、拡張ダンクル振動子ハミルトニアンは、拡張ダンクル微分といくつかの非調和振動子ポテンシャルの観点から表現可能であることが示されている。

It is shown that the extensions of exactly-solvable quantum mechanical problems connected with the replacement of ordinary derivatives by Dunkl ones and with that of classical orthogonal polynomials by exceptional orthogonal ones can be easily combined. For such a purpose, the example of the Dunkl oscillator on the line is considered and three different types of rationally-extended Dunkl oscillators are constructed. The corresponding wavefunctions are expressed in terms of exceptional orthogonal generalized Hermite polynomials, defined in terms of the three different types of $X_m$-Laguerre exceptional orthogonal polynomials. Furthermore, the extended Dunkl oscillator Hamiltonians are shown to be expressible in terms of some extended Dunkl derivatives and some anharmonic oscillator potentials.
翻訳日:2023-06-12 17:05:54 公開日:2023-06-09
# 単一画像超解像用高能率混合変圧器

Efficient Mixed Transformer for Single Image Super-Resolution ( http://arxiv.org/abs/2305.11403v4 )

ライセンス: Link先を確認
Ling Zheng, Jinchen Zhu, Jinpeng Shi, Shizhuang Weng(参考訳) 近年,変圧器を用いた手法は単一画像超解像法 (sisr) で印象的な結果を得ている。 しかし、局所性機構の欠如と高複雑性は超解像(SR)の分野における応用を制限する。 これらの問題を解決するため,本研究ではEMT(Efficient Mixed Transformer)を提案する。 具体的には,複数の連続トランス層からなるMixed Transformer Block (MTB)を提案する。 PMはピクセルシフト操作によって局所的な知識集約を強化することができる。 pmにはパラメータや浮動小数点演算がないため、追加の複雑さは導入されない。 さらに、画像異方性を利用して、効率的なグローバル依存モデリングを実現するために、SA(SWSA)のストライプウィンドウを用いる。 実験結果から,EMTはベンチマークデータセット上で既存の手法よりも優れ,最先端の性能を達成した。 コードはhttps://github.com/Fried-Rice-Lab/FriedRiceLabで入手できる。

Recently, Transformer-based methods have achieved impressive results in single image super-resolution (SISR). However, the lack of locality mechanism and high complexity limit their application in the field of super-resolution (SR). To solve these problems, we propose a new method, Efficient Mixed Transformer (EMT) in this study. Specifically, we propose the Mixed Transformer Block (MTB), consisting of multiple consecutive transformer layers, in some of which the Pixel Mixer (PM) is used to replace the Self-Attention (SA). PM can enhance the local knowledge aggregation with pixel shifting operations. At the same time, no additional complexity is introduced as PM has no parameters and floating-point operations. Moreover, we employ striped window for SA (SWSA) to gain an efficient global dependency modelling by utilizing image anisotropy. Experimental results show that EMT outperforms the existing methods on benchmark dataset and achieved state-of-the-art performance. The Code is available at https://github.com/Fried-Rice-Lab/FriedRiceLab.
翻訳日:2023-06-12 16:47:00 公開日:2023-06-09
# Chain-of-Thought Prompting による無作為感の推論

Reasoning Implicit Sentiment with Chain-of-Thought Prompting ( http://arxiv.org/abs/2305.11255v4 )

ライセンス: Link先を確認
Hao Fei, Bobo Li, Qian Liu, Lidong Bing, Fei Li, Tat-Seng Chua(参考訳) 感情分析システムは、入力テキストにおける主要な意見表現に基づいて、与えられた目標の感情極性を決定する一方で、暗黙的な感情分析(ISA)では、意見の手がかりは暗黙的で曖昧な方法で現れる。 したがって、暗黙の感情を検出するには、意見の潜在意図を推測する常識とマルチホップ推論能力が必要である。 最近のチェーン・オブ・思想(CoT)のアイデアにインスパイアされた本研究では、ISAの人間的な推論プロセスを模倣するThree-hop Reasoning(THOR) CoTフレームワークを紹介します。 我々は、THORが暗黙の側面、意見、そして最後に感情の極性を段階的に誘導する3段階の原理を設計する。 我々のTHOR+Flan-T5 (11B)は、監督設定で最先端(SoTA)を6%以上押し上げます。 さらに驚くべきことに、THOR+GPT3 (175B)はゼロショット設定でSoTAを50%以上押し上げる。 私たちのコードはhttps://github.com/scofield7419/THOR-ISAで公開されています。

While sentiment analysis systems try to determine the sentiment polarities of given targets based on the key opinion expressions in input texts, in implicit sentiment analysis (ISA) the opinion cues come in an implicit and obscure manner. Thus detecting implicit sentiment requires the common-sense and multi-hop reasoning ability to infer the latent intent of opinion. Inspired by the recent chain-of-thought (CoT) idea, in this work we introduce a Three-hop Reasoning (THOR) CoT framework to mimic the human-like reasoning process for ISA. We design a three-step prompting principle for THOR to step-by-step induce the implicit aspect, opinion, and finally the sentiment polarity. Our THOR+Flan-T5 (11B) pushes the state-of-the-art (SoTA) by over 6% F1 on supervised setup. More strikingly, THOR+GPT3 (175B) boosts the SoTA by over 50% F1 on zero-shot setting. Our code is open at https://github.com/scofield7419/THOR-ISA.
翻訳日:2023-06-12 16:46:43 公開日:2023-06-09
# 暗黙と双方向のカリキュラムによるデモなし自律強化学習

Demonstration-free Autonomous Reinforcement Learning via Implicit and Bidirectional Curriculum ( http://arxiv.org/abs/2305.09943v2 )

ライセンス: Link先を確認
Jigang Kim, Daesol Cho, H. Jin Kim(参考訳) 強化学習(RL)は環境相互作用のみから複雑なスキルを習得することに成功したが、各エピソードの最後には初期状態へのリセットが容易に利用できると仮定する。 このような仮定は、物理的な世界でリセットするための時間と面倒な回避策のために、エンボディエージェントの自律的な学習を妨げる。 したがって、非エポゾリック相互作用から学習できる自律的RL(ARL)手法への関心が高まっている。 しかしながら、arlの既存の作業は、事前のデータに依存することによる制限があり、タスク関連の相互作用が不十分な環境では学習できない。 一方,Implicit と Bi-directional Curriculum (IBC) を用いた実演自由ARLアルゴリズムを提案する。 学習の進捗に応じて条件付きで活性化される補助エージェントと、最適輸送に基づく双方向のゴールカリキュラムにより、本手法は、実証を利用するエージェントよりも優れた性能を発揮する。

While reinforcement learning (RL) has achieved great success in acquiring complex skills solely from environmental interactions, it assumes that resets to the initial state are readily available at the end of each episode. Such an assumption hinders the autonomous learning of embodied agents due to the time-consuming and cumbersome workarounds for resetting in the physical world. Hence, there has been a growing interest in autonomous RL (ARL) methods that are capable of learning from non-episodic interactions. However, existing works on ARL are limited by their reliance on prior data and are unable to learn in environments where task-relevant interactions are sparse. In contrast, we propose a demonstration-free ARL algorithm via Implicit and Bi-directional Curriculum (IBC). With an auxiliary agent that is conditionally activated upon learning progress and a bidirectional goal curriculum based on optimal transport, our method outperforms previous methods, even the ones that leverage demonstrations.
翻訳日:2023-06-12 16:46:24 公開日:2023-06-09
# 共変量シフト適応のための二重重み付け

Double-Weighting for Covariate Shift Adaptation ( http://arxiv.org/abs/2305.08637v3 )

ライセンス: Link先を確認
Jos\'e I. Segovia-Mart\'in, Santiago Mazuelas, and Anqi Liu(参考訳) 教師付き学習は、トレーニングおよびテストサンプルのインスタンス(covariates $x$)の限界分布である$\mathrm{p}_\text{tr}(x)$と$\mathrm{p}_\text{te}(x)$が異なるが、ラベル条件が一致する共変量シフトによってしばしば影響を受ける。 既存のアプローチでは、比 $\mathrm{p}_\text{te}(x)/\mathrm{p}_\text{tr}(x)$ to weight training sample (reweighted methods)または比 $\mathrm{p}_\text{tr}(x)/\mathrm{p}_\text{te}(x)$ to weight testing sample (robust methods)を使用して、このような共変量シフトに対処する。 しかし、そのような手法の性能は、サポートミスマッチや上記の比率が大きな値を取る場合、劣る可能性がある。 本稿では,トレーニングとテストサンプルの重み付けによる制限を回避するために,共変量シフト適応のためのミニマックスリスク分類(mrc)手法を提案する。 さらに,重みを両立させ,従来のカーネル平均マッチング法を一般化する効果的な手法を開発した。 提案手法は,再重み付け法に比べて有効試料サイズが有意に増加することを示す新しい一般化境界を提供する。 提案手法は, 合成実験と実験実験の両方において, 高度な分類性能を実現する。

Supervised learning is often affected by a covariate shift in which the marginal distributions of instances (covariates $x$) of training and testing samples $\mathrm{p}_\text{tr}(x)$ and $\mathrm{p}_\text{te}(x)$ are different but the label conditionals coincide. Existing approaches address such covariate shift by either using the ratio $\mathrm{p}_\text{te}(x)/\mathrm{p}_\text{tr}(x)$ to weight training samples (reweighted methods) or using the ratio $\mathrm{p}_\text{tr}(x)/\mathrm{p}_\text{te}(x)$ to weight testing samples (robust methods). However, the performance of such approaches can be poor under support mismatch or when the above ratios take large values. We propose a minimax risk classification (MRC) approach for covariate shift adaptation that avoids such limitations by weighting both training and testing samples. In addition, we develop effective techniques that obtain both sets of weights and generalize the conventional kernel mean matching method. We provide novel generalization bounds for our method that show a significant increase in the effective sample size compared with reweighted methods. The proposed method also achieves enhanced classification performance in both synthetic and empirical experiments.
翻訳日:2023-06-12 16:46:08 公開日:2023-06-09
# 3次元非教師付き(深く)教師付きニューラルネットワークを用いた多孔質部品のボクセルワイズ分類

Voxel-wise classification for porosity investigation of additive manufactured parts with 3D unsupervised and (deeply) supervised neural networks ( http://arxiv.org/abs/2305.07894v2 )

ライセンス: Link先を確認
Domenico Iuso, Soumick Chatterjee, Sven Cornelissen, Dries Verhees, Jan De Beenhouwer, Jan Sijbers(参考訳) アダプティブ・マニュファクチャリング(AM)は、デジタルモデルからサンプルを直接生産できる製造プロセスとして登場した。 バッチのすべての製造サンプルで品質基準が満たされることを保証するため、X線CT(Computerd Tomography)が自動異常検出と組み合わせられることが多い。 後者では、画像品質の低下に対して分析され、耐性がある材料に対して堅牢であるように訓練できるため、ディープラーニング(DL)異常検出技術が増えている。 残念なことに、最近のDLモデルは2次元画像処理のために開発されており、貴重なボリューム情報を無視している。 本研究は,X-CT画像からのAMサンプルのポロシティ解析のための非教師付き (UNet, UNet++, UNet 3+, MSS-UNet) と非教師付き (VAE, ceVAE, gmVAE, vqVAE) DLモデルを再検討し, 3次元パッチパイプラインを用いて3次元入力データを受け入れるように拡張した。 教師付きモデルはFocal Tversky損失を用いてトレーニングされ、トレーニングデータセットの低いポロシティから生じるクラス不均衡に対処した。 教師なしモデルの出力は、オブジェクト表面を適切に表現できないことによる誤分類を減らすために後処理される。 その結果,DLモデルの性能ベンチマーク,ポストプロセッシングアルゴリズムの評価,教師なしモデルの出力による教師なしモデルのトレーニング効果の評価など,5倍の精度で検証された。 イメージ品質の悪いテストセットの最終的なパフォーマンスベンチマークでは、最高のパフォーマンス管理モデルは平均精度0.751$\pm$0.030のUNet++であり、最も優れた教師なしモデルは処理後のceVAE 0.830$\pm$0.003である。 VAE/ceVAEモデルは特に後処理技術を活用する際に優れた性能を示した。

Additive Manufacturing (AM) has emerged as a manufacturing process that allows the direct production of samples from digital models. To ensure that quality standards are met in all manufactured samples of a batch, X-ray computed tomography (X-CT) is often used combined with automated anomaly detection. For the latter, deep learning (DL) anomaly detection techniques are increasingly, as they can be trained to be robust to the material being analysed and resilient towards poor image quality. Unfortunately, most recent and popular DL models have been developed for 2D image processing, thereby disregarding valuable volumetric information. This study revisits recent supervised (UNet, UNet++, UNet 3+, MSS-UNet) and unsupervised (VAE, ceVAE, gmVAE, vqVAE) DL models for porosity analysis of AM samples from X-CT images and extends them to accept 3D input data with a 3D-patch pipeline for lower computational requirements, improved efficiency and generalisability. The supervised models were trained using the Focal Tversky loss to address class imbalance that arises from the low porosity in the training datasets. The output of the unsupervised models is post-processed to reduce misclassifications caused by their inability to adequately represent the object surface. The findings were cross-validated in a 5-fold fashion and include: a performance benchmark of the DL models, an evaluation of the post-processing algorithm, an evaluation of the effect of training supervised models with the output of unsupervised models. In a final performance benchmark on a test set with poor image quality, the best performing supervised model was UNet++ with an average precision of 0.751 $\pm$ 0.030, while the best unsupervised model was the post-processed ceVAE with 0.830 $\pm$ 0.003. The VAE/ceVAE models demonstrated superior capabilities, particularly when leveraging post-processing techniques.
翻訳日:2023-06-12 16:45:33 公開日:2023-06-09
# 重み付きパッチ品質予測による非参照点クラウド品質評価

No-Reference Point Cloud Quality Assessment via Weighted Patch Quality Prediction ( http://arxiv.org/abs/2305.07829v2 )

ライセンス: Link先を確認
Jun Cheng, Honglei Su, Jari Korhonen(参考訳) ポイントクラウドに基づく3Dビジョンアプリケーションの開発が急速に進み、ポイントクラウド品質評価(PCQA)が重要な研究トピックになりつつある。 しかし、従来のPCQA手法では、点雲の異なる領域における局所的な品質変動の影響を無視する。 品質分布不均衡の利点を生かし,地域相関解析機能を備えた非参照点雲質評価法(NR-PCQA)を提案する。 具体的には、ポイントクラウドをパッチに分割し、各パッチのテクスチャと構造機能を生成し、それらをパッチ機能に融合してパッチ品質を予測します。 そして,相関解析のために点雲のすべてのパッチの特徴を収集し,相関重みを求める。 最後に、すべてのパッチに対する予測品質と相関重みを用いて最終的な品質スコアを導出する。 実験の結果,提案手法はNR-PCQA法よりも優れていた。 COPP-Netのソースコードはhttps://github.com/philox12358/COPP-Netにある。

With the rapid development of 3D vision applications based on point clouds, point cloud quality assessment(PCQA) is becoming an important research topic. However, the prior PCQA methods ignore the effect of local quality variance across different areas of the point cloud. To take an advantage of the quality distribution imbalance, we propose a no-reference point cloud quality assessment (NR-PCQA) method with local area correlation analysis capability, denoted as COPP-Net. More specifically, we split a point cloud into patches, generate texture and structure features for each patch, and fuse them into patch features to predict patch quality. Then, we gather the features of all the patches of a point cloud for correlation analysis, to obtain the correlation weights. Finally, the predicted qualities and correlation weights for all the patches are used to derive the final quality score. Experimental results show that our method outperforms the state-of-the-art benchmark NR-PCQA methods. The source code for the proposed COPP-Net can be found at https://github.com/philox12358/COPP-Net.
翻訳日:2023-06-12 16:44:53 公開日:2023-06-09
# 確率射とカーネル平均埋め込みによる教師付き学習

Supervised learning with probabilistic morphisms and kernel mean embeddings ( http://arxiv.org/abs/2305.06348v4 )

ライセンス: Link先を確認
H\^ong V\^an L\^e(参考訳) 本稿では,入力空間 $\mathcal{x}$ とラベル空間 $\mathcal{y}$ に対する教師付き学習の生成モデルにおける正しい損失関数の概念を提案する。 教師付き学習の生成モデルにおける正しい損失関数は、たとえスーパーバイザオペレータが$\mathcal{h}$に属していなくても、可能な予測者とスーパーバイザオペレータの仮説空間 $\mathcal{h}$ の要素間の不一致を正確に測定しなければならない。 正しい損失関数を定義するために、確率測度 $\mu$ on $\mathcal{x} \times \mathcal{y}$ に対する正規条件付き確率測度 $\mu_{\mathcal{y}|\mathcal{x}}$ を、線型作用素方程式の解として、$\pi_{\mathcal{x}}: \mathcal{x}\times\mathcal{y}\to \mathcal{x}$ に対して特徴づける。 もし$\mathcal{Y}$ がボレル$\sigma$-algebra $ \mathcal{B} (\mathcal{Y})$ を持つ分離可測距離空間であれば、正則な条件確率測度 $\mu_{\mathcal{Y}|\mathcal{X}}$ はマルコフ核の空間上の平均二乗誤差の最小化として、$\mathcal{X}$ から $\mathcal{Y}$ への可算射として特徴づけられる。 この特徴付けはカーネル平均埋め込みを利用する。 これらの結果を基にして,学習アルゴリズムの一般化可能性の定量化に内部尺度を用い,回帰モデルの学習可能性に対処するcucker-smaleの結果を条件付き確率推定問題に拡張する。 さらに,確率的不正問題を解くためのVapnikの正規化手法の変種を提案し,内部測度を導入し,その応用例を示した。

In this paper I propose a concept of a correct loss function in a generative model of supervised learning for an input space $\mathcal{X}$ and a label space $\mathcal{Y}$, both of which are measurable spaces. A correct loss function in a generative model of supervised learning must accurately measure the discrepancy between elements of a hypothesis space $\mathcal{H}$ of possible predictors and the supervisor operator, even when the supervisor operator does not belong to $\mathcal{H}$. To define correct loss functions, I propose a characterization of a regular conditional probability measure $\mu_{\mathcal{Y}|\mathcal{X}}$ for a probability measure $\mu$ on $\mathcal{X} \times \mathcal{Y}$ relative to the projection $\Pi_{\mathcal{X}}: \mathcal{X}\times\mathcal{Y}\to \mathcal{X}$ as a solution of a linear operator equation. If $\mathcal{Y}$ is a separable metrizable topological space with the Borel $\sigma$-algebra $ \mathcal{B} (\mathcal{Y})$, I propose an additional characterization of a regular conditional probability measure $\mu_{\mathcal{Y}|\mathcal{X}}$ as a minimizer of mean square error on the space of Markov kernels, referred to as probabilistic morphisms, from $\mathcal{X}$ to $\mathcal{Y}$. This characterization utilizes kernel mean embeddings. Building upon these results and employing inner measure to quantify the generalizability of a learning algorithm, I extend a result due to Cucker-Smale, which addresses the learnability of a regression model, to the setting of a conditional probability estimation problem. Additionally, I present a variant of Vapnik's regularization method for solving stochastic ill-posed problems, incorporating inner measure, and showcase its applications.
翻訳日:2023-06-12 16:44:37 公開日:2023-06-09
# フルランク多部製品状態の分離可能なボール

Separable Ball around any Full-Rank Multipartite Product State ( http://arxiv.org/abs/2305.05686v2 )

ライセンス: Link先を確認
Robin Yunfei Wen, Achim Kempf(参考訳) m$-partite product state $\rho_{\rm prod}=\rho_1\otimes ...\otimes\rho_m$ of full rank ( That is ${\rm det}(\rho_{\rm prod})\neq 0)$, $\rho_{\rm prod}$を中心とする分離可能な状態の有限サイズの閉球が存在し、半径が$\beta:=2^{1-m/2}\lambda_{\rm min}(\rho_{\rm prod})$であることを示す。 ここで、$\lambda_{\rm min}(\rho_{\rm prod})$は$\rho_{\rm prod}$の最小の固有値である。 我々は全ヒルベルト空間が有限次元であると仮定し、フロベニウスノルムによって誘導される距離の概念を用いる。 スケーリング関係を適用すれば、トレースに基づく複数粒子分離性に対する新しい、かつ単純な十分な基準を与えることができる: ${\rm Tr}[\rho\rho_{\rm prod}]^2/{\rm Tr}[\rho^2]\geq {\rm Tr}[\rho_{\rm prod}^2]-\beta^2$。 フルランク積状態の周りの分離可能な球を用いて、すべての分離可能な状態の集合にとって重要な特徴である、任意の多部分離可能な状態における分離可能な球の存在とサイズについて論じる。 これらの分離可能な球が絡み合い力学に与える影響について論じる。

We show that around any $m$-partite product state $\rho_{\rm prod}=\rho_1\otimes...\otimes\rho_m$ of full rank (that is ${\rm det}(\rho_{\rm prod})\neq 0)$, there exists a finite-sized closed ball of separable states centered around $\rho_{\rm prod}$ whose radius is $\beta:=2^{1-m/2}\lambda_{\rm min}(\rho_{\rm prod})$. Here, $\lambda_{\rm min}(\rho_{\rm prod})$ is the smallest eigenvalue of $\rho_{\rm prod}$. We are assuming that the total Hilbert space is finite dimensional and we use the notion of distance induced by the Frobenius norm. Applying a scaling relation, we also give a new and simple sufficient criterion for multipartite separability based on trace: ${\rm Tr}[\rho\rho_{\rm prod}]^2/{\rm Tr}[\rho^2]\geq {\rm Tr}[\rho_{\rm prod}^2]-\beta^2$. Using the separable balls around the full-rank product states, we discuss the existence and possible sizes of separable balls around any multipartite separable states, which are important features for the set of all separable states. We discuss the implication of these separable balls on entanglement dynamics.
翻訳日:2023-06-12 16:43:42 公開日:2023-06-09
# インコンテキストの例は構成の一般化にどのように影響するか?

How Do In-Context Examples Affect Compositional Generalization? ( http://arxiv.org/abs/2305.04835v3 )

ライセンス: Link先を確認
Shengnan An, Zeqi Lin, Qiang Fu, Bei Chen, Nanning Zheng, Jian-Guang Lou and Dongmei Zhang(参考訳) 構成的一般化 - 目に見えないプリミティブの組み合わせを理解することは、人間の知性に不可欠な推論能力である。 AIコミュニティは、主に、多くのトレーニングサンプルでニューラルネットワークを微調整することによって、この能力を研究する。 本稿では,コンテクスト内構成一般化のためのテストスイートCoFeを提案する。 その結果, 合成汎化性能は, 文脈内サンプルの選択によって容易に影響を受けることが判明し, 構成的一般化のための良質な文脈内サンプルを作成する上で, 重要な要因は何かという研究課題が提起された。 類似性,多様性,複雑性の3つの要因について検討した。 我々の系統実験は、文脈内サンプルは、テストケースと構造的に似ており、互いに異なっており、個別に単純であることを示す。 さらに、2つの強い制限が観察される: 架空の単語に対する文脈内合成一般化は、一般的に使われるものよりもはるかに弱い; バックボーンモデルが大きなコーパス上で事前訓練されているにもかかわらず、文脈内例が要求される言語構造をカバーすることが依然として重要である。 我々の分析が文脈内学習パラダイムの理解と活用を促進することを願っている。

Compositional generalization--understanding unseen combinations of seen primitives--is an essential reasoning capability in human intelligence. The AI community mainly studies this capability by fine-tuning neural networks on lots of training samples, while it is still unclear whether and how in-context learning--the prevailing few-shot paradigm based on large language models--exhibits compositional generalization. In this paper, we present CoFe, a test suite to investigate in-context compositional generalization. We find that the compositional generalization performance can be easily affected by the selection of in-context examples, thus raising the research question what the key factors are to make good in-context examples for compositional generalization. We study three potential factors: similarity, diversity and complexity. Our systematic experiments indicate that in-context examples should be structurally similar to the test case, diverse from each other, and individually simple. Furthermore, two strong limitations are observed: in-context compositional generalization on fictional words is much weaker than that on commonly used ones; it is still critical that the in-context examples should cover required linguistic structures, even though the backbone model has been pre-trained on large corpus. We hope our analysis would facilitate the understanding and utilization of in-context learning paradigm.
翻訳日:2023-06-12 16:43:02 公開日:2023-06-09
# sega: グラフコントラスト学習のための構造エントロピー誘導アンカービュー

SEGA: Structural Entropy Guided Anchor View for Graph Contrastive Learning ( http://arxiv.org/abs/2305.04501v2 )

ライセンス: Link先を確認
Junran Wu, Xueyuan Chen, Bowen Shi, Shangzhe Li, Ke Xu(参考訳) 対照的な学習において、 ``view'' の選択は、その表現がモデルのパフォーマンスを捉え、影響する情報を制御する。 しかし、主要なグラフの対比学習手法は、一般にランダムな腐敗や学習によってビューを生成し、本質的な情報を失うことや意味情報の改変につながる可能性がある。 コントラスト学習のための入力グラフの必須情報を維持するアンカービューはほとんど研究されていない。 本稿では,グラフ情報ボトルネックの理論に基づいて,このアンカービューの定義を導出する。 さらに,構造エントロピーに導かれ,グラフコントラスト学習のためのアンカービューである \textbf{sega} を実装した。 我々は,教師なし,半教師なし,転送学習の下でのグラフ分類に関する様々なベンチマークにおいて,提案手法のアンカービューを広範囲に検証し,最先端手法と比較して有意な性能向上を達成した。

In contrastive learning, the choice of ``view'' controls the information that the representation captures and influences the performance of the model. However, leading graph contrastive learning methods generally produce views via random corruption or learning, which could lead to the loss of essential information and alteration of semantic information. An anchor view that maintains the essential information of input graphs for contrastive learning has been hardly investigated. In this paper, based on the theory of graph information bottleneck, we deduce the definition of this anchor view; put differently, \textit{the anchor view with essential information of input graph is supposed to have the minimal structural uncertainty}. Furthermore, guided by structural entropy, we implement the anchor view, termed \textbf{SEGA}, for graph contrastive learning. We extensively validate the proposed anchor view on various benchmarks regarding graph classification under unsupervised, semi-supervised, and transfer learning and achieve significant performance boosts compared to the state-of-the-art methods.
翻訳日:2023-06-12 16:42:40 公開日:2023-06-09
# 情報損失・混合・創発型III$_1$因子

Information loss, mixing and emergent type III$_1$ factors ( http://arxiv.org/abs/2305.16028v3 )

ライセンス: Link先を確認
Keiichiro Furuya, Nima Lashkari, Mudassir Moosa, Shoy Ouseph(参考訳) ブラックホール情報損失問題の顕在化は、大規模な反ド・ジッターブラックホールにおけるプローブ作用素の2点関数が時間内に崩壊するのに対して、境界CFTでは、ほぼ周期的な時間関数であることが期待されている。 二点関数(時間的クラスター化)の崩壊は、量子重力における可観測代数、状態、および力学の性質にとって重要な手がかりである。 時間内にクラスタ化する演算子を"混合"と呼び、混合に必要な十分な条件を探索します。 情報損失問題は、I型代数では混合作用素が存在しないという主張の特別な場合である。 熱場二重(kms状態)において、混合作用素が(乗法の下で)代数を形成するならば、結果として得られる代数はフォン・ノイマン型iii$_1$因子でなければならない。 言い換えると、すべての非保存作用素が拡散する物理的に直感的な要件は非常に強く、可観測代数をiii$_1$因子と呼ばれるエキゾチックな代数に固定する。 より一般に、一般量子系の任意の平衡状態 (von Neumann algebra) に対して、モジュラフローの下で混合する作用素の集合が代数を形成するとき、III$_1$ von Neumann factor であることを示す。 一般化自由体の理論(GFF)において、GFFクラスタの時間における2点函数がすべての作用素が混合され、代数がタイプIII$_1$因子であることが示される。 例えば、$\mathscr{N=4}$ SYM において、ホーキング・ページ相転移より上、単一のトレース作用素のクラスタリングは、代数がIII$_1$因子の型であることを示し、最近ルーテウスとリューの予想を定めている。 時間帯域に関連する GFF の C$^*$-algebra と von Neumann の部分代数を明示的に構成し、より一般的には HKLL 再構成写像を用いてバルク時空の開集合を構成する。

A manifestation of the black hole information loss problem is that the two-point function of probe operators in a large Anti-de Sitter black hole decays in time, whereas, on the boundary CFT, it is expected to be an almost periodic function of time. We point out that the decay of the two-point function (clustering in time) holds important clues to the nature of observable algebras, states, and dynamics in quantum gravity. We call operators that cluster in time "mixing" and explore the necessary and sufficient conditions for mixing. The information loss problem is a special case of the statement that in type I algebras, there exists no mixing operators. We prove that, in a thermofield double (KMS state), if mixing operators form an algebra (close under multiplication) the resulting algebra must be a von Neumann type III$_1$ factor. In other words, the physically intuitive requirement that all non-conserved operators should diffuse is so strong that it fixes the observable algebra to be an exotic algebra called a type III$_1$ factor. More generally, for an arbitrary out-of-equilibrium state of a general quantum system (von Neumann algebra), we show that if the set of operators that mix under modular flow forms an algebra it is a type III$_1$ von Neumann factor. In a theory of Generalized Free Fields (GFF), we show that if the two-point function of GFF clusters in time all operators are mixing, and the algebra is a type III$_1$ factor. For instance, in $\mathscr{N=4}$ SYM, above the Hawking-Page phase transition, clustering of the single trace operators implies that the algebra is a type III$_1$ factor, settling a recent conjecture of Leutheusser and Liu. We explicitly construct the C$^*$-algebra and von Neumann subalgebras of GFF associated with time bands and more generally, open sets of the bulk spacetime using the HKLL reconstruction map.
翻訳日:2023-06-12 16:37:46 公開日:2023-06-09
# モデルミス種別に基づくシミュレーションに基づく推論のためのロバスト統計の学習

Learning Robust Statistics for Simulation-based Inference under Model Misspecification ( http://arxiv.org/abs/2305.15871v2 )

ライセンス: Link先を確認
Daolang Huang, Ayush Bharti, Amauri Souza, Luigi Acerbi, Samuel Kaski(参考訳) 近似ベイズ計算(abc)、合成可能性、ニューラル後方推定(npe)のようなシミュレーションベース推論(sbi)法は、統計をシミュレートし、難解な確率モデルのパラメータを推定する。 しかし、そのような手法はモデル不特定の下で不確実で誤解を招く推論結果をもたらすことが知られており、その適用性を妨げている。 本稿では,sbiメソッドの異なるクラスにまたがるモデル誤特定を扱うための,最初の一般的なアプローチを提案する。 統計の選択がSBIの誤識別の度合いを決定するという事実を活かして、データとモデル間のミスマッチを増加させる統計を解析する正規化損失関数を導入する。 実例として NPE と ABC を用いて, 人工的に不特定な高次元時系列モデルにおいて, 提案手法の優れた性能を示す。 また,提案手法を,モデルが不特定であることが知られている電波伝搬領域からの実データに適用する。 提案手法は,モデルが適切に特定された場合にも正確でありながら,不特定シナリオにおいて頑健な推論をもたらすことを示す。

Simulation-based inference (SBI) methods such as approximate Bayesian computation (ABC), synthetic likelihood, and neural posterior estimation (NPE) rely on simulating statistics to infer parameters of intractable likelihood models. However, such methods are known to yield untrustworthy and misleading inference outcomes under model misspecification, thus hindering their widespread applicability. In this work, we propose the first general approach to handle model misspecification that works across different classes of SBI methods. Leveraging the fact that the choice of statistics determines the degree of misspecification in SBI, we introduce a regularized loss function that penalises those statistics that increase the mismatch between the data and the model. Taking NPE and ABC as use cases, we demonstrate the superior performance of our method on high-dimensional time-series models that are artificially misspecified. We also apply our method to real data from the field of radio propagation where the model is known to be misspecified. We show empirically that the method yields robust inference in misspecified scenarios, whilst still being accurate when the model is well-specified.
翻訳日:2023-06-12 16:36:52 公開日:2023-06-09
# シャープネスを意識した最小化:正規化用語としての重み付きシャープネス

Sharpness-Aware Minimization Revisited: Weighted Sharpness as a Regularization Term ( http://arxiv.org/abs/2305.15817v2 )

ライセンス: Link先を確認
Yun Yue, Jiadi Jiang, Zhiling Ye, Ning Gao, Yongchao Liu, Ke Zhang(参考訳) ディープニューラルネットワーク(DNN)の一般化は、ミニマの平坦性と密接に関連していることが知られており、フラットなミニマとより良い一般化を求めるシャープネス・アウェアの最小化(SAM)の開発につながっている。 本稿では, SAMの喪失を再考し, シャープネスを正規化項として組み込むことにより, WSAMと呼ばれるより一般的な手法を提案する。 PACとBayes-PACの併用による一般化を実証し,様々な公開データセット上での性能を評価する。 その結果、WSAM はバニラオプティマイザ SAM とその変種と比較して、改良された一般化を達成するか、少なくとも競争力が高いことを示した。 コードはhttps://github.com/intelligent-machine-learning/dlrover/tree/master/atorch/atorch/optimizersで入手できる。

Deep Neural Networks (DNNs) generalization is known to be closely related to the flatness of minima, leading to the development of Sharpness-Aware Minimization (SAM) for seeking flatter minima and better generalization. In this paper, we revisit the loss of SAM and propose a more general method, called WSAM, by incorporating sharpness as a regularization term. We prove its generalization bound through the combination of PAC and Bayes-PAC techniques, and evaluate its performance on various public datasets. The results demonstrate that WSAM achieves improved generalization, or is at least highly competitive, compared to the vanilla optimizer, SAM and its variants. The code is available at https://github.com/intelligent-machine-learning/dlrover/tree/master/atorch/atorch/optimizers.
翻訳日:2023-06-12 16:36:32 公開日:2023-06-09
# gtnet: 3dポイントクラウド分類と意味セグメンテーションのためのグラフトランスフォーマーネットワーク

GTNet: Graph Transformer Network for 3D Point Cloud Classification and Semantic Segmentation ( http://arxiv.org/abs/2305.15213v2 )

ライセンス: Link先を確認
Wei Zhou, Qian Wang, Weiwei Jin, Xinzhe Shi, Ying He(参考訳) 近年,グラフベースおよびトランスフォーマーベースのディープラーニングネットワークは,様々なポイントクラウドタスクにおいて優れた性能を示した。 既存のグラフ手法のほとんどは静的グラフに基づいており、グラフ関係を確立するために固定的な入力を取る。 さらに、多くのグラフ法では、隣接する特徴を最大化および平均化することにより、1つの隣接点だけが中心点または異なる隣接点の特徴に影響を与えることが、中心点の特徴に同じ影響を与え、点間の相関や差を無視する。 トランスフォーマーベースのほとんどの手法は、グローバルな注意に基づくポイントクラウドの特徴を抽出し、近隣地域の特徴学習を欠いている。 これら2つのモデルの問題を解決するために,グラフトランスフォーマーと呼ばれる新しい特徴抽出ブロックを提案し,gtnetと呼ばれる3dポイントポイントポイントクラウド学習ネットワークを構築し,ローカルおよびグローバルパターン上のポイントクラウドの特徴を学習する。 Graph Transformerは、グラフベースとTransformerベースのメソッドの利点を統合し、Local TransformerとGlobal Transformerモジュールで構成される。 Local Transformerは、動的グラフを使用して、動的に更新されたグラフ関係を持つドメイン内のクロスアテンションによって、近隣のすべてのポイントが異なる重みを持つセントロイドの特徴に影響を与えるように、すべての近隣のポイントウェイトを計算する。 また,ネットワークの深さの増加に伴う勾配の消失を避けるため,gtnet における中心的特徴の残差接続を行うとともに,局所的幾何記述子を局所的変圧器に生成し,モデルの局所的情報学習能力を強化する。 最後に,GTNetを用いて形状分類,部分分割,意味分割を行う。

Recently, graph-based and Transformer-based deep learning networks have demonstrated excellent performances on various point cloud tasks. Most of the existing graph methods are based on static graph, which take a fixed input to establish graph relations. Moreover, many graph methods apply maximization and averaging to aggregate neighboring features, so that only a single neighboring point affects the feature of centroid or different neighboring points have the same influence on the centroid's feature, which ignoring the correlation and difference between points. Most Transformer-based methods extract point cloud features based on global attention and lack the feature learning on local neighbors. To solve the problems of these two types of models, we propose a new feature extraction block named Graph Transformer and construct a 3D point point cloud learning network called GTNet to learn features of point clouds on local and global patterns. Graph Transformer integrates the advantages of graph-based and Transformer-based methods, and consists of Local Transformer and Global Transformer modules. Local Transformer uses a dynamic graph to calculate all neighboring point weights by intra-domain cross-attention with dynamically updated graph relations, so that every neighboring point could affect the features of centroid with different weights; Global Transformer enlarges the receptive field of Local Transformer by a global self-attention. In addition, to avoid the disappearance of the gradient caused by the increasing depth of network, we conduct residual connection for centroid features in GTNet; we also adopt the features of centroid and neighbors to generate the local geometric descriptors in Local Transformer to strengthen the local information learning capability of the model. Finally, we use GTNet for shape classification, part segmentation and semantic segmentation tasks in this paper.
翻訳日:2023-06-12 16:36:16 公開日:2023-06-09
# hitin:階層認識木同型ネットワークによる階層的テキスト分類

HiTIN: Hierarchy-aware Tree Isomorphism Network for Hierarchical Text Classification ( http://arxiv.org/abs/2305.15182v2 )

ライセンス: Link先を確認
He Zhu, Chong Zhang, Junjie Huang, Junran Wu, Ke Xu(参考訳) 階層的テキスト分類(HTC)は、ラベルが複雑な階層構造を形成するため、多ラベル分類の挑戦的なサブタスクである。 既存のHTCのデュアルエンコーダメソッドは、メモリオーバーヘッドが大きく、その構造エンコーダはドメイン知識に大きく依存する。 このような観察の下では,従来の統計やラベルセマンティクスを使わずにhtcのパフォーマンスを向上できる強力な一般化機能を備えたメモリフレンドリーモデルの実現可能性について検討する傾向がある。 本稿では,ラベル階層の構文情報のみを用いてテキスト表現を強化する階層認識木同型ネットワーク(hitin)を提案する。 具体的には,ラベル階層を構造エントロピーの指導により,符号木と呼ばれる非重み付き木構造に変換する。 次に、構造エンコーダを設計し、コードツリーに階層認識情報をテキスト表現に組み込む。 テキストエンコーダの他に、HiTINには、メモリを大幅に節約する、少数の多層認識と線形変換しか含まれていない。 我々は3つの一般的なデータセットで実験を行い、その結果、HiTINは最先端(SOTA)手法よりもテスト性能が良く、メモリ消費も少ないことを示した。

Hierarchical text classification (HTC) is a challenging subtask of multi-label classification as the labels form a complex hierarchical structure. Existing dual-encoder methods in HTC achieve weak performance gains with huge memory overheads and their structure encoders heavily rely on domain knowledge. Under such observation, we tend to investigate the feasibility of a memory-friendly model with strong generalization capability that could boost the performance of HTC without prior statistics or label semantics. In this paper, we propose Hierarchy-aware Tree Isomorphism Network (HiTIN) to enhance the text representations with only syntactic information of the label hierarchy. Specifically, we convert the label hierarchy into an unweighted tree structure, termed coding tree, with the guidance of structural entropy. Then we design a structure encoder to incorporate hierarchy-aware information in the coding tree into text representations. Besides the text encoder, HiTIN only contains a few multi-layer perceptions and linear transformations, which greatly saves memory. We conduct experiments on three commonly used datasets and the results demonstrate that HiTIN could achieve better test performance and less memory consumption than state-of-the-art (SOTA) methods.
翻訳日:2023-06-12 16:35:36 公開日:2023-06-09
# LaDI-VTON:潜在拡散テキスト変換による仮想トライオン

LaDI-VTON: Latent Diffusion Textual-Inversion Enhanced Virtual Try-On ( http://arxiv.org/abs/2305.13501v2 )

ライセンス: Link先を確認
Davide Morelli, Alberto Baldrati, Giuseppe Cartella, Marcella Cornia, Marco Bertini, Rita Cucchiara(参考訳) 電子商取引とメタバースの急速な発展は、消費者エクスペリエンスを高める革新的なアプローチを模索し続けている。 同時に、近年の拡散モデルの発展により、生成ネットワークは驚くほどリアルな画像を作成できるようになった。 この文脈では、所定のショップ内の衣服を身に着けたターゲットモデルの斬新なイメージを生成することからなるイメージベースの仮想トライオンは、これらの強力な生成的ソリューションの可能性を生かしていない。 この研究は、仮想トライ-ONタスクのための最初のラテント拡散テキスト変換強化モデルであるLaDI-VTONを紹介する。 提案アーキテクチャは,学習可能なスキップ接続を利用する新たなオートエンコーダモジュールによって拡張された潜時拡散モデルに依存し,モデルの特徴を保存する生成プロセスを強化する。 着物のテクスチャと細部を効果的に維持するために,CLIPトークン埋め込み空間に衣服の視覚的特徴をマッピングし,生成プロセスの条件付けが可能な擬似単語トークン埋め込みのセットを生成するテキスト・インバージョン・コンポーネントを提案する。 Dress CodeとVITON-HDデータセットの実験的結果は、我々のアプローチが競争相手を一貫したマージンで上回り、タスクにとって重要なマイルストーンを達成していることを示している。 ソースコードとトレーニングされたモデルは、https://github.com/miccunifi/ladi-vton.comで公開される。

The rapidly evolving fields of e-commerce and metaverse continue to seek innovative approaches to enhance the consumer experience. At the same time, recent advancements in the development of diffusion models have enabled generative networks to create remarkably realistic images. In this context, image-based virtual try-on, which consists in generating a novel image of a target model wearing a given in-shop garment, has yet to capitalize on the potential of these powerful generative solutions. This work introduces LaDI-VTON, the first Latent Diffusion textual Inversion-enhanced model for the Virtual Try-ON task. The proposed architecture relies on a latent diffusion model extended with a novel additional autoencoder module that exploits learnable skip connections to enhance the generation process preserving the model's characteristics. To effectively maintain the texture and details of the in-shop garment, we propose a textual inversion component that can map the visual features of the garment to the CLIP token embedding space and thus generate a set of pseudo-word token embeddings capable of conditioning the generation process. Experimental results on Dress Code and VITON-HD datasets demonstrate that our approach outperforms the competitors by a consistent margin, achieving a significant milestone for the task. Source code and trained models will be publicly released at: https://github.com/miccunifi/ladi-vton.
翻訳日:2023-06-12 16:34:57 公開日:2023-06-09
# 組合せ最適化問題に対する非支配的ソーティング遺伝的アルゴリズム(NSGA-II)の最初の性能保証

The First Proven Performance Guarantees for the Non-Dominated Sorting Genetic Algorithm II (NSGA-II) on a Combinatorial Optimization Problem ( http://arxiv.org/abs/2305.13459v2 )

ライセンス: Link先を確認
Sacha Cerf, Benjamin Doerr, Benjamin Hebras, Yakob Kahane, Simon Wietheger(参考訳) NSGA-II(Non-Maninated Sorting Genetic Algorithm-II)は、多目的最適化問題を解くアルゴリズムの1つである。 近年,このアルゴリズムに対して初めて数学的ランタイム保証が得られたが,これは合成ベンチマーク問題に限られている。 本研究では,従来の最適化問題であるNP完全二目的最小スパンニングツリー問題に対して,初めて証明された性能保証を与える。 より具体的には、人口サイズ$n \ge 4((n-1) w_{\max} + 1) のnsga-ii は、pareto フロントのすべての極端点を、期待される数 $o(m^2 n w_{\max} \log(n w_{\max}))$ で計算し、ここで $n$ は頂点数、$m$ 辺数、$w_{\max}$ は問題インスタンスの最大端重である。 この結果は、数学的手法により、NSGA-IIの良好な性能を実証的に確認する。 また、このアルゴリズムの数学的解析は、合成ベンチマーク問題だけでなく、より複雑な組合せ最適化問題にも可能であることも示している。 また,二目的最小スパンディングツリー問題に対するグローバルセモアルゴリズムの性能に関する新たな解析結果を得るとともに,従来の最良値である ||f|$,パレートフロントの極端点数,最大 $n w_{\max}$ の値を求める。 この改善の主な理由は、複数の目的を持つ進化的アルゴリズムが、前述の証明で想定されたように、逐次ではなく、異なる極値点を並列に見つけるという観測である。

The Non-dominated Sorting Genetic Algorithm-II (NSGA-II) is one of the most prominent algorithms to solve multi-objective optimization problems. Recently, the first mathematical runtime guarantees have been obtained for this algorithm, however only for synthetic benchmark problems. In this work, we give the first proven performance guarantees for a classic optimization problem, the NP-complete bi-objective minimum spanning tree problem. More specifically, we show that the NSGA-II with population size $N \ge 4((n-1) w_{\max} + 1)$ computes all extremal points of the Pareto front in an expected number of $O(m^2 n w_{\max} \log(n w_{\max}))$ iterations, where $n$ is the number of vertices, $m$ the number of edges, and $w_{\max}$ is the maximum edge weight in the problem instance. This result confirms, via mathematical means, the good performance of the NSGA-II observed empirically. It also shows that mathematical analyses of this algorithm are not only possible for synthetic benchmark problems, but also for more complex combinatorial optimization problems. As a side result, we also obtain a new analysis of the performance of the global SEMO algorithm on the bi-objective minimum spanning tree problem, which improves the previous best result by a factor of $|F|$, the number of extremal points of the Pareto front, a set that can be as large as $n w_{\max}$. The main reason for this improvement is our observation that both multi-objective evolutionary algorithms find the different extremal points in parallel rather than sequentially, as assumed in the previous proofs.
翻訳日:2023-06-12 16:34:35 公開日:2023-06-09
# 明示的クロスモーダルアライメントを用いた音声対話理解のための音声テキスト対話事前学習

Speech-Text Dialog Pre-training for Spoken Dialog Understanding with Explicit Cross-Modal Alignment ( http://arxiv.org/abs/2305.11579v2 )

ライセンス: Link先を確認
Tianshu Yu, Haoyu Gao, Ting-En Lin, Min Yang, Yuchuan Wu, Wentao Ma, Chao Wang, Fei Huang, Yongbin Li(参考訳) 近年,音声・自然言語処理タスクにおいて,音声テキスト事前学習手法が有意な成功を収めている。 しかし、以前のほとんどの事前学習されたモデルは、1つまたは2つの特定のタスク用に調整されるが、幅広い音声テキストタスクを克服できない。 さらに、既存の音声テキスト事前学習手法では、対話内の文脈情報を探索することができず、発話表現を豊かにする。 本稿では,最初の音声テキスト対話事前学習モデルであるExpliCiT cRoss-Modal Alignment (SPECTRA)を用いた音声対話理解のための音声テキスト対話事前学習を提案する。 具体的には,音声モダリティの時間性を考慮した新しい時間位置予測タスクの設計を行い,音声とテキストのアライメントを捉える。 この事前学習タスクは、対応する音声波形における各単語の開始と終了時間を予測することを目的としている。 さらに, 音声対話の特徴を学習するために, テキスト対話の事前学習から音声-テキスト対話の事前学習シナリオまで, 応答選択タスクを一般化する。 4つの下流音声テキストタスクの実験結果から,音声テキストアライメント学習におけるSPECTRAの優位性が示された。

Recently, speech-text pre-training methods have shown remarkable success in many speech and natural language processing tasks. However, most previous pre-trained models are usually tailored for one or two specific tasks, but fail to conquer a wide range of speech-text tasks. In addition, existing speech-text pre-training methods fail to explore the contextual information within a dialogue to enrich utterance representations. In this paper, we propose Speech-text dialog Pre-training for spoken dialog understanding with ExpliCiT cRoss-Modal Alignment (SPECTRA), which is the first-ever speech-text dialog pre-training model. Concretely, to consider the temporality of speech modality, we design a novel temporal position prediction task to capture the speech-text alignment. This pre-training task aims to predict the start and end time of each textual word in the corresponding speech waveform. In addition, to learn the characteristics of spoken dialogs, we generalize a response selection task from textual dialog pre-training to speech-text dialog pre-training scenarios. Experimental results on four different downstream speech-text tasks demonstrate the superiority of SPECTRA in learning speech-text alignment and multi-turn dialog context.
翻訳日:2023-06-12 16:33:25 公開日:2023-06-09
# より大きく、より良く、より速く:人間レベルの効率のアタリ

Bigger, Better, Faster: Human-level Atari with human-level efficiency ( http://arxiv.org/abs/2305.19452v2 )

ライセンス: Link先を確認
Max Schwarzer, Johan Obando-Ceron, Aaron Courville, Marc Bellemare, Rishabh Agarwal, Pablo Samuel Castro(参考訳) 我々は,Atari 100Kベンチマークで超人的性能を実現する,BBFと呼ばれる値ベースのRLエージェントを提案する。 BBFは、値推定に使用されるニューラルネットワークのスケーリングと、このスケーリングをサンプル効率のよい方法で実現するための多くの設計選択に依存している。 我々は、これらの設計選択を広範囲に分析し、将来の作業に対する洞察を提供する。 最終的に、ALEにおけるサンプル効率のよいRL研究のためのゴールポストの更新について議論する。 コードとデータはhttps://github.com/google-research/google-research/tree/master/bigger_better_fasterで公開しています。

We introduce a value-based RL agent, which we call BBF, that achieves super-human performance in the Atari 100K benchmark. BBF relies on scaling the neural networks used for value estimation, as well as a number of other design choices that enable this scaling in a sample-efficient manner. We conduct extensive analyses of these design choices and provide insights for future work. We end with a discussion about updating the goalposts for sample-efficient RL research on the ALE. We make our code and data publicly available at https://github.com/google-research/google-research/tree/master/bigger_better_faster.
翻訳日:2023-06-12 16:25:25 公開日:2023-06-09
# LayoutMask: 文書理解のためのマルチモーダル事前学習におけるテキストレイアウトインタラクションの強化

LayoutMask: Enhance Text-Layout Interaction in Multi-modal Pre-training for Document Understanding ( http://arxiv.org/abs/2305.18721v2 )

ライセンス: Link先を確認
Yi Tu, Ya Guo, Huan Chen, Jinyang Tang(参考訳) 視覚的にリッチな文書理解(vrdu)は、近年多くの研究の注目を集めている。 トランスフォーマーベースのバックボーンを持つ多数の文書画像の事前学習モデルがこの分野で大きなパフォーマンス向上をもたらした。 主な課題は、文書の異なるモダリティ(テキスト、レイアウト、画像)を、異なる事前学習タスクで統一されたモデルにどのように融合するかである。 本稿では,テキストレイアウトインタラクションの改善に着目し,新しいマルチモーダル事前学習モデルlayoutmaskを提案する。 layoutmaskは、グローバルな1d位置ではなく、ローカルな1d位置をレイアウト入力として使用し、事前学習目標を2つ備えている。(1) マスク言語モデリング: 2つの新しいマスク戦略によるマスクトークンの予測 (2) マスク位置モデリング: マスク2d位置の予測 レイアウト表現学習を改善する。 LayoutMaskは、統一モデルにおけるテキストとレイアウトのモダリティ間の相互作用を強化し、下流タスクに対して適応的で堅牢なマルチモーダル表現を生成する。 実験の結果,提案手法は,形式理解,レセプション理解,文書画像分類など,多種多様なVrDU問題に対して,最先端の成果が得られることがわかった。

Visually-rich Document Understanding (VrDU) has attracted much research attention over the past years. Pre-trained models on a large number of document images with transformer-based backbones have led to significant performance gains in this field. The major challenge is how to fusion the different modalities (text, layout, and image) of the documents in a unified model with different pre-training tasks. This paper focuses on improving text-layout interactions and proposes a novel multi-modal pre-training model, LayoutMask. LayoutMask uses local 1D position, instead of global 1D position, as layout input and has two pre-training objectives: (1) Masked Language Modeling: predicting masked tokens with two novel masking strategies; (2) Masked Position Modeling: predicting masked 2D positions to improve layout representation learning. LayoutMask can enhance the interactions between text and layout modalities in a unified model and produce adaptive and robust multi-modal representations for downstream tasks. Experimental results show that our proposed method can achieve state-of-the-art results on a wide variety of VrDU problems, including form understanding, receipt understanding, and document image classification.
翻訳日:2023-06-12 16:24:57 公開日:2023-06-09
# BigVideo:マルチモーダル機械翻訳のための大規模ビデオ字幕翻訳データセット

BigVideo: A Large-scale Video Subtitle Translation Dataset for Multimodal Machine Translation ( http://arxiv.org/abs/2305.18326v2 )

ライセンス: Link先を確認
Liyan Kang, Luyang Huang, Ningxin Peng, Peihao Zhu, Zewei Sun, Shanbo Cheng, Mingxuan Wang, Degen Huang and Jinsong Su(参考訳) 本稿では,マルチモダリティ機械翻訳の研究を容易にするために,大規模ビデオ字幕翻訳データセットbigvideoを提案する。 広く使われているhow2とvatexデータセットと比較して、bigvideoは450万文ペアと9,981時間のビデオからなる10倍以上の大きさである。 また、視覚情報の必要性を検証するために意図的に設計された2つのテストセットも導入する:曖昧な単語の存在にあいまいで、テキストコンテキストが翻訳のために自己完結しているあいまいさ。 テキストやビデオ間で共有される共通意味をモデル化するために,クロスモーダルエンコーダにコントラスト学習手法を導入する。 BigVideoの大規模な実験によると、 a)視覚情報は、あいまいなテストセットとあいまいなテストセットの両方において、BLEU、BLEURT、COMETの観点からNMTモデルを一貫して改善します。 b)視覚情報は,用語目標スコアと人的評価に基づく強いテキストベースラインと比較して曖昧さを助長する。 Datasetと実装はhttps://github.com/DeepLearnXMU/BigVideo-VMT.comで利用可能です。

We present a large-scale video subtitle translation dataset, BigVideo, to facilitate the study of multi-modality machine translation. Compared with the widely used How2 and VaTeX datasets, BigVideo is more than 10 times larger, consisting of 4.5 million sentence pairs and 9,981 hours of videos. We also introduce two deliberately designed test sets to verify the necessity of visual information: Ambiguous with the presence of ambiguous words, and Unambiguous in which the text context is self-contained for translation. To better model the common semantics shared across texts and videos, we introduce a contrastive learning method in the cross-modal encoder. Extensive experiments on the BigVideo show that: a) Visual information consistently improves the NMT model in terms of BLEU, BLEURT, and COMET on both Ambiguous and Unambiguous test sets. b) Visual information helps disambiguation, compared to the strong text baseline on terminology-targeted scores and human evaluation. Dataset and our implementations are available at https://github.com/DeepLearnXMU/BigVideo-VMT.
翻訳日:2023-06-12 16:24:39 公開日:2023-06-09
# 数値推論のための短時間プロンプトにおけるトレーニングデータ活用

Leveraging Training Data in Few-Shot Prompting for Numerical Reasoning ( http://arxiv.org/abs/2305.18170v2 )

ライセンス: Link先を確認
Zhanming Jie, Wei Lu(参考訳) CoT(Chain-of- Thought)は、多くの自然言語処理タスクで有効であることが証明されているが、特に数学語問題(MWP)解決の文脈では、様々な問題タイプにうまく一般化するプロンプトの設計は困難である。 さらに、多様性が向上した大量のトレーニングデータを持つことが一般的だが、CoTアノテーションは利用できないため、教師付き学習技術の使用が制限される。 これらの課題に対処するために, 動的プログラムのプロンプトとプログラムの蒸留という, 数ショットのプロンプトシナリオでトレーニングデータを活用するための2つのアプローチを検討する。 我々のアプローチはGaoら(2022年)に大きく影響を受けており、中間的推論ステップとしてCoTをプログラムに置き換えることを提案した。 このようなプロンプト戦略により,MWP問題解決におけるプログラム実行による解の正確性検証が可能となる。 動的プログラムプロンプトは,大規模な言語モデルから正しいプログラムをサンプリングしてトレーニングデータをアノテートし,プログラム蒸留ではより小さいモデルをプログラムにアノテートしたトレーニングデータに適用する。 3つの標準MWPデータセットによる実験により,これらの手法の有効性が実証された。 この結果から,大量のトレーニングデータを活用することにより,プロンプトの一般化能力が向上し,MWP法における微調整小モデルの性能が向上することが示唆された。

Chain-of-thought (CoT) prompting with large language models has proven effective in numerous natural language processing tasks, but designing prompts that generalize well to diverse problem types can be challenging, especially in the context of math word problem (MWP) solving. Additionally, it is common to have a large amount of training data that have a better diversity coverage but CoT annotations are not available, which limits the use of supervised learning techniques. To address these issues, we investigate two approaches to leverage the training data in a few-shot prompting scenario: dynamic program prompting and program distillation. Our approach is largely inspired by Gao et al., (2022), where they proposed to replace the CoT with the programs as the intermediate reasoning step. Such a prompting strategy allows us to accurately verify the answer correctness through program execution in MWP solving. Our dynamic program prompting involves annotating the training data by sampling correct programs from a large language model, while program distillation involves adapting a smaller model to the program-annotated training data. Our experiments on three standard MWP datasets demonstrate the effectiveness of these approaches, yielding significant improvements over previous baselines for prompting and fine-tuning. Our results suggest that leveraging a large amount of training data can improve the generalization ability of prompts and boost the performance of fine-tuned small models in MWP solving.
翻訳日:2023-06-12 16:24:21 公開日:2023-06-09
# PFNs4BO:ベイズ最適化のための文脈学習

PFNs4BO: In-Context Learning for Bayesian Optimization ( http://arxiv.org/abs/2305.17535v3 )

ライセンス: Link先を確認
Samuel M\"uller, Matthias Feurer, Noah Hollmann, Frank Hutter(参考訳) 本稿では,ベイズ最適化(BO)のためのフレキシブルサロゲートとして,PFN(Presideed Data Fitted Networks)を用いる。 PFNは、効率的にサンプリングできる任意の事前分布のコンテキスト内学習を通じて、後部予測分布(PPD)を近似するように訓練された神経プロセスである。 BOにおけるサロゲートモデリングにおいて,この柔軟性をどのように活用できるかを述べる。 我々はPFNを用いて、単純なガウス過程(GP)、高度なGP、ベイズニューラルネットワーク(BNN)を模倣する。 また,オプティマの位置に関するヒントを許容したり,無関係次元を無視したり,取得関数を学習して非オプティマボを実行したりするなど,さらに情報を前もって組み込む方法を示す。 これらの拡張の基盤となる柔軟性は、BOにPFNを使用する大きな可能性を開く。 人工GP試料と3種類のハイパーパラメータ最適化テストベッド(HPO-B, Bayesmark, PD1)の大規模評価において, BOに対するPFNの有用性を示す。 トレーニングされたモデルをhttps://github.com/automl/PFNs4BOで公開しています。

In this paper, we use Prior-data Fitted Networks (PFNs) as a flexible surrogate for Bayesian Optimization (BO). PFNs are neural processes that are trained to approximate the posterior predictive distribution (PPD) through in-context learning on any prior distribution that can be efficiently sampled from. We describe how this flexibility can be exploited for surrogate modeling in BO. We use PFNs to mimic a naive Gaussian process (GP), an advanced GP, and a Bayesian Neural Network (BNN). In addition, we show how to incorporate further information into the prior, such as allowing hints about the position of optima (user priors), ignoring irrelevant dimensions, and performing non-myopic BO by learning the acquisition function. The flexibility underlying these extensions opens up vast possibilities for using PFNs for BO. We demonstrate the usefulness of PFNs for BO in a large-scale evaluation on artificial GP samples and three different hyperparameter optimization testbeds: HPO-B, Bayesmark, and PD1. We publish code alongside trained models at https://github.com/automl/PFNs4BO.
翻訳日:2023-06-12 16:23:53 公開日:2023-06-09
# 量子ldpc符号に対するpauli演算子のデカップリング表現に基づく信念伝播復号アルゴリズムの改良

Improved belief propagation decoding algorithm based on decoupling representation of Pauli operators for quantum LDPC codes ( http://arxiv.org/abs/2305.17505v3 )

ライセンス: Link先を確認
Zhengzhong Yi, Zhipeng Liang, Kaixin Zhong, Yulin Wu, Zhou Fang, Xuan Wang(参考訳) そこで我々は,量子低密度パリティチェック符号に対する部分的疎結合な信念伝播と完全疎結合な信念伝播復号アルゴリズムを提案する。 Under the assumption that there is no measurement error, compared with traditional belief propagation algorithm in symplectic representation over GF(2), within the same number of iterations, the decoding accuracy of partially decoupled belief propagation and fully decoupled belief propagation algorithm is significantly improved in pure Y noise channel and depolarizing noise channel, which supports that decoding algorithms of quantum error correcting codes might have better performance in decoupling representation than in symplectic representation. 完全に分離された信念伝播アルゴリズムの印象的な性能は、工学における量子エラー訂正符号の実現を促進するかもしれない。

We propose a new method called decoupling representation to represent Pauli operators as vectors over GF(2), based on which we propose partially decoupled belief propagation and fully decoupled belief propagation decoding algorithm for quantum low density parity-check codes. Under the assumption that there is no measurement error, compared with traditional belief propagation algorithm in symplectic representation over GF(2), within the same number of iterations, the decoding accuracy of partially decoupled belief propagation and fully decoupled belief propagation algorithm is significantly improved in pure Y noise channel and depolarizing noise channel, which supports that decoding algorithms of quantum error correcting codes might have better performance in decoupling representation than in symplectic representation. The impressive performance of fully decoupled belief propagation algorithm might promote the realization of quantum error correcting codes in engineering.
翻訳日:2023-06-12 16:23:37 公開日:2023-06-09
# COMCAT: 意識に基づく視覚モデルの効率的な圧縮とカスタマイズを目指して

COMCAT: Towards Efficient Compression and Customization of Attention-Based Vision Models ( http://arxiv.org/abs/2305.17235v2 )

ライセンス: Link先を確認
Jinqi Xiao, Miao Yin, Yu Gong, Xiao Zang, Jian Ren, Bo Yuan(参考訳) 視覚トランスフォーマー(vit)などの注意に基づく視覚モデルは、様々なコンピュータビジョンタスクにおいて有望な性能を示している。 しかし、これらの新興アーキテクチャは大きなモデルサイズと高い計算コストに苦しめられ、効率的なモデル圧縮ソリューションが求められている。 現在、プルーニングViTはよく研究されているが、CNN圧縮に広く適用されている他の圧縮戦略、例えばモデル因子化は、ViT圧縮の文脈ではほとんど研究されていない。 本稿では,コンパクトな注意に基づく視覚モデルを得るためのツールセットを充実させるために,視覚トランスフォーマーを効率的に圧縮する方法を検討する。 マルチヘッドアテンション層に関する新たな知見に基づいて,最先端のプルーニング法よりも優れた高効率なViT圧縮ソリューションを開発した。 imagenet 上で deit-small および deit-base モデルを圧縮する場合,提案手法はパラメータが小さくても top-1 の精度が 0.45% と 0.76% 向上する。 我々の発見は、テキストと画像の拡散モデルのカスタマイズ効率を向上させるためにも適用でき、既存の作業よりもはるかに高速なトレーニング(最大2.6\times$ speedup)と余分なストレージコスト(最大1927.5\times$ reduction)を実現することができる。

Attention-based vision models, such as Vision Transformer (ViT) and its variants, have shown promising performance in various computer vision tasks. However, these emerging architectures suffer from large model sizes and high computational costs, calling for efficient model compression solutions. To date, pruning ViTs has been well studied, while other compression strategies that have been widely applied in CNN compression, e.g., model factorization, is little explored in the context of ViT compression. This paper explores an efficient method for compressing vision transformers to enrich the toolset for obtaining compact attention-based vision models. Based on the new insight on the multi-head attention layer, we develop a highly efficient ViT compression solution, which outperforms the state-of-the-art pruning methods. For compressing DeiT-small and DeiT-base models on ImageNet, our proposed approach can achieve 0.45% and 0.76% higher top-1 accuracy even with fewer parameters. Our finding can also be applied to improve the customization efficiency of text-to-image diffusion models, with much faster training (up to $2.6\times$ speedup) and lower extra storage cost (up to $1927.5\times$ reduction) than the existing works.
翻訳日:2023-06-12 16:23:25 公開日:2023-06-09
# Beyond Reward: オフラインの優先度誘導ポリシー最適化

Beyond Reward: Offline Preference-guided Policy Optimization ( http://arxiv.org/abs/2305.16217v2 )

ライセンス: Link先を確認
Yachen Kang, Diyuan Shi, Jinxin Liu, Li He, Donglin Wang(参考訳) 本研究は,オンラインインタラクションや報酬関数の仕様を必要とせず,従来の強化学習の変種であるオフライン優先型強化学習(PbRL)に焦点を当てた。 その代わりに、エージェントは固定されたオフライン軌跡と2対の軌跡間の人間の嗜好を備えて、ダイナミックスとタスク情報をそれぞれ抽出する。 ダイナミクスとタスク情報は直交するので、素直なアプローチでは、好みに基づく報酬学習と、オフザシェルフのオフラインRLアルゴリズムが使用される。 しかし、これは学習プロセスの情報ボトルネックであると考えられるスカラー報酬関数を別々に学習する必要がある。 この問題に対処するために,一段階のプロセスでオフラインの軌道や嗜好をモデル化し,報酬関数を個別に学習する必要がない,オフライン優先誘導政策最適化(OPPO)パラダイムを提案する。 OPPOは、コンテキストポリシーを最適化するオフラインの近視情報マッチング目標と、最適なコンテキストを見つけるための選好モデリング目標を導入することでこれを達成している。 OPPOはさらに、2つの目標を反復的に最適化することで、優れた意思決定ポリシーを統合する。 実験の結果,oppoは,真または偽の報酬関数仕様上で実行されるオフラインrlアルゴリズムを含む,先行するベースラインよりも効果的にオフラインの選好をモデル化し,性能を向上できることがわかった。 私たちのコードは、プロジェクトwebサイト(https://sites.google.com/view/oppo-icml-2023)で利用可能です。

This study focuses on the topic of offline preference-based reinforcement learning (PbRL), a variant of conventional reinforcement learning that dispenses with the need for online interaction or specification of reward functions. Instead, the agent is provided with fixed offline trajectories and human preferences between pairs of trajectories to extract the dynamics and task information, respectively. Since the dynamics and task information are orthogonal, a naive approach would involve using preference-based reward learning followed by an off-the-shelf offline RL algorithm. However, this requires the separate learning of a scalar reward function, which is assumed to be an information bottleneck of the learning process. To address this issue, we propose the offline preference-guided policy optimization (OPPO) paradigm, which models offline trajectories and preferences in a one-step process, eliminating the need for separately learning a reward function. OPPO achieves this by introducing an offline hindsight information matching objective for optimizing a contextual policy and a preference modeling objective for finding the optimal context. OPPO further integrates a well-performing decision policy by optimizing the two objectives iteratively. Our empirical results demonstrate that OPPO effectively models offline preferences and outperforms prior competing baselines, including offline RL algorithms performed over either true or pseudo reward function specifications. Our code is available on the project website: https://sites.google.com/view/oppo-icml-2023 .
翻訳日:2023-06-12 16:22:41 公開日:2023-06-09
# 多様性と識別的表現学習を用いた一般化可能な低リソース活動認識

Generalizable Low-Resource Activity Recognition with Diverse and Discriminative Representation Learning ( http://arxiv.org/abs/2306.04641v2 )

ライセンス: Link先を確認
Xin Qin, Jindong Wang, Shuo Ma, Wang Lu, Yongchun Zhu, Xing Xie, Yiqiang Chen(参考訳) HAR(Human Activity Recognition)は、人間のセンサーの読み取りから動作パターンを特定することに焦点を当てた時系列分類タスクである。 適切なデータは不可欠だが、オンラインWebアプリケーションのカスタマイズと最適化を支援する一般化可能なHARモデルをトレーニングする上で、大きなボトルネックとなる。 しかしながら、大規模なラベル付きデータを現実、すなわち低リソースの課題で収集するのは、時間と経済のコストがかかる。 一方、異なる人物から収集されたデータは、生活習慣や体型、年齢グループなどによって分布の変化がある。 低リソースと分散シフトの課題は新しい未発見の被験者に訓練されたモデルを適用するときにharに有害である。 本稿では,DDLearn(Diverse and Discriminative Expression Learning)と呼ばれる新しい手法を提案する。 DDLearnは多様性と差別学習を同時に検討している。 構築された自己教師付き学習タスクにより、ddlearnはデータの多様性を拡大し、潜在アクティビティ特性を探求する。 そこで,本研究では,元のドメインと拡張ドメイン間の分散を拡大し,学習特徴の多様性を保全するための多様性保存モジュールを提案する。 一方、DDLearnは、教師付きコントラスト学習を用いて識別表現を学習することで意味的識別を強化する。 3つの公開HARデータセットに対する大規模な実験により、我々の手法は、汎用的で説明可能な柔軟なフレームワークでありながら、低リソースの分散シフトシナリオ下での平均精度を9.5%向上させることで、最先端の手法を著しく上回ることを示した。 コードはhttps://github.com/microsoft/robustlearn.com/で入手できる。

Human activity recognition (HAR) is a time series classification task that focuses on identifying the motion patterns from human sensor readings. Adequate data is essential but a major bottleneck for training a generalizable HAR model, which assists customization and optimization of online web applications. However, it is costly in time and economy to collect large-scale labeled data in reality, i.e., the low-resource challenge. Meanwhile, data collected from different persons have distribution shifts due to different living habits, body shapes, age groups, etc. The low-resource and distribution shift challenges are detrimental to HAR when applying the trained model to new unseen subjects. In this paper, we propose a novel approach called Diverse and Discriminative representation Learning (DDLearn) for generalizable low-resource HAR. DDLearn simultaneously considers diversity and discrimination learning. With the constructed self-supervised learning task, DDLearn enlarges the data diversity and explores the latent activity properties. Then, we propose a diversity preservation module to preserve the diversity of learned features by enlarging the distribution divergence between the original and augmented domains. Meanwhile, DDLearn also enhances semantic discrimination by learning discriminative representations with supervised contrastive learning. Extensive experiments on three public HAR datasets demonstrate that our method significantly outperforms state-of-art methods by an average accuracy improvement of 9.5% under the low-resource distribution shift scenarios, while being a generic, explainable, and flexible framework. Code is available at: https://github.com/microsoft/robustlearn.
翻訳日:2023-06-12 16:16:56 公開日:2023-06-09
# タスク指向ダイアログのより正確で一般化した評価メトリクスを目指して

Toward More Accurate and Generalizable Evaluation Metrics for Task-Oriented Dialogs ( http://arxiv.org/abs/2306.03984v2 )

ライセンス: Link先を確認
Abishek Komma, Nagesh Panyam Chandrasekarasastry, Timothy Leffel, Anuj Goyal, Angeliki Metallinou, Spyros Matsoukas, Aram Galstyan(参考訳) 対話システムの改善には,対話品質の測定が重要な課題である。 既存のダイアログ品質推定手法は、個々のターンの品質を評価することに集中するか、対話の直後にエンドユーザーからダイアログレベルの品質測定を収集する。 これらのアプローチとは対照的に、ダイアログ品質アノテーション(DQA)と呼ばれる新しいダイアログレベルのアノテーションワークフローを導入する。 DQAエキスパートアノテータはダイアログ全体の品質を評価し、ゴール完了やユーザ感情などの属性に対するラベルダイアログも評価する。 この貢献で、私たちは次のように示します。 (i)ダイアログ品質を完全にダイアログレベル属性に分解することはできないが、目的ダイアログ属性とダイアログ品質判断との間には強い関係がある。 (ii)ダイアログレベルの品質推定のタスクでは、ダイアログレベルのアノテーションを訓練した教師付きモデルが、単にターンレベルの特徴を集約することに基づくメソッドを上回る。 (iii)提案評価モデルでは,ベースラインと比較してドメイン一般化能力が向上した。 これらの結果に基づいて,大規模音声アシスタントプラットフォームにおける対話品質を評価する上で,高品質な人間記述データを持つことが重要であると論じる。

Measurement of interaction quality is a critical task for the improvement of spoken dialog systems. Existing approaches to dialog quality estimation either focus on evaluating the quality of individual turns, or collect dialog-level quality measurements from end users immediately following an interaction. In contrast to these approaches, we introduce a new dialog-level annotation workflow called Dialog Quality Annotation (DQA). DQA expert annotators evaluate the quality of dialogs as a whole, and also label dialogs for attributes such as goal completion and user sentiment. In this contribution, we show that: (i) while dialog quality cannot be completely decomposed into dialog-level attributes, there is a strong relationship between some objective dialog attributes and judgments of dialog quality; (ii) for the task of dialog-level quality estimation, a supervised model trained on dialog-level annotations outperforms methods based purely on aggregating turn-level features; and (iii) the proposed evaluation model shows better domain generalization ability compared to the baselines. On the basis of these results, we argue that having high-quality human-annotated data is an important component of evaluating interaction quality for large industrial-scale voice assistant platforms.
翻訳日:2023-06-12 16:16:14 公開日:2023-06-09
# sert: 環境モニタリングの欠如を考慮した時空間センサデータのためのトランスフォマーモデル

SERT: A Transfomer Based Model for Spatio-Temporal Sensor Data with Missing Values for Environmental Monitoring ( http://arxiv.org/abs/2306.03042v2 )

ライセンス: Link先を確認
Amin Shoari Nejad, Roc\'io Alaiz-Rodr\'iguez, Gerard D. McCarthy, Brian Kelleher, Anthony Grey, Andrew Parnell(参考訳) 環境モニタリングは気候変動、生物多様性の喪失、汚染の理解に不可欠である。 センサや衛星などのソースからの大規模な時空間データを利用することで、キードライバの予測と理解のための高度なモデルを開発することができる。 しかしながら、センサから収集されたデータは、機器の故障やメンテナンス上の問題により、欠落した値を含むことが多い。 欠落した値が同時に発生することはめったになく、多変量不一致のスパース時系列データにつながる。 計算を必要とせず,データ不足を自然に処理しながら,多変量時空間予測が可能な2つのモデルを提案する。 最初のモデルはトランスモデルであり、SERT (Spatio-temporal Encoder Representations from Transformers) と呼ぶ。 2つ目はSST-ANN(Sparse Spatio-Temporal Neural Neural Network)と呼ばれるシンプルなモデルで、解釈可能な結果を提供することができる。 我々は多変量時空間予測のための2つの異なるデータセットについて広範な実験を行い、我々のモデルが最先端のモデルよりも競争力または優れた性能を持つことを示す。

Environmental monitoring is crucial to our understanding of climate change, biodiversity loss and pollution. The availability of large-scale spatio-temporal data from sources such as sensors and satellites allows us to develop sophisticated models for forecasting and understanding key drivers. However, the data collected from sensors often contain missing values due to faulty equipment or maintenance issues. The missing values rarely occur simultaneously leading to data that are multivariate misaligned sparse time series. We propose two models that are capable of performing multivariate spatio-temporal forecasting while handling missing data naturally without the need for imputation. The first model is a transformer-based model, which we name SERT (Spatio-temporal Encoder Representations from Transformers). The second is a simpler model named SST-ANN (Sparse Spatio-Temporal Artificial Neural Network) which is capable of providing interpretable results. We conduct extensive experiments on two different datasets for multivariate spatio-temporal forecasting and show that our models have competitive or superior performance to those at the state-of-the-art.
翻訳日:2023-06-12 16:15:31 公開日:2023-06-09
# Action-Evolution Petri Nets: 動的タスク割り当て問題のモデル化と解決のためのフレームワーク

Action-Evolution Petri Nets: a Framework for Modeling and Solving Dynamic Task Assignment Problems ( http://arxiv.org/abs/2306.02910v3 )

ライセンス: Link先を確認
Riccardo Lo Bianco, Remco Dijkman, Wim Nuijten, Willem van Jaarsveld(参考訳) 動的タスク割り当ては、割り当ての全体的なコストを最小化するために、到着するタスクを限られた数のリソースに割り当てることを伴う。 最適なタスク割り当てを実現するためには,まず課題をモデル化する必要がある。 マルコフ決定過程や(色)ペトリネットといった、問題の異なる側面をモデル化し、実行し、解決する独立した形式が存在するが、統合モデリング技術は存在しない。 本稿では,動的タスク割り当て問題のモデル化と解決のためのフレームワークとして,アクション進化ペトリネット(A-E PN)を提案する。 A-E PNは動的タスク割り当て問題のすべての要素を表現できる統一モデリング技術を提供する。 さらに、a-e pnモデルは実行可能であり、追加のモデリング作業なしに強化学習(rl)を通じて最適に近い割り当てポリシーを学ぶことができる。 この枠組みを評価するために,古型代入問題の分類を定義した。 a-e pnが最適の割り当てポリシーを学ぶために使用できる3つの事例を示す。 本研究は,a-e pnを用いて幅広い動的タスク割り当て問題をモデル化し,解決できることを示唆する。

Dynamic task assignment involves assigning arriving tasks to a limited number of resources in order to minimize the overall cost of the assignments. To achieve optimal task assignment, it is necessary to model the assignment problem first. While there exist separate formalisms, specifically Markov Decision Processes and (Colored) Petri Nets, to model, execute, and solve different aspects of the problem, there is no integrated modeling technique. To address this gap, this paper proposes Action-Evolution Petri Nets (A-E PN) as a framework for modeling and solving dynamic task assignment problems. A-E PN provides a unified modeling technique that can represent all elements of dynamic task assignment problems. Moreover, A-E PN models are executable, which means they can be used to learn close-to-optimal assignment policies through Reinforcement Learning (RL) without additional modeling effort. To evaluate the framework, we define a taxonomy of archetypical assignment problems. We show for three cases that A-E PN can be used to learn close-to-optimal assignment policies. Our results suggest that A-E PN can be used to model and solve a broad range of dynamic task assignment problems.
翻訳日:2023-06-12 16:15:12 公開日:2023-06-09
# CELDA:ラベルなしの強化分類器としてブラックボックス言語モデルを活用する

CELDA: Leveraging Black-box Language Model as Enhanced Classifier without Labels ( http://arxiv.org/abs/2306.02693v2 )

ライセンス: Link先を確認
Hyunsoo Cho, Youna Kim, Sang-goo Lee(参考訳) 言語モデル(LM)を内部アクセスなしで利用することは、多くの最先端のLMがAPIを通じてリリースされ、大規模であるため、NLPの分野で魅力的なパラダイムになりつつある。 このタイプのブラックボックスシナリオにおけるデファクトメソッドはプロンプトと呼ばれ、データラベルが不足あるいは利用できない状況において、段階的なパフォーマンス向上を示す。 効果はあるものの、完全に監督されたものと比べれば依然として不足しており、概して若干の修正に弱い。 本稿では,非常に弱いスーパービジョン信号(すなわちラベル名)を用いて,テキスト分類精度を向上させる新しい手法であるクラスタリングエンハンスド線形判別解析を提案する。 我々のフレームワークは、LMモデルやデータラベルの重みや勾配にアクセスすることなく、正確な決定境界を描画する。 CELDAの中核となる考え方は2つある: 1) ラベルなしデータセットから洗練された擬似ラベル付きデータセットを抽出し、(2) LMの上部に軽量で堅牢なモデルを訓練し、抽出されたノイズのあるデータセットから正確な決定境界を学習する。 各種データセットの詳細な調査を通じて、弱い教師付きテキスト分類においてCELDAが新たな最先端に達し、完全に教師付きモデルでギャップを狭めることを示した。 さらに,提案手法は任意のLMに対して普遍的に適用可能であり,大規模モデルにスケールできる可能性があり,大規模なLMを利用するための選択肢として有効である。

Utilizing language models (LMs) without internal access is becoming an attractive paradigm in the field of NLP as many cutting-edge LMs are released through APIs and boast a massive scale. The de-facto method in this type of black-box scenario is known as prompting, which has shown progressive performance enhancements in situations where data labels are scarce or unavailable. Despite their efficacy, they still fall short in comparison to fully supervised counterparts and are generally brittle to slight modifications. In this paper, we propose Clustering-enhanced Linear Discriminative Analysis, a novel approach that improves the text classification accuracy with a very weak-supervision signal (i.e., name of the labels). Our framework draws a precise decision boundary without accessing weights or gradients of the LM model or data labels. The core ideas of CELDA are twofold: (1) extracting a refined pseudo-labeled dataset from an unlabeled dataset, and (2) training a lightweight and robust model on the top of LM, which learns an accurate decision boundary from an extracted noisy dataset. Throughout in-depth investigations on various datasets, we demonstrated that CELDA reaches new state-of-the-art in weakly-supervised text classification and narrows the gap with a fully-supervised model. Additionally, our proposed methodology can be applied universally to any LM and has the potential to scale to larger models, making it a more viable option for utilizing large LMs.
翻訳日:2023-06-12 16:14:48 公開日:2023-06-09
# 風速予測のための新しい相関最適化深層学習法

A Novel Correlation-optimized Deep Learning Method for Wind Speed Forecast ( http://arxiv.org/abs/2306.01986v2 )

ライセンス: Link先を確認
Yang Yang, Jin Lang, Jian Wu, Yanyan Zhang, Xiang Zhao(参考訳) 風力発電の設置率の増加は、世界的電力システムに大きな課題をもたらす。 風力発電システムの信頼性を確保するためには,風力タービンの風速と動力を正確に予測する必要がある。 現在、深層学習は風速予測に段階的に適用される。 しかし、近年のディープラーニング手法は、モデル解釈可能性やハードウェアの制限により、実用上の困惑を反映している。 そこで本稿では,新しい深層知識に基づく学習法を提案する。 提案手法は,事前学習手法とオートエンコーダ構造をハイブリダイズし,深層知識に基づく学習フレームワークのデータ表現とモデリングを改善する。 知識と対応する吸収器を形成するために、相関に基づく最適化モデルにより元のデータを前処理し、シーケンスからシーケンス(seq2seq)モデルに吸収される多層ネットワーク(knowledge)を構築する。 具体的には、従来のディープラーニングフレームワークを強化するために、新しい認知と記憶ユニット(CMU)が設計されている。 最後に, 提案手法の有効性を, 中国梁寧省の風力発電所から3つの風速予測事例で検証した。 風速予測のためのLSTM法とLSTM/GRUベースのSeq2Seq法と比較して,提案手法は安定性と訓練効率を向上することを示した。

The increasing installation rate of wind power poses great challenges to the global power system. In order to ensure the reliable operation of the power system, it is necessary to accurately forecast the wind speed and power of the wind turbines. At present, deep learning is progressively applied to the wind speed prediction. Nevertheless, the recent deep learning methods still reflect the embarrassment for practical applications due to model interpretability and hardware limitation. To this end, a novel deep knowledge-based learning method is proposed in this paper. The proposed method hybridizes pre-training method and auto-encoder structure to improve data representation and modeling of the deep knowledge-based learning framework. In order to form knowledge and corresponding absorbers, the original data is preprocessed by an optimization model based on correlation to construct multi-layer networks (knowledge) which are absorbed by sequence to sequence (Seq2Seq) models. Specifically, new cognition and memory units (CMU) are designed to reinforce traditional deep learning framework. Finally, the effectiveness of the proposed method is verified by three wind prediction cases from a wind farm in Liaoning, China. Experimental results show that the proposed method increases the stability and training efficiency compared to the traditional LSTM method and LSTM/GRU-based Seq2Seq method for applications of wind speed forecasting.
翻訳日:2023-06-12 16:14:21 公開日:2023-06-09
# COBRAフレーム: 攻撃的文書の効果と害に関する文脈推論

COBRA Frames: Contextual Reasoning about Effects and Harms of Offensive Statements ( http://arxiv.org/abs/2306.01985v2 )

ライセンス: Link先を確認
Xuhui Zhou, Hao Zhu, Akhila Yerukola, and Thomas Davidson, Jena D. Hwang, Swabha Swayamdipta, Maarten Sap(参考訳) 警告: 本論文は攻撃的あるいは不安定なコンテンツを含んでいる。 言明の害と攻撃性を理解するには、言明がなされる社会的・状況的文脈についての推論が必要である。 例えば、「あなたの英語はとても良い」という発声は、白人男性から非白人の同僚に発するときに暗黙的に侮辱を示唆するが、ESL教師が生徒に発する発声は、真の褒め言葉として解釈される。 このような文脈的要因は、以前の有毒な言語検出のアプローチによって無視されてきた。 社会的・状況的文脈に根ざした攻撃的・偏見のある言明の意図、反応、害を説明する最初の文脈対応形式であるCOBRAフレームを紹介する。 これは、マシン生成のコンテキストと、攻撃性、暗黙のバイアス、話者意図、リスナー反応のフリーテキストの説明を組み合わせた、33kの潜在的攻撃的ステートメントのデータセットです。 攻撃性の文脈的ダイナミクスを研究するために、我々は、文脈へのアクセスなしにCOBRAの説明を生成するためにモデルを訓練する。 文脈依存モデルによる説明は文脈認識モデルよりも著しく悪い、特に文脈が文の不快さを反転する状況(29%の精度低下)では特に顕著である。 本研究は,社会的要因のモデル化による文脈的NLPの重要性と実現可能性を強調した。

Warning: This paper contains content that may be offensive or upsetting. Understanding the harms and offensiveness of statements requires reasoning about the social and situational context in which statements are made. For example, the utterance "your English is very good" may implicitly signal an insult when uttered by a white man to a non-white colleague, but uttered by an ESL teacher to their student would be interpreted as a genuine compliment. Such contextual factors have been largely ignored by previous approaches to toxic language detection. We introduce COBRA frames, the first context-aware formalism for explaining the intents, reactions, and harms of offensive or biased statements grounded in their social and situational context. We create COBRACORPUS, a dataset of 33k potentially offensive statements paired with machine-generated contexts and free-text explanations of offensiveness, implied biases, speaker intents, and listener reactions. To study the contextual dynamics of offensiveness, we train models to generate COBRA explanations, with and without access to the context. We find that explanations by context-agnostic models are significantly worse than by context-aware ones, especially in situations where the context inverts the statement's offensiveness (29% accuracy drop). Our work highlights the importance and feasibility of contextualized NLP by modeling social factors.
翻訳日:2023-06-12 16:14:01 公開日:2023-06-09
# 神経核表面再構成

Neural Kernel Surface Reconstruction ( http://arxiv.org/abs/2305.19590v2 )

ライセンス: Link先を確認
Jiahui Huang, Zan Gojcic, Matan Atzmon, Or Litany, Sanja Fidler, Francis Williams(参考訳) 本稿では,大規模でスパースでノイズの多い点雲から3次元暗示面を再構成する新しい手法を提案する。 我々のアプローチは、最近導入されたNeural Kernel Fields (NKF) 表現に基づいている。 NKFと同様の一般化機能を持ち、同時に主な制限に対処する。 (a) コンパクトにサポートされたカーネル関数によって大きなシーンにスケールできるため、メモリ効率の高いスパース線形解法が利用できる。 (b)勾配フィッティング解を用いて、雑音に対して頑健である。 (c) トレーニング要件を最小限に抑え、高密度な指向ポイントのデータセットから学び、さまざまなスケールでオブジェクトとシーンからなるトレーニングデータを混在させることができます。 提案手法は,数秒で数百万のポイントを再構築し,非常に大きなシーンをアウトオブコアで処理することができる。 我々は,単一オブジェクト,屋内シーン,屋外シーンからなる再構築ベンチマークの最先端結果を得た。

We present a novel method for reconstructing a 3D implicit surface from a large-scale, sparse, and noisy point cloud. Our approach builds upon the recently introduced Neural Kernel Fields (NKF) representation. It enjoys similar generalization capabilities to NKF, while simultaneously addressing its main limitations: (a) We can scale to large scenes through compactly supported kernel functions, which enable the use of memory-efficient sparse linear solvers. (b) We are robust to noise, through a gradient fitting solve. (c) We minimize training requirements, enabling us to learn from any dataset of dense oriented points, and even mix training data consisting of objects and scenes at different scales. Our method is capable of reconstructing millions of points in a few seconds, and handling very large scenes in an out-of-core fashion. We achieve state-of-the-art results on reconstruction benchmarks consisting of single objects, indoor scenes, and outdoor scenes.
翻訳日:2023-06-12 16:13:37 公開日:2023-06-09
# 製品属性値識別のための統一生成的アプローチ

A Unified Generative Approach to Product Attribute-Value Identification ( http://arxiv.org/abs/2306.05605v1 )

ライセンス: Link先を確認
Keiji Shinzato, Naoki Yoshinaga, Yandi Xia and Wei-Te Chen(参考訳) 製品属性値識別(pavi)は、製品テキストを手掛かりとして、eコマースサイトの製品とその属性値(例えば<material, cotton>)をリンクするために研究されている。 現実世界のeコマースプラットフォームからの技術的要求は、既存の抽出および分類に基づくアプローチでのみ対処される未確認値、マルチ属性値、標準値を扱うPAVIメソッドを必要とする。 そこで本研究では,PAVIタスクに対する生成的アプローチについて検討する。 我々は、予め訓練された生成モデルT5を微調整し、与えられた製品テキストから属性値対のセットをターゲットシーケンスとしてデコードする。 属性値ペアは順序付けされていない集合要素であるため、それらを線形化する方法が重要となる。 実験結果から,本手法は,既存の抽出および分類に基づく手法よりも優れていることが確認された。

Product attribute-value identification (PAVI) has been studied to link products on e-commerce sites with their attribute values (e.g., <Material, Cotton>) using product text as clues. Technical demands from real-world e-commerce platforms require PAVI methods to handle unseen values, multi-attribute values, and canonicalized values, which are only partly addressed in existing extraction- and classification-based approaches. Motivated by this, we explore a generative approach to the PAVI task. We finetune a pre-trained generative model, T5, to decode a set of attribute-value pairs as a target sequence from the given product text. Since the attribute value pairs are unordered set elements, how to linearize them will matter; we, thus, explore methods of composing an attribute-value pair and ordering the pairs for the task. Experimental results confirm that our generation-based approach outperforms the existing extraction and classification-based methods on large-scale real-world datasets meant for those methods.
翻訳日:2023-06-12 15:18:34 公開日:2023-06-09
# Enclosed Loops: オープンソースコミュニティがデータセットになる方法

Enclosed Loops: How open source communities become datasets ( http://arxiv.org/abs/2306.05598v1 )

ライセンス: Link先を確認
Madiha Zahrah Choksi, Ilan Mandel, David Goedicke, Yan Shvartzshnaider(参考訳) 2010年代のコードホスティングとパッケージ管理の集中化は、オープンソースエコシステムの社会的配置に根本的な変化をもたらした。 集中型オープンソースシステムでは、基盤となる技術的実装とガバナンスメカニズムによって、プラットフォームの影響がコミュニティから権限と引き離される可能性がある。 本稿では, dependabot, crater, copilotを,大規模な集中型ソフトウェアを前提とした3つのツールとして検討する。 オープンソースエコシステムは、コミュニティメンバーとそのアウトプットの間のポジティブなフィードバックループによって維持される。 このメカニズムは、説明責任と透明性の概念を先導するコミュニティ標準によって導かれる。 一方、大規模ソフトウェアは、コミュニティメンバー(開発者)、ユーザ、プロジェクトなど、エコシステムの利害関係者間のポジティブなフィードバックループをサポートする。 一方、大規模ソフトウェアは、活用され、収用されるコモディティとなる。 3つのツール間で属性の比較分析を行い、目標、価値、規範を評価します。 これらのフィードバックループとオープンソースコミュニティに対する社会学的影響を調査した。 それぞれのケーススタディに埋め込まれた価値が、オープンコミュニティの基礎的な倫理から、彼らがモチベーションとしてどのように逸脱するかを実証し、オープンソースインフラストラクチャのプラットフォーム効果、企業的獲得、集中化に対応する。 私たちの分析では、これらのツールは異なる開発のモードを反映した値を埋め込んでいることが分かりました。 そうすることで、コミュニティを拡張するフィードバックメカニズムを持つツールもあります。 コミュニティを脅し、自らを再現する能力を傷つける者もいる。

Centralization in code hosting and package management in the 2010s created fundamental shifts in the social arrangements of open source ecosystems. In a regime of centralized open source, platform effects can both empower and detract from communities depending on underlying technical implementations and governance mechanisms. In this paper we examine Dependabot, Crater and Copilot as three nascent tools whose existence is predicated on centralized software at scale. Open source ecosystems are maintained by positive feedback loops between community members and their outputs. This mechanism is guided by community standards that foreground notions of accountability and transparency. On one hand, software at scale supports positive feedback loops of exchange among ecosystem stakeholders: community members (developers), users, and projects. On the other, software at scale becomes a commodity to be leveraged and expropriated. We perform a comparative analysis of attributes across the three tools and evaluate their goals, values, and norms. We investigate these feedback loops and their sociotechnical effects on open source communities. We demonstrate how the values embedded in each case study may diverge from the foundational ethos of open communities as they are motivated by, and respond to the platform effects, corporate capture, and centralization of open source infrastructure. Our analysis finds that these tools embed values that are reflective of different modes of development - some are transparent and accountable, and others are not. In doing so, certain tools may have feedback mechanisms that extend communities. Others threaten and damage communities ability to reproduce themselves.
翻訳日:2023-06-12 15:18:15 公開日:2023-06-09
# 量子力学のバナッハ空間形式論

Banach space formalism of quantum mechanics ( http://arxiv.org/abs/2306.05630v1 )

ライセンス: Link先を確認
Zeqian Chen(参考訳) 本稿では、従来のヒルベルト空間形式からバナッハ空間形式への量子力学の一般化を提案する。 我々は、複素バナッハ空間が常に半インナー積を持つことの基本的な事実を用いて、複素ヒルベルト空間を超えた任意の複素バナッハ空間から量子論を構築する。 正確には、ある半インナー積を持つ複素バナッハ空間 $\mathbb{x}$ において、純粋な状態は、半インナー積の下で$\mathbb{x}$ の正規化元によって決定される有界作用素の空間上の有界線型汎函数であるとルマー・シュイクト(lumer \cite{lumer1961})によって定義され、その系の状態空間 $\mathcal{s} (\mathbb{x})$ は、すべての純粋状態にまたがる弱閉凸集合である。 Based on Lumer's notion of the state, we associate a quantum system with a complex Banach space $\mathbb{X}$ equipped with a fixed semi-inner product, and then define a physical event at a quantum state $\omega \in \mathcal{S}(\mathbb{X})$ to be a projection $P$ (bounded operator such that $P^2 =P$) in $\mathbb{X}$ satisfying the positivity condition $0 \le \omega (P) \le 1,$ and a physical quantity at a quantum state $\omega$ to be a spectral operator of scalar type with real spectrum so that the associated spectral projections are all physical events at $\omega. 物理量の測定のためのボルン公式は、確率保存則を満たす線形汎関数を持つ作用素の自然対である。 系の時間発展は、実スペクトルを持つスカラー型作用素によって決定される可逆スペクトル作用素の1パラメータ群によって制御され、これはschr\"{o}dinger方程式を満たす。 我々の定式化は、量子力学のディラック・ヴォン・ノイマン形式をバナッハ空間の設定に一般化したものである。 イラストにはいくつかの例があります。

This paper presents a generalization of quantum mechanics from conventional Hilbert space formalism to Banach space one. We construct quantum theory starting with any complex Banach space beyond a complex Hilbert space, through using a basic fact that a complex Banach space always admits a semi-inner product. Precisely, in a complex Banach space $\mathbb{X}$ with a given semi-inner product, a pure state is defined by Lumer \cite{Lumer1961} to be a bounded linear functional on the space of bounded operators determined by a normalized element of $\mathbb{X}$ under the semi-inner product, and then the state space $\mathcal{S} (\mathbb{X})$ of the system is the weakly closed convex set spanned by all pure states. Based on Lumer's notion of the state, we associate a quantum system with a complex Banach space $\mathbb{X}$ equipped with a fixed semi-inner product, and then define a physical event at a quantum state $\omega \in \mathcal{S}(\mathbb{X})$ to be a projection $P$ (bounded operator such that $P^2 =P$) in $\mathbb{X}$ satisfying the positivity condition $0 \le \omega (P) \le 1,$ and a physical quantity at a quantum state $\omega$ to be a spectral operator of scalar type with real spectrum so that the associated spectral projections are all physical events at $\omega.$ The Born formula for measurement of a physical quantity is the natural pairing of operators with linear functionals satisfying the probability conservation law. A time evolution of the system is governed by a one-parameter group of invertible spectral operators determined by a scalar type operator with the real spectrum, which satisfies the Schr\"{o}dinger equation. Our formulation is just a generalization of the Dirac-von Neumann formalism of quantum mechanics to the Banach space setting. We include some examples for illustration.
翻訳日:2023-06-12 15:08:37 公開日:2023-06-09
# MLPへの信頼性蒸留のためのGNNの知識の定量化

Quantifying the Knowledge in GNNs for Reliable Distillation into MLPs ( http://arxiv.org/abs/2306.05628v1 )

ライセンス: Link先を確認
Lirong Wu, Haitao Lin, Yufei Huang, Stan Z. Li(参考訳) トポロジを意識したグラフニューラルネットワーク(GNN)と推論効率のよいMLP(Multi-Layer Perceptron)のギャップを埋めるために、GLNNは、よく訓練された教師GNNからの知識を学生MLPに抽出することを提案する。 彼らの大きな進歩にもかかわらず、GNNにおける異なる知識ポイント(ノード)の信頼性、特に蒸留時に果たす役割について、比較的少ない研究がなされている。 本稿では,まず,gnn における情報エントロピーのノイズ摂動に対する不均一性を測定し,その知識点が異なる蒸留速度(一時的に)を示すこと,(2) をグラフに差動分布すること,などにより,gnn の知識信頼性を定量化する。 信頼性の高い蒸留を実現するために,我々は,各ノードが情報的かつ信頼性の高い知識ポイントである確率をモデル化する,KRD (Knowledge-inspired Reliable Distillation) という効果的な手法を提案する。 大規模な実験により、KRDはバニラのMLPを12.62%改善し、対応する教師GNNを7つのデータセットと3つのGNNアーキテクチャで平均2.16%上回った。

To bridge the gaps between topology-aware Graph Neural Networks (GNNs) and inference-efficient Multi-Layer Perceptron (MLPs), GLNN proposes to distill knowledge from a well-trained teacher GNN into a student MLP. Despite their great progress, comparatively little work has been done to explore the reliability of different knowledge points (nodes) in GNNs, especially their roles played during distillation. In this paper, we first quantify the knowledge reliability in GNN by measuring the invariance of their information entropy to noise perturbations, from which we observe that different knowledge points (1) show different distillation speeds (temporally); (2) are differentially distributed in the graph (spatially). To achieve reliable distillation, we propose an effective approach, namely Knowledge-inspired Reliable Distillation (KRD), that models the probability of each node being an informative and reliable knowledge point, based on which we sample a set of additional reliable knowledge points as supervision for training student MLPs. Extensive experiments show that KRD improves over the vanilla MLPs by 12.62% and outperforms its corresponding teacher GNNs by 2.16% averaged over 7 datasets and 3 GNN architectures.
翻訳日:2023-06-12 15:07:57 公開日:2023-06-09
# デコヒーレンスフリー部分空間におけるカー効果に基づく量子論理ゲート

Kerr-effect-based quantum logical gates in decoherence-free subspace ( http://arxiv.org/abs/2306.05625v1 )

ライセンス: Link先を確認
Fang-Fang Du, Gang Fan and Xue-Mei Ren(参考訳) 2つの(または3つの)量子ビット論理ゲートの効率的な実装は、デコヒーレンスフリー部分空間(DFS)における量子計算の大規模実現に欠かせない。 本稿では,dfs におけるクロスカー非線形性を用いて,二つの論理量子ビットに対して制御ノット(cnot),トッフォリ,フレドキンゲートなどの量子制御ゲート群を構成するためのスキームを提案する。 これら3つの論理ゲートは複雑な量子計算回路も補助光子(あるいは絡み合った状態)も必要としない。 The success probabilities of three logical gates are approximate unit by performing the corresponding classical feed-forward operations based on the different measuring results of the X homodyne detectors, and their fidelities are robust against the photon loss with the current technology.The proposed logical gates rely on only simple linear-optics elements, available single qubit operations, and mature measurement methods, making our proposed gates be feasible and efficient in practical applications.

Efficient implementations of two (or three) qubit logical gates are critical for the large-scale realization of quantum computation in decoherence-free subspace (DFS) immune to the influence of decoherence effect. In this paper, we propose some schemes for setting up a family of quantum control gates, including controlled-NOT (CNOT), Toffoli, and Fredkin gates for two or three logical qubits by means of cross-Kerr nonlinearities in DFS. These three logical gates require neither complicated quantum computational circuits nor auxiliary photons (or entangled states). The success probabilities of three logical gates are approximate unit by performing the corresponding classical feed-forward operations based on the different measuring results of the X homodyne detectors, and their fidelities are robust against the photon loss with the current technology.The proposed logical gates rely on only simple linear-optics elements, available single qubit operations, and mature measurement methods, making our proposed gates be feasible and efficient in practical applications.
翻訳日:2023-06-12 15:07:31 公開日:2023-06-09
# 近代的トラクトグラフィー手法の課題 : 皮質脊髄路の体性頂部組織再構築

Reconstructing the somatotopic organization of the corticospinal tract remains a challenge for modern tractography methods ( http://arxiv.org/abs/2306.05623v1 )

ライセンス: Link先を確認
Jianzhong He, Fan Zhang, Yiang Pan, Yuanjing Feng, Jarrett Rushmore, Erickson Torio, Yogesh Rathi, Nikos Makris, Ron Kikinis, Alexandra J.Golby, Lauren J.ODonnell(参考訳) CST(Corticospinal tract)は、人間の脳において、身体の自発的な動きを制御できる重要な白質繊維である。 拡散MRIは、ヒトの健康におけるCST経路の解剖学的および変動性の研究を可能にする唯一の方法である。 そこで本研究では,CSTとその体幹組織を再構築するための6種類のトラクトグラフィー法の性能について検討した。 我々はHuman Connectome Projectの拡散MRIデータを用いて実験を行った。 復元率, wm-gm界面被覆率, 流線の解剖学的分布, 皮質体積との相関など4つの定量的測定を行い, それぞれの方法の利点と限界を評価した。 以上の結果から,CSTの側方投射の再建に関する課題は広く知られているが,側方(手・顔領域)および内側部分(手足領域)における臨床的に重要な投射を含む包括的CST再建の課題は,MRIの拡散において依然として重要な課題である,という結論が得られた。

The corticospinal tract (CST) is a critically important white matter fiber tract in the human brain that enables control of voluntary movements of the body. Diffusion MRI tractography is the only method that enables the study of the anatomy and variability of the CST pathway in human health. In this work, we explored the performance of six widely used tractography methods for reconstructing the CST and its somatotopic organization. We perform experiments using diffusion MRI data from the Human Connectome Project. Four quantitative measurements including reconstruction rate, the WM-GM interface coverage, anatomical distribution of streamlines, and correlation with cortical volumes to assess the advantages and limitations of each method. Overall, we conclude that while current tractography methods have made progress toward the well-known challenge of improving the reconstruction of the lateral projections of the CST, the overall problem of performing a comprehensive CST reconstruction, including clinically important projections in the lateral (hand and face area) and medial portions (leg area), remains an important challenge for diffusion MRI tractography.
翻訳日:2023-06-12 15:07:16 公開日:2023-06-09
# 機械学習による量子回路合成の改善

Improving Quantum Circuit Synthesis with Machine Learning ( http://arxiv.org/abs/2306.05622v1 )

ライセンス: Link先を確認
Mathias Weiden, Ed Younis, Justin Kalloor, John Kubiatowicz, and Costin Iancu(参考訳) ノイズの多い中間スケール量子(nisq)時代には、計算が有意義な出力を生み出すためには、コストとエラーの少ないゲート数を最小限に抑える量子アルゴリズムの実装を見つけることが不可欠である。 ユニタリ合成は、ある対象ユニタリ行列を実装する量子回路を見つける過程であり、多くの場合、この問題を最適に解くことができる。 しかし、現在のボトムアップユニタリ合成アルゴリズムは、指数関数的に増加する実行時間によって制限される。 機械学習をユニタリデータセットに適用することで、合成アルゴリズムの大幅な高速化が可能になることを示す。 本稿では,学習モデルを用いて,資源効率の良いユニタリ回路実装を迅速に提案するシード合成アルゴリズムであるqseedを提案する。 qseedは低ゲート数を維持し、シャアのファクタリングアルゴリズムのコアコンポーネントである64量子ビットのモジュラー指数回路の合成時間に対して3.7\times$の高速化を提供する。 QSeedのパフォーマンス改善は、トレーニングプロセス中に見えない回路のファミリにも一般化されている。

In the Noisy Intermediate Scale Quantum (NISQ) era, finding implementations of quantum algorithms that minimize the number of expensive and error prone multi-qubit gates is vital to ensure computations produce meaningful outputs. Unitary synthesis, the process of finding a quantum circuit that implements some target unitary matrix, is able to solve this problem optimally in many cases. However, current bottom-up unitary synthesis algorithms are limited by their exponentially growing run times. We show how applying machine learning to unitary datasets permits drastic speedups for synthesis algorithms. This paper presents QSeed, a seeded synthesis algorithm that employs a learned model to quickly propose resource efficient circuit implementations of unitaries. QSeed maintains low gate counts and offers a speedup of $3.7\times$ in synthesis time over the state of the art for a 64 qubit modular exponentiation circuit, a core component in Shor's factoring algorithm. QSeed's performance improvements also generalize to families of circuits not seen during the training process.
翻訳日:2023-06-12 15:06:58 公開日:2023-06-09
# Wav2vec2に基づくフェイクオーディオ検出のための低ランク適応法

Low-rank Adaptation Method for Wav2vec2-based Fake Audio Detection ( http://arxiv.org/abs/2306.05617v1 )

ライセンス: Link先を確認
Chenglong Wang, Jiangyan Yi, Xiaohui Zhang, Jianhua Tao, Le Xu and Ruibo Fu(参考訳) 自己教師型音声モデルは、偽音声検出において急速に発展している研究トピックである。 多くの事前学習されたモデルが特徴抽出器として機能し、より豊かで高レベルな音声特徴を学習することができる。 しかし、訓練済みの微調整モデルでは、過度に長いトレーニング時間と高いメモリ消費の課題がしばしばあり、完全な微調整も非常に高価である。 この問題を解決するために,wav2vec2モデルに低ランク適応(lora)を適用し,事前学習したモデル重みを凍結し,学習可能なランク分解行列をトランスフォーマーアーキテクチャの各層に注入し,下流タスクのトレーニング可能なパラメータ数を大幅に削減した。 317Mのトレーニングパラメータを含むwav2vec2モデルのAdamの微調整と比較して、LoRAはトレーニング可能なパラメータの数を198倍減らして同様の性能を達成した。

Self-supervised speech models are a rapidly developing research topic in fake audio detection. Many pre-trained models can serve as feature extractors, learning richer and higher-level speech features. However,when fine-tuning pre-trained models, there is often a challenge of excessively long training times and high memory consumption, and complete fine-tuning is also very expensive. To alleviate this problem, we apply low-rank adaptation(LoRA) to the wav2vec2 model, freezing the pre-trained model weights and injecting a trainable rank-decomposition matrix into each layer of the transformer architecture, greatly reducing the number of trainable parameters for downstream tasks. Compared with fine-tuning with Adam on the wav2vec2 model containing 317M training parameters, LoRA achieved similar performance by reducing the number of trainable parameters by 198 times.
翻訳日:2023-06-12 15:06:40 公開日:2023-06-09
# 同じスペクトルシグネチャを持つ複数のフルオロフォアのエミッタ数の量子推定

Quantum estimation of the number of emitters for multiple fluorophores with the same spectral signature ( http://arxiv.org/abs/2306.05614v1 )

ライセンス: Link先を確認
Wenchao Li, Shuo Li, Timothy C. Brown, Qiang Sun, Xuezhi Wang, Vladislav V. Yakovlev, Allison Kealy, Bill Moran, Andrew D. Greentree(参考訳) 蛍光顕微鏡は生物学的機能を理解する上で重要である。 しかし、ほとんどの蛍光実験は、絶対数の蛍光粒子が決定できないため、定性的不合理である。 また、従来の蛍光強度測定手法では、スペクトル窓の総強度のみが得られるため、励起されて同じスペクトル窓に放出される2つ以上のフルオロフォアを区別できない。 ここでは、光子数分解実験を用いて、複数の異なる種の発光源の数と放出確率を、それぞれ同じ測定されたスペクトルシグネチャで決定できることを示す。 1種あたりのエミッター数の決定と、その種から1種、2種、3種で光子を収集する確率を示すことで、我々のアイデアを説明する。 畳み込み双項モデルは、複数の種から放出されるカウントされた光子をモデル化するために提示される。 そして、期待最大化(EM)アルゴリズムを用いて、測定された光子数と予測畳み込み二項分布関数とを一致させる。 EMアルゴリズムの適用において、準最適解に閉じ込められる問題を活用するために、EMアルゴリズムの初期推定を求める際にモーメント法を導入する。 さらに、関連するCram\'er-Rao下界が導出され、シミュレーション結果と比較される。

Fluorescence microscopy is of vital importance for understanding biological function. However most fluorescence experiments are only qualitative inasmuch as the absolute number of fluorescent particles can often not be determined. Additionally, conventional approaches to measuring fluorescence intensity cannot distinguish between two or more fluorophores that are excited and emit in the same spectral window, as only the total intensity in a spectral window can be obtained. Here we show that, by using photon number resolving experiments, we are able to determine the number of emitters and their probability of emission for a number of different species, all with the same measured spectral signature. We illustrate our ideas by showing the determination of the number of emitters per species and the probability of photon collection from that species, for one, two, and three otherwise unresolvable fluorophores. The convolution Binomial model is presented to model the counted photons emitted by multiple species. And then the Expectation-Maximization (EM) algorithm is used to match the measured photon counts to the expected convolution Binomial distribution function. In applying the EM algorithm, to leverage the problem of being trapped in a sub-optimal solution, the moment method is introduced in finding the initial guess of the EM algorithm. Additionally, the associated Cram\'er-Rao lower bound is derived and compared with the simulation results.
翻訳日:2023-06-12 15:06:24 公開日:2023-06-09
# 擬似乱数状態からの擬似乱数文字列

Pseudorandom Strings from Pseudorandom Quantum States ( http://arxiv.org/abs/2306.05613v1 )

ライセンス: Link先を確認
Prabhanjan Ananth, Yao-Ting Lin, Henry Yuen(参考訳) 古典暗号の基本的な結果は、擬似乱数生成器は一方向関数と同値であり、実際には計算上の仮定を必要とするほぼ全ての古典的暗号プリミティブに含意される。 本研究では,量子擬似乱数生成器(quantum pseudorandom generators, qprgs)と呼ばれる疑似乱数生成器の変種について考察する。 コミットメントや暗号スキームなどのQPRGの暗号アプリケーションを提供することで,QPRGがPRGと同じくらい有用であることを示す。 我々の主な成果は、対数長量子擬似ランダム状態の存在を前提として、QPRGを構築できることである。 これにより、一方の関数よりも弱い仮定にQPRGを基づける可能性が高まる。 また、量子擬似乱数関数(QPRF)についても考察し、QPRFが対数長擬似乱数関数のような状態の存在に基づいていることを示す。 我々の主な技術的貢献は、Haar-random状態から一様ランダムな文字列を仮決定的に抽出する方法である。

A fundamental result in classical cryptography is that pseudorandom generators are equivalent to one-way functions and in fact implied by nearly every classical cryptographic primitive requiring computational assumptions. In this work, we consider a variant of pseudorandom generators called quantum pseudorandom generators (QPRGs), which are quantum algorithms that (pseudo)deterministically map short random seeds to long pseudorandom strings. We provide evidence that QPRGs can be as useful as PRGs by providing cryptographic applications of QPRGs such as commitments and encryption schemes. Our main result is showing that QPRGs can be constructed assuming the existence of logarithmic-length quantum pseudorandom states. This raises the possibility of basing QPRGs on assumptions weaker than one-way functions. We also consider quantum pseudorandom functions (QPRFs) and show that QPRFs can be based on the existence of logarithmic-length pseudorandom function-like states. Our primary technical contribution is a method for pseudodeterministically extracting uniformly random strings from Haar-random states.
翻訳日:2023-06-12 15:06:01 公開日:2023-06-09
# N:M間隔の空間的再パラメータ化

Spatial Re-parameterization for N:M Sparsity ( http://arxiv.org/abs/2306.05612v1 )

ライセンス: Link先を確認
Yuxin Zhang, Mingbao Lin, Yunshan Zhong, Mengzhao Chen, Fei Chao, Rongrong Ji(参考訳) 本稿では,CNNにおけるN:M空間の空間的再パラメータ化(SpRe)手法を提案する。 spreは、n:mスパーシティに存在する空間スパーシティの制限された多様性に関する観測から生まれた。 特に、N:M間隔は、畳み込みフィルタの入力チャネル次元において、M の連続重みのうち N 個の非零成分を割り当てる独特のパターンにより、空間領域内で一定の間隔率を示す。 逆に,非構造的空間は空間領域間の空間性にかなりのばらつきがあることが観察され,N:M空間性と比較して頑健な性能維持に極めて重要であることが実験的に確認された。 そのため、SpReは、非構造空間の空間スパース分布を用いて、トレーニング時に元のN:Mブランチと共に余分な分岐を割り当て、N:Mスパースネットワークは非構造空間スパースと同じような空間スパース分布を維持することができる。 推論中、余分な分岐はスパースパターンや追加の計算コストに歪みを生じさせることなく、主N:Mブランチに再パラメータ化することができる。 SpReは、N:Mスペーサリティ法と最先端の非構造化スペーサリティ法のパフォーマンスを様々なベンチマークで一致させることで、賞賛できる偉業を成し遂げた。 コードとモデルは匿名で \url{https://github.com/zyxxmu/SpRe} で入手できる。

This paper presents a Spatial Re-parameterization (SpRe) method for the N:M sparsity in CNNs. SpRe is stemmed from an observation regarding the restricted variety in spatial sparsity present in N:M sparsity compared with unstructured sparsity. Particularly, N:M sparsity exhibits a fixed sparsity rate within the spatial domains due to its distinctive pattern that mandates N non-zero components among M successive weights in the input channel dimension of convolution filters. On the contrary, we observe that unstructured sparsity displays a substantial divergence in sparsity across the spatial domains, which we experimentally verified to be very crucial for its robust performance retention compared with N:M sparsity. Therefore, SpRe employs the spatial-sparsity distribution of unstructured sparsity to assign an extra branch in conjunction with the original N:M branch at training time, which allows the N:M sparse network to sustain a similar distribution of spatial sparsity with unstructured sparsity. During inference, the extra branch can be further re-parameterized into the main N:M branch, without exerting any distortion on the sparse pattern or additional computation costs. SpRe has achieved a commendable feat by matching the performance of N:M sparsity methods with state-of-the-art unstructured sparsity methods across various benchmarks. Code and models are anonymously available at \url{https://github.com/zyxxmu/SpRe}.
翻訳日:2023-06-12 15:05:40 公開日:2023-06-09
# 単語感覚拡張

Word sense extension ( http://arxiv.org/abs/2306.05609v1 )

ライセンス: Link先を確認
Lei Yu, Yang Xu(参考訳) 人間はしばしば新しい感覚を表現するために言葉の創造的な利用をする。 自然言語処理における長年の努力は、word sense disambiguation (wsd) に焦点をあててきたが、単語のセンスインベントリがどのようにして新しい意味へと拡張されるかについては、ほとんど研究されていない。 我々は,新しい文脈に向けて新たな感覚を生み出すことを可能にするword sense extension (wse) のパラダイムを提案する。 本研究では,まず多文語型を異なる感覚を示す2つの擬似トークンに分割し,擬似トークンの意味を拡張して同一の単語型から区切られたトークンで示される感覚を伝達できるかどうかを推定することにより,新規な単語感覚拡張をシミュレートするフレームワークを開発する。 このフレームワークは連鎖の認知モデルと、様々な種類の単語知覚拡張をサポートする言語モデル埋め込み空間を変換する学習スキームを組み合わせる。 提案手法をいくつかの競争基盤線に対して評価し,7500語以上の英単語に対する可読性新感覚の予測に優れていることを示す。 さらに,我々のwseフレームワークは,トレーニングデータにほとんど言及しない,あるいはゼロのレアワードセンスの予測において,トランスフォーマティブベースのwsdモデルよりもパフォーマンスが向上することを示す。

Humans often make creative use of words to express novel senses. A long-standing effort in natural language processing has been focusing on word sense disambiguation (WSD), but little has been explored about how the sense inventory of a word may be extended toward novel meanings. We present a paradigm of word sense extension (WSE) that enables words to spawn new senses toward novel context. We develop a framework that simulates novel word sense extension by first partitioning a polysemous word type into two pseudo-tokens that mark its different senses, and then inferring whether the meaning of a pseudo-token can be extended to convey the sense denoted by the token partitioned from the same word type. Our framework combines cognitive models of chaining with a learning scheme that transforms a language model embedding space to support various types of word sense extension. We evaluate our framework against several competitive baselines and show that it is superior in predicting plausible novel senses for over 7,500 English words. Furthermore, we show that our WSE framework improves performance over a range of transformer-based WSD models in predicting rare word senses with few or zero mentions in the training data.
翻訳日:2023-06-12 15:05:01 公開日:2023-06-09
# 通信効率の良いゼロ階分散オンライン最適化:アルゴリズム,理論,応用

Communication-Efficient Zeroth-Order Distributed Online Optimization: Algorithm, Theory, and Applications ( http://arxiv.org/abs/2306.05655v1 )

ライセンス: Link先を確認
Ege C. Kaya, M. Berk Sahin and Abolfazl Hashemi(参考訳) 本稿では,目標追跡のための連合学習環境におけるマルチエージェントゼロ階オンライン最適化問題に焦点を当てた。 エージェントは目標に対する現在の距離を感知し、衝突を防ぐために互いに最小限の安全な距離を維持することを目的としている。 連合学習パラダイムを用いて、中央サーバによりエージェント間の協調と衝突防止情報の拡散を管理する。 提案手法は, 分散オンライン非凸最適化問題の一例となり, 通信制約エージェント群によって解決される。 エージェントの通信制限に対処するために,エラーフィードバックに基づく圧縮スキームを用いてエージェント間通信を行う。 提案アルゴリズムは,分散オンライン非凸最適化問題の一般クラスに対して理論的に解析する。 圧縮スキームの特性とは独立して支配的な項を示す非漸近収束率を提供する。 我々の理論結果は、標準文献と比較してはるかに緩やかな仮定を取り入れた新しいアプローチを特徴としている。 提案手法の性能は,2つの関連アプリケーションにおけるエージェント間の衝突やエラーの追跡の観点から数値的に解析される。

This paper focuses on a multi-agent zeroth-order online optimization problem in a federated learning setting for target tracking. The agents only sense their current distances to their targets and aim to maintain a minimum safe distance from each other to prevent collisions. The coordination among the agents and dissemination of collision-prevention information is managed by a central server using the federated learning paradigm. The proposed formulation leads to an instance of distributed online nonconvex optimization problem that is solved via a group of communication-constrained agents. To deal with the communication limitations of the agents, an error feedback-based compression scheme is utilized for agent-to-server communication. The proposed algorithm is analyzed theoretically for the general class of distributed online nonconvex optimization problems. We provide non-asymptotic convergence rates that show the dominant term is independent of the characteristics of the compression scheme. Our theoretical results feature a new approach that employs significantly more relaxed assumptions in comparison to standard literature. The performance of the proposed solution is further analyzed numerically in terms of tracking errors and collisions between agents in two relevant applications.
翻訳日:2023-06-12 14:59:38 公開日:2023-06-09
# スパイクタイミングはスパイクニューラルネットワークの攻撃に対する堅牢性を取り戻す

Spike timing reshapes robustness against attacks in spiking neural networks ( http://arxiv.org/abs/2306.05654v1 )

ライセンス: Link先を確認
Jianhao Ding, Zhaofei Yu, Tiejun Huang and Jian K. Liu(参考訳) 過去10年間のディープラーニングの成功は、部分的に敵対的な攻撃の影に隠れている。 対照的に、脳は複雑な認知タスクにおいてはるかに堅牢である。 脳内のニューロンがスパイクを介して通信する利点を生かして、スパイクニューラルネットワーク(SNN)が新しいタイプのニューラルネットワークモデルとして登場し、人工ニューラルネットワークとディープラーニングの実証的応用に関する理論的研究のフロンティアを高めている。 神経科学研究は、神経スパイクの正確なタイミングが生体脳の情報符号化と感覚処理に重要な役割を果たすことを示唆している。 しかし,SNNにおけるスパイクタイミングの役割は考慮されていない。 本稿では,snsにおけるスパイク符号化のタイミング機構を体系的に検討し,各種攻撃に対するシステムのロバスト性に着目した。 ニューラルエンコーディングとデコーディングの正確なスパイクタイミングの符号化原理を用いて,学習規則の相違により,snsは高いロバスト性向上を達成できることを見出した。 以上の結果から,snsにおけるスパイクタイミングコーディングの有用性は,攻撃に対するロバスト性を向上させる可能性があり,次世代脳インスパイア深層学習のための信頼性の高いコーディング原則への新たなアプローチが示唆された。

The success of deep learning in the past decade is partially shrouded in the shadow of adversarial attacks. In contrast, the brain is far more robust at complex cognitive tasks. Utilizing the advantage that neurons in the brain communicate via spikes, spiking neural networks (SNNs) are emerging as a new type of neural network model, boosting the frontier of theoretical investigation and empirical application of artificial neural networks and deep learning. Neuroscience research proposes that the precise timing of neural spikes plays an important role in the information coding and sensory processing of the biological brain. However, the role of spike timing in SNNs is less considered and far from understood. Here we systematically explored the timing mechanism of spike coding in SNNs, focusing on the robustness of the system against various types of attacks. We found that SNNs can achieve higher robustness improvement using the coding principle of precise spike timing in neural encoding and decoding, facilitated by different learning rules. Our results suggest that the utility of spike timing coding in SNNs could improve the robustness against attacks, providing a new approach to reliable coding principles for developing next-generation brain-inspired deep learning.
翻訳日:2023-06-12 14:59:23 公開日:2023-06-09
# オンラインメンタルヘルスリスク評価のためのプライバシーを意識した質問応答システム

Privacy Aware Question-Answering System for Online Mental Health Risk Assessment ( http://arxiv.org/abs/2306.05652v1 )

ライセンス: Link先を確認
Prateek Chhikara, Ujjwal Pasupulety, John Marshall, Dhiraj Chaurasia, Shweta Kumari(参考訳) ソーシャルメディアプラットフォームは、精神疾患に苦しむ個人が生活経験を共有し、対処に必要なオンラインサポートを見つけることを可能にした。 しかし、多くのユーザーは真の臨床サポートを受けられないため、症状が悪化する。 オンライン投稿に基づいてユーザーをスクリーニングすることは、プロバイダーがターゲット医療を管理し、偽陽性を最小化するのに役立ちます。 事前訓練された言語モデル(lms)は、ユーザのソーシャルメディアデータを評価し、メンタルヘルスリスクの観点から分類することができる。 本研究では,2つの大規模メンタルヘルスデータセット上での統一QAモデルを用いて,メンタルヘルスリスクを評価するための質問応答(QA)アプローチを提案する。 ユーザデータを保護するため,差分プライバシーを用いたモデルトレーニングプロセスの匿名化によりUnified-QAを拡張した。 本研究は,QA課題としてのリスクアセスメントのモデル化の有効性を実証するものである。 さらに、差分プライバシーを含むことにより、モデルの性能は1%未満に低下する。 提案システムの性能は,プライバシーに配慮した診断システムの開発につながる有望な研究方向を示すものである。

Social media platforms have enabled individuals suffering from mental illnesses to share their lived experiences and find the online support necessary to cope. However, many users fail to receive genuine clinical support, thus exacerbating their symptoms. Screening users based on what they post online can aid providers in administering targeted healthcare and minimize false positives. Pre-trained Language Models (LMs) can assess users' social media data and classify them in terms of their mental health risk. We propose a Question-Answering (QA) approach to assess mental health risk using the Unified-QA model on two large mental health datasets. To protect user data, we extend Unified-QA by anonymizing the model training process using differential privacy. Our results demonstrate the effectiveness of modeling risk assessment as a QA task, specifically for mental health use cases. Furthermore, the model's performance decreases by less than 1% with the inclusion of differential privacy. The proposed system's performance is indicative of a promising research direction that will lead to the development of privacy-aware diagnostic systems.
翻訳日:2023-06-12 14:59:03 公開日:2023-06-09
# 個人別シャープネス・アウェアトレーニング

Differentially Private Sharpness-Aware Training ( http://arxiv.org/abs/2306.05651v1 )

ライセンス: Link先を確認
Jinseong Park, Hoki Kim, Yujin Choi, Jaewook Lee(参考訳) 差分プライバシー(DP)を用いたディープラーニングモデルのトレーニングでは、パフォーマンスが低下する。 DPを用いたモデルのトレーニングダイナミクスは、標準トレーニングと大きく異なるが、プライベートラーニングの幾何学的性質の理解は、ほとんど探索されていない。 本稿では,私的学習において,より優れた一般化を実現するための重要な要因であるシャープネスについて検討する。 平らなミニマは,サンプル毎の勾配クリッピングの負の効果とガウス雑音の付加を低減できることを示した。 次に,私的学習における平らな最小値を求めるために,SAM(Sharpness-Aware Minimization)の有効性を検証する。 しかし,2段階最適化により,プライバシー予算や計算時間に悪影響を与えることも判明した。 そこで本研究では,プライバシ最適化トレードオフを緩和するシャープネス対応トレーニング手法を提案する。 提案手法は,DPを用いたディープラーニングモデルの性能を,スクラッチと微調整の両方から向上することを示す。 コードはhttps://github.com/jinseongP/DPSAT.comで入手できる。

Training deep learning models with differential privacy (DP) results in a degradation of performance. The training dynamics of models with DP show a significant difference from standard training, whereas understanding the geometric properties of private learning remains largely unexplored. In this paper, we investigate sharpness, a key factor in achieving better generalization, in private learning. We show that flat minima can help reduce the negative effects of per-example gradient clipping and the addition of Gaussian noise. We then verify the effectiveness of Sharpness-Aware Minimization (SAM) for seeking flat minima in private learning. However, we also discover that SAM is detrimental to the privacy budget and computational time due to its two-step optimization. Thus, we propose a new sharpness-aware training method that mitigates the privacy-optimization trade-off. Our experimental results demonstrate that the proposed method improves the performance of deep learning models with DP from both scratch and fine-tuning. Code is available at https://github.com/jinseongP/DPSAT.
翻訳日:2023-06-12 14:58:46 公開日:2023-06-09
# CVXPYを用いたロバストな経験的リスク最小化問題の特定と解決

Specifying and Solving Robust Empirical Risk Minimization Problems Using CVXPY ( http://arxiv.org/abs/2306.05649v1 )

ライセンス: Link先を確認
Eric Luxenberg and Dhruv Malik and Yuanzhi Li and Aarti Singh and Stephen Boyd(参考訳) 本研究では,各データポイントが所定の凸不確実性集合上で変動する場合の最悪の経験的損失を最小限に抑えるために,モデルパラメータが選択される,ロバストな経験的リスク最小化(ERM)を考える。 単純な場合では、そのような問題は分析形式で表現できる。 一般に、問題は双対化によって引き出すことができ、min-max問題からmin-min問題へと変換される。 二重化には専門知識が必要です。 本稿では,CVXPYを用いて,この二重化手順をユーザフレンドリな方法で自動化する方法を示す。 当社のフレームワークでは,コンベックス損失の一般的なクラスを用いて,堅牢なERM問題の特定と解決を可能にし,多くの標準回帰および分類問題を捕捉する。 ユーザーはdisciplined convex programming (dcp) 制約によって表現可能な任意の複雑な不確実性集合を容易に指定できる。

We consider robust empirical risk minimization (ERM), where model parameters are chosen to minimize the worst-case empirical loss when each data point varies over a given convex uncertainty set. In some simple cases, such problems can be expressed in an analytical form. In general the problem can be made tractable via dualization, which turns a min-max problem into a min-min problem. Dualization requires expertise and is tedious and error-prone. We demonstrate how CVXPY can be used to automate this dualization procedure in a user-friendly manner. Our framework allows practitioners to specify and solve robust ERM problems with a general class of convex losses, capturing many standard regression and classification problems. Users can easily specify any complex uncertainty set that is representable via disciplined convex programming (DCP) constraints.
翻訳日:2023-06-12 14:58:29 公開日:2023-06-09
# WSPAlign: 大規模監視スパン予測による単語アライメント事前学習

WSPAlign: Word Alignment Pre-training via Large-Scale Weakly Supervised Span Prediction ( http://arxiv.org/abs/2306.05644v1 )

ライセンス: Link先を確認
Qiyu Wu, Masaaki Nagata, Yoshimasa Tsuruoka(参考訳) 既存の単語アライメント手法のほとんどは手動アライメントデータセットや並列コーパスに依存しており、その有用性を制限している。 本稿では,手動データへの依存を緩和するために,正文,完全整列文,平行文の要求を緩和することで,監督の源泉を広げる。 具体的には、ノイズ、部分的なアライメント、および非並列段落を作成します。 次に、このような大規模弱教師付きデータセットを用いて、スパン予測による単語アライメント事前学習を行う。 様々な設定による大規模な実験は、WSPAlignという名前の我々のアプローチが、手動データなしで単語整合を事前訓練するための効果的でスケーラブルな方法であることを実証的に示している。 標準ベンチマークを微調整すると、WSPAlignはF1では3.3~6.1点、AERでは1.5~6.1点の改善により、新しい最先端技術を設定した。 さらに、wspalignは、none-shot、zero-shot、cross-lingualのテストで対応するベースラインと比較しても、競争力のあるパフォーマンスを実現しています。

Most existing word alignment methods rely on manual alignment datasets or parallel corpora, which limits their usefulness. Here, to mitigate the dependence on manual data, we broaden the source of supervision by relaxing the requirement for correct, fully-aligned, and parallel sentences. Specifically, we make noisy, partially aligned, and non-parallel paragraphs. We then use such a large-scale weakly-supervised dataset for word alignment pre-training via span prediction. Extensive experiments with various settings empirically demonstrate that our approach, which is named WSPAlign, is an effective and scalable way to pre-train word aligners without manual data. When fine-tuned on standard benchmarks, WSPAlign has set a new state-of-the-art by improving upon the best-supervised baseline by 3.3~6.1 points in F1 and 1.5~6.1 points in AER. Furthermore, WSPAlign also achieves competitive performance compared with the corresponding baselines in few-shot, zero-shot and cross-lingual tests, which demonstrates that WSPAlign is potentially more practical for low-resource languages than existing methods.
翻訳日:2023-06-12 14:58:15 公開日:2023-06-09
# 医療報告作成のための汎用基盤モデルのカスタマイズ

Customizing General-Purpose Foundation Models for Medical Report Generation ( http://arxiv.org/abs/2306.05642v1 )

ライセンス: Link先を確認
Bang Yang, Asif Raza, Yuexian Zou, Tong Zhang(参考訳) mrg(medical report generation)のタスクと見なすことができる医学的キャプション予測は、与えられた医療画像に対するコヒーレントかつ正確なキャプションの自動生成を必要とする。 しかし、ラベル付き医療画像報告ペアの不足は、大規模言語モデル(llm)のような潜在的な人工知能パワーを活用できる深層および大規模ニューラルネットワークの開発において大きな課題を呈している。 本研究は,医療レポート生成に焦点を絞ったコンピュータビジョンと自然言語処理において,一般市販の大規模事前学習モデル,すなわち基盤モデル(fms)をカスタマイズすることを提案する。 具体的には、最先端のビジョン言語事前学習手法であるBLIP-2に従って、エンコーダデコーダに基づくMRGモデルを導入する。 このモデルは、軽量なクエリトランスフォーマーを使用して、2つのFMを接続する:巨大なビジョントランスフォーマーEVA-ViT-gと、人間の意図に合わせて訓練されたバイリンガルLLM(ChatGLM-6B)。 さらに,モデルの学習可能成分に関するアブレーション実験を行い,効果的なトランスファー学習の重要な要因を明らかにする。 以上の結果から,医用画像表現の学習にはeva-vit-gの凍結,医療報告書の書字スタイルを捉えるためのchatglm-6bのパラメーター効率の良いトレーニングが不可欠であることが判明した。 私たちのベストトライ(PCLmed Team)は、ImageCLEFmedical Caption 2023 Caption Prediction Taskコンペティションで、BERTScoreとROUGE-1メトリクスに基づいて、13チーム中、それぞれ第4と第2で達成しました。

Medical caption prediction which can be regarded as a task of medical report generation (MRG), requires the automatic generation of coherent and accurate captions for the given medical images. However, the scarcity of labelled medical image-report pairs presents great challenges in the development of deep and large-scale neural networks capable of harnessing the potential artificial general intelligence power like large language models (LLMs). In this work, we propose customizing off-the-shelf general-purpose large-scale pre-trained models, i.e., foundation models (FMs), in computer vision and natural language processing with a specific focus on medical report generation. Specifically, following BLIP-2, a state-of-the-art vision-language pre-training approach, we introduce our encoder-decoder-based MRG model. This model utilizes a lightweight query Transformer to connect two FMs: the giant vision Transformer EVA-ViT-g and a bilingual LLM trained to align with human intentions (referred to as ChatGLM-6B). Furthermore, we conduct ablative experiments on the trainable components of the model to identify the crucial factors for effective transfer learning. Our findings demonstrate that unfreezing EVA-ViT-g to learn medical image representations, followed by parameter-efficient training of ChatGLM-6B to capture the writing styles of medical reports, is essential for achieving optimal results. Our best attempt (PCLmed Team) achieved the 4th and the 2nd, respectively, out of 13 participating teams, based on the BERTScore and ROUGE-1 metrics, in the ImageCLEFmedical Caption 2023 Caption Prediction Task competition.
翻訳日:2023-06-12 14:57:55 公開日:2023-06-09
# 異なるデータセット間のマージモデルに対する置換対称性の再検討

Revisiting Permutation Symmetry for Merging Models between Different Datasets ( http://arxiv.org/abs/2306.05641v1 )

ライセンス: Link先を確認
Masanori Yamada, Tomoya Yamashita, Shin'ya Yamaguchi, Daiki Chijiwa(参考訳) モデルマージは、異なるトレーニングされたモデルの重みを組み合わせることで、新しいモデルを作成するための新しいアプローチである。 前回の研究では、モデルマージは、異なるランダムシードを持つ単一のデータセットでトレーニングされたモデルでうまく機能するが、異なるデータセット間でのモデルマージは困難である。 異なるデータセットからの知識の融合は、実際は重要であるが、十分に研究されていない。 本稿では,異なるデータセット間のマージモデルの特性について検討する。 理論的および実証的分析により,データセットの多様化に伴ってマージモデルの精度が著しく低下し,各データセットの損失景観が異なるため,異なるデータセット間のマージが困難になることが分かった。 また、マージモデルでは、精度を高めるためにマージのためのデータセットが必要であることも示している。 さらに,データセット凝縮によって作成された凝縮データセットを,マージモデルにおいて元のデータセットの代用として使用できることを示す。 異なるデータセット間のモデルマージ実験を行う。 MNISTとFashion-MNISTのモデルを統合すると、データセットを使用した場合の精度は28%向上し、データセットを使用していない場合には25%向上する。

Model merging is a new approach to creating a new model by combining the weights of different trained models. Previous studies report that model merging works well for models trained on a single dataset with different random seeds, while model merging between different datasets is difficult. Merging knowledge from different datasets has practical significance, but it has not been well investigated. In this paper, we investigate the properties of merging models between different datasets. Through theoretical and empirical analyses, we find that the accuracy of the merged model decreases more significantly as the datasets diverge more and that the different loss landscapes for each dataset make model merging between different datasets difficult. We also show that merged models require datasets for merging in order to achieve a high accuracy. Furthermore, we show that condensed datasets created by dataset condensation can be used as substitutes for the original datasets when merging models. We conduct experiments for model merging between different datasets. When merging between MNIST and Fashion- MNIST models, the accuracy significantly improves by 28% using the dataset and 25% using the condensed dataset compared with not using the dataset.
翻訳日:2023-06-12 14:57:26 公開日:2023-06-09
# 量子シミュレーションにおけるフェルミオン還元密度低ランク行列の完全化、ノイズフィルタリング、測定低減

Fermionic reduced density low-rank matrix completion, noise filtering, and measurement reduction in quantum simulations ( http://arxiv.org/abs/2306.05640v1 )

ライセンス: Link先を確認
Linqing Peng, Xing Zhang, and Garnet Kin-Lic Chan(参考訳) フェルミオン還元密度行列はフェルミオン系の重要な可観測物を要約する。 電子系では、2粒子還元密度行列(2-RDM)は、興味のあるエネルギーと最も物理的に観測可能なものを決定するのに十分である。 ここでは, 2粒子還元密度行列を部分情報から化学的精度に再構成するために, 行列補完を用いる可能性を検討する。 本研究では,部分情報は2-rdm要素のサブセットに対応する部分的情報と,部分的な情報が要素のサブセットと,それらの値の統計的ノイズの両方に対応するようなノイズ完全化とに対応する場合を考える。 24分子系の実験により, 2-RDMは少ない情報量から効率的に再構成できることがわかった。 ノイズ処理が完了した場合, 化学的精度で2-RDMを決定するのに必要な測定値の倍数削減が達成される。 これらの手法は量子シミュレーションのための古典的アルゴリズムと量子的アルゴリズムの両方に容易に適用できる。

Fermionic reduced density matrices summarize the key observables in fermionic systems. In electronic systems, the two-particle reduced density matrix (2-RDM) is sufficient to determine the energy and most physical observables of interest. Here, we consider the possibility of using matrix completion to reconstruct the two-particle reduced density matrix to chemical accuracy from partial information. We consider the case of noiseless matrix completion, where the partial information corresponds to a subset of the 2-RDM elements, as well as noisy completion, where the partial information corresponds to both a subset of elements, as well as statistical noise in their values. Through experiments on a set of 24 molecular systems, we find that the 2-RDM can be efficiently reconstructed from a reduced amount of information. In the case of noisy completion, this results in multiple orders of magnitude reduction in the number of measurements needed to determine the 2-RDM to chemical accuracy. These techniques can be readily applied to both classical and quantum algorithms for quantum simulations.
翻訳日:2023-06-12 14:56:51 公開日:2023-06-09
# 強化学習における教師なし表現学習における特徴非相関の重要性について

On the Importance of Feature Decorrelation for Unsupervised Representation Learning in Reinforcement Learning ( http://arxiv.org/abs/2306.05637v1 )

ライセンス: Link先を確認
Hojoon Lee and Koanho Lee and Dongyoon Hwang and Hyunho Lee and Byungkun Lee and Jaegul Choo(参考訳) 近年,unsupervised representation learning(url)は,大きなラベルなしデータセットからモデルを事前学習することにより,強化学習(rl)のサンプル効率を向上させる。 これらの手法の基本的な原理は、潜在空間における将来の状態を予測することによって、時間的予測表現を学ぶことである。 しかし、このアプローチの重要な課題は表現的崩壊であり、潜在表現の部分空間が低次元多様体に崩壊する。 この問題に対処するため,我々は,潜在空間の特徴を関連付けることで潜在多様体の次元を増加させながら,将来の状態を因果的に予測する新しいurlフレームワークを提案する。 atari 100kベンチマークにおける最先端のurlメソッドのサンプル効率を大幅に向上させることで,予測表現を効果的に学習できることを実証した。 コードはhttps://github.com/dojeon-ai/SimTPRで公開されている。

Recently, unsupervised representation learning (URL) has improved the sample efficiency of Reinforcement Learning (RL) by pretraining a model from a large unlabeled dataset. The underlying principle of these methods is to learn temporally predictive representations by predicting future states in the latent space. However, an important challenge of this approach is the representational collapse, where the subspace of the latent representations collapses into a low-dimensional manifold. To address this issue, we propose a novel URL framework that causally predicts future states while increasing the dimension of the latent manifold by decorrelating the features in the latent space. Through extensive empirical studies, we demonstrate that our framework effectively learns predictive representations without collapse, which significantly improves the sample efficiency of state-of-the-art URL methods on the Atari 100k benchmark. The code is available at https://github.com/dojeon-ai/SimTPR.
翻訳日:2023-06-12 14:56:09 公開日:2023-06-09
# 過パラメータニューラルネットワークの有効不確かさの定量化と低減

Efficient Uncertainty Quantification and Reduction for Over-Parameterized Neural Networks ( http://arxiv.org/abs/2306.05674v1 )

ライセンス: Link先を確認
Ziyi Huang, Henry Lam, Haofeng Zhang(参考訳) 不確実性定量化(UQ)は、機械学習モデルの信頼性評価と強化に重要である。 ディープラーニングでは、不確実性はデータだけでなく、重大なノイズやバイアスを注入する訓練手順からも生じる。 これにより、統計的保証の達成が妨げられ、また、繰り返しのネットワーク再トレーニングの必要性により、UQに計算上の課題が課される。 近年のニューラル・タンジェント・カーネル理論に基づいて,計算作業が極めて少ないオーバーパラメータ化ニューラルネットワークの手続き的不確実性である,主に \emph{quantify} と \emph{remove} に対して統計的に保証されたスキームを作成する。 特に,提案手法はプロシージャノイズ補正(PNC)予測器 (Procedural-noise-correcting, PNC) と呼ばれる手法に基づいて,適切なラベル付きデータセットでトレーニングされた 'emph{one} 補助ネットワークのみを用いて手続きの不確実性を除去する。 さらに,PNC予測器と適切な光計算再サンプリング手法を組み合わせることで,新たなオーバーヘッドを伴わない4つのトレーニングネットワークを用いて,漸近的に正確な被覆信頼区間を構築するためのいくつかのアプローチを構築した。

Uncertainty quantification (UQ) is important for reliability assessment and enhancement of machine learning models. In deep learning, uncertainties arise not only from data, but also from the training procedure that often injects substantial noises and biases. These hinder the attainment of statistical guarantees and, moreover, impose computational challenges on UQ due to the need for repeated network retraining. Building upon the recent neural tangent kernel theory, we create statistically guaranteed schemes to principally \emph{quantify}, and \emph{remove}, the procedural uncertainty of over-parameterized neural networks with very low computation effort. In particular, our approach, based on what we call a procedural-noise-correcting (PNC) predictor, removes the procedural uncertainty by using only \emph{one} auxiliary network that is trained on a suitably labeled data set, instead of many retrained networks employed in deep ensembles. Moreover, by combining our PNC predictor with suitable light-computation resampling methods, we build several approaches to construct asymptotically exact-coverage confidence intervals using as low as four trained networks without additional overheads.
翻訳日:2023-06-12 14:48:32 公開日:2023-06-09
# 私はウサギと同じくらい速く走りますか。 多言語シミール対話データセット

I run as fast as a rabbit, can you? A Multilingual Simile Dialogue Dataset ( http://arxiv.org/abs/2306.05672v1 )

ライセンス: Link先を確認
Longxuan Ma and Weinan Zhang and Shuhan Zhou and Churui Sun and Changxin Ke and Ting Liu(参考訳) シミール(英: simile)は、2つの異なるもの(テノール(tenor)と車両( vehicle)と呼ばれる)を共有プロパティで比較する音声の図形である。 テノールと車両は通常、「like」や「as」といった比較語と接続される。 シミール現象は、テノールと車両が、異なる話者によって言及される、異なる文内に存在する、または逆順に発生する、言語句または文である実生活対話シーンにおいて、ユニークで複雑である。 しかし、現在のシミール研究は通常、三重項タプル(テナー、プロパティ、車両)のシミールや、テノールと車両が通常実体または名詞句である一文に焦点を当てており、実際のシナリオでは複雑なシミール現象を反映できない。 本稿では,複雑なシミリ現象の研究を容易にするために,新しい多言語シミリ対話(MSD)データセットを提案する。 msdは、英語と中国語の両方のデータを含む、最大の手動アノテーション付きsimileデータ($20k)である。 一方、msdデータは対話タスクでも使用でき、similesを使用する際の対話システムの能力をテストすることができる。 我々は3つのsimileタスク(認識、解釈、生成)と2つの対話タスク(再帰と生成)をmsdで設計する。 各タスクに対して、強い事前訓練または最先端モデルによる実験結果を提供する。 実験ではMSDの課題を実証し、GitHubでデータ/コードをリリースした。

A simile is a figure of speech that compares two different things (called the tenor and the vehicle) via shared properties. The tenor and the vehicle are usually connected with comparator words such as "like" or "as". The simile phenomena are unique and complex in a real-life dialogue scene where the tenor and the vehicle can be verbal phrases or sentences, mentioned by different speakers, exist in different sentences, or occur in reversed order. However, the current simile research usually focuses on similes in a triplet tuple (tenor, property, vehicle) or a single sentence where the tenor and vehicle are usually entities or noun phrases, which could not reflect complex simile phenomena in real scenarios. In this paper, we propose a novel and high-quality multilingual simile dialogue (MSD) dataset to facilitate the study of complex simile phenomena. The MSD is the largest manually annotated simile data ($\sim$20K) and it contains both English and Chinese data. Meanwhile, the MSD data can also be used on dialogue tasks to test the ability of dialogue systems when using similes. We design 3 simile tasks (recognition, interpretation, and generation) and 2 dialogue tasks (retrieval and generation) with MSD. For each task, we provide experimental results from strong pre-trained or state-of-the-art models. The experiments demonstrate the challenge of MSD and we have released the data/code on GitHub.
翻訳日:2023-06-12 14:48:08 公開日:2023-06-09
# 画像セグメンテーションにおけるトポロジー認識の不確かさ

Topology-Aware Uncertainty for Image Segmentation ( http://arxiv.org/abs/2306.05671v1 )

ライセンス: Link先を確認
Saumya Gupta, Yikai Zhang, Xiaoling Hu, Prateek Prasanna and Chao Chen(参考訳) 比較的弱い信号と複雑な幾何学・トポロジーのため, 血管や道路網などの曲線構造のセグメンテーションは困難である。 大規模なアノテーションを容易かつ加速するためには、専門家による証明読取のような半自動的なアプローチを採用する必要がある。 本研究では,このようなタスクに対する不確実性評価に焦点をあて,高い不確かさとエラー発生構造を人間のアノテータが検証できるようにする。 ピクセルワイズ不確実性マップを提供する既存の多くの作品とは異なり、我々は、例えば小さな接続や枝などの位相構造の単位における不確かさを推定することが重要であると規定している。 これを実現するために、我々は、トポロジカルデータ解析、特に離散モース理論(DMT)のツールを活用し、まず構造を捉え、その不確実性を推論する。 この不確かさをモデル化するために,(1)隣接構造物を考慮しながら構造物の不確かさを推定する共同予測モデル(構造間不確実性)を提案し,(2)その表現を摂動・歩行スキームでサンプリングし,各構造物内固有の不確かさをモデル化する新しい確率的dmtを提案する。 様々な2次元および3次元データセットにおいて,本手法は既存手法と比較して構造的不確実性マップを生成する。

Segmentation of curvilinear structures such as vasculature and road networks is challenging due to relatively weak signals and complex geometry/topology. To facilitate and accelerate large scale annotation, one has to adopt semi-automatic approaches such as proofreading by experts. In this work, we focus on uncertainty estimation for such tasks, so that highly uncertain, and thus error-prone structures can be identified for human annotators to verify. Unlike most existing works, which provide pixel-wise uncertainty maps, we stipulate it is crucial to estimate uncertainty in the units of topological structures, e.g., small pieces of connections and branches. To achieve this, we leverage tools from topological data analysis, specifically discrete Morse theory (DMT), to first capture the structures, and then reason about their uncertainties. To model the uncertainty, we (1) propose a joint prediction model that estimates the uncertainty of a structure while taking the neighboring structures into consideration (inter-structural uncertainty); (2) propose a novel Probabilistic DMT to model the inherent uncertainty within each structure (intra-structural uncertainty) by sampling its representations via a perturb-and-walk scheme. On various 2D and 3D datasets, our method produces better structure-wise uncertainty maps compared to existing works.
翻訳日:2023-06-12 14:47:43 公開日:2023-06-09
# Mnemonic Codeによるワンショット機械の学習

One-Shot Machine Unlearning with Mnemonic Code ( http://arxiv.org/abs/2306.05670v1 )

ライセンス: Link先を確認
Tomoya Yamashita and Masanori Yamada and Takashi Shibata(参考訳) ディープラーニングは精度が大幅に向上し、さまざまな分野に適用されている。 ディープラーニングの普及とともに、新たな問題も浮上した。ディープラーニングモデルは、倫理的な観点から望ましくない情報を持つことがあるのだ。 深層学習が雇用や収監などの繊細な決定を下す場合、この問題は解決されなければならない。 機械学習(mu)は、このような要求に応える研究分野である。 MUの目的は、トレーニングされたディープラーニングモデルから望ましくないトレーニングデータを忘れることだ。 単純なMUアプローチは、望ましくないデータが削除されたトレーニングデータで、モデル全体を再トレーニングすることです。 しかし、モデル全体の再トレーニングには膨大な時間が必要であり、重要なコンピュータリソースを消費する。 MUをより実用的にするためには、単純なyet- Effective MU法が必要である。 本稿では,追加のトレーニングを必要とせず,ワンショットのmu法を提案する。 ワンショットMUを設計するには、望ましくない情報に敏感なモデルパラメータにノイズを加える。 提案手法では,フィッシャー情報行列(fim)を用いて感度モデルパラメータを推定する。 トレーニングデータは通常、既存の手法でFIMを評価するために使用された。 対照的に、Mnemonic codeと呼ばれるクラス固有の合成信号を用いて、FIMを計算するためのトレーニングデータを保持する必要はない。 人工的および自然的データセットを用いた大規模な実験により,本手法が既存手法より優れていることを示す。

Deep learning has achieved significant improvements in accuracy and has been applied to various fields. With the spread of deep learning, a new problem has also emerged; deep learning models can sometimes have undesirable information from an ethical standpoint. This problem must be resolved if deep learning is to make sensitive decisions such as hiring and prison sentencing. Machine unlearning (MU) is the research area that responds to such demands. MU aims at forgetting about undesirable training data from a trained deep learning model. A naive MU approach is to re-train the whole model with the training data from which the undesirable data has been removed. However, re-training the whole model can take a huge amount of time and consumes significant computer resources. To make MU even more practical, a simple-yet-effective MU method is required. In this paper, we propose a one-shot MU method, which does not need additional training. To design one-shot MU, we add noise to the model parameters that are sensitive to undesirable information. In our proposed method, we use the Fisher information matrix (FIM) to estimate the sensitive model parameters. Training data were usually used to evaluate the FIM in existing methods. In contrast, we avoid the need to retain the training data for calculating the FIM by using class-specific synthetic signals called mnemonic code. Extensive experiments using artificial and natural datasets demonstrate that our method outperforms the existing methods.
翻訳日:2023-06-12 14:47:18 公開日:2023-06-09
# プログラミング以上に? AIが仕事とスキルに与える影響

More than programming? The impact of AI on work and skills ( http://arxiv.org/abs/2306.05669v1 )

ライセンス: Link先を確認
Toby Walsh(参考訳) 本章は、人工知能の組織的即応性と科学的進歩が、aiの推進、利用、発展を導くオーストラリアや他の国におけるスキルとトレーニングの需要に影響を与えている方法を探求する。 十分な数の資格を持つデータサイエンティストと機械学習の専門家を持つことは、今後の課題を満たす上で不可欠である。 この章は、オーストラリアの教育と訓練システムにとってこれが何を意味するのか、教えるべきこと、学習すべきこと、そして技術的なスキルがすべて重要であるかどうかを問うものである。

This chapter explores the ways in which organisational readiness and scientific advances in Artificial Intelligence have been affecting the demand for skills and their training in Australia and other nations leading in the promotion, use or development of AI. The consensus appears that having adequate numbers of qualified data scientists and machine learning experts is critical for meeting the challenges ahead. The chapter asks what this may mean for Australia's education and training system, what needs to be taught and learned, and whether technical skills are all that matter.
翻訳日:2023-06-12 14:46:57 公開日:2023-06-09
# RePaint-NeRF:セマンティックマスクと拡散モデルによるNeRF編集

RePaint-NeRF: NeRF Editting via Semantic Masks and Diffusion Models ( http://arxiv.org/abs/2306.05668v1 )

ライセンス: Link先を確認
Xingchen Zhou, Ying He, F. Richard Yu, Jianqiang Li, You Li(参考訳) ニューラルレージアンス場(NeRF)の出現は、複雑な現実世界の合成された高忠実度ビューの開発を促進する。 しかし、NeRFのコンテンツの再描画は依然として非常に要求の多い作業である。 本稿では,RGB画像を入力とし,ニューラルシーンにおける3Dコンテンツを変更可能な新しいフレームワークを提案する。 我々の研究は既存の拡散モデルを利用して、指定された3Dコンテンツの変化を導く。 具体的には,ターゲットオブジェクトをセマンティクス的に選択し,事前学習した拡散モデルがnrfモデルに新たな3dオブジェクトの生成を誘導し,nrfの編集性,多様性,アプリケーション範囲を向上させる。 実験結果から,NeRFにおける3次元オブジェクトの編集には外見や形状など,異なるテキストプロンプトで効果的であることが示唆された。 これらの編集タスクにおいて,実世界データセットと合成世界データセットの両方でこの手法を検証する。 結果をよりよく見るにはhttps://repaintnerf.github.ioをご覧ください。

The emergence of Neural Radiance Fields (NeRF) has promoted the development of synthesized high-fidelity views of the intricate real world. However, it is still a very demanding task to repaint the content in NeRF. In this paper, we propose a novel framework that can take RGB images as input and alter the 3D content in neural scenes. Our work leverages existing diffusion models to guide changes in the designated 3D content. Specifically, we semantically select the target object and a pre-trained diffusion model will guide the NeRF model to generate new 3D objects, which can improve the editability, diversity, and application range of NeRF. Experiment results show that our algorithm is effective for editing 3D objects in NeRF under different text prompts, including editing appearance, shape, and more. We validate our method on both real-world datasets and synthetic-world datasets for these editing tasks. Please visit https://repaintnerf.github.io for a better view of our results.
翻訳日:2023-06-12 14:46:47 公開日:2023-06-09
# QuestEnvSim:スパースセンサによる環境認識型モーショントラッキング

QuestEnvSim: Environment-Aware Simulated Motion Tracking from Sparse Sensors ( http://arxiv.org/abs/2306.05666v1 )

ライセンス: Link先を確認
Sunmin Lee, Sebastian Starke, Yuting Ye, Jungdam Won, and Alexander Winkler(参考訳) 多くのAR/VRアプリケーションでは、ウェアラブルセンサーのみからユーザのポーズを再現することが重要である。 運動追跡のための既存のほとんどの方法は、複雑な力学と厳しい制約のため、足底接触以外の環境相互作用を避ける。 しかし、日常生活では、ソファに座っていたり、机に寄りかかっていたりするなど、日常的に環境と交流する。 強化学習を用いて,物理シミュレーションと環境観察を組み合わせることで,高度に制約された環境でも現実的な全身ポーズを生成できることを示す。 物理シミュレーションは、多くのキネマティックなアプローチのように手動で指定するのではなく、リアルなポーズに必要な様々な制約を自動で強制する。 これらの厳密な制約は、侵入や接触スライディングのような典型的な人工物なしで高品質な相互作用運動を実現することができる。 本研究では, 環境表現, 接触報酬, シーンランダム化の3つの特徴について検討した。 提案手法は, 椅子やソファ, 箱の上に座って, 箱の上を踏む, 椅子を揺らす, オフィスの椅子を回すといった, 様々な例を通じて, 一般性を示す。 これらは、シーンインタラクションを伴うスパースセンサーからのモーショントラッキングにおいて達成された、高品質な結果の1つである。

Replicating a user's pose from only wearable sensors is important for many AR/VR applications. Most existing methods for motion tracking avoid environment interaction apart from foot-floor contact due to their complex dynamics and hard constraints. However, in daily life people regularly interact with their environment, e.g. by sitting on a couch or leaning on a desk. Using Reinforcement Learning, we show that headset and controller pose, if combined with physics simulation and environment observations can generate realistic full-body poses even in highly constrained environments. The physics simulation automatically enforces the various constraints necessary for realistic poses, instead of manually specifying them as in many kinematic approaches. These hard constraints allow us to achieve high-quality interaction motions without typical artifacts such as penetration or contact sliding. We discuss three features, the environment representation, the contact reward and scene randomization, crucial to the performance of the method. We demonstrate the generality of the approach through various examples, such as sitting on chairs, a couch and boxes, stepping over boxes, rocking a chair and turning an office chair. We believe these are some of the highest-quality results achieved for motion tracking from sparse sensor with scene interaction.
翻訳日:2023-06-12 14:46:33 公開日:2023-06-09
# レンジベースポイントクラウド密度最適化によるLiDAR3次元物体検出の改善

Improving LiDAR 3D Object Detection via Range-based Point Cloud Density Optimization ( http://arxiv.org/abs/2306.05663v1 )

ライセンス: Link先を確認
Eduardo R. Corral-Soto, Alaap Grandhi, Yannis Y. He, Mrigank Rochan, Bingbing Liu(参考訳) 近年,LiDARをベースとした3Dオブジェクト検出は,検出器アーキテクチャ設計の進歩と大規模LiDARデータセットの利用可能性により,多くの進歩を遂げている。 既存の3Dオブジェクト検出器は、遠くにある領域とは対照的に、LiDARセンサーに近い点雲領域でよく機能する傾向にある。 本稿では,検出アーキテクチャの設計ではなく,データの観点からこの問題を考察する。 センサ近傍の高密度物体に対する検出モデルには学習バイアスがあることを観察し、検出器アーキテクチャを変更することなく、データ拡張なしに、異なる距離で入力点雲密度を操作するだけで検出性能を向上させることができることを示した。 本稿では,MCMC最適化を反復的に用い,異なる距離で点密度を変更するための最適パラメータを推定する,モデルフリーの点密度調整前処理機構を提案する。 我々は、WaymoとONCEという2つの公開LiDARデータセット上で、4つの最先端LiDARオブジェクト検出器を用いて実験を行う。 提案手法は, 既存の検出器の性能を向上し, 将来の検出器設計に刺激を与える可能性があることを示すものである。

In recent years, much progress has been made in LiDAR-based 3D object detection mainly due to advances in detector architecture designs and availability of large-scale LiDAR datasets. Existing 3D object detectors tend to perform well on the point cloud regions closer to the LiDAR sensor as opposed to on regions that are farther away. In this paper, we investigate this problem from the data perspective instead of detector architecture design. We observe that there is a learning bias in detection models towards the dense objects near the sensor and show that the detection performance can be improved by simply manipulating the input point cloud density at different distance ranges without modifying the detector architecture and without data augmentation. We propose a model-free point cloud density adjustment pre-processing mechanism that uses iterative MCMC optimization to estimate optimal parameters for altering the point density at different distance ranges. We conduct experiments using four state-of-the-art LiDAR 3D object detectors on two public LiDAR datasets, namely Waymo and ONCE. Our results demonstrate that our range-based point cloud density manipulation technique can improve the performance of the existing detectors, which in turn could potentially inspire future detector designs.
翻訳日:2023-06-12 14:46:12 公開日:2023-06-09
# COVER:言語モデルにおけるプロンプトに基づく学習に対するヒューリスティックなグレディ・アドバイザリアタック

COVER: A Heuristic Greedy Adversarial Attack on Prompt-based Learning in Language Models ( http://arxiv.org/abs/2306.05659v1 )

ライセンス: Link先を確認
Zihao Tan, Qingliang Chen, Wenbin Zhu and Yongjian Huang(参考訳) プロンプトベースの学習は、プレトレーニング言語モデル(PLM)、特に数ショット設定のような低リソースシナリオにおいて、効果的な方法であることが証明されている。 しかしながら、PLMの信頼性は最重要であり、言語モデルの予測を誤解させ、重大なセキュリティ上の懸念を引き起こす可能性のあるプロンプトベースのテンプレートに潜在的な脆弱性が示されている。 本稿では,ブラックボックスシナリオにおける手動テンプレートに対する即時攻撃を提案することにより,PLMの脆弱性について明らかにする。 まず,手動テンプレートを分割するための文字レベルと単語レベルのヒューリスティックアプローチを設計する。 次に,上記のヒューリスティック破壊手法に基づく攻撃に対する欲深いアルゴリズムを提案する。 最後に,3種類のBERT系列モデルと8つのデータセットの分類タスクを用いて,本手法の評価を行った。 総合的な実験結果から,攻撃成功率と攻撃速度の観点から,本手法の有効性を検証した。 さらに, 提案手法は, ショット数, テンプレート長, クエリ回数の異なるシナリオにおいても優れた性能を示し, 高い一般化性を示した。

Prompt-based learning has been proved to be an effective way in pre-trained language models (PLMs), especially in low-resource scenarios like few-shot settings. However, the trustworthiness of PLMs is of paramount significance and potential vulnerabilities have been shown in prompt-based templates that could mislead the predictions of language models, causing serious security concerns. In this paper, we will shed light on some vulnerabilities of PLMs, by proposing a prompt-based adversarial attack on manual templates in black box scenarios. First of all, we design character-level and word-level heuristic approaches to break manual templates separately. Then we present a greedy algorithm for the attack based on the above heuristic destructive approaches. Finally, we evaluate our approach with the classification tasks on three variants of BERT series models and eight datasets. And comprehensive experimental results justify the effectiveness of our approach in terms of attack success rate and attack speed. Further experimental studies indicate that our proposed method also displays good capabilities in scenarios with varying shot counts, template lengths and query counts, exhibiting good generalizability.
翻訳日:2023-06-12 14:45:54 公開日:2023-06-09
# GMS-3DQA:3次元モデル品質評価のための投影型グリッドミニパッチサンプリング

GMS-3DQA: Projection-based Grid Mini-patch Sampling for 3D Model Quality Assessment ( http://arxiv.org/abs/2306.05658v1 )

ライセンス: Link先を確認
Zicheng Zhang, Wei Sun, Houning Wu, Yingjie Zhou, Chunyi Li, Xiongkuo Min, Guangtao Zhai, Weisi Lin(参考訳) 現在,ほとんどの3次元モデル品質評価手法は性能向上を目的としている。 しかし,実用的応用に必要な計算コストや推論時間にはほとんど注意が払われていない。 モデルに基づく3DQA法は,その複雑さを特徴とする3Dモデルから直接特徴を抽出する。 その結果,多くの研究者が投影型3DQA手法の活用に傾いている。 それにもかかわらず、従来のプロジェクションベースの3DQA手法は、複数のプロジェクションから特徴を直接抽出し、品質予測の精度を保証する。 そこで本稿では,Non-Reference (NR) プロジェクションベースの \textit{\underline{G}rid \underline{M}ini-patch \underline{S}ampling \underline{3D} Model \underline{Q}uality \underline{A}ssessment (GMS-3DQA)} 法を提案する。 投影画像は3次元モデルの垂直な6つの視点から描画され、十分な品質情報をカバーする。 冗長性と推論資源を低減するため,マルチプロジェクションからグリッドミニパッチをサンプリングし,サンプルグリッドミニパッチを1つの品質ミニパッチマップ(QMM)に形成するマルチプロジェクショングリッドミニパッチサンプリング戦略(MP-GMS)を提案する。 Swin-Transformerの小さなバックボーンはQMMから品質を認識した特徴を抽出するために使われる。 実験の結果,提案したGMS-3DQAは,ポイントクラウド品質評価データベース上で,既存のNR-3DQA手法よりも優れていることがわかった。 効率分析により,提案したGMS-3DQAは,他の3DQA競合よりも計算資源と推論時間をはるかに少なくすることがわかった。 コードはhttps://github.com/zzc-1998/GMS-3DQAで入手できる。

Nowadays, most 3D model quality assessment (3DQA) methods have been aimed at improving performance. However, little attention has been paid to the computational cost and inference time required for practical applications. Model-based 3DQA methods extract features directly from the 3D models, which are characterized by their high degree of complexity. As a result, many researchers are inclined towards utilizing projection-based 3DQA methods. Nevertheless, previous projection-based 3DQA methods directly extract features from multi-projections to ensure quality prediction accuracy, which calls for more resource consumption and inevitably leads to inefficiency. Thus in this paper, we address this challenge by proposing a no-reference (NR) projection-based \textit{\underline{G}rid \underline{M}ini-patch \underline{S}ampling \underline{3D} Model \underline{Q}uality \underline{A}ssessment (GMS-3DQA)} method. The projection images are rendered from six perpendicular viewpoints of the 3D model to cover sufficient quality information. To reduce redundancy and inference resources, we propose a multi-projection grid mini-patch sampling strategy (MP-GMS), which samples grid mini-patches from the multi-projections and forms the sampled grid mini-patches into one quality mini-patch map (QMM). The Swin-Transformer tiny backbone is then used to extract quality-aware features from the QMMs. The experimental results show that the proposed GMS-3DQA outperforms existing state-of-the-art NR-3DQA methods on the point cloud quality assessment databases. The efficiency analysis reveals that the proposed GMS-3DQA requires far less computational resources and inference time than other 3DQA competitors. The code will be available at https://github.com/zzc-1998/GMS-3DQA.
翻訳日:2023-06-12 14:45:37 公開日:2023-06-09
# DIFT: メモリ効率の良い光流のための動的反復場変換

DIFT: Dynamic Iterative Field Transforms for Memory Efficient Optical Flow ( http://arxiv.org/abs/2306.05691v1 )

ライセンス: Link先を確認
Risheek Garrepalli, Jisoo Jeong, Rajeswaran C Ravindran, Jamie Menjay Lin and Fatih Porikli(参考訳) ニューラルネットワークに基づく光フロー推定の最近の進歩は、しばしば計算とメモリの要求が著しく高くなり、モバイルおよび低消費電力のユースケースに対するモデル適応の課題が提示される。 本稿では,モバイル,XR,マイクロUAV,ロボット,カメラなどのエッジアプリケーションに適用可能な光フロー推定のための軽量低レイテンシ・メモリ効率モデルである動的反復場変換(DIFT)を提案する。 DIFTは、対応推定にコストボリュームの可変解像度を活用する反復的な改善フレームワークに従う。 ピークメモリを削減するためのコストボリューム処理のためのメモリ効率のよいソリューションを提案する。 また,多段のコストボリュームを回避するため,様々な改良段階における動的粗大なコストボリューム処理を提案する。 Snapdragon 8 Gen 1 HTP の高速移動型AIアクセラレータ上で,32 inf/sec と 5.89 EPE (エンドポイントエラー) を KITTI 上で実現する。

Recent advancements in neural network-based optical flow estimation often come with prohibitively high computational and memory requirements, presenting challenges in their model adaptation for mobile and low-power use cases. In this paper, we introduce a lightweight low-latency and memory-efficient model, Dynamic Iterative Field Transforms (DIFT), for optical flow estimation feasible for edge applications such as mobile, XR, micro UAVs, robotics and cameras. DIFT follows an iterative refinement framework leveraging variable resolution of cost volumes for correspondence estimation. We propose a memory efficient solution for cost volume processing to reduce peak memory. Also, we present a novel dynamic coarse-to-fine cost volume processing during various stages of refinement to avoid multiple levels of cost volumes. We demonstrate first real-time cost-volume based optical flow DL architecture on Snapdragon 8 Gen 1 HTP efficient mobile AI accelerator with 32 inf/sec and 5.89 EPE (endpoint error) on KITTI with manageable accuracy-performance tradeoffs.
翻訳日:2023-06-12 14:39:38 公開日:2023-06-09
# 条件付きクエリを用いた単段階視覚関係学習

Single-Stage Visual Relationship Learning using Conditional Queries ( http://arxiv.org/abs/2306.05689v1 )

ライセンス: Link先を確認
Alakh Desai, Tz-Ying Wu, Subarna Tripathi, Nuno Vasconcelos(参考訳) シーングラフ生成(SGG)の研究は、通常、2段階モデル、すなわちエンティティの集合を検出し、それらを組み合わせ、全ての可能な関係をラベル付けする。 有望な結果を示す一方で、パイプライン構造は大きなパラメータと計算オーバーヘッドを引き起こし、通常はエンドツーエンドの最適化を妨げる。 これに対処するために、最近の研究は計算効率の良い単段モデルの訓練を試みている。 セットベース検出モデルであるDETRの出現により、ワンステージモデルは1枚のショットで主観的対象物三重項のセットを直接予測しようとする。 しかし、SGGは本質的にマルチタスク学習の問題であり、モデリングエンティティと予測分布を同時に要求する。 本稿では,SGGの条件付きクエリ,すなわち,マルチタスク学習問題や組合せエンティティペアの分布を回避するため,SGGの新しい定式化を備えたTraCQを提案する。 detrベースのエンコーダ-デコーダ設計を採用し、条件付きクエリを活用してエンティティラベル空間を大幅に削減し、最先端のシングルステージモデルと比較してパラメータを20%削減した。 実験結果から、TraCQは既存のシングルステージシーングラフ生成法よりも優れており、Visual Genomeデータセットの最先端の2段階メソッドを多く上回り、エンドツーエンドのトレーニングと高速な推論が可能であることがわかった。

Research in scene graph generation (SGG) usually considers two-stage models, that is, detecting a set of entities, followed by combining them and labeling all possible relationships. While showing promising results, the pipeline structure induces large parameter and computation overhead, and typically hinders end-to-end optimizations. To address this, recent research attempts to train single-stage models that are computationally efficient. With the advent of DETR, a set based detection model, one-stage models attempt to predict a set of subject-predicate-object triplets directly in a single shot. However, SGG is inherently a multi-task learning problem that requires modeling entity and predicate distributions simultaneously. In this paper, we propose Transformers with conditional queries for SGG, namely, TraCQ with a new formulation for SGG that avoids the multi-task learning problem and the combinatorial entity pair distribution. We employ a DETR-based encoder-decoder design and leverage conditional queries to significantly reduce the entity label space as well, which leads to 20% fewer parameters compared to state-of-the-art single-stage models. Experimental results show that TraCQ not only outperforms existing single-stage scene graph generation methods, it also beats many state-of-the-art two-stage methods on the Visual Genome dataset, yet is capable of end-to-end training and faster inference.
翻訳日:2023-06-12 14:39:16 公開日:2023-06-09
# ModeT: 運動分解変換器による変形可能な画像登録の学習

ModeT: Learning Deformable Image Registration via Motion Decomposition Transformer ( http://arxiv.org/abs/2306.05688v1 )

ライセンス: Link先を確認
Haiqiao Wang, Dong Ni, and Yi Wang(参考訳) Transformerの構造はコンピュータビジョンで広く使われており、最近は医療画像登録の領域に影響を与えている。 しかし、ほとんどの登録ネットワークでのtransformerの使用は簡単である。 これらのネットワークは、セグメンテーションネットワークのように機能学習を促進するために単にアテンション機構を使用するが、登録タスクに適合するほど設計が不十分である。 本稿では, 変形推定のための変圧器構造の固有特性を十分に活用し, マルチモーションモダリティを明示的にモデル化する新しい動き分解変圧器(modet)を提案する。 提案したModeTは,マルチヘッド近傍のアテンション関係をマルチコーディネート関係に自然変換し,マルチモーションモードをモデル化する。 そして、競争重みモジュール(CWM)が複数の変形サブフィールドを融合して、結果として生じる変形場を生成する。 2つのパブリック脳磁気共鳴画像(MRI)データセットの広範囲な実験により、我々の手法は現在の登録ネットワークやトランスフォーマーよりも優れており、この非剛性変形推定問題に対するModeTの可能性を示している。 ベンチマークとコードはhttps://github.com/ZAX130/SmileCode.comで公開されている。

The Transformer structures have been widely used in computer vision and have recently made an impact in the area of medical image registration. However, the use of Transformer in most registration networks is straightforward. These networks often merely use the attention mechanism to boost the feature learning as the segmentation networks do, but do not sufficiently design to be adapted for the registration task. In this paper, we propose a novel motion decomposition Transformer (ModeT) to explicitly model multiple motion modalities by fully exploiting the intrinsic capability of the Transformer structure for deformation estimation. The proposed ModeT naturally transforms the multi-head neighborhood attention relationship into the multi-coordinate relationship to model multiple motion modes. Then the competitive weighting module (CWM) fuses multiple deformation sub-fields to generate the resulting deformation field. Extensive experiments on two public brain magnetic resonance imaging (MRI) datasets show that our method outperforms current state-of-the-art registration networks and Transformers, demonstrating the potential of our ModeT for the challenging non-rigid deformation estimation problem. The benchmarks and our code are publicly available at https://github.com/ZAX130/SmileCode.
翻訳日:2023-06-12 14:38:52 公開日:2023-06-09
# MT-BenchとChatbot Arenaを用いたLCM-as-a-judgeの判定

Judging LLM-as-a-judge with MT-Bench and Chatbot Arena ( http://arxiv.org/abs/2306.05685v1 )

ライセンス: Link先を確認
Lianmin Zheng, Wei-Lin Chiang, Ying Sheng, Siyuan Zhuang, Zhanghao Wu, Yonghao Zhuang, Zi Lin, Zhuohan Li, Dacheng Li, Eric. P Xing, Hao Zhang, Joseph E. Gonzalez, Ion Stoica(参考訳) 大規模言語モデル(llm)ベースのチャットアシスタントの評価は、その幅広い能力と既存のベンチマークが人間の好みを計測できないために難しい。 これに対処するため、我々は、よりオープンな質問でこれらのモデルを評価するために、裁判官として強力なllmを使用します。 本研究では, LLM-as-a-judgeの使用法と限界, 位置や冗長性バイアス, 限定推論能力などを検討した。 次に、マルチターン質問セットであるMT-benchとクラウドソースのバトルプラットフォームであるChatbot Arenaの2つのベンチマークを導入することで、LCMの判断と人間の嗜好の一致を検証する。 その結果, GPT-4 のような強い LLM 審査員は, コントロールとクラウドソースの双方によく適合し, 80 % 以上の合意を達成できることがわかった。 したがって、llm-as-a-judgeは、人間の好みを近似するためのスケーラブルで説明可能な方法である。 さらに,いくつかのllama/vicunaの変種を評価することで,ベンチマークと従来のベンチマークが相互補完することを示す。 80のMTベンチ質問、3Kの専門家投票、Chatbot Arenaからの人間の好みに関する30Kの会話を公開します。

Evaluating large language model (LLM) based chat assistants is challenging due to their broad capabilities and the inadequacy of existing benchmarks in measuring human preferences. To address this, we explore using strong LLMs as judges to evaluate these models on more open-ended questions. We examine the usage and limitations of LLM-as-a-judge, such as position and verbosity biases and limited reasoning ability, and propose solutions to migrate some of them. We then verify the agreement between LLM judges and human preferences by introducing two benchmarks: MT-bench, a multi-turn question set; and Chatbot Arena, a crowdsourced battle platform. Our results reveal that strong LLM judges like GPT-4 can match both controlled and crowdsourced human preferences well, achieving over 80\% agreement, the same level of agreement between humans. Hence, LLM-as-a-judge is a scalable and explainable way to approximate human preferences, which are otherwise very expensive to obtain. Additionally, we show our benchmark and traditional benchmarks complement each other by evaluating several variants of LLaMA/Vicuna. We will publicly release 80 MT-bench questions, 3K expert votes, and 30K conversations with human preferences from Chatbot Arena.
翻訳日:2023-06-12 14:38:33 公開日:2023-06-09
# トークン共有トランスによる軽量単眼深度推定

Lightweight Monocular Depth Estimation via Token-Sharing Transformer ( http://arxiv.org/abs/2306.05682v1 )

ライセンス: Link先を確認
Dong-Jae Lee, Jae Young Lee, Hyounguk Shon, Eojindl Yi, Yeong-Hun Park, Sung-Sik Cho, Junmo Kim(参考訳) 深さ推定は様々なロボットシステムや応用において重要な課題である。 移動ロボットシステムでは、単一のRGBカメラを低コストかつコンパクトなサイズで展開できるため、単眼深度推定が望ましい。 その重要性と需要の増大により、多くの軽量な単眼深度推定ネットワークがモバイルロボットシステムのために提案されている。 ほとんどの軽量な単眼深度推定法は畳み込みニューラルネットワークを用いて開発されてきたが、近年では徐々に単眼深度推定に利用されるようになった。 しかし、Transformerの膨大なパラメータと計算コストは、組み込みデバイスへのデプロイメントを妨げている。 本稿では,特に組み込みデバイスにおいて最適化された単眼深度推定用トランスを用いたアーキテクチャであるトークン共有トランス(tst)を提案する。 提案したTSTはグローバルトークン共有を利用して,組み込みデバイスで高いスループットで正確な深度予測を行うことができる。 実験の結果,TSTは既存の軽量分子深度推定法よりも優れていた。 NYU Depth v2データセットでは、NVIDIA Jetson Nanoの63.4 FPS、NVIDIA Jetson TX2の142.6 FPSまでの深度マップを、既存の方法よりも低いエラーで提供することができる。 さらに、TSTはJetson TX2上の高解像度画像のリアルタイム深度推定と競合する結果を得る。

Depth estimation is an important task in various robotics systems and applications. In mobile robotics systems, monocular depth estimation is desirable since a single RGB camera can be deployable at a low cost and compact size. Due to its significant and growing needs, many lightweight monocular depth estimation networks have been proposed for mobile robotics systems. While most lightweight monocular depth estimation methods have been developed using convolution neural networks, the Transformer has been gradually utilized in monocular depth estimation recently. However, massive parameters and large computational costs in the Transformer disturb the deployment to embedded devices. In this paper, we present a Token-Sharing Transformer (TST), an architecture using the Transformer for monocular depth estimation, optimized especially in embedded devices. The proposed TST utilizes global token sharing, which enables the model to obtain an accurate depth prediction with high throughput in embedded devices. Experimental results show that TST outperforms the existing lightweight monocular depth estimation methods. On the NYU Depth v2 dataset, TST can deliver depth maps up to 63.4 FPS in NVIDIA Jetson nano and 142.6 FPS in NVIDIA Jetson TX2, with lower errors than the existing methods. Furthermore, TST achieves real-time depth estimation of high-resolution images on Jetson TX2 with competitive results.
翻訳日:2023-06-12 14:38:07 公開日:2023-06-09
# 伝達学習を用いた脳波からの感情検出

Emotion Detection from EEG using Transfer Learning ( http://arxiv.org/abs/2306.05680v1 )

ライセンス: Link先を確認
Sidharth Sidharth, Ashish Abraham Samuel, Ranjana H, Jerrin Thomas Panachakel, Sana Parveen K(参考訳) 脳波(EEG)を用いた感情の検出は、脳とコンピュータのインターフェースにおいて重要な領域であり、リハビリテーションや医療などの分野で貴重な応用がある。 本研究では,脳波に基づく感情検出において,限られたデータ可用性の課題を克服するために伝達学習を用いた。 この研究で使用されたベースモデルはResnet50である。 また,脳波による感情検出に新たな特徴の組み合わせを取り入れた。 モデルへの入力は, 平均位相コヒーレンス (MPC) と正方形コヒーレンス (MSC) を, 上三角行列と下三角行列でそれぞれ構成した画像行列の形で行った。 従来,感情の分類に有用な情報はほとんど得られなかった,差分エントロピー(DE)から得られる特徴を対角線に組み込むことにより,さらに改良した。 この研究で使用されるSEED EEG (62 channel EEG) は、正、中、負の3つのクラスから構成される。 対象非依存および対象依存の精度を算出した。 被検者別精度は10倍のクロスバリデーション法で93.1%, 被検者別分類はLOSO(Left-one-subject-out)法を用いて行った。 被験者別分類の精度は71.6%であった。 これらの精度は3つのクラスを分類する確率よりも少なくとも2倍高い。 この研究は、感情分類を約束する脳波に基づく感情検出にMSCとMPCを使用することを発見した。 この研究の今後の範囲には、データ拡張技術の使用、強化された分類器、感情分類のためのより良い機能が含まれる。

The detection of emotions using an Electroencephalogram (EEG) is a crucial area in brain-computer interfaces and has valuable applications in fields such as rehabilitation and medicine. In this study, we employed transfer learning to overcome the challenge of limited data availability in EEG-based emotion detection. The base model used in this study was Resnet50. Additionally, we employed a novel feature combination in EEG-based emotion detection. The input to the model was in the form of an image matrix, which comprised Mean Phase Coherence (MPC) and Magnitude Squared Coherence (MSC) in the upper-triangular and lower-triangular matrices, respectively. We further improved the technique by incorporating features obtained from the Differential Entropy (DE) into the diagonal, which previously held little to no useful information for classifying emotions. The dataset used in this study, SEED EEG (62 channel EEG), comprises three classes (Positive, Neutral, and Negative). We calculated both subject-independent and subject-dependent accuracy. The subject-dependent accuracy was obtained using a 10-fold cross-validation method and was 93.1%, while the subject-independent classification was performed by employing the leave-one-subject-out (LOSO) strategy. The accuracy obtained in subject-independent classification was 71.6%. Both of these accuracies are at least twice better than the chance accuracy of classifying 3 classes. The study found the use of MSC and MPC in EEG-based emotion detection promising for emotion classification. The future scope of this work includes the use of data augmentation techniques, enhanced classifiers, and better features for emotion classification.
翻訳日:2023-06-12 14:37:45 公開日:2023-06-09
# ネットワーク側情報を用いた高次元線形回帰におけるベイズ最適学習

Bayes optimal learning in high-dimensional linear regression with network side information ( http://arxiv.org/abs/2306.05679v1 )

ライセンス: Link先を確認
Sagnik Nandy and Subhabrata Sen(参考訳) ネットワークの形でサイド情報を持つ教師付き学習問題は、ゲノム学、プロテオミクス、神経科学の分野で頻繁に発生する。 例えば、遺伝的応用において、ネットワーク側情報は、関連する遺伝子間の複雑な関係に関する背景生物学的情報を正確に捉えることができる。 本稿では,ネットワーク側情報を含む高次元線形回帰におけるベイズ最適学習の研究を開始する。 この目的のために、まず、教師付きデータと観測されたネットワークの共分散を共通の潜在パラメータ集合を通して仮定する単純な生成モデル(Reg-Graphモデル)を導入する。 次に,非常に一般的な条件下で最適である近似メッセージパッシング(amp)に基づく反復アルゴリズムを提案する。 さらに、潜時信号と観測したデータとの相互情報の制限を特徴付け、ネットワーク側情報の統計的影響を正確に定量化する。 最後に,提案アルゴリズムは有限サンプルにおいて優れた性能を示すことを示す。

Supervised learning problems with side information in the form of a network arise frequently in applications in genomics, proteomics and neuroscience. For example, in genetic applications, the network side information can accurately capture background biological information on the intricate relations among the relevant genes. In this paper, we initiate a study of Bayes optimal learning in high-dimensional linear regression with network side information. To this end, we first introduce a simple generative model (called the Reg-Graph model) which posits a joint distribution for the supervised data and the observed network through a common set of latent parameters. Next, we introduce an iterative algorithm based on Approximate Message Passing (AMP) which is provably Bayes optimal under very general conditions. In addition, we characterize the limiting mutual information between the latent signal and the data observed, and thus precisely quantify the statistical impact of the network side information. Finally, supporting numerical experiments suggest that the introduced algorithm has excellent performance in finite samples.
翻訳日:2023-06-12 14:37:18 公開日:2023-06-09
# ランダムスピンモデルにおけるスクランロン効果場理論の署名

Signature of Scramblon Effective Field Theory in Random Spin Models ( http://arxiv.org/abs/2306.05678v1 )

ライセンス: Link先を確認
Zeyu Liu and Pengfei Zhang(参考訳) 情報スクランブル(英: information scrambling)とは、量子システムを通しての情報伝達を指す。 この研究は、熱化の理解に寄与するだけでなく、量子情報やブラックホール物理学にも大きな影響を与える。 近年の研究では、情報スクランブルはスクランブルと呼ばれる集団的モードによって媒介されていることが示唆されている。 しかし、特定のモデルにおけるスクランロン理論の妥当性の基準はいまだに欠けている。 本稿では,全対全相互作用を持つランダムスピンモデルにおけるスクランロン効果理論のシグネチャを調べることにより,この問題に対処する。 我々は,スクランブルロン記述が保持するシナリオでは,演算子のサイズ分布をその初期値から予測することができ,自由パラメータは不要であることを示した。 その結果,ブラウン回路がスクランロン記述を示すかどうかを検証し,解析的にも数値的にも正の確認を得た。 また,scramblonの記述が有効である場合の多重量子コヒーレンス予測についても述べる。 量子シミュレータを用いたランダムスピンモデルにおけるスクランブルン場理論の解明のための具体的な実験フレームワークを提供する。

Information scrambling refers to the propagation of information throughout a quantum system. Its study not only contributes to our understanding of thermalization but also has wide implications in quantum information and black hole physics. Recent studies suggest that information scrambling is mediated by collective modes called scramblons. However, a criterion for the validity of scramblon theory in a specific model is still missing. In this work, we address this issue by investigating the signature of the scramblon effective theory in random spin models with all-to-all interactions. We demonstrate that, in scenarios where the scramblon description holds, the late-time operator size distribution can be predicted from its early-time value, requiring no free parameters. As an illustration, we examine whether Brownian circuits exhibit a scramblon description and obtain a positive confirmation both analytically and numerically. We also discuss the prediction of multiple-quantum coherence when the scramblon description is valid. Our findings provide a concrete experimental framework for unraveling the scramblon field theory in random spin models using quantum simulators.
翻訳日:2023-06-12 14:37:05 公開日:2023-06-09
# 連続計測による量子ドット型単一光子源の改良

Improving quantum dot based single photon source with continuous measurements ( http://arxiv.org/abs/2306.05676v1 )

ライセンス: Link先を確認
Anirudh Lanka and Todd Brun(参考訳) そこで本研究では,光マイクロキャビティにおける電子励起量子ドットを用いた単一光子放出の確率向上のための手法を提案する。 目標は、2つ以上の光子の確率を制限しながら単光子放出の確率を高めることである。 我々は,計測後の演算を含む確率的マスタ方程式によってシステムをモデル化する。 理想的には、フィードバックは連続的な測定記録全体に基づいて行われるべきだが、実際にそのような処理をリアルタイムで行うのは難しいかもしれない。 測定値を用いた単純なしきい値に基づくフィードバック方式であっても,決定論的(オープンループ)ポンピングよりも性能が向上することを示す。 この技術は、電気ポンプの場合と同様に、ポンプの速度が低い強いドットキャビティカップリングに特に有用である。 また、多数の量子軌道を平均化するのではなく、単一のマスター方程式でアンサンブル平均化を行うことができるため、数値的にも抽出可能である。

We propose a technique to improve the probability of single-photon emission with an electrically pumped quantum dot in an optical microcavity, by continuously monitoring the energy state of the dot and using feedback to control when to stop pumping. The goal is to boost the probability of single-photon emission while bounding the probability of two or more photons. We model the system by a stochastic master equation that includes post-measurement operations. Ideally, feedback should be based on the entire continuous measurement record, but in practice, it may be difficult to do such processing in real-time. We show that even a simple threshold-based feedback scheme using measurements at a single time can improve performance over deterministic (open-loop) pumping. This technique is particularly useful for strong dot-cavity coupling with lower rates of pumping, as can be the case for electrical pumping. It is also numerically tractable since we can perform ensemble averaging with a single master equation rather than averaging over a large number of quantum trajectories.
翻訳日:2023-06-12 14:36:50 公開日:2023-06-09
# 教師なし網膜埋め込みに基づく照明制御型脱ハージングネットワーク

Illumination Controllable Dehazing Network based on Unsupervised Retinex Embedding ( http://arxiv.org/abs/2306.05675v1 )

ライセンス: Link先を確認
Jie Gui, Xiaofeng Cong, Lei He, Yuan Yan Tang, James Tin-Yau Kwok(参考訳) 一方、デヘイジングタスクは不適切な問題であり、一意的な解決策は存在しないことを意味する。 一方、デハジングタスクは、ユーザが選択可能なデハジングされた画像を単一の結果ではなく、ユーザに渡すという主観的な要因を考慮すべきである。 そこで本研究では,IC-Dehazingと呼ばれる照明制御機能を導入し,マルチ出力デハージングネットワークを提案する。 提案するicデハジングは、解釈可能なレチネックス理論に基づいて実現される照明制御モジュールの因子を調整することにより、照明強度を変化させることができる。 さらに、icデハジングのバックボーンデハジングネットワークは、高品質画像復元のための二重デコーダを備えたトランスフォーマで構成されている。 さらに、事前ベースの損失関数と教師なしのトレーニング戦略により、IC-Dehazingはペアデータを必要としないパラメータ学習プロセスを完了させることができる。 提案するicデハジングの有効性を示すために,画像デハジング,意味セグメンテーション,オブジェクト検出タスクについて定量的・質的実験を行った。 コードはhttps://github.com/xiaofeng-life/icdehazingで入手できる。

On the one hand, the dehazing task is an illposedness problem, which means that no unique solution exists. On the other hand, the dehazing task should take into account the subjective factor, which is to give the user selectable dehazed images rather than a single result. Therefore, this paper proposes a multi-output dehazing network by introducing illumination controllable ability, called IC-Dehazing. The proposed IC-Dehazing can change the illumination intensity by adjusting the factor of the illumination controllable module, which is realized based on the interpretable Retinex theory. Moreover, the backbone dehazing network of IC-Dehazing consists of a Transformer with double decoders for high-quality image restoration. Further, the prior-based loss function and unsupervised training strategy enable IC-Dehazing to complete the parameter learning process without the need for paired data. To demonstrate the effectiveness of the proposed IC-Dehazing, quantitative and qualitative experiments are conducted on image dehazing, semantic segmentation, and object detection tasks. Code is available at https://github.com/Xiaofeng-life/ICDehazing.
翻訳日:2023-06-12 14:36:35 公開日:2023-06-09
# 初心者プログラマのヘルプ要求に対する大規模言語モデルの応答の検討

Exploring the Responses of Large Language Models to Beginner Programmers' Help Requests ( http://arxiv.org/abs/2306.05715v1 )

ライセンス: Link先を確認
Arto Hellas, Juho Leinonen, Sami Sarsa, Charles Koutcheme, Lilja Kujanp\"a\"a, Juha Sorva(参考訳) 背景とコンテキスト: この1年で、大規模な言語モデル(llm)が世界に波及しました。 コンピューティング教育では、他の人生の歩みと同様に、多くの機会と脅威が生まれている。 目的: この記事では,学生プログラマのヘルプ要求に対応するという,特定の領域におけるそのような機会と脅威について検討します。 より具体的には、学生が助けを求める問題コードの問題を特定するのにllmがいかに優れているかを評価する。 メソッド: オンラインプログラミングコースからヘルプリクエストとコードのサンプルを収集しました。 次に,2つの異なるLCM(OpenAI CodexとGPT-3.5)を用いて,学生のコード中の問題を特定し,説明し,LLM生成した回答を定量的かつ質的に評価した。 GPT-3.5は多くの点でCodexを上回っている。 両方のLSMは、生徒プログラムの90%で少なくとも1つの実際の問題(GPT-3.5)をしばしば見出す。 LLMはすべての問題を見つけるのに長けていない(GPT-3.5では57%)。 偽陽性は一般的である(GPT-3.5の40%の確率)。 LLMが問題に対して提供するアドバイスは、しばしば賢明です。 LLMは出力フォーマッティングよりもプログラムロジックに関わる問題の方が優れている。 LLMが起動しない場合でも、モデルソリューションが頻繁に提供される。 非英語のプロンプトに対するLLM応答は、英語のプロンプトに対する応答よりもわずかに悪い。 本研究の結果は,LLMのプログラミング教育における有用性を強調し続けている。 LLMは、特に自動評価システムで必要となる出力をフォーマットする場合に、学生と同じ誤りを犯す。 本研究は,LLMの活用に関心のある教員や,プログラミング教育のニーズに応じてLLMをカスタマイズする今後の取り組みについて報告する。

Background and Context: Over the past year, large language models (LLMs) have taken the world by storm. In computing education, like in other walks of life, many opportunities and threats have emerged as a consequence. Objectives: In this article, we explore such opportunities and threats in a specific area: responding to student programmers' help requests. More specifically, we assess how good LLMs are at identifying issues in problematic code that students request help on. Method: We collected a sample of help requests and code from an online programming course. We then prompted two different LLMs (OpenAI Codex and GPT-3.5) to identify and explain the issues in the students' code and assessed the LLM-generated answers both quantitatively and qualitatively. Findings: GPT-3.5 outperforms Codex in most respects. Both LLMs frequently find at least one actual issue in each student program (GPT-3.5 in 90% of the cases). Neither LLM excels at finding all the issues (GPT-3.5 finding them 57% of the time). False positives are common (40% chance for GPT-3.5). The advice that the LLMs provide on the issues is often sensible. The LLMs perform better on issues involving program logic rather than on output formatting. Model solutions are frequently provided even when the LLM is prompted not to. LLM responses to prompts in a non-English language are only slightly worse than responses to English prompts. Implications: Our results continue to highlight the utility of LLMs in programming education. At the same time, the results highlight the unreliability of LLMs: LLMs make some of the same mistakes that students do, perhaps especially when formatting output as required by automated assessment systems. Our study informs teachers interested in using LLMs as well as future efforts to customize LLMs for the needs of programming education.
翻訳日:2023-06-12 14:29:13 公開日:2023-06-09
# 不均衡音声データによる感情表現の学習 : 感情認識と感情音声合成

Learning Emotional Representations from Imbalanced Speech Data for Speech Emotion Recognition and Emotional Text-to-Speech ( http://arxiv.org/abs/2306.05709v1 )

ライセンス: Link先を確認
Shijun Wang, J\'on Gu{\dh}nason, Damian Borth(参考訳) 効果的な音声感情表現は、音声感情認識(SER)および感情テキスト音声(TTS)タスクにおいて重要な役割を果たす。 しかし、感情的な音声サンプルは、中立的なスタイルの音声よりも入手が難しく、高価である。 モデルは大多数の中立層に過度に適合し、堅牢で効果的な感情表現を生成できない。 本稿では,この問題に対処する感情的エクストラクタを提案する。 我々は、モデルのトレーニングに拡張アプローチを使用し、不均衡なデータセットから効果的で一般化可能な感情表現を抽出できるようにする。 実験の結果,(1)SERタスクにおいて,提案した感情指数は3つの不均衡データセットの最先端ベースラインを超え,(2)感情指数から生成された表現はTSモデルに寄与し,より表現力のある音声を合成できることがわかった。

Effective speech emotional representations play a key role in Speech Emotion Recognition (SER) and Emotional Text-To-Speech (TTS) tasks. However, emotional speech samples are more difficult and expensive to acquire compared with Neutral style speech, which causes one issue that most related works unfortunately neglect: imbalanced datasets. Models might overfit to the majority Neutral class and fail to produce robust and effective emotional representations. In this paper, we propose an Emotion Extractor to address this issue. We use augmentation approaches to train the model and enable it to extract effective and generalizable emotional representations from imbalanced datasets. Our empirical results show that (1) for the SER task, the proposed Emotion Extractor surpasses the state-of-the-art baseline on three imbalanced datasets; (2) the produced representations from our Emotion Extractor benefit the TTS model, and enable it to synthesize more expressive speech.
翻訳日:2023-06-12 14:28:47 公開日:2023-06-09
# 線形拡散を用いた高速・高品質音声合成

Boosting Fast and High-Quality Speech Synthesis with Linear Diffusion ( http://arxiv.org/abs/2306.05708v1 )

ライセンス: Link先を確認
Haogeng Liu, Tao Wang, Jie Cao, Ran He, Jianhua Tao(参考訳) 拡散確率モデルが様々な生成タスクに異常な能力を示した。 しかし、その速度は遅いため、音声合成では実用的ではない。 本稿では,通常の微分方程式に基づく線形拡散モデル(lindiff)を提案する。 まず, 目標と雑音の線形補間を行い, 訓練のための拡散列の設計を行ったが, 従来, 目標と雑音をつなぐ拡散経路は曲線セグメントであった。 サンプリングステップの数(つまり、経路に合うために使用される線分数)を減らすと、曲線と比較して直線の嵌合が簡単になるので、ランダムノイズからより少ないイテレーションで高品質なサンプルを生成することができる。 第二に、計算複雑性を減らし、雑音の多い音声の効果的なグローバルモデリングを実現するために、LinDiffは、入力信号を小さなパッチに分割するパッチベースの処理アプローチを採用している。 パッチワイズトークンは、グローバル情報の効果的なモデリングにトランスフォーマーアーキテクチャを利用する。 逆行訓練はサンプリングステップを減らしてサンプル品質をさらに向上するために用いられる。 音響特徴量(メルスペクトログラム)に基づく音声合成による提案手法をテストした。 実験により,1つの拡散ステップだけで高品質な音声を合成できることを確認した。 主観的・客観的評価はともに, 合成速度(3拡散ステップ)が速い自己回帰モデルに匹敵する品質の音声を合成できることを実証する。

Denoising Diffusion Probabilistic Models have shown extraordinary ability on various generative tasks. However, their slow inference speed renders them impractical in speech synthesis. This paper proposes a linear diffusion model (LinDiff) based on an ordinary differential equation to simultaneously reach fast inference and high sample quality. Firstly, we employ linear interpolation between the target and noise to design a diffusion sequence for training, while previously the diffusion path that links the noise and target is a curved segment. When decreasing the number of sampling steps (i.e., the number of line segments used to fit the path), the ease of fitting straight lines compared to curves allows us to generate higher quality samples from a random noise with fewer iterations. Secondly, to reduce computational complexity and achieve effective global modeling of noisy speech, LinDiff employs a patch-based processing approach that partitions the input signal into small patches. The patch-wise token leverages Transformer architecture for effective modeling of global information. Adversarial training is used to further improve the sample quality with decreased sampling steps. We test proposed method with speech synthesis conditioned on acoustic feature (Mel-spectrograms). Experimental results verify that our model can synthesize high-quality speech even with only one diffusion step. Both subjective and objective evaluations demonstrate that our model can synthesize speech of a quality comparable to that of autoregressive models with faster synthesis speed (3 diffusion steps).
翻訳日:2023-06-12 14:28:28 公開日:2023-06-09
# 段階的緩和初期化による連合学習における一貫性の理解

Understanding How Consistency Works in Federated Learning via Stage-wise Relaxed Initialization ( http://arxiv.org/abs/2306.05706v1 )

ライセンス: Link先を確認
Yan Sun, Li Shen, Dacheng Tao(参考訳) Federated Learning(FL)は、大規模なローカルクライアントを協調して、異種データセット上のステージワイドなローカルトレーニングプロセスを通じてグローバルモデルをトレーニングする分散パラダイムである。 従来の研究は、FLがローカルクライアント間での矛盾した最適化によって引き起こされる'client-drift'問題に苦しむことを暗黙的に研究してきた。 しかし、今日まで、この局所的矛盾の影響を説明するための確かな理論的分析が欠如している。 本稿では,「傾き」の負の影響を緩和し,その物質をFLで探索するために,各局所訓練段階の開始時にパーソナライズされた初期化状態を利用する,効率的なFLアルゴリズムである「textit{FedInit}」を最初に設計する。 具体的には、 \textit{FedInit} は、現在のグローバル状態から最新のローカル状態の逆方向へ移動することで、ローカル状態を初期化する。 この緩和された初期化は、局所的なばらつきを修正し、局所的な一貫性のレベルを高めるのに役立つ。 さらに, flにおける不整合が性能にどのような影響を及ぼすかをさらに理解するため, 過度なリスク分析を行い, 提案する \textit{fedinit} 法の検証誤差を調べるために, 発散項について検討する。 本研究は, 最適化誤差が局所的不整合に敏感でないことを示すとともに, 主に \textit{FedInit} の一般化誤差に影響を与えることを示す。 この結論を裏付ける大規模な実験が行われた。 提案する \textit{fedinit} は、追加コストなしでいくつかの高度なベンチマークと比較し、最先端の結果を実現できる。 一方、段階的に緩和された初期化は、FLパラダイムでより高い性能を達成するために、現在の高度なアルゴリズムに組み込むこともできる。

Federated learning (FL) is a distributed paradigm that coordinates massive local clients to collaboratively train a global model via stage-wise local training processes on the heterogeneous dataset. Previous works have implicitly studied that FL suffers from the ``client-drift'' problem, which is caused by the inconsistent optimum across local clients. However, till now it still lacks solid theoretical analysis to explain the impact of this local inconsistency. To alleviate the negative impact of the ``client drift'' and explore its substance in FL, in this paper, we first design an efficient FL algorithm \textit{FedInit}, which allows employing the personalized relaxed initialization state at the beginning of each local training stage. Specifically, \textit{FedInit} initializes the local state by moving away from the current global state towards the reverse direction of the latest local state. This relaxed initialization helps to revise the local divergence and enhance the local consistency level. Moreover, to further understand how inconsistency disrupts performance in FL, we introduce the excess risk analysis and study the divergence term to investigate the test error of the proposed \textit{FedInit} method. Our studies show that optimization error is not sensitive to this local inconsistency, while it mainly affects the generalization error bound in \textit{FedInit}. Extensive experiments are conducted to validate this conclusion. Our proposed \textit{FedInit} could achieve state-of-the-art~(SOTA) results compared to several advanced benchmarks without any additional costs. Meanwhile, stage-wise relaxed initialization could also be incorporated into the current advanced algorithms to achieve higher performance in the FL paradigm.
翻訳日:2023-06-12 14:28:08 公開日:2023-06-09
# 医用画像解析の基礎モデルの挑戦と展望

On the Challenges and Perspectives of Foundation Models for Medical Image Analysis ( http://arxiv.org/abs/2306.05705v1 )

ライセンス: Link先を確認
Shaoting Zhang, Dimitris Metaxas(参考訳) 本稿では,医療画像解析のための大規模事前学習モデル(基礎モデル)の機会,応用,今後の方向性について述べる。 医療基盤モデルは、正確で堅牢なモデルの開発を加速し、大量のラベル付きデータを削減し、患者データのプライバシーと機密性を維持するため、幅広い下流のタスクを解決する上で大きな可能性を秘めている。 具体的には、一般的な視覚モデル、モダリティ固有モデルからオルガン/タスク固有モデルまで、医療基礎モデルの「スペクトラム」を説明し、その課題、機会、応用を強調する。 また,下級医療タスクにおいて基礎モデルをどのように活用し,医用画像解析の精度と効率を高めるかについて議論し,より正確な診断と治療の決定に繋がる。

This article discusses the opportunities, applications and future directions of large-scale pre-trained models, i.e., foundation models, for analyzing medical images. Medical foundation models have immense potential in solving a wide range of downstream tasks, as they can help to accelerate the development of accurate and robust models, reduce the large amounts of required labeled data, preserve the privacy and confidentiality of patient data. Specifically, we illustrate the "spectrum" of medical foundation models, ranging from general vision models, modality-specific models, to organ/task-specific models, highlighting their challenges, opportunities and applications. We also discuss how foundation models can be leveraged in downstream medical tasks to enhance the accuracy and efficiency of medical image analysis, leading to more precise diagnosis and treatment decisions.
翻訳日:2023-06-12 14:27:37 公開日:2023-06-09
# ニューラルイメージ圧縮のための効果的なマスクサンプリングモデルの検討

Exploring Effective Mask Sampling Modeling for Neural Image Compression ( http://arxiv.org/abs/2306.05704v1 )

ライセンス: Link先を確認
Lin Liu, Mingming Zhao, Shanxin Yuan, Wenlong Lyu, Wengang Zhou, Houqiang Li, Yanfeng Wang, Qi Tian(参考訳) 画像圧縮は、画像の情報冗長性を低減することを目的としている。 既存のニューラルイメージ圧縮手法のほとんどは、空間冗長性を排除するためにハイパープライオリやコンテキストモデルからのサイド情報に依存するが、チャネル冗長性に対処することは滅多にない。 近年の自然言語処理と高次視覚のための自己教師付き学習手法におけるマスクサンプリングモデルに着想を得て,ニューラル画像圧縮のための新しい事前学習戦略を提案する。 特にキューブマスクサンプリングモジュール(cmsm)は,事前学習段階における画像圧縮に空間的およびチャネルマスクサンプリングモデルを適用するために提案されている。 さらに,チャネル冗長性をさらに低減するために,LCMM (Learnerable Channel Mask Module) とLCCM (Learnerable Channel Completion Module) を提案する。 プラグアンドプレイのCMSM,LCMM,LCCMモジュールは,CNNベースのアーキテクチャとトランスフォーマーベースのアーキテクチャの両方に適用でき,計算コストを大幅に削減し,画像の品質を向上させることができる。 公開kodakデータセットとtecnickデータセットを用いた実験により,最先端画像圧縮法と比較して,計算複雑性の低い競合性能が得られることを示した。

Image compression aims to reduce the information redundancy in images. Most existing neural image compression methods rely on side information from hyperprior or context models to eliminate spatial redundancy, but rarely address the channel redundancy. Inspired by the mask sampling modeling in recent self-supervised learning methods for natural language processing and high-level vision, we propose a novel pretraining strategy for neural image compression. Specifically, Cube Mask Sampling Module (CMSM) is proposed to apply both spatial and channel mask sampling modeling to image compression in the pre-training stage. Moreover, to further reduce channel redundancy, we propose the Learnable Channel Mask Module (LCMM) and the Learnable Channel Completion Module (LCCM). Our plug-and-play CMSM, LCMM, LCCM modules can apply to both CNN-based and Transformer-based architectures, significantly reduce the computational cost, and improve the quality of images. Experiments on the public Kodak and Tecnick datasets demonstrate that our method achieves competitive performance with lower computational complexity compared to state-of-the-art image compression methods.
翻訳日:2023-06-12 14:27:23 公開日:2023-06-09
# 2プレイヤーゼロサムマルコフゲームにおけるミニマックスQラーニングの有限時間解析:スイッチングシステムアプローチ

Finite-Time Analysis of Minimax Q-Learning for Two-Player Zero-Sum Markov Games: Switching System Approach ( http://arxiv.org/abs/2306.05700v1 )

ライセンス: Link先を確認
Donghwan Lee(参考訳) 本稿では,2人のゼロサムマルコフゲームに適用したqラーニングアルゴリズムの有限時間解析について検討する。 具体的には,ミニマックスQ-ラーニングアルゴリズムと対応する値反復法の両方を有限時間で解析する。 価値反復とq学習の両方の分析を強化するため、minimax q-learningのスイッチングシステムモデルと関連する価値反復を用いる。 このアプローチは、ミニマックスQ学習に関するさらなる洞察を与え、より単純で洞察に富んだ収束分析を促進する。 これらの追加的な洞察の導入は、制御理論と強化学習コミュニティの分野における概念間の新しいつながりを解明し、協調を促進する可能性を期待する。

The objective of this paper is to investigate the finite-time analysis of a Q-learning algorithm applied to two-player zero-sum Markov games. Specifically, we establish a finite-time analysis of both the minimax Q-learning algorithm and the corresponding value iteration method. To enhance the analysis of both value iteration and Q-learning, we employ the switching system model of minimax Q-learning and the associated value iteration. This approach provides further insights into minimax Q-learning and facilitates a more straightforward and insightful convergence analysis. We anticipate that the introduction of these additional insights has the potential to uncover novel connections and foster collaboration between concepts in the fields of control theory and reinforcement learning communities.
翻訳日:2023-06-12 14:27:04 公開日:2023-06-09
# JABBERWOCK:WebAssemblyデータセット生成ツールとその悪意のあるWebサイト検出への応用

JABBERWOCK: A Tool for WebAssembly Dataset Generation and Its Application to Malicious Website Detection ( http://arxiv.org/abs/2306.05698v1 )

ライセンス: Link先を確認
Chika Komiya and Naoto Yanai and Kyosuke Yamashita and Shingo Okamura(参考訳) 機械学習は悪質なwebサイト検出によく使用されるが、webassemblyを機能として組み込むアプローチは、限られた数のサンプルのため、私たちの知る限りでは検討されていない。 本稿では、javascriptによる擬似的な方法でwebassemblyデータセットを生成するツールであるjabberwock(webassembly optimization packerによるjavascriptベースのバイナリエンコーダ)を提案する。 一般的に言うと、JABBERWOCKはJavaScriptコードを実世界で自動的に収集し、WebAssemblyに変換し、悪意のあるWebサイト検出のためのサンプルとしてWebAssemblyのベクターを出力する。 また、データセット生成の処理時間、生成したサンプルとインターネットから収集した実際のWebAssemblyサンプルとの比較、悪意のあるWebサイト検出アプリケーションの観点から、JABBERWOCKを実験的に評価する。 処理時間については,JABBERWOCKがサンプル数毎に4.5秒でデータセットを構築することができることを示す。 次に、JABBERWOCKが出力する1万のサンプルと168個のWebAssemblyサンプルを比較し、JABBERWOCKが生成したサンプルは実世界のものと類似していると考えている。 以上の結果から,jabberwockは良質なサンプルと悪質なサンプルを区別するため,99\%のf1-scoreで悪意のあるwebサイトを検出できることを示した。 また、JABBERWOCKと既存の悪意のあるウェブサイト検出ツールを組み合わせることで、F1スコアを改善することも確認した。 JABBERWOCKはGitHubから公開されている(https://github.com/c-chocolate/Jabberwock)。

Machine learning is often used for malicious website detection, but an approach incorporating WebAssembly as a feature has not been explored due to a limited number of samples, to the best of our knowledge. In this paper, we propose JABBERWOCK (JAvascript-Based Binary EncodeR by WebAssembly Optimization paCKer), a tool to generate WebAssembly datasets in a pseudo fashion via JavaScript. Loosely speaking, JABBERWOCK automatically gathers JavaScript code in the real world, convert them into WebAssembly, and then outputs vectors of the WebAssembly as samples for malicious website detection. We also conduct experimental evaluations of JABBERWOCK in terms of the processing time for dataset generation, comparison of the generated samples with actual WebAssembly samples gathered from the Internet, and an application for malicious website detection. Regarding the processing time, we show that JABBERWOCK can construct a dataset in 4.5 seconds per sample for any number of samples. Next, comparing 10,000 samples output by JABBERWOCK with 168 gathered WebAssembly samples, we believe that the generated samples by JABBERWOCK are similar to those in the real world. We then show that JABBERWOCK can provide malicious website detection with 99\% F1-score because JABBERWOCK makes a gap between benign and malicious samples as the reason for the above high score. We also confirm that JABBERWOCK can be combined with an existing malicious website detection tool to improve F1-scores. JABBERWOCK is publicly available via GitHub (https://github.com/c-chocolate/Jabberwock).
翻訳日:2023-06-12 14:26:53 公開日:2023-06-09
# 部分微分方程式に対する群同変フーリエニューラル作用素

Group Equivariant Fourier Neural Operators for Partial Differential Equations ( http://arxiv.org/abs/2306.05697v1 )

ライセンス: Link先を確認
Jacob Helwig, Xuan Zhang, Cong Fu, Jerry Kurtin, Stephan Wojtowytsch, Shuiwang Ji(参考訳) 周波数領域で動作するフーリエニューラル演算子(FNO)を用いて偏微分方程式(PDE)を解くことを検討する。 物理法則はそれらを記述するために用いられる座標系に依存しないので、より優れた性能と学習を容易にするために神経オペレーターアーキテクチャにそのような対称性を符号化することが望ましい。 群論を用いた物理領域における対称性の符号化は広く研究されているが、周波数領域における対称性の捉え方は未検討である。 本研究では、群畳み込みを周波数領域に拡張し、フーリエ変換の同分散性を利用して回転、変換、反射に同変するフーリエ層を設計する。 結果として生じる$G$-FNOアーキテクチャは、入力解像度にわたってよく一般化され、対称性のレベルが異なる設定でうまく機能する。 私たちのコードはAIRSライブラリ(https://github.com/divelab/AIRS)の一部として公開されています。

We consider solving partial differential equations (PDEs) with Fourier neural operators (FNOs), which operate in the frequency domain. Since the laws of physics do not depend on the coordinate system used to describe them, it is desirable to encode such symmetries in the neural operator architecture for better performance and easier learning. While encoding symmetries in the physical domain using group theory has been studied extensively, how to capture symmetries in the frequency domain is under-explored. In this work, we extend group convolutions to the frequency domain and design Fourier layers that are equivariant to rotations, translations, and reflections by leveraging the equivariance property of the Fourier transform. The resulting $G$-FNO architecture generalizes well across input resolutions and performs well in settings with varying levels of symmetry. Our code is publicly available as part of the AIRS library (https://github.com/divelab/AIRS).
翻訳日:2023-06-12 14:26:24 公開日:2023-06-09
# 小さな量子状態の説明可能な表現学習

Explainable Representation Learning of Small Quantum States ( http://arxiv.org/abs/2306.05694v1 )

ライセンス: Link先を確認
Felix Frohnert and Evert van Nieuwenburg(参考訳) 教師なし機械学習モデルは、明示的な人間のガイダンスや機能エンジニアリングを必要とせずに、トレーニングデータの内部表現を構築する。 この学習された表現は、目の前のタスクにどのデータの特徴が関係しているかについての洞察を提供する。 量子物理学の文脈では、人間の介入なしに量子状態を記述するためのトレーニングモデルは、機械が複雑な量子状態をどのように表現するかを理解するための有望なアプローチを提供する。 学習表現を解釈する能力は、量子システムの非自明な特徴とその効率的な表現に対する新しい視点を与えるかもしれない。 パラメータ化量子回路によって生成される2量子密度行列上に生成モデルを訓練する。 一連の計算実験において,モデルの学習された表現とその内部的データ理解について検討する。 モデルが量子状態と基礎となる絡み合い特性を関連づける解釈可能な表現を学ぶことを観察する。 特に,本実験の結果は,モデルの潜在表現が絡み合い尺度の一致と直接相関していることを示した。 この研究の洞察は、量子状態の解釈可能な機械学習への概念実証を表している。 我々のアプローチは、機械が小さな量子システムを自律的に表現する方法の洞察を与える。

Unsupervised machine learning models build an internal representation of their training data without the need for explicit human guidance or feature engineering. This learned representation provides insights into which features of the data are relevant for the task at hand. In the context of quantum physics, training models to describe quantum states without human intervention offers a promising approach to gaining insight into how machines represent complex quantum states. The ability to interpret the learned representation may offer a new perspective on non-trivial features of quantum systems and their efficient representation. We train a generative model on two-qubit density matrices generated by a parameterized quantum circuit. In a series of computational experiments, we investigate the learned representation of the model and its internal understanding of the data. We observe that the model learns an interpretable representation which relates the quantum states to their underlying entanglement characteristics. In particular, our results demonstrate that the latent representation of the model is directly correlated with the entanglement measure concurrence. The insights from this study represent proof of concept towards interpretable machine learning of quantum states. Our approach offers insight into how machines learn to represent small-scale quantum systems autonomously.
翻訳日:2023-06-12 14:26:09 公開日:2023-06-09
# あらゆるものを彫る道を開く:ユニバーサルピックレースロボットの基礎モデルを移す

Pave the Way to Grasp Anything: Transferring Foundation Models for Universal Pick-Place Robots ( http://arxiv.org/abs/2306.05716v1 )

ライセンス: Link先を確認
Jiange Yang, Wenhui Tan, Chuhao Jin, Bei Liu, Jianlong Fu, Ruihua Song, Limin Wang(参考訳) 汎用ロボットエージェントの一般化能力の向上は、研究コミュニティが積極的に追求している重要な課題である。 既存のアプローチでは、rt-1データセットのような大規模な実世界のロボットデータを収集することが多い。 しかし、これらのアプローチは典型的には低効率で、新しいオブジェクトと多様なバックグラウンドを持つオープンドメインシナリオの能力を制限する。 本稿では,現状の基盤モデルが生成する言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案し,日常のシナリオにおいて,多種多様なロボット操作タスクに対処する。 マスクから伝達される正確なセマンティクスとジオメトリをマルチビューポリシーモデルに統合することで、正確なオブジェクトポーズを知覚し、サンプル効率のよい学習を可能にする。 このようなデザインは、トレーニング中に観察される類似した形状で新しい物体を把握するための効果的な一般化を促進する。 私たちのアプローチは2つの異なるステップから成り立っている。 まず,複数のタスクにまたがる自然言語要求を正確に把握するための基礎モデルを紹介する。 第2に、RGB画像、セマンティックマスク、ロボットの受容状態などの入力を組み込んだマルチモーダル多視点ポリシーモデルを構築し、正確かつ実行可能なロボット動作を共同で予測する。 提案手法の有効性を検証するために,Franka Emikaロボットアームを用いた大規模な実世界実験を行った。 実世界のデモはYouTube(https://www.youtube.com/watch?v=1m9wNzfp_4E)とBilibili(https://www.bilibili.com/video/BV178411Z7H2/)で見られる。

Improving the generalization capabilities of general-purpose robotic agents has long been a significant challenge actively pursued by research communities. Existing approaches often rely on collecting large-scale real-world robotic data, such as the RT-1 dataset. However, these approaches typically suffer from low efficiency, limiting their capability in open-domain scenarios with new objects, and diverse backgrounds. In this paper, we propose a novel paradigm that effectively leverages language-grounded segmentation masks generated by state-of-the-art foundation models, to address a wide range of pick-and-place robot manipulation tasks in everyday scenarios. By integrating precise semantics and geometries conveyed from masks into our multi-view policy model, our approach can perceive accurate object poses and enable sample-efficient learning. Besides, such design facilitates effective generalization for grasping new objects with similar shapes observed during training. Our approach consists of two distinct steps. First, we introduce a series of foundation models to accurately ground natural language demands across multiple tasks. Second, we develop a Multi-modal Multi-view Policy Model that incorporates inputs such as RGB images, semantic masks, and robot proprioception states to jointly predict precise and executable robot actions. Extensive real-world experiments conducted on a Franka Emika robot arm validate the effectiveness of our proposed paradigm. Real-world demos are shown in YouTube (https://www.youtube.com/watch?v=1m9wNzfp_4E ) and Bilibili (https://www.bilibili.com/video/BV178411Z7H2/ ).
翻訳日:2023-06-12 14:20:40 公開日:2023-06-09
# 樹木空間を突き抜ける--根と未根の木の連続系統解析

Leaping through tree space: continuous phylogenetic inference for rooted and unrooted trees ( http://arxiv.org/abs/2306.05739v1 )

ライセンス: Link先を確認
Matthew J Penn, Neil Scheidwasser, Joseph Penn, Christl A Donnelly, David A Duch\^ene, and Samir Bhatt(参考訳) 現在、系統学は生命科学において基本的存在であり、生命の最も初期の分岐と疫病の起源と拡散に関する洞察を与えている。 しかし、樹木の広大な空間から適切な系統を見つけることは依然として困難である。 この問題に対処するために,勾配の計算が可能な連続空間において,木探索と推論の両方を初めて行う。 この連続緩和により、根付き木と根付き木の両方で木空間を横断する大きな跳躍が可能となり、局所極小への収束の影響を受けにくくなる。 提案手法は, 未開根木に対する推定法や, シミュレーションにおいて, 超測定の場合, 木と根を正確に推定する手法よりも優れている。 本手法は, 下顎脊椎動物の系統学を実証した, 無視可能な量のデータを用いた経験的データに対して有効である。 実際、ウルトラメトリックシグナルを持つ遺伝子は、脊椎動物の主要系統を解決するのに十分であった。 立方体時間複雑性と自動微分による効率的な最適化により,本手法は最も困難でデータ不足な系統的疑問を探索する効果的な方法を示す。

Phylogenetics is now fundamental in life sciences, providing insights into the earliest branches of life and the origins and spread of epidemics. However, finding suitable phylogenies from the vast space of possible trees remains challenging. To address this problem, for the first time, we perform both tree exploration and inference in a continuous space where the computation of gradients is possible. This continuous relaxation allows for major leaps across tree space in both rooted and unrooted trees, and is less susceptible to convergence to local minima. Our approach outperforms the current best methods for inference on unrooted trees and, in simulation, accurately infers the tree and root in ultrametric cases. The approach is effective in cases of empirical data with negligible amounts of data, which we demonstrate on the phylogeny of jawed vertebrates. Indeed, only a few genes with an ultrametric signal were generally sufficient for resolving the major lineages of vertebrate. With cubic-time complexity and efficient optimisation via automatic differentiation, our method presents an effective way forwards for exploring the most difficult, data-deficient phylogenetic questions.
翻訳日:2023-06-12 14:19:31 公開日:2023-06-09
# DP-HyPO: 適応型プライベートハイパーパラメータ最適化フレームワーク

DP-HyPO: An Adaptive Private Hyperparameter Optimization Framework ( http://arxiv.org/abs/2306.05734v1 )

ライセンス: Link先を確認
Hua Wang, Sheng Gao, Huanyu Zhang, Weijie J. Su, Milan Shen(参考訳) ハイパーパラメータ最適化(Hyperparameter Optimization)またはハイパーパラメータチューニング(Hyperparameter tuning)は、モデル性能を改善する技術として広く知られている。 当然ながら、プライベートMLモデルをトレーニングする場合、多くの実践者は、ハイパーパラメータ最適化に関連するプライバシーリスクを見落としていることが多い。 現在、プライバシを保全するハイパーパラメータの最適化を可能にする唯一の既存のアプローチは、複数の実行に対して一様かつランダムにハイパーパラメータを選択し、次に最もパフォーマンスの高いハイパーパラメータを報告することである。 対照的に、非プライベートな環境では、実践者は、前回の出力から収集した情報に基づいて次の候補を選択するガウス過程に基づく最適化のような「適応的な」ハイパーパラメータ最適化手法を一般的に利用する。 プライベートと非プライベートのハイパーパラメータ最適化との大きな対比は、重要な懸念点である。 本稿では,プライベート・ハイパーパラメータ最適化の先駆的フレームワークであるDP-HyPOを紹介し,プライベート・ハイパーパラメータ最適化と非プライベート・ハイパーパラメータ最適化のギャップを埋めることを目的とした。 これを実現するために、我々はフレームワークの包括的な差分プライバシー分析を提供する。 さらに,DP-HyPOが実世界および合成データセットの多種多様な集合に対して有効であることを示す。

Hyperparameter optimization, also known as hyperparameter tuning, is a widely recognized technique for improving model performance. Regrettably, when training private ML models, many practitioners often overlook the privacy risks associated with hyperparameter optimization, which could potentially expose sensitive information about the underlying dataset. Currently, the sole existing approach to allow privacy-preserving hyperparameter optimization is to uniformly and randomly select hyperparameters for a number of runs, subsequently reporting the best-performing hyperparameter. In contrast, in non-private settings, practitioners commonly utilize "adaptive" hyperparameter optimization methods such as Gaussian process-based optimization, which select the next candidate based on information gathered from previous outputs. This substantial contrast between private and non-private hyperparameter optimization underscores a critical concern. In our paper, we introduce DP-HyPO, a pioneering framework for "adaptive" private hyperparameter optimization, aiming to bridge the gap between private and non-private hyperparameter optimization. To accomplish this, we provide a comprehensive differential privacy analysis of our framework. Furthermore, we empirically demonstrate the effectiveness of DP-HyPO on a diverse set of real-world and synthetic datasets.
翻訳日:2023-06-12 14:19:12 公開日:2023-06-09
# マルチモーダル説明可能な人工知能 : 方法論の進歩と今後の研究方向

Multimodal Explainable Artificial Intelligence: A Comprehensive Review of Methodological Advances and Future Research Directions ( http://arxiv.org/abs/2306.05731v1 )

ライセンス: Link先を確認
Nikolaos Rodis, Christos Sardianos, Georgios Th. Papadopoulos, Panagiotis Radoglou-Grammatikis, Panagiotis Sarigiannidis and Iraklis Varlamis(参考訳) 本研究は、MXAI(Multimodal eXplainable Artificial Intelligence)分野における最近の進歩を体系的に分析することに焦点を当てている。 特に、関連する一次予測タスクと公開データセットを最初に記述する。 その後、以下の基準を考慮し、文献のMXAI手法の構造化された提示を行う。 a) 関連するモダリティの数 b) 説明が作成される段階,及び c) 採用されている方法論の種類(すなわち、数学的形式主義) 次に,MXAI評価に用いる指標について述べる。 最後に,現状の課題と今後の研究方向性を包括的に分析する。

The current study focuses on systematically analyzing the recent advances in the field of Multimodal eXplainable Artificial Intelligence (MXAI). In particular, the relevant primary prediction tasks and publicly available datasets are initially described. Subsequently, a structured presentation of the MXAI methods of the literature is provided, taking into account the following criteria: a) The number of the involved modalities, b) The stage at which explanations are produced, and c) The type of the adopted methodology (i.e. mathematical formalism). Then, the metrics used for MXAI evaluation are discussed. Finally, a comprehensive analysis of current challenges and future research directions is provided.
翻訳日:2023-06-12 14:18:53 公開日:2023-06-09
# 強化学習における一般化のための多種多様なリプレイの役割

The Role of Diverse Replay for Generalisation in Reinforcement Learning ( http://arxiv.org/abs/2306.05727v1 )

ライセンス: Link先を確認
Max Weltevrede, Matthijs T.J. Spaan, Wendelin B\"ohmer(参考訳) 強化学習(RL)において、多くのアルゴリズムの重要な要素は探索戦略と再生バッファである。 これらの戦略は、収集および訓練された環境データを規制し、RL文献で広く研究されている。 本稿では,マルチタスクRLにおける一般化の文脈におけるこれらの成分の影響について検討する。 我々は,学習環境からより多様なデータを収集し,訓練することで,ゼロショットの一般化が新しい環境やタスクに改善されるという仮説を考察する。 我々は数学的動機付けを行い,リプレイバッファにおける遷移の多様性を増すことにより,トレーニング中に「到達可能」状態への一般化が改善されることを示す。 さらに、この戦略は類似するが「到達不能」な状態への一般化も改善し、潜在表現の一般化が改善されることも実証的に示している。

In reinforcement learning (RL), key components of many algorithms are the exploration strategy and replay buffer. These strategies regulate what environment data is collected and trained on and have been extensively studied in the RL literature. In this paper, we investigate the impact of these components in the context of generalisation in multi-task RL. We investigate the hypothesis that collecting and training on more diverse data from the training environment will improve zero-shot generalisation to new environments/tasks. We motivate mathematically and show empirically that generalisation to states that are "reachable" during training is improved by increasing the diversity of transitions in the replay buffer. Furthermore, we show empirically that this same strategy also shows improvement for generalisation to similar but "unreachable" states and could be due to improved generalisation of latent representations.
翻訳日:2023-06-12 14:18:44 公開日:2023-06-09
# オフライン強化学習のためのインサンプルポリシーイテレーション

In-Sample Policy Iteration for Offline Reinforcement Learning ( http://arxiv.org/abs/2306.05726v1 )

ライセンス: Link先を確認
Xiaohan Hu, Yi Ma, Chenjun Xiao, Yan Zheng, Zhaopeng Meng(参考訳) オフライン強化学習(RL)は、以前に収集したデータから効果的な制御ポリシーを導き出そうとする。 データカバレッジの不足によるエラーを回避するため、データ収集ポリシーからの逸脱を同時に最小化しつつ、動作調整手法が制御ポリシーを最適化する。 にもかかわらず、これらの手法は、特にオフラインデータセットが準最適ポリシーによって収集される場合、劣った実用性能を示すことが多い。 本稿では,オフラインRLにおける動作規則化手法を大幅に強化する,サンプル内ポリシー反復を用いた新しいアルゴリズムを提案する。 中心となる洞察は、振る舞いの規則化に使用されるポリシーを継続的に精錬することで、サンプル内ポリシーイテレーションは徐々に自己改善され、暗黙的にサンプル外アクションのクエリを回避して破滅的な学習障害を回避することだ。 我々の理論的分析は、データセットでよく発見されたアクションのみを利用して、サンプル内最適ポリシーを学習する能力を検証する。 さらに,2つの競争政策を適用する手法である競争政策改善を提案する。 本手法は,関数近似を適用した場合,学習効率を大幅に向上することを示す。 最後に、D4RLベンチマークの実験結果から、我々のアルゴリズムは、ほとんどのタスクにおいて従来の最先端手法よりも優れていることが示された。

Offline reinforcement learning (RL) seeks to derive an effective control policy from previously collected data. To circumvent errors due to inadequate data coverage, behavior-regularized methods optimize the control policy while concurrently minimizing deviation from the data collection policy. Nevertheless, these methods often exhibit subpar practical performance, particularly when the offline dataset is collected by sub-optimal policies. In this paper, we propose a novel algorithm employing in-sample policy iteration that substantially enhances behavior-regularized methods in offline RL. The core insight is that by continuously refining the policy used for behavior regularization, in-sample policy iteration gradually improves itself while implicitly avoids querying out-of-sample actions to avert catastrophic learning failures. Our theoretical analysis verifies its ability to learn the in-sample optimal policy, exclusively utilizing actions well-covered by the dataset. Moreover, we propose competitive policy improvement, a technique applying two competitive policies, both of which are trained by iteratively improving over the best competitor. We show that this simple yet potent technique significantly enhances learning efficiency when function approximation is applied. Lastly, experimental results on the D4RL benchmark indicate that our algorithm outperforms previous state-of-the-art methods in most tasks.
翻訳日:2023-06-12 14:18:32 公開日:2023-06-09
# 情報理論シャプリー値を用いた予測の不確実性の説明

Explaining Predictive Uncertainty with Information Theoretic Shapley Values ( http://arxiv.org/abs/2306.05724v1 )

ライセンス: Link先を確認
David S. Watson, Joshua O'Hara, Niek Tax, Richard Mudd, and Ido Guy(参考訳) 説明可能な人工知能の研究者は、複雑な教師付き学習モデルの予測を理解するための多くの方法を開発した。 対照的に、$\textit{uncertainty}$のモデル出力の説明は、比較的ほとんど注目を集めていない。 一般的なshapley値フレームワークを使って様々な予測の不確実性を説明し、個々のモデル出力の条件エントロピーに対する各特徴の寄与を定量化する。 特徴関数を改良したゲームについて検討し,情報理論と条件独立テストから得られたShapley値と基本量の深い関係を見出す。 証明可能な保証付き有限サンプル誤差率制御のための推論手順を概説し、実データおよびシミュレーションデータに対する実験範囲でよく動作する効率的なアルゴリズムを実装した。 提案手法は,シフト検出,アクティブラーニング,特徴選択,能動的特徴値獲得を共変させる。

Researchers in explainable artificial intelligence have developed numerous methods for helping users understand the predictions of complex supervised learning models. By contrast, explaining the $\textit{uncertainty}$ of model outputs has received relatively little attention. We adapt the popular Shapley value framework to explain various types of predictive uncertainty, quantifying each feature's contribution to the conditional entropy of individual model outputs. We consider games with modified characteristic functions and find deep connections between the resulting Shapley values and fundamental quantities from information theory and conditional independence testing. We outline inference procedures for finite sample error rate control with provable guarantees, and implement an efficient algorithm that performs well in a range of experiments on real and simulated data. Our method has applications to covariate shift detection, active learning, feature selection, and active feature-value acquisition.
翻訳日:2023-06-12 14:18:11 公開日:2023-06-09
# 密度関数の非線形変換によるリッジ推定

Estimation of Ridge Using Nonlinear Transformation on Density Function ( http://arxiv.org/abs/2306.05722v1 )

ライセンス: Link先を確認
Zheng Zhai and Hengchao Chen and Zhigang Yao(参考訳) リッジは多様体の基盤構造を正確に近似する上で重要な役割を果たす。 本稿では,密度関数に凸非線形変換を適用することにより,リッジの変動を考察する。 ヘッセン行列の導出により、非線形変換がヘッセン行列のランクワンな修正をもたらすことが観察される。 固有値問題の変動特性を利用して、対応するリッジ間の部分順序包含関係を確立する。 直感的には、変換がヘッセン行列の階数 1 修飾による接空間の推定の改善につながることが分かる。 この理論を検証するために,我々は合成データと実世界のデータセットについて,基礎となる真理多様体を他の多様体フィッティングアルゴリズムと比較して近似する変換アプローチから得られたリッジの優越性を示す数値実験を行った。

Ridges play a vital role in accurately approximating the underlying structure of manifolds. In this paper, we explore the ridge's variation by applying a concave nonlinear transformation to the density function. Through the derivation of the Hessian matrix, we observe that nonlinear transformations yield a rank-one modification of the Hessian matrix. Leveraging the variational properties of eigenvalue problems, we establish a partial order inclusion relationship among the corresponding ridges. We intuitively discover that the transformation can lead to improved estimation of the tangent space via rank-one modification of the Hessian matrix. To validate our theories, we conduct extensive numerical experiments on synthetic and real-world datasets that demonstrate the superiority of the ridges obtained from our transformed approach in approximating the underlying truth manifold compared to other manifold fitting algorithms.
翻訳日:2023-06-12 14:17:57 公開日:2023-06-09
# 表面統計の超越:潜時拡散モデルにおけるシーン表現

Beyond Surface Statistics: Scene Representations in a Latent Diffusion Model ( http://arxiv.org/abs/2306.05720v1 )

ライセンス: Link先を確認
Yida Chen, Fernanda Vi\'egas, Martin Wattenberg(参考訳) 潜在拡散モデル(LDMs)は、現実的な画像を生成する素晴らしい能力を示すが、これらのモデルの内部構造は謎のままである。 露骨な奥行き情報のない画像に純粋に訓練しても、通常は3dシーンのコヒーレントな画像を出力する。 本研究では, LDMは単純なシーン幾何学の内部表現を作成し, 利用するのか? 線形プローブを用いて,LDMの内部活性化が3次元深度データの線形表現と有向物体/背景の区別を符号化していることを示す。 これらの表現は、人間がノイズの多い画像を容易に理解できるようになる前に、ノイズ処理の初期段階に驚くほど現れる。 介入実験では、これらの表現が画像合成において因果的役割を果たすことが示され、ldmの出力の単純な高レベルな編集に使うことができる。

Latent diffusion models (LDMs) exhibit an impressive ability to produce realistic images, yet the inner workings of these models remain mysterious. Even when trained purely on images without explicit depth information, they typically output coherent pictures of 3D scenes. In this work, we investigate a basic interpretability question: does an LDM create and use an internal representation of simple scene geometry? Using linear probes, we find evidence that the internal activations of the LDM encode linear representations of both 3D depth data and a salient-object / background distinction. These representations appear surprisingly early in the denoising process$-$well before a human can easily make sense of the noisy images. Intervention experiments further indicate these representations play a causal role in image synthesis, and may be used for simple high-level editing of an LDM's output.
翻訳日:2023-06-12 14:17:44 公開日:2023-06-09
# プロンプトチューニングによるドメイン認識検出ヘッドの学習

Learning Domain-Aware Detection Head with Prompt Tuning ( http://arxiv.org/abs/2306.05718v1 )

ライセンス: Link先を確認
Haochen Li, Rui Zhang, Hantao Yao, Xinkai Song, Yifan Hao, Yongwei Zhao, Ling Li and Yunji Chen(参考訳) ドメイン適応オブジェクト検出(DAOD)は、注釈付きソースドメインで訓練された検出器を、未ラベルのターゲットドメインに一般化することを目的としている。 しかし,既存の手法では,検出ヘッドの領域バイアスを無視しつつ,識別的視覚エンコーダを推定することにより,検出バックボーンの領域バイアスの低減に重点を置いている。 視覚言語モデル(VLM)の高一般化に触発されて、ドメイン認識検出ヘッドに続く堅牢な検出バックボーンとしてVLMを適用することは、従来の手法ではドメインバイアスを減らすのではなく、各ドメインの識別的検出を学習する合理的な方法である。 そこで本稿では,学習可能なドメイン適応型プロンプトを適用し,ドメイン毎の動的検出ヘッドを生成する新しいdaodフレームワークであるdomain-aware detection head with prompt tuning (da-pro)を提案する。 正式には、ドメイン適応プロンプトは、クラスラベルとともに、ドメイン不変トークン、ドメイン固有トークン、ドメイン関連テキスト記述で構成される。 さらに、ソースとターゲットドメイン間の2つの制約を適用して、ドメイン適応プロンプトがドメイン共有およびドメイン固有知識をキャプチャできるようにする。 即発的乱れの効果を低減するための即発的アンサンブル戦略も提案されている。 複数のクロスドメイン適応タスクに関する総合的な実験により、ドメイン適応プロンプトを使用することで、ドメイン適応オブジェクトの検出を促進できる効果的なドメイン関連検出ヘッドが得られることが示された。

Domain adaptive object detection (DAOD) aims to generalize detectors trained on an annotated source domain to an unlabelled target domain. However, existing methods focus on reducing the domain bias of the detection backbone by inferring a discriminative visual encoder, while ignoring the domain bias in the detection head. Inspired by the high generalization of vision-language models (VLMs), applying a VLM as the robust detection backbone following a domain-aware detection head is a reasonable way to learn the discriminative detector for each domain, rather than reducing the domain bias in traditional methods. To achieve the above issue, we thus propose a novel DAOD framework named Domain-Aware detection head with Prompt tuning (DA-Pro), which applies the learnable domain-adaptive prompt to generate the dynamic detection head for each domain. Formally, the domain-adaptive prompt consists of the domain-invariant tokens, domain-specific tokens, and the domain-related textual description along with the class label. Furthermore, two constraints between the source and target domains are applied to ensure that the domain-adaptive prompt can capture the domains-shared and domain-specific knowledge. A prompt ensemble strategy is also proposed to reduce the effect of prompt disturbance. Comprehensive experiments over multiple cross-domain adaptation tasks demonstrate that using the domain-adaptive prompt can produce an effectively domain-related detection head for boosting domain-adaptive object detection.
翻訳日:2023-06-12 14:17:27 公開日:2023-06-09
# yba$_2$cu$_3$o$_x$における光フォノン軟化と超伝導体$t_c$との相関

Correlation between optical phonon softening and superconducting $T_c$ in YBa$_2$Cu$_3$O$_x$ ( http://arxiv.org/abs/2306.05763v1 )

ライセンス: Link先を確認
Cunyuan Jiang, Matteo Baggioli, Efthymios Liarokapis, Alessio Zaccone(参考訳) 実験で観測されたラマンモードの酸素移動に伴う軟化と超伝導臨界温度$T_c$の相関関係を,YBa$_2$Cu$_3$O$_x$の酸素ドーピング関数として拡張した数学的記述を提供する。 このモデルは、ソフトオプティカル $a_g$ (in-plane) 酸素モードの物理的傾向、酸素ドーピングのレベル、超伝導 $t_c$ の直接リンクを提供する。 T_c$対ドーピングの傾向で観測される異なる規則は、ラマンスペクトルの対応する光フォノン軟化の規則の観点から機械的に説明できる。 これらの結果は、希土類銅酸化物の高温超伝導の起源と電子-フォノンカップリングの重要な役割に関するさらなる証拠を与える。

We provide an extended mathematical description of the strong correlation between the experimentally observed softening of Raman modes associated with in-plane oxygen motions and the corresponding superconducting critical temperature $T_c$, as a function of oxygen doping $x$, in YBa$_2$Cu$_3$O$_x$. The model provides a direct link between physical trends of soft optical $A_g$ (in-plane) oxygen modes, the level of oxygen doping $x$, and the superconducting $T_c$. Different regimes observed in the trend of $T_c$ vs doping can be mechanistically explained in terms of corresponding regimes of optical phonon softening in the Raman spectra. These results provide further evidence related to the physical origin of high-temperature superconductivity in rare-earth cuprate oxides and to the significant role of electron-phonon coupling therein.
翻訳日:2023-06-12 14:09:14 公開日:2023-06-09
# 多項式モーメント不等式に対する正方形証明書の和

Sums of squares certificates for polynomial moment inequalities ( http://arxiv.org/abs/2306.05761v1 )

ライセンス: Link先を確認
Igor Klep and Victor Magron and Jurij Vol\v{c}i\v{c}(参考訳) 本稿では、可換変数とその形式的混合モーメントにおける多項式表現であるモーメント多項式の代数的枠組みを導入・開発する。 半代数集合に支持され、モーメント多項式制約を受ける確率測度に対するその肯定性と最適化について検討した。 擬モーメントに対するヒルベルトの17番目の問題に対する正の解が与えられる。 一方、実測度に正のモーメント多項式は、その係数の任意に小さい摂動まで正方形の和と正方形の形式モーメントであることが示されている。 有界半代数集合で支持される測度のみを考慮すると、モーメント多項式正の強い代数的証明が導出される。 この結果は、モーメント多項式最適化のための半定値プログラムの収束階層をもたらす。 最後に、量子物理学における2つの非線形ベル不等式を応用として解決する。

This paper introduces and develops the algebraic framework of moment polynomials, which are polynomial expressions in commuting variables and their formal mixed moments. Their positivity and optimization over probability measures supported on semialgebraic sets and subject to moment polynomial constraints is investigated. A positive solution to Hilbert's 17th problem for pseudo-moments is given. On the other hand, moment polynomials positive on actual measures are shown to be sums of squares and formal moments of squares up to arbitrarily small perturbation of their coefficients. When only measures supported on a bounded semialgebraic set are considered, a stronger algebraic certificate for moment polynomial positivity is derived. This result gives rise to a converging hierarchy of semidefinite programs for moment polynomial optimization. Finally, as an application, two nonlinear Bell inequalities from quantum physics are settled.
翻訳日:2023-06-12 14:08:57 公開日:2023-06-09
# 学習除去に基づく属性による効率的なGNN説明

Efficient GNN Explanation via Learning Removal-based Attribution ( http://arxiv.org/abs/2306.05760v1 )

ライセンス: Link先を確認
Yao Rong, Guanchu Wang, Qizhang Feng, Ninghao Liu, Zirui Liu, Enkelejda Kasneci, Xia Hu(参考訳) グラフニューラルネットワーク(GNN)が現実世界のアプリケーションで広く使われているため、モデル説明はユーザだけでなく、法的規制によっても必要である。 しかし,現在の手法では,高い忠実性と低い計算コストを同時に達成することが課題となっている。 本稿では,LARA (LeArn removal-based Attribution) というGNN説明の枠組みを提案し,この問題に対処する。 具体的には, 除去に基づく属性を導入し, 理論的, 実験的に解釈可能性の忠実性との関係を実証する。 LARAの解説者は、高い忠実度で説明ができる除去に基づく属性を生成することを学ぶ。 トレーニングプロセスのスケーラビリティを向上させるため, サブグラフサンプリングの戦略をLARAで設計する。 デプロイメントでは、LARAはフィードフォワードパスを通じて、効率的に説明を生成することができる。 我々は、このアプローチを6つのデータセット上の他の最先端gnn説明手法でベンチマークする。 結果は、効率性と忠実性の両方に関して、我々のフレームワークの有効性を強調します。 特に、LARAは3.5倍高速で、大規模なデータセットogbn-arxiv(160Kノードと1Mエッジ)の最先端メソッドよりも高い忠実性を実現しており、現実世界のアプリケーションにおいてその大きな可能性を示している。 ソースコードはhttps://anonymous.4open.science/r/LARA-10D8/README.mdで公開されています。

As Graph Neural Networks (GNNs) have been widely used in real-world applications, model explanations are required not only by users but also by legal regulations. However, simultaneously achieving high fidelity and low computational costs in generating explanations has been a challenge for current methods. In this work, we propose a framework of GNN explanation named LeArn Removal-based Attribution (LARA) to address this problem. Specifically, we introduce removal-based attribution and demonstrate its substantiated link to interpretability fidelity theoretically and experimentally. The explainer in LARA learns to generate removal-based attribution which enables providing explanations with high fidelity. A strategy of subgraph sampling is designed in LARA to improve the scalability of the training process. In the deployment, LARA can efficiently generate the explanation through a feed-forward pass. We benchmark our approach with other state-of-the-art GNN explanation methods on six datasets. Results highlight the effectiveness of our framework regarding both efficiency and fidelity. In particular, LARA is 3.5 times faster and achieves higher fidelity than the state-of-the-art method on the large dataset ogbn-arxiv (more than 160K nodes and 1M edges), showing its great potential in real-world applications. Our source code is available at https://anonymous.4open.science/r/LARA-10D8/README.md.
翻訳日:2023-06-12 14:08:44 公開日:2023-06-09
# 心理的特徴から安全警告へ:スマートホーム環境におけるレコメンデーションに関する3つの研究

From psychological traits to safety warnings: three studies on recommendations in a smart home environment ( http://arxiv.org/abs/2306.05752v1 )

ライセンス: Link先を確認
Federica Cena, Cristina Gena, Claudio Mattutino, Michele Mioli, and Fabiana Vernero(参考訳) 本稿では,スマートホーム環境において,ユーザがより優れた構成を選択できるように支援し,その結果を議論することを目的として,共感プロジェクトのコンテキストで行った3つの実験について報告する。 We found that there are psychological traits, such as Need for Cognition, which influence the way individuals tend to use recommendations, that there are non obvious relationships between the perceived usefulness of recommendations in different domains and individuals' ability to exploit suggestions on configuration choices, and that detailed, easy-to-understand security explanations are more persuasive than simple security warnings, when it comes to make decisions on the applicability of rules which might cause privacy and security risks.

In this paper, we report on three experiments we have carried out in the context of the EMPATHY project, with the aim of helping users make better configuration choices in a smart home environment, and discuss our results. We found that there are psychological traits, such as Need for Cognition, which influence the way individuals tend to use recommendations, that there are non obvious relationships between the perceived usefulness of recommendations in different domains and individuals' ability to exploit suggestions on configuration choices, and that detailed, easy-to-understand security explanations are more persuasive than simple security warnings, when it comes to make decisions on the applicability of rules which might cause privacy and security risks.
翻訳日:2023-06-12 14:08:24 公開日:2023-06-09
# 量的回帰による反事実推論の進展

Advancing Counterfactual Inference through Quantile Regression ( http://arxiv.org/abs/2306.05751v1 )

ライセンス: Link先を確認
Shaoan Xie, Biwei Huang, Bin Gu, Tongliang Liu, Kun Zhang(参考訳) 因果的影響を理解し、利用するためには、反事実的な「what if」問合せに対処する能力が不可欠である。 従来の反事実推論は通常、構造因果モデルが利用可能であると仮定する。 しかし、実際にはそのような因果モデルはしばしば未知であり、識別できない可能性がある。 本稿では,与えられた因果モデルや条件分布を直接推定することなしに,定性的因果構造と観測データに基づく信頼性の高い反事実推論を行うことを目的とする。 ニューラルネットワークを用いて、反実的推論を拡張量子回帰問題として再検討する。 この手法は既存の手法よりも統計的に効率的であり、推定された反事実結果の一般化能力を未確認のデータに展開し、一般化誤差の上限を与えることができる。 複数のデータセットの実験結果は、我々の理論的な主張を強く支持する。

The capacity to address counterfactual "what if" inquiries is crucial for understanding and making use of causal influences. Traditional counterfactual inference usually assumes a structural causal model is available. However, in practice, such a causal model is often unknown and may not be identifiable. This paper aims to perform reliable counterfactual inference based on the (learned) qualitative causal structure and observational data, without a given causal model or even directly estimating conditional distributions. We re-cast counterfactual reasoning as an extended quantile regression problem using neural networks. The approach is statistically more efficient than existing ones, and further makes it possible to develop the generalization ability of the estimated counterfactual outcome to unseen data and provide an upper bound on the generalization error. Experiment results on multiple datasets strongly support our theoretical claims.
翻訳日:2023-06-12 14:08:14 公開日:2023-06-09
# DocAligner:簡単に写真を撮って実世界の写真ドキュメント画像に注釈をつける

DocAligner: Annotating Real-world Photographic Document Images by Simply Taking Pictures ( http://arxiv.org/abs/2306.05749v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Bangdong Chen, Hiuyi Cheng, Lianwen Jin, Fengjun Guo, Kai Ding(参考訳) 近年,写真シナリオにおける文書画像解析と認識に関する研究への関心が高まっている。 しかし、この新たな課題に対するラベル付きデータセットの欠如は、手動のアノテーションが時間がかかり実用的でないため、大きな障害となる。 そこで本稿では,手作業によるアノテーション処理を簡易な撮影手順に合理化する新しい手法であるdocalignerを提案する。 DocAlignerは、写真用文書画像とそのクリーンなものとの密接な対応を確立することで、これを実現する。 クリーンな文書画像から写真への既存のアノテーションの自動転送を可能にし、手動ラベリングによって利用できないラベルを自動的に取得するのに役立つ。 ドキュメントイメージの特徴を考えると、DocAlignerはいくつかの革新的な特徴を取り入れている。 まず,文書のエッジに基づく非厳密な事前アライメント手法を提案し,文書画像に現れる大きなグローバルシフトや反復パターンによる干渉を効果的に除去する。 第2に,大きなシフトを処理し,高い精度を確保するために,グローバル層とローカル層を組み合わせた階層的アライメント手法を導入する。 さらに,文書画像における細粒度要素の重要性を考慮し,高解像度空間における出力を高めるための細部再帰改善モジュールを提案する。 DocAlignerを訓練するために、合成データセットを構築し、実世界のデータに対する堅牢性を高めるための自己教師付き学習アプローチを導入する。 大規模な実験を通じて、DocAlignerと取得したデータセットの有効性を示す。 データセットとコードは公開されます。

Recently, there has been a growing interest in research concerning document image analysis and recognition in photographic scenarios. However, the lack of labeled datasets for this emerging challenge poses a significant obstacle, as manual annotation can be time-consuming and impractical. To tackle this issue, we present DocAligner, a novel method that streamlines the manual annotation process to a simple step of taking pictures. DocAligner achieves this by establishing dense correspondence between photographic document images and their clean counterparts. It enables the automatic transfer of existing annotations in clean document images to photographic ones and helps to automatically acquire labels that are unavailable through manual labeling. Considering the distinctive characteristics of document images, DocAligner incorporates several innovative features. First, we propose a non-rigid pre-alignment technique based on the document's edges, which effectively eliminates interference caused by significant global shifts and repetitive patterns present in document images. Second, to handle large shifts and ensure high accuracy, we introduce a hierarchical aligning approach that combines global and local correlation layers. Furthermore, considering the importance of fine-grained elements in document images, we present a details recurrent refinement module to enhance the output in a high-resolution space. To train DocAligner, we construct a synthetic dataset and introduce a self-supervised learning approach to enhance its robustness for real-world data. Through extensive experiments, we demonstrate the effectiveness of DocAligner and the acquired dataset. Datasets and codes will be publicly available.
翻訳日:2023-06-12 14:08:02 公開日:2023-06-09
# 制約プログラミングに基づくジョブショップスケジューリング問題に対するエンドツーエンド強化学習手法

An End-to-End Reinforcement Learning Approach for Job-Shop Scheduling Problems Based on Constraint Programming ( http://arxiv.org/abs/2306.05747v1 )

ライセンス: Link先を確認
Pierre Tassel, Martin Gebser, Konstantin Schekotihin(参考訳) 制約プログラミング(CP)は、ジョブショップスケジューリング問題(JSSP)のような組合せ最適化問題のモデル化と解決を可能にする宣言型プログラミングパラダイムである。 cpソルバは、小さなインスタンスに対して最適あるいはほぼ最適のソリューションを見つけることはできるが、大きなインスタンス、すなわち、長い計算時間や低品質のソリューションにはスケールしない。 したがって、実世界のスケジューリングアプリケーションは、しばしば、高速で手作りの優先度に基づくディスパッチヒューリスティックを用いて、優れた初期解を見つけ、最適化手法を用いてそれを洗練する。 本稿では,CPと強化学習(Reinforcement Learning, RL)を用いてスケジューリング問題を解決する手法を提案する。 手続き的シミュレーションアルゴリズム、複雑な特徴工学、手作りの報酬関数を含む従来のRL法とは対照的に、我々のニューラルネットワークアーキテクチャとトレーニングアルゴリズムは、いくつかのスケジューリング問題の一般的なCPエンコーディングと、一連の小さなインスタンスを必要とするだけである。 提案手法では,既存のcpソルバを利用して,個別のデータセットからであっても,大規模インスタンスによく一般化する優先度ディスパッチルール(pdr)を学習するエージェントを訓練する。 本手法を文献から7つのjsspデータセット上で評価し,静的なpdrとcpソルバによって得られるものよりも,非常に大きなインスタンスに対して高品質な解を見つける能力を示した。

Constraint Programming (CP) is a declarative programming paradigm that allows for modeling and solving combinatorial optimization problems, such as the Job-Shop Scheduling Problem (JSSP). While CP solvers manage to find optimal or near-optimal solutions for small instances, they do not scale well to large ones, i.e., they require long computation times or yield low-quality solutions. Therefore, real-world scheduling applications often resort to fast, handcrafted, priority-based dispatching heuristics to find a good initial solution and then refine it using optimization methods. This paper proposes a novel end-to-end approach to solving scheduling problems by means of CP and Reinforcement Learning (RL). In contrast to previous RL methods, tailored for a given problem by including procedural simulation algorithms, complex feature engineering, or handcrafted reward functions, our neural-network architecture and training algorithm merely require a generic CP encoding of some scheduling problem along with a set of small instances. Our approach leverages existing CP solvers to train an agent learning a Priority Dispatching Rule (PDR) that generalizes well to large instances, even from separate datasets. We evaluate our method on seven JSSP datasets from the literature, showing its ability to find higher-quality solutions for very large instances than obtained by static PDRs and by a CP solver within the same time limit.
翻訳日:2023-06-12 14:07:38 公開日:2023-06-09
# 2つの独立した教師はより良い役割モデルです

Two Independent Teachers are Better Role Model ( http://arxiv.org/abs/2306.05745v1 )

ライセンス: Link先を確認
Afifa Khaled, Ahmed A. Mubarak, Kun He(参考訳) 近年の深層学習モデルは、幼児の脳分析において大きな注目を集めている。 これらのモデルは、半教師技術(例:テンポラルセンスリング、平均教師)など、最先端のパフォーマンスを発揮している。 しかし、これらのモデルは、長い範囲の情報を集めるために局所演算子を積み重ねたエンコーダデコーダ構造に依存し、局所演算子が効率と有効性を制限する。 さらに、$MRI$データは、$T1$や$T2$のような異なる組織特性(TPs$)を含んでいる。 これらのモデルの1つの大きな制限は、セグメンテーションプロセスへの入力として両方のデータ、すなわち、モデルはデータセット上で一度トレーニングされ、推論中に多くの計算とメモリを必要とすることである。 本研究では,3d-denseunetと呼ばれる新しいディープラーニングモデルを設計し,ダウンサンプリング時のグローバルアグリゲーションブロックとして機能し,空間的情報損失の問題を解決することで,上記の制約に対処する。 セルフアテンションモジュールは、ダウンサンプリングブロックとアップサンプリングブロックを接続し、特徴マップを空間とチャネルの3次元に統合し、モデルの表現電位と識別能力を効果的に改善する。 さらに,ラベルの予測ではなくモデル重み付けを要約する「独立教師2名」($2it$)という新しい手法を提案する。 各教師モデルは、それぞれ異なるタイプの脳データ、$T1$と$T2$でトレーニングされる。 次に、テスト精度を向上させるためにfuseモデルを追加し、ネットワークアーキテクチャを変更することなく、テンポラルセンスリング法と比較してパラメータやラベルの少ないトレーニングを可能にする。 その結果,提案手法の有効性が示された。

Recent deep learning models have attracted substantial attention in infant brain analysis. These models have performed state-of-the-art performance, such as semi-supervised techniques (e.g., Temporal Ensembling, mean teacher). However, these models depend on an encoder-decoder structure with stacked local operators to gather long-range information, and the local operators limit the efficiency and effectiveness. Besides, the $MRI$ data contain different tissue properties ($TPs$) such as $T1$ and $T2$. One major limitation of these models is that they use both data as inputs to the segment process, i.e., the models are trained on the dataset once, and it requires much computational and memory requirements during inference. In this work, we address the above limitations by designing a new deep-learning model, called 3D-DenseUNet, which works as adaptable global aggregation blocks in down-sampling to solve the issue of spatial information loss. The self-attention module connects the down-sampling blocks to up-sampling blocks, and integrates the feature maps in three dimensions of spatial and channel, effectively improving the representation potential and discriminating ability of the model. Additionally, we propose a new method called Two Independent Teachers ($2IT$), that summarizes the model weights instead of label predictions. Each teacher model is trained on different types of brain data, $T1$ and $T2$, respectively. Then, a fuse model is added to improve test accuracy and enable training with fewer parameters and labels compared to the Temporal Ensembling method without modifying the network architecture. Empirical results demonstrate the effectiveness of the proposed method.
翻訳日:2023-06-12 14:07:14 公開日:2023-06-09
# 量子ポラリトンシミュレータ

Quantum Polariton Simulators ( http://arxiv.org/abs/2306.05743v1 )

ライセンス: Link先を確認
Wouter Verstraelen, Piotr Deuar, Micha{\l} Matuszewski, Timothy C.H. Liew(参考訳) スピングラスグラフはエキシトン偏光子を用いた新しいスキームでシミュレートされる。 有効なモンテカルロ解法として作用し、基底状態は効率的に見つかる。 パラメータをチューニングすることで、システムはXYまたはIsingの問題を解決する。 従来の提案とは異なり、補助的なマイクロピラーによるセットアップは、増幅異質性からのバイアスを自然に避ける。 シミュレータは任意の大きなグラフに対して漸近的に基底状態を見つけることができる。 これらの結果は、ポーラリトンシミュレータが実際にどのように役立つかを明確に示している。 さらに、量子スピードアップを利用したシステムの能力に関する強力な証拠を提供する。

Spin-glass graphs are simulated with a novel scheme using exciton-polaritons. Acting as an effective Monte Carlo solver, the ground state is found efficiently. By tuning a parameter, the system either solves XY or Ising problems. Unlike previous proposals, our setup with auxiliary micropillars naturally avoids any bias from amplitute heterogenity. We demonstrate that the simulator is able to find the ground state asymptotically for arbitrary large graphs. These findings show explicitly how polariton simulators could be useful in practice. We furthermore provide strong evidence for the system's ability to harness a quantum speedup.
翻訳日:2023-06-12 14:06:46 公開日:2023-06-09
# スマートスピーカー設計への挑戦と機会

Challenges and Opportunities for the Design of Smart Speakers ( http://arxiv.org/abs/2306.05741v1 )

ライセンス: Link先を確認
Tao Long, Lydia B. Chilton(参考訳) Alexa、Siri、Google Homeといった音声技術と音声ユーザーインターフェース(VUI)の進歩は、多くの新しいタイプのインタラクションの可能性を広げている。 しかし、これらのデバイスが市場やVUI研究の本体に反映される可能性にもかかわらず、この技術はいまだに過小評価されている。 本稿では,35の論文を体系的にレビューし,127のvui設計ガイドラインを5つのテーマに分類した。 さらに,この技術の利用状況と利用方法を理解するため,スマートスピーカー利用者15人と半構造化インタビューを行った。 インタビューでは,非利用に最も貢献する4つの設計課題を抽出した。 彼らの(非)使用状況に基づいて、マルチタスク(料理、運転、育児など)中の情報サポートにフォーカスすること、スマートスピーカーにユーザのメンタルモデルを統合すること、落ち着いた設計原則を統合することなど、デザイナーが探求する4つの機会空間を特定します。

Advances in voice technology and voice user interfaces (VUIs) -- such as Alexa, Siri, and Google Home -- have opened up the potential for many new types of interaction. However, despite the potential of these devices reflected by the growing market and body of VUI research, there is a lingering sense that the technology is still underused. In this paper, we conducted a systematic literature review of 35 papers to identify and synthesize 127 VUI design guidelines into five themes. Additionally, we conducted semi-structured interviews with 15 smart speaker users to understand their use and non-use of the technology. From the interviews, we distill four design challenges that contribute the most to non-use. Based on their (non-)use, we identify four opportunity spaces for designers to explore such as focusing on information support while multitasking (cooking, driving, childcare, etc), incorporating users' mental models for smart speakers, and integrating calm design principles.
翻訳日:2023-06-12 14:06:40 公開日:2023-06-09
# 定量的インク分析:ハイパースペクトルイメージングによる文書中のインク数の推定

Quantitative Ink Analysis: Estimating the Number of Inks in Documents through Hyperspectral Imaging ( http://arxiv.org/abs/2306.05784v1 )

ライセンス: Link先を確認
Aneeqa Abrar, Hamza Iqbal(参考訳) 文書鑑識の分野では、インク分析は法的・歴史的文書の真正性の決定と偽造の検出において重要な役割を担っている。 視覚検査だけでは、視覚的に類似したインクを区別するには不十分であり、高度な科学的技術を使用する必要がある。 本稿では,数百個の狭帯域のスペクトル帯域における文書の検査を可能にするハイパースペクトル画像に基づくインク解析手法を提案する。 この研究の主な目的は、文書で使われる異なるインクの数を識別することである。 k-means,agglomerative,c-meansの3つのクラスタリングアルゴリズムを用いて,ink数を推定する。 この手法は、データ抽出、インク画素分割、およびインク番号決定を含む。 提案手法は,インククラスターの同定と異なるインクの識別に有効であることを示す。 超スペクトル立方体データセットの解析により、異なる帯域にまたがるスペクトル反射のばらつきと12行間の異なるスペクトル応答が明らかとなり、複数のインクの存在が示されている。 クラスタリングアルゴリズムはインククラスタの識別に成功し、k平均クラスタリングは優れた分類性能を示した。 これらの知見は,高スペクトル画像を用いたインク分析の信頼性向上に寄与する。

In the field of document forensics, ink analysis plays a crucial role in determining the authenticity of legal and historic documents and detecting forgery. Visual examination alone is insufficient for distinguishing visually similar inks, necessitating the use of advanced scientific techniques. This paper proposes an ink analysis technique based on hyperspectral imaging, which enables the examination of documents in hundreds of narrowly spaced spectral bands, revealing hidden details. The main objective of this study is to identify the number of distinct inks used in a document. Three clustering algorithms, namely k-means, Agglomerative, and c-means, are employed to estimate the number of inks present. The methodology involves data extraction, ink pixel segmentation, and ink number determination. The results demonstrate the effectiveness of the proposed technique in identifying ink clusters and distinguishing between different inks. The analysis of a hyperspectral cube dataset reveals variations in spectral reflectance across different bands and distinct spectral responses among the 12 lines, indicating the presence of multiple inks. The clustering algorithms successfully identify ink clusters, with k-means clustering showing superior classification performance. These findings contribute to the development of reliable methodologies for ink analysis using hyperspectral imaging, enhancing the
翻訳日:2023-06-12 14:01:07 公開日:2023-06-09
# Xiezhi: ソリスティックなドメイン知識評価のためのベンチマーク

Xiezhi: An Ever-Updating Benchmark for Holistic Domain Knowledge Evaluation ( http://arxiv.org/abs/2306.05783v1 )

ライセンス: Link先を確認
Zhouhong Gu, Xiaoxuan Zhu, Haoning Ye, Lin Zhang, Jianchen Wang, Sihang Jiang, Zhuozhi Xiong, Zihan Li, Qianyu He, Rui Xu, Wenhao Huang, Weiguo Zheng, Hongwei Feng, Yanghua Xiao(参考訳) 新しいNLP(Natural Langauge Process)ベンチマークは、大規模言語モデル(LLM)の急速な開発に合わせて緊急に必要である。 我々は、総合的なドメイン知識を評価するために設計された最も包括的な評価スイートであるXiezhiを紹介する。 Xiezhiは、13の異なる主題から220,000の質問、Xiezhi-SpecialtyとXiezhi-Interdisciplineを伴い、15kの質問を含む516の多様な分野にわたる複数の選択の質問を含んでいる。 我々は, Xiezhi 上で47個の切刃 LLM の評価を行った。 その結果, LLMは, 科学, 工学, 農学, 医学, 芸術において, 人間の平均的業績を上回るが, 経済学, 法学, 教育学, 文学, 歴史, 管理に乏しいことが示唆された。 我々は、XiezhiがLLMの重要な長所と短所を分析するのに役立ち、ベンチマークはhttps://github.com/MikeGu721/XiezhiBenchmarkでリリースされます。

New Natural Langauge Process~(NLP) benchmarks are urgently needed to align with the rapid development of large language models (LLMs). We present Xiezhi, the most comprehensive evaluation suite designed to assess holistic domain knowledge. Xiezhi comprises multiple-choice questions across 516 diverse disciplines ranging from 13 different subjects with 220,000 questions and accompanied by Xiezhi-Specialty and Xiezhi-Interdiscipline, both with 15k questions. We conduct evaluation of the 47 cutting-edge LLMs on Xiezhi. Results indicate that LLMs exceed average performance of humans in science, engineering, agronomy, medicine, and art, but fall short in economics, jurisprudence, pedagogy, literature, history, and management. We anticipate Xiezhi will help analyze important strengths and shortcomings of LLMs, and the benchmark is released in https://github.com/MikeGu721/XiezhiBenchmark .
翻訳日:2023-06-12 14:00:47 公開日:2023-06-09
# 因果グラフ発見のための適応複雑性

Adaptivity Complexity for Causal Graph Discovery ( http://arxiv.org/abs/2306.05781v1 )

ライセンス: Link先を確認
Davin Choo, Kirankumar Shiragur(参考訳) 介入データからの因果発見は重要な問題であり、そのタスクは、実行された介入の数を最小化しながら、隠れた基底真理因果グラフである$g(v,e)$ on $|v| = n$ノードを学ぶ介入戦略を設計することである。 従来の介入戦略は、非適応と適応の2つのカテゴリに大別される。 非適応戦略は単一の固定された介入セットを決定し、適応戦略は過去の介入に基づいてどのノードに順次介入するかを決定することができる。 適応アルゴリズムは、非適応アルゴリズムよりも指数関数的に少ない介入を用いるが、許容される適応性量を制限する実用的な懸念がある。 このトレードオフによって、アルゴリズム設計者が介入の総数を最小限に抑えながら、合計$r$シーケンシャルラウンドで因果グラフを復元する、$r$-adaptivityの問題を研究する。 この問題に対して、r$適応アルゴリズムを提供し、適応アルゴリズムの有名な下限である検証数に対して、$o(\min\{r,\log n\} \cdot n^{1/\min\{r,\log n\}})$近似を達成する。 さらに、$r$ ごとに、近似値がタイトであることが分かる。 r$-adaptivityの定義は、非適応的(r=1$)と完全適応(r=n$)の設定とをうまく補間し、近似値がそれぞれ$o(n)$ と $o(\log n)$ に簡単になるようにします。 また,この結果は境界サイズの介入にも自然に拡がる。

Causal discovery from interventional data is an important problem, where the task is to design an interventional strategy that learns the hidden ground truth causal graph $G(V,E)$ on $|V| = n$ nodes while minimizing the number of performed interventions. Most prior interventional strategies broadly fall into two categories: non-adaptive and adaptive. Non-adaptive strategies decide on a single fixed set of interventions to be performed while adaptive strategies can decide on which nodes to intervene on sequentially based on past interventions. While adaptive algorithms may use exponentially fewer interventions than their non-adaptive counterparts, there are practical concerns that constrain the amount of adaptivity allowed. Motivated by this trade-off, we study the problem of $r$-adaptivity, where the algorithm designer recovers the causal graph under a total of $r$ sequential rounds whilst trying to minimize the total number of interventions. For this problem, we provide a $r$-adaptive algorithm that achieves $O(\min\{r,\log n\} \cdot n^{1/\min\{r,\log n\}})$ approximation with respect to the verification number, a well-known lower bound for adaptive algorithms. Furthermore, for every $r$, we show that our approximation is tight. Our definition of $r$-adaptivity interpolates nicely between the non-adaptive ($r=1$) and fully adaptive ($r=n$) settings where our approximation simplifies to $O(n)$ and $O(\log n)$ respectively, matching the best-known approximation guarantees for both extremes. Our results also extend naturally to the bounded size interventions.
翻訳日:2023-06-12 14:00:26 公開日:2023-06-09
# トランスフォーマーを用いた慢性腎臓病の経時的予測

Transformer-based Time-to-Event Prediction for Chronic Kidney Disease Deterioration ( http://arxiv.org/abs/2306.05779v1 )

ライセンス: Link先を確認
Moshe Zisser and Dvir Aran(参考訳) 深層学習技術、特にトランスフォーマーモデルは、縦断的健康記録の予測性能を高める大きな可能性を示している。 従来の手法は主に固定時間リスク予測に焦点を合わせてきたが、生存分析(time-to-event prediction)は臨床シナリオに適していることが多い。 本稿では、電子健康記録のための一般化可能な生存分析変換器アーキテクチャであるSTRAFEという新しいディープラーニングアーキテクチャを提案する。 ステージ3慢性腎臓病(ckd)患者13万人以上の実世界クレームデータセットを用いて評価を行い,ステージ5までの劣化時期の予測において,他の時間-事象予測アルゴリズムを上回った。 さらに、STRAFEは、おそらく検閲されたデータでトレーニングできるため、固定時間リスクを予測するためにバイナリ結果アルゴリズムよりも優れていることが判明した。 STRAFE予測は高リスク患者の3倍の正の予測値を3倍に改善し,介入プログラムのターゲティングの改善に有効であることを示す。 最後に,患者毎の予測に対する新しい可視化手法を提案する。 結論として、STRAFEは、大規模クレームデータセットにおけるリスク予測を強化する可能性を持つ最先端の時間対イベント予測アルゴリズムである。

Deep-learning techniques, particularly the transformer model, have shown great potential in enhancing the prediction performance of longitudinal health records. While previous methods have mainly focused on fixed-time risk prediction, time-to-event prediction (also known as survival analysis) is often more appropriate for clinical scenarios. Here, we present a novel deep-learning architecture we named STRAFE, a generalizable survival analysis transformer-based architecture for electronic health records. The performance of STRAFE was evaluated using a real-world claim dataset of over 130,000 individuals with stage 3 chronic kidney disease (CKD) and was found to outperform other time-to-event prediction algorithms in predicting the exact time of deterioration to stage 5. Additionally, STRAFE was found to outperform binary outcome algorithms in predicting fixed-time risk, possibly due to its ability to train on censored data. We show that STRAFE predictions can improve the positive predictive value of high-risk patients by 3-fold, demonstrating possible usage to improve targeting for intervention programs. Finally, we suggest a novel visualization approach to predictions on a per-patient basis. In conclusion, STRAFE is a cutting-edge time-to-event prediction algorithm that has the potential to enhance risk predictions in large claims datasets.
翻訳日:2023-06-12 13:59:53 公開日:2023-06-09
# 変分量子アルゴリズムのための重み付け再マッピング

Weight Re-Mapping for Variational Quantum Algorithms ( http://arxiv.org/abs/2306.05776v1 )

ライセンス: Link先を確認
Michael K\"olle, Alessandro Giovagnoli, Jonas Stein, Maximilian Balthasar Mansky, Julian Hager, Tobias Rohe, Robert M\"uller and Claudia Linnhoff-Popien(参考訳) 幅広いAIタスクにわたる人工知能ニューラルネットワークの顕著な成功に触発されたVQC(variantal quantum circuits)は、最近、量子機械学習の応用が急増している。 VQCsが示した有望な結果、例えば一般化の改善やパラメータトレーニングの削減は、量子コンピューティングの堅牢なアルゴリズム能力に起因している。 しかしながら、VQCの現在の勾配に基づくトレーニングアプローチは、トレーニング可能なパラメータ(または重み)が回転ゲートの角度として一般的に使用されるという事実を適切に満たさない。 これに対処するために、k\"olle et al. (2023) によって導入された vqcs の重量再マッピングの概念を拡張する。 このアプローチは、多くのシナリオで非常に有用であることが証明された、従来の機械学習におけるデータ再スケーリングテクニックを反映して、ウェイトを長さ2\pi$の間隔に明確にマッピングする。 本研究では,8つの分類データセットに対する影響を評価するために7つの異なる重み再構成関数を用いた。 以上の結果から,重量再マッピングによりVQCの収束速度が向上することが示唆された。 全データセットにまたがる様々な再マッピング機能の有効性を評価し,vqcの平均性能への影響を測定した。 以上の結果から,VQCsの収束を連続的に促進するだけでなく,特定の再マッピング機能によらず,特定の症例では精度が著しく向上することが示唆された。

Inspired by the remarkable success of artificial neural networks across a broad spectrum of AI tasks, variational quantum circuits (VQCs) have recently seen an upsurge in quantum machine learning applications. The promising outcomes shown by VQCs, such as improved generalization and reduced parameter training requirements, are attributed to the robust algorithmic capabilities of quantum computing. However, the current gradient-based training approaches for VQCs do not adequately accommodate the fact that trainable parameters (or weights) are typically used as angles in rotational gates. To address this, we extend the concept of weight re-mapping for VQCs, as introduced by K\"olle et al. (2023). This approach unambiguously maps the weights to an interval of length $2\pi$, mirroring data rescaling techniques in conventional machine learning that have proven to be highly beneficial in numerous scenarios. In our study, we employ seven distinct weight re-mapping functions to assess their impact on eight classification datasets, using variational classifiers as a representative example. Our results indicate that weight re-mapping can enhance the convergence speed of the VQC. We assess the efficacy of various re-mapping functions across all datasets and measure their influence on the VQC's average performance. Our findings indicate that weight re-mapping not only consistently accelerates the convergence of VQCs, regardless of the specific re-mapping function employed, but also significantly increases accuracy in certain cases.
翻訳日:2023-06-12 13:59:31 公開日:2023-06-09
# 重み凍結:脳波分類における応用による完全連結層に対する正則化アプローチ

Weight Freezing: A Regularization Approach for Fully Connected Layers with an Application in EEG Classification ( http://arxiv.org/abs/2306.05775v1 )

ライセンス: Link先を確認
Zhengqing Miao and Meirong Zhao(参考訳) 脳波デコーディングの分野では、人工知能ニューラルネットワーク(ANN)の性能向上が大きな可能性を秘めている。 この研究は、ANN正則化と神経科学の事前知識の原理に根ざした「軽量凍結」と呼ばれる新しいアプローチを導入する。 重み凍結の概念は、バックプロパゲーションの過程において、全連結層内の特定の重みを凍結することにより、特定の脳波タスクの意思決定プロセスに対するニューロンの影響を減少させるという考えに基づいている。 これはマスクマトリクスと閾値を使用して、バックプロパゲーション中に凍結すべき重量の比率を決定することで実現される。 さらに,マスク付き重みをゼロにすることで,全連結層を分類器とするネットワークにおける疎結合を実現するだけでなく,全連結層の効率的な正規化手法としても機能する。 3つの異なるANNアーキテクチャと3つの広く認識されているEEGデータセットを含む実験を通して、重量凍結の有効性を検証する。 本手法は,全データセットの分類精度において,過去のピーク性能を大幅に上回っている。 補足的制御実験は, 重量凍結前後の性能差に関する知見を提供し, 重量凍結過程における閾値の影響を検証した。 本研究は,脳波特徴分類タスクにおける従来の完全連結ネットワークと比較して,重み凍結の優れた効果を強調する。 その効果が証明されたことにより、この革新的なアプローチは、脳波デコード研究における将来の進歩に寄与する大きな可能性を秘めている。

In the realm of EEG decoding, enhancing the performance of artificial neural networks (ANNs) carries significant potential. This study introduces a novel approach, termed "weight freezing", that is anchored on the principles of ANN regularization and neuroscience prior knowledge. The concept of weight freezing revolves around the idea of reducing certain neurons' influence on the decision-making process for a specific EEG task by freezing specific weights in the fully connected layer during the backpropagation process. This is actualized through the use of a mask matrix and a threshold to determine the proportion of weights to be frozen during backpropagation. Moreover, by setting the masked weights to zero, weight freezing can not only realize sparse connections in networks with a fully connected layer as the classifier but also function as an efficacious regularization method for fully connected layers. Through experiments involving three distinct ANN architectures and three widely recognized EEG datasets, we validate the potency of weight freezing. Our method significantly surpasses previous peak performances in classification accuracy across all examined datasets. Supplementary control experiments offer insights into performance differences pre and post weight freezing implementation and scrutinize the influence of the threshold in the weight freezing process. Our study underscores the superior efficacy of weight freezing compared to traditional fully connected networks for EEG feature classification tasks. With its proven effectiveness, this innovative approach holds substantial promise for contributing to future strides in EEG decoding research.
翻訳日:2023-06-12 13:59:06 公開日:2023-06-09
# ビデオにおけるボールアクションスポッティングの強化モデル:CVPR'23サッカーネットチャレンジにおけるランナーアップソリューション

A Boosted Model Ensembling Approach to Ball Action Spotting in Videos: The Runner-Up Solution to CVPR'23 SoccerNet Challenge ( http://arxiv.org/abs/2306.05772v1 )

ライセンス: Link先を確認
Luping Wang, Hao Guo, Bin Liu(参考訳) 本技術報告では,ビデオにおけるボールアクションスポッティングの解決策について述べる。 CVPR'23 SoccerNet Challengeで2位となった。 この課題の詳細はhttps://www.soccer-net.org/tasks/ball-action-spottingにある。 提案手法は,コンペティションの主催者によるE2E-Spotと呼ばれるベースラインモデルに基づいて開発されている。 E2E-Spotモデルのいくつかの変種を最初に生成し、候補モデルセットを得た。 次に,この集合から適切なモデルメンバを選択し,各モデルに適切な重みを割り当てる戦略を提案する。 この戦略の目的は、結果のモデルアンサンブルのパフォーマンスを高めることである。 したがって、我々のアプローチをBoosted Model Ensembling (BME)と呼ぶ。 私たちのコードはhttps://github.com/ZJLAB-AMMI/E2E-Spot-MBSで公開されています。

This technical report presents our solution to Ball Action Spotting in videos. Our method reached second place in the CVPR'23 SoccerNet Challenge. Details of this challenge can be found at https://www.soccer-net.org/tasks/ball-action-spotting. Our approach is developed based on a baseline model termed E2E-Spot, which was provided by the organizer of this competition. We first generated several variants of the E2E-Spot model, resulting in a candidate model set. We then proposed a strategy for selecting appropriate model members from this set and assigning an appropriate weight to each model. The aim of this strategy is to boost the performance of the resulting model ensemble. Therefore, we call our approach Boosted Model Ensembling (BME). Our code is available at https://github.com/ZJLAB-AMMI/E2E-Spot-MBS.
翻訳日:2023-06-12 13:58:39 公開日:2023-06-09
# カリキュラム学習への正規化アプローチとしての自己ペース絶対学習の進歩

Self-Paced Absolute Learning Progress as a Regularized Approach to Curriculum Learning ( http://arxiv.org/abs/2306.05769v1 )

ライセンス: Link先を確認
Tobias Niehues, Ulla Scheler, Pascal Klink(参考訳) 強化学習のユーザビリティは、必要な膨大な計算時間によって制限される。 カリキュラム強化学習は、エージェントがタスク、すなわち単純から困難に遭遇する有用な順序を定義することで学習をスピードアップする。 絶対学習プログレス(ALP)に基づくカリキュラムは、異なる環境で成功したが、新しいタスクで既に学習された振る舞いを繰り返すことによるムダ計算は成功している。 本研究では,SPALP(Self-Paced Absolute Learning Progress)と呼ばれる,自己更新学習に基づく新たな正規化手法を導入することで,この問題を解決する。 提案手法を3つの異なる環境で評価する。 提案手法は,全ての場合においてオリジナルALPに匹敵する性能を達成し,その2つの場合においてALPよりも高速に到達する。 SPALPの効率と性能をさらに向上させる可能性を示す。

The usability of Reinforcement Learning is restricted by the large computation times it requires. Curriculum Reinforcement Learning speeds up learning by defining a helpful order in which an agent encounters tasks, i.e. from simple to hard. Curricula based on Absolute Learning Progress (ALP) have proven successful in different environments, but waste computation on repeating already learned behaviour in new tasks. We solve this problem by introducing a new regularization method based on Self-Paced (Deep) Learning, called Self-Paced Absolute Learning Progress (SPALP). We evaluate our method in three different environments. Our method achieves performance comparable to original ALP in all cases, and reaches it quicker than ALP in two of them. We illustrate possibilities to further improve the efficiency and performance of SPALP.
翻訳日:2023-06-12 13:58:24 公開日:2023-06-09
# バッテリー駆動の電気自動車ユーザーの距離不安:距離と待ち時間の両方

Range Anxiety Among Battery Electric Vehicle Users: Both Distance and Waiting Time Matter ( http://arxiv.org/abs/2306.05768v1 )

ライセンス: Link先を確認
Jiyao Wang, Chunxi Huang, Dengbo He, Ran Tu(参考訳) 距離不安は、バッテリ電気自動車(BEV)ユーザーや潜在的なユーザーにとって大きな関心事である。 前回の研究では、距離関連範囲不安の影響要因を調査した。 しかし、時間に関する不安が探求されることはほとんどない。 BEVの充電や充電待ちの時間費用は、BEVユーザーの経験に悪影響を及ぼす可能性がある。 予備実験として,バッテリレベルと時間コストの両方が懸念されるシナリオにおいて,bevユーザの課金判断を観察することで,時間に関わる不安について検討した。 中国本土のBEV利用者217名から回答を収集,分析した。 その結果、時間に関わる不安が存在し、ユーザーの課金決定に影響を及ぼすことが判明した。 さらに、ユーザの課金決定は、距離関連と時間関連不安のトレードオフの結果であり、いくつかの外部要因(例えば、地域や個人差)によって緩和される可能性がある。 この結果は、充電ステーション分布の最適化とEV充電推奨アルゴリズムを支援することができる。

Range anxiety is a major concern of battery electric vehicles (BEVs) users or potential users. Previous work has explored the influential factors of distance-related range anxiety. However, time-related range anxiety has rarely been explored. The time cost when charging or waiting to charge the BEVs can negatively impact BEV users' experience. As a preliminary attempt, this survey study investigated time-related anxiety by observing BEV users' charging decisions in scenarios when both battery level and time cost are of concern. We collected and analyzed responses from 217 BEV users in mainland China. The results revealed that time-related anxiety exists and could affect users' charging decisions. Further, users' charging decisions can be a result of the trade-off between distance-related and time-related anxiety, and can be moderated by several external factors (e.g., regions and individual differences). The findings can support the optimization of charge station distribution and EV charge recommendation algorithms.
翻訳日:2023-06-12 13:58:11 公開日:2023-06-09
# 公正かつ漸近的に平等な協調学習

Fair yet Asymptotically Equal Collaborative Learning ( http://arxiv.org/abs/2306.05764v1 )

ライセンス: Link先を確認
Xiaoqiang Lin, Xinyi Xu, See-Kiong Ng, Chuan-Sheng Foo, Bryan Kian Hsiang Low(参考訳) ストリーミングデータとの協調学習において、ノード(例えば組織)は最新のストリーミングデータから計算された最新のモデル更新を共有することで、共同で機械学習(ML)モデルを継続的に学習する。 よりリソースの豊富なノードがモデルのアップデートを積極的に共有するためには、かなりインセンティブが必要です。 本稿では,ノードに報酬が与えられるように公平性を保証するインセンティブ設計を提案する。 我々のアプローチは、理論的に保証された公平なインセンティブ(すなわち搾取)を実現するために、ノードの貢献(すなわち探索)を見積もるためにexplore-then-exploit形式を利用する。 しかし、公平性を保証する既存のアプローチから生じる「リッチ・ゲット・リッチ」現象を観察し、よりリソースの少ないノードの参加を妨げている。 これに対処するため、我々はさらに漸近的等式、すなわち、リソースの少ないノードは、最終的によりリソースの豊富なノードに対して同等のパフォーマンスを達成する。 フェデレーションオンラインインクリメンタル学習(federated online incremental learning)とフェデレーション強化学習(federated reinforcement learning)という,実世界のストリーミングデータを用いた2つの設定で実証を行った。

In collaborative learning with streaming data, nodes (e.g., organizations) jointly and continuously learn a machine learning (ML) model by sharing the latest model updates computed from their latest streaming data. For the more resourceful nodes to be willing to share their model updates, they need to be fairly incentivized. This paper explores an incentive design that guarantees fairness so that nodes receive rewards commensurate to their contributions. Our approach leverages an explore-then-exploit formulation to estimate the nodes' contributions (i.e., exploration) for realizing our theoretically guaranteed fair incentives (i.e., exploitation). However, we observe a "rich get richer" phenomenon arising from the existing approaches to guarantee fairness and it discourages the participation of the less resourceful nodes. To remedy this, we additionally preserve asymptotic equality, i.e., less resourceful nodes achieve equal performance eventually to the more resourceful/"rich" nodes. We empirically demonstrate in two settings with real-world streaming data: federated online incremental learning and federated reinforcement learning, that our proposed approach outperforms existing baselines in fairness and learning performance while remaining competitive in preserving equality.
翻訳日:2023-06-12 13:57:56 公開日:2023-06-09
# shapley値を用いた強化学習の説明

Explaining Reinforcement Learning with Shapley Values ( http://arxiv.org/abs/2306.05810v1 )

ライセンス: Link先を確認
Daniel Beechey, Thomas M. S. Smith, \"Ozg\"ur \c{S}im\c{s}ek(参考訳) 強化学習システムが広く採用されるためには,ユーザが理解し,信頼する必要がある。 本稿では,協調ゲームの結果に対する個々のプレイヤーの貢献を識別するためのゲーム理論からの原則的アプローチに従って,シェープリー値を用いた強化学習を説明する理論的分析を行う。 私たちはこの一般的なフレームワークをSVERL(Shapley Values for Explaining Reinforcement Learning)と呼んでいる。 我々の分析は、強化学習におけるシェープリー値の早期使用の限界を明らかにする。 次に、Shapley値を使ってエージェントのパフォーマンスを説明するアプローチを開発します。 様々な領域において、SVERLは人間の直感にマッチし補う意味のある説明を生成する。

For reinforcement learning systems to be widely adopted, their users must understand and trust them. We present a theoretical analysis of explaining reinforcement learning using Shapley values, following a principled approach from game theory for identifying the contribution of individual players to the outcome of a cooperative game. We call this general framework Shapley Values for Explaining Reinforcement Learning (SVERL). Our analysis exposes the limitations of earlier uses of Shapley values in reinforcement learning. We then develop an approach that uses Shapley values to explain agent performance. In a variety of domains, SVERL produces meaningful explanations that match and supplement human intuition.
翻訳日:2023-06-12 13:49:38 公開日:2023-06-09
# 説明可能な科学文献レコメンデーションシステムにおける詳細条件付き対話的説明

Interactive Explanation with Varying Level of Details in an Explainable Scientific Literature Recommender System ( http://arxiv.org/abs/2306.05809v1 )

ライセンス: Link先を確認
Mouadh Guesmi and Mohamed Amine Chatti and Shoeb Joarder and Qurat Ul Ain and Rawaa Alatrash and Clara Siepmann and Tannaz Vahidi(参考訳) 説明可能なレコメンデータシステム(RS)は従来,個々のニーズや目標を考慮せずに,ユーザ毎に同じ説明レベルの詳細を提供する,ワンサイズなアプローチを採用してきました。 さらに、RSにおける説明は、主に静的で非インタラクティブな方法で提示されている。 これらの研究ギャップを埋めるために、我々は、ユーザ中心のインタラクティブな説明モデルを導入し、様々な詳細レベルの説明を提供し、ユーザがニーズや好みに基づいて説明を対話し、制御し、パーソナライズできるようにする。 3段階のディテール(基本、中間、上級)によるインタラクティブな説明を設計するためのユーザ中心のアプローチに従って、透過的レコメンデーションおよび関心モデリングアプリケーション(rima)に実装しました。 筆者らは,対話的説明の提供がユーザによる説明可能なRSの知覚に与える影響について,定性的なユーザスタディ (N=14) を行った。 本研究は,対話を育み,どのような説明を見たいかを決める上でユーザがコントロールできることが,異なるニーズ,好み,目標を持つユーザの要求に合致し,その結果,透明性,信頼,満足度,ユーザエクスペリエンスなど,説明可能なレコメンデーションのさまざまな重要な側面に肯定的な影響を与えるという質的証拠を示した。

Explainable recommender systems (RS) have traditionally followed a one-size-fits-all approach, delivering the same explanation level of detail to each user, without considering their individual needs and goals. Further, explanations in RS have so far been presented mostly in a static and non-interactive manner. To fill these research gaps, we aim in this paper to adopt a user-centered, interactive explanation model that provides explanations with different levels of detail and empowers users to interact with, control, and personalize the explanations based on their needs and preferences. We followed a user-centered approach to design interactive explanations with three levels of detail (basic, intermediate, and advanced) and implemented them in the transparent Recommendation and Interest Modeling Application (RIMA). We conducted a qualitative user study (N=14) to investigate the impact of providing interactive explanations with varying level of details on the users' perception of the explainable RS. Our study showed qualitative evidence that fostering interaction and giving users control in deciding which explanation they would like to see can meet the demands of users with different needs, preferences, and goals, and consequently can have positive effects on different crucial aspects in explainable recommendation, including transparency, trust, satisfaction, and user experience.
翻訳日:2023-06-12 13:49:31 公開日:2023-06-09
# RankFormer: Listwide Labels を用いた Listwise Learning-to-Rank

RankFormer: Listwise Learning-to-Rank Using Listwide Labels ( http://arxiv.org/abs/2306.05808v1 )

ライセンス: Link先を確認
Maarten Buyl, Paul Missault and Pierre-Antoine Sondag(参考訳) ユーザが限定的なアイテム選択で提示されるWebアプリケーションは、最も関連性の高い結果を得るために、長い間ランキングモデルを採用してきた。 ユーザーが受け取ったフィードバックは、アイテムの有用性に関する相対的な判断を反映していると仮定される。例えば、アイテムをクリックすると、同じランクリストでクリックされていないアイテムよりも良いことを意味するだけである。 したがって、LTR(Learning-to-Rank)に最適化された目的は、ペアワイズまたはリストワイズである。 しかし、フィードバックを相対的なものと見なすことで、リストの全体的な品質に対するユーザの絶対的なフィードバックを無視する。 そこで我々は標準LTRパラダイムを再考し、このリストワイド信号から学習することの利点について議論する。 そこで本研究では,トランスフォーマーをコアとするrankformerを,新しいリストワイド評価目標と従来のlistwise ltr目標を共同で最適化するアーキテクチャとして提案する。 公開データセットに対する暗黙的なフィードバックをシミュレートし、RangeFormerがリストワイドシグナルの恩恵を受けるのを観察する。 さらに、amazon検索データ上でeコマースの実験を行い、ランクフォーマーがオフラインのすべてのベースラインよりも優れていることを見出します。 オンライン実験により、知識蒸留はランクフォーマーの即時的実用性を見出すために使用できることが示された。

Web applications where users are presented with a limited selection of items have long employed ranking models to put the most relevant results first. Any feedback received from users is typically assumed to reflect a relative judgement on the utility of items, e.g. a user clicking on an item only implies it is better than items not clicked in the same ranked list. Hence, the objectives optimized in Learning-to-Rank (LTR) tend to be pairwise or listwise. Yet, by only viewing feedback as relative, we neglect the user's absolute feedback on the list's overall quality, e.g. when no items in the selection are clicked. We thus reconsider the standard LTR paradigm and argue the benefits of learning from this listwide signal. To this end, we propose the RankFormer as an architecture that, with a Transformer at its core, can jointly optimize a novel listwide assessment objective and a traditional listwise LTR objective. We simulate implicit feedback on public datasets and observe that the RankFormer succeeds in benefitting from listwide signals. Additionally, we conduct experiments in e-commerce on Amazon Search data and find the RankFormer to be superior to all baselines offline. An online experiment shows that knowledge distillation can be used to find immediate practical use for the RankFormer.
翻訳日:2023-06-12 13:49:06 公開日:2023-06-09
# 多人数ポーズ追跡のためのデュアルソースアテンショントランス

A Dual-Source Attention Transformer for Multi-Person Pose Tracking ( http://arxiv.org/abs/2306.05807v1 )

ライセンス: Link先を確認
Andreas Doering and Juergen Gall(参考訳) マルチパーソンのポーズトラッキングは多くのアプリケーションにとって重要な要素であり、ビデオ内のすべての人のポーズを推定し、時間とともに追跡する必要がある。 フレーム間のポーズの関連性は、特に動きのぼやけや混みのあるシーン、オクルージョンなどによるオンライントラッキング手法において、オープンな研究課題である。 協会の課題に取り組むために,3つの中核的な側面を取り入れたデュアルソース・アテンション・トランスを提案する。 一 隠蔽された人物を再識別するために、初期埋め込みを提供するポーズ条件付き再識別ネットワークを提案し、フレーム間で可視関節の数が異なる場合でも、人物と一致させることができる。 二 時相相似性に基づくエッジ組込みを取り入れ、外観及びポーズ相似性の影響を自動的に適応させる。 iii) ポーズとトラックの関連付けと重複除去のための注意に基づくマッチング層を提案する。 market1501, posetrack 2018, posetrack21のアプローチを評価した。

Multi-person pose tracking is an important element for many applications and requires to estimate the human poses of all persons in a video and to track them over time. The association of poses across frames remains an open research problem, in particular for online tracking methods, due to motion blur, crowded scenes and occlusions. To tackle the association challenge, we propose a Dual-Source Attention Transformer that incorporates three core aspects: i) In order to re-identify persons that have been occluded, we propose a pose-conditioned re-identification network that provides an initial embedding and allows to match persons even if the number of visible joints differs between the frames. ii) We incorporate edge embeddings based on temporal pose similarity and the impact of appearance and pose similarity is automatically adapted. iii) We propose an attention based matching layer for pose-to-track association and duplicate removal. We evaluate our approach on Market1501, PoseTrack 2018 and PoseTrack21.
翻訳日:2023-06-12 13:48:46 公開日:2023-06-09
# DynaBench:低解像度データから動的システムを学ぶためのベンチマークデータセット

DynaBench: A benchmark dataset for learning dynamical systems from low-resolution data ( http://arxiv.org/abs/2306.05805v1 )

ライセンス: Link先を確認
Andrzej Dulny and Andreas Hotho and Anna Krause(参考訳) データから物理システムを学習する以前の研究は、高解像度のグリッド構造計測に重点を置いてきた。 しかし、そのようなシステムの実際の知識(例えば気象データ)は、わずかに散らばった測定ステーションに依存している。 本稿では,方程式の事前知識を必要とせずに,疎分散データから直接力学系を学習するための,新しいシミュレーションベンチマークデータセットDynaBenchを紹介する。 このデータセットは、低解像度で非構造的な測定から力学系の進化を予測することに焦点を当てている。 文献でよく用いられる様々な物理系をカバーする6つの異なる偏微分方程式をシミュレートし、従来のグラフニューラルネットワークやポイントクラウド処理モデルを含む機械学習モデルの評価を行い、システムの進化を予測する。 提案するベンチマークデータセットは,非構造化低分解能観測のみが可能な環境でのモデル評価のための既定の簡易ツールとして,最先端の最先端技術として期待されている。 ベンチマークはhttps://anonymous.4open.science/r/code-2022-dynabench/で利用可能である。

Previous work on learning physical systems from data has focused on high-resolution grid-structured measurements. However, real-world knowledge of such systems (e.g. weather data) relies on sparsely scattered measuring stations. In this paper, we introduce a novel simulated benchmark dataset, DynaBench, for learning dynamical systems directly from sparsely scattered data without prior knowledge of the equations. The dataset focuses on predicting the evolution of a dynamical system from low-resolution, unstructured measurements. We simulate six different partial differential equations covering a variety of physical systems commonly used in the literature and evaluate several machine learning models, including traditional graph neural networks and point cloud processing models, with the task of predicting the evolution of the system. The proposed benchmark dataset is expected to advance the state of art as an out-of-the-box easy-to-use tool for evaluating models in a setting where only unstructured low-resolution observations are available. The benchmark is available at https://anonymous.4open.science/r/code-2022-dynabench/.
翻訳日:2023-06-12 13:48:28 公開日:2023-06-09
# 雑音変動量子アルゴリズムにおける量子平均値のシミュレーション:多項式スケールアプローチ

Simulating Quantum Mean Values in Noisy Variational Quantum Algorithms: A Polynomial-Scale Approach ( http://arxiv.org/abs/2306.05804v1 )

ライセンス: Link先を確認
Yuguo Shao, Fuchuan Wei, Song Cheng, Zhengwei Liu(参考訳) 大規模変動量子アルゴリズムは、古典的なコンピュータの範囲を超え、実用的な量子優位性を達成するための潜在的経路として広く考えられている。 しかし、量子ノイズの存在はこれらの利点を抑圧し弱め、古典的シミュラビリティの境界を曖昧にする可能性がある。 そこで本研究では,独立な単一量子ビット非偏極雑音の存在下で,有界トランケーション誤差を持つ変分量子アルゴリズムの量子平均値を効率よく近似する多項式スケール法を提案する。 本手法はパウリ基底の経路積分に基づいている。 我々は、固定ノイズレート$\lambda$に対して、この方法の時間と空間の複雑さは、量子ビット$n$、回路深さ$l$、逆切断誤差$\frac{1}{\varepsilon}$、逆成功確率$\frac{1}{\delta}$との多項式関係を示すことを厳密に証明した。 さらに、計算複雑性が$\mathrm{poly}\left(n,l\right)$になると、ノイズレート$\lambda$が$\frac{1}{\log{l}}$を超え、ノイズレート$\lambda$が$\frac{1}{l}$以下になると指数関数的に$l$となることも証明する。

Large-scale variational quantum algorithms possess an expressive capacity that is beyond the reach of classical computers and is widely regarded as a potential pathway to achieving practical quantum advantages. However, the presence of quantum noise might suppress and undermine these advantages, which blurs the boundaries of classical simulability. To gain further clarity on this matter, we present a novel polynomial-scale method that efficiently approximates quantum mean values in variational quantum algorithms with bounded truncation error in the presence of independent single-qubit depolarizing noise. Our method is based on path integrals in the Pauli basis. We have rigorously proved that, for a fixed noise rate $\lambda$, our method's time and space complexity exhibits a polynomial relationship with the number of qubits $n$, the circuit depth $L$, the inverse truncation error $\frac{1}{\varepsilon}$, and the inverse success probability $\frac{1}{\delta}$. Furthermore, We also prove that computational complexity becomes $\mathrm{Poly}\left(n,L\right)$ when the noise rate $\lambda$ exceeds $\frac{1}{\log{L}}$ and it becomes exponential with $L$ when the noise rate $\lambda$ falls below $\frac{1}{L}$.
翻訳日:2023-06-12 13:48:11 公開日:2023-06-09
# 感情と暗号通貨価格の因果関係

Causality between Sentiment and Cryptocurrency Prices ( http://arxiv.org/abs/2306.05803v1 )

ライセンス: Link先を確認
Lubdhak Mondal, Udeshya Raj, Abinandhan S, Began Gowsik S, Sarwesh P and Abhijeet Chandra(参考訳) 本研究では,マイクロブログプラットフォーム,すなわちTwitterを通じて伝達される物語と暗号資産の価値の関係について検討する。 本研究は,短いテキストのトピックモデリングと感情分析を組み合わせることで,暗号通貨に関する物語を構築するためのユニークな手法を提供する。 まず、教師なしの機械学習アルゴリズムを使用して、Twitterから大量の、騒々しいテキストデータの中に潜伏するトピックを発見し、それから、金融投資、暗号通貨、金融および政治規制に関連する技術進歩、暗号資産、メディアカバレッジを含む、4-5の暗号通貨関連の物語を明らかにしました。 さまざまな状況において、私たちの物語と暗号通貨価格の間に強いつながりがあることに気づきました。 我々の研究は、最近の経済学の革新であるナラティブ・エコノミクスを、トピックモデリングと感情分析を組み合わせて、消費者の行動と物語を関連づける新しい分野に結びつける。

This study investigates the relationship between narratives conveyed through microblogging platforms, namely Twitter, and the value of crypto assets. Our study provides a unique technique to build narratives about cryptocurrency by combining topic modelling of short texts with sentiment analysis. First, we used an unsupervised machine learning algorithm to discover the latent topics within the massive and noisy textual data from Twitter, and then we revealed 4-5 cryptocurrency-related narratives, including financial investment, technological advancement related to crypto, financial and political regulations, crypto assets, and media coverage. In a number of situations, we noticed a strong link between our narratives and crypto prices. Our work connects the most recent innovation in economics, Narrative Economics, to a new area of study that combines topic modelling and sentiment analysis to relate consumer behaviour to narratives.
翻訳日:2023-06-12 13:47:44 公開日:2023-06-09
# XAIを利用した分類システムの改善戦略

Strategies to exploit XAI to improve classification systems ( http://arxiv.org/abs/2306.05801v1 )

ライセンス: Link先を確認
Andrea Apicella, Luca Di Lorenzo, Francesco Isgr\`o, Andrea Pollastro, Roberto Prevete(参考訳) 説明可能な人工知能(XAI)は、AIモデルの意思決定プロセスに関する洞察を提供することを目的としている。 XAIの重要な目標は、意思決定プロセスの説明を提供することで、AIモデルのパフォーマンスを改善することである。 しかしながら、ほとんどのXAI文献は、AIシステムを説明する方法に焦点を当てているが、AIシステムを改善するためにXAIメソッドをどのように利用するかについてはあまり注目されていない。 本研究では、機械学習(ML)分類タスクで一般的に使用されるよく知られたXAI手法について、説明を提供するだけでなく、モデル自体の性能を向上させるためにも活用できるかどうかを検証する。 この目的のために、分類システムを改善するために、Fashion-MNIST、CIFAR10、STL10の3つのデータセットで説明を用いた2つの戦略を報告し、実証的に評価した。 その結果,統合勾配によって構築された説明は,分類性能向上に効果的に使用できる入力特徴を浮き彫りにすることが示唆された。

Explainable Artificial Intelligence (XAI) aims to provide insights into the decision-making process of AI models, allowing users to understand their results beyond their decisions. A significant goal of XAI is to improve the performance of AI models by providing explanations for their decision-making processes. However, most XAI literature focuses on how to explain an AI system, while less attention has been given to how XAI methods can be exploited to improve an AI system. In this work, a set of well-known XAI methods typically used with Machine Learning (ML) classification tasks are investigated to verify if they can be exploited, not just to provide explanations but also to improve the performance of the model itself. To this aim, two strategies to use the explanation to improve a classification system are reported and empirically evaluated on three datasets: Fashion-MNIST, CIFAR10, and STL10. Results suggest that explanations built by Integrated Gradients highlight input features that can be effectively used to improve classification performance.
翻訳日:2023-06-12 13:47:27 公開日:2023-06-09
# 外乱と重み分布を扱うための2レベルヒストグラム

Two-level histograms for dealing with outliers and heavy tail distributions ( http://arxiv.org/abs/2306.05786v1 )

ライセンス: Link先を確認
Marc Boull\'e(参考訳) ヒストグラムは探索分析において不定分布を要約するために用いられる最も一般的な方法の一つである。 特に、不規則なヒストグラムは、非常に少ないパラメータ(長さと周波数のビンの数)を必要とする優れた非パラメトリック密度推定器である。 基礎となるデータ分布に関する仮説を仮定したり、モデル選択アプローチを利用するなど、これらのパラメータを推測するための多くのアプローチが文献で提案されている。 本稿では,最少記述長(mdl)原理を生かしてユーザパラメータ無しでヒストグラムを構築するg-enum histogram法に着目し,技術性能w.r.t精度,パシモニーと計算時間を実現する。 異常値や重み付き分布の場合,本手法の限界について検討する。 このようなケースに対処するための2段階のヒューリスティックを提案する。 第1のレベルは、データの対数変換を利用して、データセットを、制御された値範囲のデータサブセットのリストに分割する。 第2レベルは、各データサブセットに対してサブヒストグラムを構築し、それらを集約して完全なヒストグラムを得る。 大規模な実験はアプローチの利点を示している。

Histograms are among the most popular methods used in exploratory analysis to summarize univariate distributions. In particular, irregular histograms are good non-parametric density estimators that require very few parameters: the number of bins with their lengths and frequencies. Many approaches have been proposed in the literature to infer these parameters, either assuming hypotheses about the underlying data distributions or exploiting a model selection approach. In this paper, we focus on the G-Enum histogram method, which exploits the Minimum Description Length (MDL) principle to build histograms without any user parameter and achieves state-of-the art performance w.r.t accuracy; parsimony and computation time. We investigate on the limits of this method in the case of outliers or heavy-tailed distributions. We suggest a two-level heuristic to deal with such cases. The first level exploits a logarithmic transformation of the data to split the data set into a list of data subsets with a controlled range of values. The second level builds a sub-histogram for each data subset and aggregates them to obtain a complete histogram. Extensive experiments show the benefits of the approach.
翻訳日:2023-06-12 13:47:11 公開日:2023-06-09
# $\frac{\ell_1}{\ell_2}=正規化レイテンシサロゲートによる終端ニューラルネットワーク圧縮

End-to-End Neural Network Compression via $\frac{\ell_1}{\ell_2}$ Regularized Latency Surrogates ( http://arxiv.org/abs/2306.05785v1 )

ライセンス: Link先を確認
Anshul Nasery, Hardik Shah, Arun Sai Suggala, Prateek Jain(参考訳) プルーニングや量子化といった手法によるニューラルネットワーク(nn)の圧縮には、各層に対して圧縮ハイパーパラメータ(例えば、プルーニングするチャネルの数、量子化のためのビット幅)を設定する必要がある。 モデルの浮動小数点演算(FLOP)を最適化するエンドツーエンド技術や,新しい$\frac{\ell_1}{\ell_2}$レイテンシサロゲートによってデバイス上でのレイテンシを最適化することで,この問題に対処する。 このアルゴリズムは汎用性があり,pruning,low-rank factorization,quantizationなど,多くの一般的な圧縮手法で使用することができる。 重要なことに、それは高速で、単一のモデルトレーニングとほぼ同じ時間で実行されます。 GLUEの微調整タスクにおけるBERT圧縮では、FLOPをわずか1\%の値下げで50\%の値下げを実現しています。 imagenet-1k 上で mobilenetv3 を圧縮するには,soma 圧縮技術よりも 3 倍のトレーニング計算を必要とせず,フロップ数を 15 % 削減し,デバイス上でのレイテンシを 11 % 削減できる。 最後に、より小さなデータセットでの転送学習では、トレーニングコストと精度がほぼ同じで、標準のMobileNetV3であるEfficientNetスイートよりも1.2\times$-$1.4\times$安いアーキテクチャを識別する。

Neural network (NN) compression via techniques such as pruning, quantization requires setting compression hyperparameters (e.g., number of channels to be pruned, bitwidths for quantization) for each layer either manually or via neural architecture search (NAS) which can be computationally expensive. We address this problem by providing an end-to-end technique that optimizes for model's Floating Point Operations (FLOPs) or for on-device latency via a novel $\frac{\ell_1}{\ell_2}$ latency surrogate. Our algorithm is versatile and can be used with many popular compression methods including pruning, low-rank factorization, and quantization. Crucially, it is fast and runs in almost the same amount of time as single model training; which is a significant training speed-up over standard NAS methods. For BERT compression on GLUE fine-tuning tasks, we achieve $50\%$ reduction in FLOPs with only $1\%$ drop in performance. For compressing MobileNetV3 on ImageNet-1K, we achieve $15\%$ reduction in FLOPs, and $11\%$ reduction in on-device latency without drop in accuracy, while still requiring $3\times$ less training compute than SOTA compression techniques. Finally, for transfer learning on smaller datasets, our technique identifies $1.2\times$-$1.4\times$ cheaper architectures than standard MobileNetV3, EfficientNet suite of architectures at almost the same training cost and accuracy.
翻訳日:2023-06-12 13:46:53 公開日:2023-06-09
# 準同型付き期待完備グラフ表現

Expectation-Complete Graph Representations with Homomorphisms ( http://arxiv.org/abs/2306.05838v1 )

ライセンス: Link先を確認
Pascal Welke, Maximilian Thiessen, Fabian Jogl, Thomas G\"artner(参考訳) 期待多項式時間で計算でき、期待値のすべての非同型グラフを識別できる新しいランダムグラフ埋め込みについて検討する。 従来のグラフ埋め込みは表現力に制限があり、全てのグラフを区別できないか、全てのグラフに対して効率的に計算できない。 グラフ上の任意の関数を近似できるためには、資源の増加とともに任意に表現される効率的な代替案に興味がある。 本手法は無限次元準同型数ベクトルによるグラフ同型のlov\'asz'キャラクタリゼーションに基づいている。 実験による評価は,いくつかのベンチマークグラフ学習タスクにおける競合結果を示す。

We investigate novel random graph embeddings that can be computed in expected polynomial time and that are able to distinguish all non-isomorphic graphs in expectation. Previous graph embeddings have limited expressiveness and either cannot distinguish all graphs or cannot be computed efficiently for every graph. To be able to approximate arbitrary functions on graphs, we are interested in efficient alternatives that become arbitrarily expressive with increasing resources. Our approach is based on Lov\'asz' characterisation of graph isomorphism through an infinite dimensional vector of homomorphism counts. Our empirical evaluation shows competitive results on several benchmark graph learning tasks.
翻訳日:2023-06-12 13:41:51 公開日:2023-06-09
# Rabi発振による捕捉イオンのその場微小運動補償と直流電圧の直接走査

In-situ micromotion compensation of trapped ions by Rabi oscillation and direct scanning of dc voltages ( http://arxiv.org/abs/2306.05837v1 )

ライセンス: Link先を確認
Woojun Lee, Daun Chung, Jiyong Kang, Honggi Jeon, Changhyun Jung, Dong-Il "Dan" Cho, Taehyun Kim(参考訳) マイクロモーションは、捕捉されたイオンの正確な量子ビット制御に有害であるため、測定と最小化が重要である。 本稿では,直流電圧の直接走査とラビ振動による捕捉イオンの微小運動を簡易に測定し,最小化する手法を提案する。 このアプローチはqubit制御スキーム自体を利用し、追加の実験的なセットアップを必要とせず、またトラップレーザーやフィールドの強度や周波数を調整することでトラップ安定性を損なう。 これにより、一般的に用いられる技術と同等の感度を達成しつつ、イオンのクビット制御中のマイクロモーションをその場で測定することができる。

Micromotion is detrimental to accurate qubit control of trapped ions, thus measuring and minimizing it is crucial. In this paper, we present a simple method to measure and minimize micromotion of trapped ions by Rabi oscillation combined with direct scanning of dc voltages. The approach utilizes the qubit control scheme itself, and eliminates the need to install additional experimental setups, or compromise the trapping stability by adjusting the intensity or frequency of the trapping lasers or fields. Accordingly, the method enables in-situ measurement of micromotion during qubit controls of the ions, while achieving a comparable level of sensitivity to commonly used techniques.
翻訳日:2023-06-12 13:41:43 公開日:2023-06-09
# 大規模言語モデルは相関から因果関係を推論できるか?

Can Large Language Models Infer Causation from Correlation? ( http://arxiv.org/abs/2306.05836v1 )

ライセンス: Link先を確認
Zhijing Jin, Jiarui Liu, Zhiheng Lyu, Spencer Poff, Mrinmaya Sachan, Rada Mihalcea, Mona Diab, Bernhard Sch\"olkopf(参考訳) 因果推論は人間の知能の指標の1つである。 コーサルNLPの分野は近年多くの関心を集めているが、NLPの既存の因果推論データセットは主に経験的知識(例えばコモンセンス知識)から因果関係を発見することに依存している。 本研究では,大規模言語モデル(llm)の純粋因果推論スキルをテストする最初のベンチマークデータセットを提案する。 具体的には,新しいタスクCorr2Causeを定式化し,一連の相関文を取り,変数間の因果関係を決定する。 我々は,400K以上のサンプルからなる大規模データセットをキュレートし,既存のLLMを17個評価した。 実験により, LLMの因果推論能力において重要な欠点を同定し, これらのモデルがタスクのランダムな性能にほぼ近いことを示す。 この欠点は、微調整によってこのスキルのためにllmを再利用しようとすると多少軽減されますが、これらのモデルがまだ一般化できていないことに気付きます -- クエリで使用される変数名とテキスト式がトレーニングセットのものと似ている場合のみ、分散内設定で因果推論を行うことが可能ですが、これらのクエリを乱すことによって生成された分散外設定では失敗します。 Corr2CauseはLLMにとって難しい課題であり、LLMの純粋推論スキルと一般化可能性を改善するための将来の研究を導くのに役立つだろう。 私たちのデータはhttps://huggingface.co/datasets/causalnlp/corr2です。 私たちのコードはhttps://github.com/causalnlp/corr2です。

Causal inference is one of the hallmarks of human intelligence. While the field of CausalNLP has attracted much interest in the recent years, existing causal inference datasets in NLP primarily rely on discovering causality from empirical knowledge (e.g., commonsense knowledge). In this work, we propose the first benchmark dataset to test the pure causal inference skills of large language models (LLMs). Specifically, we formulate a novel task Corr2Cause, which takes a set of correlational statements and determines the causal relationship between the variables. We curate a large-scale dataset of more than 400K samples, on which we evaluate seventeen existing LLMs. Through our experiments, we identify a key shortcoming of LLMs in terms of their causal inference skills, and show that these models achieve almost close to random performance on the task. This shortcoming is somewhat mitigated when we try to re-purpose LLMs for this skill via finetuning, but we find that these models still fail to generalize -- they can only perform causal inference in in-distribution settings when variable names and textual expressions used in the queries are similar to those in the training set, but fail in out-of-distribution settings generated by perturbing these queries. Corr2Cause is a challenging task for LLMs, and would be helpful in guiding future research on improving LLMs' pure reasoning skills and generalizability. Our data is at https://huggingface.co/datasets/causalnlp/corr2cause. Our code is at https://github.com/causalNLP/corr2cause.
翻訳日:2023-06-12 13:41:30 公開日:2023-06-09
# スケッチ美化:学習部 人工物体のスケッチの美化と構造洗練

Sketch Beautification: Learning Part Beautification and Structure Refinement for Sketches of Man-made Objects ( http://arxiv.org/abs/2306.05832v1 )

ライセンス: Link先を確認
Deng Yu, Manfred Lau, Lin Gao, Hongbo Fu(参考訳) 本稿では,人工物体の自由なスケッチを入力し,幾何学的にも構造的にも自動的に美化する,新しいフリーハンドスケッチ美化手法を提案する。 スケッチの美化は、非常に抽象的で多彩な描画方法のため、難しい。 既存の手法は通常、限られた訓練サンプルの分布に制限されるため、豊かなバリエーションで自由に描かれたスケッチを美化することはできない。 この課題に対処するために、分割・組み合わせ戦略を採用します。 具体的には、まず、入力スケッチを意味成分にパースし、部分レベルの暗黙多様体に基づく学習部美化モジュールにより個々のコンポーネントを美化し、次に構造美化モジュールを介して美化コンポーネントを再評価する。 この戦略により,本手法はトレーニングサンプルを超えて,新しいフリーハンドスケッチを処理できる。 本システムの有効性を広範な実験と知覚的研究で実証する。

We present a novel freehand sketch beautification method, which takes as input a freely drawn sketch of a man-made object and automatically beautifies it both geometrically and structurally. Beautifying a sketch is challenging because of its highly abstract and heavily diverse drawing manner. Existing methods are usually confined to the distribution of their limited training samples and thus cannot beautify freely drawn sketches with rich variations. To address this challenge, we adopt a divide-and-combine strategy. Specifically, we first parse an input sketch into semantic components, beautify individual components by a learned part beautification module based on part-level implicit manifolds, and then reassemble the beautified components through a structure beautification module. With this strategy, our method can go beyond the training samples and handle novel freehand sketches. We demonstrate the effectiveness of our system with extensive experiments and a perceptive study.
翻訳日:2023-06-12 13:40:43 公開日:2023-06-09
# 金右衛門(きんえもん):誘導誘導式トランスモン人工原子

Kinemon: inductively shunted transmon artificial atom ( http://arxiv.org/abs/2306.05830v1 )

ライセンス: Link先を確認
Daria Kalacheva, Gleb Fedorov, Julia Zotova, Shamil Kadyrmetov, Alexey Kirkovskii, Aleksei Dmitriev, Oleg Astafiev(参考訳) 超伝導量子系における低調波性の課題と強い電荷分散の必要性に対処する代替手段として,誘導誘導型トランスモン型人工原子を実験的に検討した。 様々な幾何学とパラメータ(ジョセフソンエネルギーと容量)を持つデバイスを特徴付け、計算とよく一致している。 我々のアプローチは、トランスモンキュービット工学と製造技術と高いコヒーレンスの利点を保ちながら、潜在的に非調和性を高めることができる。 このアプローチは、量子コンピューティングにおけるスケーラブルなマルチキュービットシステムの開発のための代替プラットフォームを提供する。

We experimentally investigate inductively shunted transmon-type artificial atoms as an alternative to address the challenges of low anharmonicity and the need for strong charge dispersion in superconducting quantum systems. We characterize several devices with varying geometries and parameters (Josephson energies and capacitances), and find a good agreement with calculations. Our approach allows us to retain the benefits of transmon qubit engineering and fabrication technology and high coherence, while potentially increasing anharmonicity. The approach offers an alternative platform for the development of scalable multi-qubit systems in quantum computing.
翻訳日:2023-06-12 13:40:18 公開日:2023-06-09
# パレスチナにおける法的支援を目的としたLCM型チャットボットの展開に向けて

Towards the Exploitation of LLM-based Chatbot for Providing Legal Support to Palestinian Cooperatives ( http://arxiv.org/abs/2306.05827v1 )

ライセンス: Link先を確認
Rabee Qasem, Banan Tantour, Mohammed Maree(参考訳) 自然言語処理(NLP)の利用が絶え間なく増加する中、ここ数年で法律文書との相互作用に大きな変化が見られ始めた。 この技術は分析を進歩させ、複雑な法用語と文脈の理解を高めた。 近年の大規模言語モデル(LLM)、特にChatGPTの開発は、法的テキストの処理と解釈の方法に革命的な貢献をもたらした。 本稿では,llmベースのチャットボットについて,パレスチナの協力者に関する一連の法的疑問を提起し,チャットボットが自動生成した回答と,法律専門家が設計した対応文を比較した。 提案するチャットボットの評価には,法の専門家が生成した50のクエリを使用し,その回答を関連判断と比較した。 調査の結果,クエリの回答時に全体の精度が82%向上し,F1スコアが79%であった。

With the ever-increasing utilization of natural language processing (NLP), we started to witness over the past few years a significant transformation in our interaction with legal texts. This technology has advanced the analysis and enhanced the understanding of complex legal terminology and contexts. The development of recent large language models (LLMs), particularly ChatGPT, has also introduced a revolutionary contribution to the way that legal texts can be processed and comprehended. In this paper, we present our work on a cooperative-legal question-answering LLM-based chatbot, where we developed a set of legal questions about Palestinian cooperatives, associated with their regulations and compared the auto-generated answers by the chatbot to their correspondences that are designed by a legal expert. To evaluate the proposed chatbot, we have used 50 queries generated by the legal expert and compared the answers produced by the chart to their relevance judgments. Finding demonstrated that an overall accuracy rate of 82% has been achieved when answering the queries, while exhibiting an F1 score equivalent to 79%.
翻訳日:2023-06-12 13:39:47 公開日:2023-06-09
# 大規模言語モデルからレコメンダシステムにどのようなメリットがあるか:調査

How Can Recommender Systems Benefit from Large Language Models: A Survey ( http://arxiv.org/abs/2306.05817v1 )

ライセンス: Link先を確認
Jianghao Lin, Xinyi Dai, Yunjia Xi, Weiwen Liu, Bo Chen, Xiangyang Li, Chenxu Zhu, Huifeng Guo, Yong Yu, Ruiming Tang, Weinan Zhang(参考訳) インターネットアプリケーションにおいて,レコメンダシステム(RS)はユーザの情報要求に合わせて重要な役割を果たす。 自然言語処理(nlp)領域では、大規模言語モデル(llm)は驚くべき創発的能力(例えば命令追従、推論)を示しており、llmをrsに適用してパフォーマンスの向上とユーザエクスペリエンスの改善を行う有望な研究方向を生み出している。 本稿では,本研究の方向性をアプリケーション指向の観点から総合的に調査する。 まず, LLM を RS に適用する方法という2つの直交的な視点から, 既存の研究成果を要約する。 where"という質問に対して、我々は、レコメンデーションパイプラインのさまざまなステージでllmが果たすことができる役割、すなわち、機能工学、特徴エンコーダ、スコアリング/ランキング関数、パイプラインコントローラについて論じる。 how"問題に対しては、トレーニングと推論の戦略を調査し、llmをチューニングするか否か、推論に従来の推奨モデル(crm)を関与させるかどうかという2つの詳細な分類基準を導出する。 いずれの質問にも詳細な分析と一般的な開発軌跡が提供される。 次に,3つの側面,すなわち効率性,有効性,倫理性から,LSMをRSに適用する上での課題を強調した。 最後に,調査の概要と今後の展望について考察する。 また、この上昇方向において、文書やその他の関連リソースのためのgithubリポジトリを積極的に維持している。

Recommender systems (RS) play important roles to match users' information needs for Internet applications. In natural language processing (NLP) domains, large language model (LLM) has shown astonishing emergent abilities (e.g., instruction following, reasoning), thus giving rise to the promising research direction of adapting LLM to RS for performance enhancements and user experience improvements. In this paper, we conduct a comprehensive survey on this research direction from an application-oriented view. We first summarize existing research works from two orthogonal perspectives: where and how to adapt LLM to RS. For the "WHERE" question, we discuss the roles that LLM could play in different stages of the recommendation pipeline, i.e., feature engineering, feature encoder, scoring/ranking function, and pipeline controller. For the "HOW" question, we investigate the training and inference strategies, resulting in two fine-grained taxonomy criteria, i.e., whether to tune LLMs or not, and whether to involve conventional recommendation model (CRM) for inference. Detailed analysis and general development trajectories are provided for both questions, respectively. Then, we highlight key challenges in adapting LLM to RS from three aspects, i.e., efficiency, effectiveness, and ethics. Finally, we summarize the survey and discuss the future prospects. We also actively maintain a GitHub repository for papers and other related resources in this rising direction: $\href{https://github.com/CHIANGEL/Awesome-LLM-for-RecSys}{[GitHub\;Link]}$.
翻訳日:2023-06-12 13:39:15 公開日:2023-06-09
# 2元化によるカーネルPCAの拡張:スパース性,ロバスト性,高速アルゴリズム

Extending Kernel PCA through Dualization: Sparsity, Robustness and Fast Algorithms ( http://arxiv.org/abs/2306.05815v1 )

ライセンス: Link先を確認
Francesco Tonin, Alex Lambert, Panagiotis Patrinos, Johan A. K. Suykens(参考訳) 本研究の目的は,凸関数の差分を二重化することによりカーネル主成分分析(KPCA)を再検討することである。 これにより、kpcaを複数の目的関数に自然に拡張することができ、グラム行列の高価なsvdを避ける効率的な勾配ベースのアルゴリズムにつながる。 特に,モローエンベロープとして記述可能な目的関数を考察し,同じフレームワーク内で頑健性や疎性を促進する方法を示す。 提案手法は合成および実世界のベンチマークで評価され,kpcaトレーニング時間の大幅な高速化とロバスト性とスパース性の観点からの利点を浮き彫りにした。

The goal of this paper is to revisit Kernel Principal Component Analysis (KPCA) through dualization of a difference of convex functions. This allows to naturally extend KPCA to multiple objective functions and leads to efficient gradient-based algorithms avoiding the expensive SVD of the Gram matrix. Particularly, we consider objective functions that can be written as Moreau envelopes, demonstrating how to promote robustness and sparsity within the same framework. The proposed method is evaluated on synthetic and real-world benchmarks, showing significant speedup in KPCA training time as well as highlighting the benefits in terms of robustness and sparsity.
翻訳日:2023-06-12 13:38:50 公開日:2023-06-09
# 経路活動オートエンコーダを用いた深層学習モデルの事前知識の導入

Incorporating Prior Knowledge in Deep Learning Models via Pathway Activity Autoencoders ( http://arxiv.org/abs/2306.05813v1 )

ライセンス: Link先を確認
Pedro Henrique da Costa Avelar, Min Wu, Sophia Tsoka(参考訳) モチベーション(Motivation): 高スループット分子プロファイリングアッセイ(例えば transcriptomics)の計算解析の進歩にもかかわらず、単純かつ解釈可能な方法と、複雑だが解釈可能性の低い方法の間に二分法が存在する。 さらに、既知の経路カスケードのような生物学的に関連する用語で解釈可能性の翻訳を試みる手法はほとんどない。 シグナル伝達現象や代謝変換を反映する生物学的経路は、新しい生物学的結果が予測され検証されない限り、既存のアルゴリズムの小さな改良や修正は一般的には適切ではない。 疾患にどの経路が関係しているかを判断し、先行知識としてそのような経路データを組み込むことは、疾患の診断、治療、予防のための予測モデリングおよびパーソナライズされた戦略を強化する可能性がある。 結果: 癌におけるRNAシークエンシングのための新しい知識ベースディープオートエンコーディングフレームワークPAAEと,それに伴う遺伝子変異PAVAEを併用して提案する。 様々な学習モデル間の総合的な比較により, PAAEモデルとPAAEモデルは, 一般的な手法と比較して, より小さな特徴セットにアクセスできるにもかかわらず, より優れたアウト・オブ・セットの再構築結果が得られることを示した。 さらに,本モデルと分類タスクの等価なベースラインを比較し,全入力遺伝子セットにアクセス可能なモデルよりも優れた結果が得られることを示す。 もう一つの結果として、バニラ変分フレームワークの使用は、復元出力と分類性能の両方に悪影響を及ぼす可能性がある。 最後に,本研究は,翻訳医学の予後向上に資し,我々のモデルに対する包括的解釈可能性分析を提供することによって直接的に貢献する。

Motivation: Despite advances in the computational analysis of high-throughput molecular profiling assays (e.g. transcriptomics), a dichotomy exists between methods that are simple and interpretable, and ones that are complex but with lower degree of interpretability. Furthermore, very few methods deal with trying to translate interpretability in biologically relevant terms, such as known pathway cascades. Biological pathways reflecting signalling events or metabolic conversions are Small improvements or modifications of existing algorithms will generally not be suitable, unless novel biological results have been predicted and verified. Determining which pathways are implicated in disease and incorporating such pathway data as prior knowledge may enhance predictive modelling and personalised strategies for diagnosis, treatment and prevention of disease. Results: We propose a novel prior-knowledge-based deep auto-encoding framework, PAAE, together with its accompanying generative variant, PAVAE, for RNA-seq data in cancer. Through comprehensive comparisons among various learning models, we show that, despite having access to a smaller set of features, our PAAE and PAVAE models achieve better out-of-set reconstruction results compared to common methodologies. Furthermore, we compare our model with equivalent baselines on a classification task and show that they achieve better results than models which have access to the full input gene set. Another result is that using vanilla variational frameworks might negatively impact both reconstruction outputs as well as classification performance. Finally, our work directly contributes by providing comprehensive interpretability analyses on our models on top of improving prognostication for translational medicine.
翻訳日:2023-06-12 13:38:38 公開日:2023-06-09
# gnomonic equiangular projectionを用いた生成逆ネットワークを用いたhrtfアップサンプリング

HRTF upsampling with a generative adversarial network using a gnomonic equiangular projection ( http://arxiv.org/abs/2306.05812v1 )

ライセンス: Link先を確認
Aidan O. T. Hogg, Mads Jenkins, He Liu, Isaac Squires, Samuel J. Cooper and Lorenzo Picinali(参考訳) 現実的バーチャルリアリティ(VR)と拡張現実(AR)環境を作成するには,個人化頭部伝達関数(HRTF)が不可欠である。 しかし、高品質のHRTFを音響的に測定するには高価な機器と音響実験室が必要だ。 これらの制限を克服し、この測定をより効率的にするために、高分解能HRTFが低分解能のHRTFから生成される過去に利用されてきた。 本稿では,hrtfアップサンプリングにgans(generative adversarial network)を適用する方法を示す。 本稿では、畳み込み超解像生成対向ネットワーク(SRGAN)を用いて、HRTFデータを便利な用途に変換する新しい手法を提案する。 この新しいアプローチは、barycentric upsamplingとhrtf selectionの2つのベースラインに対してベンチマークされている。 実験の結果,本手法は入力hrtfがスパースである場合,対数スペクトル歪み (lsd) と知覚モデルを用いた局所化性能で両ベースラインを上回った。

An individualised head-related transfer function (HRTF) is essential for creating realistic virtual reality (VR) and augmented reality (AR) environments. However, acoustically measuring high-quality HRTFs requires expensive equipment and an acoustic lab setting. To overcome these limitations and to make this measurement more efficient HRTF upsampling has been exploited in the past where a high-resolution HRTF is created from a low-resolution one. This paper demonstrates how generative adversarial networks (GANs) can be applied to HRTF upsampling. We propose a novel approach that transforms the HRTF data for convenient use with a convolutional super-resolution generative adversarial network (SRGAN). This new approach is benchmarked against two baselines: barycentric upsampling and a HRTF selection approach. Experimental results show that the proposed method outperforms both baselines in terms of log-spectral distortion (LSD) and localisation performance using perceptual models when the input HRTF is sparse.
翻訳日:2023-06-12 13:38:04 公開日:2023-06-09
# 連合学習 あまりコミュニケーションしないかもしれない!

Federated Learning You May Communicate Less Often! ( http://arxiv.org/abs/2306.05862v1 )

ライセンス: Link先を確認
Milad Sefidgaran, Romain Chor, Abdellatif Zaidi, Yijun Wan(参考訳) フェデレートラーニング(FL)における統計的学習モデルの一般化誤差について検討する。 具体的には、クライアントとパラメータサーバ間の通信ラウンド数による一般化誤差の進化、すなわち、クライアントが計算したローカルモデルがどのようにパラメータサーバに集約されるかの一般化誤差に与える影響について検討する。 ラウンド数の影響を明示的に考慮した一般化誤差について、pac-bayes と rate-distortion 理論の境界を定め、例えば $r \in \mathbb{n}$ や参加するデバイス数 $k$ や個々のデータセットサイズ $n$ などを挙げる。 大規模な損失関数や学習アルゴリズムの一般性において適用される境界は、FL設定におけるそれらの種類の最初のものと思われる。 さらに、FL型サポートベクトルマシン(FSVM)に境界を適用し、この場合の一般化誤差について(さらに)明示的な境界を導出する。 特に,FSVMの一般化誤差は$R$で増加し,パラメータサーバとのより頻繁な通信は,そのような学習アルゴリズムの一般化力を低下させることを示す。 経験的リスクがより大きい値のr$に対して一般的に減少するのと相まって、r$はflアルゴリズムの人口リスクを最小限に抑えるために最適化するパラメータである可能性がある。 さらに、$r=1$("one-shot" flまたは分散学習と呼ばれることもある)のケースに特化することで、fl設定の一般化誤差は$\mathcal{o}(\sqrt{\log(k)/k})$の係数によって集中学習よりも早く減少し、この方向の最近の知見を任意の損失関数やアルゴリズムに一般化することを示唆する。 また,本研究の結果をいくつかの実験で検証した。

We investigate the generalization error of statistical learning models in a Federated Learning (FL) setting. Specifically, we study the evolution of the generalization error with the number of communication rounds between the clients and the parameter server, i.e., the effect on the generalization error of how often the local models as computed by the clients are aggregated at the parameter server. We establish PAC-Bayes and rate-distortion theoretic bounds on the generalization error that account explicitly for the effect of the number of rounds, say $ R \in \mathbb{N}$, in addition to the number of participating devices $K$ and individual datasets size $n$. The bounds, which apply in their generality for a large class of loss functions and learning algorithms, appear to be the first of their kind for the FL setting. Furthermore, we apply our bounds to FL-type Support Vector Machines (FSVM); and we derive (more) explicit bounds on the generalization error in this case. In particular, we show that the generalization error of FSVM increases with $R$, suggesting that more frequent communication with the parameter server diminishes the generalization power of such learning algorithms. Combined with that the empirical risk generally decreases for larger values of $R$, this indicates that $R$ might be a parameter to optimize in order to minimize the population risk of FL algorithms. Moreover, specialized to the case $R=1$ (sometimes referred to as "one-shot" FL or distributed learning) our bounds suggest that the generalization error of the FL setting decreases faster than that of centralized learning by a factor of $\mathcal{O}(\sqrt{\log(K)/K})$, thereby generalizing recent findings in this direction to arbitrary loss functions and algorithms. The results of this paper are also validated on some experiments.
翻訳日:2023-06-12 13:30:38 公開日:2023-06-09
# 音声強調における包括的特徴学習のための効率的なエンコーダデコーダとデュアルパスコンバータ

Efficient Encoder-Decoder and Dual-Path Conformer for Comprehensive Feature Learning in Speech Enhancement ( http://arxiv.org/abs/2306.05861v1 )

ライセンス: Link先を確認
Junyu Wang(参考訳) 現在の音声強調(SE)研究は、チャネルの注意と空間の注意をほとんど無視しており、エンコーダ・デコーダアーキテクチャに基づくネットワークは、中間エンハンスメント層に効率的に入力する方法を十分に考慮していない。 そこで本稿では,より密結合されたブロック,デュアルパスモジュール,畳み込み型トランスフォーマ(コンフォーマ),チャネルの注意,空間的注意を組み込んだ時間周波数(t-f)ドメインseネットワーク(dpcfcs-net)を提案する。 従来のモデルと比較して,提案モデルはより効率的なエンコーダ・デコーダを備え,包括的特徴を学習できる。 VCTK+DEMANDデータセットの実験結果から,本手法はSE性能において既存の手法よりも優れていることが示された。 さらに, 改良された高密度連結ブロックと2次元アテンションモジュールは, 適応性が高く, 既存のネットワークに容易に組み込むことができる。

Current speech enhancement (SE) research has largely neglected channel attention and spatial attention, and encoder-decoder architecture-based networks have not adequately considered how to provide efficient inputs to the intermediate enhancement layer. To address these issues, this paper proposes a time-frequency (T-F) domain SE network (DPCFCS-Net) that incorporates improved densely connected blocks, dual-path modules, convolution-augmented transformers (conformers), channel attention, and spatial attention. Compared with previous models, our proposed model has a more efficient encoder-decoder and can learn comprehensive features. Experimental results on the VCTK+DEMAND dataset demonstrate that our method outperforms existing techniques in SE performance. Furthermore, the improved densely connected block and two dimensions attention module developed in this work are highly adaptable and easily integrated into existing networks.
翻訳日:2023-06-12 13:30:02 公開日:2023-06-09
# 逆カーネル近似によるロバスト強化学習

Robust Reinforcement Learning via Adversarial Kernel Approximation ( http://arxiv.org/abs/2306.05859v1 )

ライセンス: Link先を確認
Kaixin Wang, Uri Gadot, Navdeep Kumar, Kfir Levy, Shie Mannor(参考訳) Robust Markov Decision Processes (RMDP) は、遷移カーネルの摂動に頑健なシーケンシャルな意思決定のためのフレームワークを提供する。 しかし、RMDPにおける頑健な強化学習(RL)アプローチは、高次元領域を用いたリアルなオンライン設定には適していない。 rmdpsの逆核を特徴付けることにより、オンラインロバストrlに対する新しいアプローチを提案し、逆核を近似し、標準(非ロバスト)rlアルゴリズムを用いてロバストポリシーを学習する。 特に、我々の手法は、どのRLアルゴリズムにも適用でき、高次元領域へのスケーリングが容易である。 MinAtar と DeepMind Control Suite は古典的制御タスクの実験を行い,本手法の有効性と適用性を示した。

Robust Markov Decision Processes (RMDPs) provide a framework for sequential decision-making that is robust to perturbations on the transition kernel. However, robust reinforcement learning (RL) approaches in RMDPs do not scale well to realistic online settings with high-dimensional domains. By characterizing the adversarial kernel in RMDPs, we propose a novel approach for online robust RL that approximates the adversarial kernel and uses a standard (non-robust) RL algorithm to learn a robust policy. Notably, our approach can be applied on top of any underlying RL algorithm, enabling easy scaling to high-dimensional domains. Experiments in classic control tasks, MinAtar and DeepMind Control Suite demonstrate the effectiveness and the applicability of our method.
翻訳日:2023-06-12 13:29:44 公開日:2023-06-09
# 深層ネットワークをいかに疎結合にするか - 幾何学的視点から-

How Sparse Can We Prune A Deep Network: A Geometric Viewpoint ( http://arxiv.org/abs/2306.05857v1 )

ライセンス: Link先を確認
Qiaozhe Zhang, Ruijie Zhang, Jun Sun, Yingzhuang Liu(参考訳) 過剰パラメータ化はディープニューラルネットワークの最も重要な特徴の1つである。 優れた一般化性能の利点を享受できるが、同時にかなりの記憶負荷を課し、ネットワークプルーニングの研究を必要とする。 根本的かつ自然な疑問は: ディープネットワーク(パフォーマンスにほとんど害を加えることなく)をいかにスパースにできるのか? この問題に対処するために、本研究では、第一原理のアプローチ、具体的には、元の損失関数にスパーシティ制約を強制することによって、高次元幾何学の観点から、実現不可能と実行不可能の境界に対応するプラニング比の鋭い位相遷移点を特徴付けることができる。 プルーニング比の位相遷移点は、パラメータの原次元によって正規化される$l_1$-正則化損失関数から生じる凸体の正方形ガウス幅と等しいことが判明した。 副産物として、我々は本質的にグローバルなワンショットプルーニングアルゴリズムである新しいネットワークプルーニングアルゴリズムを提供する。 さらに,大規模ヘッセン行列のスペクトル推定やヘッセン行列の非定値正の処理など,関連するガウス幅の計算における課題に対処するための効率的な対策も提供する。 予測プルーニング比の閾値は実験から得られた実際の値と非常によく一致し,提案プルーニングアルゴリズムは既存のプルーニングアルゴリズムよりも競争力や性能を向上できることを示した。 https://github.com/QiaozheZhang/Global-One-shot-Pruning

Overparameterization constitutes one of the most significant hallmarks of deep neural networks. Though it can offer the advantage of outstanding generalization performance, it meanwhile imposes substantial storage burden, thus necessitating the study of network pruning. A natural and fundamental question is: How sparse can we prune a deep network (with almost no hurt on the performance)? To address this problem, in this work we take a first principles approach, specifically, by merely enforcing the sparsity constraint on the original loss function, we're able to characterize the sharp phase transition point of pruning ratio, which corresponds to the boundary between the feasible and the infeasible, from the perspective of high-dimensional geometry. It turns out that the phase transition point of pruning ratio equals the squared Gaussian width of some convex body resulting from the $l_1$-regularized loss function, normalized by the original dimension of parameters. As a byproduct, we provide a novel network pruning algorithm which is essentially a global one-shot pruning one. Furthermore, we provide efficient countermeasures to address the challenges in computing the involved Gaussian width, including the spectrum estimation of a large-scale Hessian matrix and dealing with the non-definite positiveness of a Hessian matrix. It is demonstrated that the predicted pruning ratio threshold coincides very well with the actual value obtained from the experiments and our proposed pruning algorithm can achieve competitive or even better performance than the existing pruning algorithms. All codes are available at: https://github.com/QiaozheZhang/Global-One-shot-Pruning
翻訳日:2023-06-12 13:29:32 公開日:2023-06-09
# 多部系における部分的絡み合い

Partial disentanglement in a multipartite system ( http://arxiv.org/abs/2306.05853v1 )

ライセンス: Link先を確認
Eyal Buks(参考訳) 量子論への非線形拡張を探究し、粒子対間の決定論的部分的絡み合いを生じさせる。 この拡張は、追加の非線形項を持つ修正Schr\"{o}dinger方程式に基づいている。 因果性と分離性の原理との矛盾を避けるため、粒子が相互作用する時間にのみ、絡み合いが活発であると仮定する。 蝶のような効果は、高度に絡み合った多部ベクトル状態の近くで見られる。

We explore a nonlinear extension to quantum theory giving rise to deterministic partial disentanglement between pairs of particles. The extension is based on a modified Schr\"{o}dinger equation having an added nonlinear term. To avoid conflicts with the principles of causality and separability, it is postulated that disentanglement is active only during the time when particles interact. A butterfly-like effect is found near highly entangled multipartite vector states.
翻訳日:2023-06-12 13:29:01 公開日:2023-06-09
# ニューラルネットワークに関連する共役核行列の決定論的等価性

Deterministic equivalent of the Conjugate Kernel matrix associated to Artificial Neural Networks ( http://arxiv.org/abs/2306.05850v1 )

ライセンス: Link先を確認
Cl\'ement Chouard (IMT)(参考訳) 本研究では,ランダム重み,バイアス,データを有する多層線形幅フィードフォワードニューラルネットワークに関連する共役核について検討する。 共役核の実験的スペクトル分布は決定論的極限に収束することを示す。 より正確には、次元とスペクトルパラメータの両方を含む定量的境界を持つスティルチェス変換とその分解剤の決定論的等価値を得る。 制限された等価オブジェクトは、測度の自由畳み込みとモデルのパラメータを含む古典行列演算を繰り返すことで記述される。

We study the Conjugate Kernel associated to a multi-layer linear-width feed-forward neural network with random weights, biases and data. We show that the empirical spectral distribution of the Conjugate Kernel converges to a deterministic limit. More precisely we obtain a deterministic equivalent for its Stieltjes transform and its resolvent, with quantitative bounds involving both the dimension and the spectral parameter. The limiting equivalent objects are described by iterating free convolution of measures and classical matrix operations involving the parameters of the model.
翻訳日:2023-06-12 13:28:54 公開日:2023-06-09
# 動的量子状態低下を引き起こす色付きノイズ駆動ユニタリティ違反

Colored noise driven unitarity violation causing dynamical quantum state reduction ( http://arxiv.org/abs/2306.05849v1 )

ライセンス: Link先を確認
Aritro Mukherjee and Jasper van Wezel(参考訳) 量子状態減少の原因として、最近ユニタリティ違反が提案されている。 これはシュロディンガー方程式の確率的な修正に基づく提案を補完するが、いくつかの面で異なる。 ここでは、ユニタリティ違反の記述を定式化し、色雑音によって駆動される動的量子状態減少(dqsr)のモデルを示す。 このようなモデルを探索するための形式主義と、明示的ノルム保存の処方則を示し、結果の純粋な状態力学は、特定の極限でゴリーニ-コサコフスキー-スダルシャン-リンドブラッド(GKSL)マスター方程式に還元される修正されたフォン・ノイマン・リウヴィル方程式によって記述されることを示す。 さらに,モデルの変動と散逸に関する物理的制約から,同じ限界に現れるボルンの規則を順守することを示す。

Unitarity violations were recently proposed as a cause of objective quantum state reduction. This complements proposals based on stochastic modifications of Schrodinger's equation, but also differs from them in several aspects. Here, we formalise the description of unitarity violations, and show that they generically imply models of dynamical quantum state reduction (DQSR) driven by colored noise. We present a formalism for exploring such models as well as a prescription for enforcing explicit norm-preservation, and we show that the resulting pure state dynamics is described by a modified von-Neumann Liouville equation which in a particular limit reduces to the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) master equations. We additionally show adherence to Born's rule emerging in the same limit from a physical constraint relating fluctuating and dissipating components of the model.
翻訳日:2023-06-12 13:28:46 公開日:2023-06-09
# Motion-DVAE:高速な人間の動き認知のための教師なし学習

Motion-DVAE: Unsupervised learning for fast human motion denoising ( http://arxiv.org/abs/2306.05846v1 )

ライセンス: Link先を確認
Gu\'enol\'e Fiche, Simon Leglaive, Xavier Alameda-Pineda, Renaud S\'eguier(参考訳) ポーズと動きの優先順位は、ノイズのある観察から現実的で正確な人間の動きを回復するのに不可欠である。 画像からのポーズと形状推定にかなりの進歩が見られ、近年の研究ではフレームワイズ予測の精度向上に先行して印象的な結果が得られた。 しかし、多くの動作先行は連続するポーズ間の遷移のみをモデル化し、時間を要する最適化手順で使用されるため、リアルタイムなモーションキャプチャを必要とする多くのアプリケーションでは問題となる。 本研究では,人間の動作の短期的依存を捉えるための動きであるMotion-DVAEを紹介する。 動的変動オートエンコーダ(DVAE)モデルファミリーの一部として、VAEモデルの生成能力と繰り返しアーキテクチャの時間的モデリングを組み合わせる。 motion-dvaeと共に,リアルタイム3次元ポーズ推定のための単一のフレームワークにおいて,回帰と最適化に基づくアプローチを統一した教師なしの学習分節法を提案する。 実験の結果,提案手法は最先端手法との競合性能に到達し,より高速であることがわかった。

Pose and motion priors are crucial for recovering realistic and accurate human motion from noisy observations. Substantial progress has been made on pose and shape estimation from images, and recent works showed impressive results using priors to refine frame-wise predictions. However, a lot of motion priors only model transitions between consecutive poses and are used in time-consuming optimization procedures, which is problematic for many applications requiring real-time motion capture. We introduce Motion-DVAE, a motion prior to capture the short-term dependencies of human motion. As part of the dynamical variational autoencoder (DVAE) models family, Motion-DVAE combines the generative capability of VAE models and the temporal modeling of recurrent architectures. Together with Motion-DVAE, we introduce an unsupervised learned denoising method unifying regression- and optimization-based approaches in a single framework for real-time 3D human pose estimation. Experiments show that the proposed approach reaches competitive performance with state-of-the-art methods while being much faster.
翻訳日:2023-06-12 13:28:28 公開日:2023-06-09
# 集合タスクにおける骨格に基づく人行動認識のオブジェクト情報による改善

How Object Information Improves Skeleton-based Human Action Recognition in Assembly Tasks ( http://arxiv.org/abs/2306.05844v1 )

ライセンス: Link先を確認
Dustin Aganian, Mona K\"ohler, Sebastian Baake, Markus Eisenbach, and Horst-Michael Gross(参考訳) 産業生産における協調ロボット(コボット)の利用が増加し続けており、効果的な人間とロボットの協調のための人間の行動認識がますます重要になっている。 この能力は、コボットが自律的に行動し、組み立て作業を支援する上で重要である。 近年、骨格に基づくアプローチは、異なる人々や環境をより一般化する傾向にあるため、しばしば用いられる。 しかし、骨格のみを処理する場合、人間が相互作用する物体に関する情報は失われる。 そこで本稿では,オブジェクト情報をスケルトンベース行動認識に統合する新しい手法を提案する。 我々は, 物体中心をさらなる骨格関節として扱うことにより, 2つの最先端手法を強化する。 組立データセット IKEA ASM を用いた実験により,本手法は,最先端のインスタンスセグメンテーションモデルにより予測されたオブジェクトと骨格接合部を組み合わせた場合,これらの手法の性能を大幅に向上することが示された。 本研究は,スケルトンジョイントと物体情報を組み合わせた組立作業におけるヒューマンアクション認識の利点を浮き彫りにする。 本稿では,物体検出器が行動分類の組合せに与える影響を解析し,考慮すべき重要な要因について考察する。

As the use of collaborative robots (cobots) in industrial manufacturing continues to grow, human action recognition for effective human-robot collaboration becomes increasingly important. This ability is crucial for cobots to act autonomously and assist in assembly tasks. Recently, skeleton-based approaches are often used as they tend to generalize better to different people and environments. However, when processing skeletons alone, information about the objects a human interacts with is lost. Therefore, we present a novel approach of integrating object information into skeleton-based action recognition. We enhance two state-of-the-art methods by treating object centers as further skeleton joints. Our experiments on the assembly dataset IKEA ASM show that our approach improves the performance of these state-of-the-art methods to a large extent when combining skeleton joints with objects predicted by a state-of-the-art instance segmentation model. Our research sheds light on the benefits of combining skeleton joints with object information for human action recognition in assembly tasks. We analyze the effect of the object detector on the combination for action classification and discuss the important factors that must be taken into account.
翻訳日:2023-06-12 13:28:12 公開日:2023-06-09
# ベイズ二次数による多様な制約を持つ領域非依存バッチベイズ最適化

Domain-Agnostic Batch Bayesian Optimization with Diverse Constraints via Bayesian Quadrature ( http://arxiv.org/abs/2306.05843v1 )

ライセンス: Link先を確認
Masaki Adachi, Satoshi Hayakawa, Xingchen Wan, Martin J{\o}rgensen, Harald Oberhauser, Michael A. Osborne(参考訳) 実世界の最適化問題は、(1)多様な制約、(2)離散空間、および混合空間の複雑な組み合わせを特徴とすることが多い。 (4) 未知の制約が満たされていない場合、例えば、薬物発見においては、ヒトの臨床試験(探索目的関数)が進行する前に、動物実験(未知の制約)の安全性を確立する必要がある場合もある。 しかし、既存の作業の多くは上記の3つの問題を個別に対象としており、(4)クエリの拒否に関する未知の制約を考慮していない。 多様な制約や非伝統的な入力空間を持つ問題に対して、これらの手法を相互に互換性のないものとして適用することは困難である。 本稿では,Adachi et al. (2023) の SOBER をベースとしたベイズ最適化のためのドメイン非依存プルーデント並列アクティブサンプリングである cSOBER を提案する。 未知の制約の下で実現不可能を推定可能な統合エラーの一種とみなす。 本研究では, 4次精度の許容性などの誤差を伝播させ, 利用と探索のバランスを, 期待された拒絶率と自動的に両立させる理論的手法を提案する。 さらに,従来のゼロリスクの場合を含む適応耐性により,多様な制約や離散空間,混合空間を柔軟に適応する。 csoberは,安全性に制約のある薬物発見や,グラフ構造空間上でのヒューマンリレーショナル・アウェアチーム最適化など,現実世界のさまざまなブラックボックス制約問題において,競争力のあるベースラインを上回っている。

Real-world optimisation problems often feature complex combinations of (1) diverse constraints, (2) discrete and mixed spaces, and are (3) highly parallelisable. (4) There are also cases where the objective function cannot be queried if unknown constraints are not satisfied, e.g. in drug discovery, safety on animal experiments (unknown constraints) must be established before human clinical trials (querying objective function) may proceed. However, most existing works target each of the above three problems in isolation and do not consider (4) unknown constraints with query rejection. For problems with diverse constraints and/or unconventional input spaces, it is difficult to apply these techniques as they are often mutually incompatible. We propose cSOBER, a domain-agnostic prudent parallel active sampler for Bayesian optimisation, based on SOBER of Adachi et al. (2023). We consider infeasibility under unknown constraints as a type of integration error that we can estimate. We propose a theoretically-driven approach that propagates such error as a tolerance in the quadrature precision that automatically balances exploitation and exploration with the expected rejection rate. Moreover, our method flexibly accommodates diverse constraints and/or discrete and mixed spaces via adaptive tolerance, including conventional zero-risk cases. We show that cSOBER outperforms competitive baselines on diverse real-world blackbox-constrained problems, including safety-constrained drug discovery, and human-relationship-aware team optimisation over graph-structured space.
翻訳日:2023-06-12 13:27:53 公開日:2023-06-09
# インターネットとビッグファイブを介する社会的相互作用--クロスカントリー分析

Social interactions mediated by the Internet and the Big-Five: a cross-country analysis ( http://arxiv.org/abs/2306.05884v1 )

ライセンス: Link先を確認
Andrea Mercado, Alethia Hume, Ivano Bison, Fausto Giunchiglia, Amarsanaa Ganbold, and Luca Cernuzzi(参考訳) 本研究は,社会・文化の異なる状況において,デジタルプラットフォームによって媒介される社会的インタラクションと,ビッグファイブ(外向性,一致性,責任性,感情的安定性,経験への開放性)の観点から,パーソナリティ特性の関係を解析した。 我々は,トレント大学(イタリア),モンゴル国立大学(イギリス),ロンドン経済学学校(イギリス),ナエストラ大学(パラグアイ)の4大学の学生を対象に,質問紙調査とチャットボットの使用経験を,支援要請の手段として検討した。 パーソナリティ特性は社会的相互作用やグループへの積極的な参加に影響を及ぼす可能性がある。 したがって、助けを求める人々と、知識やスキルに基づいてだけでなく回答できる人たちとのマッチングアルゴリズムの推奨度を高めるために考慮すべきである。

This study analyzes the possible relationship between personality traits, in terms of Big Five (extraversion, agreeableness, responsibility, emotional stability and openness to experience), and social interactions mediated by digital platforms in different socioeconomic and cultural contexts. We considered data from a questionnaire and the experience of using a chatbot, as a mean of requesting and offering help, with students from 4 universities: University of Trento (Italy), the National University of Mongolia, the School of Economics of London (United Kingdom) and the Universidad Cat\'olica Nuestra Se\~nora de la Asunci\'on (Paraguay). The main findings confirm that personality traits may influence social interactions and active participation in groups. Therefore, they should be taken into account to enrich the recommendation of matching algorithms between people who ask for help and people who could respond not only on the basis of their knowledge and skills.
翻訳日:2023-06-12 13:21:32 公開日:2023-06-09
# 光処理によるニオブ三層接合量子のコヒーレンス向上

Improved Coherence in Optically-Defined Niobium Trilayer Junction Qubits ( http://arxiv.org/abs/2306.05883v1 )

ライセンス: Link先を確認
Alexander Anferov, Kan-Heng Lee, Fang Zhao, Jonathan Simon, David I. Schuster(参考訳) ニオブは、超伝導デバイスの中核成分であるジョセフソン接合の動作温度と周波数の増大の利点を提供する。 しかし、既存のニオブプロセスは、現在の標準アルミニウム接合よりも複雑な製法と高い損失によって制限されている。 近年の3層膜形成の進展, 損失誘電体除去法, 現代的な超伝導クビット設計法を組み合わせることで, ニオブ三層接合を再検討し, 光リソグラフィーのみで全ニオブトランスモンを作製する。 我々はマイクロ波領域のデバイスを特徴付け、コヒーレンス時間を最大62〜\mu$sまで測定し、平均クアビット品質係数を10^5$以上としています。 超伝導ギャップエネルギーが高くなると準粒子感度が0.16〜$k以上低下し、アルミニウム接合性能が低下する。 我々の低損失ジャンクションプロセスは、標準光学ベースのファウントリープロセスに容易に適用でき、直接統合とスケーラビリティのための新たな道を開き、高温で高周波数の量子デバイスへの道を開く。

Niobium offers the benefit of increased operating temperatures and frequencies for Josephson junctions, which are the core component of superconducting devices. However existing niobium processes are limited by more complicated fabrication methods and higher losses than now-standard aluminum junctions. Combining recent trilayer fabrication advancements, methods to remove lossy dielectrics and modern superconducting qubit design, we revisit niobium trilayer junctions and fabricate all-niobium transmons using only optical lithography. We characterize devices in the microwave domain, measuring coherence times up to $62~\mu$s and an average qubit quality factor above $10^5$: much closer to state-of-the-art aluminum-junction devices. We find the higher superconducting gap energy also results in reduced quasiparticle sensitivity above $0.16~$K, where aluminum junction performance deteriorates. Our low-loss junction process is readily applied to standard optical-based foundry processes, opening new avenues for direct integration and scalability, and paves the way for higher-temperature and higher-frequency quantum devices.
翻訳日:2023-06-12 13:21:10 公開日:2023-06-09
# 良いが常に公平ではない:3つの商用機械翻訳システムにおけるジェンダーバイアスの評価

Good, but not always Fair: An Evaluation of Gender Bias for three commercial Machine Translation Systems ( http://arxiv.org/abs/2306.05882v1 )

ライセンス: Link先を確認
Silvia Alma Piazzolla, Beatrice Savoldi, Luisa Bentivogli(参考訳) 機械翻訳(MT)は品質を著しく向上させ続けており、より大規模に採用されている。 その結果、分析はよりニュアンス的な側面、複雑な現象、そしてmtツールの普及によって生じる潜在的なリスクに向けられた。 本稿では,Google Translate,DeepL,Modern MTの3つの商用MTシステムについて,特にジェンダー翻訳と偏見に着目し,綿密な評価を行う。 3つの言語ペア(英語/スペイン語、英語/イタリア語、英語/フランス語)に対して、このようなシステムの振る舞いを、いくつかのレベルの粒度と、翻訳において自然に生じる様々なジェンダー現象について精査する。 本研究は, オンラインMTツールの現状を把握し, 3つのシステムの性別翻訳における大きな相違点を明らかにし, 全体的な翻訳品質に関わらず, それぞれのシステムが様々なバイアスを呈示することを示した。

Machine Translation (MT) continues to make significant strides in quality and is increasingly adopted on a larger scale. Consequently, analyses have been redirected to more nuanced aspects, intricate phenomena, as well as potential risks that may arise from the widespread use of MT tools. Along this line, this paper offers a meticulous assessment of three commercial MT systems - Google Translate, DeepL, and Modern MT - with a specific focus on gender translation and bias. For three language pairs (English/Spanish, English/Italian, and English/French), we scrutinize the behavior of such systems at several levels of granularity and on a variety of naturally occurring gender phenomena in translation. Our study takes stock of the current state of online MT tools, by revealing significant discrepancies in the gender translation of the three systems, with each system displaying varying degrees of bias despite their overall translation quality.
翻訳日:2023-06-12 13:20:51 公開日:2023-06-09
# インプットニューラル表現を用いたインプットと予測のための時系列連続モデリング

Time Series Continuous Modeling for Imputation and Forecasting with Implicit Neural Representations ( http://arxiv.org/abs/2306.05880v1 )

ライセンス: Link先を確認
Etienne Le Naour, Louis Serrano, L\'eon Migus, Yuan Yin, patrick gallinari, Ghislain Agoua, Nicolas Baskiotis, Vincent Guigue(参考訳) 広く研究されているが、時系列モデリングは現実世界のデータに直面すると大きな課題に遭遇し続けている。 Inlicit Neural Representation (INR) を利用した新しいモデリング手法を提案する。 提案手法により,時系列の連続的な側面を効果的に把握し,欠落データ処理,不規則サンプリング処理,複数センサからの非整合観測などのモデリング問題に対する自然な解決策を提供する。 inrパラメータの条件付き変調を導入し,メタラーニング技術を活用することで,未知のサンプルと時間窓シフトの両方に対する一般化の問題に対処する。 大規模な実験を通じて,本モデルでは予測および計算タスクにおける最先端の性能を実証するとともに,競合するモデルでは不可能な幅広い難解シナリオを扱う柔軟性を示す。

Although widely explored, time series modeling continues to encounter significant challenges when confronted with real-world data. We propose a novel modeling approach leveraging Implicit Neural Representations (INR). This approach enables us to effectively capture the continuous aspect of time series and provides a natural solution to recurring modeling issues such as handling missing data, dealing with irregular sampling, or unaligned observations from multiple sensors. By introducing conditional modulation of INR parameters and leveraging meta-learning techniques, we address the issue of generalization to both unseen samples and time window shifts. Through extensive experimentation, our model demonstrates state-of-the-art performance in forecasting and imputation tasks, while exhibiting flexibility in handling a wide range of challenging scenarios that competing models cannot.
翻訳日:2023-06-12 13:20:35 公開日:2023-06-09
# 正規化は多領域連合学習に不可欠か?

Is Normalization Indispensable for Multi-domain Federated Learning? ( http://arxiv.org/abs/2306.05879v1 )

ライセンス: Link先を確認
Weiming Zhuang, Lingjuan Lyu(参考訳) フェデレートラーニング(FL)は、分散クライアントでの協調的なインサイトトレーニングによって、データのプライバシを高める。 しかしながら、FLは非独立で同一に分散した(非i.d)データのために困難に遭遇し、潜在的な性能劣化と収束の妨げとなる。 先行研究はスキュードラベル分布の問題に主に対処するが,本研究は多ドメインFLとして知られる重要かつ頻繁に見過ごされる問題に対処する。 このシナリオでは、クライアントのデータは、ラベル分布とは対照的に、異なる特徴分布を持つ多様なドメインに由来する。 FLにおけるマルチドメイン問題に対処するため,FedWon(Federated Learning Without normalizations)と呼ばれる新しい手法を提案する。 fedwon氏は、バッチ正規化(bn)が複数のドメインの統計を効果的にモデル化する上で課題に直面しているという観察からインスピレーションを得ている。 これらの問題に対処するため、FedWonはFLのすべての正規化を排除し、スケールされた重み付けの標準化で畳み込み層を再パラメータ化する。 4つのデータセットと4つのモデルに関する総合的な実験を通じて、FedWonはFedAvgと現在の最先端手法(FedBN)をすべての実験環境で超越し、特定の領域において10%以上の顕著な改善を実現していることを示す。 さらに、FedWonはクロスサイロとクロスデバイスFLの両方に汎用性があり、バッチサイズが1まで小さくても高い性能を示し、リソース制約されたデバイスに対応できる。 さらにFedWonは、ラベルのスキュー化という課題に効果的に取り組む。

Federated learning (FL) enhances data privacy with collaborative in-situ training on decentralized clients. Nevertheless, FL encounters challenges due to non-independent and identically distributed (non-i.i.d) data, leading to potential performance degradation and hindered convergence. While prior studies predominantly addressed the issue of skewed label distribution, our research addresses a crucial yet frequently overlooked problem known as multi-domain FL. In this scenario, clients' data originate from diverse domains with distinct feature distributions, as opposed to label distributions. To address the multi-domain problem in FL, we propose a novel method called Federated learning Without normalizations (FedWon). FedWon draws inspiration from the observation that batch normalization (BN) faces challenges in effectively modeling the statistics of multiple domains, while alternative normalization techniques possess their own limitations. In order to address these issues, FedWon eliminates all normalizations in FL and reparameterizes convolution layers with scaled weight standardization. Through comprehensive experimentation on four datasets and four models, our results demonstrate that FedWon surpasses both FedAvg and the current state-of-the-art method (FedBN) across all experimental setups, achieving notable improvements of over 10% in certain domains. Furthermore, FedWon is versatile for both cross-silo and cross-device FL, exhibiting strong performance even with a batch size as small as 1, thereby catering to resource-constrained devices. Additionally, FedWon effectively tackles the challenge of skewed label distribution.
翻訳日:2023-06-12 13:20:21 公開日:2023-06-09
# 深い強化学習における逆方向の検出とロバストな決定

Detecting Adversarial Directions in Deep Reinforcement Learning to Make Robust Decisions ( http://arxiv.org/abs/2306.05873v1 )

ライセンス: Link先を確認
Ezgi Korkmaz, Jonah Brown-Cohen(参考訳) 高度に複雑な状態表現を持つMDPでの学習は、強化学習アルゴリズムの設計の進歩により、現在可能である。 しかし、このことは複雑さを傾け、さらに観測の寸法の増大は、敵対的な攻撃(すなわち観測空間の最悪の場合の方向に沿って移動する)によって得られる不安定さの犠牲になった。 この政策不安定性問題を解決するために,ニューラルポリシー損失の局所的2次近似を用いて,これらの非破壊方向の存在を検出する新しい手法を提案する。 本手法は, 安全観測と逆観測の基本的な切り離しの理論的基礎を提供する。 さらに,本手法は計算効率が良く,最悪の場合の方向を推定する手法には依存しない。 アーケード学習環境において,複数の異なる攻撃手法を用いて大規模な実験を行う。 さらに,提案手法を回避すべく,非破壊方向が明示的に最適化されている場合においても,提案手法の有効性を示す。

Learning in MDPs with highly complex state representations is currently possible due to multiple advancements in reinforcement learning algorithm design. However, this incline in complexity, and furthermore the increase in the dimensions of the observation came at the cost of volatility that can be taken advantage of via adversarial attacks (i.e. moving along worst-case directions in the observation space). To solve this policy instability problem we propose a novel method to detect the presence of these non-robust directions via local quadratic approximation of the deep neural policy loss. Our method provides a theoretical basis for the fundamental cut-off between safe observations and adversarial observations. Furthermore, our technique is computationally efficient, and does not depend on the methods used to produce the worst-case directions. We conduct extensive experiments in the Arcade Learning Environment with several different adversarial attack techniques. Most significantly, we demonstrate the effectiveness of our approach even in the setting where non-robust directions are explicitly optimized to circumvent our proposed method.
翻訳日:2023-06-12 13:19:51 公開日:2023-06-09
# Neural Haircut:前ガイド型ストランドベースヘアコンストラクション

Neural Haircut: Prior-Guided Strand-Based Hair Reconstruction ( http://arxiv.org/abs/2306.05872v1 )

ライセンス: Link先を確認
Vanessa Sklyarova (1), Jenya Chelishev (2), Andreea Dogaru (3), Igor Medvedev (1), Victor Lempitsky (4), Egor Zakharov (1) ((1) Samsung AI Center, (2) Rockstar Games, (3) FAU Erlangen-N\"urnberg, (4) Cinemersive Labs)(参考訳) 画像や映像データを用いたリアルな3d再構成は,様々なコミュニケーションやエンタテインメントアプリケーションにおいて不可欠である。 既存の手法は体と顔の領域で印象的な結果を得たが、機械的な複雑さのため、現実的な髪型モデリングは依然として困難である。 本研究は,無制御照明条件で撮影された単眼映像や多視点画像からストランドレベルで正確な毛髪形状再構成を可能にする手法を提案する。 提案手法は2段階であり,第1段階は暗黙の容積表現を用いた粗い毛髪とバスト形状と毛髪方向の関節再建を行った。 第2段階では、合成データから得られた毛髪ストランドと髪型プリエントとの粗い容積制約を単一の最適化プロセスで調整することにより、鎖レベルの毛髪再構成を推定する。 復元精度をさらに高めるため,新たな微分可能レンダラを用いて画像ベースロスをフィッティングプロセスに組み込む。 この組み合わせシステムはニューラルヘアカット(neural haircut)と呼ばれ、再構成されたヘアスタイルを高いリアリズムとパーソナライズを達成する。

Generating realistic human 3D reconstructions using image or video data is essential for various communication and entertainment applications. While existing methods achieved impressive results for body and facial regions, realistic hair modeling still remains challenging due to its high mechanical complexity. This work proposes an approach capable of accurate hair geometry reconstruction at a strand level from a monocular video or multi-view images captured in uncontrolled lighting conditions. Our method has two stages, with the first stage performing joint reconstruction of coarse hair and bust shapes and hair orientation using implicit volumetric representations. The second stage then estimates a strand-level hair reconstruction by reconciling in a single optimization process the coarse volumetric constraints with hair strand and hairstyle priors learned from the synthetic data. To further increase the reconstruction fidelity, we incorporate image-based losses into the fitting process using a new differentiable renderer. The combined system, named Neural Haircut, achieves high realism and personalization of the reconstructed hairstyles.
翻訳日:2023-06-12 13:19:34 公開日:2023-06-09
# 言語モデル生成テキストの堅牢な検出に向けて:chatgptは検出が容易か?

Towards a Robust Detection of Language Model Generated Text: Is ChatGPT that Easy to Detect? ( http://arxiv.org/abs/2306.05871v1 )

ライセンス: Link先を確認
Wissam Antoun, Virginie Mouilleron, Beno\^it Sagot, Djam\'e Seddah(参考訳) 自然言語処理(NLP)の最近の進歩は、ChatGPTのような大規模言語モデル(LLM)の開発につながっている。 本稿では,フランス語テキスト用chatgpt検出器の開発と評価手法を提案する。 提案手法は、英語データセットをフランス語に翻訳し、翻訳データに基づいて分類器を訓練することを含む。 その結果,検出者はチャットgpt生成テキストを効果的に検出でき,ドメイン内設定における基本的な攻撃手法に対する頑健性が示された。 しかし、脆弱性はドメイン外のコンテキストで明らかであり、敵のテキストを検出するという課題を強調している。 この研究は、幅広いコンテンツにドメイン内テスト結果を適用する際に注意を払っている。 翻訳されたデータセットとモデルをオープンソースリソースとして提供します。 https://gitlab.inria.fr/wantoun/robust-chatgpt-detection

Recent advances in natural language processing (NLP) have led to the development of large language models (LLMs) such as ChatGPT. This paper proposes a methodology for developing and evaluating ChatGPT detectors for French text, with a focus on investigating their robustness on out-of-domain data and against common attack schemes. The proposed method involves translating an English dataset into French and training a classifier on the translated data. Results show that the detectors can effectively detect ChatGPT-generated text, with a degree of robustness against basic attack techniques in in-domain settings. However, vulnerabilities are evident in out-of-domain contexts, highlighting the challenge of detecting adversarial text. The study emphasizes caution when applying in-domain testing results to a wider variety of content. We provide our translated datasets and models as open-source resources. https://gitlab.inria.fr/wantoun/robust-chatgpt-detection
翻訳日:2023-06-12 13:19:14 公開日:2023-06-09
# 農業用ロボットナビゲーションのためのビジョンベースの作物列出口

Leaving the Lines Behind: Vision-Based Crop Row Exit for Agricultural Robot Navigation ( http://arxiv.org/abs/2306.05869v1 )

ライセンス: Link先を確認
Rajitha de Silva, Grzegorz Cielniak, Junfeng Gao(参考訳) 既存の視覚ベースのクロップ行ナビゲーションフレームワークでは、純粋な視覚ベースの行切替ソリューションの使用は十分に検討されていない。 この方法は,局所的特徴マッチングに基づく視覚フィードバックに対してのみrgb画像を用いる。 樹冠端の深度画像を用いて,頭部内の航法距離を推定した。 このアルゴリズムは土壌と植生の多様なヘッドランドでテストされた。 提案手法は, 作物列の端部まで到達し, 50cmの誤差マージンで作物列の後方を完全に残すヘッドランドへ移動することが可能であった。

Usage of purely vision based solutions for row switching is not well explored in existing vision based crop row navigation frameworks. This method only uses RGB images for local feature matching based visual feedback to exit crop row. Depth images were used at crop row end to estimate the navigation distance within headland. The algorithm was tested on diverse headland areas with soil and vegetation. The proposed method could reach the end of the crop row and then navigate into the headland completely leaving behind the crop row with an error margin of 50 cm.
翻訳日:2023-06-12 13:18:58 公開日:2023-06-09
# より高速な離散凸関数最小化と予測:M凸の場合

Faster Discrete Convex Function Minimization with Predictions: The M-Convex Case ( http://arxiv.org/abs/2306.05865v1 )

ライセンス: Link先を確認
Taihei Oki, Shinsaku Sakaue(参考訳) 近年,機械学習予測による最適化アルゴリズムの高速化に注目が集まっている。 Sakaue と Oki (NeurIPS 2022) は,L-convex 関数最小化法を予測で温め,様々な離散最適化問題に対するアイデアの有用性を明らかにした。 本稿では,m-凸関数の最小化を高速化するために予測を用いる枠組みを提案し,これまでの研究を補完し,予測の恩恵を受ける離散最適化アルゴリズムの範囲を広げる。 私たちのフレームワークは、多くのオペレーション研究アプリケーションで見られるlaminar convex minimizationと呼ばれる重要なサブクラスに特に有効です。 提案手法は, 予測値を用いて, 最高の最悪の結果に縛られる時間的複雑性を改善でき, また, 下位値を超える可能性も有する。

Recent years have seen a growing interest in accelerating optimization algorithms with machine-learned predictions. Sakaue and Oki (NeurIPS 2022) have developed a general framework that warm-starts the L-convex function minimization method with predictions, revealing the idea's usefulness for various discrete optimization problems. In this paper, we present a framework for using predictions to accelerate M-convex function minimization, thus complementing previous research and extending the range of discrete optimization algorithms that can benefit from predictions. Our framework is particularly effective for an important subclass called laminar convex minimization, which appears in many operations research applications. Our methods can improve time complexity bounds upon the best worst-case results by using predictions and even have potential to go beyond a lower-bound result.
翻訳日:2023-06-12 13:18:49 公開日:2023-06-09
# Sketch2Stress: 構造的ストレス認識によるスケッチ

Sketch2Stress: Sketching with Structural Stress Awareness ( http://arxiv.org/abs/2306.05911v1 )

ライセンス: Link先を確認
Deng Yu, Chufeng Xiao, Manfred Lau, and Hongbo Fu(参考訳) 製品設計とデジタル製造の過程において、設計されたプロトタイプの構造解析は基本的で不可欠なステップである。 しかし、そのようなステップは通常、初期のスケッチフェーズでデザイナーには見えないか、アクセスできない。 これは、形状の物理的特性と構造的健全性を考慮するユーザーの能力を制限する。 そこで,このギャップを埋めるために,ユーザが希望するオブジェクトの構造解析をスケッチ段階で行える新しいsketch2stressを提案する。 この方法は、2次元のフリーハンドスケッチと、ユーザ指定外力の1つまたは複数の位置を入力とする。 特別に設計された2分岐生成・反転フレームワークにより、通常のマップとそれに対応する構造的ストレスマップを自動的に予測する。 この方法では, 設計者があらゆる場所で持続するストレスを容易に検証し, スケッチ対象の潜在的な問題領域を特定することができる。 さらに、予測された通常の地図と組み合わせることで、複数の力の応力効果を同じ方向に集約することで、地域的構造解析を効率的に行うことができる。 最後に,本システムの有効性と実用性を,広範な実験とユーザスタディで実証する。

In the process of product design and digital fabrication, the structural analysis of a designed prototype is a fundamental and essential step. However, such a step is usually invisible or inaccessible to designers at the early sketching phase. This limits the user's ability to consider a shape's physical properties and structural soundness. To bridge this gap, we introduce a novel approach Sketch2Stress that allows users to perform structural analysis of desired objects at the sketching stage. This method takes as input a 2D freehand sketch and one or multiple locations of user-assigned external forces. With the specially-designed two-branch generative-adversarial framework, it automatically predicts a normal map and a corresponding structural stress map distributed over the user-sketched underlying object. In this way, our method empowers designers to easily examine the stress sustained everywhere and identify potential problematic regions of their sketched object. Furthermore, combined with the predicted normal map, users are able to conduct a region-wise structural analysis efficiently by aggregating the stress effects of multiple forces in the same direction. Finally, we demonstrate the effectiveness and practicality of our system with extensive experiments and user studies.
翻訳日:2023-06-12 13:10:47 公開日:2023-06-09
# 2DeteCT -- 機械学習のための大規模な2次元拡張可能、トレーニング可能、実験的なComputed Tomographyデータセット

2DeteCT -- A large 2D expandable, trainable, experimental Computed Tomography dataset for machine learning ( http://arxiv.org/abs/2306.05907v1 )

ライセンス: Link先を確認
Maximilian B. Kiss, Sophia B. Coban, K. Joost Batenburg, Tristan van Leeuwen, Felix Lucka(参考訳) 最近の計算画像研究は、画像再構成のための機械学習(ml)技術の開発に重点を置いている。 しかし、X線CT(Computerd Tomography)に適した実験データセットは乏しく、シミュレーションデータのみを用いて手法を開発・評価することが多い。 我々は,多様な画像再構成タスクのためのml技術の開発に適したオープン2次元ファンビームctデータセットをコミュニティに提供することで,このギャップを埋めている。 そこで我々は,高フレキシブルなX線CT装置を用いた半自動スキャン手法を考案した。 形状と密度の異なる多種多様な試料のスライス・バイ・スライス(全5000スライス)を高角分解能,空間分解能,高密度,低線量,ビーム硬化モードの3つの異なるビーム特性でスキャンした。 さらに,頑健性やセグメンテーションタスクに対応するために,750個のスライスを試料とビームのバリエーションでスキャンした。 我々は、オープンソースのデータ処理パイプラインに基づいて、生のプロジェクションデータ、参照再構成、セグメンテーションを提供する。

Recent research in computational imaging largely focuses on developing machine learning (ML) techniques for image reconstruction, which requires large-scale training datasets consisting of measurement data and ground-truth images. However, suitable experimental datasets for X-ray Computed Tomography (CT) are scarce, and methods are often developed and evaluated only on simulated data. We fill this gap by providing the community with a versatile, open 2D fan-beam CT dataset suitable for developing ML techniques for a range of image reconstruction tasks. To acquire it, we designed a sophisticated, semi-automatic scan procedure that utilizes a highly-flexible laboratory X-ray CT setup. A diverse mix of samples with high natural variability in shape and density was scanned slice-by-slice (5000 slices in total) with high angular and spatial resolution and three different beam characteristics: A high-fidelity, a low-dose and a beam-hardening-inflicted mode. In addition, 750 out-of-distribution slices were scanned with sample and beam variations to accommodate robustness and segmentation tasks. We provide raw projection data, reference reconstructions and segmentations based on an open-source data processing pipeline.
翻訳日:2023-06-12 13:10:31 公開日:2023-06-09
# TreeDQN: 分岐境界木を最小化する学習

TreeDQN: Learning to minimize Branch-and-Bound tree ( http://arxiv.org/abs/2306.05905v1 )

ライセンス: Link先を確認
Dmitry Sorokin, Alexander Kostin(参考訳) 組合せ最適化問題は最適解を見つけるために徹底的な探索を必要とする。 組合せ最適化タスクを混合整数線形プログラムの形で解くための便利なアプローチは分岐と境界である。 Branch-and-Boundソルバは、タスクを整数変数のドメインを分割する2つの部分に分割し、再帰的に解決し、ネストしたサブタスクのツリーを生成する。 解法の効率は、分割する変数を選択するのに使用される分岐ヒューリスティックに依存する。 本研究では,分岐ヒューリスティックを効率的に学習できる強化学習手法を提案する。 可変選択タスクを木マルコフ決定プロセスとして捉え,木マルコフ決定プロセスに適応したベルマン演算子が平均的に収縮していることを証明するとともに,強化学習エージェントに対する修正学習目標を提案する。 エージェントは,前回の強化学習法に比べて,トレーニングデータが少なく,より小さな木を生成できる。

Combinatorial optimization problems require an exhaustive search to find the optimal solution. A convenient approach to solving combinatorial optimization tasks in the form of Mixed Integer Linear Programs is Branch-and-Bound. Branch-and-Bound solver splits a task into two parts dividing the domain of an integer variable, then it solves them recursively, producing a tree of nested sub-tasks. The efficiency of the solver depends on the branchning heuristic used to select a variable for splitting. In the present work, we propose a reinforcement learning method that can efficiently learn the branching heuristic. We view the variable selection task as a tree Markov Decision Process, prove that the Bellman operator adapted for the tree Markov Decision Process is contracting in mean, and propose a modified learning objective for the reinforcement learning agent. Our agent requires less training data and produces smaller trees compared to previous reinforcement learning methods.
翻訳日:2023-06-12 13:10:08 公開日:2023-06-09
# 立方格子を用いたパウリスピン行列の一般化

Generalizing Pauli Spin Matrices Using Cubic Lattices ( http://arxiv.org/abs/2306.05903v1 )

ライセンス: Link先を確認
Morrison Turnansky(参考訳) 量子力学において、作用素代数的実現と状態可観測物の測定の論理モデルとの接続は、長い間オープンな問題であった。 ここで述べるアプローチでは、立方格子の新たな応用について紹介する。 我々は、立方格子はフォン・ノイマン環の自己随伴空間の部分集合として忠実に実現できると主張する。 さらに、立方体格子の対称性群のユニタリ表現を得る。 そのため、古典的な量子ゲートを導出し、任意の濃度の量子ビットの系をどのように支配するかを記述する。

In quantum mechanics, the connection between the operator algebraic realization and the logical models of measurement of state observables has long been an open question. In the approach that is presented here, we introduce a new application of the cubic lattice. We claim that the cubic lattice may be faithfully realized as a subset of the self-adjoint space of a von Neumann algebra. Furthermore, we obtain a unitary representation of the symmetry group of the cubic lattice. In so doing, we re-derive the classic quantum gates and gain a description of how they govern a system of qubits of arbitrary cardinality.
翻訳日:2023-06-12 13:09:52 公開日:2023-06-09
# 企業のサイバー犯罪を語る: 脅威の風景に対する地下のコミュニティの関連性を推測する枠組み

You Can Tell a Cybercriminal by the Company they Keep: A Framework to Infer the Relevance of Underground Communities to the Threat Landscape ( http://arxiv.org/abs/2306.05898v1 )

ライセンス: Link先を確認
Michele Campobasso, Luca Allodi(参考訳) 犯罪現場にはフォーラムのマーケットプレースがあり、サイバー犯罪者は知識やスキル、サイバー犯罪製品を共有している。 しかし、すべてのマーケットプレースが全体的な脅威の状況で同じであるかどうかはまだ不明である。 取引を効果的に支援するためには、地下市場は(マルウェアの再パッケージや何年も前のパスワードデータベースとは対照的に)実際の技術とサイバー犯罪製品の交換を可能にする基本的な経済問題(道徳的ハザード、有害選択など)に対処する必要がある。 関連する文献や手作業による調査から、これらの問題を解決するためにマーケットプレイスが実装するいくつかのメカニズムを特定し、ビジネスモデルキャンバスに基づいた市場評価フレームワークにまとめる。 このフレームワークを使用して,'成功' マーケットプレースの有無,'成功' マーケットプレースで採用されているものとの違いを評価する。 このフレームワークを23の地下フォーラム市場でテストし、起訴されたサイバー犯罪者の836の別名を検索して'successful'マーケットプレースを特定した。 我々は、管理者が貿易に不公平であり、売り手を検証し、市場を機能に保つための適切な経済インセンティブを持っている市場が、より信頼できる脅威源である可能性が高いという証拠を見つけ出す。

The criminal underground is populated with forum marketplaces where, allegedly, cybercriminals share and trade knowledge, skills, and cybercrime products. However, it is still unclear whether all marketplaces matter the same in the overall threat landscape. To effectively support trade and avoid degenerating into scams-for-scammers places, underground markets must address fundamental economic problems (such as moral hazard, adverse selection) that enable the exchange of actual technology and cybercrime products (as opposed to repackaged malware or years-old password databases). From the relevant literature and manual investigation, we identify several mechanisms that marketplaces implement to mitigate these problems, and we condense them into a market evaluation framework based on the Business Model Canvas. We use this framework to evaluate which mechanisms `successful' marketplaces have in place, and whether these differ from those employed by `unsuccessful' marketplaces. We test the framework on 23 underground forum markets by searching 836 aliases of indicted cybercriminals to identify `successful' marketplaces. We find evidence that marketplaces whose administrators are impartial in trade, verify their sellers, and have the right economic incentives to keep the market functional are more likely to be credible sources of threat.
翻訳日:2023-06-12 13:09:43 公開日:2023-06-09
# 漸近的効率のよい一段階確率勾配降下

Asymptotically efficient one-step stochastic gradient descent ( http://arxiv.org/abs/2306.05896v1 )

ライセンス: Link先を確認
Alain Bensoussan (Jindal School of Management, The University of Texas at Dallas), Alexandre Brouste (LMM), Youssef Esstafa (LMM)(参考訳) パラメトリック推定のための汎用的,高速かつ漸近的に効率的な手法について述べる。 これは、フィッシャースコアリングアルゴリズムの単一ステップで補正された対数型関数の確率勾配勾配に基づいている。 理論的およびシミュレーションにより、平均化あるいは適応的確率勾配降下を伴う通常の確率勾配降下に対する興味深い代替であることを示す。

A generic, fast and asymptotically efficient method for parametric estimation is described. It is based on the stochastic gradient descent on the loglikelihood function corrected by a single step of the Fisher scoring algorithm. We show theoretically and by simulations in the i.i.d. setting that it is an interesting alternative to the usual stochastic gradient descent with averaging or the adaptative stochastic gradient descent.
翻訳日:2023-06-12 13:09:16 公開日:2023-06-09
# ミスアライメントマイクロキャビティにおけるモード混合と損失

Mode mixing and losses in misaligned microcavities ( http://arxiv.org/abs/2306.05894v1 )

ライセンス: Link先を確認
William J. Hughes, Thomas H. Doherty, Jacob A. Blackmore, Peter Horak, Joseph F. Goodwin(参考訳) 本稿では,現実的な横ミラーの誤配を受けるFabry-P\'erot空洞の光学的損失について検討する。 我々は、理想化された球面の凹凸と、レーザーアブレーションによって生成されたガウスプロファイルの2つの最も一般的な表面形状の鏡を考える。 まず,球面ミラーの場合に見られるモード混合現象を説明し,よく使われるクリッピングモデルと比較し,予測回折損失の密な一致を観測した。 次に,ガウスミラーの場合について考察し,鏡面の曲率の変化がラウンドトリップ損失とモードプロファイルの複雑な変化にどのようにつながるかを説明した。 ガウス鏡を用いた場合, 重度のモード歪みや空洞長, 横方向のアライメントで予測される損失が強いことから, 空洞実験では鏡面形状の影響が慎重に検討されていることが示唆された。

We present a study on the optical losses of Fabry-P\'erot cavities subject to realistic transverse mirror misalignment. We consider mirrors of the two most prevalent surface forms: idealised spherical depressions, and Gaussian profiles generated by laser ablation. We first describe the mode mixing phenomena seen in the spherical mirror case and compare to the frequently-used clipping model, observing close agreement in the predicted diffraction loss, but with the addition of protective mode mixing at transverse degeneracies. We then discuss the Gaussian mirror case, detailing how the varying surface curvature across the mirror leads to complex variations in round trip loss and mode profile. In light of the severe mode distortion and strongly elevated loss predicted for many cavity lengths and transverse alignments when using Gaussian mirrors, we suggest that the consequences of mirror surface profile are carefully considered when designing cavity experiments.
翻訳日:2023-06-12 13:09:10 公開日:2023-06-09
# c(nn)fd - ターボ機械cfd解析のためのディープラーニングフレームワーク

C(NN)FD -- a deep learning framework for turbomachinery CFD analysis ( http://arxiv.org/abs/2306.05889v1 )

ライセンス: Link先を確認
Giuseppe Bruni, Sepehr Maleki, Senthil K. Krishnababu(参考訳) ディープラーニングの手法は、さまざまな業界で幅広い応用が成功している。 これまでCFD(Computational Fluid Dynamics)のような物理シミュレーションへの応用は、小さな産業関連性の単純なテストケースに限られていた。 本稿では, ガスタービンの軸圧縮機全体の性能に及ぼす製造・施工の変動の影響をリアルタイムに予測するための新しいディープラーニングフレームワークを開発し, 先端クリアランスの変動に着目した。 効率の散乱はCO_2$の排出を著しく増加させ、工業的および環境的関連性が高い。 提案した \textit{C(NN)FD} アーキテクチャは,CFD ベンチマークに匹敵するリアルタイム精度を実現する。 フローフィールドを予測し、それに対応する全体的なパフォーマンスを計算することで、cfdソリューションの関連部分のみをフィルタリングしながら、方法論を一般化することができる。

Deep Learning methods have seen a wide range of successful applications across different industries. Up until now, applications to physical simulations such as CFD (Computational Fluid Dynamics), have been limited to simple test-cases of minor industrial relevance. This paper demonstrates the development of a novel deep learning framework for real-time predictions of the impact of manufacturing and build variations on the overall performance of axial compressors in gas turbines, with a focus on tip clearance variations. The associated scatter in efficiency can significantly increase the $CO_2$ emissions, thus being of great industrial and environmental relevance. The proposed \textit{C(NN)FD} architecture achieves in real-time accuracy comparable to the CFD benchmark. Predicting the flow field and using it to calculate the corresponding overall performance renders the methodology generalisable, while filtering only relevant parts of the CFD solution makes the methodology scalable to industrial applications.
翻訳日:2023-06-12 13:08:51 公開日:2023-06-09
# trackformer:予測軌道仮説を用いた3次元物体追跡トランス

TrajectoryFormer: 3D Object Tracking Transformer with Predictive Trajectory Hypotheses ( http://arxiv.org/abs/2306.05888v1 )

ライセンス: Link先を確認
Xuesong Chen, Shaoshuai Shi, Chao Zhang, Benjin Zhu, Qiang Wang, Ka Chun Cheung, Simon See, Hongsheng Li(参考訳) 3Dマルチオブジェクトトラッキング(MOT)は、自動運転車やサービスロボットを含む多くのアプリケーションにとって不可欠である。 一般的に使われているトラッキング・バイ・検出パラダイムにより、3D MOTは近年重要な進歩を遂げている。 しかし、これらの手法は、現在のフレームの検知ボックスのみを使用してトラジェクトリボックス関連結果を得るため、検出器が見逃した物体の回収が不可能になる。 本稿では,新しいポイントクラウドベースの3DMOTフレームワークであるTrjectoryFormerを提案する。 検出により欠落した物体を復元するために,時間的に予測された箱や現在フレーム検出箱を含む混成候補箱を用いた複数の軌道仮説を生成。 予測ボックスは、オブジェクトの履歴軌跡情報を現在のフレームに伝達し、追跡されたオブジェクトの短期的ミス検出を許容する。 本研究では,長期的物体運動特徴と短期的物体出現特徴を組み合わせることで,空間時間符号化の計算オーバーヘッドを低減する。 さらに,全仮説間の情報インタラクションを行い,それらの空間的関係をモデル化するグローバルローカルインタラクションモジュールを導入し,仮説を正確に推定する。 TrajectoryFormerはWaymo 3D MOTベンチマークで最先端のパフォーマンスを実現しています。

3D multi-object tracking (MOT) is vital for many applications including autonomous driving vehicles and service robots. With the commonly used tracking-by-detection paradigm, 3D MOT has made important progress in recent years. However, these methods only use the detection boxes of the current frame to obtain trajectory-box association results, which makes it impossible for the tracker to recover objects missed by the detector. In this paper, we present TrajectoryFormer, a novel point-cloud-based 3D MOT framework. To recover the missed object by detector, we generates multiple trajectory hypotheses with hybrid candidate boxes, including temporally predicted boxes and current-frame detection boxes, for trajectory-box association. The predicted boxes can propagate object's history trajectory information to the current frame and thus the network can tolerate short-term miss detection of the tracked objects. We combine long-term object motion feature and short-term object appearance feature to create per-hypothesis feature embedding, which reduces the computational overhead for spatial-temporal encoding. Additionally, we introduce a Global-Local Interaction Module to conduct information interaction among all hypotheses and models their spatial relations, leading to accurate estimation of hypotheses. Our TrajectoryFormer achieves state-of-the-art performance on the Waymo 3D MOT benchmarks.
翻訳日:2023-06-12 13:08:36 公開日:2023-06-09
# recurrent fusion dilated convolution と channel attention を用いた効率的な音声分離ネットワーク

An Efficient Speech Separation Network Based on Recurrent Fusion Dilated Convolution and Channel Attention ( http://arxiv.org/abs/2306.05887v1 )

ライセンス: Link先を確認
Junyu Wang(参考訳) 本稿では,拡張畳み込み,マルチスケール融合(MSF),チャネルアテンションを組み合わせた効率的な音声分離ニューラルネットワーク ARFDCN を提案する。 提案するネットワークアーキテクチャはエンコーダデコーダベースである。 拡張値が徐々に増加する拡張畳み込みを用いて局所的特徴とグローバル的特徴を学習し、隣接する段階に融合することにより、モデルはリッチな特徴内容を学ぶことができる。 一方、チャネルアテンションモジュールをネットワークに加えることで、チャネルウェイトを抽出し、より重要な特徴を学習し、表現力と堅牢性を向上させることができる。 実験結果から,本モデルの性能と計算効率のバランスは良好であり,現在の主流モデルの実用的代替として有望であることが示唆された。

We present an efficient speech separation neural network, ARFDCN, which combines dilated convolutions, multi-scale fusion (MSF), and channel attention to overcome the limited receptive field of convolution-based networks and the high computational cost of transformer-based networks. The suggested network architecture is encoder-decoder based. By using dilated convolutions with gradually increasing dilation value to learn local and global features and fusing them at adjacent stages, the model can learn rich feature content. Meanwhile, by adding channel attention modules to the network, the model can extract channel weights, learn more important features, and thus improve its expressive power and robustness. Experimental results indicate that the model achieves a decent balance between performance and computational efficiency, making it a promising alternative to current mainstream models for practical applications.
翻訳日:2023-06-12 13:08:16 公開日:2023-06-09
# システム・社会における生成型AIシステムの社会的影響評価

Evaluating the Social Impact of Generative AI Systems in Systems and Society ( http://arxiv.org/abs/2306.05949v1 )

ライセンス: Link先を確認
Irene Solaiman, Zeerak Talat, William Agnew, Lama Ahmad, Dylan Baker, Su Lin Blodgett, Hal Daum\'e III, Jesse Dodge, Ellie Evans, Sara Hooker, Yacine Jernite, Alexandra Sasha Luccioni, Alberto Lusoli, Margaret Mitchell, Jessica Newman, Marie-Therese Png, Andrew Strait, Apostol Vassilev(参考訳) テキスト、画像、オーディオ、ビデオなど、さまざまなモダリティにわたる生成AIシステムは、幅広い社会的影響を持つが、これらの影響を評価するための公式な標準は存在しない。 我々は,任意のモダリティに対する生成型aiシステムを評価するための標準的アプローチに目を向ける。2つの包括的なカテゴリ: 所定のアプリケーションを持たないベースシステムで何が評価可能か,社会で何が評価可能か。 本稿では、特定の社会的影響カテゴリと、基礎技術システム、次に人間と社会における評価へのアプローチと実行方法について述べる。 ベースシステムのためのフレームワークは,社会影響の7つのカテゴリを定義している。バイアス,ステレオタイプ,表現的損害,文化的価値とセンシティブなコンテンツ,異種パフォーマンス,プライバシとデータ保護,財務コスト,環境コスト,データとコンテンツモデレーション労働コストである。 提案手法は全ての形態に適用され、既存の評価の限界の分析が将来の評価に必要な投資の出発点となる。 社会で評価できるものは5つあり、それぞれに信頼と自律性、不平等、限界化、暴力、権威の集中、労働と創造性、エコシステムと環境というカテゴリがある。 各サブカテゴリは、害を緩和するためのレコメンデーションを含んでいる。 我々は、与えられたカテゴリに沿って既存の評価に貢献するために、AI研究コミュニティのための評価リポジトリを同時に構築しています。 このバージョンは、ACM FAccT 2023のCRAFTセッションに続いて更新される。

Generative AI systems across modalities, ranging from text, image, audio, and video, have broad social impacts, but there exists no official standard for means of evaluating those impacts and which impacts should be evaluated. We move toward a standard approach in evaluating a generative AI system for any modality, in two overarching categories: what is able to be evaluated in a base system that has no predetermined application and what is able to be evaluated in society. We describe specific social impact categories and how to approach and conduct evaluations in the base technical system, then in people and society. Our framework for a base system defines seven categories of social impact: bias, stereotypes, and representational harms; cultural values and sensitive content; disparate performance; privacy and data protection; financial costs; environmental costs; and data and content moderation labor costs. Suggested methods for evaluation apply to all modalities and analyses of the limitations of existing evaluations serve as a starting point for necessary investment in future evaluations. We offer five overarching categories for what is able to be evaluated in society, each with their own subcategories: trustworthiness and autonomy; inequality, marginalization, and violence; concentration of authority; labor and creativity; and ecosystem and environment. Each subcategory includes recommendations for mitigating harm. We are concurrently crafting an evaluation repository for the AI research community to contribute existing evaluations along the given categories. This version will be updated following a CRAFT session at ACM FAccT 2023.
翻訳日:2023-06-12 13:02:20 公開日:2023-06-09
# Koopman演算子のKolmogorov-Smirnovインジケータ関数による推定精度の向上

Improving Estimation of the Koopman Operator with Kolmogorov-Smirnov Indicator Functions ( http://arxiv.org/abs/2306.05945v1 )

ライセンス: Link先を確認
Van A. Ngo, Yen Ting Lin, Danny Perez(参考訳) 観測可能な高次元の時系列をランク付けされた動的モードに変換するクープマン作用素を用いて運動解析を行うことが一般的になった。 このアプローチの実践的な成功の鍵は、緩やかな緩和モードを拡張するための良い基礎となる観測可能なものの集合を特定することである。 しかし、良い観測可能量を見つけることは困難であり、準最適選択は特徴的な時間スケールの重大な過小評価につながる。 隠れマルコフモデル (HMM) によるスローダイナミクスの表現を活用することで, スローモードのよい基底となる観測変数を推論する, 単純で効率的なクラスタリング手法を提案する。 このアプローチを解析的に解けるモデルシステム、および複雑さの異なる3つのタンパク質システムに適用する。 我々は、推定指標関数がクープマン作用素の主固有値の推定を大幅に改善し、良好な観測値が知られていない場合でも、確率系のキー状態と遷移時間スケールを正しく同定できることを一貫して証明する。

It has become common to perform kinetic analysis using approximate Koopman operators that transforms high-dimensional time series of observables into ranked dynamical modes. Key to a practical success of the approach is the identification of a set of observables which form a good basis in which to expand the slow relaxation modes. Good observables are, however, difficult to identify {\em a priori} and sub-optimal choices can lead to significant underestimations of characteristic timescales. Leveraging the representation of slow dynamics in terms of Hidden Markov Model (HMM), we propose a simple and computationally efficient clustering procedure to infer surrogate observables that form a good basis for slow modes. We apply the approach to an analytically solvable model system, as well as on three protein systems of different complexities. We consistently demonstrate that the inferred indicator functions can significantly improve the estimation of the leading eigenvalues of the Koopman operators and correctly identify key states and transition timescales of stochastic systems, even when good observables are not known {\em a priori}.
翻訳日:2023-06-12 13:01:54 公開日:2023-06-09
# ロバストなデータ駆動規範性最適化

Robust Data-driven Prescriptiveness Optimization ( http://arxiv.org/abs/2306.05937v1 )

ライセンス: Link先を確認
Mehran Poursoltani, Erick Delage, Angelos Georghiou(参考訳) データの豊富さは、利用可能なサイド情報を利用してより予測的な意思決定をしようとする様々な最適化手法の出現につながった。 応用の幅広い方法や文脈は、規範性の係数として知られる普遍的な単位のないパフォーマンス尺度の設計を動機付けている。 この係数は、参照情報と比較して文脈決定の質と側面情報の規範的パワーの両方を定量化するように設計された。 データ駆動型コンテキストにおいて前者を最大化するポリシーを特定するために,古典的経験的リスク最小化の目的に代えて規範性の係数が代わる分布的ロバストな文脈最適化モデルを提案する。 本稿では,分布的曖昧性集合が適切なネスト形式と多面体構造を持つ場合,一連の線形プログラムの解法に依拠する双断面アルゴリズムを提案する。 文脈的最短経路問題について検討し、サンプル外データセットが分散シフトの変動を受ける場合の代替手法に対するポリシーのロバスト性を評価する。

The abundance of data has led to the emergence of a variety of optimization techniques that attempt to leverage available side information to provide more anticipative decisions. The wide range of methods and contexts of application have motivated the design of a universal unitless measure of performance known as the coefficient of prescriptiveness. This coefficient was designed to quantify both the quality of contextual decisions compared to a reference one and the prescriptive power of side information. To identify policies that maximize the former in a data-driven context, this paper introduces a distributionally robust contextual optimization model where the coefficient of prescriptiveness substitutes for the classical empirical risk minimization objective. We present a bisection algorithm to solve this model, which relies on solving a series of linear programs when the distributional ambiguity set has an appropriate nested form and polyhedral structure. Studying a contextual shortest path problem, we evaluate the robustness of the resulting policies against alternative methods when the out-of-sample dataset is subject to varying amounts of distribution shift.
翻訳日:2023-06-12 13:01:36 公開日:2023-06-09
# ミスアライメント光キャビティにおけるモデリングモード混合の効率的な操作法

Efficient operator method for modelling mode mixing in misaligned optical cavities ( http://arxiv.org/abs/2306.05929v1 )

ライセンス: Link先を確認
William J. Hughes, Thomas H. Doherty, Jacob A. Blackmore, Peter Horak, Joseph F. Goodwin(参考訳) fabry-p\'erot光学共振器の共振モードの横磁界構造と回折損失は、ミラー基板の配向と形状に急性に敏感である。 任意のミラー形状に適用可能な「モード混合」法の拡張を開発し, 横方向のミラーによるキャビティのモードの高速計算と, これらのモードの幾何学的性質の決定と変換を可能にした。 これらの手法は, 共振モードのリッチで複雑な構造を呈示し, 横ミラーの不整合の事実上の動機付けを含むことによって, 従来の機能を拡張する方法を示す。

The transverse field structure and diffraction loss of the resonant modes of Fabry-P\'erot optical cavities are acutely sensitive to the alignment and shape of the mirror substrates. We develop extensions to the `mode mixing' method applicable to arbitrary mirror shapes, which both facilitate fast calculation of the modes of cavities with transversely misaligned mirrors and enable the determination and transformation of the geometric properties of these modes. We show how these methods extend previous capabilities by including the practically-motivated case of transverse mirror misalignment, unveiling rich and complex structure of the resonant modes.
翻訳日:2023-06-12 13:01:20 公開日:2023-06-09
# $\Delta$-Self-Consistent-Field法とGW法による周期固体中核電子結合エネルギーの予測

Combining the $\Delta$-Self-Consistent-Field and GW Methods for Predicting Core Electron Binding Energies in Periodic Solids ( http://arxiv.org/abs/2306.05928v1 )

ライセンス: Link先を確認
Juhan Matthias Kahk, Johannes Lischner(参考訳) 固体中のコア電子結合エネルギーの計算予測のために、密度汎関数理論(dft)に基づく$\delta$-self- consistent-field法とgw法という2種類の異なるモデリング戦略が研究されている。 本研究では,これら2つのアプローチ間の形式的関係を考察し,それらの関係性を明らかにする。 この結合は、DFTにおいて、第1の電離エネルギーに対する全エネルギー差の結果と、無限のスーパーセルサイズに制限された最も高い占有状態の固有値との間の等価性から生じる。 このリンクにより、dftにおける新しい形式性を導入することができる - たとえ全エネルギー差法がコア電子結合エネルギーの計算に使われているとしても - 結果の正確さは、絶縁体における原子価バンドの最大値や金属中のフェルミ準位における固有値の精度に暗黙的に依存する。 この固有値に対する準粒子補正をgw理論から取り入れれば、計算されたコア電子結合エネルギーの精度が向上するかどうかを検証し、実験と定量的に一致するために頂点補正の包含が必要であることを見出した。

For the computational prediction of core electron binding energies in solids, two distinct kinds of modelling strategies have been pursued: the $\Delta$-Self-Consistent-Field method based on density functional theory (DFT), and the GW method. In this study, we examine the formal relationship between these two approaches, and establish a link between them. The link arises from the equivalence, in DFT, between the total energy difference result for the first ionization energy, and the eigenvalue of the highest occupied state, in the limit of infinite supercell size. This link allows us to introduce a new formalism, which highlights how in DFT - even if the total energy difference method is used to calculate core electron binding energies - the accuracy of the results still implicitly depends on the accuracy of the eigenvalue at the valence band maximum in insulators, or at the Fermi level in metals. We examine, whether incorporating a quasiparticle correction for this eigenvalue from GW theory improves the accuracy of the calculated core electron binding energies, and find that the inclusion of vertex corrections is required for achieving quantitative agreement with experiment.
翻訳日:2023-06-12 13:01:09 公開日:2023-06-09
# 4出力トライアングルネットワークにおけるフィンナー不等式違反

Violation of the Finner inequality in the four-output triangle network ( http://arxiv.org/abs/2306.05922v1 )

ライセンス: Link先を確認
Antoine Girardin and Nicolas Gisin(参考訳) ネットワーク非局所性は、ランダムな測定設定なしに、固定されたジョイント測定値を持つネットワークにおける非古典性を示すことができる。 ループ内の最も単純なネットワークである三角形は、パーティーごとに4つの出力を持つ。 エレガント分布」(N. Gisin, Entropy 21, 325 (2019))は、多くの対称性にもかかわらず解析的な証明に抵抗する。 特に、この分布は任意の出力置換の下で不変である。 すべての局所分布と量子分布に対するフィンナー不等式は、独立なソース(nsi分布)を持つすべての無符号分布に対しても有効であると推測されている。 ここで、この予想は、フィンナーの不等式に違反し、全ての nsi インフレーションを enneagon まで満たす 4-アウトプットネットワークボックスを構築することで誤りであることを示す。 エレガントな分布の非局所性の証明への第一歩として、幾何学的引数を用いてフィンナーの不等式を飽和する分布の非局所性を証明する。

Network nonlocality allows one to demonstrate non-classicality in networks with fixed joint measurements, that is without random measurement settings. The simplest network in a loop, the triangle, with 4 outputs per party is especially intriguing. The "elegant distribution" [N. Gisin, Entropy 21, 325 (2019)] still resists analytic proofs, despite its many symmetries. In particular, this distribution is invariant under any output permutation. The Finner inequality, which holds for all local and quantum distributions, has been conjectured to be also valid for all no-signalling distributions with independent sources (NSI distributions). Here we provide evidence that this conjecture is false by constructing a 4-output network box that violate the Finner inequality and prove that it satisfies all NSI inflations up to the enneagon. As a first step toward the proof of the nonlocality of the elegant distribution, we prove the nonlocality of the distributions that saturates the Finner inequality by using geometrical arguments.
翻訳日:2023-06-12 13:00:45 公開日:2023-06-09
# 量子粒子統計学の再構築:ボソン、フェルミオン、転移学

Reconstruction of Quantum Particle Statistics: Bosons, Fermions, and Transtatistics ( http://arxiv.org/abs/2306.05919v1 )

ライセンス: Link先を確認
Nicol\'as Medina S\'anchez, Borivoje Daki\'c(参考訳) 同一の量子粒子はボソニックとフェルミオンの2種類の統計のみを示す。 理論的には、この制限は、生成および消滅作用素の代数に課される対称性の仮定または(反)交換の制約によって一般的に確立される。 これらの公理の物理的動機は未解明のままであり、数学的形式主義を幾らか任意の方法で修正することで様々な一般化をもたらす。 本研究では, 量子粒子統計学を, 運用上よく動機づけられた仮定に基づいて分類する。 特に私たちが考えるのは a) 標準(複素)ユニタリダイナミクスは,単粒子変換の集合を定義し,かつ b) 多粒子系の空間において位相変換が局所的に作用する。 ボソンとフェルミオンを最小対称性を持つ基本統計量として含む完全キャラクタリゼーションを開発する。 興味深いことに、隠れた対称性、基底状態の一般的な退化、自然発生の対称性の破れを伴う新しい統計学のすべての家系が(典型的には)通常の統計では欠落している。

Identical quantum particles exhibit only two types of statistics: bosonic and fermionic. Theoretically, this restriction is commonly established through the symmetrization postulate or (anti)commutation constraints imposed on the algebra of creation and annihilation operators. The physical motivation for these axioms remains poorly understood, leading to various generalizations by modifying the mathematical formalism in somewhat arbitrary ways. In this work, we take an opposing route and classify quantum particle statistics based on operationally well-motivated assumptions. Specifically, we consider that a) the standard (complex) unitary dynamics defines the set of single-particle transformations, and b) phase transformations act locally in the space of multi-particle systems. We develop a complete characterization, which includes bosons and fermions as basic statistics with minimal symmetry. Interestingly, we have discovered whole families of novel statistics (dubbed transtatistics) accompanied by hidden symmetries, generic degeneracy of ground states, and spontaneous symmetry breaking -- effects that are (typically) absent in ordinary statistics.
翻訳日:2023-06-12 13:00:28 公開日:2023-06-09
# 普遍自己回帰量子状態に対する条件モデリングの影響

Impact of conditional modelling for universal autoregressive quantum states ( http://arxiv.org/abs/2306.05917v1 )

ライセンス: Link先を確認
Massimo Bortone and Yannic Rath and George H. Booth(参考訳) 本稿では,普遍的量子状態近似器を適応させるための一般化された枠組みを提案する。 また,ニューラルネットワークの畳み込み層に対するアナロジーとしてフィルタを導入し,任意の量子状態における変換対称性相関を取り込む。 この枠組みをガウス過程の状態に応用することにより,自己回帰的および/またはフィルター特性を強制し,変動の柔軟性,対称性,保存量に対する帰納的バイアスの影響を分析する。 これにより、マシンラーニングにインスパイアされたans\"atzeの統一フレームワークの下で、さまざまな自己回帰状態が統合されます。 この結果から,自己回帰構造がスピンおよびフェルミオン格子モデルの相関を記述するための変分モデルの能力にどのように影響するか,および表現の選択が精度に影響を及ぼす電子構造問題について考察した。 我々は,効率的な直接サンプリングを可能にしながら,メトロポリスサンプリングにおける自己相関やエルゴディシティの問題の消失を回避しつつ,多くのシステムにおいて,自己回帰的構成はモデルの表現性を物質的に制約していると結論づける。

We present a generalized framework to adapt universal quantum state approximators, enabling them to satisfy rigorous normalization and autoregressive properties. We also introduce filters as analogues to convolutional layers in neural networks to incorporate translationally symmetrized correlations in arbitrary quantum states. By applying this framework to the Gaussian process state, we enforce autoregressive and/or filter properties, analyzing the impact of the resulting inductive biases on variational flexibility, symmetries, and conserved quantities. In doing so we bring together different autoregressive states under a unified framework for machine learning-inspired ans\"atze. Our results provide insights into how the autoregressive construction influences the ability of a variational model to describe correlations in spin and fermionic lattice models, as well as ab initio electronic structure problems where the choice of representation affects accuracy. We conclude that, while enabling efficient and direct sampling, thus avoiding autocorrelation and loss of ergodicity issues in Metropolis sampling, the autoregressive construction materially constrains the expressivity of the model in many systems.
翻訳日:2023-06-12 13:00:09 公開日:2023-06-09
# 音声ストレス検出のための個人性プロキシとしての話者埋め込み

Speaker Embeddings as Individuality Proxy for Voice Stress Detection ( http://arxiv.org/abs/2306.05915v1 )

ライセンス: Link先を確認
Zihan Wu, Neil Scheidwasser-Clow, Karl El Hajal, Milos Cernak(参考訳) 話者の精神状態は音声を変調するため、認知的あるいは身体的負荷によって引き起こされるストレスを音声で検出することができる。 既存の音声ストレス検出ベンチマークでは,ハイブリッドbyol-s自己教師モデルから抽出した音声埋め込みが良好であることが示されている。 しかし、ベンチマークはデータセットごとに個別にパフォーマンスを評価するだけで、異なるタイプのストレスと異なる言語のパフォーマンスを評価することはない。 さらに, ストレス感受性には強い個人差が認められた。 本稿では,9言語グループと5種類のストレスから100人以上の話者を対象に訓練した音声ストレス検出の設計と開発について述べる。 話者埋め込みをハイブリッドBYOL-Sに付加することで音声ストレス解析における個人差に対処する。 提案手法は入力音声長がわずか3~5秒で音声応力検出性能を大幅に向上させる。

Since the mental states of the speaker modulate speech, stress introduced by cognitive or physical loads could be detected in the voice. The existing voice stress detection benchmark has shown that the audio embeddings extracted from the Hybrid BYOL-S self-supervised model perform well. However, the benchmark only evaluates performance separately on each dataset, but does not evaluate performance across the different types of stress and different languages. Moreover, previous studies found strong individual differences in stress susceptibility. This paper presents the design and development of voice stress detection, trained on more than 100 speakers from 9 language groups and five different types of stress. We address individual variabilities in voice stress analysis by adding speaker embeddings to the hybrid BYOL-S features. The proposed method significantly improves voice stress detection performance with an input audio length of only 3-5 seconds.
翻訳日:2023-06-12 12:59:50 公開日:2023-06-09
# 早期食道癌病変の1画像による深達度学習

Single-Image-Based Deep Learning for Segmentation of Early Esophageal Cancer Lesions ( http://arxiv.org/abs/2306.05912v1 )

ライセンス: Link先を確認
Haipeng Li, Dingrui Liu, Yu Zeng, Shuaicheng Liu, Tao Gan, Nini Rao, Jinlin Yang, Bing Zeng(参考訳) 早期食道癌(eec)の診断と治療には病変の正確な分画が重要である。 しかし、従来型や深層学習に基づく手法では臨床要件を満たすことはできない。医療画像分析で最も重要な指標である平均サイススコアは、0.75を超えないほどである。 本稿では,脳波損傷のセグメント化のための新しい深層学習手法を提案する。 私たちのアプローチは,1人の患者から得られる1つのイメージのみに依存し,いわゆる"You-Only-Have-One"(YOHO)フレームワークを形成するため,その特異性に注目する。 一方、この"one-image-one-network"学習は、トレーニングデータとして他の患者の画像を使用しないため、患者のプライバシーを完全に確保する。 一方、トレーニングされた各ネットワークは入力画像自体にのみ適用されるため、ほぼすべての一般化関連問題を回避する。 特に、トレーニングを可能な限り"過剰適合"にプッシュすることで、セグメンテーションの精度を向上できます。 技術的な詳細には,臨床医師との対話による専門知識の活用,単一の病変画像の幾何ベースレンダリングによるトレーニングセットの生成("\emph{biggest} novelty"),エッジエンハンスされたunetなどが含まれる。 我々は,自ら作成した脳波データに対してYOHOを評価し,平均Diceスコア0.888を達成し,臨床応用に向けた大きな進歩を示している。

Accurate segmentation of lesions is crucial for diagnosis and treatment of early esophageal cancer (EEC). However, neither traditional nor deep learning-based methods up to today can meet the clinical requirements, with the mean Dice score - the most important metric in medical image analysis - hardly exceeding 0.75. In this paper, we present a novel deep learning approach for segmenting EEC lesions. Our approach stands out for its uniqueness, as it relies solely on a single image coming from one patient, forming the so-called "You-Only-Have-One" (YOHO) framework. On one hand, this "one-image-one-network" learning ensures complete patient privacy as it does not use any images from other patients as the training data. On the other hand, it avoids nearly all generalization-related problems since each trained network is applied only to the input image itself. In particular, we can push the training to "over-fitting" as much as possible to increase the segmentation accuracy. Our technical details include an interaction with clinical physicians to utilize their expertise, a geometry-based rendering of a single lesion image to generate the training set (the \emph{biggest} novelty), and an edge-enhanced UNet. We have evaluated YOHO over an EEC data-set created by ourselves and achieved a mean Dice score of 0.888, which represents a significant advance toward clinical applications.
翻訳日:2023-06-12 12:59:38 公開日:2023-06-09
# 言語モデルは構文規則の例外を学習できる

Language Models Can Learn Exceptions to Syntactic Rules ( http://arxiv.org/abs/2306.05969v1 )

ライセンス: Link先を確認
Cara Su-Yi Leong and Tal Linzen(参考訳) 人工ニューラルネットワークは、新しい文脈に生産的に一般化することができる。 生産的なルールの例外も学べるだろうか? 英語のパッシビゼーション制限の場合(例えば、「休暇が5日間続いた」が文法的であるが、「休暇が5日間続いた」という事実はそうではない)を用いてこの問題を考察する。 我々は,受動的文に対する受理性判定を動詞の範囲で収集し,言語モデルであるGPT-2で定義される確率分布が高い相関関係で人間の判断と一致することを示す。 また、能動音声とパッシブ音声における動詞の相対的受容性は、それらの音声における動詞の出現頻度と正の相関を示す。 これらの結果は、学習者が入力の分布特性を追跡・利用し、負の例外をルールに学習する、エンレンチメント仮説の予備的サポートを提供する。 同時に、この仮説は特定の動詞によって示される不パッシビリティの程度を説明できず、他の例外性への手がかりが言語入力で利用可能であることを示唆している。

Artificial neural networks can generalize productively to novel contexts. Can they also learn exceptions to those productive rules? We explore this question using the case of restrictions on English passivization (e.g., the fact that "The vacation lasted five days" is grammatical, but "*Five days was lasted by the vacation" is not). We collect human acceptability judgments for passive sentences with a range of verbs, and show that the probability distribution defined by GPT-2, a language model, matches the human judgments with high correlation. We also show that the relative acceptability of a verb in the active vs. passive voice is positively correlated with the relative frequency of its occurrence in those voices. These results provide preliminary support for the entrenchment hypothesis, according to which learners track and uses the distributional properties of their input to learn negative exceptions to rules. At the same time, this hypothesis fails to explain the magnitude of unpassivizability demonstrated by certain individual verbs, suggesting that other cues to exceptionality are available in the linguistic input.
翻訳日:2023-06-12 12:52:42 公開日:2023-06-09
# 古典力学方程式の量子計算:量子計算を用いた衝突のないプラズマ中の6次元ボルツマン・マクスウェル方程式の数値解析の新しいアプローチ

Quantum Calculation of Classical Kinetic Equations: A Novel Approach for Numerical Analysis of 6D Boltzmann-Maxwell Equations in Collisionless Plasmas Using Quantum Computing ( http://arxiv.org/abs/2306.05967v1 )

ライセンス: Link先を確認
Hayato Higuchi, Juan William Pedersen, Akimasa Yoshikawa(参考訳) 6次元衝突プラズマのボルツマン・マクスウェル方程式を解くための新しい量子アルゴリズムを提案する。 この方程式は電磁場におけるプラズマ粒子の運動挙動を記述しており、宇宙から実験室のプラズマまで、様々な領域の古典第一原理方程式で知られている。 我々は,コストのかかる計算を高速化するために,将来の大規模量子コンピュータのための量子アルゴリズムを構築した。 このアルゴリズムは主にボルツマン解法とマックスウェル解法という2つのルーチンからなる。 量子アルゴリズムはこれらの双対の手続きを受け取り、古典的アルゴリズムはそれらの相互作用を促進する。 各ソルバは、エンコーディング、プロパゲーション、統合の3つのステップからなる同様の構造を持つ。 量子アルゴリズムの予備実装を行い,同等の古典的手法に対する並列検証を行った。 IBM Qiskitは全ての量子回路の実装に使われた。

A novel quantum algorithm for solving the Boltzmann-Maxwell equations of the 6D collisionless plasma is proposed. The equation describes the kinetic behavior of plasma particles in electromagnetic fields and is known for the classical first-principles equations in various domains, from space to laboratory plasmas. We have constructed a quantum algorithm for a future large-scale quantum computer to accelerate its costly computation. This algorithm consists mainly of two routines: the Boltzmann solver and the Maxwell solver. Quantum algorithms undertake these dual procedures, while classical algorithms facilitate their interplay. Each solver has a similar structure consisting of three steps: Encoding, Propagation, and Integration. We conducted a preliminary implementation of the quantum algorithm and performed a parallel validation against a comparable classical approach. IBM Qiskit was used to implement all quantum circuits.
翻訳日:2023-06-12 12:52:25 公開日:2023-06-09
# 因子グラフにおけるモデル自動比較

Automating Model Comparison in Factor Graphs ( http://arxiv.org/abs/2306.05965v1 )

ライセンス: Link先を確認
Bart van Erp, Wouter W. L. Nuijten, Thijs van de Laar, Bert de Vries(参考訳) ベイズ状態とパラメータの推定は、文献において効果的に自動化されているが、モデルの比較は、まだ行われていない。 その結果、モデルの比較は、その重要性にもかかわらず、しばしば見過ごされ無視される。 本稿では,Forney型因子グラフ上のメッセージパッシングによるベイズモデルの平均化,選択,組み合わせを,独自の混合ノードで効率的に自動化する。 パラメータと状態の推論とモデルの比較は、スケールファクタを持つメッセージパッシングを使って同時に実行できる。 このアプローチは、モデル設計サイクルを短縮し、複雑な時間変動プロセスのモデリングに対応するために、階層モデルと時間モデルプリエントへの簡単な拡張を可能にする。

Bayesian state and parameter estimation have been automated effectively in the literature, however, this has not yet been the case for model comparison, which therefore still requires error-prone and time-consuming manual derivations. As a result, model comparison is often overlooked and ignored, despite its importance. This paper efficiently automates Bayesian model averaging, selection, and combination by message passing on a Forney-style factor graph with a custom mixture node. Parameter and state inference, and model comparison can then be executed simultaneously using message passing with scale factors. This approach shortens the model design cycle and allows for the straightforward extension to hierarchical and temporal model priors to accommodate for modeling complicated time-varying processes.
翻訳日:2023-06-12 12:52:12 公開日:2023-06-09
# 適応的文脈知覚:新しい背景と曖昧な対象に一般化する方法

Adaptive Contextual Perception: How to Generalize to New Backgrounds and Ambiguous Objects ( http://arxiv.org/abs/2306.05963v1 )

ライセンス: Link先を確認
Zhuofan Ying, Peter Hase, Mohit Bansal(参考訳) 生物学的視覚システムは、新しいコンテキストを持つ新しい設定におけるオブジェクトを認識するためにコンテキストを適応的に利用する。 本稿では,視覚モデルがどのようにコンテキストをオフ・オブ・ディストリビューション(OOD)の一般化に適応的に利用するかを検討した。 まず,文脈が無関係(背景不変性)か有益(対象曖昧性)のどちらかである2つの異なるOOD設定を定式化し,生物学的視覚において直面する多様な文脈的課題を反映する。 次に、これらの2つの異なるOOD設定でモデルパフォーマンスを分析し、一方で優れたモデルが他方で苦労する傾向があることを示す。 特に、因果的特徴の学習に関する事前の作業は、ある設定では改善されるが、もう一方では傷つく。 これは、人間の認識と堅牢なAIシステムの両方にとって、この能力が不可欠であるため、OOD設定の両方にまたがって一般化することの重要性を強調している。 次に,ood一般化に寄与するモデル特性をよりよく理解するために,表現幾何学解析と独自の探索法を用いてモデル集団を調査し,より因子化された表現と適切な特徴重み付けを持つモデルが,背景非分散テストやオブジェクト非曖昧化テストの処理に成功していることを発見した。 さらに,表現因子化と特徴重み付けに因果的介入を行い,それらの要因がパフォーマンスに与える影響を検証した。 最後に,モデル一般化を強化する新しい拡張手法を提案する。 これらの手法は強いベースラインを上回り、分配試験とOOD試験の両方の改善をもたらす。 結論として、生体視覚の一般化能力を再現するには、コンピュータビジョンモデルは、対象と背景表現を分解し、両方の特徴を適切に重み付けなければならない。

Biological vision systems make adaptive use of context to recognize objects in new settings with novel contexts as well as occluded or blurry objects in familiar settings. In this paper, we investigate how vision models adaptively use context for out-of-distribution (OOD) generalization and leverage our analysis results to improve model OOD generalization. First, we formulate two distinct OOD settings where the contexts are either irrelevant (Background-Invariance) or beneficial (Object-Disambiguation), reflecting the diverse contextual challenges faced in biological vision. We then analyze model performance in these two different OOD settings and demonstrate that models that excel in one setting tend to struggle in the other. Notably, prior works on learning causal features improve on one setting but hurt in the other. This underscores the importance of generalizing across both OOD settings, as this ability is crucial for both human cognition and robust AI systems. Next, to better understand the model properties contributing to OOD generalization, we use representational geometry analysis and our own probing methods to examine a population of models, and we discover that those with more factorized representations and appropriate feature weighting are more successful in handling Background-Invariance and Object-Disambiguation tests. We further validate these findings through causal intervention on representation factorization and feature weighting to demonstrate their causal effect on performance. Lastly, we propose new augmentation methods to enhance model generalization. These methods outperform strong baselines, yielding improvements in both in-distribution and OOD tests. In conclusion, to replicate the generalization abilities of biological vision, computer vision models must have factorized object vs. background representations and appropriately weight both kinds of features.
翻訳日:2023-06-12 12:52:02 公開日:2023-06-09
# 時空間量子フォーマリズムの統一:複数時間状態によるプロセスと擬密度行列のマッピング

Unification of spatiotemporal quantum formalisms: mapping between process and pseudo-density matrices via multiple-time states ( http://arxiv.org/abs/2306.05958v1 )

ライセンス: Link先を確認
Xiangjing Liu, Zhian Jia, Yixian Qiu, Fei Li, and Oscar Dahlsten(参考訳) 疑似密度行列(pseudo-density matrix:pdm)、プロセス行列(process matrix)、多重時間状態アプローチ(multiple-time state approach)という3つの異なる量子状態の定義方法の関係を考察する。 以前の研究では、二成分二時間状態は二成分過程行列の統計を再現できることが示されている。 本稿では,2時間状態に基づく運用シナリオをPDMとして表現し,プロセス行列からPDMへのマッピングを構築する。 このマッピングの存在は、PDMがプロセス行列と同様に、不明確な因果順序を持つプロセスをモデル化できることを意味する。 時間相関の尺度であるPDMの負性性は、リセットチャネルに関連する演算子の量子スイッチング順序を作成することによってどのように活性化されるかを示す。 結果は時空間状態の量子モデルの統一に寄与する。

We consider the relation between three different approaches to defining quantum states across several times and locations: the pseudo-density matrix (PDM), the process matrix, and the multiple-time state approaches. Previous studies have shown that bipartite two-time states can reproduce the statistics of bipartite process matrices. Here, we show that the operational scenarios underlying two-time states can be represented as PDMs, and thereby construct a mapping from process matrices to PDMs. The existence of this mapping implies that PDMs can, like the process matrix, model processes with indefinite causal orders. We illustrate this ability by showing how negativity of the PDM, a measure of temporal correlations, is activated by creating a quantum-switched order of operators associated with reset channels. The results contribute to the unification of quantum models of spatiotemporal states.
翻訳日:2023-06-12 12:51:14 公開日:2023-06-09
# DDLP:深部動的潜伏粒子を用いた教師なし物体中心映像予測

DDLP: Unsupervised Object-Centric Video Prediction with Deep Dynamic Latent Particles ( http://arxiv.org/abs/2306.05957v1 )

ライセンス: Link先を確認
Tal Daniel, Aviv Tamar(参考訳) 本稿では,DLP(Deep Latent Particle)表現に基づくオブジェクト中心のビデオ予測アルゴリズムを提案する。 既存のスロットやパッチベースの表現と比較して、DLPは、位置やサイズなどの特性の学習パラメータを持つキーポイントのセットを使用してシーンをモデル化する。 提案手法であるdeep dynamic latent particles (ddlp) は,いくつかの難解なデータセットに対して最先端のオブジェクト中心ビデオ予測結果を生成する。 DDLPの解釈可能な性質により,初期フレームにおけるオブジェクトの特性変化の結果を予測する「What-if'」生成が可能となり,DLPのコンパクト構造は効率よく拡散ベースの非条件ビデオ生成を可能にする。 ビデオ、コード、事前訓練されたモデルが利用可能である。

We propose a new object-centric video prediction algorithm based on the deep latent particle (DLP) representation. In comparison to existing slot- or patch-based representations, DLPs model the scene using a set of keypoints with learned parameters for properties such as position and size, and are both efficient and interpretable. Our method, deep dynamic latent particles (DDLP), yields state-of-the-art object-centric video prediction results on several challenging datasets. The interpretable nature of DDLP allows us to perform ``what-if'' generation -- predict the consequence of changing properties of objects in the initial frames, and DLP's compact structure enables efficient diffusion-based unconditional video generation. Videos, code and pre-trained models are available: https://taldatech.github.io/ddlp-web
翻訳日:2023-06-12 12:50:47 公開日:2023-06-09
# 「私の性関連データは私の財務データより敏感で、同じレベルのセキュリティとプライバシが欲しい」:女性指向技術におけるユーザリスク認識と保護行動

"My sex-related data is more sensitive than my financial data and I want the same level of security and privacy": User Risk Perceptions and Protective Actions in Female-oriented Technologies ( http://arxiv.org/abs/2306.05956v1 )

ライセンス: Link先を確認
Maryam Mehrnezhad and Teresa Almeida(参考訳) 生殖体のデジタル化は、人々が親密な健康を知り、取り組むのを支援するために、最先端技術に無数の関与してきた。 一般に女性技術(いわゆる女性指向技術(FemTech))として理解されているこれらの製品やシステムは、他者と処理、転送、保存、共有される幅広い親密なデータを収集する。 本稿では, この産業の「データ・ハングリー」の性質と, 適切な保護機構の欠如, 脆弱なデータに対する基準, 規制が, 複雑な害やエージェントの可能性にどのように影響するかを考察する。 我々は,これらの技術のセキュリティとプライバシ(SP)に対するユーザの理解を探索するために,混合手法を採用した。 以上の結果から,これらの技術にまつわる危害やリスクの範囲を推測できるが,そのようなリスクから身を守るための技術技術は備わっていないことが示唆された。 本稿では,本研究の文脈において,参加型脅威モデリングや設計によるSPなど,多くのアプローチについて議論し,このようなアプローチがユーザを保護する上で重要であると結論付けた。

The digitalization of the reproductive body has engaged myriads of cutting-edge technologies in supporting people to know and tackle their intimate health. Generally understood as female technologies (aka female-oriented technologies or 'FemTech'), these products and systems collect a wide range of intimate data which are processed, transferred, saved and shared with other parties. In this paper, we explore how the "data-hungry" nature of this industry and the lack of proper safeguarding mechanisms, standards, and regulations for vulnerable data can lead to complex harms or faint agentic potential. We adopted mixed methods in exploring users' understanding of the security and privacy (SP) of these technologies. Our findings show that while users can speculate the range of harms and risks associated with these technologies, they are not equipped and provided with the technological skills to protect themselves against such risks. We discuss a number of approaches, including participatory threat modelling and SP by design, in the context of this work and conclude that such approaches are critical to protect users in these sensitive systems.
翻訳日:2023-06-12 12:50:10 公開日:2023-06-09
# Path Neural Networks: 表現的かつ正確なグラフニューラルネットワーク

Path Neural Networks: Expressive and Accurate Graph Neural Networks ( http://arxiv.org/abs/2306.05955v1 )

ライセンス: Link先を確認
Gaspard Michel, Giannis Nikolentzos, Johannes Lutzeyer, Michalis Vazirgiannis(参考訳) グラフニューラルネットワーク(GNN)は最近、グラフ構造化データによる学習の標準的なアプローチになっている。 以前の作業は、その可能性だけでなく、限界にも光を当てています。 残念ながら、標準のGNNは表現力に制限があることがわかった。 これらのモデルは、非同型グラフの区別の観点から、1次元のWeisfeiler-Leman (1-WL)アルゴリズムほど強力ではない。 本稿では,ノードから発生する経路を集約してノード表現を更新するモデルであるpath neural network (pathnns)を提案する。 一つの最短経路,全最短経路,全単純経路をKまで集約するPathNNモデルの3つの変種を導出し,これらの変種のうち2つが1-WLアルゴリズムよりも厳密に強力であることを証明し,理論的結果を実験的に検証した。 PathNNは1-WLで区別できない非同型グラフのペアを区別できるのに対し、最も表現力のあるPathNNは3-WLで識別できないグラフを区別できる。 異なるpathnn変種はグラフ分類やグラフ回帰データセットでも評価され、ほとんどのケースではベースラインメソッドよりも優れています。

Graph neural networks (GNNs) have recently become the standard approach for learning with graph-structured data. Prior work has shed light into their potential, but also their limitations. Unfortunately, it was shown that standard GNNs are limited in their expressive power. These models are no more powerful than the 1-dimensional Weisfeiler-Leman (1-WL) algorithm in terms of distinguishing non-isomorphic graphs. In this paper, we propose Path Neural Networks (PathNNs), a model that updates node representations by aggregating paths emanating from nodes. We derive three different variants of the PathNN model that aggregate single shortest paths, all shortest paths and all simple paths of length up to K. We prove that two of these variants are strictly more powerful than the 1-WL algorithm, and we experimentally validate our theoretical results. We find that PathNNs can distinguish pairs of non-isomorphic graphs that are indistinguishable by 1-WL, while our most expressive PathNN variant can even distinguish between 3-WL indistinguishable graphs. The different PathNN variants are also evaluated on graph classification and graph regression datasets, where in most cases, they outperform the baseline methods.
翻訳日:2023-06-12 12:49:41 公開日:2023-06-09
# ヒト・イン・ザ・ループ・アタックの克服

Overcoming Adversarial Attacks for Human-in-the-Loop Applications ( http://arxiv.org/abs/2306.05952v1 )

ライセンス: Link先を確認
Ryan McCoppin, Marla Kennedy, Platon Lukyanenko, Sean Kennedy(参考訳) 人間の分析を含めると、ディープニューラルネットワークの堅牢性に肯定的な影響を与える可能性があり、Adversarial Machine Learningの文献では比較的研究されていない。 ニューラルネットワークの視覚的説明地図は、敵の攻撃に弱いことが示されている。 画像分析者が与えられたモデルを評価するための説明のロバストな可視化を選択するためには、さらなる研究が必要である。 これらの要因は、説明地図やロバスト性の測定など、逆境画像に依存するため、hitl(human-in-the-loop)評価ツールに大きな影響を与えている。 人間の視覚的注意のモデルは、人間の機械画像解析システムの解釈可能性や堅牢性を向上させることができると考えている。 我々の課題は、HITL評価がこの敵対的な状況でいかに堅牢かである。

Including human analysis has the potential to positively affect the robustness of Deep Neural Networks and is relatively unexplored in the Adversarial Machine Learning literature. Neural network visual explanation maps have been shown to be prone to adversarial attacks. Further research is needed in order to select robust visualizations of explanations for the image analyst to evaluate a given model. These factors greatly impact Human-In-The-Loop (HITL) evaluation tools due to their reliance on adversarial images, including explanation maps and measurements of robustness. We believe models of human visual attention may improve interpretability and robustness of human-machine imagery analysis systems. Our challenge remains, how can HITL evaluation be robust in this adversarial landscape?
翻訳日:2023-06-12 12:49:23 公開日:2023-06-09
# ハイブリッドリッジGANモデルを用いた中小都市における都市パターンの交通指標の予測

Prediction of Transportation Index for Urban Patterns in Small and Medium-sized Indian Cities using Hybrid RidgeGAN Model ( http://arxiv.org/abs/2306.05951v1 )

ライセンス: Link先を確認
Rahisha Thottolil, Uttam Kumar, Tanujit Chakraborty(参考訳) インドなど発展途上国の急速な都市化傾向は、緑地の減少、環境健康の悪化、清浄な水利用、大気汚染、交通渋滞など、多くの市民の懸念を生み出している。 近年,交通指標による交通・ネットワークモデリングが交通問題理解に広く利用されている。 これは、持続可能な都市計画と交通管理を促進するために交通指標を予測する必要がある。 近年のディープラーニング研究,特にGAN(Generative Adversarial Networks)の進歩と,CityGAN, Conditional GAN,MetroGANなどの空間データ解析の修正により,都市プランナーは超現実的な都市パターンをシミュレートできるようになった。 これらの合成都市宇宙は、地球規模の都市パターンを模倣し、空間パターン解析によって景観構造を評価することで、景観動態の理解を支援し、持続可能な都市計画の維持に役立つ。 本研究は,中小都市における都市交通指標の予測におけるいくつかの課題に対処する。 KRR(Kernel Ridge Regression)とCityGAN(CityGAN)に基づくハイブリッドフレームワークを導入し,人間の居住パターンの空間的指標を用いて交通指標を予測する。 本稿では、交通指標と人的決済指標の関係を確立し、選択した503都市でKRRを用いてモデル化する。 提案したハイブリッドパイプラインはリッジGANモデルと呼ばれ、スプロール都市のインフラ開発と交通システムに関連する都市スプロールの持続可能性を評価することができる。 実験結果から, 2段階のパイプラインアプローチは, 空間的および統計的測定値に基づいて, 既存のベンチマークよりも優れていることがわかった。

The rapid urbanization trend in most developing countries including India is creating a plethora of civic concerns such as loss of green space, degradation of environmental health, clean water availability, air pollution, traffic congestion leading to delays in vehicular transportation, etc. Transportation and network modeling through transportation indices have been widely used to understand transportation problems in the recent past. This necessitates predicting transportation indices to facilitate sustainable urban planning and traffic management. Recent advancements in deep learning research, in particular, Generative Adversarial Networks (GANs), and their modifications in spatial data analysis such as CityGAN, Conditional GAN, and MetroGAN have enabled urban planners to simulate hyper-realistic urban patterns. These synthetic urban universes mimic global urban patterns and evaluating their landscape structures through spatial pattern analysis can aid in comprehending landscape dynamics, thereby enhancing sustainable urban planning. This research addresses several challenges in predicting the urban transportation index for small and medium-sized Indian cities. A hybrid framework based on Kernel Ridge Regression (KRR) and CityGAN is introduced to predict transportation index using spatial indicators of human settlement patterns. This paper establishes a relationship between the transportation index and human settlement indicators and models it using KRR for the selected 503 Indian cities. The proposed hybrid pipeline, we call it RidgeGAN model, can evaluate the sustainability of urban sprawl associated with infrastructure development and transportation systems in sprawling cities. Experimental results show that the two-step pipeline approach outperforms existing benchmarks based on spatial and statistical measures.
翻訳日:2023-06-12 12:49:10 公開日:2023-06-09
# マルチエージェントマルチアームバンドにおける意思決定のための分散コンセンサスアルゴリズム

Distributed Consensus Algorithm for Decision-Making in Multi-agent Multi-armed Bandit ( http://arxiv.org/abs/2306.05998v1 )

ライセンス: Link先を確認
Xiaotong Cheng, Setareh Maghsudi(参考訳) 動的環境におけるマルチエージェント・マルチアーム・バンディット(MAMAB)問題について検討する。 グラフはエージェント間の情報共有構造を反映し、腕の報酬分布はいくつかの未知の変化点を持つ断片的に定常である。 エージェントは同じ部分的なmab問題に直面します。 目的は、後悔を最小限に抑えるエージェントのための意思決定ポリシーを開発することである。 提案手法であるRestarted Bayesian Online Change Point Detection in Cooperative Upper Confidence Bound Algorithm (RBO-Coop-UCB) は,ベイジアン変化点検出器で強化されたコアとして,効率的なマルチエージェント UCB アルゴリズムを含む。 また,意思決定を改善するための簡単な再起動決定協調も開発した。 理論的には、RBO-Coop-UCB の期待された群後悔は $\mathcal{O}(KNM\log T + K\sqrt{MT\log T})$ で上界であると証明する。 合成および実世界のデータセットに関する数値実験により,提案手法が最先端のアルゴリズムより優れていることを示す。

We study a structured multi-agent multi-armed bandit (MAMAB) problem in a dynamic environment. A graph reflects the information-sharing structure among agents, and the arms' reward distributions are piecewise-stationary with several unknown change points. The agents face the identical piecewise-stationary MAB problem. The goal is to develop a decision-making policy for the agents that minimizes the regret, which is the expected total loss of not playing the optimal arm at each time step. Our proposed solution, Restarted Bayesian Online Change Point Detection in Cooperative Upper Confidence Bound Algorithm (RBO-Coop-UCB), involves an efficient multi-agent UCB algorithm as its core enhanced with a Bayesian change point detector. We also develop a simple restart decision cooperation that improves decision-making. Theoretically, we establish that the expected group regret of RBO-Coop-UCB is upper bounded by $\mathcal{O}(KNM\log T + K\sqrt{MT\log T})$, where K is the number of agents, M is the number of arms, and T is the number of time steps. Numerical experiments on synthetic and real-world datasets demonstrate that our proposed method outperforms the state-of-the-art algorithms.
翻訳日:2023-06-12 12:43:00 公開日:2023-06-09
# 深層学習を用いたドイツの胸部X線ラジオグラフィーレポートの自動ラベリング

Automated Labeling of German Chest X-Ray Radiology Reports using Deep Learning ( http://arxiv.org/abs/2306.05997v1 )

ライセンス: Link先を確認
Alessandro Wollek, Philip Haitzer, Thomas Sedlmeyr, Sardi Hyska, Johannes Rueckel, Bastian Sabel, Michael Ingrisch, Tobias Lasser(参考訳) 放射線科医は世界中で不足しており、ディープラーニングモデルは臨床診断支援システムの一部として、この不足に対処するための有望な解決策を提供する。 しかし、そのようなモデルのトレーニングには、しばしば高価で時間を要する大規模なデータセットのマニュアルラベリングが必要である。 ラジオロジーレポートからの自動ラベル抽出はラベル付きデータセットを取得するのに必要な時間を短縮することができるが、このタスクは意味的に類似した単語と注釈付きデータがないために困難である。 本研究では,ルールベースラベルを用いた深層学習に基づくラベル予測モデルの弱監視の可能性を検討する。 本稿では,ルールベースのドイツCheXpertモデルによってラベル付けされたレポートに事前トレーニングされたディープラーニングベースのCheXpertラベル予測モデルを提案する。 その結果,3つのタスクすべてにおいて,ルールベースモデルを大幅に上回ったアプローチの有効性が示された。 本研究は,データ不足のシナリオにおいても深層学習モデルを採用することのメリットと,ルールベースのラベルを弱い監視ツールとして活用することを明らかにする。

Radiologists are in short supply globally, and deep learning models offer a promising solution to address this shortage as part of clinical decision-support systems. However, training such models often requires expensive and time-consuming manual labeling of large datasets. Automatic label extraction from radiology reports can reduce the time required to obtain labeled datasets, but this task is challenging due to semantically similar words and missing annotated data. In this work, we explore the potential of weak supervision of a deep learning-based label prediction model, using a rule-based labeler. We propose a deep learning-based CheXpert label prediction model, pre-trained on reports labeled by a rule-based German CheXpert model and fine-tuned on a small dataset of manually labeled reports. Our results demonstrate the effectiveness of our approach, which significantly outperformed the rule-based model on all three tasks. Our findings highlight the benefits of employing deep learning-based models even in scenarios with sparse data and the use of the rule-based labeler as a tool for weak supervision.
翻訳日:2023-06-12 12:42:33 公開日:2023-06-09
# 再帰的q-learningの近似情報状態に基づく収束解析

Approximate information state based convergence analysis of recurrent Q-learning ( http://arxiv.org/abs/2306.05991v1 )

ライセンス: Link先を確認
Erfan Seyedsalehi, Nima Akbarzadeh, Amit Sinha, Aditya Mahajan(参考訳) 部分的に観測可能なマルコフ決定過程(POMDP)のための強化学習(RL)アルゴリズムに関する多くの文献があるが、完全に理論的に理解されていない。 部分的に観察可能な設定では、エージェントが利用できるデータの履歴は時間とともに増加するため、ほとんどの実用的なアルゴリズムは、履歴を有限ウィンドウに切り詰めるか、非マルコフ的エージェント状態につながるリカレントニューラルネットワークを使用して圧縮するかのどちらかである。 本稿では,マルコフ特性の欠如にもかかわらず,繰り返しQ-ラーニング(RQL)が表の設定に収束することを示す。 さらに、収束限界の品質は、近似情報状態(AIS)として知られるものを用いて定量化される表現の品質に依存することを示した。 この近似誤差の特性に基づいて、AIS損失のあるRQLの変種を示す。 この変種は、AIS損失を使用しないRQLの強力なベースラインよりもパフォーマンスがよい。 時間とともにRQLの性能とAIS表現に伴う損失との間には強い相関関係があることが示されている。

In spite of the large literature on reinforcement learning (RL) algorithms for partially observable Markov decision processes (POMDPs), a complete theoretical understanding is still lacking. In a partially observable setting, the history of data available to the agent increases over time so most practical algorithms either truncate the history to a finite window or compress it using a recurrent neural network leading to an agent state that is non-Markovian. In this paper, it is shown that in spite of the lack of the Markov property, recurrent Q-learning (RQL) converges in the tabular setting. Moreover, it is shown that the quality of the converged limit depends on the quality of the representation which is quantified in terms of what is known as an approximate information state (AIS). Based on this characterization of the approximation error, a variant of RQL with AIS losses is presented. This variant performs better than a strong baseline for RQL that does not use AIS losses. It is demonstrated that there is a strong correlation between the performance of RQL over time and the loss associated with the AIS representation.
翻訳日:2023-06-12 12:42:13 公開日:2023-06-09
# 時系列予測と異常検出のための四成分系季節分解

Quartile-Based Seasonality Decomposition for Time Series Forecasting and Anomaly Detection ( http://arxiv.org/abs/2306.05989v1 )

ライセンス: Link先を確認
Ebenezer RHP Isaac and Bulbul Singh(参考訳) 通信領域では、異常パターン、異常行動、ネットワーク異常の識別とキャラクタリゼーションが容易になり、サービス品質と運用効率の向上に寄与するため、異常のタイムリーな検出が不可欠である。 予測可能な時系列パターンの正確な予測と排除は、時系列異常検出の重要な構成要素である。 最先端の手法は予測精度を最大化することを目指しているが、計算性能は低下する。 セルキーパフォーマンス指標(KPI)のような多数の時系列変数で構成されるシステムでは、使用される予測の時間と空間の複雑さが重要である。 QBSD(Quartile-Based Seasonality Decomposition)は,計算複雑性と予測精度のトレードオフを最適に行うために提案した実時間予測手法である。 本稿では,qbsdの性能を最先端予測手法と実用的異常検出への適用性と比較する。 提案手法の有効性を実証するため,公開データセットとテレコムkpiデータセットを用いて実験評価を行った。

The timely detection of anomalies is essential in the telecom domain as it facilitates the identification and characterization of irregular patterns, abnormal behaviors, and network anomalies, contributing to enhanced service quality and operational efficiency. Precisely forecasting and eliminating predictable time series patterns constitutes a vital component of time series anomaly detection. While the state-of-the-art methods aim to maximize forecasting accuracy, the computational performance takes a hit. In a system composed of a large number of time series variables, e.g., cell Key Performance Indicators (KPIs), the time and space complexity of the forecasting employed is of crucial importance. Quartile-Based Seasonality Decomposition (QBSD) is a live forecasting method proposed in this paper to make an optimal trade-off between computational complexity and forecasting accuracy. This paper compares the performance of QBSD to the state-of-the-art forecasting methods and their applicability to practical anomaly detection. To demonstrate the efficacy of the proposed solution, experimental evaluation was conducted using publicly available datasets as well as a telecom KPI dataset.
翻訳日:2023-06-12 12:41:55 公開日:2023-06-09
# 対照的学習アプローチによるエージェント市場秩序表現

Agent market orders representation through a contrastive learning approach ( http://arxiv.org/abs/2306.05987v1 )

ライセンス: Link先を確認
Ruihua Ruan, Emmanuel Bacry, Jean-Fran\c{c}ois Muzy(参考訳) ユーロネクストからのCAC40データのラベル付き注文へのアクセスにより、我々は注文された注文に基づいて市場のエージェントの行動を分析することができる。 本研究では,三重項損失を用いた自己教師型学習モデルを構築し,エージェント市場注文の表現を効果的に学習する。 この学習された表現を取得することで、様々な下流タスクが実現可能である。 本研究では,k-meansクラスタリングアルゴリズムをエージェント順序の学習表現ベクトル上で活用し,クラスタ内の異なる振る舞いタイプを同定する。

Due to the access to the labeled orders on the CAC40 data from Euronext, we are able to analyse agents' behaviours in the market based on their placed orders. In this study, we construct a self-supervised learning model using triplet loss to effectively learn the representation of agent market orders. By acquiring this learned representation, various downstream tasks become feasible. In this work, we utilise the K-means clustering algorithm on the learned representation vectors of agent orders to identify distinct behaviour types within each cluster.
翻訳日:2023-06-12 12:41:34 公開日:2023-06-09
# Beyond Detection: ディープフェイクのビジュアルリアリズムアセスメント

Beyond Detection: Visual Realism Assessment of Deepfakes ( http://arxiv.org/abs/2306.05985v1 )

ライセンス: Link先を確認
Luka Dragar, Peter Peer, Vitomir \v{S}truc, Borut Batagelj(参考訳) 急速なデジタル化と人工知能の進歩の時代、ディープフェイク技術の発展は、セキュリティとプライバシに関する重大な懸念を引き起こした。 本稿では,DeepFakeビデオの視覚的リアリズムを評価するための効果的な尺度を提案する。 我々は2つの畳み込みニューラルネットワーク(CNN)モデル、EvaとConvNextのアンサンブルを利用する。 これらのモデルは、DeepFake Game Competition (DFGC) 2022データセットでトレーニングされており、フレームのシーケンスから抽出された機能に基づいて、DeepFakeビデオから平均オピニオンスコア(MOS)を予測することを目指している。 本手法は,2023年国際バイオメトリクス会議(IJCB 2023)と共同で開催したDFGC on Visual Realism Assessmentにおいて,第3位を獲得した。 モデル、データ前処理、トレーニング手順のオーバービューを提供します。 また,コンペティションのベースラインモデルに対するモデルの性能を報告し,結果の意義について考察した。

In the era of rapid digitalization and artificial intelligence advancements, the development of DeepFake technology has posed significant security and privacy concerns. This paper presents an effective measure to assess the visual realism of DeepFake videos. We utilize an ensemble of two Convolutional Neural Network (CNN) models: Eva and ConvNext. These models have been trained on the DeepFake Game Competition (DFGC) 2022 dataset and aim to predict Mean Opinion Scores (MOS) from DeepFake videos based on features extracted from sequences of frames. Our method secured the third place in the recent DFGC on Visual Realism Assessment held in conjunction with the 2023 International Joint Conference on Biometrics (IJCB 2023). We provide an over\-view of the models, data preprocessing, and training procedures. We also report the performance of our models against the competition's baseline model and discuss the implications of our findings.
翻訳日:2023-06-12 12:41:25 公開日:2023-06-09
# 量子インターネットアドレッシング

Quantum Internet Addressing ( http://arxiv.org/abs/2306.05982v1 )

ライセンス: Link先を確認
Angela Sara Cacciapuoti, Jessica Illiano, Michele Viscardi, Marcello Caleffi(参考訳) 量子インターネットプロトコルスタックの設計は、その初期段階と初期段階の概念化である。 そして現在、異なる異種の提案が文献に載っている。 既存の提案の基本的な前提は、古典的なインターネットプロトコル設計の原則を暗黙的に模倣していることだ。 住所は場所を示す。 ルートはそこに着く方法を示しています。 したがって、ネットワークノードは、古典ビットからなる古典的なアドレスでラベル付けされ、これらのラベルは、ネットワークトポロジ内のノードの位置を反映することを目的としている。 本稿では,この2次元の古典的なアドレッシングと位置認識アドレッシングは,単純な情報エンコーディング/デコードよりも,ネットワーク機能への量子性拡張を阻害する制約設計オプションであると主張する。 それとは対照的に、ノードアドレス内に量子性を受け入れることで、通信ネットワーク全体の量子ネイティブ機能を実現するために量子原理と現象を利用することができる。 これによってQuantum Internetの究極のビジョンと能力が解き放たれる。

The design of the Quantum Internet protocol stack is at its infancy and early-stage conceptualization. And different heterogeneous proposals are currently available in the literature. The underlying assumption of the existing proposals is that they implicitly mimic classical Internet Protocol design principles: "A name indicates what we seek. An address indicates where it is. A route indicates how to get there''. Hence the network nodes are labeled with classical addresses, constituted by classical bits, and these labels aim at reflecting the node location within the network topology. In this paper, we argue that this twofold assumption of classical and location-aware addressing constitutes a restricting design option, which prevents to scale the quantumness to the network functionalities, beyond simple information encoding/decoding. On the contrary, by embracing quantumness within the node addresses, quantum principles and phenomena could be exploited for enabling a quantum native functioning of the entire communication network. This will unleash the ultimate vision and capabilities of the Quantum Internet.
翻訳日:2023-06-12 12:41:12 公開日:2023-06-09
# 医用画像解析のための連合学習:調査

Federated Learning for Medical Image Analysis: A Survey ( http://arxiv.org/abs/2306.05980v1 )

ライセンス: Link先を確認
Hao Guan, Mingxia Liu(参考訳) 医療画像における機械学習は、しばしば基本的なジレンマ、すなわち小さなサンプルサイズ問題に直面している。 最近の多くの研究は、異なる取得サイトやデータセットからプールされたマルチドメインデータを用いて、統計力を改善することを示唆している。 しかし、プライバシー保護の理由から、異なるサイトからの医療画像を簡単に共有することはできず、モデルトレーニング用の大規模なデータセットを構築することができる。 有望なソリューションとして,複数サイト間のデータ共有を必要とせず,異なるサイトのデータに基づく機械学習モデルの協調学習を可能にするフェデレーション学習が注目されている。 本稿では,医療画像解析におけるフェデレート学習手法の最近の開発について,総合的な調査を行う。 まず,医療画像におけるプライバシー保護と協調学習問題に対する連合学習の背景とモチベーションについて紹介する。 次に、医用画像解析のための連合学習手法の最近の進歩を概観する。 具体的には、クライアントエンド、サーバエンド、通信技術を含む連合学習システムの3つの重要な側面に基づいて、既存の手法を分類する。 各カテゴリにおいて、医用画像解析における特定の研究課題に応じて既存の連合学習手法を要約し、異なるアプローチのモチベーションに関する洞察を提供する。 さらに,現状の連合学習研究のための既存のベンチマーク医用画像データセットとソフトウェアプラットフォームについてレビューする。 また,医療画像解析のための典型的な連合学習法を実証的に評価する実験を行った。 この調査は、この有望な研究分野における現在の研究状況、課題、潜在的研究機会の理解を深める助けとなる。

Machine learning in medical imaging often faces a fundamental dilemma, namely the small sample size problem. Many recent studies suggest using multi-domain data pooled from different acquisition sites/datasets to improve statistical power. However, medical images from different sites cannot be easily shared to build large datasets for model training due to privacy protection reasons. As a promising solution, federated learning, which enables collaborative training of machine learning models based on data from different sites without cross-site data sharing, has attracted considerable attention recently. In this paper, we conduct a comprehensive survey of the recent development of federated learning methods in medical image analysis. We first introduce the background and motivation of federated learning for dealing with privacy protection and collaborative learning issues in medical imaging. We then present a comprehensive review of recent advances in federated learning methods for medical image analysis. Specifically, existing methods are categorized based on three critical aspects of a federated learning system, including client end, server end, and communication techniques. In each category, we summarize the existing federated learning methods according to specific research problems in medical image analysis and also provide insights into the motivations of different approaches. In addition, we provide a review of existing benchmark medical imaging datasets and software platforms for current federated learning research. We also conduct an experimental study to empirically evaluate typical federated learning methods for medical image analysis. This survey can help to better understand the current research status, challenges and potential research opportunities in this promising research field.
翻訳日:2023-06-12 12:40:56 公開日:2023-06-09
# 3dポイントクラウドデータを用いた3dオブジェクトとシーンの分類,認識,セグメンテーション,再構成

3D objects and scenes classification, recognition, segmentation, and reconstruction using 3D point cloud data: A review ( http://arxiv.org/abs/2306.05978v1 )

ライセンス: Link先を確認
Omar Elharrouss, Kawther Hassine, Ayman Zayyan, Zakariyae Chatri, Noor almaadeed, Somaya Al-Maadeed and Khalid Abualsaud(参考訳) 3次元(3D)ポイントクラウド分析は、その単純さ、柔軟性、可視化能力によって、現実的な画像やマシンビジョンにおいて魅力的な対象の1つになっている。 実際、3次元形状と形式を用いたシーンや建物の表現は、自動走行、シーン、オブジェクトの再構築など、多くの応用を生かした。 それにもかかわらず、この新たなタイプのデータを扱うことは、オブジェクト表現、シーン認識、セグメンテーション、再構築にとって難しいタスクである。 この点において、近年、深層学習モデルのような異なる手法を用いて、新しい戦略の開発に多大な努力が注がれている。 そこで本論文では,3Dポイントクラウド上の既存のタスクを包括的にレビューし,採用アルゴリズムの性質,アプリケーションシナリオ,主な目的に基づいて,既存のテクニックの明確に定義された分類を行う。 オブジェクトやシーンの検出,認識,セグメンテーション,再構築など,3Dポイントで行うさまざまなタスクについて検討した。 さらに,使用済みデータセットの一覧を導入し,各評価指標について検討し,既存のソリューションの性能を比較して,最先端の情報を提供し,その限界と強みを識別する。 最後に、今後の研究研究の出発点となる技術と今後のトレンドが注目されている現在の課題について詳しく述べる。

Three-dimensional (3D) point cloud analysis has become one of the attractive subjects in realistic imaging and machine visions due to its simplicity, flexibility and powerful capacity of visualization. Actually, the representation of scenes and buildings using 3D shapes and formats leveraged many applications among which automatic driving, scenes and objects reconstruction, etc. Nevertheless, working with this emerging type of data has been a challenging task for objects representation, scenes recognition, segmentation, and reconstruction. In this regard, a significant effort has recently been devoted to developing novel strategies, using different techniques such as deep learning models. To that end, we present in this paper a comprehensive review of existing tasks on 3D point cloud: a well-defined taxonomy of existing techniques is performed based on the nature of the adopted algorithms, application scenarios, and main objectives. Various tasks performed on 3D point could data are investigated, including objects and scenes detection, recognition, segmentation and reconstruction. In addition, we introduce a list of used datasets, we discuss respective evaluation metrics and we compare the performance of existing solutions to better inform the state-of-the-art and identify their limitations and strengths. Lastly, we elaborate on current challenges facing the subject of technology and future trends attracting considerable interest, which could be a starting point for upcoming research studies
翻訳日:2023-06-12 12:40:32 公開日:2023-06-09
# 断続的存在規則とマッピングを用いたクエリ書き換え

Query Rewriting with Disjunctive Existential Rules and Mappings ( http://arxiv.org/abs/2306.05973v1 )

ライセンス: Link先を確認
Michel Lecl\`ere and Marie-Laure Mugnier and Guillaume P\'erution-Kihli(参考訳) 本稿では, 共役クエリ(UCQ)の結合に, 実存規則とマッピングを対応させる問題について考察する。 この問題は、既に追跡の観点からよく研究されているが、UCQ内のクエリ書き換えは、ほとんど解決されていない。 まず, チェイスステップと書き直しステップとの密接な関係を確立するという利点を持つ, 音声と完全クエリの書き直し演算子を提案する。 関連する幅優先クエリ書き換えアルゴリズムは、存在する場合の最小限のUCQ書き換えを出力する。 第二に、'truly disjunctive' の非再帰的な規則に対して、UCQ-rewritingを持たない連結的なクエリが存在することを示す。 有限統一集合(fus)の概念は、任意のUCQがUCQ書き換えを許すような存在規則の集合を表すが、この集合においてはほとんど関係がないようである。 最後に、写像に注意を向けると、UCQが解離写像によるUCQ書き換えを認めているかどうかを判断する問題は決定不可能であることを示す。 我々は多くの未解決問題で締めくくった。

We consider the issue of answering unions of conjunctive queries (UCQs) with disjunctive existential rules and mappings. While this issue has already been well studied from a chase perspective, query rewriting within UCQs has hardly been addressed yet. We first propose a sound and complete query rewriting operator, which has the advantage of establishing a tight relationship between a chase step and a rewriting step. The associated breadth-first query rewriting algorithm outputs a minimal UCQ-rewriting when one exists. Second, we show that for any ``truly disjunctive'' nonrecursive rule, there exists a conjunctive query that has no UCQ-rewriting. It follows that the notion of finite unification sets (fus), which denotes sets of existential rules such that any UCQ admits a UCQ-rewriting, seems to have little relevance in this setting. Finally, turning our attention to mappings, we show that the problem of determining whether a UCQ admits a UCQ-rewriting through a disjunctive mapping is undecidable. We conclude with a number of open problems.
翻訳日:2023-06-12 12:40:10 公開日:2023-06-09
# 2光子励起による非同定エミッタ間の最大絡み合いの散逸安定化

Dissipative stabilization of maximal entanglement between non-identical emitters via two-photon excitation ( http://arxiv.org/abs/2306.06028v1 )

ライセンス: Link先を確認
Alejandro Vivas-Via\~na, Diego Mart\'in-Cano, Carlos S\'anchez Mu\~noz(参考訳) キャビティ内に埋め込まれた2つの非同一の量子エミッタ間のほぼ極大定常の絡み合いの発生と、2光子共鳴、すなわち二重励起状態のエネルギーの半分でコヒーレントに励起される2つの量子エミッタの生成について検討した。 我々は,エミッタが二量体を形成し,キャビティ線幅が内部の励起構造を解くのに十分小さいときに発生する機構を報告する。 この条件は周波数依存性のパーセル効果を生じさせ、キャビティ周波数に対する2つの共振状態を引き起こす。 各共振器において、一励起量子ビット状態の対称的あるいは非対称的組み合わせのほぼ極大定常占有を観測する。 この機構は光学的に調整可能であり、以前の研究で報告された基底状態から対称状態または反対称状態への遷移の共鳴励起よりもかなり大きく、より速い定常絡み合いをもたらす。 系のパラメータ空間を探索することにより、この現象は2光子共鳴でエミッタを駆動する際に静止および準安定な絡み合いを生じさせる効果の1つであることが示されている。 我々は,このメカニズムの展望をグローバルに把握し,これらの現象に関する分析的記述と洞察を提供し,文献における過去の報告とのつながりを確立し,これらの効果を光学的に検出する方法について議論する。

We study the generation of nearly maximal stationary entanglement between two non-identical quantum emitters embedded in a cavity and coherently excited at the two-photon resonance, i.e., with half of the energy of the doubly excited state. We report a mechanism that arises when the emitters interact forming a dimer and the cavity linewidth is small enough to resolve their internal excitonic structure. This condition gives rise to a frequency-dependent Purcell effect which results into two resonant conditions for the cavity frequency. At each resonance, we observe a nearly maximal steady-state occupation of either the symmetric or antisymmetric combination of one-excitation qubit states. This mechanism is optically tunable and leads to significantly greater and faster stationary entanglement than the resonant excitation of the transition from the ground state to the symmetric or antisymmetric states, reported in previous works. By exploring the parameter space of the system, we show that this phenomenon is one of a family of effects that can generate both stationary and metastable entanglement when driving the emitters at the two-photon resonance. We provide a global perspective of this landscape of mechanisms and contribute analytical descriptions and insights into these phenomena, establishing connections with previous reports in the literature and discussing how some of these effects can be optically detected.
翻訳日:2023-06-12 12:32:27 公開日:2023-06-09
# VarSaw: 変分量子アルゴリズムにおける測定誤差低減の応用

VarSaw: Application-tailored Measurement Error Mitigation for Variational Quantum Algorithms ( http://arxiv.org/abs/2306.06027v1 )

ライセンス: Link先を確認
Siddharth Dangwal, Gokul Subramanian Ravi, Poulami Das, Kaitlin N. Smith, Jonathan M. Baker, Frederic T. Chong(参考訳) 潜在的な量子優位性のために、変分量子アルゴリズム(VQA)は、今日のNISQデバイスの能力を超える高い精度を必要とするため、エラー軽減の恩恵を受ける。 本研究は,回路実行後のキュービット計測において発生する測定誤差を軽減し,特にVQAに対して最もエラーが発生しやすい操作であることを示す。 初期の研究であるJigSawは、回路キュービットの小さなサブセットのみを一度に測定し、その結果を全てのサブセット回路に集めることで測定誤差を低減できることを示した。 次に、(球状)原回路全体を実行し、キュービット-量子計測相関を抽出することにより、サブセットと組み合わせて原回路の高忠実な出力分布を構築することができる。 残念なことに、JigSawの実行コストは回路内のキュービット数で多項式的にスケールし、VQAの回路数と繰り返し数で合成されると、結果として実行コストは急速に増大する。 本稿では,異なるVQA回路のサブセット間の空間的冗長性や,異なるVQAイテレーションのグローバル領域間の時間的冗長性といった,VQAに対するJigSawアプローチのかなりの冗長性を特定することにより,JigSawをアプリケーションに適した方法で改善するVarSawを提案する。 次に、VarSawはサブセット回路を交換し、グローバル回路を選択的に実行することでこれらの冗長性を排除し、同じVQA精度で平均25倍、最大1000倍の計算コストを削減した。 さらに、ノイズの多いVQAベースラインにおける測定誤差から、平均して45%の不確かさを回復することができる。 最後に、固定された計算予算に対して、jigsawを平均して55%改善する。 VarSawはこちらからアクセスできる。

For potential quantum advantage, Variational Quantum Algorithms (VQAs) need high accuracy beyond the capability of today's NISQ devices, and thus will benefit from error mitigation. In this work we are interested in mitigating measurement errors which occur during qubit measurements after circuit execution and tend to be the most error-prone operations, especially detrimental to VQAs. Prior work, JigSaw, has shown that measuring only small subsets of circuit qubits at a time and collecting results across all such subset circuits can reduce measurement errors. Then, running the entire (global) original circuit and extracting the qubit-qubit measurement correlations can be used in conjunction with the subsets to construct a high-fidelity output distribution of the original circuit. Unfortunately, the execution cost of JigSaw scales polynomially in the number of qubits in the circuit, and when compounded by the number of circuits and iterations in VQAs, the resulting execution cost quickly turns insurmountable. To combat this, we propose VarSaw, which improves JigSaw in an application-tailored manner, by identifying considerable redundancy in the JigSaw approach for VQAs: spatial redundancy across subsets from different VQA circuits and temporal redundancy across globals from different VQA iterations. VarSaw then eliminates these forms of redundancy by commuting the subset circuits and selectively executing the global circuits, reducing computational cost (in terms of the number of circuits executed) over naive JigSaw for VQA by 25x on average and up to 1000x, for the same VQA accuracy. Further, it can recover, on average, 45% of the infidelity from measurement errors in the noisy VQA baseline. Finally, it improves fidelity by 55%, on average, over JigSaw for a fixed computational budget. VarSaw can be accessed here: https://github.com/siddharthdangwal/VarSaw.
翻訳日:2023-06-12 12:32:00 公開日:2023-06-09
# 実測による自己解釈可能な時系列予測

Self-Interpretable Time Series Prediction with Counterfactual Explanations ( http://arxiv.org/abs/2306.06024v1 )

ライセンス: Link先を確認
Jingquan Yan, Hao Wang(参考訳) 解釈可能な時系列予測は、医療や自動運転のような安全クリティカルな分野に不可欠である。 既存の手法の多くは、重要なスコアを時系列のセグメントに割り当てることで予測を解釈することに集中している。 本稿では,時間列予測のための非現実的かつ実用的な説明を生成する,CounTS(Counfactual Time Series)と呼ばれる自己解釈可能なモデルの開発を目指す。 具体的には,時系列の反事実的説明の問題を定式化し,関連する評価プロトコルを定式化し,時系列推論,行動,予測の反事実的推論能力を備えた変分ベイズ深層学習モデルを提案する。 最先端のベースラインと比較して、我々の自己解釈可能なモデルは、同等の予測精度を維持しながら、より優れた対実的説明を生成することができる。

Interpretable time series prediction is crucial for safety-critical areas such as healthcare and autonomous driving. Most existing methods focus on interpreting predictions by assigning important scores to segments of time series. In this paper, we take a different and more challenging route and aim at developing a self-interpretable model, dubbed Counterfactual Time Series (CounTS), which generates counterfactual and actionable explanations for time series predictions. Specifically, we formalize the problem of time series counterfactual explanations, establish associated evaluation protocols, and propose a variational Bayesian deep learning model equipped with counterfactual inference capability of time series abduction, action, and prediction. Compared with state-of-the-art baselines, our self-interpretable model can generate better counterfactual explanations while maintaining comparable prediction accuracy.
翻訳日:2023-06-12 12:31:23 公開日:2023-06-09
# DetZero: 長期点雲を用いたオフボード3次元物体検出の再検討

DetZero: Rethinking Offboard 3D Object Detection with Long-term Sequential Point Clouds ( http://arxiv.org/abs/2306.06023v1 )

ライセンス: Link先を確認
Tao Ma, Xuemeng Yang, Hongbin Zhou, Xin Li, Botian Shi, Junjie Liu, Yuchen Yang, Zhizheng Liu, Liang He, Yu Qiao, Yikang Li, Hongsheng Li(参考訳) 既存のオフボード3D検出器は、無限の逐次点雲を利用するために常にモジュラーパイプライン設計に従っている。 オフボード型3d検出器のポテンシャルは,(1)オンボード型マルチオブジェクトトラッカが十分な完全な対象軌道を生成することができないこと,(2)オブジェクトの動作状態が,長期の時間的文脈表現を活用する上で,オブジェクト中心の精錬段階において必然的な課題となること,の2つの理由から検討されていないことが判明した。 そこで本研究では,オフボード3次元物体検出の新しいパラダイムであるdetzeroを提案する。 具体的には,マルチフレーム検出器と結合したオフライントラッカを提案し,生成した対象トラックの完全性に着目した。 長期連続点雲間のコンテキスト情報相互作用を強化するために,分解回帰法を用いて物体精製を行う。 waymo open datasetの広範な実験により、detzeroは最先端の3d検出手法を全て上回っています。 特に、DetZeroは85.15 mAPH (L2)検出性能を持つWaymo 3Dオブジェクト検出リーダーボードで1位である。 さらなる実験は、このような高品質な結果によって、人間のラベルに取って代わることの応用性を検証する。 私たちの経験的研究は、オフボード3D物体検出の今後の研究をガイドする、慣習の再考や興味深い発見につながります。

Existing offboard 3D detectors always follow a modular pipeline design to take advantage of unlimited sequential point clouds. We have found that the full potential of offboard 3D detectors is not explored mainly due to two reasons: (1) the onboard multi-object tracker cannot generate sufficient complete object trajectories, and (2) the motion state of objects poses an inevitable challenge for the object-centric refining stage in leveraging the long-term temporal context representation. To tackle these problems, we propose a novel paradigm of offboard 3D object detection, named DetZero. Concretely, an offline tracker coupled with a multi-frame detector is proposed to focus on the completeness of generated object tracks. An attention-mechanism refining module is proposed to strengthen contextual information interaction across long-term sequential point clouds for object refining with decomposed regression methods. Extensive experiments on Waymo Open Dataset show our DetZero outperforms all state-of-the-art onboard and offboard 3D detection methods. Notably, DetZero ranks 1st place on Waymo 3D object detection leaderboard with 85.15 mAPH (L2) detection performance. Further experiments validate the application of taking the place of human labels with such high-quality results. Our empirical study leads to rethinking conventions and interesting findings that can guide future research on offboard 3D object detection.
翻訳日:2023-06-12 12:31:10 公開日:2023-06-09
# ネットワーク内計算におけるメタバースの動的部分計算オフロード

A Dynamic Partial Computation Offloading for the Metaverse in In-Network Computing ( http://arxiv.org/abs/2306.06022v1 )

ライセンス: Link先を確認
Ibrahim Aliyu, Namseok Ko, Tai-Won Um, Jinsul Kim(参考訳) In-Network Computing(COIN)パラダイムは、未使用のネットワークリソースを活用して、メタバースなどの計算要求アプリケーションに対応するタスクを実行する、有望なソリューションである。 本稿では,コイン環境における複数のサブタスクに対するメタバース部分計算オフロード問題を検討し,計算資源の状態の変化に基づいてオフロードポリシーを動的に調整しながら,消費電力と遅延を最小限に抑える。 その結果,タスク分割問題 (TSP) とタスクオフロード問題 (TOP) の2つのサブプロブレムに変換された。 我々は、TSPを順序付きポテンシャルゲーム(OPG)としてモデル化し、Nash Equilibrium(NE)を得るための分散アルゴリズムを提案した。 そこで我々は,TOP を Markov Decision Process (MDP) としてモデル化し,Double Deep Q-network (DDQN) を提案する。 従来のDDQNアルゴリズムとは異なり、知的エージェントは特定の確率でランダムにオフロード決定をサンプリングし、COINエージェントはTSPとディープニューラルネットワークのNEを探索する。 シミュレーションの結果,提案手法により,COINエージェントがポリシーを更新し,より情報的決定を行えるようになり,従来のベースラインに比べて時間とともに性能が向上することが示された。

The In-Network Computing (COIN) paradigm is a promising solution that leverages unused network resources to perform some tasks to meet up with computation-demanding applications, such as metaverse. In this vein, we consider the metaverse partial computation offloading problem for multiple subtasks in a COIN environment to minimise energy consumption and delay while dynamically adjusting the offloading policy based on the changing computation resources status. We prove that the problem is NP and thus transformed it into two subproblems: task splitting problem (TSP) on the user side and task offloading problem (TOP) on the COIN side. We modelled the TSP as an ordinal potential game (OPG) and proposed a decentralised algorithm to obtain its Nash Equilibrium (NE). Then, we model the TOP as Markov Decision Process (MDP) proposed double deep Q-network (DDQN) to solve for the optimal offloading policy. Unlike the conventional DDQN algorithm, where intelligent agents sample offloading decisions randomly within a certain probability, our COIN agent explores the NE of the TSP and the deep neural network. Finally, simulation results show that our proposed model approach allows the COIN agent to update its policies and make more informed decisions, leading to improved performance over time compared to the traditional baseline.
翻訳日:2023-06-12 12:30:42 公開日:2023-06-09
# 自己教師型ビデオ表現学習のベンチマーク

Benchmarking self-supervised video representation learning ( http://arxiv.org/abs/2306.06010v1 )

ライセンス: Link先を確認
Akash Kumar, Ashlesha Kumar, Vibhav Vineet, Yogesh Singh Rawat(参考訳) 自己教師付き学習は、ラベル付けが高価であるビデオ領域において、ラベルなしモデルの事前学習に有効な方法である。 ビデオ領域における既存の自己監督型ワークは、さまざまな実験的なセットアップを使用して、その効果とアプローチ間の比較を実証する。 そこで本研究では,まず,既存のアプローチを同一条件で比較可能なベンチマークを提案する。 次に,ビデオにとって重要な自己教師型学習の5つの側面について検討する。 1)データセットサイズ。 2)複雑さ。 3)データ流通 4)データノイズ,5)特徴分析。 本研究では、7つの異なるネットワークアーキテクチャとともに7つの異なる手法に焦点を合わせ、5つの異なるデータセットに対する広範な実験を行い、2つの異なる下流タスクの評価を行う。 本研究から得られた興味深い知見は,事前学習やターゲットデータセット,プリテキストタスク,モデルアーキテクチャなど,さまざまな特性にまたがるものである。 さらに,これらの知見を実際のテストに適用し,限られたトレーニングデータを必要とするアプローチを提案し,事前トレーニングデータを10倍使用した既存の最先端のアプローチよりも優れる手法を提案する。 我々は、この研究が、ビデオ表現学習における自己教師付きプレテキストタスクの理解を深める道を開くと信じている。

Self-supervised learning is an effective way for label-free model pre-training, especially in the video domain where labeling is expensive. Existing self-supervised works in the video domain use varying experimental setups to demonstrate their effectiveness and comparison across approaches becomes challenging with no standard benchmark. In this work, we first provide a benchmark that enables a comparison of existing approaches on the same ground. Next, we study five different aspects of self-supervised learning important for videos; 1) dataset size, 2) complexity, 3) data distribution, 4) data noise, and, 5)feature analysis. To facilitate this study, we focus on seven different methods along with seven different network architectures and perform an extensive set of experiments on 5 different datasets with an evaluation of two different downstream tasks. We present several interesting insights from this study which span across different properties of pretraining and target datasets, pretext-tasks, and model architectures among others. We further put some of these insights to the real test and propose an approach that requires a limited amount of training data and outperforms existing state-of-the-art approaches which use 10x pretraining data. We believe this work will pave the way for researchers to a better understanding of self-supervised pretext tasks in video representation learning.
翻訳日:2023-06-12 12:30:19 公開日:2023-06-09
# 弱過程に対する時間平均量子アニール

Time-averaged quantum annealing for weak processes ( http://arxiv.org/abs/2306.06008v1 )

ライセンス: Link先を確認
Pierre Naz\'e(参考訳) 量子イジングチェーンは、弱いプロセスで操作した場合の断熱性への近道を持つ。 しかしながら、システム固有のkibble-zurek機構の非平衡効果が、そのような文脈において最適なプロトコルに正確に現れるとき、いつ現れるのか? ここでは、システムの励起消費エネルギーを測定する方法により、このような対照的な差が生じることを提案する。 そこで,本研究では,時間平均余剰作業の量子アニール過程を定性的に解析し,この系をヒューリスティックなキブル・ズールク機構緩和時間として取得した。 4つの重要な効果として, 断熱へのショートカットの欠如, キブル・ズレーク機構が成立する際の最適プロトコルにおける臨界点周辺の舗装効果, 切替時間が大きくても緩やかな変動を回避するための平均作業の持続性, 平均作業の変動のばらつきがある。 結局、過大な作業と時間平均余剰作業を比較することで、この最後の作業は弱いプロセスで消費される励起エネルギーを測定するのに役に立ちませんが、強い運転ケースで起こることに直感をもたらすと結論付けます。

The quantum Ising chain has shortcuts to adiabaticity when operated with weak processes. However, when exactly do the non-equilibrium effects of the Kibble-Zurek mechanism, inherent to the system, appear in the optimal protocols in such a context? I propose here that such contrasting difference occurs due to the manner by which one measures the excitation spent energy of the system. Therefore, in this work, I made a qualitative analysis of a quantum annealing procedure of the time-averaged excess work, where the system acquires as a diverging decorrelation time the heuristic Kibble-Zurek mechanism relaxation time. Four important effects are then observed: the absence of shortcuts to adiabaticity, the pausing effect around the critical point in the optimal protocol when the Kibble-Zurek mechanism holds, the persistence of the time-averaged work to avoid slowly-varying regime even for large switching times, and diverging fluctuations of the time-averaged work. In the end, by comparing the excess and the time-averaged excess works, I conclude that this last one is not useful to measure the excitation spent energy in weak processes, although brings an intuition to what happens in the strong driving case.
翻訳日:2023-06-12 12:29:59 公開日:2023-06-09
# 共振強結合による空洞誘起分子偏極機構の解明

Unraveling a cavity induced molecular polarization mechanism from collective vibrational strong coupling ( http://arxiv.org/abs/2306.06004v1 )

ライセンス: Link先を確認
Dominik Sidler, Thomas Schnappinger, Anatoly Obzhirov, Michael Ruggenthaler, Markus Kowalewski, Angel Rubio(参考訳) 熱平衡における分子の集合振動強い結合は、熱力学的限界において大きな局所的な電子偏光効果をもたらすことを実証する。 希薄ガス限界における強結合分子のアンサンブルの非相対論的なパウリ・フィエルツ問題(英語版)がボルン・オッペンハイマーのキャビティ-ハートリー方程式に還元されることを最初に示す。 その結果、各分子は他の全ての分子の双極子と自己整合結合を経験する。 熱力学的限界において、全ての分子双極子の和はマクロ偏極場を構成し、自己整合性はその不均一な顕微鏡成分の微妙なバックアクションを説明できる。 ここで導かれたキャビティ-ハートリー方程式は、ab-initio分子動力学設定における計算効率の高い実装を可能にする。 緩やかに回転するモデル分子のランダムに配向したアンサンブルでは、実験と一致した偏光場によるキャビティ共鳴の赤方シフトを観測する。 次に、局所偏光に対するバックアクションは熱力学的極限において無視できない値となり、従って集団振動の強いカップリングは個々の分子特性を局所的に変化させることができることを示した。 しかし、室温がいかなる障害も起こさず、局所分極効果が欠如している希薄な原子アンサンブルの場合、これはそうではない。 以上の結果から, 偏光化学の完全理解にはキャビティ誘起偏光に対する自己整合的処理が必要であり, 変位場効果に対する通常適用制限は不十分である可能性が示唆された。

We demonstrate that collective vibrational strong coupling of molecules in thermal equilibrium can give rise to significant local electronic polarization effects in the thermodynamic limit. We do so by first showing that the full non-relativistic Pauli-Fierz problem of an ensemble of strongly-coupled molecules in the dilute-gas limit reduces in the cavity Born-Oppenheimer to a cavity-Hartree equation. Consequently, each molecule experiences a self-consistent coupling to the dipoles of all other molecules. In the thermodynamic limit, the sum of all molecular dipoles constitutes the macroscopic polarization field and the self-consistency then accounts for the delicate back-action on its heterogeneous microscopic constituents. The here derived cavity-Hartree equations allow for a computationally efficient implementation in an ab-initio molecular dynamics setting. For a randomly oriented ensemble of slowly rotating model molecules, we observe a red shift of the cavity resonance due to the polarization field, which is in agreement with experiments. We then demonstrate that the back-action on the local polarization takes a non-negligible value in the thermodynamic limit and hence the collective vibrational strong coupling can modify individual molecular properties locally. This is not the case, however, for dilute atomic ensembles, where room temperature does not induce any disorder and local polarization effects are absent. Our findings suggest that the thorough understanding of polaritonic chemistry, e.g. modified chemical reactions, requires self-consistent treatment of the cavity induced polarization and the usually applied restrictions to the displacement field effects may be insufficient.
翻訳日:2023-06-12 12:29:37 公開日:2023-06-09
# 行列重み付き線形推定器による観察および介入データからの因果効果の推定

Causal Effect Estimation from Observational and Interventional Data Through Matrix Weighted Linear Estimators ( http://arxiv.org/abs/2306.06002v1 )

ライセンス: Link先を確認
Klaus-Rudolf Kladny, Julius von K\"ugelgen, Bernhard Sch\"olkopf, Michael Muehlebach(参考訳) 多変量処理と統合した線形回帰モデルにおいて,観察データと介入データの混合から因果効果を推定する。 予測二乗誤差の観点からの統計的効率は,観察的および介入的設定の両方から生じる推定値を組み合わせることで向上できることを示す。 この目的のために,行列重み付き線形推定器に基づく手法を導出し,無限サンプル極限において漸近的に偏りがないことを証明した。 これは、観察データと介入データの比率がゼロになる場合のみバイアスが消える介入データと観察データの結合を用いたプール推定装置と比較して重要な改善である。 合成データの研究は、我々の理論的発見を裏付ける。 コンファウンデーションが実質的であり、観察データと介入データの比率が大きい環境では、我々の推定値はスタイン型推定器や他の様々なベースラインを上回る。

We study causal effect estimation from a mixture of observational and interventional data in a confounded linear regression model with multivariate treatments. We show that the statistical efficiency in terms of expected squared error can be improved by combining estimators arising from both the observational and interventional setting. To this end, we derive methods based on matrix weighted linear estimators and prove that our methods are asymptotically unbiased in the infinite sample limit. This is an important improvement compared to the pooled estimator using the union of interventional and observational data, for which the bias only vanishes if the ratio of observational to interventional data tends to zero. Studies on synthetic data confirm our theoretical findings. In settings where confounding is substantial and the ratio of observational to interventional data is large, our estimators outperform a Stein-type estimator and various other baselines.
翻訳日:2023-06-12 12:29:13 公開日:2023-06-09
# S$^{3}$:高スループットのための生成推論におけるGPU利用の増加

S$^{3}$: Increasing GPU Utilization during Generative Inference for Higher Throughput ( http://arxiv.org/abs/2306.06000v1 )

ライセンス: Link先を確認
Yunho Jin, Chun-Feng Wu, David Brooks, Gu-Yeon Wei(参考訳) 大きな言語モデル(LLM)でテキストを生成することは、大量のメモリを消費する。 すでに大きなモデルパラメータは別として、シーケンス内の以前のトークンに関する情報を保持するkey/value(kv)キャッシュは、モデル自体よりも大きくなる可能性がある。 この問題は、kvキャッシュのメモリの最大シーケンス長を予約する現在のllmサービスフレームワークの1つで悪化し、出力シーケンス長が分かっていないため、完全なシーケンスを生成することを保証する。 これにより、バッチサイズが小さくなり、GPU使用率が低下し、スループットが低下します。 出力シーケンスの事前知識を持つシステムの設計は、この問題を軽減することができると論じる。 この目的のために、出力シーケンス長を予測し、予測に基づいて生成クエリをスケジュールし、デバイスリソースの利用量とスループットを高め、誤予測を処理するS$^{3}$を提案する。 提案手法は,出力シーケンス長が最悪の場合を想定したシステムに対して6.49$\times$スループットを実現する。

Generating texts with a large language model (LLM) consumes massive amounts of memory. Apart from the already-large model parameters, the key/value (KV) cache that holds information about previous tokens in a sequence can grow to be even larger than the model itself. This problem is exacerbated in one of the current LLM serving frameworks which reserves the maximum sequence length of memory for the KV cache to guarantee generating a complete sequence as they do not know the output sequence length. This restricts us to use a smaller batch size leading to lower GPU utilization and above all, lower throughput. We argue that designing a system with a priori knowledge of the output sequence can mitigate this problem. To this end, we propose S$^{3}$, which predicts the output sequence length, schedules generation queries based on the prediction to increase device resource utilization and throughput, and handle mispredictions. Our proposed method achieves 6.49$\times$ throughput over those systems that assume the worst case for the output sequence length.
翻訳日:2023-06-12 12:28:58 公開日:2023-06-09
# 胸部X線分類性能に及ぼす画像分解能の影響

Exploring the Impact of Image Resolution on Chest X-ray Classification Performance ( http://arxiv.org/abs/2306.06051v1 )

ライセンス: Link先を確認
Alessandro Wollek, Sardi Hyska, Bastian Sabel, Michael Ingrisch, Tobias Lasser(参考訳) 画像分類のためのディープラーニングモデルは、計算上の理由から、しばしば224\times224$ピクセルの解像度を使用する。 胸部X線分類における画像分解能の影響をChestX-ray14データセットを用いて検討した。 その結果、画像解像度が高め、特に1024\times1024$ピクセルは、最も優れた全体的な分類性能を示し、ほとんどの病理クラスで256\times256$から512\times512$ピクセルのパフォーマンスはわずかに低下した。 サリエンシマップ生成バウンディングボックスの比較により, 一般的に用いられている解像度は, 殆どの病態を見つけるには不十分であることが判明した。

Deep learning models for image classification have often used a resolution of $224\times224$ pixels for computational reasons. This study investigates the effect of image resolution on chest X-ray classification performance, using the ChestX-ray14 dataset. The results show that a higher image resolution, specifically $1024\times1024$ pixels, has the best overall classification performance, with a slight decline in performance between $256\times256$ to $512\times512$ pixels for most of the pathological classes. Comparison of saliency map-generated bounding boxes revealed that commonly used resolutions are insufficient for finding most pathologies.
翻訳日:2023-06-12 12:23:11 公開日:2023-06-09
# 微調整は視覚言語モデルの分布外検出にどのように影響するか?

How Does Fine-Tuning Impact Out-of-Distribution Detection for Vision-Language Models? ( http://arxiv.org/abs/2306.06048v1 )

ライセンス: Link先を確認
Yifei Ming, Yixuan Li(参考訳) 最近のCLIPのような大規模視覚言語モデルでは、OoD(out-of-distribution)の検出と一般化性能が顕著である。 しかしながら、そのゼロショットインディストリビューション(ID)精度は、ダウンストリームデータセットに制限されることが多い。 最近のCLIPに基づくインシデントラーニングのような微調整手法は、OODラベルが利用可能なID分類やOOD一般化において、大幅に改善されている。 それでも、OODラベルなしではセマンティックシフトに信頼性があるかどうかは不明だ。 本稿では,このギャップを埋めることを目的として,数発の下流タスクに対するOOD検出の微調整の影響について,総合的研究を行う。 OOD検出をマルチモーダルな概念マッチングとしてフレーミングすることにより、微調整法と様々なOODスコアとの接続を確立する。 以上の結果から,OODスコアの適切な選択はCLIPに基づく微調整に不可欠であることが示唆された。 特に、最大概念マッチング(MCM)スコアは、常に有望な解を提供する。 また, 即時学習は, ゼロショットに対して最先端のOOD検出性能を示すことを示す。

Recent large vision-language models such as CLIP have shown remarkable out-of-distribution (OOD) detection and generalization performance. However, their zero-shot in-distribution (ID) accuracy is often limited for downstream datasets. Recent CLIP-based fine-tuning methods such as prompt learning have demonstrated significant improvements in ID classification and OOD generalization where OOD labels are available. Nonetheless, it remains unclear whether the model is reliable to semantic shifts without OOD labels. In this paper, we aim to bridge the gap and present a comprehensive study to understand how fine-tuning impact OOD detection for few-shot downstream tasks. By framing OOD detection as multi-modal concept matching, we establish a connection between fine-tuning methods and various OOD scores. Our results suggest that a proper choice of OOD scores is essential for CLIP-based fine-tuning. In particular, the maximum concept matching (MCM) score provides a promising solution consistently. We also show that prompt learning demonstrates the state-of-the-art OOD detection performance over the zero-shot counterpart.
翻訳日:2023-06-12 12:22:57 公開日:2023-06-09
# GANeRF: 神経放射場最適化のためのディスクリミネータの活用

GANeRF: Leveraging Discriminators to Optimize Neural Radiance Fields ( http://arxiv.org/abs/2306.06044v1 )

ライセンス: Link先を確認
Barbara Roessle, Norman M\"uller, Lorenzo Porzi, Samuel Rota Bul\`o, Peter Kontschieder, Matthias Nie{\ss}ner(参考訳) 神経放射野 (neural radiance fields, nerf) は目覚ましい新規な視野合成結果を示している。 我々は,現実的な画像を生成するためにGAN(Generative Adversarial Network)を活用し,NeRFを用いた3次元シーン再構成における現実性を高めることを目的としている。 この目的を達成するために, 敵判別器を用いてシーンのパッチ分布を学習し, 放射場再構成にフィードバックを与え, リアリズムを3d一貫性で改善する。 これにより、レンダリングアーチファクトは、マルチビューパスレンダリング制約を課すことで、基礎となる3D表現で直接修復される。 さらに,レンダリング品質の向上のために,逆向きに訓練されたマルチレゾリューションNeRFレンダリングを用いたジェネレータを条件とした。 提案手法は,例えばNerfactoに比べてLPIPSスコアが半減するのに対して,PSNRを1.4dB向上させるなど,レンダリング品質を著しく向上することを示した。

Neural Radiance Fields (NeRF) have shown impressive novel view synthesis results; nonetheless, even thorough recordings yield imperfections in reconstructions, for instance due to poorly observed areas or minor lighting changes. Our goal is to mitigate these imperfections from various sources with a joint solution: we take advantage of the ability of generative adversarial networks (GANs) to produce realistic images and use them to enhance realism in 3D scene reconstruction with NeRFs. To this end, we learn the patch distribution of a scene using an adversarial discriminator, which provides feedback to the radiance field reconstruction, thus improving realism in a 3D-consistent fashion. Thereby, rendering artifacts are repaired directly in the underlying 3D representation by imposing multi-view path rendering constraints. In addition, we condition a generator with multi-resolution NeRF renderings which is adversarially trained to further improve rendering quality. We demonstrate that our approach significantly improves rendering quality, e.g., nearly halving LPIPS scores compared to Nerfacto while at the same time improving PSNR by 1.4dB on the advanced indoor scenes of Tanks and Temples.
翻訳日:2023-06-12 12:22:39 公開日:2023-06-09
# 関係推論のための動的グラフ

A Dynamical Graph Prior for Relational Inference ( http://arxiv.org/abs/2306.06041v1 )

ライセンス: Link先を確認
Liming Pan, Cheng Shi, Ivan Dokmani\'c(参考訳) 関係推論は、観測されたダイナミクスから力学系の一部間の相互作用を識別することを目的としている。 現在の最先端手法は、学習可能なグラフ上のグラフニューラルネットワーク(gnn)をダイナミクスに適合させる。 マルチステップやスペクトルGNNの非局所性が直接的および間接的相互作用を混乱させる可能性があるため、直感的には正しい選択である。 しかし、‘textit{ Effective} 相互作用グラフはサンプリング率に依存し、直接隣人に局所化されることは滅多になく、ワンステップモデルの局所ミニマとなる。 本研究では,関係推論のための\textit{dynamical graph prior} (dygr)を提案する。 従来の手法とは対照的に、高次非局所多項式フィルタのエラー増幅を使って、グラフ学習に適切な勾配を生成するからです。 非特異性を扱うために、DYGR は共有グラフトポロジを持つ ``shallow'' ワンステップモデルに同時に適合する。 実験により、DYGRは従来の方法よりもはるかに正確にグラフを再構成し、アンダーサンプリングに対する顕著な堅牢性を示した。 未知の力学系に対する適切なサンプリングレートは事前に分かっていないため、この堅牢性はDYGRを科学機械学習における真の応用に適している。

Relational inference aims to identify interactions between parts of a dynamical system from the observed dynamics. Current state-of-the-art methods fit a graph neural network (GNN) on a learnable graph to the dynamics. They use one-step message-passing GNNs -- intuitively the right choice since non-locality of multi-step or spectral GNNs may confuse direct and indirect interactions. But the \textit{effective} interaction graph depends on the sampling rate and it is rarely localized to direct neighbors, leading to local minima for the one-step model. In this work, we propose a \textit{dynamical graph prior} (DYGR) for relational inference. The reason we call it a prior is that, contrary to established practice, it constructively uses error amplification in high-degree non-local polynomial filters to generate good gradients for graph learning. To deal with non-uniqueness, DYGR simultaneously fits a ``shallow'' one-step model with shared graph topology. Experiments show that DYGR reconstructs graphs far more accurately than earlier methods, with remarkable robustness to under-sampling. Since appropriate sampling rates for unknown dynamical systems are not known a priori, this robustness makes DYGR suitable for real applications in scientific machine learning.
翻訳日:2023-06-12 12:22:17 公開日:2023-06-09
# 変圧器ネットワークを用いたピアノ演奏における人間の表現性再構築

Reconstructing Human Expressiveness in Piano Performances with a Transformer Network ( http://arxiv.org/abs/2306.06040v1 )

ライセンス: Link先を確認
Jingjing Tang, Geraint Wiggins, George Fazekas(参考訳) 計算的アプローチによる音楽演奏における人間の表現力の複雑で微妙な変化を捉えることは困難である。 本稿では,多層双方向トランスフォーマーエンコーダを用いたピアノ演奏における人間の表現性再構築手法を提案する。 ニューラルネットワークのトレーニングにおいて,大量の精度取得とスコア整合性能データの必要性に対処するために,既存の転写モデルから得られた転写スコアを用いてモデルを訓練する。 我々はピアニストのアイデンティティを統合してサンプリングプロセスを制御し、異なるピアニストに対する表現性のバリエーションをモデル化するシステムの可能性を探る。 本システムは,生成した表現性能の統計的解析と聴取テストにより評価する。 以上の結果から,本手法は書き起こされた楽譜から人間的なピアノ演奏を生成する上での最先端の手法であり,人間の表現性を完全かつ一貫した再構築はさらなる課題をもたらすことが示唆された。

Capturing intricate and subtle variations in human expressiveness in music performance using computational approaches is challenging. In this paper, we propose a novel approach for reconstructing human expressiveness in piano performance with a multi-layer bi-directional Transformer encoder. To address the needs for large amounts of accurately captured and score-aligned performance data in training neural networks, we use transcribed scores obtained from an existing transcription model to train our model. We integrate pianist identities to control the sampling process and explore the ability of our system to model variations in expressiveness for different pianists. The system is evaluated through statistical analysis of generated expressive performances and a listening test. Overall, the results suggest that our method achieves state-of-the-art in generating human-like piano performances from transcribed scores, while fully and consistently reconstructing human expressiveness poses further challenges.
翻訳日:2023-06-12 12:21:59 公開日:2023-06-09
# WindowNet: 胸部X線分類のための学習可能なWindows

WindowNet: Learnable Windows for Chest X-ray Classification ( http://arxiv.org/abs/2306.06038v1 )

ライセンス: Link先を確認
Alessandro Wollek, Sardi Hyska, Bastian Sabel, Michael Ingrisch, Tobias Lasser(参考訳) 胸部X線(CXR)画像は低解像度でビット深度に圧縮され、そのサイズを小さくし、微妙な診断特性を変化させる可能性がある。 放射線技師は画像コントラストを高めるためにウィンドウ操作を用いるが、これらの操作がCXR分類性能に与える影響は明らかでない。 本研究では,CXR分類性能が向上することを示すとともに,最適なウィンドウ設定を学習するモデルであるWindowNetを提案する。 まず、ビット深度が分類性能に与える影響について検討し、高いビット深度(12ビット)で性能が向上することを示した。 次に,異なるウィンドウ設定を評価し,異なるウィンドウでのトレーニングが一般に病理学的分類性能を改善することを示す。 最後に,ウィンドウ設定を学習するモデルであるwindownetを提案し,その評価を行った。

Chest X-ray (CXR) images are commonly compressed to a lower resolution and bit depth to reduce their size, potentially altering subtle diagnostic features. Radiologists use windowing operations to enhance image contrast, but the impact of such operations on CXR classification performance is unclear. In this study, we show that windowing can improve CXR classification performance, and propose WindowNet, a model that learns optimal window settings. We first investigate the impact of bit-depth on classification performance and find that a higher bit-depth (12-bit) leads to improved performance. We then evaluate different windowing settings and show that training with a distinct window generally improves pathology-wise classification performance. Finally, we propose and evaluate WindowNet, a model that learns optimal window settings, and show that it significantly improves performance compared to the baseline model without windowing.
翻訳日:2023-06-12 12:21:44 公開日:2023-06-09
# SNeL: エンティティベースのマルチモーダルシーン理解のための構造化ニューロシンボリック言語

SNeL: A Structured Neuro-Symbolic Language for Entity-Based Multimodal Scene Understanding ( http://arxiv.org/abs/2306.06036v1 )

ライセンス: Link先を確認
Silvan Ferreira, Allan Martins, Ivanovitch Silva(参考訳) 人工知能の進化する展望の中で、マルチモーダルとニューロ・シンボリックのパラダイムは最前線に立ち、エンティティとの識別と相互作用、そして様々なモダリティをまたいだそれらの関係に特に重点を置いている。 この文脈での複雑なクエリやインタラクションの必要性に対処するため、ニューラルネットワークによるマルチモーダルデータ処理のニュアンスなインタラクションを容易にするために設計された多言語クエリ言語であるSNeL(Structured Neuro-symbolic Language)を導入する。 SNeLの表現的インターフェースは、複雑なクエリの構築、論理演算と算術演算子、コンパレータ、ネストなどをサポートする。 これにより、ユーザーは特定のエンティティをターゲットにし、プロパティを特定し、結果を制限し、シーンから効率的に情報を抽出することができる。 高レベルシンボリック推論と低レベルニューラルプロセッシングを整合させることで、snelは神経-シンボリック分割を効果的に橋渡しする。 この言語の汎用性は、画像、音声、テキストを含む様々なデータ型に拡張され、マルチモーダルシーン理解のための強力なツールとなっている。 我々の評価は、SNeLが複雑なニューラルネットワークとのインタラクション方法を再構築し、ターゲットとなる情報抽出を推進し、マルチモーダルAIモデルにカプセル化されたリッチなセマンティクスのより深い理解を促進する効果を実証する。

In the evolving landscape of artificial intelligence, multimodal and Neuro-Symbolic paradigms stand at the forefront, with a particular emphasis on the identification and interaction with entities and their relations across diverse modalities. Addressing the need for complex querying and interaction in this context, we introduce SNeL (Structured Neuro-symbolic Language), a versatile query language designed to facilitate nuanced interactions with neural networks processing multimodal data. SNeL's expressive interface enables the construction of intricate queries, supporting logical and arithmetic operators, comparators, nesting, and more. This allows users to target specific entities, specify their properties, and limit results, thereby efficiently extracting information from a scene. By aligning high-level symbolic reasoning with low-level neural processing, SNeL effectively bridges the Neuro-Symbolic divide. The language's versatility extends to a variety of data types, including images, audio, and text, making it a powerful tool for multimodal scene understanding. Our evaluations demonstrate SNeL's potential to reshape the way we interact with complex neural networks, underscoring its efficacy in driving targeted information extraction and facilitating a deeper understanding of the rich semantics encapsulated in multimodal AI models.
翻訳日:2023-06-12 12:21:28 公開日:2023-06-09
# RANS-PINNを用いた乱流予測シミュレーション

RANS-PINN based Simulation Surrogates for Predicting Turbulent Flows ( http://arxiv.org/abs/2306.06034v1 )

ライセンス: Link先を確認
Shinjan Ghosh, Amit Chakraborty, Georgia Olympia Brikis, Biswadip Dey(参考訳) 物理情報ニューラルネットワーク(PINN)は、微分方程式によって支配される力学系の代理モデルを構築するためのフレームワークを提供する。 学習過程の間、ピンズは一般化性能を高めるために損失関数に物理ベースの正規化項を組み込む。 偏微分方程式(PDE)によって制御される力学のシミュレーションは計算コストがかかるため、PINNはナヴィエ・ストークス方程式が支配する流体問題に対するパラメトリックサロゲートの学習に人気がある。 本研究では,高レイノルズ数乱流状態における流れ場(速度と圧力)を予測するために,改良されたPINNフレームワークであるRANS-PINNを紹介する。 乱流によってもたらされるさらなる複雑さを考慮するため、RANS-PINNはレイノルズ平均ナビエ・ストークス(RANS)の定式化に基づく2方程式渦粘性モデルを採用している。 さらに,損失関数の各種成分間の効果的な初期化とバランスを確保するための新しい訓練手法を採用する。 次に、パラメトリックPINNを用いてRANS-PINNフレームワークの有効性を示す。

Physics-informed neural networks (PINNs) provide a framework to build surrogate models for dynamical systems governed by differential equations. During the learning process, PINNs incorporate a physics-based regularization term within the loss function to enhance generalization performance. Since simulating dynamics controlled by partial differential equations (PDEs) can be computationally expensive, PINNs have gained popularity in learning parametric surrogates for fluid flow problems governed by Navier-Stokes equations. In this work, we introduce RANS-PINN, a modified PINN framework, to predict flow fields (i.e., velocity and pressure) in high Reynolds number turbulent flow regime. To account for the additional complexity introduced by turbulence, RANS-PINN employs a 2-equation eddy viscosity model based on a Reynolds-averaged Navier-Stokes (RANS) formulation. Furthermore, we adopt a novel training approach that ensures effective initialization and balance among the various components of the loss function. The effectiveness of RANS-PINN framework is then demonstrated using a parametric PINN.
翻訳日:2023-06-12 12:21:01 公開日:2023-06-09
# FinGPT: オープンソースの金融大規模言語モデル

FinGPT: Open-Source Financial Large Language Models ( http://arxiv.org/abs/2306.06031v1 )

ライセンス: Link先を確認
Hongyang Yang, Xiao-Yang Liu, Christina Dan Wang(参考訳) 大規模言語モデル(LLM)は、さまざまな領域における自然言語処理タスクに革命をもたらす可能性を示し、金融に大きな関心を呼んだ。 高品質の財務データにアクセスすることは、金融LLM(FinLLMs)にとって最初の課題である。 BloombergGPTのようなプロプライエタリなモデルは独自のデータ蓄積を生かしているが、そのような特権付きアクセスコールは、インターネット規模の金融データを民主化するためのオープンソースの代替手段である。 本稿では,金融分野を対象としたオープンソースの大規模言語モデルFinGPTを提案する。 プロプライエタリなモデルとは異なり、FinGPTはデータ中心のアプローチを採用し、研究者や実践者がFinLLMを開発するためにアクセスしやすく透明なリソースを提供する。 我々は、FinGPT構築において、自動データキュレーションパイプラインと軽量な低ランク適応技術の重要性を強調した。 さらに,robo-advising,アルゴリズム取引,ローコード開発など,ユーザのためのステップストーンとしていくつかの潜在的なアプリケーションを紹介する。 オープンソースAI4Financeコミュニティ内の共同作業を通じて、FinGPTはイノベーションの促進、FinLLMの民主化、オープンファイナンスにおける新たな機会の開放を目指している。 2つの関連コードリポジトリは \url{https://github.com/AI4Finance-Foundation/FinGPT} と \url{https://github.com/AI4Finance-Foundation/FinNLP} である。

Large language models (LLMs) have shown the potential of revolutionizing natural language processing tasks in diverse domains, sparking great interest in finance. Accessing high-quality financial data is the first challenge for financial LLMs (FinLLMs). While proprietary models like BloombergGPT have taken advantage of their unique data accumulation, such privileged access calls for an open-source alternative to democratize Internet-scale financial data. In this paper, we present an open-source large language model, FinGPT, for the finance sector. Unlike proprietary models, FinGPT takes a data-centric approach, providing researchers and practitioners with accessible and transparent resources to develop their FinLLMs. We highlight the importance of an automatic data curation pipeline and the lightweight low-rank adaptation technique in building FinGPT. Furthermore, we showcase several potential applications as stepping stones for users, such as robo-advising, algorithmic trading, and low-code development. Through collaborative efforts within the open-source AI4Finance community, FinGPT aims to stimulate innovation, democratize FinLLMs, and unlock new opportunities in open finance. Two associated code repos are \url{https://github.com/AI4Finance-Foundation/FinGPT} and \url{https://github.com/AI4Finance-Foundation/FinNLP}
翻訳日:2023-06-12 12:20:40 公開日:2023-06-09
# hitz@antidote: 議論駆動によるデジタル医療のための説明可能な人工知能

HiTZ@Antidote: Argumentation-driven Explainable Artificial Intelligence for Digital Medicine ( http://arxiv.org/abs/2306.06029v1 )

ライセンス: Link先を確認
Rodrigo Agerri, I\~nigo Alonso, Aitziber Atutxa, Ander Berrondo, Ainara Estarrona, Iker Garcia-Ferrero, Iakes Goenaga, Koldo Gojenola, Maite Oronoz, Igor Perez-Tejedor, German Rigau and Anar Yeginbergenova(参考訳) 機械学習に基づいたAI予測のための高品質な説明を提供することは、困難で複雑な作業である。 説明の適切な一般性と特異性のレベルを選択すること、考慮中のaiタスクと説明の受益者の親しみに関する仮定を検討すること、決定に寄与した特定の要素を参照すること、予測プロセスの一部ではないかもしれない追加の知識(例えば専門家の証拠)を使用すること、負の仮説を支持する証拠を提供すること。 最後に、システムは明確に解釈可能で、説得力のある方法で説明を定式化する必要がある。 これらの考察を踏まえ、AntiDOTEは、ディープラーニングプロセスの低レベル特性と人間の議論能力に適した高レベルスキームが組み合わされる、説明可能なAIという統合的なビジョンを育んでいる。 AntiDOTEは、深層学習と議論における学際的能力を活用して、説明可能なAIのより広範な革新的な視点をサポートする。 プロジェクトの最初の成果として、Antidote CasiMedicosデータセットを公開し、一般に説明可能なAIの研究、特に医療分野における議論を促進する。

Providing high quality explanations for AI predictions based on machine learning is a challenging and complex task. To work well it requires, among other factors: selecting a proper level of generality/specificity of the explanation; considering assumptions about the familiarity of the explanation beneficiary with the AI task under consideration; referring to specific elements that have contributed to the decision; making use of additional knowledge (e.g. expert evidence) which might not be part of the prediction process; and providing evidence supporting negative hypothesis. Finally, the system needs to formulate the explanation in a clearly interpretable, and possibly convincing, way. Given these considerations, ANTIDOTE fosters an integrated vision of explainable AI, where low-level characteristics of the deep learning process are combined with higher level schemes proper of the human argumentation capacity. ANTIDOTE will exploit cross-disciplinary competences in deep learning and argumentation to support a broader and innovative view of explainable AI, where the need for high-quality explanations for clinical cases deliberation is critical. As a first result of the project, we publish the Antidote CasiMedicos dataset to facilitate research on explainable AI in general, and argumentation in the medical domain in particular.
翻訳日:2023-06-12 12:20:16 公開日:2023-06-09
# Tagged Context Prompts を用いたLLM幻覚の追跡

Trapping LLM Hallucinations Using Tagged Context Prompts ( http://arxiv.org/abs/2306.06085v1 )

ライセンス: Link先を確認
Philip Feldman, James R. Foulds, Shimei Pan(参考訳) ChatGPTのような大規模言語モデル(LLM)の最近の進歩は、高度に洗練された会話エージェントを生み出している。 しかし、これらのモデルは「幻覚」に苦しめられ、モデルが偽情報や人工情報を生成する。 この課題に対処することは、特にAI駆動プラットフォームがさまざまな分野に採用されている場合、非常に重要です。 本稿では,llmがドメイン知識の外部で実行した場合のインスタンスの認識とフラグ付けを行い,ユーザが正確な情報を受け取ることを保証する新しい手法を提案する。 組込みタグと組み合わされたコンテキストを用いることで,生成言語モデル内の幻覚に対処できることが判明した。 これを実現するために,生成したurlを作成データの簡易な指標として用いた非コンテキストプロンプト応答ペアにおける幻覚の頻度をベースラインとする。 実験用生成エンジンに対する質問応答とともにコンテキストが提供された場合, 全身幻覚の顕著な減少が観察された。 最後に,コンテキスト内のタグの配置がモデル応答に与える影響を評価し,98.88%の有効性で反応の幻覚を除去できた。

Recent advances in large language models (LLMs), such as ChatGPT, have led to highly sophisticated conversation agents. However, these models suffer from "hallucinations," where the model generates false or fabricated information. Addressing this challenge is crucial, particularly with AI-driven platforms being adopted across various sectors. In this paper, we propose a novel method to recognize and flag instances when LLMs perform outside their domain knowledge, and ensuring users receive accurate information. We find that the use of context combined with embedded tags can successfully combat hallucinations within generative language models. To do this, we baseline hallucination frequency in no-context prompt-response pairs using generated URLs as easily-tested indicators of fabricated data. We observed a significant reduction in overall hallucination when context was supplied along with question prompts for tested generative engines. Lastly, we evaluated how placing tags within contexts impacted model responses and were able to eliminate hallucinations in responses with 98.88% effectiveness.
翻訳日:2023-06-12 12:12:40 公開日:2023-06-09
# Mind2Web: Webのジェネラリストエージェントを目指して

Mind2Web: Towards a Generalist Agent for the Web ( http://arxiv.org/abs/2306.06070v1 )

ライセンス: Link先を確認
Xiang Deng, Yu Gu, Boyuan Zheng, Shijie Chen, Samuel Stevens, Boshi Wang, Huan Sun, Yu Su(参考訳) mind2webは、webサイト上で複雑なタスクを完了するために、言語命令に従うweb用のジェネラリストエージェントを開発し、評価するための最初のデータセットである。 既存のWebエージェントのデータセットは、シミュレートされたWebサイトを使用するか、限られたWebサイトやタスクのみをカバーする。 31のドメインにまたがる137のWebサイトから2,000以上のオープンエンドタスクが収集され、タスクのためのクラウドソースされたアクションシーケンスによって、Mind2WebはジェネラリストWebエージェントを構築するのに必要な3つの材料を提供します。 1)多様なドメイン、webサイト、タスク。 2)シミュレーションや簡略化ではなく現実世界のウェブサイトの利用, 3) ユーザインタラクションパターンの幅広いスペクトル。 mind2webを基盤として,大規模言語モデル(llms)を用いた汎用webエージェント構築の初期調査を行った。 実世界のWebサイトの生のHTMLはLLMに供給するには大きすぎることが多いが、まず小さなLMでフィルタリングすることでLLMの有効性と効率が著しく向上することを示す。 私たちのソリューションは、モデルがこれまで見たことのないウェブサイトやドメイン全体であっても、十分なレベルのパフォーマンスを示していますが、真に一般化可能なエージェントに改善の余地は依然としてあります。 我々は、データセット、モデル実装、トレーニングされたモデル(https://osu-nlp-group.github.io/Mind2Web)をオープンソース化し、Webのためのジェネラリストエージェントの構築に関するさらなる研究を促進する。

We introduce Mind2Web, the first dataset for developing and evaluating generalist agents for the web that can follow language instructions to complete complex tasks on any website. Existing datasets for web agents either use simulated websites or only cover a limited set of websites and tasks, thus not suitable for generalist web agents. With over 2,000 open-ended tasks collected from 137 websites spanning 31 domains and crowdsourced action sequences for the tasks, Mind2Web provides three necessary ingredients for building generalist web agents: 1) diverse domains, websites, and tasks, 2) use of real-world websites instead of simulated and simplified ones, and 3) a broad spectrum of user interaction patterns. Based on Mind2Web, we conduct an initial exploration of using large language models (LLMs) for building generalist web agents. While the raw HTML of real-world websites are often too large to be fed to LLMs, we show that first filtering it with a small LM significantly improves the effectiveness and efficiency of LLMs. Our solution demonstrates a decent level of performance, even on websites or entire domains the model has never seen before, but there is still a substantial room to improve towards truly generalizable agents. We open-source our dataset, model implementation, and trained models (https://osu-nlp-group.github.io/Mind2Web) to facilitate further research on building a generalist agent for the web.
翻訳日:2023-06-12 12:12:07 公開日:2023-06-09
# 半可観測環境におけるスケーラブル型推論のためのメタポリシとモンテカルロ計画の組み合わせ

Combining a Meta-Policy and Monte-Carlo Planning for Scalable Type-Based Reasoning in Partially Observable Environments ( http://arxiv.org/abs/2306.06067v1 )

ライセンス: Link先を確認
Jonathon Schwartz, Hanna Kurniawati, Marcus Hutter(参考訳) 先行調整なしに他のエージェントと効果的に対話できる自律エージェントの設計は、マルチエージェントシステムの中核的な問題である。 型ベースの推論手法は、他のエージェントに対する潜在的な振る舞いのセットに対する信念を維持することでこれを達成する。 しかし、現在の方法は、他のエージェントの状態とアクションの完全な可観測性を仮定したり、より長い計画の地平線を持つより大きな問題に対して効率的にスケールしないという点で制限されている。 これらの制約に対処するため,大規模な部分観測可能環境下でのタイプベース推論のためのオンラインモンテカルロ木探索計画手法であるPOTMMCPを提案する。 POTMMCPは、探索を誘導し、信念を評価するための新しいメタ政治を取り入れており、計画時間を減らすことでより長い地平線を探索することができる。 提案手法が最適解に収束することを示すとともに,様々な環境にまたがる多様なエージェント群に対して,オンラインに効果的に適応できることを実証的に示す。 最大10〜14ドルと10^8ドルという問題に対する最先端の手法との比較は、POTMMCPがより高速な解を計算できることを示唆している。

The design of autonomous agents that can interact effectively with other agents without prior coordination is a core problem in multi-agent systems. Type-based reasoning methods achieve this by maintaining a belief over a set of potential behaviours for the other agents. However, current methods are limited in that they assume full observability of the state and actions of the other agent or do not scale efficiently to larger problems with longer planning horizons. Addressing these limitations, we propose Partially Observable Type-based Meta Monte-Carlo Planning (POTMMCP) - an online Monte-Carlo Tree Search based planning method for type-based reasoning in large partially observable environments. POTMMCP incorporates a novel meta-policy for guiding search and evaluating beliefs, allowing it to search more effectively to longer horizons using less planning time. We show that our method converges to the optimal solution in the limit and empirically demonstrate that it effectively adapts online to diverse sets of other agents across a range of environments. Comparisons with the state-of-the art method on problems with up to $10^{14}$ states and $10^8$ observations indicate that POTMMCP is able to compute better solutions significantly faster.
翻訳日:2023-06-12 12:11:40 公開日:2023-06-09
# 少数ノード分類のための仮想ノードチューニング

Virtual Node Tuning for Few-shot Node Classification ( http://arxiv.org/abs/2306.06063v1 )

ライセンス: Link先を確認
Zhen Tan, Ruocheng Guo, Kaize Ding, Huan Liu(参考訳) FSNC(Few-shot Node Classification)は、グラフ表現学習における課題であり、クラス毎にラベル付きノードが数個しか使用できない。 この問題に対処するために,メタラーニングは,豊富なラベルを持つ基本クラスから新規クラスへの構造的知識の伝達を目的としている。 しかし、ベースクラスにラベル付きノードが存在しない場合、既存のソリューションは効果がないか、適用できない。 この課題に対処するために、Virtual Node Tuning (VNT)と呼ばれる革新的な手法を提案する。 提案手法では,プリトレーニングしたグラフトランスフォーマをエンコーダとして使用し,仮想ノードを埋め込み空間のソフトプロンプトとして注入する。 VNTのユニークな特徴は、グラフベースのPseudo Prompt Evolution (GPPE)モジュールを組み込むことで、VNT-GPPEはベースクラスのスパースラベルでシナリオを処理することができることである。 4つのデータセットに対する実験結果から,FSNCにラベル付けされていない,あるいはラベル付けされていないベースクラスで対処する上で,提案手法が優れていることを示す。

Few-shot Node Classification (FSNC) is a challenge in graph representation learning where only a few labeled nodes per class are available for training. To tackle this issue, meta-learning has been proposed to transfer structural knowledge from base classes with abundant labels to target novel classes. However, existing solutions become ineffective or inapplicable when base classes have no or limited labeled nodes. To address this challenge, we propose an innovative method dubbed Virtual Node Tuning (VNT). Our approach utilizes a pretrained graph transformer as the encoder and injects virtual nodes as soft prompts in the embedding space, which can be optimized with few-shot labels in novel classes to modulate node embeddings for each specific FSNC task. A unique feature of VNT is that, by incorporating a Graph-based Pseudo Prompt Evolution (GPPE) module, VNT-GPPE can handle scenarios with sparse labels in base classes. Experimental results on four datasets demonstrate the superiority of the proposed approach in addressing FSNC with unlabeled or sparsely labeled base classes, outperforming existing state-of-the-art methods and even fully supervised baselines.
翻訳日:2023-06-12 12:11:17 公開日:2023-06-09
# 言語学習支援システム:コントラスト・プロンプト学習による言語横断定義の自動生成

Assisting Language Learners: Automated Trans-Lingual Definition Generation via Contrastive Prompt Learning ( http://arxiv.org/abs/2306.06058v1 )

ライセンス: Link先を確認
Hengyuan Zhang, Dawei Li, Yanran Li, Chenming Shang, Chufan Shi, Yong Jiang(参考訳) 標準定義生成タスクは、単言語定義(例えば、英語の単語の定義)を自動的に生成する必要があるが、生成された定義は、言語学習者にとって不慣れな単語から構成されることもあることを無視する。 本研究では,他の言語,すなわち母語話者の言語で定義を生成することを目的とした,TLDG(Trans-Lingual Definition Generation)の新たなタスクを提案する。 まず、このタスクの教師なしの方法を検討し、多言語機械翻訳モデルの微調整の簡単な実装を構築する。 そこで本研究では,提案手法であるPrompt CombinationとContrastive Prompt Learningの2つの新しい手法を開発した。 提案手法は, リッチおよび低リソースの双方において, ベースラインパイプライン法に対して評価され, 高品質なトランスリンガル定義を生成する上で, その優位性を実証的に確立する。

The standard definition generation task requires to automatically produce mono-lingual definitions (e.g., English definitions for English words), but ignores that the generated definitions may also consist of unfamiliar words for language learners. In this work, we propose a novel task of Trans-Lingual Definition Generation (TLDG), which aims to generate definitions in another language, i.e., the native speaker's language. Initially, we explore the unsupervised manner of this task and build up a simple implementation of fine-tuning the multi-lingual machine translation model. Then, we develop two novel methods, Prompt Combination and Contrastive Prompt Learning, for further enhancing the quality of the generation. Our methods are evaluated against the baseline Pipeline method in both rich- and low-resource settings, and we empirically establish its superiority in generating higher-quality trans-lingual definitions.
翻訳日:2023-06-12 12:10:53 公開日:2023-06-09
# 変分量子熱分解器による$\mathbb{Z}_2$格子ゲージ理論のシミュレーション

Simulating $\mathbb{Z}_2$ Lattice Gauge Theory with the Variational Quantum Thermalizer ( http://arxiv.org/abs/2306.06057v1 )

ライセンス: Link先を確認
Michael Fromm, Owe Philipsen, Michael Spannowsky and Christopher Winterowd(参考訳) 有限密度および実時間における強結合格子ゲージ理論の特性は、格子に関する第一原理の研究をほとんど取り除いた。 これは複雑な動作を持つシステムの重要サンプリングが失敗したためである。 符号問題を回避する代替として量子シミュレーションがある。 まだ初期段階ではあるが、これらの問題に対処するアルゴリズムの開発には多くの進歩があった。 特に最近の研究は、量子コンピュータ上で熱ギブス状態を生成する方法の問題に対処している。 本研究では,局所アーベルゲージ対称性を持つ低次元モデルに変分量子アルゴリズムを適用する。 本手法は,非零温度における不等時相関関数と同様に位相図に関する情報を得るためにどのように適用できるかを実証する。

The properties of strongly-coupled lattice gauge theories at finite density as well as in real time have largely eluded first-principles studies on the lattice. This is due to the failure of importance sampling for systems with a complex action. An alternative to evade the sign problem is quantum simulation. Although still in its infancy, a lot of progress has been made in devising algorithms to address these problems. In particular, recent efforts have addressed the question of how to produce thermal Gibbs states on a quantum computer. In this study, we apply a variational quantum algorithm to a low-dimensional model which has a local abelian gauge symmetry. We demonstrate how this approach can be applied to obtain information regarding the phase diagram as well as unequal-time correlation functions at non-zero temperature.
翻訳日:2023-06-12 12:10:35 公開日:2023-06-09
# 交差部分集合からの量子LDPC符号

Quantum LDPC codes from intersecting subsets ( http://arxiv.org/abs/2306.06056v1 )

ライセンス: Link先を確認
Dimiter Ostrev(参考訳) 本稿では,2つのサブセットからなるコンポーネントCSSコードのタプルから,量子CSSコードを構築する。 その結果得られた符号は、並列化可能なエンコーディングおよびシンドローム測定回路と、シンドローム測定における組み込み冗長性を有する。 一般構成のある部分群では、結果として得られる符号は古典的リード・ミュラー符号の自然な一般化と関連付けられ、量子符号距離の式が導かれる。 本稿では,ブロックサイズが2^m,m=3,\dots,9$のコードと,2,4,8キュービットのシンドロームの測定値を示す。 これらは、距離がシンドローム測定量を超えるコードや、ビットフリップと位相フリップの誤りに対する非対称な保護を提供するコードを含む。

This paper introduces a construction of quantum CSS codes from a tuple of component CSS codes and two collections of subsets. The resulting codes have parallelizable encoding and syndrome measurement circuits and built-in redundancy in the syndrome measurements. In a certain subfamily of the general construction, the resulting codes are related to a natural generalization of classical Reed-Muller codes, and this leads to a formula for the quantum code distance. The paper gives a number of examples of codes with block size $2^m, m=3,\dots,9$, and with syndrome measurements involving 2, 4 or 8 qubits. These include codes for which the distance exceeds the syndrome measurement weight, as well as codes which provide asymmetric protection against bit flip and phase flip errors.
翻訳日:2023-06-12 12:10:26 公開日:2023-06-09
# ランダム原子雲における協調光子放出速度

Cooperative photon emission rates in random atomic clouds ( http://arxiv.org/abs/2306.06055v1 )

ライセンス: Link先を確認
Viviana Viggiano, Romain Bachelard, Fabio Deelan Cunden, Paolo Facchi, Robin Kaiser, Saverio Pascazio, Francesco V. Pepe(参考訳) n\times n$ euclidean random matrices $s$ の族を調べ、そのエントリは 3次元のガウス分布から独立にサンプリングされた点間の距離の$\operatorname{sinc}$関数である。 このランダム行列モデルは、線形状態のレーザーによって最初に励起されたランダム原子雲の協調光子放出速度の研究に現れる。 S$のスペクトル特性は、大きな$N$の極限において、原子雲密度に強く依存する。 低密度環境では、$s$ の固有値密度は、モデルの唯一のパラメータであるいわゆる協調性パラメータ $b_0$ にのみ依存する非自明な極限を持つ。 小さい値$b_0\ll1$の場合、極限固有値密度は近似的に三角形である。 また、最寄りの間隔分布と固有ベクトル統計についても検討する。 S$ はユークリッド確率行列であるが、そのスペクトルの大部分は古典的ランダム行列理論によって記述されている。 特にバルクにはレベル反発があり、固有ベクトルは非局在化される。 したがって、$S$のスペクトルの大部分はカオス量子系の普遍的な振る舞いを示す。

We investigate a family of $N\times N$ Euclidean random matrices $S$, whose entries are $\operatorname{sinc}$ functions of the distance between points independently sampled from a Gaussian distribution in three dimensions. This random matrix model arises in the study of cooperative photon emission rates of a random atomic cloud, initially excited by a laser in the linear regime. The spectral properties of $S$, in the large-$N$ limit, strongly depend on the atomic cloud density. We show that in the low-density regime the eigenvalue density of $S$ has a nontrivial limit that only depends on the so-called cooperativeness parameter $b_0$, the only parameter of the model. For small values $b_0\ll1$, we find that the limit eigenvalue density is approximatively triangular. We also study the nearest-neighbour spacing distribution and the eigenvector statistics. We find that, although $S$ is a Euclidean random matrix, the bulk of its spectrum is described by classical random matrix theory. In particular, in the bulk there is level repulsion and the eigenvectors are delocalized. Therefore, the bulk of the spectrum of $S$ exhibits the universal behaviour of chaotic quantum systems.
翻訳日:2023-06-12 12:10:12 公開日:2023-06-09
# 問題広告とFacebookにおける異質な露出

Problematic Advertising and its Disparate Exposure on Facebook ( http://arxiv.org/abs/2306.06052v1 )

ライセンス: Link先を確認
Muhammad Ali, Angelica Goetzen, Alan Mislove, Elissa M. Redmiles, Piotr Sapiezynski(参考訳) ターゲット広告は、広告のターゲティングとパーソナライズアルゴリズムが一体となって、毎日何百万もの広告に対して最も関連するオーディエンスを見つけるフリーウェブブラウジングエクスペリエンスの重要な部分である。 しかし、広告が広く使われることで、詐欺やクリックベイトといった問題のあるコンテンツの手段として広告を使用することも可能になる。 オンライン広告に対する人々の感情や、これらの広告が人々のオンライン体験に与える影響を探求する最近の研究は、オンライン広告が実際に問題となる証拠を見出した。 さらに、広告主が特定度の低いターゲットであっても、このような広告の配信を支援するパーソナライズも可能である。 本稿では、インターネット最大の広告プラットフォームの一つであるfacebookを調査し、問題のあるオンライン広告に対する我々の理解における重要なギャップについて調査する。 (a)人々はどのカテゴリーの広告に問題を感じますか? (b)問題広告の視聴者への配信に格差はあるか? もしそうなら (c)誰が責任を負うか -- 広告主か広告プラットフォームか? これらの質問に答えるために、Facebook広告の多様なユーザー体験のサンプルを3ヶ月の縦パネルで測定した。 このパネルから収集した32,000以上の広告(n=132$)を分類し、参加者の自身の広告に対する感情を調査し、問題のある広告の4つのカテゴリを特定する。 人口統計学における問題のある広告の分布を統計的にモデル化すると、高齢者や少数民族は特にそのような広告を表示する傾向にある。 さらに、問題のある広告の22%が広告主から特定のターゲティングをしていないことを考えると、広告配信アルゴリズム(広告プラットフォーム自体)がこれらの広告の偏りのある分布に重要な役割を果たしていると推測する。

Targeted advertising remains an important part of the free web browsing experience, where advertisers' targeting and personalization algorithms together find the most relevant audience for millions of ads every day. However, given the wide use of advertising, this also enables using ads as a vehicle for problematic content, such as scams or clickbait. Recent work that explores people's sentiments toward online ads, and the impacts of these ads on people's online experiences, has found evidence that online ads can indeed be problematic. Further, there is the potential for personalization to aid the delivery of such ads, even when the advertiser targets with low specificity. In this paper, we study Facebook -- one of the internet's largest ad platforms -- and investigate key gaps in our understanding of problematic online advertising: (a) What categories of ads do people find problematic? (b) Are there disparities in the distribution of problematic ads to viewers? and if so, (c) Who is responsible -- advertisers or advertising platforms? To answer these questions, we empirically measure a diverse sample of user experiences with Facebook ads via a 3-month longitudinal panel. We categorize over 32,000 ads collected from this panel ($n=132$); and survey participants' sentiments toward their own ads to identify four categories of problematic ads. Statistically modeling the distribution of problematic ads across demographics, we find that older people and minority groups are especially likely to be shown such ads. Further, given that 22% of problematic ads had no specific targeting from advertisers, we infer that ad delivery algorithms (advertising platforms themselves) played a significant role in the biased distribution of these ads.
翻訳日:2023-06-12 12:09:53 公開日:2023-06-09
# Prodigy: 適応型パラメータフリー学習者

Prodigy: An Expeditiously Adaptive Parameter-Free Learner ( http://arxiv.org/abs/2306.06101v1 )

ライセンス: Link先を確認
Konstantin Mishchenko, Aaron Defazio(参考訳) 我々は,AdagradやAdamといった適応的な手法で学習率を推定する問題を考察する。 本稿では,学習率を最適に設定するために必要な解からD$までの距離を確実に推定する2つの手法,ProdigyとResettingについて述べる。 本手法は,学習速度フリー学習のためのd適応法の改良である。 我々の手法は、D-適応の収束率を$O(\sqrt{\log(D/d_0)})$で改善する。 我々は12の共通ロジスティック回帰ベンチマークデータセット、CIFAR10のVGG11およびResNet-50トレーニング、ImagenetのVTトレーニング、IWSLT14のLSTMトレーニング、CriteoデータセットのDLRMトレーニング、Knee MRIデータセットのVarNet、BookWikiのRoBERTaおよびGPTトランスフォーマートレーニングについてテストした。 実験の結果,D-Adaptationの精度は手作業のAdamと同等に向上し,精度も向上した。

We consider the problem of estimating the learning rate in adaptive methods, such as Adagrad and Adam. We describe two techniques, Prodigy and Resetting, to provably estimate the distance to the solution $D$, which is needed to set the learning rate optimally. Our techniques are modifications of the D-Adaptation method for learning-rate-free learning. Our methods improve upon the convergence rate of D-Adaptation by a factor of $O(\sqrt{\log(D/d_0)})$, where $d_0$ is the initial estimate of $D$. We test our methods on 12 common logistic-regression benchmark datasets, VGG11 and ResNet-50 training on CIFAR10, ViT training on Imagenet, LSTM training on IWSLT14, DLRM training on Criteo dataset, VarNet on Knee MRI dataset, as well as RoBERTa and GPT transformer training on BookWiki. Our experimental results show that our approaches consistently outperform D-Adaptation and reach test accuracy values close to that of hand-tuned Adam.
翻訳日:2023-06-12 12:04:13 公開日:2023-06-09
# NuCLR: 原子力共同学習表現

NuCLR: Nuclear Co-Learned Representations ( http://arxiv.org/abs/2306.06099v1 )

ライセンス: Link先を確認
Ouail Kitouni, Niklas Nolte, Sokratis Trifinopoulos, Subhash Kantamneni, Mike Williams(参考訳) 我々は, 結合や崩壊エネルギー, 核電荷半径など, 様々な核観測可能性を予測する深層学習モデルであるNuCLRを紹介する。 このモデルは、共有表現を持つマルチタスクアプローチを用いて訓練され、核(宇宙)物理学の基本的な現象を理解するのに不可欠な精度のレベルを達成する。 また,NuCLRの学習表現が核殻モデルの重要な側面,すなわちよく知られたマジックナンバーを含むシェル構造やパウリ排他原理の顕著な出現を示すという興味深い発見を報告する。 これは、このモデルが基礎となる物理原理を捉えることができ、我々のアプローチが核理論に価値ある洞察を与える可能性があることを示唆している。

We introduce Nuclear Co-Learned Representations (NuCLR), a deep learning model that predicts various nuclear observables, including binding and decay energies, and nuclear charge radii. The model is trained using a multi-task approach with shared representations and obtains state-of-the-art performance, achieving levels of precision that are crucial for understanding fundamental phenomena in nuclear (astro)physics. We also report an intriguing finding that the learned representation of NuCLR exhibits the prominent emergence of crucial aspects of the nuclear shell model, namely the shell structure, including the well-known magic numbers, and the Pauli Exclusion Principle. This suggests that the model is capable of capturing the underlying physical principles and that our approach has the potential to offer valuable insights into nuclear theory.
翻訳日:2023-06-12 12:03:50 公開日:2023-06-09
# エラーフィードバックはプリコンディショナーを正確に圧縮できる

Error Feedback Can Accurately Compress Preconditioners ( http://arxiv.org/abs/2306.06098v1 )

ライセンス: Link先を確認
Ionut-Vlad Modoranu, Aleksei Kalinov, Eldar Kurtic, Dan Alistarh(参考訳) 深層ネットワークの規模で2次情報を活用することは、ディープラーニングのための現在の最適化器の性能を改善するための主要なアプローチの1つだ。 しかしながら、フルマトリクスアダグラード(ggt)やマトリクスフリー近似曲率(m-fac)のような、正確なフルマトリクスプリコンディショニングのための既存のアプローチは、中規模モデルにも適用される場合、モデル次元でメモリ要求が乗算されるような勾配のスライディングウィンドウを格納しなければならないため、膨大なストレージコストを被る。 本稿では, この問題を, 収束の損失なく, プリコンディショナーの最大2桁圧縮に適用可能な, 効率的かつ簡易に実装したエラーフィードバック手法を用いて解決する。 具体的には、スペーシフィケーションや低ランク圧縮 \emph{before} を用いて勾配情報をプレコンディショナーに入力し、圧縮誤差を将来の繰り返しにフィードバックする。 ビジョンのためのディープニューラルネットワークに関する広範な実験により、このアプローチは精度に影響を与えず、フルマトリックスプリコンディショナーを最大2桁圧縮し、フルマトリックスアダグラード(ggt)と自然勾配(m-fac)の実装のためのフルマトリックスプリコンディショニングのメモリオーバーヘッドを効果的に除去できることが示されている。 私たちのコードはhttps://github.com/IST-DASLab/EFCPで利用可能です。

Leveraging second-order information at the scale of deep networks is one of the main lines of approach for improving the performance of current optimizers for deep learning. Yet, existing approaches for accurate full-matrix preconditioning, such as Full-Matrix Adagrad (GGT) or Matrix-Free Approximate Curvature (M-FAC) suffer from massive storage costs when applied even to medium-scale models, as they must store a sliding window of gradients, whose memory requirements are multiplicative in the model dimension. In this paper, we address this issue via an efficient and simple-to-implement error-feedback technique that can be applied to compress preconditioners by up to two orders of magnitude in practice, without loss of convergence. Specifically, our approach compresses the gradient information via sparsification or low-rank compression \emph{before} it is fed into the preconditioner, feeding the compression error back into future iterations. Extensive experiments on deep neural networks for vision show that this approach can compress full-matrix preconditioners by up to two orders of magnitude without impact on accuracy, effectively removing the memory overhead of full-matrix preconditioning for implementations of full-matrix Adagrad (GGT) and natural gradient (M-FAC). Our code is available at https://github.com/IST-DASLab/EFCP.
翻訳日:2023-06-12 12:03:37 公開日:2023-06-09
# スケーラブルベクターグラフィックス駆動画像理解のための大規模言語モデル活用

Leveraging Large Language Models for Scalable Vector Graphics-Driven Image Understanding ( http://arxiv.org/abs/2306.06094v1 )

ライセンス: Link先を確認
Mu Cai, Zeyi Huang, Yuheng Li, Haohan Wang, Yong Jae Lee(参考訳) 近年,大規模言語モデル(llm)は自然言語理解と生成において大きな進歩を遂げている。 しかし、コンピュータビジョンにおけるその可能性はほとんど解明されていない。 本稿では,LLMがスケーラブルベクトルグラフィックス(SVG)フォーマットで画像を処理できる新しい探索的手法を提案する。 ラスタ画像の代わりに、XMLベースのSVG表現のテキスト記述を活用することで、視覚とテキストのモダリティのギャップを埋めることを目指しており、LLMはパラメータ化されたビジュアルコンポーネントを必要とせずに、画像を直接理解し、操作することができる。 LLM機能のみを用いた簡単な画像分類、生成、テキスト内学習を容易にする。 我々は、差別的および生成的タスクにまたがるアプローチの可能性を実証し、その特徴を強調する。 (i)分布シフトに対する堅牢性 (II)LLMの文脈内学習能力を活用することで実現した実質的な改善 (iii)人間指導による画像理解・生成能力 私たちのコード、データ、モデルはhttps://github.com/mu-cai/svg-llmで見ることができます。

Recently, large language models (LLMs) have made significant advancements in natural language understanding and generation. However, their potential in computer vision remains largely unexplored. In this paper, we introduce a new, exploratory approach that enables LLMs to process images using the Scalable Vector Graphics (SVG) format. By leveraging the XML-based textual descriptions of SVG representations instead of raster images, we aim to bridge the gap between the visual and textual modalities, allowing LLMs to directly understand and manipulate images without the need for parameterized visual components. Our method facilitates simple image classification, generation, and in-context learning using only LLM capabilities. We demonstrate the promise of our approach across discriminative and generative tasks, highlighting its (i) robustness against distribution shift, (ii) substantial improvements achieved by tapping into the in-context learning abilities of LLMs, and (iii) image understanding and generation capabilities with human guidance. Our code, data, and models can be found here https://github.com/mu-cai/svg-llm.
翻訳日:2023-06-12 12:03:07 公開日:2023-06-09
# HyP-NeRF: HyperNetwork を用いたNeRF事前学習の改善

HyP-NeRF: Learning Improved NeRF Priors using a HyperNetwork ( http://arxiv.org/abs/2306.06093v1 )

ライセンス: Link先を確認
Bipasha Sen, Gaurav Singh, Aditya Agarwal, Rohith Agaram, K Madhava Krishna, Srinath Sridhar(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、シーンやオブジェクトの高品質な外観と形状を捉えるために、ますます人気が高まっている。 しかし,ネットワーク重み空間の高次元性のため,シーンや物体のカテゴリに対する一般化可能なNeRF先行学習は困難である。 一般化,多視点整合性,品質向上に関する既存研究の限界に対処するため,ハイパーネットワークを用いた一般化可能なカテゴリレベルのNeRF事前学習のための潜在条件付きHyP-NeRFを提案する。 ハイパーネットワークを用いて nerf の重みのみを推定するのではなく,重みとマルチレゾリューションのハッシュエンコーディングの両方を推定することで,大幅な品質向上を実現する。 さらに,高画質化のため,ハイパーネットワークで推定されたnyrfからの画像をデノベートし,マルチビューの一貫性を維持しながら微調整するデノワーズ・ファインチューン戦略を取り入れている。 これらの改良により、単一ビューからのNeRF再構成や散在シーンからのテキスト・トゥ・NeRFを含む複数の下流タスクにおいて、HyP-NeRFを一般化可能な事前処理として使用できる。 本稿では,HyP-NeRFの定性比較を行い,一般化,圧縮,検索の3つの課題について評価する。

Neural Radiance Fields (NeRF) have become an increasingly popular representation to capture high-quality appearance and shape of scenes and objects. However, learning generalizable NeRF priors over categories of scenes or objects has been challenging due to the high dimensionality of network weight space. To address the limitations of existing work on generalization, multi-view consistency and to improve quality, we propose HyP-NeRF, a latent conditioning method for learning generalizable category-level NeRF priors using hypernetworks. Rather than using hypernetworks to estimate only the weights of a NeRF, we estimate both the weights and the multi-resolution hash encodings resulting in significant quality gains. To improve quality even further, we incorporate a denoise and finetune strategy that denoises images rendered from NeRFs estimated by the hypernetwork and finetunes it while retaining multiview consistency. These improvements enable us to use HyP-NeRF as a generalizable prior for multiple downstream tasks including NeRF reconstruction from single-view or cluttered scenes and text-to-NeRF. We provide qualitative comparisons and evaluate HyP-NeRF on three tasks: generalization, compression, and retrieval, demonstrating our state-of-the-art results.
翻訳日:2023-06-12 12:02:52 公開日:2023-06-09
# 写実的救世主誘導画像強調

Realistic Saliency Guided Image Enhancement ( http://arxiv.org/abs/2306.06092v1 )

ライセンス: Link先を確認
S. Mahdi H. Miangoleh and Zoya Bylinskii and Eric Kee and Eli Shechtman and Ya\u{g}{\i}z Aksoy(参考訳) プロの写真家が行う編集作業には、注意をそらす要素の強調や被写体の拡張といったクリーンアップ操作がある。 これらの編集は困難であり、写真リアリズムを維持しながら視聴者の注意を操るには微妙なバランスが必要となる。 最近のアプローチは、注意の減衰や増幅の成功例を誇示するが、そのほとんどは、しばしば非現実的な編集に苦しむ。 本研究では,様々なイメージタイプにまたがって高いリアリズムを維持しつつ,関心の対象を拡大しつつ,サリエンシ誘導画像強調のためのリアリズム損失を提案する。 プロの写真家による評価では、リアリズムと有効性の2つの目標を達成し、メモリフットプリントとランタイムを小さくしながら、自身のデータセットでの最近のアプローチを上回っています。 したがって,画像強調と写真のクリーンアップ操作を自動化するための有効なソリューションを提供する。

Common editing operations performed by professional photographers include the cleanup operations: de-emphasizing distracting elements and enhancing subjects. These edits are challenging, requiring a delicate balance between manipulating the viewer's attention while maintaining photo realism. While recent approaches can boast successful examples of attention attenuation or amplification, most of them also suffer from frequent unrealistic edits. We propose a realism loss for saliency-guided image enhancement to maintain high realism across varying image types, while attenuating distractors and amplifying objects of interest. Evaluations with professional photographers confirm that we achieve the dual objective of realism and effectiveness, and outperform the recent approaches on their own datasets, while requiring a smaller memory footprint and runtime. We thus offer a viable solution for automating image enhancement and photo cleanup operations.
翻訳日:2023-06-12 12:02:29 公開日:2023-06-09
# インテニックスによる計算フラッシュ撮影

Computational Flash Photography through Intrinsics ( http://arxiv.org/abs/2306.06089v1 )

ライセンス: Link先を確認
Sepideh Sarajian Maralan, Chris Careaga, Ya\u{g}{\i}z Aksoy(参考訳) Flashは日常撮影において唯一のコントロール可能な光源として機能するので、必須のツールです。 しかし、フラッシュの使用は、写真が撮影されるときに、強度や色などの特性を限定的に制御する二項決定である。 本研究では,フラッシュの有無にかかわらず撮影した写真中のフラッシュ光の計算制御について検討する。 本稿では,フラッシュ画像形成のための物理的動機付け内在的定式化と,フラッシュ画像とノンフラッシュ画像のフラッシュ分解および生成方法の開発について述べる。 我々は本質的な定式化が文献の代替案を上回ることを証明し,実写画像におけるフラッシュの計算制御を可能にした。

Flash is an essential tool as it often serves as the sole controllable light source in everyday photography. However, the use of flash is a binary decision at the time a photograph is captured with limited control over its characteristics such as strength or color. In this work, we study the computational control of the flash light in photographs taken with or without flash. We present a physically motivated intrinsic formulation for flash photograph formation and develop flash decomposition and generation methods for flash and no-flash photographs, respectively. We demonstrate that our intrinsic formulation outperforms alternatives in the literature and allows us to computationally control flash in in-the-wild images.
翻訳日:2023-06-12 12:02:13 公開日:2023-06-09
# SENS: スケッチに基づくインプシットニューラル形状モデリング

SENS: Sketch-based Implicit Neural Shape Modeling ( http://arxiv.org/abs/2306.06088v1 )

ライセンス: Link先を確認
Alexandre Binninger, Amir Hertz, Olga Sorkine-Hornung, Daniel Cohen-Or, Raja Giryes(参考訳) そこで本研究では,手描きスケッチから抽象的性質を含む3dモデルの生成と編集を行う新しい手法であるsensを提案する。 提案手法では,形状を高速かつ容易にスケッチし,そのスケッチを部分認識型暗黙的形状アーキテクチャの潜在空間にマッピングする。 sensはスケッチを分析し、部品をvitパッチエンコーディングし、それらをトランスフォーマーデコーダに供給し、3dニューラルネットワークの暗黙的な形状の編集に適した埋め込み形に変換する。 SENSは、直感的なスケッチベースの生成と編集を提供するだけでなく、ユーザのスケッチの意図を捉えて、抽象スケッチからでも、様々な斬新で表現力のある3D形状を生成する。 客観的な評価基準と決定的なユーザスタディを用いて、このモデルの有効性を最先端技術と比較し、中程度の抽象レベルを持つスケッチ上での強い性能を示す。 さらに,その直感的なスケッチベースの形状編集機能を紹介する。

We present SENS, a novel method for generating and editing 3D models from hand-drawn sketches, including those of an abstract nature. Our method allows users to quickly and easily sketch a shape, and then maps the sketch into the latent space of a part-aware neural implicit shape architecture. SENS analyzes the sketch and encodes its parts into ViT patch encoding, then feeds them into a transformer decoder that converts them to shape embeddings, suitable for editing 3D neural implicit shapes. SENS not only provides intuitive sketch-based generation and editing, but also excels in capturing the intent of the user's sketch to generate a variety of novel and expressive 3D shapes, even from abstract sketches. We demonstrate the effectiveness of our model compared to the state-of-the-art using objective metric evaluation criteria and a decisive user study, both indicating strong performance on sketches with a medium level of abstraction. Furthermore, we showcase its intuitive sketch-based shape editing capabilities.
翻訳日:2023-06-12 12:01:48 公開日:2023-06-09
# 振り返らないことを学ぶ

Learning Not to Spoof ( http://arxiv.org/abs/2306.06087v1 )

ライセンス: Link先を確認
David Byrd(参考訳) 強化学習(RL)に基づくインテリジェントトレーディングエージェントが普及するにつれて、RLエージェントが法、規制、人間の行動期待に従うことを保証することがより重要になる。 ヘリコプターを墜落させたり、取引口座を破産させたりといった明らかな大惨事の回避に関する多くの文献があるが、例があるがプログラマブルな定義はない微妙な非ノルミティブな行動を避けることはほとんどない。 このような行為は、物理的または金銭的制約よりも、法的または規制的制約に違反する可能性がある。 本稿では、知的株式取引業者が利益を最大化するが、それが参加する市場を不注意に偽装することを学ぶ一連の実験について考察する。 まず,マルチエージェント市場シミュレーションにハンドコードスプーフィングエージェントを注入し,スプーフィング活動のシーケンスを認識することを学ぶ。 次に、手書きスプーフィングトレーダーを単純な利益最大化RLエージェントに置き換え、スプーフィングを最適戦略として独立して発見することを観察する。 最後に、認識者を規範的ガイドとして組み込む方法を紹介し、エージェントの認識された報酬を形作り、選択した行動を変更する。 エージェントは利益を上げつつも、さらに高い利益をもたらすスプーフィング行動を避けている。 実験結果を提示した後、いくつかの推奨事項で締めくくります。 この方法は、認識者が学習できるあらゆる望ましくない行動の低減に一般化すべきである。

As intelligent trading agents based on reinforcement learning (RL) gain prevalence, it becomes more important to ensure that RL agents obey laws, regulations, and human behavioral expectations. There is substantial literature concerning the aversion of obvious catastrophes like crashing a helicopter or bankrupting a trading account, but little around the avoidance of subtle non-normative behavior for which there are examples, but no programmable definition. Such behavior may violate legal or regulatory, rather than physical or monetary, constraints. In this article, I consider a series of experiments in which an intelligent stock trading agent maximizes profit but may also inadvertently learn to spoof the market in which it participates. I first inject a hand-coded spoofing agent to a multi-agent market simulation and learn to recognize spoofing activity sequences. Then I replace the hand-coded spoofing trader with a simple profit-maximizing RL agent and observe that it independently discovers spoofing as the optimal strategy. Finally, I introduce a method to incorporate the recognizer as normative guide, shaping the agent's perceived rewards and altering its selected actions. The agent remains profitable while avoiding spoofing behaviors that would result in even higher profit. After presenting the empirical results, I conclude with some recommendations. The method should generalize to the reduction of any unwanted behavior for which a recognizer can be learned.
翻訳日:2023-06-12 12:01:21 公開日:2023-06-09
# 警察アカウンタビリティのための音声処理パイプラインの開発

Developing Speech Processing Pipelines for Police Accountability ( http://arxiv.org/abs/2306.06086v1 )

ライセンス: Link先を確認
Anjalie Field, Prateek Verma, Nay San, Jennifer L. Eberhardt, Dan Jurafsky(参考訳) 警察のボディウォードカメラは、警察における説明責任と透明性を向上させる可能性がある。 しかし実際には、レビューされていない何百万時間もの映像が生成される。 本研究は,交通停止映像におけるasrと警官の発話検出に着目し,レビューを促進するための事前学習音声モデルの可能性について検討する。 提案するパイプラインには、トレーニングデータアライメントとフィルタリング、リソース制約による微調整、完全自動化アプローチのための役員音声検出とASRの組み合わせが含まれる。 1) 警官発話におけるasr性能は,(1) 微調整によって強く向上し (wer=12-13%), (2) 警察官発話におけるasrは, 地域住民発話(wer=43.55-49.07%) , (3) 警官発話検出やダイアリゼーションといったドメイン特化課題は依然として困難である。 本研究は、ボディカメラ映像のレビューや、事前学習された音声モデルをノイズの多いマルチスピーカ領域に適応するための一般的なガイダンスの実践的応用を提供する。

Police body-worn cameras have the potential to improve accountability and transparency in policing. Yet in practice, they result in millions of hours of footage that is never reviewed. We investigate the potential of large pre-trained speech models for facilitating reviews, focusing on ASR and officer speech detection in footage from traffic stops. Our proposed pipeline includes training data alignment and filtering, fine-tuning with resource constraints, and combining officer speech detection with ASR for a fully automated approach. We find that (1) fine-tuning strongly improves ASR performance on officer speech (WER=12-13%), (2) ASR on officer speech is much more accurate than on community member speech (WER=43.55-49.07%), (3) domain-specific tasks like officer speech detection and diarization remain challenging. Our work offers practical applications for reviewing body camera footage and general guidance for adapting pre-trained speech models to noisy multi-speaker domains.
翻訳日:2023-06-12 12:00:56 公開日:2023-06-09
# Sparse Adaptive Bottleneck Centroid-Encoder を用いた特徴選択

Feature Selection using Sparse Adaptive Bottleneck Centroid-Encoder ( http://arxiv.org/abs/2306.04795v2 )

ライセンス: Link先を確認
Tomojit Ghosh, Michael Kirby(参考訳) 2つ以上のクラスを識別する特徴を決定するために,新しい非線形モデルであるsparse adaptive bottleneck centroid-encoder (sabce)を提案する。 本アルゴリズムは,環境空間におけるクラスセンタロイドを再構築しながらグループ内の識別的特徴を抽出し,ボトルネック層に付加的なペナルティ項を用いてクラス内散乱を減少させ,異なるクラスセンタロイドの分離を増加させることを目的としている。 モデルは、入力層に1対1の接続を持つスパーシティプロモーティング層(SPL)を有する。 第一の目的は、入力データから不要な機能をフィルタするスパース層の$l_{2,1}$ノルムを最小化することである。 訓練中, クラスセンタロイドをアップデートし, アダマール積とスパース層の重みを取り, 対象から無関係な特徴を無視することで, クラスセンタロイドを更新した。 そこで,提案手法は,全セントロイドではなく,クラスセントロイドの臨界成分を再構築する。 このアルゴリズムは、生体、画像、音声、加速度センサーデータを含む様々な現実世界のデータセットに適用される。 提案手法を,教師付きコンクリートオートエンコーダ (SCAE) ,特徴選択ネットワーク (FsNet) ,確率ゲート (STG) ,ラッソネット (LassoNet) など,最先端の機能選択技術と比較した。 実験により, SABCEの特徴は, シークエンサーテストセットの他の手法よりも高い分類精度を示し, 新たな結果が得られた。

We introduce a novel nonlinear model, Sparse Adaptive Bottleneck Centroid-Encoder (SABCE), for determining the features that discriminate between two or more classes. The algorithm aims to extract discriminatory features in groups while reconstructing the class centroids in the ambient space and simultaneously use additional penalty terms in the bottleneck layer to decrease within-class scatter and increase the separation of different class centroids. The model has a sparsity-promoting layer (SPL) with a one-to-one connection to the input layer. Along with the primary objective, we minimize the $l_{2,1}$-norm of the sparse layer, which filters out unnecessary features from input data. During training, we update class centroids by taking the Hadamard product of the centroids and weights of the sparse layer, thus ignoring the irrelevant features from the target. Therefore the proposed method learns to reconstruct the critical components of class centroids rather than the whole centroids. The algorithm is applied to various real-world data sets, including high-dimensional biological, image, speech, and accelerometer sensor data. We compared our method to different state-of-the-art feature selection techniques, including supervised Concrete Autoencoders (SCAE), Feature Selection Networks (FsNet), Stochastic Gates (STG), and LassoNet. We empirically showed that SABCE features often produced better classification accuracy than other methods on the sequester test sets, setting new state-of-the-art results.
翻訳日:2023-06-12 10:18:00 公開日:2023-06-09
# ニューラルテンプレート正規化による異なる視点からの3次元再構成

DiViNeT: 3D Reconstruction from Disparate Views via Neural Template Regularization ( http://arxiv.org/abs/2306.04699v2 )

ライセンス: Link先を確認
Aditya Vora, Akshay Gadi Patil, Hao Zhang(参考訳) 本稿では3つの異なるRGB画像を入力として用いたボリュームレンダリングに基づくニューラルサーフェス再構成手法を提案する。 私たちの重要なアイデアは、表面プライオリティとして振る舞うニューラルネットワークテンプレートのセットを学習することで、極めて不適切な再構築と、スパースビュー間の大きなギャップを解消することです。 提案手法はDiViNetと呼ばれ,2段階で動作する。 第1段階では、3dのガウス関数の形でテンプレートを学習し、3dの監督なしで異なるシーンを横断する。 リコンストラクション段階では、予測されたテンプレートは、スパース領域上の表面を「固定する」のに役立つアンカーとして機能する。 本手法は, 表面形状を完備するだけでなく, 若干の異なる入力視点から表面細部を合理的に再構成できることを実証する。 dtu と blendedmvs データセットでは,このようなスパースビューが存在する場合において,既存メソッドの最高の再構成品質を達成し,かつ,高精細ビューを入力として使用する場合の競合メソッドと同等に実行する。

We present a volume rendering-based neural surface reconstruction method that takes as few as three disparate RGB images as input. Our key idea is to regularize the reconstruction, which is severely ill-posed and leaving significant gaps between the sparse views, by learning a set of neural templates that act as surface priors. Our method coined DiViNet, operates in two stages. The first stage learns the templates, in the form of 3D Gaussian functions, across different scenes, without 3D supervision. In the reconstruction stage, our predicted templates serve as anchors to help "stitch" the surfaces over sparse regions. We demonstrate that our approach is not only able to complete the surface geometry but also reconstructs surface details to a reasonable extent from few disparate input views. On the DTU and BlendedMVS datasets, our approach achieves the best reconstruction quality among existing methods in the presence of such sparse views, and performs on par, if not better, with competing methods when dense views are employed as inputs.
翻訳日:2023-06-12 10:17:29 公開日:2023-06-09
# 大規模言語モデルの透かしの信頼性について

On the Reliability of Watermarks for Large Language Models ( http://arxiv.org/abs/2306.04634v2 )

ライセンス: Link先を確認
John Kirchenbauer, Jonas Geiping, Yuxin Wen, Manli Shu, Khalid Saifullah, Kezhi Kong, Kasun Fernando, Aniruddha Saha, Micah Goldblum and Tom Goldstein(参考訳) LLMが一般的になるにつれて、機械生成テキストはスパム、ソーシャルメディアボット、価値のないコンテンツでインターネットを溢れさせる可能性がある。 ウォーターマーキングは、LCM生成テキストの検出と文書化を可能にすることで、そのような害を緩和するためのシンプルで効果的な戦略である。 しかし、重要な疑問が残る: 現実的な環境において、ウォーターマークはどの程度信頼できるのか? そこで、透かし付きテキストはユーザーの要求に合うように修正されるか、検出を避けるために完全に書き換えられる。 本研究では,人間による書き直し後の透かしテキストの堅牢性,非透かしLDMによる言い換え,あるいはより長い手書き文書への混在性について検討する。 人や機械の言い回しをしても、透かしは検出可能である。 これらの攻撃は透かしの強さを薄めるが、パラフレーズは統計学的にn-gramまたは元のテキストのより長い断片をリークし、十分なトークンが観測されたときに高い信頼度を検出する。 例えば、強い人間のパラフレージングの後、1e-5の偽陽性率を設定する場合、平均800トークンを観測した後、透かしを検出できる。 我々はまた、大きな文書に埋め込まれた透かしの短いテキストに敏感な新しい検出方法についても検討し、透かしの頑健さを他の種類の検出器と比較する。

As LLMs become commonplace, machine-generated text has the potential to flood the internet with spam, social media bots, and valueless content. Watermarking is a simple and effective strategy for mitigating such harms by enabling the detection and documentation of LLM-generated text. Yet a crucial question remains: How reliable is watermarking in realistic settings in the wild? There, watermarked text may be modified to suit a user's needs, or entirely rewritten to avoid detection. We study the robustness of watermarked text after it is re-written by humans, paraphrased by a non-watermarked LLM, or mixed into a longer hand-written document. We find that watermarks remain detectable even after human and machine paraphrasing. While these attacks dilute the strength of the watermark, paraphrases are statistically likely to leak n-grams or even longer fragments of the original text, resulting in high-confidence detections when enough tokens are observed. For example, after strong human paraphrasing the watermark is detectable after observing 800 tokens on average, when setting a 1e-5 false positive rate. We also consider a range of new detection schemes that are sensitive to short spans of watermarked text embedded inside a large document, and we compare the robustness of watermarking to other kinds of detectors.
翻訳日:2023-06-12 10:17:06 公開日:2023-06-09
# テキストプロンプトによる高品質検出データ生成のためのテキスト間拡散モデルへの幾何制御の統合

Integrating Geometric Control into Text-to-Image Diffusion Models for High-Quality Detection Data Generation via Text Prompt ( http://arxiv.org/abs/2306.04607v3 )

ライセンス: Link先を確認
Kai Chen, Enze Xie, Zhe Chen, Lanqing Hong, Zhenguo Li, Dit-Yan Yeung(参考訳) 拡散モデルは、コンテンツの作成や画像分類などのタスクのためのデータの生成に際し、非常に注目されている。 しかし、高品質な物体検出データを生成するための拡散モデルの利用は、画像レベルの知覚品質だけでなく、バウンディングボックスやカメラビューのような幾何学的条件が不可欠である未探索領域に留まっている。 従来はコピー・ペースト合成やレイアウト・トゥ・イメージ(L2I)生成を利用していた。 本稿では,様々な幾何学的条件を柔軟にテキストプロンプトに変換し,高品質なデータ生成のための事前学習されたtext-to-image(t2i)拡散モデルを強化するシンプルなフレームワークgeodiffusionを提案する。 従来のl2i法とは異なり、geodiffusionはバウンディングボックスだけでなく、自動運転シーンのカメラビューなどの余分な幾何学的条件もエンコードできる。 大規模な実験では、GeoDiffusionは従来のL2I法よりも高速に4倍のトレーニング時間を維持する。 私たちの知る限りでは、幾何学的な条件でレイアウトから画像への拡散モデルを採用し、l2i生成画像が物体検出器の性能向上に有用であることを実証するのはこれが初めてです。

Diffusion models have attracted significant attention due to their remarkable ability to create content and generate data for tasks such as image classification. However, the usage of diffusion models to generate high-quality object detection data remains an underexplored area, where not only the image-level perceptual quality but also geometric conditions such as bounding boxes and camera views are essential. Previous studies have utilized either copy-paste synthesis or layout-to-image (L2I) generation with specifically designed modules to encode semantic layouts. In this paper, we propose GeoDiffusion, a simple framework that can flexibly translate various geometric conditions into text prompts and empower the pre-trained text-to-image (T2I) diffusion models for high-quality detection data generation. Unlike previous L2I methods, our GeoDiffusion is able to encode not only bounding boxes but also extra geometric conditions such as camera views in self-driving scenes. Extensive experiments demonstrate GeoDiffusion outperforms previous L2I methods while maintaining 4x training time faster. To the best of our knowledge, this is the first work to adopt diffusion models for layout-to-image generation with geometric conditions and demonstrate that L2I-generated images can be beneficial for improving the performance of object detectors.
翻訳日:2023-06-12 10:16:44 公開日:2023-06-09
# あらゆるものを認識する:強力な画像タグモデル

Recognize Anything: A Strong Image Tagging Model ( http://arxiv.org/abs/2306.03514v3 )

ライセンス: Link先を確認
Youcai Zhang, Xinyu Huang, Jinyu Ma, Zhaoyang Li, Zhaochuan Luo, Yanchun Xie, Yuzhuo Qin, Tong Luo, Yaqian Li, Shilong Liu, Yandong Guo, Lei Zhang(参考訳) 我々は,画像タグ付けのための強固な基礎モデルであるliam anything model(ram)を提案する。 RAMはコンピュータビジョンにおける大きなモデルにとって重要なステップであり、高い精度で共通のカテゴリを認識するゼロショット能力を示す。 RAMは画像タグ付けの新しいパラダイムを導入し、手動のアノテーションの代わりに大規模な画像テキストペアをトレーニングに利用している。 RAMの開発には4つの重要なステップがある。 まず、アノテーションのない画像タグを自動テキストセマンティック解析によって大規模に取得する。 その後、キャプションとタグ付けタスクを統一し、それぞれ元のテキストとパースされたタグで教師された予備モデルで自動アノテーションを訓練する。 第3に、追加のアノテーションと不正確なアノテーションを生成するために、データエンジンが使用される。 最後に、モデルは処理されたデータで再トレーニングされ、より小さいが高品質なデータセットを使用して微調整される。 多数のベンチマークでRAMのタグ付け機能を評価し,優れたゼロショット性能を示し,CLIPとBLIPを著しく上回る性能を示した。 注目すべきは、RAMが完全に教師された方法を超え、Googleタグ付けAPIと競合するパフォーマンスを示すことだ。 私たちは、コンピュータビジョンにおける大きなモデルの進歩を促進するために、RAMを \url{https://recognize-anything.github.io/} でリリースしています。

We present the Recognize Anything Model (RAM): a strong foundation model for image tagging. RAM makes a substantial step for large models in computer vision, demonstrating the zero-shot ability to recognize any common category with high accuracy. RAM introduces a new paradigm for image tagging, leveraging large-scale image-text pairs for training instead of manual annotations. The development of RAM comprises four key steps. Firstly, annotation-free image tags are obtained at scale through automatic text semantic parsing. Subsequently, a preliminary model is trained for automatic annotation by unifying the caption and tagging tasks, supervised by the original texts and parsed tags, respectively. Thirdly, a data engine is employed to generate additional annotations and clean incorrect ones. Lastly, the model is retrained with the processed data and fine-tuned using a smaller but higher-quality dataset. We evaluate the tagging capabilities of RAM on numerous benchmarks and observe impressive zero-shot performance, significantly outperforming CLIP and BLIP. Remarkably, RAM even surpasses the fully supervised manners and exhibits competitive performance with the Google tagging API. We are releasing the RAM at \url{https://recognize-anything.github.io/} to foster the advancements of large models in computer vision.
翻訳日:2023-06-12 10:16:23 公開日:2023-06-09
# 連続変数と離散変数の絡み合った状態を用いた長距離測定-デバイス非依存量子鍵分布

Long-distance measurement-device-independent quantum key distribution using entangled states between continuous and discrete variables ( http://arxiv.org/abs/2305.18906v3 )

ライセンス: Link先を確認
Soumyakanti Bose and Jaskaran Singh and Ad\'an Cabello and Hyunseok Jeong(参考訳) 連続変数 (CV) と離散変数 (DV) のハイブリッド絡み合い (HE) を用いた高速長距離絡み合わせを実現するための実現可能なスキームを提案する。 既存のcvおよびdv測定デバイス非依存量子鍵分布(mdi-qkd)プロトコルの実験的制限を効果的に除去できることを示す。 鍵となるアイデアは、高いセキュアなキーレートを達成するためにDV部を使用しながら、光子損失に対して堅牢であるように調整できるCV部を使用することである。 従来のプロトコルよりも1桁高いセキュアな鍵レートで、標準の通信ファイバーで300kmの速度でmdi-qkdが可能であることを示す。 HE状態は, 実用的長距離高速エンタングルメントの利点を指摘する。

We introduce a feasible scheme to produce high-rate long-distance entanglement which uses hybrid entanglement (HE) between continuous variables (CV) and discrete variables (DV). We show that HE can effectively remove the experimental limitations of existing CV and DV measurement-device-independent quantum key distribution (MDI-QKD) protocols. The key idea is using the CV part, which can be adjusted to be robust against photon losses, for increasing the transmission distance, while using the DV part for achieving high secure key rates. We show that, using HE states, MDI-QKD is possible with standard telecom fibers for 300 km with a secure key rate which is an order of magnitude higher than in existing protocols. Our results point out that HE states provide advantage for practical long-distance high-rate entanglement.
翻訳日:2023-06-12 10:16:03 公開日:2023-06-09
# 還元密度行列を直接計算する新しい方法

A new method for directly computing reduced density matrices ( http://arxiv.org/abs/2204.08829v4 )

ライセンス: Link先を確認
Christian K\"ading and Mario Pitschmann(参考訳) オープン量子系の減密度行列要素の摂動計算をマスター方程式を使わずに行うことができる第一原理的かつ実践的な方法のパワーを実証する。 このアプローチは、熱場力学、シュウィンガー・ケルドシー形式論、ファインマン・ヴァーノン影響汎関数といった非平衡量子場理論の手法に基づいている。 マルコフ近似は必要とせず、本質的にはリーマン・ジーマンツィク・ジマーマン型還元である。 本手法を説明するために、実スカラー場を、他の実スカラー場を含む環境と相互作用するオープン量子系として考える。 運動量基底における任意の粒子数に対する密度行列要素の摂動計算を可能にする一般公式を与える。 最後に, 単純な玩具モデルを検討し, この公式を用いて, システムの密度行列要素のいくつかの表現を得る。

We demonstrate the power of a first principle-based and practicable method that allows for the perturbative computation of reduced density matrix elements of an open quantum system without making use of any master equations. The approach is based on techniques from non-equilibrium quantum field theory like thermo field dynamics, the Schwinger-Keldsyh formalism, and the Feynman-Vernon influence functional. It does not require the Markov approximation and is essentially a Lehmann-Szymanzik-Zimmermann-like reduction. In order to illustrate this method, we consider a real scalar field as an open quantum system interacting with an environment comprising another real scalar field. We give a general formula that allows for the perturbative computation of density matrix elements for any number of particles in a momentum basis. Finally, we consider a simple toy model and use this formula to obtain expressions for some of the system's reduced density matrix elements.
翻訳日:2023-06-12 10:15:26 公開日:2023-06-09
# 結晶材料特性予測のための結晶特性評価フレームワーク

A Crystal-Specific Pre-Training Framework for Crystal Material Property Prediction ( http://arxiv.org/abs/2306.05344v2 )

ライセンス: Link先を確認
Haomin Yu, Yanru Song, Jilin Hu, Chenjuan Guo, Bin Yang(参考訳) 結晶特性予測は、新しい材料を開発する上で重要な側面である。 しかし、結晶の研究をスピードアップするための技術的課題は2つある。 第一に、結晶特性のラベル付けは、物理的シミュレーションや実験実験にかかわる高コストと時間のために本質的に困難である。 第二に、結晶は周期的不変性( periodic invariance)として知られる特定の量子化学原理に固執する。 これらの課題を克服するために,自己スーパービジョンによる結晶表現学習のための結晶特異的事前学習フレームワークを提案する。 このフレームワークは、結晶特性予測に利用可能な限定ラベルを緩和するために、表現学習を強化するミューテックスマスク戦略を設計する。 さらに, 結晶構造の特定の周期的不変性を考慮して, 周期的不変性多グラフモジュールと周期的属性学習をフレームワーク内で構築する。 このフレームワークは8つの異なるタスクでテストされている。 これらの課題に対する実験結果から,フレームワークは期待できる予測性能を達成し,最近の強いベースラインを上回り得ることが示された。

Crystal property prediction is a crucial aspect of developing novel materials. However, there are two technical challenges to be addressed for speeding up the investigation of crystals. First, labeling crystal properties is intrinsically difficult due to the high cost and time involved in physical simulations or lab experiments. Second, crystals adhere to a specific quantum chemical principle known as periodic invariance, which is often not captured by existing machine learning methods. To overcome these challenges, we propose the crystal-specific pre-training framework for learning crystal representations with self-supervision. The framework designs a mutex mask strategy for enhancing representation learning so as to alleviate the limited labels available for crystal property prediction. Moreover, we take into account the specific periodic invariance in crystal structures by developing a periodic invariance multi-graph module and periodic attribute learning within our framework. This framework has been tested on eight different tasks. The experimental results on these tasks show that the framework achieves promising prediction performance and is able to outperform recent strong baselines.
翻訳日:2023-06-12 10:11:00 公開日:2023-06-09
# ユーザレベルのディファレンシャルプライバシを持つフェデレーション線形コンテキストバンディット

Federated Linear Contextual Bandits with User-level Differential Privacy ( http://arxiv.org/abs/2306.05275v2 )

ライセンス: Link先を確認
Ruiquan Huang, Huanyu Zhang, Luca Melis, Milan Shen, Meisam Hajzinia, Jing Yang(参考訳) 本稿では,ユーザレベルのディファレンシャルプライバシ(dp)という概念に基づく,連帯線形コンテキストバンディットについて検討する。 まず,DP の様々な定義を逐次決定設定で適用可能な統合された帯域幅フレームワークを提案する。 次に,federated banditsフレームワークにおいて,ユーザレベル中心dp (cdp) とローカルdp (ldp) を正式に導入し,federated linear context banditsモデルにおいて,学習後悔と対応するdp保証との間の根本的なトレードオフを検討する。 CDPでは、$\texttt{ROBIN}$と呼ばれるフェデレーションアルゴリズムを提案し、ユーザレベルのDPが満たされた場合、上と下と下をほぼ一致させることで、クライアント数$M$とプライバシ予算$\varepsilon$がほぼ最適であることを示す。 LDP の場合、ユーザレベルの $(\varepsilon,\delta)$-LDP の下での学習は、少なくとも $\min\{1/\varepsilon,M\}$ または $\min\{1/\sqrt{\varepsilon},\sqrt{M}\}$ において、異なる条件下で、後悔の吹き上げ要因を負わなければならないことを示す。

This paper studies federated linear contextual bandits under the notion of user-level differential privacy (DP). We first introduce a unified federated bandits framework that can accommodate various definitions of DP in the sequential decision-making setting. We then formally introduce user-level central DP (CDP) and local DP (LDP) in the federated bandits framework, and investigate the fundamental trade-offs between the learning regrets and the corresponding DP guarantees in a federated linear contextual bandits model. For CDP, we propose a federated algorithm termed as $\texttt{ROBIN}$ and show that it is near-optimal in terms of the number of clients $M$ and the privacy budget $\varepsilon$ by deriving nearly-matching upper and lower regret bounds when user-level DP is satisfied. For LDP, we obtain several lower bounds, indicating that learning under user-level $(\varepsilon,\delta)$-LDP must suffer a regret blow-up factor at least $\min\{1/\varepsilon,M\}$ or $\min\{1/\sqrt{\varepsilon},\sqrt{M}\}$ under different conditions.
翻訳日:2023-06-12 10:10:42 公開日:2023-06-09
# 事前学習モデルにおけるレート低減原理による画像クラスタリング

Image Clustering via the Principle of Rate Reduction in the Age of Pretrained Models ( http://arxiv.org/abs/2306.05272v2 )

ライセンス: Link先を確認
Tianzhe Chu, Shengbang Tong, Tianjiao Ding, Xili Dai, Benjamin David Haeffele, Ren\'e Vidal, Yi Ma(参考訳) 大規模な事前学習モデルの出現は、視覚表現学習と自然言語処理の両方にパラダイムシフトをもたらした。 しかしながら、ラベルのないイメージのクラスタリングは、基本で古典的な機械学習の問題として、特に大規模データセットでは、効果的なソリューションを欠いている。 本稿では,クリップ画像やクラスタ画像などの大規模事前学習モデルの強力な特徴表現を効果的かつ効率的に活用する,新しい画像クラスタリングパイプラインを提案する。 また, 事前学習した特徴は, レート削減目標をさらに最適化することで, かなり構造化されていることを示す。 その結果、ImageNet-1kでは57\%から66\%のクラスタリング精度が大幅に向上する可能性がある。 さらに,クリップのイメージテキストバインディングを利用して,ms-coco や laion-aesthetics のようなラベルなしの大規模データセットでうまく機能する,単純かつ効果的な自己ラベルアルゴリズムを実現する方法を示す。 コードをhttps://github.com/LeslieTrue/CPPでリリースします。

The advent of large pre-trained models has brought about a paradigm shift in both visual representation learning and natural language processing. However, clustering unlabeled images, as a fundamental and classic machine learning problem, still lacks effective solution, particularly for large-scale datasets. In this paper, we propose a novel image clustering pipeline that leverages the powerful feature representation of large pre-trained models such as CLIP and cluster images effectively and efficiently at scale. We show that the pre-trained features are significantly more structured by further optimizing the rate reduction objective. The resulting features may significantly improve the clustering accuracy, e.g., from 57\% to 66\% on ImageNet-1k. Furthermore, by leveraging CLIP's image-text binding, we show how the new clustering method leads to a simple yet effective self-labeling algorithm that successfully works on unlabeled large datasets such as MS-COCO and LAION-Aesthetics. We will release the code in https://github.com/LeslieTrue/CPP.
翻訳日:2023-06-12 10:10:06 公開日:2023-06-09
# RRWKV:RWKVの長距離依存性をキャプチャする

RRWKV: Capturing Long-range Dependencies in RWKV ( http://arxiv.org/abs/2306.05176v2 )

ライセンス: Link先を確認
Leilei Wang(参考訳) ドットプロダクティビティの注目により、トランスフォーマーは様々な自然言語処理(NLP)タスクにおいて支配的なアーキテクチャとなっている。 近年、Receptance Weighted Key Value (RWKV)アーキテクチャは、メモリと計算の複雑さがシーケンス長の2次スケーリングを示す点積の欠点を取り除くために、非変換アーキテクチャに従っている。 RWKVは、線形にテンソル積の注意機構を利用し、時間列モードを配置することで並列化された計算を実現しているが、標準トランスフォーマーのダイレクトインタラクションによって得られる全情報と比較して、以前の情報を振り返ることに制限があるため、長距離依存を捉えることができない。 そこで本稿では,RWKVにレトロスペクション機能を組み込んで,メモリや計算効率の維持を図ることで,Retrospected Receptance Weighted Key Value(RRWKV)アーキテクチャを考案する。

Owing to the impressive dot-product attention, the Transformers have been the dominant architectures in various natural language processing (NLP) tasks. Recently, the Receptance Weighted Key Value (RWKV) architecture follows a non-transformer architecture to eliminate the drawbacks of dot-product attention, where memory and computational complexity exhibits quadratic scaling with sequence length. Although RWKV has exploited a linearly tensor-product attention mechanism and achieved parallelized computations by deploying the time-sequential mode, it fails to capture long-range dependencies because of its limitation on looking back at previous information, compared with full information obtained by direct interactions in the standard transformer. Therefore, the paper devises the Retrospected Receptance Weighted Key Value (RRWKV) architecture via incorporating the retrospecting ability into the RWKV to effectively absorb information, which maintains memory and computational efficiency as well.
翻訳日:2023-06-12 10:09:49 公開日:2023-06-09
# AIはより良いプログラミングパートナーか? 人間-人間ペアプログラミング対人間-AI pAIrプログラミング

Is AI the better programming partner? Human-Human Pair Programming vs. Human-AI pAIr Programming ( http://arxiv.org/abs/2306.05153v2 )

ライセンス: Link先を確認
Qianou Ma, Tongshuang Wu, Kenneth Koedinger(参考訳) GitHubのCopilotのようなコード生成と商用製品に優れた大規模言語モデル(LLM)の出現は、AIシステムが人間のプログラマと協力する、人間とAIのペアプログラミング("pAIr programming"と呼ばれる)への関心を喚起した。 人間同士のペアプログラミングは広く研究されているが、その発見が人間とAIのペアプログラミングに適用できるかどうかは不明である。 我々は、人間とAIのペアプログラミングを比較し、その類似点と相互作用、測定、利益、課題の違いを探求する。 両方のアプローチの有効性は、文献に混ざっている(ペアプログラミングに使用される尺度は、それほど包括的ではない)。 pAIrプログラミング研究の機会を提供する人間と人間のペアプログラミングの成功に関する調整因子を要約する。 例えば、ミスマッチした専門知識はペアプログラミングの生産性を低下させるため、よく設計されたAIプログラミングアシスタントは専門知識のレベルの違いに適応する可能性がある。

The emergence of large-language models (LLMs) that excel at code generation and commercial products such as GitHub's Copilot has sparked interest in human-AI pair programming (referred to as "pAIr programming") where an AI system collaborates with a human programmer. While traditional pair programming between humans has been extensively studied, it remains uncertain whether its findings can be applied to human-AI pair programming. We compare human-human and human-AI pair programming, exploring their similarities and differences in interaction, measures, benefits, and challenges. We find that the effectiveness of both approaches is mixed in the literature (though the measures used for pAIr programming are not as comprehensive). We summarize moderating factors on the success of human-human pair programming, which provides opportunities for pAIr programming research. For example, mismatched expertise makes pair programming less productive, therefore well-designed AI programming assistants may adapt to differences in expertise levels.
翻訳日:2023-06-12 10:09:29 公開日:2023-06-09
# 伝達学習の一般化性能:過パラメータ化と過パラメータ化

Generalization Performance of Transfer Learning: Overparameterized and Underparameterized Regimes ( http://arxiv.org/abs/2306.04901v2 )

ライセンス: Link先を確認
Peizhong Ju, Sen Lin, Mark S. Squillante, Yingbin Liang, Ness B. Shroff(参考訳) トランスファー学習は、ソースタスクから得た知識を活用し、ターゲットタスクに適用することにより、パフォーマンスの向上とトレーニングコストの削減に有用なテクニックである。 伝達学習の有効性を評価することは、情報源の真理と目標タスクの類似性を理解することに依存する。 現実のアプリケーションでは、タスクは部分的な類似性を示し、ある側面は似ているが、他のタスクは異なるか無関係である。 伝達学習性能に対する部分的類似性の影響を調べるために,タスク間で共有される共通部分とタスク固有の部分の2つの特徴セットを持つ線形回帰モデルに着目した。 本研究は、パラメータ転送の2つの選択肢を包含して、様々な種類の転送学習を探索する。 学習モデルの誤りに関する理論的特徴を定式化することにより、これらの伝達学習オプションの比較を行い、特に、パラメータ化と過パラメータ化の両方の条件における特徴/パラメータの数による一般化性能の変化について検討する。 さらに,一般化性能を向上させるために,共通部分やタスク固有の部分の特徴数を決定するための実践的なガイドラインを提案する。 例えば、ソースタスクの学習モデルの機能の合計数が固定されると、共通部分よりもタスク固有の部分に多くの冗長な機能を割り当てることがより有利であることが示されます。 さらに、特定のシナリオ、特に高い騒音レベルと小さな真のパラメータによって特徴づけられるものにおいては、タスク固有の部分でより冗長な特徴を採用することで、共通部分における特定の真の特徴を犠牲にすることで、顕著なメリットが得られる。

Transfer learning is a useful technique for achieving improved performance and reducing training costs by leveraging the knowledge gained from source tasks and applying it to target tasks. Assessing the effectiveness of transfer learning relies on understanding the similarity between the ground truth of the source and target tasks. In real-world applications, tasks often exhibit partial similarity, where certain aspects are similar while others are different or irrelevant. To investigate the impact of partial similarity on transfer learning performance, we focus on a linear regression model with two distinct sets of features: a common part shared across tasks and a task-specific part. Our study explores various types of transfer learning, encompassing two options for parameter transfer. By establishing a theoretical characterization on the error of the learned model, we compare these transfer learning options, particularly examining how generalization performance changes with the number of features/parameters in both underparameterized and overparameterized regimes. Furthermore, we provide practical guidelines for determining the number of features in the common and task-specific parts for improved generalization performance. For example, when the total number of features in the source task's learning model is fixed, we show that it is more advantageous to allocate a greater number of redundant features to the task-specific part rather than the common part. Moreover, in specific scenarios, particularly those characterized by high noise levels and small true parameters, sacrificing certain true features in the common part in favor of employing more redundant features in the task-specific part can yield notable benefits.
翻訳日:2023-06-12 10:09:13 公開日:2023-06-09
# 拡散モデルによる複雑度を考慮した大規模原産地ネットワーク生成

Complexity-aware Large Scale Origin-Destination Network Generation via Diffusion Model ( http://arxiv.org/abs/2306.04873v2 )

ライセンス: Link先を確認
Can Rong, Jingtao Ding, Zhicheng Liu, Yong Li(参考訳) origin-destination~(od)ネットワークは、都市内の各地域から他の地域への人々のフローを推定する。 地域の構造的特徴から、ODネットワークの生成は様々な分野の研究者にますますアピールしている。 しかし、既存の作品は各ODペアの独立世代、すなわちある地域から別の地域への人々の流れにおいて制限され、ネットワーク全体の関係を見渡せる。 本稿では,その代わりにodネットワークを生成することを提案し,地域レベルで与えられた都市特性を考慮したodネットワーク内のノードとエッジの条件付きジョイント確率分布を学習するためのグラフ除算拡散法を考案する。 何千もの領域をカバーするodネットワークの学習難しさを克服するため,拡散モデルの元々のワンショット生成モデルは,ネットワークトポロジの生成とエッジの重みに対応する2つのカスケードステージに分解した。 都市全体のODネットワークに含まれる重要なネットワーク特性を更に再現するため,ノード特性拡張モジュールとグラフトランスフォーマーバックボーンを含む詳細なグラフ記述ネットワーク構造を設計した。 米国の3つの大都市で収集されたデータに関する実証実験により,本手法は,ネットワーク統計量に非常に類似した新たな都市におけるod行列を生成できることが確認された。

The Origin-Destination~(OD) networks provide an estimation of the flow of people from every region to others in the city, which is an important research topic in transportation, urban simulation, etc. Given structural regional urban features, generating the OD network has become increasingly appealing to many researchers from diverse domains. However, existing works are limited in independent generation of each OD pair, i.e., flow of people from one region to another, overlooking the relations within the overall network. In this paper, we instead propose to generate the OD network, and design a graph denoising diffusion method to learn the conditional joint probability distribution of the nodes and edges within the OD network given city characteristics at region level. To overcome the learning difficulty of the OD networks covering over thousands of regions, we decompose the original one-shot generative modeling of the diffusion model into two cascaded stages, corresponding to the generation of network topology and the weights of edges, respectively. To further reproduce important network properties contained in the city-wide OD network, we design an elaborated graph denoising network structure including a node property augmentation module and a graph transformer backbone. Empirical experiments on data collected in three large US cities have verified that our method can generate OD matrices for new cities with network statistics remarkably similar with the ground truth, further achieving superior outperformance over competitive baselines in terms of the generation realism.
翻訳日:2023-06-12 10:08:46 公開日:2023-06-09
# MyStyle++: コントロール可能なパーソナライズされた生成先

MyStyle++: A Controllable Personalized Generative Prior ( http://arxiv.org/abs/2306.04865v2 )

ライセンス: Link先を確認
Libing Zeng, Lele Chen, Yi Xu, Nima Kalantari(参考訳) 本稿では,属性の集合を明示的に制御したパーソナライズされた生成先行情報を得る手法を提案する。 最近導入されたMyStyleは、トレーニング済みのStyleGANフェイスジェネレータの重量を、個人の数枚の画像に調整する。 本システムは、顔の特徴に対する忠実度の高い対象者の画像の合成、編集、強化を可能にする。 しかし、MyStyleは生成された画像の属性を正確に制御していない。 本稿では, 発電機のチューニングに加えて, 潜在空間を整理する新しい最適化システムによってこの問題に対処することを提案する。 私たちの重要な貢献は、属性に従って特定の方向のセットに沿って、入力画像に対応する潜在符号を配置する損失を定式化することです。 提案手法はMyStyle++と呼ばれ,個々の顔の特徴を保ちながら,属性を非常に制御した人物の画像を合成,編集,拡張することが可能であることを実証する。

In this paper, we propose an approach to obtain a personalized generative prior with explicit control over a set of attributes. We build upon MyStyle, a recently introduced method, that tunes the weights of a pre-trained StyleGAN face generator on a few images of an individual. This system allows synthesizing, editing, and enhancing images of the target individual with high fidelity to their facial features. However, MyStyle does not demonstrate precise control over the attributes of the generated images. We propose to address this problem through a novel optimization system that organizes the latent space in addition to tuning the generator. Our key contribution is to formulate a loss that arranges the latent codes, corresponding to the input images, along a set of specific directions according to their attributes. We demonstrate that our approach, dubbed MyStyle++, is able to synthesize, edit, and enhance images of an individual with great control over the attributes, while preserving the unique facial characteristics of that individual.
翻訳日:2023-06-12 10:08:20 公開日:2023-06-09
# Sparse Linear Centroid-Encoder:特徴選択のための凸法

Sparse Linear Centroid-Encoder: A Convex Method for Feature Selection ( http://arxiv.org/abs/2306.04824v2 )

ライセンス: Link先を確認
Tomojit Ghosh, Michael Kirby, Karim Karimov(参考訳) 本稿では,新しい特徴選択手法であるSparse Linear Centroid-Encoder (SLCE)を提案する。 このアルゴリズムは、ある点をそのクラスセントロイドとして再構成するために線形変換を使用し、同時に$\ell_1$-normペナルティを用いて入力データから不要な特徴をフィルタリングする。 最適化問題の元々の定式化は非凸であるが、各ステップが凸である2段階のアプローチを提案する。 最初のステップでは、行列 $A$ 上の凸最適化問題である線形 Centroid-Encoder を解く。 2番目のステップでは、$A$を固定しながら、対角行列の$B$上のスパース解のみを探索する。 Sparse Support Vector MachinesやLassoのような他の線形手法とは異なり、Sparse Linear Centroid-Encoderはマルチクラスデータに単一モデルを使用する。 本稿では,提案モデルの詳細な実験分析を行い,高次元生体データを含む各種データセットのスパーシティを促進することを示す。 実験の結果、slceは最先端のニューラルネットワークに基づく特徴選択技術よりも優れた性能を示すことがわかった。

We present a novel feature selection technique, Sparse Linear Centroid-Encoder (SLCE). The algorithm uses a linear transformation to reconstruct a point as its class centroid and, at the same time, uses the $\ell_1$-norm penalty to filter out unnecessary features from the input data. The original formulation of the optimization problem is nonconvex, but we propose a two-step approach, where each step is convex. In the first step, we solve the linear Centroid-Encoder, a convex optimization problem over a matrix $A$. In the second step, we only search for a sparse solution over a diagonal matrix $B$ while keeping $A$ fixed. Unlike other linear methods, e.g., Sparse Support Vector Machines and Lasso, Sparse Linear Centroid-Encoder uses a single model for multi-class data. We present an in-depth empirical analysis of the proposed model and show that it promotes sparsity on various data sets, including high-dimensional biological data. Our experimental results show that SLCE has a performance advantage over some state-of-the-art neural network-based feature selection techniques.
翻訳日:2023-06-12 10:08:04 公開日:2023-06-09
# 相関情報最大化:重み対称性のない深層ニューラルネットワークに対する生物学的にプラザブルなアプローチ

Correlative Information Maximization: A Biologically Plausible Approach to Supervised Deep Neural Networks without Weight Symmetry ( http://arxiv.org/abs/2306.04810v2 )

ライセンス: Link先を確認
Bariscan Bozkurt, Cengiz Pehlevan, Alper T Erdogan(参考訳) バックプロパゲーションアルゴリズムは、大規模な人工ニューラルネットワークのトレーニングで顕著な成功を収めてきたが、その生物学的な評価は議論の余地があり、脳がそれに似た教師付き学習機構を使用しているかどうかには疑問が残る。 本稿では,生体神経ネットワークにおける信号伝達を前方方向と後方方向の両方で記述する手法として,レイヤアクティベーション間の相関情報最大化を提案する。 この新しいフレームワークは、従来のニューラルネットワークとバックプロパゲーションアルゴリズムの生物学的可視性に関する多くの懸念に対処する。 対応する目的の座標降下に基づく最適化は、ラベル付き監督データを取り付ける平均二乗誤差損失関数と組み合わせられ、樹状処理と側方抑制ニューロンによるマルチコンパートメント錐体ニューロンのより生物学的に現実的なネットワークをエミュレートするニューラルネットワーク構造をもたらす。 さらに,本手法は,前方および後方の信号伝搬経路間の重み対称性問題に対する自然な解決法であり,従来のバックプロパゲーションアルゴリズムの可能性に対する重要な批判である。 これは、相関的な相互情報目的の2つの代替形式を活用することで達成される。 これらの代替案は本質的に重量対称性の問題のない前方および後方予測ネットワークに導かれ、この長年の課題に対する説得力のある解決策となった。

The backpropagation algorithm has experienced remarkable success in training large-scale artificial neural networks, however, its biological-plausibility is disputed, and it remains an open question whether the brain employs supervised learning mechanisms akin to it. Here, we propose correlative information maximization between layer activations as an alternative normative approach to describe the signal propagation in biological neural networks in both forward and backward directions. This new framework addresses many concerns about the biological-plausibility of conventional artificial neural networks and the backpropagation algorithm. The coordinate descent-based optimization of the corresponding objective, combined with the mean square error loss function for fitting labeled supervision data, gives rise to a neural network structure that emulates a more biologically realistic network of multi-compartment pyramidal neurons with dendritic processing and lateral inhibitory neurons. Furthermore, our approach provides a natural resolution to the weight symmetry problem between forward and backward signal propagation paths, a significant critique against the plausibility of the conventional backpropagation algorithm. This is achieved by leveraging two alternative, yet equivalent forms of the correlative mutual information objective. These alternatives intrinsically lead to forward and backward prediction networks without weight symmetry issues, providing a compelling solution to this long-standing challenge.
翻訳日:2023-06-12 10:07:43 公開日:2023-06-09