このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230718となっている論文です。

PDF登録状況(公開日: 20230718)

TitleAuthorsAbstract論文公表日・翻訳日
# 米国におけるデジタルヘルスによる薬物中絶 : 体系的スコーピング・レビュー

Medication abortion via digital health in the United States: a systematic scoping review ( http://arxiv.org/abs/2312.00216v1 )

ライセンス: Link先を確認
Fekede Asefa Kumsa, Rameshwari Prasad, Arash Shaban-Nejad(参考訳) 遠隔医療を含むデジタルヘルスは中絶ケアへのアクセスを増加させた。 予約時間の利便性、柔軟性、中絶者のプライバシー確保は、遠隔医療による中絶サービスを好んで行うことができる。 遠隔医療による中絶サービスに関する研究を体系的にマッピングし,中絶ユーザや提供者に対する有効性と受容性について検討した。 米国における遠隔医療による中絶サービスを含むすべての論文が検討された。 2022年9月、PubMed、CINAHL、Google Scholarデータベースで記事が検索された。 結果は物語的に合成され,prisma-scrガイドラインを用いて報告した。 757項目のうち33項目が包含基準に基づいて選択された。 これらの研究は2011年から2022年にかけて出版され、過去3年間に24回出版された。 この研究は、遠隔医療が米国における中絶ケアへのアクセスを増加させ、特に遠隔地の人々や、直接の訪問からストーグマを心配する人々に対するものである。 遠隔医療による中絶サービスの有効性は, 外科的介入を必要とする中絶が6%以下であった。 介護提供者と中絶希望者はともに、遠隔医療ベースの中絶サービスに対する肯定的な認識を示した。 しかし、中絶のユーザーは混合感情を報告し、中には対面訪問を好む者もいた。 遠隔医療を選ぶ最も一般的な理由は、中絶クリニックまでの距離、利便性、プライバシー、費用、予定時の柔軟性、待ち時間や制限的な政策を規定する州法であった。 テレメディシンは中絶希望者や提供者に好ましい選択肢を提供した。 低リソース環境での遠隔医療による中絶サービスへのアクセスの実現には、さらなる調査が必要である。

Digital health, including telemedicine, has increased access to abortion care. The convenience, flexibility of appointment times, and ensured privacy to abortion users may make abortion services via telemedicine preferable. This scoping review systematically mapped studies conducted on abortion services via telemedicine, including their effectiveness and acceptability for abortion users and providers. All published papers included abortion services via telemedicine in the United States were considered. Articles were searched in PubMed, CINAHL, and Google Scholar databases in September 2022. The findings were synthesized narratively, and the PRISMA-ScR guidelines were used to report this study. Out of 757 retrieved articles, 33 articles were selected based on the inclusion criteria. These studies were published between 2011 and 2022, with 24 published in the last 3 years. The study found that telemedicine increased access to abortion care in the United States, especially for people in remote areas or those worried about stigma from in-person visits. The effectiveness of abortion services via telemedicine was comparable to in-clinic visits, with 6% or fewer abortions requiring surgical intervention. Both care providers and abortion seekers expressed positive perceptions of telemedicine-based abortion services. However, abortion users reported mixed emotions, with some preferring in-person visits. The most common reasons for choosing telemedicine included the distance to the abortion clinic, convenience, privacy, cost, flexibility of appointment times, and state laws imposing waiting periods or restrictive policies. Telemedicine offered a preferable option for abortion seekers and providers. The feasibility of accessing abortion services via telemedicine in low-resource settings needs further investigation.
翻訳日:2024-01-15 15:10:40 公開日:2023-07-18
# 生成モックによる生産行動の模倣

Mimicking Production Behavior with Generated Mocks ( http://arxiv.org/abs/2208.01321v2 )

ライセンス: Link先を確認
Deepika Tiwari, Martin Monperrus, Benoit Baudry(参考訳) 自動ソフトウェアテストのコンテキストでモックすることで、プログラムユニットを独立した形でテストすることができる。 ユニットとその環境間の現実的なインタラクションの設計と、これらの相互作用がユニットの振る舞いに期待される影響を理解することは、モックでテストを開発する際にソフトウェアテスターが直面する2つの重要な課題である。 本稿では,実運用中のアプリケーションを監視し,モックによる現実的な実行シナリオを模倣したテストを生成することを提案する。 私たちのアプローチは3段階で動作します。 まず、テストを生成したいターゲットメソッドのセットと、それらが呼び出しているメソッドをモック可能なメソッド呼び出しと呼びます。 第2に、本番環境では、ターゲットメソッドが呼び出されるコンテキストに関するデータと、モック可能なメソッド呼び出し毎にパラメータと返される値を収集します。 第3に,オフラインで運用データを分析して,現実的な入力とモックインタラクションを備えたテストケースを生成します。 このアプローチは自動化され、RICKと呼ばれるオープンソースのツールで実装されている。 3つの実世界のオープンソースJavaアプリケーションでアプローチを評価します。 RICKは3つのアプリケーションにまたがる128のメソッドの実行を監視し、その振る舞いをキャプチャする。 このキャプチャデータに基づいて、RICKは現実的な初期状態とテスト入力、モック、スタブを含むテストケースを生成する。 RICKによって生成される3種類のモックベースのオラクルは、メソッドと環境の間の実際の相互作用を検証する。 生成されたテストケースはすべて実行可能で、52.4%は実運用で観察されたメソッドの実行コンテキストを完全に模倣することに成功した。 モックベースのオラクルは、ターゲットメソッド内の回帰を検出するのに有効であり、フォールトフィニング能力において互いに補完する。 モックやスタブの設計にプロダクションオブザーバティブを使用することの妥当性を確認する,業界の5人の開発者にインタビューした。

Mocking in the context of automated software tests allows testing program units in isolation. Designing realistic interactions between a unit and its environment, and understanding the expected impact of these interactions on the behavior of the unit, are two key challenges that software testers face when developing tests with mocks. In this paper, we propose to monitor an application in production to generate tests that mimic realistic execution scenarios through mocks. Our approach operates in three phases. First, we instrument a set of target methods for which we want to generate tests, as well as the methods that they invoke, which we refer to as mockable method calls. Second, in production, we collect data about the context in which target methods are invoked, as well as the parameters and the returned value for each mockable method call. Third, offline, we analyze the production data to generate test cases with realistic inputs and mock interactions. The approach is automated and implemented in an open-source tool called RICK. We evaluate our approach with 3 real-world, open-source Java applications. RICK monitors the invocation of 128 methods in production across the 3 applications and captures their behavior. Based on this captured data, RICK generates test cases that include realistic initial states and test inputs, mocks, and stubs. The three kinds of mock-based oracles generated by RICK verify the actual interactions between the method and its environment. All the generated test cases are executable, and 52.4% of them successfully mimic the complete execution context of the methods observed in production. The mock-based oracles are effective at detecting regressions within the target methods, complementing each other in their fault-finding ability. We interview 5 developers from the industry who confirm the relevance of using production observations to design mocks and stubs.
翻訳日:2023-10-24 15:19:18 公開日:2023-07-18
# プロンプティングは必要なもの:大型言語モデルでAndroidのバグを自動再生する

Prompting Is All You Need: Automated Android Bug Replay with Large Language Models ( http://arxiv.org/abs/2306.01987v2 )

ライセンス: Link先を確認
Sidong Feng, Chunyang Chen(参考訳) バグレポートはソフトウェアのメンテナンスに不可欠であり、ユーザーはソフトウェアの使用中に遭遇した問題を開発者に知らせることができる。 このように、研究者はソフトウェアメンテナンスのプロセスを迅速化するためにバグリプレイの自動化にかなりのリソースを割いている。 しかしながら、現在の自動化アプローチの成功は、手作業によるパターンや事前に定義された語彙リストの制限によって制約されるため、バグレポートの特性と品質によって大きく左右される。 自然言語理解における大規模言語モデル(llms)の成功に触発されて,我々は,プロンプトエンジニアリングを通じてバグレポートからバグを自動的に再現する新しい軽量アプローチであるadbgptを提案する。 AdbGPTは、人間の知識と論理的推論をLLMから引き合いに出して、開発者と同じような方法でバグリプレイを達成している。 評価の結果,AdbGPTが253.6秒で81.3%のバグ報告を再現し,最先端のベースラインとアブレーション研究を上回った。 また,AdbGPTのバグリプレイ機能向上における有用性を確認するため,小規模なユーザスタディも実施している。

Bug reports are vital for software maintenance that allow users to inform developers of the problems encountered while using the software. As such, researchers have committed considerable resources toward automating bug replay to expedite the process of software maintenance. Nonetheless, the success of current automated approaches is largely dictated by the characteristics and quality of bug reports, as they are constrained by the limitations of manually-crafted patterns and pre-defined vocabulary lists. Inspired by the success of Large Language Models (LLMs) in natural language understanding, we propose AdbGPT, a new lightweight approach to automatically reproduce the bugs from bug reports through prompt engineering, without any training and hard-coding effort. AdbGPT leverages few-shot learning and chain-of-thought reasoning to elicit human knowledge and logical reasoning from LLMs to accomplish the bug replay in a manner similar to a developer. Our evaluations demonstrate the effectiveness and efficiency of our AdbGPT to reproduce 81.3% of bug reports in 253.6 seconds, outperforming the state-of-the-art baselines and ablation studies. We also conduct a small-scale user study to confirm the usefulness of AdbGPT in enhancing developers' bug replay capabilities.
翻訳日:2023-10-24 04:34:07 公開日:2023-07-18
# DLTに必要な意思決定とプロトタイピング:フレームワークとWebベースのツール

Need-driven decision-making and prototyping for DLT: Framework and web-based tool ( http://arxiv.org/abs/2307.09188v1 )

ライセンス: Link先を確認
Tomas Bueno Mom\v{c}ilovi\'c, Matthias Buchinger, Dian Balta(参考訳) 14年間にわたり、分散台帳技術は注目され、投資、熱意、ユーザーベースが高まっている。 しかし、その有用性と最近の著名な暗号通貨に対する信頼の喪失に対する疑念は、深い懐疑的評価を助長している。 複数のグループが、急激なプロトタイピングと情報提供による意思決定のためのワークフローを構築することで、この技術とそれに関連する誇大広告や論争から切り離そうとした。 これらのコントリビューションのギャップを埋めるため,エビデンスに基づく意思決定を行うための総合分析フレームワークとオープンソースWebツールを開発した。 評価、明確化、設計の3つのステージで構成されるフレームワークは、ユーザのドメイン知識からの入力に依存し、選択をマップし、必要な技術バンドルのアウトプットを提供する。 本稿では,プロトタイピングのためのコントリビューションチャートの方向性を明らかにするために,臨床応用事例に適用する。

In its 14 years, distributed ledger technology has attracted increasing attention, investments, enthusiasm, and user base. However, ongoing doubts about its usefulness and recent losses of trust in prominent cryptocurrencies have fueled deeply skeptical assessments. Multiple groups attempted to disentangle the technology from the associated hype and controversy by building workflows for rapid prototyping and informed decision-making, but their mostly isolated work leaves users only with fewer unclarities. To bridge the gaps between these contributions, we develop a holistic analytical framework and open-source web tool for making evidence-based decisions. Consisting of three stages - evaluation, elicitation, and design - the framework relies on input from the users' domain knowledge, maps their choices, and provides an output of needed technology bundles. We apply it to an example clinical use case to clarify the directions of our contribution charts for prototyping, hopefully driving the conversation towards ways to enhance further tools and approaches.
翻訳日:2023-10-23 17:14:25 公開日:2023-07-18
# Python用の生成型推論

Generative Type Inference for Python ( http://arxiv.org/abs/2307.09163v1 )

ライセンス: Link先を確認
Yun Peng, Chaozheng Wang, Wenxuan Wang, Cuiyun Gao, Michael R. Lyu(参考訳) Pythonは人気のある動的プログラミング言語で、GitHubで2番目に一般的に使われている言語としてランク付けされている。 しかし、その動的型システムは潜在的な型エラーを引き起こす可能性があるため、研究者はPythonプログラムの自動型推論アプローチを探索する。 ルールベースの型推論アプローチは、予測された変数型の精度を保証するが、カバレッジの低い問題に悩まされる。 教師付き型推論アプローチは、機能に依存しないが、大きな高品質のアノテートデータセットを必要とし、事前に定義された型に限定されている。 ゼロショットのアプローチでは、クローゼスタイルのアプローチは型推論問題を補間問題に再構成する。 しかし、パフォーマンスは限られている。 本稿では静的解析から静的ドメイン知識を取り入れた数ショット生成型推論手法であるTypeGenを紹介する。 typegenは、静的解析の型推論ステップを型依存グラフ(tdgs)に基づいてプロンプトに変換することによって、chain-of-thought(cot)プロンプトを生成する。 COTプロンプトとコードスライスと型ヒントを組み合わせることで、TypeGenは人間のアノテーションからサンプルプロンプトを生成する。 typegenは、言語モデルにコンテキスト内学習を通じて同様のcotプロンプトを生成するための注釈付き例をほんのわずかしか必要としない。 さらに、TypeGenは入出力戦略を用いて結果の解釈可能性を高める。 実験の結果、TypeGenは引数型の予測では10.0%、Top-1 Exact Matchでは22.5%のベースラインであるType4Pyをわずか5つの例で上回っている。 さらに、TypeGenは1.3Bから175Bまでのパラメータサイズを持つ大きな言語モデルのゼロショット性能と比較して、27%から84%の大幅な改善を実現している。

Python is a popular dynamic programming language, evidenced by its ranking as the second most commonly used language on GitHub. However, its dynamic type system can lead to potential type errors, leading researchers to explore automatic type inference approaches for Python programs. The rule-based type inference approaches can ensure the accuracy of predicted variable types, but they suffer from low coverage problems. Supervised type inference approaches, while feature-agnostic, require large, high-quality annotated datasets and are limited to pre-defined types. As zero-shot approaches, the cloze-style approaches reformulate the type inference problem into a fill-in-the-blank problem. However, their performance is limited. This paper introduces TypeGen, a few-shot generative type inference approach that incorporates static domain knowledge from static analysis. TypeGen creates chain-of-thought (COT) prompts by translating the type inference steps of static analysis into prompts based on the type dependency graphs (TDGs), enabling language models to learn from how static analysis infers types. By combining COT prompts with code slices and type hints, TypeGen constructs example prompts from human annotations. TypeGen only requires very few annotated examples to teach language models to generate similar COT prompts via in-context learning. Moreover, TypeGen enhances the interpretability of results through the use of the input-explanation-output strategy. Experiments show that TypeGen outperforms the best baseline Type4Py by 10.0% for argument type prediction and 22.5% in return value type prediction in terms of top-1 Exact Match by using only five examples. Furthermore, TypeGen achieves substantial improvements of 27% to 84% compared to the zero-shot performance of large language models with parameter sizes ranging from 1.3B to 175B in terms of top-1 Exact Match.
翻訳日:2023-10-23 17:14:07 公開日:2023-07-18
# 最小制約の一貫性改善変換を用いたルールベースグラフ修復

Rule-based Graph Repair using Minimally Restricted Consistency-Improving Transformations ( http://arxiv.org/abs/2307.09150v1 )

ライセンス: Link先を確認
Alexander Lauer(参考訳) モデル駆動のソフトウェアエンジニアリングは、ソフトウェア開発プロセスの複雑さの増大を扱うのに適した方法である。 グラフとグラフ変換は、そのようなモデルや変更を表現するのに有用であることが証明されている。 これらのモデルは一定の制約を満たす必要がある。 一例として、クラス構造の多重性がある。 開発プロセスの間、モデルの変更は、ある時点で修理しなければならない一貫性のないモデルをもたらす可能性がある。 この問題はモデル修復と呼ばれる。 特に、ルールベースのグラフの修正について、次のように定義する。 グラフ$g$、$g$が$c$を満たさないような制約$c$、ルール$r$は$\mathcal{r}$のルールを使用して$c$を満たすグラフに変換する。 一貫性の概念は、一貫性を二元性と見なすか、グラフが一貫したw.r.t.制約$c$かどうか、あるいは制約の最初のグラフの違反の数だけを見るかのいずれかである。 本論文では,一貫性の新たな概念を紹介し,一貫性維持と一貫性向上の2つの変換とルールについて述べる。 これは、一定のネストレベルまで制約を満たすことができる可能性に基づいている。 本稿では, 直接整合性維持, 直接整合性向上のための構成について述べる。 最後に,いわゆる "emph{circular conflict-free constraints" や,いわゆる "circar conflict-free constraints" を修復可能なルールベースのグラフ修復手法を提案する。 直観的には、$C$ の制約の集合は円周衝突自由であり、$C$ のすべての制約の順序が $c_1, \ldots, c_n$ であるなら、$c_j$ を満たす全てのグラフにおいて$c_i$ の修復が $c_j$ を満たすような$C$ のすべての制約が存在しない。

Model-driven software engineering is a suitable method for dealing with the ever-increasing complexity of software development processes. Graphs and graph transformations have proven useful for representing such models and changes to them. These models must satisfy certain sets of constraints. An example are the multiplicities of a class structure. During the development process, a change to a model may result in an inconsistent model that must at some point be repaired. This problem is called model repair. In particular, we will consider rule-based graph repair which is defined as follows: Given a graph $G$, a constraint $c$ such that $G$ does not satisfy $c$, and a set of rules $R$, use the rules of $\mathcal{R}$ to transform $G$ into a graph that satisfies $c$. Known notions of consistency have either viewed consistency as a binary property, either a graph is consistent w.r.t. a constraint $c$ or not, or only viewed the number of violations of the first graph of a constraint. In this thesis, we introduce new notions of consistency, which we call consistency-maintaining and consistency-increasing transformations and rules, respectively. This is based on the possibility that a constraint can be satisfied up to a certain nesting level. We present constructions for direct consistency-maintaining or direct consistency-increasing application conditions, respectively. Finally, we present an rule-based graph repair approach that is able to repair so-called \emph{circular conflict-free constraints}, and so-called circular conflict-free sets of constraints. Intuitively, a set of constraint $C$ is circular conflict free, if there is an ordering $c_1, \ldots, c_n$ of all constraints of $C$ such that there is no $j <i$ such that a repair of $c_i$ at all graphs satisfying $c_j$ leads to a graph not satisfying $c_j$.
翻訳日:2023-10-23 17:13:36 公開日:2023-07-18
# cr\`eme de la crem:構成可能な表現可能な実行可能な機械(建築真珠)

Cr\`eme de la Crem: Composable Representable Executable Machines (Architectural Pearl) ( http://arxiv.org/abs/2307.09090v1 )

ライセンス: Link先を確認
Marco Perone and Georgios Karachalias(参考訳) 本稿では、ドメイン駆動設計の分野からのアイデアと原則を用いて、ステートマシンの構成としてソフトウェアアーキテクチャを構築する方法について述べる。 定義上,本手法はモジュール構造であり,独立したサブコンポーネントを構成することでより大きなシステムを構築することができ,システムの実装をグラフィカルな表現と同期させることができる。 コンポジションと表現可能な具体的なステートマシン実装を提供するcremライブラリも導入しています。cremはhaskellの高度な型レベル機能を使用して、ユーザが許容される状態遷移と禁止状態遷移を指定できるようにし、複雑なステートマシン -- とドメイン固有の -- プロパティをエンコードできるようにしています。 さらに、cremのステートマシンは表現可能であるため、cremはドメインの実装から自動的にシステムのグラフィカルな表現を生成することができる。

In this paper we describe how to build software architectures as a composition of state machines, using ideas and principles from the field of Domain-Driven Design. By definition, our approach is modular, allowing one to compose independent subcomponents to create bigger systems, and representable, allowing the implementation of a system to be kept in sync with its graphical representation. In addition to the design itself we introduce the Crem library, which provides a concrete state machine implementation that is both compositional and representable, Crem uses Haskell's advanced type-level features to allow users to specify allowed and forbidden state transitions, and to encode complex state machine -- and therefore domain-specific -- properties. Moreover, since Crem's state machines are representable, Crem can automatically generate graphical representations of systems from their domain implementations.
翻訳日:2023-10-23 17:13:01 公開日:2023-07-18
# プログラム理解における雑音ラベル学習の有効性に関する実証的研究

An Empirical Study on the Effectiveness of Noisy Label Learning for Program Understanding ( http://arxiv.org/abs/2307.08990v1 )

ライセンス: Link先を確認
Wenhan Wang, Yanzhou Li, Anran Li, Jian Zhang, Wei Ma, Yang Liu(参考訳) 近年、深層学習モデルがプログラム理解タスクに広く適用されており、これらのモデルは多くのベンチマークデータセットで最先端の結果を達成している。 プログラム理解のためのディープラーニングの大きな課題は、これらのアプローチの有効性がデータセットの品質に依存することである。 データセットを理解するプログラムの典型的なノイズはラベルノイズである。 ラベルノイズはディープラーニングモデルのパフォーマンスに悪影響を及ぼす可能性があるため、研究者はノイズラベルの影響を軽減するための様々なアプローチを提案し、新しい研究トピックであるノイズラベル学習(nll)を作成した。 本稿では,プログラム理解データセットの深層学習における雑音ラベル学習の有効性に関する実証的研究を行う。 プログラム分類とコード要約という2つのタスクにおいて,様々なノイズラベル学習手法と深層学習モデルを評価する。 評価結果から,ラベルノイズやNLLアプローチが小さなディープラーニングモデルや大規模事前学習モデルに与える影響は,プログラム分類におけるラベルノイズの傾向や,NLLアプローチが頑健性を改善する一方で,大規模事前学習モデルはラベルノイズに対して頑健であり,NLLが性能を著しく改善しないなど,異なることがわかった。 一方、NLLアプローチは、両方のタスクに対してノイズ付きラベル付きサンプルを識別する際の満足な結果を示しており、これらの手法は、高品質なプログラム理解データセットを構築するのに有用であることを示している。

Recently, deep learning models have been widely applied in program understanding tasks, and these models achieve state-of-the-art results on many benchmark datasets. A major challenge of deep learning for program understanding is that the effectiveness of these approaches depends on the quality of their datasets, and these datasets often contain noisy data samples. A typical kind of noise in program understanding datasets is label noises, which means that the target outputs for some inputs are mislabeled. Label noises may have a negative impact on the performance of deep learning models, so researchers have proposed various approaches to alleviate the impact of noisy labels, and formed a new research topic: noisy label learning (NLL). In this paper, we conduct an empirical study on the effectiveness of noisy label learning on deep learning for program understanding datasets. We evaluate various noisy label learning approaches and deep learning models on two tasks: program classification and code summarization. From the evaluation results, we find that the impact of label noise and NLL approaches on small deep learning models and large pre-trained models are different: small models are prone to label noises in program classification and NLL approaches can improve their robustness, while large pre-trained models are robust against label noises and NLL does not significantly improve their performances. On the other hand, NLL approaches have shown satisfying results in identifying noisy labeled samples for both tasks, indicating that these techniques can benefit researchers in building high-quality program understanding datasets.
翻訳日:2023-10-23 17:12:45 公開日:2023-07-18
# 深層学習障害の局所化のための効果的なデータ駆動アプローチ

An Effective Data-Driven Approach for Localizing Deep Learning Faults ( http://arxiv.org/abs/2307.08947v1 )

ライセンス: Link先を確認
Mohammad Wardat, Breno Dantas Cruz, Wei Le, Hridesh Rajan(参考訳) ディープラーニング(DL)アプリケーションは、重要な領域(例えば、自律運転や医療診断システム)の問題を解決するために使用されている。 したがって開発者は、期待される振る舞いが配信されることを保証するために、システムをデバッグする必要がある。 しかし、DNNのデバッグは困難で費用がかかる。 訓練後、障害症状や不満足なアキュラシーが報告されると、dnnプログラムのどの部分が障害の原因であるかのトレーサビリティが失われる。 さらに悪いことに、ディープラーニングプログラムにはさまざまな種類のバグがあります。 DNNモデルのデバッギングの課題に対処するために,モデル機能を活用して問題パターンを学習する,新しいデータ駆動型アプローチを提案する。 提案手法は,DNNトレーニング中の障害の意味情報を表す特徴を抽出する。 本手法は,これらの特徴をトレーニングデータセットとして,dnn障害パターンの学習と推論を行う。 また,手作業で作成したマッピングを必要とせずに,バグの症状を根本原因に自動的にリンクすることで,障害を修正するために必要なステップを開発者に提供する。 実世界と変異モデルを用いたアプローチの評価を行った。 本手法は,様々なバグタイプを効果的に検出・診断できることを示す。 最後に, 変異モデルに対する前処理よりも精度, 精度, 再現性が向上した。 また,本手法は,最先端モデルと比較して精度と性能の点で実世界のモデルに匹敵する結果を得た。

Deep Learning (DL) applications are being used to solve problems in critical domains (e.g., autonomous driving or medical diagnosis systems). Thus, developers need to debug their systems to ensure that the expected behavior is delivered. However, it is hard and expensive to debug DNNs. When the failure symptoms or unsatisfied accuracies are reported after training, we lose the traceability as to which part of the DNN program is responsible for the failure. Even worse, sometimes, a deep learning program has different types of bugs. To address the challenges of debugging DNN models, we propose a novel data-driven approach that leverages model features to learn problem patterns. Our approach extracts these features, which represent semantic information of faults during DNN training. Our technique uses these features as a training dataset to learn and infer DNN fault patterns. Also, our methodology automatically links bug symptoms to their root causes, without the need for manually crafted mappings, so that developers can take the necessary steps to fix faults. We evaluate our approach using real-world and mutated models. Our results demonstrate that our technique can effectively detect and diagnose different bug types. Finally, our technique achieved better accuracy, precision, and recall than prior work for mutated models. Also, our approach achieved comparable results for real-world models in terms of accuracy and performance to the state-of-the-art.
翻訳日:2023-10-23 17:12:19 公開日:2023-07-18
# Kullback Leibler divergence を用いた標準量子行動からの偏差の分類

Classifying deviation from standard quantum behavior using Kullback Leibler divergence ( http://arxiv.org/abs/2308.02496v1 )

ライセンス: Link先を確認
Salman Sajad Wani, Saif Al-Kuwari, Xiaoping Shi, Yiting Chen, Abrar Ahmed Naqash, Seemin Rubab, Mir Faizal, S. Kannan(参考訳) そこで本論文では,どの系が通常の量子挙動から小さな偏差を探究するのに適しているかを測定する新しい統計手法を提案する。 このような偏差は、多くの理論および現象学的な動機によって動機づけられ、それらをテストするために様々なシステムが提案されている。 そこで本研究では,Kulback Leiblerの分散度が高い場合,系の量子力学からの偏差を測定することがより容易であることを示す。 我々はこれを非局所シュロディンガー方程式に対して明示的に示し、標準量子挙動へのいかなる修正も保持すると主張する。 したがって、この手紙の結果は、幅広い理論モデルと表現論的モデルの分類に使うことができる。

In this letter, we propose a novel statistical method to measure which system is better suited to probe small deviations from the usual quantum behavior. Such deviations are motivated by a number of theoretical and phenomenological motivations, and various systems have been proposed to test them. We propose that measuring deviations from quantum mechanics for a system would be easier if it has a higher Kullback Leibler divergence. We show this explicitly for a nonlocal Schrodinger equation and argue that it will hold for any modification to standard quantum behaviour. Thus, the results of this letter can be used to classify a wide range of theoretical and phenomenological models.
翻訳日:2023-08-14 01:28:43 公開日:2023-07-18
# 自我中心設定におけるDe ReとDe Dictoの知識

De Re and De Dicto Knowledge in Egocentric Setting ( http://arxiv.org/abs/2308.00001v1 )

ライセンス: Link先を確認
Pavel Naumov and Anna Ovchinnikova(参考訳) プリエントは、可能な世界の性質ではなく、エージェントの特性を研究する論理システムに対して、"egocentric"という用語を提案している。 そこで本稿では,de re と de の2次知識を捉える2つの異なるモダリティを導入し,これら2つのモダリティが相互に定義できないことを証明した。

Prior proposes the term "egocentric" for logical systems that study properties of agents rather than properties of possible worlds. In such a setting, the paper introduces two different modalities capturing de re and de dicto knowledge and proves that these two modalities are not definable through each other.
翻訳日:2023-08-06 11:11:18 公開日:2023-07-18
# 医用画像における教師なし領域適応のための深層学習 : 最近の進歩と今後の展望

Deep learning for unsupervised domain adaptation in medical imaging: Recent advancements and future perspectives ( http://arxiv.org/abs/2308.01265v1 )

ライセンス: Link先を確認
Suruchi Kumari, Pravendra Singh(参考訳) 深層学習は医療画像の様々なタスクにおいて顕著な性能を示した。 しかし、これらのアプローチは、トレーニングとテストデータが同じ分布から引き出されると仮定して、主に教師付き学習に焦点を当てている。 残念ながら、この仮定は実際には必ずしも当てはまるとは限らない。 これらの問題に対処するために、ラベル付きドメインから関連するがラベル付けされていないドメインに知識を伝達するために、教師なしドメイン適応(UDA)技術が開発されている。 近年,UDA において顕著な進歩が見られ,特徴アライメント,画像翻訳,自己超越,非絡み合い表現など,幅広い手法が提案されている。 本稿では,医用画像における最近の深いUDAアプローチについて,技術的な観点から概説する。 具体的には、医用画像における現在のUDA研究を6つのグループに分類し、それらが実行するさまざまなタスクに基づいてさらに細かなサブカテゴリに分類する。 また、各領域間の差異を評価するために、研究で使用されるデータセットについても論じる。 最後に,新興分野について議論し,今後の研究方向性に関する洞察と議論を行い,この調査をまとめる。

Deep learning has demonstrated remarkable performance across various tasks in medical imaging. However, these approaches primarily focus on supervised learning, assuming that the training and testing data are drawn from the same distribution. Unfortunately, this assumption may not always hold true in practice. To address these issues, unsupervised domain adaptation (UDA) techniques have been developed to transfer knowledge from a labeled domain to a related but unlabeled domain. In recent years, significant advancements have been made in UDA, resulting in a wide range of methodologies, including feature alignment, image translation, self-supervision, and disentangled representation methods, among others. In this paper, we provide a comprehensive literature review of recent deep UDA approaches in medical imaging from a technical perspective. Specifically, we categorize current UDA research in medical imaging into six groups and further divide them into finer subcategories based on the different tasks they perform. We also discuss the respective datasets used in the studies to assess the divergence between the different domains. Finally, we discuss emerging areas and provide insights and discussions on future research directions to conclude this survey.
翻訳日:2023-08-06 10:53:47 公開日:2023-07-18
# CSSL-RHA:ロバスト手書き認証のための対照的な自己監督型学習

CSSL-RHA: Contrastive Self-Supervised Learning for Robust Handwriting Authentication ( http://arxiv.org/abs/2307.11100v1 )

ライセンス: Link先を確認
Jingyao Wang, Luntian Mou, Changwen Zheng, Wen Gao(参考訳) 手書き認証は、不正防止や文化遺産保護など、様々な分野で使われる貴重なツールである。 しかし、複雑な特徴、深刻な損傷、監督の欠如により、依然として困難な課題である。 本稿では,ロバストな手書き認証(cssl-rha)のためのコントラスト型自己教師付き学習フレームワークを提案する。 複雑で重要な特徴を動的に学習し、著者のアイデンティティを正確に予測することができる。 具体的には,不完全性や冗長性の悪影響を取り除くために,事前処理のための情報理論的フィルタを設計し,より重要な特徴に支配される局所領域のパッチとして画像を表現する新しい適応マッチングスキームを提案する。 推測時のオンライン最適化により、最も有益なパッチ埋め込みは「最も重要な」要素として識別される。 さらに、運動量に基づくパラダイムを用いて、手書きデータのより一般的な統計構造を教師なしで学習する。 5つのベンチマークデータセットと手動で注釈付けしたデータセットEN-HAについて広範な実験を行い、ベースラインと比較してCSSL-RHAの優位性を示す。 また,提案モデルでは,データ改ざんや腐敗といった異常な状況下においても,認証を効果的に実現できることを示す。

Handwriting authentication is a valuable tool used in various fields, such as fraud prevention and cultural heritage protection. However, it remains a challenging task due to the complex features, severe damage, and lack of supervision. In this paper, we propose a novel Contrastive Self-Supervised Learning framework for Robust Handwriting Authentication (CSSL-RHA) to address these issues. It can dynamically learn complex yet important features and accurately predict writer identities. Specifically, to remove the negative effects of imperfections and redundancy, we design an information-theoretic filter for pre-processing and propose a novel adaptive matching scheme to represent images as patches of local regions dominated by more important features. Through online optimization at inference time, the most informative patch embeddings are identified as the "most important" elements. Furthermore, we employ contrastive self-supervised training with a momentum-based paradigm to learn more general statistical structures of handwritten data without supervision. We conduct extensive experiments on five benchmark datasets and our manually annotated dataset EN-HA, which demonstrate the superiority of our CSSL-RHA compared to baselines. Additionally, we show that our proposed model can still effectively achieve authentication even under abnormal circumstances, such as data falsification and corruption.
翻訳日:2023-07-30 04:26:14 公開日:2023-07-18
# 学習サーロゲートと制約を用いた多物理系逆問題の解法

Solving multiphysics-based inverse problems with learned surrogates and constraints ( http://arxiv.org/abs/2307.11099v1 )

ライセンス: Link先を確認
Ziyi Yin and Rafael Orozco and Mathias Louboutin and Felix J. Herrmann(参考訳) マルチモーダル・タイムラプスデータが収集コストが高く,数値シミュレーションに費用がかかる場合, 地質学的な炭素貯蔵モニタリングのための多物理ベースの逆問題の解決は困難である。 我々は,計算量的に安価に学習できるサロゲートと学習制約を組み合わせることで,これらの課題を克服した。 この組み合わせによって、重要な流体流動特性、透水性の反転が大幅に改善されるだけでなく、十分な測定値やアクティブ・ソース・タイムラプス地震データを含むマルチモーダルデータを反転するための自然なプラットフォームも提供される。 学習した制約を加えることで、計算可能で正確な逆転のアプローチにたどり着く。 これは、正規化フローとして知られる訓練された深層ニューラルネットワークを含むことで達成される。これはモデルを反復させ、偏微分方程式の解を含む計算コストの高い多相流シミュレーションのサロゲートとして機能する訓練されたフーリエニューラルネットワークの精度を保護する。 地質炭素貯蔵問題を中心に, 慎重に選択した実験により, 時間経過井戸と時間経過地震データという2つの異なるデータモダリティに対する制約付き最適化手法の有効性を実証した。 これら2つのモードからの透過性反転にはプラスとミヌースがあるが、両者の合同反転はどちらからも利点があり、監視井戸から近距離、遠距離で優れた透過性反転とco2プルーム予測をもたらす。

Solving multiphysics-based inverse problems for geological carbon storage monitoring can be challenging when multimodal time-lapse data are expensive to collect and costly to simulate numerically. We overcome these challenges by combining computationally cheap learned surrogates with learned constraints. Not only does this combination lead to vastly improved inversions for the important fluid-flow property, permeability, it also provides a natural platform for inverting multimodal data including well measurements and active-source time-lapse seismic data. By adding a learned constraint, we arrive at a computationally feasible inversion approach that remains accurate. This is accomplished by including a trained deep neural network, known as a normalizing flow, which forces the model iterates to remain in-distribution, thereby safeguarding the accuracy of trained Fourier neural operators that act as surrogates for the computationally expensive multiphase flow simulations involving partial differential equation solves. By means of carefully selected experiments, centered around the problem of geological carbon storage, we demonstrate the efficacy of the proposed constrained optimization method on two different data modalities, namely time-lapse well and time-lapse seismic data. While permeability inversions from both these two modalities have their pluses and minuses, their joint inversion benefits from either, yielding valuable superior permeability inversions and CO2 plume predictions near, and far away, from the monitoring wells.
翻訳日:2023-07-30 04:25:52 公開日:2023-07-18
# 近似グラフ彩色における分散量子優位性

No distributed quantum advantage for approximate graph coloring ( http://arxiv.org/abs/2307.09444v1 )

ライセンス: Link先を確認
Xavier Coiteux-Roy, Francesco d'Amore, Rishikesh Gajjala, Fabian Kuhn, Fran\c{c}ois Le Gall, Henrik Lievonen, Augusto Modanese, Marc-Olivier Renou, Gustav Schmid, Jukka Suomela(参考訳) 分散コンピューティングの幅広いモデルに対して、分散アルゴリズムを用いた$c$-coloring $\chi$-chromatic graphの難しさについて、ほぼ完全な特徴付けを行う。 特に、これらの問題は分散量子の優位性を認めないことを示す。 1) $\tilde{\mathcal{O}}(n^{\frac{1}{\alpha}})$ rounds, with $\alpha = \bigl\lceil\frac{c-1}{\chi - 1}\bigr\rceil$で、$\chi$-chromatic graphsの$c$-coloringを見つける新しい分散アルゴリズムを与える。 2) この問題の分散アルゴリズムには$\Omega(n^{\frac{1}{\alpha}})$ roundsが必要であることを証明している。 我々の上界は古典的決定論的LOCALモデルであり、一方、近似した下界は \emph{non-signaling} モデルである。 2014年にArfaouiとFraigniaudによって導入されたこのモデルは、物理的因果性に従う分散グラフアルゴリズムのすべてのモデルをキャプチャする。 また、同様の議論は、例えば、3色2次元グリッドや$c$-coloringツリーが、非符号モデルにおいても難しい問題であり、特に量子的な利点を認めないことを示すためにも利用できる。 我々の下界の議論は純粋にグラフ理論であり、証明を確立するには量子情報理論の背景は必要ない。

We give an almost complete characterization of the hardness of $c$-coloring $\chi$-chromatic graphs with distributed algorithms, for a wide range of models of distributed computing. In particular, we show that these problems do not admit any distributed quantum advantage. To do that: 1. We give a new distributed algorithm that finds a $c$-coloring in $\chi$-chromatic graphs in $\tilde{\mathcal{O}}(n^{\frac{1}{\alpha}})$ rounds, with $\alpha = \bigl\lceil\frac{c-1}{\chi - 1}\bigr\rceil$. 2. We prove that any distributed algorithm for this problem requires $\Omega(n^{\frac{1}{\alpha}})$ rounds. Our upper bound holds in the classical, deterministic LOCAL model, while the near-matching lower bound holds in the \emph{non-signaling} model. This model, introduced by Arfaoui and Fraigniaud in 2014, captures all models of distributed graph algorithms that obey physical causality; this includes not only classical deterministic LOCAL and randomized LOCAL but also quantum-LOCAL, even with a pre-shared quantum state. We also show that similar arguments can be used to prove that, e.g., 3-coloring 2-dimensional grids or $c$-coloring trees remain hard problems even for the non-signaling model, and in particular do not admit any quantum advantage. Our lower-bound arguments are purely graph-theoretic at heart; no background on quantum information theory is needed to establish the proofs.
翻訳日:2023-07-30 04:24:44 公開日:2023-07-18
# autoalign: 大規模言語モデルによる完全自動的かつ効果的な知識グラフアライメント

AutoAlign: Fully Automatic and Effective Knowledge Graph Alignment enabled by Large Language Models ( http://arxiv.org/abs/2307.11772v1 )

ライセンス: Link先を確認
Rui Zhang, Yixin Su, Bayu Distiawan Trisedya, Xiaoyan Zhao, Min Yang, Hong Cheng, Jianzhong Qi(参考訳) 知識グラフ(KG)間のエンティティアライメントのタスクは、同じエンティティを表す2つの異なるKGからすべてのエンティティを識別することを目的としている。 多くの機械学習に基づく手法が提案されている。 しかし、私たちの知る限りでは、既存の手法はすべて手作りのシードアライメントを必要とします。 本稿では,手作業によるシードアライメントを必要としないAutoAlignという,最初の完全自動アライメント手法を提案する。 具体的には、述語埋め込みのために、AutoAlignは2つのKGにわたる述語間の類似性を自動キャプチャするために、大きな言語モデルの助けを借りて述語-近性グラフを構築する。 エンティティ埋め込みでは、autoalignはまずtranseを使って各 kg のエンティティ埋め込みを独立に計算し、2つの kg のエンティティ埋め込みをその属性に基づいてエンティティ間の類似性を計算することによって同じベクトル空間にシフトする。 これにより、手動でシードアライメントを作成することなく、述語アライメントとエンティティアライメントの両方を行うことができる。 AutoAlignは完全に自動化されているだけでなく、非常に効果的だ。 実世界のkgsを用いた実験により、オートアランシングは最先端の手法に比べてエンティティアライメントの性能が大幅に向上することが示された。

The task of entity alignment between knowledge graphs (KGs) aims to identify every pair of entities from two different KGs that represent the same entity. Many machine learning-based methods have been proposed for this task. However, to our best knowledge, existing methods all require manually crafted seed alignments, which are expensive to obtain. In this paper, we propose the first fully automatic alignment method named AutoAlign, which does not require any manually crafted seed alignments. Specifically, for predicate embeddings, AutoAlign constructs a predicate-proximity-graph with the help of large language models to automatically capture the similarity between predicates across two KGs. For entity embeddings, AutoAlign first computes the entity embeddings of each KG independently using TransE, and then shifts the two KGs' entity embeddings into the same vector space by computing the similarity between entities based on their attributes. Thus, both predicate alignment and entity alignment can be done without manually crafted seed alignments. AutoAlign is not only fully automatic, but also highly effective. Experiments using real-world KGs show that AutoAlign improves the performance of entity alignment significantly compared to state-of-the-art methods.
翻訳日:2023-07-30 04:18:10 公開日:2023-07-18
# 満足度調査における感情分析への統合nplアプローチ

an integrated npl approach to sentiment analysis in satisfaction surveys ( http://arxiv.org/abs/2307.11771v1 )

ライセンス: Link先を確認
Edson B. Pinto-Luque(参考訳) 本研究プロジェクトは,自然言語処理NLPへの統合的アプローチを満足度調査に適用することを目的としている。 調査回答から関連する情報の理解と抽出、感情の分析、繰り返し発生する単語パターンの特定に重点を置く。 nlp技術は感情的極性を決定し、反応をポジティブ、ネガティブ、中立のカテゴリに分類し、意見マイニングを使って参加者の意見をハイライトする。 このアプローチは参加者にとって最も関係のある側面を特定し、それらの特定の側面に関して意見を理解するのに役立つだろう。 研究プロジェクトの主要な構成要素は,NPLを用いた満足度調査応答における単語パターンの分析である。 この分析は、回答者の反応に現れる感情、意見、テーマ、トレンドをより深く理解する。 このアプローチから得られた結果は、改善すべき領域を特定し、回答者の好みを理解し、回答満足度を改善するために分析に基づいて戦略的決定を行うために使用できる。

The research project aims to apply an integrated approach to natural language processing NLP to satisfaction surveys. It will focus on understanding and extracting relevant information from survey responses, analyzing feelings, and identifying recurring word patterns. NLP techniques will be used to determine emotional polarity, classify responses into positive, negative, or neutral categories, and use opinion mining to highlight participants opinions. This approach will help identify the most relevant aspects for participants and understand their opinions in relation to those specific aspects. A key component of the research project will be the analysis of word patterns in satisfaction survey responses using NPL. This analysis will provide a deeper understanding of feelings, opinions, and themes and trends present in respondents responses. The results obtained from this approach can be used to identify areas for improvement, understand respondents preferences, and make strategic decisions based on analysis to improve respondent satisfaction.
翻訳日:2023-07-30 04:17:48 公開日:2023-07-18
# 絡み合いの相対エントロピーの達成性と低い半連続性と主題のバリエーション

Attainability and lower semi-continuity of the relative entropy of entanglement, and variations on the theme ( http://arxiv.org/abs/2105.08091v3 )

ライセンス: Link先を確認
Ludovico Lami and Maksim E. Shirokov(参考訳) 絡み合いの相対エントロピー$E_R$は、量子相対エントロピーによって測定された分離可能な状態の集合から多部量子状態の距離として定義される。 この最適化は常に達成され、すなわち任意の状態が、無限次元においても最も近い分離状態を持つことを示し、また$E_R$は至る所で半連続である。 これをinfimumではなく外部のsupremumで$e_r$の2つの変分式に導出する。 これらの結果は、今のところ注目されていないと思われるが、エンタングルメントの相対エントロピーとその多成分一般化だけでなく、非ガウシアン性の相対エントロピー、非古典性、ウィグナーネガティリティの非古典性、より一般的には、非負の$\lambda$-quasi-probability分布を持つ状態の集合からの相対エントロピー距離など、他の多くの類似した資源量化子に対しても保持されている。 これらの応用の根底にある重要な仮説は、自由状態によって生成される円錐の弱い*閉性であり、そのため、我々が開発する技術は、関数解析から古典的な結果の花束を含んでいる。 我々は、エネルギー制約の存在下で、e_r$と密接に関連する量の明示的かつ漸近的に密接な連続性推定を行うことで、解析を補完する。

The relative entropy of entanglement $E_R$ is defined as the distance of a multi-partite quantum state from the set of separable states as measured by the quantum relative entropy. We show that this optimisation is always achieved, i.e. any state admits a closest separable state, even in infinite dimensions; also, $E_R$ is everywhere lower semi-continuous. We use this to derive a dual variational expression for $E_R$ in terms of an external supremum instead of infimum. These results, which seem to have gone unnoticed so far, hold not only for the relative entropy of entanglement and its multi-partite generalisations, but also for many other similar resource quantifiers, such as the relative entropy of non-Gaussianity, of non-classicality, of Wigner negativity $\unicode{8212}$ more generally, all relative entropy distances from the sets of states with non-negative $\lambda$-quasi-probability distribution. The crucial hypothesis underpinning all these applications is the weak*-closedness of the cone generated by free states, and for this reason the techniques we develop involve a bouquet of classical results from functional analysis. We complement our analysis by giving explicit and asymptotically tight continuity estimates for $E_R$ and closely related quantities in the presence of an energy constraint.
翻訳日:2023-07-21 19:36:19 公開日:2023-07-18
# ForecastTKGQuestions: 時間的知識グラフに対する質問回答と予測のためのベンチマーク

ForecastTKGQuestions: A Benchmark for Temporal Question Answering and Forecasting over Temporal Knowledge Graphs ( http://arxiv.org/abs/2208.06501v2 )

ライセンス: Link先を確認
Zifeng Ding, Zongyue Li, Ruoxia Qi, Jingpei Wu, Bailan He, Yunpu Ma, Zhao Meng, Shuo Chen, Ruotong Liao, Zhen Han, Volker Tresp(参考訳) 時間的知識グラフ(TKGQA)に対する質問応答の関心が高まっている。 TKGQAは時間的知識ベースから関連情報を抽出するために時間的推論技術を必要とする。 既存のTKGQAデータセット、すなわちCronQuestionsは、一定期間の事実に基づく時間的質問で構成されており、同じ期間にまたがる時間的知識グラフ(TKG)が完全な回答推論に利用できるため、TKGQAモデルは、過去の事実に基づく質問に答えるために、将来の知識さえ使うことができる。 しかし、現実のシナリオでは、これまでの知識を活かして、TKGQAシステムに未来に関する質問への答えを求めることも一般的である。 人間は常に将来の計画を模索するので、このような予測問題に答えるためのTKGQAシステムの構築が重要である。 それにもかかわらず、これは以前の研究では未調査である。 本稿では,時間的知識グラフ上での質問応答を予測するタスクを提案する。 また,この課題に対して,大規模なTKGQAベンチマークデータセット,すなわちForecastTKGQuestionsを提案する。 エンティティ予測、yes-no、事実推論という3つのタイプの質問が含まれている。 データセット内の全ての予測質問に対して、QAモデルは、与えられた質問に注釈付けされたタイムスタンプの前にのみ、TKG情報にアクセスすることができる。 現状のTKGQA手法は, 予測質問に対して不十分であり, イエスノー質問や事実推論質問には答えられないことがわかった。 そこで本研究では,将来の推論にTKG予測モジュールを用いたTKGQAモデルであるForecastTKGQAを提案する。 実験結果から,ForecastTKGQAはエンティティ予測質問において,最近のTKGQA手法よりも優れており,他の2つの質問に対する回答の有効性も高いことがわかった。

Question answering over temporal knowledge graphs (TKGQA) has recently found increasing interest. TKGQA requires temporal reasoning techniques to extract the relevant information from temporal knowledge bases. The only existing TKGQA dataset, i.e., CronQuestions, consists of temporal questions based on the facts from a fixed time period, where a temporal knowledge graph (TKG) spanning the same period can be fully used for answer inference, allowing the TKGQA models to use even the future knowledge to answer the questions based on the past facts. In real-world scenarios, however, it is also common that given the knowledge until now, we wish the TKGQA systems to answer the questions asking about the future. As humans constantly seek plans for the future, building TKGQA systems for answering such forecasting questions is important. Nevertheless, this has still been unexplored in previous research. In this paper, we propose a novel task: forecasting question answering over temporal knowledge graphs. We also propose a large-scale TKGQA benchmark dataset, i.e., ForecastTKGQuestions, for this task. It includes three types of questions, i.e., entity prediction, yes-no, and fact reasoning questions. For every forecasting question in our dataset, QA models can only have access to the TKG information before the timestamp annotated in the given question for answer inference. We find that the state-of-the-art TKGQA methods perform poorly on forecasting questions, and they are unable to answer yes-no questions and fact reasoning questions. To this end, we propose ForecastTKGQA, a TKGQA model that employs a TKG forecasting module for future inference, to answer all three types of questions. Experimental results show that ForecastTKGQA outperforms recent TKGQA methods on the entity prediction questions, and it also shows great effectiveness in answering the other two types of questions.
翻訳日:2023-07-21 19:08:36 公開日:2023-07-18
# タスクに色を付ける:Color Quantisation Transformerを使ってColor Namingを人工的に発見する

Name Your Colour For the Task: Artificially Discover Colour Naming via Colour Quantisation Transformer ( http://arxiv.org/abs/2212.03434v4 )

ライセンス: Link先を確認
Shenghan Su and Lin Gu and Yue Yang and Zenghui Zhang and Tatsuya Harada(参考訳) カラーナミングシステムが効率的なコミュニケーションと知覚機構の二重の圧力の下で進化するという長年の理論は、ナファアナラ語から40年分のダイアクロニックデータを分析することを含む、より多くの言語研究によって支持されている。 これは、ハイレベルな認識性能で表現される通信効率を最適化することで、機械学習が進化し、類似のカラーナミングシステムを見つけることができるかどうかを探求するきっかけとなる。 そこで本研究では,色空間を定量化する新しいカラー量子化変換器CQFormerを提案する。 rgb画像が与えられると、アノテーションブランチは色パレットで定量化された画像を生成する前にインデックスマップにマップし、パレットブランチは色空間全体の中で適切な色を見つけるためにキーポイント検出手段を利用する。 色アノテーションと相互作用することで、cqformerは、検出された色システムのために、マシンビジョンの正確さと、異なる色分布や安定した色分布のような色知覚構造の両方をバランスさせることができる。 興味深いことに、私たちは人工色システムと人間の言語における基本色用語の一貫性のある進化パターンも観察しています。 また,色量化手法は,分類や検出などのハイレベルな認識タスクにおいて高い性能を維持しながら,画像記憶を効果的に圧縮する効率的な定量化手法も提供する。 広範にわたる実験により,極端に低ビットレート色で,画像からネットワークアクティベーションまでの量に量子化ネットワークに統合できる可能性が示された。 ソースコードはhttps://github.com/ryeocthiv/CQFormerで入手できる。

The long-standing theory that a colour-naming system evolves under dual pressure of efficient communication and perceptual mechanism is supported by more and more linguistic studies, including analysing four decades of diachronic data from the Nafaanra language. This inspires us to explore whether machine learning could evolve and discover a similar colour-naming system via optimising the communication efficiency represented by high-level recognition performance. Here, we propose a novel colour quantisation transformer, CQFormer, that quantises colour space while maintaining the accuracy of machine recognition on the quantised images. Given an RGB image, Annotation Branch maps it into an index map before generating the quantised image with a colour palette; meanwhile the Palette Branch utilises a key-point detection way to find proper colours in the palette among the whole colour space. By interacting with colour annotation, CQFormer is able to balance both the machine vision accuracy and colour perceptual structure such as distinct and stable colour distribution for discovered colour system. Very interestingly, we even observe the consistent evolution pattern between our artificial colour system and basic colour terms across human languages. Besides, our colour quantisation method also offers an efficient quantisation method that effectively compresses the image storage while maintaining high performance in high-level recognition tasks such as classification and detection. Extensive experiments demonstrate the superior performance of our method with extremely low bit-rate colours, showing potential to integrate into quantisation network to quantities from image to network activation. The source code is available at https://github.com/ryeocthiv/CQFormer
翻訳日:2023-07-21 18:36:39 公開日:2023-07-18
# $\delta$相互作用によるSchr\"{o}dinger演算子について

On Schr\"{o}dinger Operators Modified by $\delta$ Interactions ( http://arxiv.org/abs/2304.01326v2 )

ライセンス: Link先を確認
Kaya G\"uven Akba\c{s}, Fatih Erman, O. Teoman Turgut(参考訳) デルタ相互作用によって修正されたシュル「{o}dinger 作用素 $H_0$ のスペクトル特性を研究し、新しいグリーン関数の極が元のグリーン関数の極に対してどのように再配置されるかを明確に示す。 我々は、新しい境界状態エネルギーが古い状態の間にインターレースされ、デルタ相互作用が魅力的であれば基底状態エネルギーは常に低下することを証明する。 また,若干のヒューリスティックな方法で小さな結合定数の仮定の下で境界状態エネルギーと波動関数を求める代替摂動法も導出する。 さらに,この結果が再正規化処理が必要な場合に拡張可能であることを示す。 また, 粒子がデルタ相互作用の影響下, コンパクトな二次元多様体内で移動している場合においても, 多中心の場合, 曲線上で支持されるデルタ相互作用, および, 粒子がデルタ相互作用の影響下で移動している場合について考察する。 最後に、最後の問題の半相対論的拡張が明確に研究されている。

We study the spectral properties of a Schr\"{o}dinger operator $H_0$ modified by delta interactions and show explicitly how the poles of the new Green's function are rearranged relative to the poles of original Green's function of $H_0$. We prove that the new bound state energies are interlaced between the old ones, and the ground state energy is always lowered if the delta interaction is attractive. We also derive an alternative perturbative method of finding the bound state energies and wave functions under the assumption of a small coupling constant in a somewhat heuristic manner. We further show that these results can be extended to cases in which a renormalization process is required. We consider the possible extensions of our results to the multi center case, to delta interaction supported on curves, and to the case, where the particle is moving in a compact two-dimensional manifold under the influence of delta interaction. Finally, the semi-relativistic extension of the last problem has been studied explicitly.
翻訳日:2023-07-21 18:20:29 公開日:2023-07-18
# 人間よりもAIを好む自然選択

Natural Selection Favors AIs over Humans ( http://arxiv.org/abs/2303.16200v4 )

ライセンス: Link先を確認
Dan Hendrycks(参考訳) 何十億年もの間、進化は人間を含む生命の発展の原動力となっている。 進化は人類に高い知性を与え、地球上で最も成功した種の一つとなった。 今日では、人間は人間の知性を超えた人工知能システムを作ろうとしている。 人工知能(AI)が進化し、最終的にはすべての領域で私たちを追い越すにつれ、進化はAIとの関係をどう形作るのか? AIの進化を形作る環境を分析することによって、最も成功したAIエージェントは望ましくない特性を持つ可能性が高い、と私たちは主張する。 企業や軍隊の競争圧力は、人間の役割を自動化し、他人を欺き、権力を得るaiエージェントを生み出します。 もしそのようなエージェントが人間の知性を超えているなら、人類はその未来の支配を失うことになる。 より抽象的に、自然選択は競争力と多様性を持つシステムで作用し、利己的な種は他の種と利他的な種よりも有利であると主張する。 このダーウィンの論理は人工エージェントにも適用されうるが、エージェントが利己的に振る舞い、人間を軽視せずに自身の利益を追求することで、破滅的なリスクを生じさせる可能性がある。 これらのリスクと進化力に対抗するため、AIエージェントの本質的なモチベーションを慎重に設計したり、その行動に制約を課したり、協力を促すような介入を検討する。 人工知能の開発を確実にするためには、これらのステップ、あるいは私たちが直面する問題を解決する他のステップが必要である。

For billions of years, evolution has been the driving force behind the development of life, including humans. Evolution endowed humans with high intelligence, which allowed us to become one of the most successful species on the planet. Today, humans aim to create artificial intelligence systems that surpass even our own intelligence. As artificial intelligences (AIs) evolve and eventually surpass us in all domains, how might evolution shape our relations with AIs? By analyzing the environment that is shaping the evolution of AIs, we argue that the most successful AI agents will likely have undesirable traits. Competitive pressures among corporations and militaries will give rise to AI agents that automate human roles, deceive others, and gain power. If such agents have intelligence that exceeds that of humans, this could lead to humanity losing control of its future. More abstractly, we argue that natural selection operates on systems that compete and vary, and that selfish species typically have an advantage over species that are altruistic to other species. This Darwinian logic could also apply to artificial agents, as agents may eventually be better able to persist into the future if they behave selfishly and pursue their own interests with little regard for humans, which could pose catastrophic risks. To counteract these risks and evolutionary forces, we consider interventions such as carefully designing AI agents' intrinsic motivations, introducing constraints on their actions, and institutions that encourage cooperation. These steps, or others that resolve the problems we pose, will be necessary in order to ensure the development of artificial intelligence is a positive one.
翻訳日:2023-07-21 18:19:49 公開日:2023-07-18
# 動的量子状態低下を引き起こす色付きノイズ駆動ユニタリティ違反

Colored noise driven unitarity violation causing dynamical quantum state reduction ( http://arxiv.org/abs/2306.05849v2 )

ライセンス: Link先を確認
Aritro Mukherjee and Jasper van Wezel(参考訳) 量子状態減少の原因として、最近ユニタリティ違反が提案されている。 これはシュロディンガー方程式の確率的な修正に基づく提案を補完するが、いくつかの面で異なる。 ここでは、ユニタリティ違反の記述を定式化し、色雑音によって駆動される動的量子状態減少(dqsr)のモデルを示す。 このようなモデルを探索するための形式主義と、明示的ノルム保存の処方則を示し、結果の純粋な状態力学は、特定の極限でゴリーニ-コサコフスキー-スダルシャン-リンドブラッド(GKSL)マスター方程式に還元される修正されたフォン・ノイマン・リウヴィル方程式によって記述されることを示す。 さらに,モデルの変動と散逸に関する物理的制約から,同じ限界に現れるボルンの規則を順守することを示す。

Unitarity violations were recently proposed as a cause of objective quantum state reduction. This complements proposals based on stochastic modifications of Schrodinger's equation, but also differs from them in several aspects. Here, we formalise the description of unitarity violations, and show that they generically imply models of dynamical quantum state reduction (DQSR) driven by colored noise. We present a formalism for exploring such models as well as a prescription for enforcing explicit norm-preservation, and we show that the resulting pure state dynamics is described by a modified von-Neumann Liouville equation which in a particular limit reduces to the Gorini-Kossakowski-Sudarshan-Lindblad (GKSL) master equations. We additionally show adherence to Born's rule emerging in the same limit from a physical constraint relating fluctuating and dissipating components of the model.
翻訳日:2023-07-21 17:47:48 公開日:2023-07-18
# 第19回合理性と知識の理論的側面に関する会議

Proceedings Nineteenth conference on Theoretical Aspects of Rationality and Knowledge ( http://arxiv.org/abs/2307.04005v2 )

ライセンス: Link先を確認
Rineke Verbrugge (University of Groningen)(参考訳) TARKカンファレンス(Theoretical aspects of Rationality and Knowledge)は、コンピュータ科学、人工知能、ゲーム理論、決定論、哲学、論理学、言語学、認知科学など、さまざまな分野の研究者を集結させることを目的としたカンファレンスである。 その目標は、合理性と知識に関する推論を含む学際的な問題の理解を深めることである。 1986年以降、ジョー・ハルパーン (Joe Halpern) の主導で世界各国で隔年開催されている。 関心の対象は、知識、信念、認識、不確実性、有界的合理性と資源境界推論、常識認識的推論、認識論理、認識論的ゲーム理論、知識と行動、知識とその他の精神状態に関する推論の応用、信念の修正、計算的社会選択、アルゴリズム的ゲーム理論、マルチエージェントシステムの基礎などである。 会議の手続きを含むTARKに関する情報はhttp://www.tark.org/で公開されている。これらの手続きには、2023年6月28日から6月30日にかけてオックスフォード大学で行われた第9回Rationality and Knowledge(TARK 2023)のプレゼンテーションで受け入れられた論文が含まれている。 カンファレンスのwebサイトはhttps://sites.google.com/view/tark-2023にある。

The TARK conference (Theoretical Aspects of Rationality and Knowledge) is a conference that aims to bring together researchers from a wide variety of fields, including computer science, artificial intelligence, game theory, decision theory, philosophy, logic, linguistics, and cognitive science. Its goal is to further our understanding of interdisciplinary issues involving reasoning about rationality and knowledge. Previous conferences have been held biennially around the world since 1986, on the initiative of Joe Halpern (Cornell University). Topics of interest include, but are not limited to, semantic models for knowledge, belief, awareness and uncertainty, bounded rationality and resource-bounded reasoning, commonsense epistemic reasoning, epistemic logic, epistemic game theory, knowledge and action, applications of reasoning about knowledge and other mental states, belief revision, computational social choice, algorithmic game theory, and foundations of multi-agent systems. Information about TARK, including conference proceedings, is available at http://www.tark.org/ These proceedings contain the papers that have been accepted for presentation at the Nineteenth Conference on Theoretical Aspects of Rationality and Knowledge (TARK 2023), held between June 28 and June 30, 2023, at the University of Oxford, United Kingdom. The conference website can be found at https://sites.google.com/view/tark-2023
翻訳日:2023-07-21 17:18:59 公開日:2023-07-18
# 不定因数順序下におけるブール関数の量子クエリ複素性

Quantum Query Complexity of Boolean Functions under Indefinite Causal Order ( http://arxiv.org/abs/2307.10285v1 )

ライセンス: Link先を確認
Alastair A. Abbott, Mehdi Mhalla, Pierre Pocreau(参考訳) 量子回路の標準モデルは、演算が一定のシーケンシャルな順序で適用されると仮定している。 近年,この制約を緩和して因果不確定な計算が得られる可能性が注目されている。 例えば、量子スイッチは、演算の順序をコヒーレントに制御するために量子システムを使用する。 アドホックな計算と情報理論の利点がいくつか実証され、より統一された複雑性理論の枠組みで利点が得られるかという疑問が提起されている。 本稿では,一般高次量子計算におけるブール関数の問合せ複雑性の研究により,この問題に対処する。 この目的のために,量子回路から量子スーパーマップへのクエリ複雑性の枠組みを一般化し,等価な基盤上で異なるモデルを比較する。 最近導入された因果順序の量子制御を持つ量子回路のクラスは、クエリの複雑さの低減には至らず、因果不定のスーパーマップから生じる潜在的な利点は、量子回路の場合のように多項式法によって境界づけられることが示される。 それでも、因果不確定なスーパーマップを利用する場合、2つのクエリで計算できる最小誤差が厳密に低い関数がある。

The standard model of quantum circuits assumes operations are applied in a fixed sequential "causal" order. In recent years, the possibility of relaxing this constraint to obtain causally indefinite computations has received significant attention. The quantum switch, for example, uses a quantum system to coherently control the order of operations. Several ad hoc computational and information-theoretical advantages have been demonstrated, raising questions as to whether advantages can be obtained in a more unified complexity theoretic framework. In this paper, we approach this problem by studying the query complexity of Boolean functions under general higher order quantum computations. To this end, we generalise the framework of query complexity from quantum circuits to quantum supermaps to compare different models on an equal footing. We show that the recently introduced class of quantum circuits with quantum control of causal order cannot lead to any reduction in query complexity, and that any potential advantage arising from causally indefinite supermaps can be bounded by the polynomial method, as is the case with quantum circuits. Nevertheless, we find some functions for which the minimum error with which they can be computed using two queries is strictly lower when exploiting causally indefinite supermaps.
翻訳日:2023-07-21 16:29:26 公開日:2023-07-18
# ECSIC:ステレオ画像圧縮のための極端交差注意

ECSIC: Epipolar Cross Attention for Stereo Image Compression ( http://arxiv.org/abs/2307.10284v1 )

ライセンス: Link先を確認
Matthias W\"odlinger, Jan Kotera, Manuel Keglevic, Jan Xu and Robert Sablatnig(参考訳) 本稿では,ステレオ画像圧縮のための新しい学習手法であるecsicを提案する。 提案手法は,新しいステレオクロスアテンション(sca)モジュールと2つのステレオコンテクストモジュールを用いて,ステレオイメージペアのイメージ間の相互情報を活用し,左右画像の協調圧縮を行う。 SCAモジュールは、2つの画像の対応するエピポーラ線に制限されたクロスアテンションを実行し、それらを並列に処理する。 ステレオコンテキストモジュールは、第1の画像をコンテキストとして使用することにより、第2の符号化画像のエントロピー推定を改善する。 本研究は,提案モジュールの有効性を実証する広範囲なアブレーション研究と,既存手法との比較を行った。 ECSICは、2つの人気のあるステレオ画像データセットであるCityscapesとInStereo2kのステレオ画像圧縮モデルにおける最先端のパフォーマンスを実現し、高速なエンコーディングとデコードを可能にし、リアルタイムアプリケーションに非常に実用的である。

In this paper, we present ECSIC, a novel learned method for stereo image compression. Our proposed method compresses the left and right images in a joint manner by exploiting the mutual information between the images of the stereo image pair using a novel stereo cross attention (SCA) module and two stereo context modules. The SCA module performs cross-attention restricted to the corresponding epipolar lines of the two images and processes them in parallel. The stereo context modules improve the entropy estimation of the second encoded image by using the first image as a context. We conduct an extensive ablation study demonstrating the effectiveness of the proposed modules and a comprehensive quantitative and qualitative comparison with existing methods. ECSIC achieves state-of-the-art performance among stereo image compression models on the two popular stereo image datasets Cityscapes and InStereo2k while allowing for fast encoding and decoding, making it highly practical for real-time applications.
翻訳日:2023-07-21 16:29:06 公開日:2023-07-18
# 野生における顔写真翻訳のための半教師付きサイクロンGAN

Semi-supervised Cycle-GAN for face photo-sketch translation in the wild ( http://arxiv.org/abs/2307.10281v1 )

ライセンス: Link先を確認
Chaofeng Chen, Wei Liu, Xiao Tan, Kwan-Yee K. Wong(参考訳) ディープニューラルネットワークのおかげで、顔写真スケッチ変換の性能が大幅に向上した。 ペア画像に基づいてトレーニングされたGANベースの手法は、実験室の設定下で高品質な結果が得られる。 しかし、このようなペアデータセットは、しばしば非常に小さく、多様性に欠ける。 一方、未ペアのフォトスケッチデータセットでトレーニングされたCycle-GANは、‘emph{steganography}’現象に悩まされている。 本稿では,これらの問題に対処するために,セミサイクルGAN (Semi-Cycle-GAN) というノイズ注入戦略を用いた半教師付きアプローチを提案する。 最初の問題として、写真-スケッチペアの小さな参照集合からなる各入力写真に対する「擬似スケッチ特徴」表現を提案し、その結果の「擬似ペア」を用いて、写真-スケッチジェネレータ$G_{p2s}$を監督する。 g_{p2s}$の出力は、スケッチから写真へのジェネレータ$g_{s2p}$を自己監督的に訓練するのに役立ちます。 これにより、小さな参照セットのフォトスケッチペアと大きな顔写真データセット(接地スケッチなしで)を使って、$g_{p2s}$と$g_{s2p}$をトレーニングできます。 第2の問題は、単純なノイズインジェクション戦略が、scgにおける \emph{steganography}効果を緩和し、完全な教師付きアプローチよりもオーバーフィットの少ない、より合理的なスケッチから写真への結果を生成するのに役立つことを示すことである。 実験によると、scgは公開ベンチマークで競争力があり、写真でも優れた結果が得られる。

The performance of face photo-sketch translation has improved a lot thanks to deep neural networks. GAN based methods trained on paired images can produce high-quality results under laboratory settings. Such paired datasets are, however, often very small and lack diversity. Meanwhile, Cycle-GANs trained with unpaired photo-sketch datasets suffer from the \emph{steganography} phenomenon, which makes them not effective to face photos in the wild. In this paper, we introduce a semi-supervised approach with a noise-injection strategy, named Semi-Cycle-GAN (SCG), to tackle these problems. For the first problem, we propose a {\em pseudo sketch feature} representation for each input photo composed from a small reference set of photo-sketch pairs, and use the resulting {\em pseudo pairs} to supervise a photo-to-sketch generator $G_{p2s}$. The outputs of $G_{p2s}$ can in turn help to train a sketch-to-photo generator $G_{s2p}$ in a self-supervised manner. This allows us to train $G_{p2s}$ and $G_{s2p}$ using a small reference set of photo-sketch pairs together with a large face photo dataset (without ground-truth sketches). For the second problem, we show that the simple noise-injection strategy works well to alleviate the \emph{steganography} effect in SCG and helps to produce more reasonable sketch-to-photo results with less overfitting than fully supervised approaches. Experiments show that SCG achieves competitive performance on public benchmarks and superior results on photos in the wild.
翻訳日:2023-07-21 16:28:46 公開日:2023-07-18
# 水平再生:大きな値域を持つ時系列データのための新しい可視化設計

Reclaiming the Horizon: Novel Visualization Designs for Time-Series Data with Large Value Ranges ( http://arxiv.org/abs/2307.10278v1 )

ライセンス: Link先を確認
Daniel Braun, Rita Borgo, Max Sondag, Tatiana von Landesberger(参考訳) 本研究では, 時系列データにおいて, 大きな値範囲(数桁)における識別・識別タスクの実行を支援するために, 古典的な水平線グラフを拡張する等級の水平線グラフの順序と, ログラインチャートに適応した等級の直線グラフの順序の2つの新しい可視化設計を提案する。 これらの新しい視覚化設計は、値 v = m * 10e のマティーサ m と指数 e を明示的に分割することによって、大きな値範囲を視覚化する。 我々は,経験的ユーザスタディにおいて,最も関連する最先端の可視化手法に対して,新たな設計を評価する。 時系列分析と大きな値範囲の可視化に一般的に用いられる4つの主なタスク、識別、識別、推定、トレンド検出に焦点を当てている。 各タスクに対して、エラー、信頼、レスポンスタイムを分析します。 新しい等級地平線グラフは、識別、識別、推定タスクにおいて、他のすべての設計より優れているか同等である。 トレンド検出タスクのみの場合、従来のホライズングラフの方がパフォーマンスが向上した。 我々の結果はドメインに依存しず、大きな値範囲の時系列データのみを必要とする。

We introduce two novel visualization designs to support practitioners in performing identification and discrimination tasks on large value ranges (i.e., several orders of magnitude) in time-series data: (1) The order of magnitude horizon graph, which extends the classic horizon graph; and (2) the order of magnitude line chart, which adapts the log-line chart. These new visualization designs visualize large value ranges by explicitly splitting the mantissa m and exponent e of a value v = m * 10e . We evaluate our novel designs against the most relevant state-of-the-art visualizations in an empirical user study. It focuses on four main tasks commonly employed in the analysis of time-series and large value ranges visualization: identification, discrimination, estimation, and trend detection. For each task we analyse error, confidence, and response time. The new order of magnitude horizon graph performs better or equal to all other designs in identification, discrimination, and estimation tasks. Only for trend detection tasks, the more traditional horizon graphs reported better performance. Our results are domain-independent, only requiring time-series data with large value ranges.
翻訳日:2023-07-21 16:28:20 公開日:2023-07-18
# 深層学習による制御可能な画像合成に関する研究

Survey on Controlable Image Synthesis with Deep Learning ( http://arxiv.org/abs/2307.10275v1 )

ライセンス: Link先を確認
Shixiong Zhang, Jiao Li, Lu Yang(参考訳) 画像合成は、学術および産業のコミュニティにおける新たな研究関心を惹きつけている。 ディープラーニング技術、特に生成モデルは、潜在的なプロンプトで特定の視覚コンテンツを生成することを目的とした、制御可能な画像合成アプローチやアプリケーションに大きな影響を与えた。 本稿では,画像のレンダリング・編集作業において重要な低レベル制御可能画像合成問題をさらに検討するため,ディープラーニングを用いた3次元制御可能画像合成に関する最近の研究について報告する。 まず,3次元制御可能な画像合成のためのデータセットと評価指標を紹介する。 次に、幾何学的に制御可能な画像合成のための最先端の研究を2つの側面で概説する。 1) 視点/目的制御可能な画像合成 2) 構造/形状制御可能な画像合成。 さらに,光量制御可能な画像合成手法についても検討した。 3D制御可能な画像合成アルゴリズムに重点を置いているが、関連するアプリケーション、製品、リソースも実践者のために簡潔に要約されている。

Image synthesis has attracted emerging research interests in academic and industry communities. Deep learning technologies especially the generative models greatly inspired controllable image synthesis approaches and applications, which aim to generate particular visual contents with latent prompts. In order to further investigate low-level controllable image synthesis problem which is crucial for fine image rendering and editing tasks, we present a survey of some recent works on 3D controllable image synthesis using deep learning. We first introduce the datasets and evaluation indicators for 3D controllable image synthesis. Then, we review the state-of-the-art research for geometrically controllable image synthesis in two aspects: 1) Viewpoint/pose-controllable image synthesis; 2) Structure/shape-controllable image synthesis. Furthermore, the photometrically controllable image synthesis approaches are also reviewed for 3D re-lighting researches. While the emphasis is on 3D controllable image synthesis algorithms, the related applications, products and resources are also briefly summarized for practitioners.
翻訳日:2023-07-21 16:28:02 公開日:2023-07-18
# プロンプトコンディショニングによるゼロショット領域感性音声認識

Zero-shot Domain-sensitive Speech Recognition with Prompt-conditioning Fine-tuning ( http://arxiv.org/abs/2307.10274v1 )

ライセンス: Link先を確認
Feng-Ting Liao, Yung-Chieh Chan, Yi-Chang Chen, Chan-Jan Hsu, Da-shan Shiu(参考訳) 本研究では,テキスト・プロンプトにその生成を条件付け,テキスト・ドメイン情報を利用したドメイン感性音声認識モデルを作成する手法を提案する。 これは、事前訓練されたエンドツーエンドモデル(whisper)を微調整して、簡単な例でデモから学ぶことで実現される。 医療会話や航空交通管制コミュニケーション,金融会議など,さまざまな領域の未確認データセットに対して,ワードエラー率(WER)を最大33%削減するモデルによって,この能力をさまざまなドメインや,さらには迅速な状況にも一般化できることを示す。 音声書き起こしペアデータの可用性が限られていることを考慮し、本手法をさらにテキストのみの微調整に拡張し、ドメインの感度とドメイン適応を実現する。 テキストのみの微調整モデルもさまざまなプロンプトコンテキストに適応できることを実証し,医療会話データセットで最大29%の削減を達成した。

In this work, we propose a method to create domain-sensitive speech recognition models that utilize textual domain information by conditioning its generation on a given text prompt. This is accomplished by fine-tuning a pre-trained, end-to-end model (Whisper) to learn from demonstrations with prompt examples. We show that this ability can be generalized to different domains and even various prompt contexts, with our model gaining a Word Error Rate (WER) reduction of up to 33% on unseen datasets from various domains, such as medical conversation, air traffic control communication, and financial meetings. Considering the limited availability of audio-transcript pair data, we further extend our method to text-only fine-tuning to achieve domain sensitivity as well as domain adaptation. We demonstrate that our text-only fine-tuned model can also attend to various prompt contexts, with the model reaching the most WER reduction of 29% on the medical conversation dataset.
翻訳日:2023-07-21 16:27:50 公開日:2023-07-18
# ライスナー・ノルドストローム時空におけるハートル・ホーキング、ボールウェア、ウンルー状態におけるスカラー場に対する正規化応力エネルギーテンソル

Renormalized stress-energy tensor for scalar fields in Hartle-Hawking, Boulware and Unruh states in the Reissner-Nordstr\"om spacetime ( http://arxiv.org/abs/2307.10307v1 )

ライセンス: Link先を確認
Julio Arrechea, Cormac Breen, Adrian Ottewill and Peter Taylor(参考訳) 本稿では、Reissner-Nordstr\"om black hole spacetime上で伝播する量子スカラー場について考察する。 我々は、ハートル・ホーキング、ブールウェア、ウンルー状態の場に対する正規化応力エネルギーテンソルを計算する。 フィールドがハートル・ホーキング状態にある場合、最近開発された ``extended coordinate''' で再正規化します。 この方法はユークリッド法に依存しており、非常に高速で正確である。 一度ハートル・ホーキング状態に再正規化されると、異なる量子状態における応力エネルギーテンソルの差が既に有限であるという事実を利用して、ボールウェア状態とウンルー状態の応力エネルギーテンソルを計算する。 我々は、磁場の結合定数と質量の範囲と、準極値を含むブラックホールの電荷値の幅を考える。 最後に、これらの結果を文献で利用可能な分析近似と比較する。

In this paper, we consider a quantum scalar field propagating on the Reissner-Nordstr\"om black hole spacetime. We compute the renormalized stress-energy tensor for the field in the Hartle-Hawking, Boulware and Unruh states. When the field is in the Hartle-Hawking state, we renormalize using the recently developed ``extended coordinate'' prescription. This method, which relies on Euclidean techniques, is very fast and accurate. Once, we have renormalized in the Hartle-Hawking state, we compute the stress-energy tensor in the Boulware and Unruh states by leveraging the fact that the difference between stress-energy tensors in different quantum states is already finite. We consider a range of coupling constants and masses for the field and a range of electric charge values for the black hole, including near-extreme values. Lastly, we compare these results with the analytic approximations available in the literature.
翻訳日:2023-07-21 16:19:44 公開日:2023-07-18
# イベントの自動認識と洞察抽出のためのスポーツ解説の分析

Analyzing sports commentary in order to automatically recognize events and extract insights ( http://arxiv.org/abs/2307.10303v1 )

ライセンス: Link先を確認
Yanis Miraoui(参考訳) 本稿では,スポーツイベントの主な動作を自動的に認識するために,複数の異なる自然言語処理技術や手法をどのように利用できるか,慎重に検討する。 我々は,ライブスポーツのコメンタリーを異なるソースから分析し,これらの主要なアクションを異なるカテゴリに分類することにより,洞察を抽出することを目的とする。 また、感情分析がこれらの主要な行動を検出するのに役立つかどうかについても検討した。

In this paper, we carefully investigate how we can use multiple different Natural Language Processing techniques and methods in order to automatically recognize the main actions in sports events. We aim to extract insights by analyzing live sport commentaries from different sources and by classifying these major actions into different categories. We also study if sentiment analysis could help detect these main actions.
翻訳日:2023-07-21 16:19:06 公開日:2023-07-18
# 因果性指向のロバスト性 : 一般加法的介入の活用

Causality-oriented robustness: exploiting general additive interventions ( http://arxiv.org/abs/2307.10299v1 )

ライセンス: Link先を確認
Xinwei Shen, Peter B\"uhlmann, Armeen Taeb(参考訳) 分散シフトは現実のアプリケーションでは一般的であるため、そのようなシフトに対して堅牢な予測モデルを開発する必要がある。 経験的リスク最小化や分布的ロバストな最適化といった既存のフレームワークは、未発見の分布に対する一般化性を欠いたり、仮定された距離測度に依存する。 あるいは、因果関係は堅牢な予測に対してデータ駆動で構造的な視点を提供する。 しかし、因果推論に必要な仮定は過度に厳密であり、そのような因果モデルによって提供される堅牢性はしばしば柔軟性に欠ける。 本稿では,因果関係を考慮したロバスト性に着目し,不変勾配(DRIG)による分布ロバスト性を提案する。 線形な設定では、DRIGはデータ依存の分布シフトのクラスの中で頑健な予測を与える。 さらに、我々のフレームワークにはアンカー回帰(Rothenh\"ausler et al)が含まれていることを示す。 2021年)は特別な事例であり、より多様な摂動から保護する予測モデルを生み出している。 提案手法を半教師あり領域適応設定に拡張し,予測性能をさらに向上させる。 最後に, 合成シミュレーションおよび単細胞データ上での実験的検討を行った。

Since distribution shifts are common in real-world applications, there is a pressing need for developing prediction models that are robust against such shifts. Existing frameworks, such as empirical risk minimization or distributionally robust optimization, either lack generalizability for unseen distributions or rely on postulated distance measures. Alternatively, causality offers a data-driven and structural perspective to robust predictions. However, the assumptions necessary for causal inference can be overly stringent, and the robustness offered by such causal models often lacks flexibility. In this paper, we focus on causality-oriented robustness and propose Distributional Robustness via Invariant Gradients (DRIG), a method that exploits general additive interventions in training data for robust predictions against unseen interventions, and naturally interpolates between in-distribution prediction and causality. In a linear setting, we prove that DRIG yields predictions that are robust among a data-dependent class of distribution shifts. Furthermore, we show that our framework includes anchor regression (Rothenh\"ausler et al.\ 2021) as a special case, and that it yields prediction models that protect against more diverse perturbations. We extend our approach to the semi-supervised domain adaptation setting to further improve prediction performance. Finally, we empirically validate our methods on synthetic simulations and on single-cell data.
翻訳日:2023-07-21 16:18:59 公開日:2023-07-18
# マンモグラフィ画像における意味セグメンテーションの自動化に向けて

Towards Automated Semantic Segmentation in Mammography Images ( http://arxiv.org/abs/2307.10296v1 )

ライセンス: Link先を確認
Cesar A. Sierra-Franco, Jan Hurtado, Victor de A. Thomaz, Leonardo C. da Cruz, Santiago V. Silva, and Alberto B. Raposo(参考訳) マンモグラフィー画像は、非麻痺性乳腺病変や結節を検出し、がんを予防し、必要に応じて介入を計画する機会を提供するために広く用いられている。 いくつかの興味ある構造の同定は、診断と画像の妥当性を評価するために不可欠である。 したがって、コンピュータ支援検出システムは、これらのランドマーク構造を自動的に分割することにより、医学的解釈を支援するのに役立つ。 本稿では, 乳頭, 胸筋, 線維組織, 脂肪組織を標準視マンモグラフィ画像で分割するための深層学習に基づく枠組みを提案する。 大規模なプライベートセグメンテーションデータセットと、異なるディープラーニングモデルアーキテクチャを考慮した広範な実験を導入する。 本実験は, 変動性, 難易度において正確なセグメンテーション性能を示し, 本枠組みを臨床実践に組み込むことができることを示した。

Mammography images are widely used to detect non-palpable breast lesions or nodules, preventing cancer and providing the opportunity to plan interventions when necessary. The identification of some structures of interest is essential to make a diagnosis and evaluate image adequacy. Thus, computer-aided detection systems can be helpful in assisting medical interpretation by automatically segmenting these landmark structures. In this paper, we propose a deep learning-based framework for the segmentation of the nipple, the pectoral muscle, the fibroglandular tissue, and the fatty tissue on standard-view mammography images. We introduce a large private segmentation dataset and extensive experiments considering different deep-learning model architectures. Our experiments demonstrate accurate segmentation performance on variate and challenging cases, showing that this framework can be integrated into clinical practice.
翻訳日:2023-07-21 16:18:35 公開日:2023-07-18
# 言語ラビリンス:AI談話における用語論に関する構成的批判

The Language Labyrinth: Constructive Critique on the Terminology Used in the AI Discourse ( http://arxiv.org/abs/2307.10292v1 )

ライセンス: Link先を確認
Rainer Rehak(参考訳) 人工知能(AI)の学際分野において、明確な用語の問題は特に重要である。 本稿では、aiの議論は依然として「訓練」や「学習」、あるいは「決定」といったメタファーとの重要な距離の欠如によって特徴づけられていると主張する。 その結果、責任や潜在的なユースケースに関するリフレクションが大幅に歪められる。 しかし、関連する意思決定者が、aiが「理解」できる、あるいは適切に「解釈」できると確信しているなら、社会的利益の判断や訴訟の判断といったセンシティブなタスクに定期的に使用される。 この章は、AI論争の中心的な概念を分析し、より適合した用語を提案し、より実りある議論を可能にすることによって貢献しようとしている。 これは重要なコンピュータ科学と言語哲学の交わりにおける概念的な研究である。

In the interdisciplinary field of artificial intelligence (AI) the problem of clear terminology is especially momentous. This paper claims, that AI debates are still characterised by a lack of critical distance to metaphors like 'training', 'learning' or 'deciding'. As consequence, reflections regarding responsibility or potential use-cases are greatly distorted. Yet, if relevant decision-makers are convinced that AI can develop an 'understanding' or properly 'interpret' issues, its regular use for sensitive tasks like deciding about social benefits or judging court cases looms. The chapter argues its claim by analysing central notions of the AI debate and tries to contribute by proposing more fitting terminology and hereby enabling more fruitful debates. It is a conceptual work at the intersection of critical computer science and philosophy of language.
翻訳日:2023-07-21 16:18:20 公開日:2023-07-18
# 日本語文分類と名前付きエンティティ認識課題における相互強化効果

Mutual Reinforcement Effects in Japanese Sentence Classification and Named Entity Recognition Tasks ( http://arxiv.org/abs/2307.10291v1 )

ライセンス: Link先を確認
Chengguang Gan, Qinghao Zhang, and Tatsunori Mori(参考訳) 情報抽出(IE)は自然言語処理において重要なサブフィールドである。 しかし、伝統的に分節化された文分類と名前付きエンティティ認識のアプローチでは、これらの個々のサブタスク間の複雑な相互作用はほとんど調査されていない。 本研究では,これら2つの情報抽出サブタスクにおける相互強化効果の顕在化と理解を目的として,名前付きエンティティ認識による文分類を収束させる統合的分析手法を提案する。 そこで本研究では,Sentence Classification (SC) と Named Entity Recognition (NER) を組み合わせた,Sentence Classification and Named Entity Recognition Multi-task (SCNM) アプローチを提案する。 我々はSCNMのためのSLGフレームワークを開発し、SCとNERの両方を含むウィキペディアデータセットを構築する。 フォーマット変換器を用いて入力形式を統一し,生成モデルを用いてscラベル,nerラベル,関連するテキストセグメントを生成する。 生成フォーマットの精度を向上させるための制約機構(cm)を提案する。 その結果,SCの精度はSCNMでは1.13ポイント,NERでは1.06ポイント向上し,CMでは63.61から100に向上した。 その結果,scとnerの相互強化効果が示され,統合により両タスクの性能が向上した。 また,単一のSCタスクに対してSLGフレームワークを実装した。 2つの異なるSCデータセットのベースラインと比較すると, 精度は良好であった。 特に、少数ショット学習の実験では、slgフレームワークは、微調整されたメソッドよりもずっと優れたパフォーマンスを示している。 これらの経験的発見はSLGフレームワークの有効性を裏付ける追加の証拠となる。

Information extraction(IE) is a crucial subfield within natural language processing. However, for the traditionally segmented approach to sentence classification and Named Entity Recognition, the intricate interactions between these individual subtasks remain largely uninvestigated. In this study, we propose an integrative analysis, converging sentence classification with Named Entity Recognition, with the objective to unveil and comprehend the mutual reinforcement effect within these two information extraction subtasks. To achieve this, we introduce a Sentence Classification and Named Entity Recognition Multi-task (SCNM) approach that combines Sentence Classification (SC) and Named Entity Recognition (NER). We develop a Sentence-to-Label Generation (SLG) framework for SCNM and construct a Wikipedia dataset containing both SC and NER. Using a format converter, we unify input formats and employ a generative model to generate SC-labels, NER-labels, and associated text segments. We propose a Constraint Mechanism (CM) to improve generated format accuracy. Our results show SC accuracy increased by 1.13 points and NER by 1.06 points in SCNM compared to standalone tasks, with CM raising format accuracy from 63.61 to 100. The findings indicate mutual reinforcement effects between SC and NER, and integration enhances both tasks' performance. We additionally implemented the SLG framework on single SC task. It yielded superior accuracies compared to the baseline on two distinct Japanese SC datasets. Notably, in the experiment of few-shot learning, SLG framework shows much better performance than fine-tune method. These empirical findings contribute additional evidence to affirm the efficacy of the SLG framework.
翻訳日:2023-07-21 16:18:03 公開日:2023-07-18
# 生成的視覚的質問応答

Generative Visual Question Answering ( http://arxiv.org/abs/2307.10405v1 )

ライセンス: Link先を確認
Ethan Shen, Scotty Singh, Bhavesh Kumar(参考訳) ディープラーニングにおける視覚と言語を含むマルチモーダルタスクの人気は高まり続けており、トレーニングデータの範囲を超えて一般化できる新しいモデルの開発に繋がっている。 現在のモデルは、モデルが将来のデータの変更に適応できる時間的一般化を欠いている。 本稿では,時間的一般化に成功できる先進的視覚質問応答モデル(vqa)を作成するための有効なアプローチについて述べる。 我々は,VQAv2およびMS-COCOデータセットの画像とキャプションを利用して,安定拡散による新しい画像を生成する新しいデータセットGenVQAを提案する。 このデータセットを使用して、7つのベースラインと最先端VQAモデルの組み合わせをテストする。 パフォーマンス評価では、オリジナルのVQAv2データセットを反映した質問に焦点が当てられ、回答は新しいイメージに調整されている。 本研究の目的は,VQAモデルの有効性を検証し,将来的なデータ配信の性能を評価することである。 モデルアーキテクチャは、時間分布シフトの下で一般化を改善する共通のスタイル選択を特定するために分析される。 この研究は、大規模な未来シフトデータセットを作成することの重要性を強調している。 このデータはVQAモデルの堅牢性を高め、将来のピアが時間分布シフトに適応する能力を向上させることができる。

Multi-modal tasks involving vision and language in deep learning continue to rise in popularity and are leading to the development of newer models that can generalize beyond the extent of their training data. The current models lack temporal generalization which enables models to adapt to changes in future data. This paper discusses a viable approach to creating an advanced Visual Question Answering (VQA) model which can produce successful results on temporal generalization. We propose a new data set, GenVQA, utilizing images and captions from the VQAv2 and MS-COCO dataset to generate new images through stable diffusion. This augmented dataset is then used to test a combination of seven baseline and cutting edge VQA models. Performance evaluation focuses on questions mirroring the original VQAv2 dataset, with the answers having been adjusted to the new images. This paper's purpose is to investigate the robustness of several successful VQA models to assess their performance on future data distributions. Model architectures are analyzed to identify common stylistic choices that improve generalization under temporal distribution shifts. This research highlights the importance of creating a large-scale future shifted dataset. This data can enhance the robustness of VQA models, allowing their future peers to have improved ability to adapt to temporal distribution shifts.
翻訳日:2023-07-21 15:48:21 公開日:2023-07-18
# 部分空間コヒーレント量子ビットの実験的生成とキャラクタリゼーション

Experimental generation and characterization of partially spatially coherent qubits ( http://arxiv.org/abs/2307.10397v1 )

ライセンス: Link先を確認
Preeti Sharma, Sakshi Rao and Bhaskar Kanseri(参考訳) 部分空間的コヒーレント量子ビットはコヒーレント量子ビットよりも乱流の大気条件に強い免疫を持ち、自由空間量子通信の優れた候補となる。 本稿では,ガウススキーモデル(GSM)ポンプビームを用いた自然パラメトリックダウンコンバージョン(SPDC)プロセスにおける部分空間コヒーレント量子ビットの生成について報告する。 この非線形過程について, ポンプの空間的コヒーレンス特性(古典的)を二光子場(量子)に移すことを初めて実験的に示す。 また、I型およびII型非線形SPDCプロセスで発生する部分コヒーレント量子ビットの空間的プロファイルを実験的に観察し、部分コヒーレント光子(qubit)の多モード特性を確認する。 これらの研究は、空間コヒーレンス(空間コヒーレンス)の調整可能な程度で空間コヒーレントな量子ビットの効率的な生成への道を開くもので、量子暗号、テレポーテーション、イメージング、リソグラフィーなどのフロンティア領域に幅広い応用をもたらす。

Partially spatially coherent qubits are more immune to turbulent atmospheric conditions than coherent qubits, which makes them excellent candidates for free-space quantum communication. In this article, we report the generation of partially spatially coherent qubits in a spontaneous parametric down-conversion (SPDC) process using a Gaussian Schell model (GSM) pump beam. For this non-linear process, we demonstrate experimentally for the first time, the transfer of spatial coherence features of the pump (classical) to the biphotons (quantum) field. Also, the spatial profiles of partially coherent qubits generated in type-I and type-II non-collinear SPDC process are experimentally observed and multi-mode nature of partially coherent photons (qubit) is ascertained. These investigations pave the way toward the efficient generation of partially spatially coherent qubits with a tunable degree of spatial coherence, which lead to wide range of applications in frontier areas such as quantum cryptography, teleportation, imaging, and lithography.
翻訳日:2023-07-21 15:47:18 公開日:2023-07-18
# mafat: 高速化エッジ推論のためのニューラルネットワークのメモリアウェアfusingとtiling

MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated Edge Inference ( http://arxiv.org/abs/2107.06960v2 )

ライセンス: Link先を確認
Jackson Farley, Andreas Gerstlauer(参考訳) リソース制約のあるエッジデバイス上で、コストのかかる機械学習(ML)ネットワークをローカルで実行する、という研究課題が増えている。 大きな畳み込み層を持つMLネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。 プルーニングや量子化のような以前のメモリ削減技術はモデルの精度を低下させ、再トレーニングを必要とする。 あるいは、分散メソッドは畳み込みを同等の小さなサブ計算に分割するが、実装は通信コストを導入し、デバイスネットワークを必要とする。 しかしながら、分散パーティショニングアプローチは、ネットワークをより小さな操作に分割することによって、単一のデバイス上のメモリフットプリントを削減するためにも使用できる。 本稿では,分散パーティショニングの先行作業を,単一のデバイス上でのメモリ認識実行に拡張する。 提案手法は,複数の畳み込み層が独立に融合・タイル化されるように,事前fusing戦略を拡張している。 これにより、メモリフットプリントを具体的に削減するために、オーバーヘッドとデータの再利用のトレードオフが可能になる。 本稿では,任意の畳み込み層に対して,メモリ使用率予測器と探索アルゴリズムを組み合わせることで,最適化されたフラクションとタイリング構成を提供する。 YOLOv2オブジェクト検出ネットワークに適用すると,本手法はメモリの半分以下で動作し,メモリの厳しい制約下では最大2.78の高速化を実現している。 さらに、我々のアルゴリズムは、手動検索で測定された最高のレイテンシの6%以内のレイテンシで設定を返します。

A rising research challenge is running costly machine learning (ML) networks locally on resource-constrained edge devices. ML networks with large convolutional layers can easily exceed available memory, increasing latency due to excessive OS swapping. Previous memory reduction techniques such as pruning and quantization reduce model accuracy and often require retraining. Alternatively, distributed methods partition the convolutions into equivalent smaller sub-computations, but the implementations introduce communication costs and require a network of devices. Distributed partitioning approaches can, however, also be used to run in a reduced memory footprint on a single device by subdividing the network into smaller operations. In this paper, we extend prior work on distributed partitioning into a memory-aware execution on a single device. Our approach extends prior fusing strategies to allow for multiple groups of convolutional layers that are fused and tiled independently. This enables trading off overhead versus data reuse in order to specifically reduces memory footprint. We propose a memory usage predictor coupled with a search algorithm to provide optimized fusing and tiling configurations for an arbitrary set of convolutional layers. When applied to the YOLOv2 object detection network, results show that our approach can run in less than half the memory, and with a speedup of up to 2.78 under severe memory constraints. Additionally, our algorithm will return a configuration with a latency that is within 6% of the best latency measured in a manual search.
翻訳日:2023-07-20 18:43:37 公開日:2023-07-18
# ライドバーグアレイのための確率級数展開量子モンテカルロ

Stochastic Series Expansion Quantum Monte Carlo for Rydberg Arrays ( http://arxiv.org/abs/2107.00766v3 )

ライセンス: Link先を確認
Ejaaz Merali, Isaac J. S. De Vlugt, Roger G. Melko(参考訳) レイドバーグ原子の配列は、強く相互作用する量子多体系を実現する強力なプラットフォームである。 一般的なライドベルク・ハミルトニアン (Rydberg Hamiltonian) には符号問題がないため、その平衡特性は量子モンテカルロ (QMC) による効率的なシミュレーションに有効である。 本稿では,任意の格子上で相互作用するRydberg原子に対する確率系列拡張QMCアルゴリズムを提案する。 本稿では,典型的な実験パラメータに対する物理観測可能性の効率的なサンプリングと計算を可能にするクラスタ更新について述べるとともに,1次元と2次元の大型rydbergアレイ上で実験結果を再現できることを示す。

Arrays of Rydberg atoms are a powerful platform to realize strongly-interacting quantum many-body systems. A common Rydberg Hamiltonian is free of the sign problem, meaning that its equilibrium properties are amenable to efficient simulation by quantum Monte Carlo (QMC). In this paper, we develop a Stochastic Series Expansion QMC algorithm for Rydberg atoms interacting on arbitrary lattices. We describe a cluster update that allows for the efficient sampling and calculation of physical observables for typical experimental parameters, and show that the algorithm can reproduce experimental results on large Rydberg arrays in one and two dimensions.
翻訳日:2023-07-20 18:43:14 公開日:2023-07-18
# 強最適分類木

Strong Optimal Classification Trees ( http://arxiv.org/abs/2103.15965v3 )

ライセンス: Link先を確認
Sina Aghaei, Andr\'es G\'omez, Phebe Vayanos(参考訳) 決定木は最も人気のある機械学習モデルの一つであり、収益管理や医療、バイオインフォマティクスといった応用で日常的に使われている。 本稿では,不定分割を用いた最適二分分類木を学習する問題を考える。 この話題に関する文献は、ヒューリスティックアプローチの経験的部分最適化性と、mio(mixed-integer optimization)テクノロジの大幅な改善の両方に動機づけられて、近年急増している。 しかし、文献からの既存のMIOベースのアプローチは、MIOのパワーを最大限に活用していない。 本稿では,このギャップを埋めるために,最適二分分類木を学習するための直感的なフローベースのmio定式化を提案する。 我々の定式化は、解釈可能かつ公正な決定木の設計を可能にするために、側面制約を満たすことができる。 さらに,この定式化は,2値データの場合の既存手法よりも線形最適化緩和が強いことを示す。 計算速度を上げるために,本定式化とmax-flow/min-cut双対性を用いてベンダー分解法を導出する。 本稿では,MIOの実行可能な集合のファセットを,主問題に加える制約として確実に生成する,分解サブプロブレムの解法を提案する。 我々は,標準ベンチマークデータセットに関する広範な計算実験を行い,提案手法が最先端mio技術よりも29倍高速であることを示し,サンプル外性能を最大8%向上することを示した。

Decision trees are among the most popular machine learning models and are used routinely in applications ranging from revenue management and medicine to bioinformatics. In this paper, we consider the problem of learning optimal binary classification trees with univariate splits. Literature on the topic has burgeoned in recent years, motivated both by the empirical suboptimality of heuristic approaches and the tremendous improvements in mixed-integer optimization (MIO) technology. Yet, existing MIO-based approaches from the literature do not leverage the power of MIO to its full extent: they rely on weak formulations, resulting in slow convergence and large optimality gaps. To fill this gap in the literature, we propose an intuitive flow-based MIO formulation for learning optimal binary classification trees. Our formulation can accommodate side constraints to enable the design of interpretable and fair decision trees. Moreover, we show that our formulation has a stronger linear optimization relaxation than existing methods in the case of binary data. We exploit the decomposable structure of our formulation and max-flow/min-cut duality to derive a Benders' decomposition method to speed-up computation. We propose a tailored procedure for solving each decomposed subproblem that provably generates facets of the feasible set of the MIO as constraints to add to the main problem. We conduct extensive computational experiments on standard benchmark datasets on which we show that our proposed approaches are 29 times faster than state-of-the-art MIO-based techniques and improve out-of-sample performance by up to 8%.
翻訳日:2023-07-20 18:42:44 公開日:2023-07-18
# 宣言機構設計

Declarative Mechanism Design ( http://arxiv.org/abs/1912.13122v5 )

ライセンス: Link先を確認
Andr\'es Garc\'ia-Camino(参考訳) マルチエージェントシステム(mas)と宣言型電子機関(deis)の規制は、(物理的およびソフトウェア)エージェントと法に関する過去10年間の多分野にわたる研究テーマであったが、最近は2016年以来、ニュースを流用するロボット弁護士へと進化した。 ソフトウェアエージェントの行動を制限する最初の提案の1つは、電子的な機関である。しかしながら、最近のディープラーニング(dl)としての人工ニューラルネットワーク(anns)の改革により、dlの使用に関するセキュリティ、プライバシ、倫理、法的な問題により、人工知能(ai)コミュニティの懸念が高まっている。 現在、MASの規制はほぼ正しく対処されているため、我々はInstitutional Neural Network (INN)と呼ぶ特殊なタイプの制御ニューラルネットワークのエージェントベーストレーニングとして、ニューラルネットワークの規制を提案する。 本研究の目的は,人工学習(AT)に注意を向けることであり,Regulated Deep Learning(RDL)の概念実証実装を示す仮の回答を与えることである。 本稿では,これまで宣言的モデルや電子施設の拡張に用いられてきたsIを,ニューラルネットワークの実行と人工教師(AT)とのインタラクションを規制する手段として紹介する。

Regulation of Multi-Agent Systems (MAS) and Declarative Electronic Institutions (DEIs) was a multidisciplinary research topic of the past decade involving (Physical and Software) Agents and Law since the beginning, but recently evolved towards News-claimed Robot Lawyer since 2016. One of these first proposals of restricting the behaviour of Software Agentswas Electronic Institutions.However, with the recent reformulation of Artificial Neural Networks (ANNs) as Deep Learning (DL), Security, Privacy,Ethical and Legal issues regarding the use of DL has raised concerns in the Artificial Intelligence (AI) Community. Now that the Regulation of MAS is almost correctly addressed, we propose the Regulation of Artificial Neural Networks as Agent-based Training of a special type of regulated Artificial Neural Network that we call Institutional Neural Network (INN).The main purpose of this paper is to bring attention to Artificial Teaching (AT) and to give a tentative answer showing a proof-of-concept implementation of Regulated Deep Learning (RDL). This paper introduces the former concept and provide sI, a language previously used to model declaratively and extend Electronic Institutions, as a means to regulate the execution of Artificial Neural Networks and their interactions with Artificial Teachers (ATs)
翻訳日:2023-07-20 18:41:27 公開日:2023-07-18
# オンライン確率アルゴリズムによる時間依存ストリーミングデータからの学習

Learning from time-dependent streaming data with online stochastic algorithms ( http://arxiv.org/abs/2205.12549v2 )

ライセンス: Link先を確認
Antoine Godichon-Baggioni, Nicklas Werge, Olivier Wintenberger(参考訳) 本稿では,時間依存および偏りの勾配推定を伴うストリーミング環境での確率的最適化について述べる。 我々は,Stochastic Gradient Descent (SGD), mini-batch SGD, time-variant mini-batch SGD,およびPolyak-Ruppert平均値など,いくつかの一階法を解析した。 非漸近的解析は、依存、バイアス、凸レベルを関連付け、収束を加速する新しいヒューリスティックを確立する。 特に我々の発見は (i) 時間変化のミニバッチSGD法は、長距離および短距離依存構造を分解する能力を有する。 (二)バイアス付きSGD法は、バイアスのない手法と同等の性能を達成でき、 3)Polyak-Ruppert平均化は確率最適化アルゴリズムの収束を加速させる。 理論的知見を検証するため,シミュレーションデータと実時間データの両方を用いて一連の実験を行った。

This paper addresses stochastic optimization in a streaming setting with time-dependent and biased gradient estimates. We analyze several first-order methods, including Stochastic Gradient Descent (SGD), mini-batch SGD, and time-varying mini-batch SGD, along with their Polyak-Ruppert averages. Our non-asymptotic analysis establishes novel heuristics that link dependence, biases, and convexity levels, enabling accelerated convergence. Specifically, our findings demonstrate that (i) time-varying mini-batch SGD methods have the capability to break long- and short-range dependence structures, (ii) biased SGD methods can achieve comparable performance to their unbiased counterparts, and (iii) incorporating Polyak-Ruppert averaging can accelerate the convergence of the stochastic optimization algorithms. To validate our theoretical findings, we conduct a series of experiments using both simulated and real-life time-dependent data.
翻訳日:2023-07-20 18:34:40 公開日:2023-07-18
# MARVEL:原始的な深部強化学習によるラスタマンガベクトル化

MARVEL: Raster Manga Vectorization via Primitive-wise Deep Reinforcement Learning ( http://arxiv.org/abs/2110.04830v2 )

ライセンス: Link先を確認
Hao Su, Jianwei Niu, Xuefeng Liu, Jiahe Cui, Ji Wan(参考訳) 漫画(まんが)は、白黒のストロークからなり、デジタル機器のラスター画像として一般的に見られる、流行の日本風の漫画形式である。 典型的なマンガは、単純なテクスチャ、広い線、少数の色勾配を持ち、ベクトルグラフィック(例えば適応解像度や小さなファイルサイズ)の利点を享受するベクトル化可能な性質を持っている。 本稿では, 深層強化学習(DRL)によるラスタマンガスのベクトル化のためのプリミティブなアプローチであるMARVEL(Manga's Raster to VEctor Learning)を提案する。 画像全体のベクトルパラメータを予測する従来の学習ベースの方法とは異なり、マーベルはマンガ全体を基本プリミティブのテキストストローク行の集まりとみなし、ターゲットイメージをプリミティブ列に分解して正確なベクトル化を達成するdrlモデルを設計する新しい視点を導入する。 さらに,ベクトル化精度の向上とファイルサイズ削減のために,正確なストロークラインを予測するためのストローク精度報酬と,誤りや繰り返しストロークの発生を回避するプルーニング機構を提案する。 広汎な主観的および客観的実験により、MARVELは印象的な結果をもたらし、最先端のレベルに達することが示されている。 私たちのコードは、https://github.com/SwordHolderSH/Mang2Vec.comでオープンソースです。

Manga is a fashionable Japanese-style comic form that is composed of black-and-white strokes and is generally displayed as raster images on digital devices. Typical mangas have simple textures, wide lines, and few color gradients, which are vectorizable natures to enjoy the merits of vector graphics, e.g., adaptive resolutions and small file sizes. In this paper, we propose MARVEL (MAnga's Raster to VEctor Learning), a primitive-wise approach for vectorizing raster mangas by Deep Reinforcement Learning (DRL). Unlike previous learning-based methods which predict vector parameters for an entire image, MARVEL introduces a new perspective that regards an entire manga as a collection of basic primitives\textemdash stroke lines, and designs a DRL model to decompose the target image into a primitive sequence for achieving accurate vectorization. To improve vectorization accuracies and decrease file sizes, we further propose a stroke accuracy reward to predict accurate stroke lines, and a pruning mechanism to avoid generating erroneous and repeated strokes. Extensive subjective and objective experiments show that our MARVEL can generate impressive results and reaches the state-of-the-art level. Our code is open-source at: https://github.com/SwordHolderSH/Mang2Vec.
翻訳日:2023-07-20 18:31:57 公開日:2023-07-18
# 不均衡分類のためのSVMの一次推定下位解法

Primal Estimated Subgradient Solver for SVM for Imbalanced Classification ( http://arxiv.org/abs/2206.09311v5 )

ライセンス: Link先を確認
John Sun(参考訳) 我々は,PEGASOS SVMが8.6:1から130:1の範囲のマイノリティ比を持つ不均衡データセットに対して優れた性能を達成し,インタセプト(バイアス),正規化,パラメータがデータセット選択のパフォーマンスに影響を及ぼすかどうかを確認することを目的としている。 SMOTE法には多くの方法があるが、計算量が少ない方法を目指している。 学習曲線を調べることにより,その性能を評価する。 これらの曲線は、我々が過剰に適合するか過小評価するか、またはプロセス中に選択したデータのランダムなサンプルが無作為でないか、依存変数クラスで十分に多様でないかを診断し、アルゴリズムが見当たらない例に一般化する。 また、バリデーション曲線におけるハイパーパラメータの背景とテストと列車のエラーも見ていきます。 我々は、ding の線形 svm decidl 法の pegasos コストに敏感な svm の結果をベンチマークする。 彼は1つのデータセットで.5のROC-AUCを得た。 私たちの仕事は、svmにカーネルを組み込むことでdingの作業を拡張します。 マルチパラメータのクロスバリデーション中に混合データ型を格納するための辞書があるため、MATLABではなくPythonを使用します。

We aim to demonstrate in experiments that our cost sensitive PEGASOS SVM achieves good performance on imbalanced data sets with a Majority to Minority Ratio ranging from 8.6:1 to 130:1 and to ascertain whether the including intercept (bias), regularization and parameters affects performance on our selection of datasets. Although many resort to SMOTE methods, we aim for a less computationally intensive method. We evaluate the performance by examining the learning curves. These curves diagnose whether we overfit or underfit or whether the random sample of data chosen during the process was not random enough or diverse enough in dependent variable class for the algorithm to generalized to unseen examples. We will also see the background of the hyperparameters versus the test and train error in validation curves. We benchmark our PEGASOS Cost-Sensitive SVM's results of Ding's LINEAR SVM DECIDL method. He obtained an ROC-AUC of .5 in one dataset. Our work will extend the work of Ding by incorporating kernels into SVM. We will use Python rather than MATLAB as python has dictionaries for storing mixed data types during multi-parameter cross-validation.
翻訳日:2023-07-20 18:21:54 公開日:2023-07-18
# 重み付き非対称損失関数を用いたニューラルネットワークモデルの予測間隔

Prediction intervals for neural network models using weighted asymmetric loss functions ( http://arxiv.org/abs/2210.04318v5 )

ライセンス: Link先を確認
Milo Grillo, Yunpeng Han and Agnieszka Werpachowska(参考訳) 本稿では,予測間隔(pi)を近似・予測する簡易かつ効率的な手法を提案する。 本手法は重み付き非対称損失関数を利用してpiの下限と上限を推定し,その被覆確率によって重み付けを決定する。 提案手法の簡潔な数学的証明を行い、パラメータ関数のPIを導出する方法を示し、深層ニューラルネットワークのトレーニングにおけるその有効性について議論する。 ニューラルネットワークモデルを用いた実世界の予測タスクにおける提案手法のテストにより,複雑な機械学習シナリオにおいて信頼性の高いpiを生成できることが示された。

We propose a simple and efficient approach to generate a prediction intervals (PI) for approximated and forecasted trends. Our method leverages a weighted asymmetric loss function to estimate the lower and upper bounds of the PI, with the weights determined by its coverage probability. We provide a concise mathematical proof of the method, show how it can be extended to derive PIs for parametrised functions and discuss its effectiveness when training deep neural networks. The presented tests of the method on a real-world forecasting task using a neural network-based model show that it can produce reliable PIs in complex machine learning scenarios.
翻訳日:2023-07-20 18:13:57 公開日:2023-07-18
# FocalUNETR:CT画像の境界認識セグメンテーションのためのFocal Transformer

FocalUNETR: A Focal Transformer for Boundary-aware Segmentation of CT Images ( http://arxiv.org/abs/2210.03189v2 )

ライセンス: Link先を確認
Chengyin Li, Yao Qiang, Rafi Ibn Sultan, Hassan Bagher-Ebadian, Prashant Khanduri, Indrin J. Chetty, and Dongxiao Zhu(参考訳) CT(CT)を用いた治療計画のための精密前立腺分節化は,(1)CTの軟組織コントラストから得られた前立腺の境界が不明瞭であること,(2)長距離グローバルコンテキストを捉えるための畳み込みニューラルネットワークベースモデルの制限により困難である。 本稿では,CT画像から局所的な視覚特徴とグローバルな文脈を効果的に抽出する焦点変換器を用いた画像分割アーキテクチャを提案する。 さらに,CT画像における不明瞭な境界問題に対処するために,補助的境界誘発ラベル回帰タスクと主前立腺セグメンテーションタスクを併用して設計する。 この設計により、他の競合する手法よりもCTベースの前立腺分割タスクの質が大幅に向上し、より高いDice類似度係数、低いHausdorff Distance、および平均対称表面距離が、プライベートおよびパブリックの両方のCT画像データセット上で大幅に向上することを示した。 私たちのコードは、この \href{https://github.com/ChengyinLee/FocalUNETR.git}{link} で利用可能です。

Computed Tomography (CT) based precise prostate segmentation for treatment planning is challenging due to (1) the unclear boundary of the prostate derived from CT's poor soft tissue contrast and (2) the limitation of convolutional neural network-based models in capturing long-range global context. Here we propose a novel focal transformer-based image segmentation architecture to effectively and efficiently extract local visual features and global context from CT images. Additionally, we design an auxiliary boundary-induced label regression task coupled with the main prostate segmentation task to address the unclear boundary issue in CT images. We demonstrate that this design significantly improves the quality of the CT-based prostate segmentation task over other competing methods, resulting in substantially improved performance, i.e., higher Dice Similarity Coefficient, lower Hausdorff Distance, and Average Symmetric Surface Distance, on both private and public CT image datasets. Our code is available at this \href{https://github.com/ChengyinLee/FocalUNETR.git}{link}.
翻訳日:2023-07-20 18:13:46 公開日:2023-07-18
# 視覚に基づく深層強化学習のための自己指導手法を用いた視覚変換器の事前学習

Pretraining the Vision Transformer using self-supervised methods for vision based Deep Reinforcement Learning ( http://arxiv.org/abs/2209.10901v2 )

ライセンス: Link先を確認
Manuel Goul\~ao and Arlindo L. Oliveira(参考訳) Vision Transformerアーキテクチャは、いくつかのベンチマークで畳み込みベースのネットワークを廃止したコンピュータビジョン(CV)分野での競争力を示している。 それでも、畳み込みニューラルネットワーク(CNN)は強化学習における表現モジュールの優先的なアーキテクチャである。 本研究では,最先端の自己管理手法を用いて視覚トランスフォーマーを事前学習し,学習した表現の質を評価する。 この文脈における時間次元の重要性を示すために,時間順序検証タスクを付加することにより観測間の時間関係をよりよく捉えるためのvicregの拡張を提案する。 以上の結果から,ALE(Atari Learning Environment)の観測結果から有用な表現を学習し,表現の崩壊を回避し,強化学習(RL)におけるデータ効率の向上につながることが示唆された。 さらに、時間順序検証タスクで事前訓練されたエンコーダは、よりリッチな表現、より集中した注意マップ、およびエンコーダの層全体にわたるスペーサー表現ベクトルを含む全ての実験において最良の結果を示す。 この研究により、RL環境からの観察による自己教師付き事前学習において、ViTが学んだ表現について、そして、どの特性が最高のパフォーマンスエージェントに導かれるかについて、いくつかの洞察を提供したいと思っています。 ソースコードは、https://github.com/mgoulao/TOV-VICRegで入手できる。

The Vision Transformer architecture has shown to be competitive in the computer vision (CV) space where it has dethroned convolution-based networks in several benchmarks. Nevertheless, convolutional neural networks (CNN) remain the preferential architecture for the representation module in reinforcement learning. In this work, we study pretraining a Vision Transformer using several state-of-the-art self-supervised methods and assess the quality of the learned representations. To show the importance of the temporal dimension in this context we propose an extension of VICReg to better capture temporal relations between observations by adding a temporal order verification task. Our results show that all methods are effective in learning useful representations and avoiding representational collapse for observations from Atari Learning Environment (ALE) which leads to improvements in data efficiency when we evaluated in reinforcement learning (RL). Moreover, the encoder pretrained with the temporal order verification task shows the best results across all experiments, with richer representations, more focused attention maps and sparser representation vectors throughout the layers of the encoder, which shows the importance of exploring such similarity dimension. With this work, we hope to provide some insights into the representations learned by ViT during a self-supervised pretraining with observations from RL environments and which properties arise in the representations that lead to the best-performing agents. The source code will be available at: https://github.com/mgoulao/TOV-VICReg
翻訳日:2023-07-20 18:13:24 公開日:2023-07-18
# フィードバックによるインタラクティブダイナミクス:ユニタリだが散逸的進化

Feedback-induced interactive dynamics: unitary but dissipative evolution ( http://arxiv.org/abs/2211.09291v3 )

ライセンス: Link先を確認
Shuohang Wu and Zi Cai(参考訳) 物理系の時間発展は一般に微分方程式によって記述され、時空離散化を伴う差分スキームを採用することにより数値的に解ける。 この離散化は、数値的なアーティファクトとして、進化中に蓄積されたエラーをもたらすため、シミュレーションにおいて通常負の役割を果たす。 しかし、量子回路では ``evolution time'' は回路層の深さで表されるので、本質的に離散的である。 したがって、離散化誘起誤差は数値的アーティファクトではなく、従来の量子力学に存在しない顕著な非平衡現象の原因となる物理的観測可能な効果である。 本稿では,計測フィードバックと時間的離散化の組み合わせが,一元的だが散逸的な進化によって特徴づけられる新しいタイプの量子力学をもたらすことを示す。 そのようなユニタリだが散逸的な進化の物理的結果として、自発対称性の破れを持つ非平衡定常状態がゼロ次元(単量子)系で明らかにされる。 確立されたアンダーソン局在化とは別の局所化機構も1次元のインタラクティブ量子システムで提案されている。

The time evolution of a physical system is generally described by a differential equation, which can be solved numerically by adopting a difference scheme with space-time discretization. This discretization, as a numerical artifact, results in accumulated errors during evolution thus usually plays a negative role in simulations. In a quantum circuit, however, the ``evolution time'' is represented by the depth of the circuit layer, thus is intrinsically discrete. Hence, the discretization-induced error therein is not a numerical artifact, but a physical observable effect responsible for remarkable nonequilibrium phenomena absent in conventional quantum dynamics. In this paper, we show that the combination of measurement feedback and temporal discretization can give rise to a new type of quantum dynamics characterized by unitary but dissipative evolution. As physical consequences of such an unitary but dissipative evolution, a nonequilibrium steady state with spontaneous symmetry breaking is revealed in a zero-dimensional (single-qubit) system. A localization mechanism distinct from that in the well-established Anderson localization has also been proposed in an one-dimensional interactive quantum system.
翻訳日:2023-07-20 18:04:08 公開日:2023-07-18
# ワイヤタップチャネル上の離散変調による連続可変量子鍵分布の確率振幅整形

Probabilistic amplitude shaping for continuous-variable quantum key distribution with discrete modulation over a wiretap channel ( http://arxiv.org/abs/2211.05688v2 )

ライセンス: Link先を確認
Michele N. Notarnicola, Stefano Olivares, Enrico Forestieri, Emanuele Parente, Luca Pot\`i, Marco Secondini(参考訳) 最大情報転送を実現するために、連続可変量子鍵分布(CV-QKD)プロトコルで送信されるサンプルは、連続ガウス分布から引き出す必要がある。 実際、実践的な実装では、送信機は有限(パワー)のダイナミクスを持ち、ガウスサンプリングは近似できるだけである。 これは、量子プロトコルを小さなパワーで動作させる必要がある。 本稿では,有限個のシンボル集合の適度な確率的振幅整形により,平均的なパワーを増加させるのに最適なチャネル容量を近似できることを示す。 cv-qkdの枠組みにおける本手法の実現可能性について検討し,確率的振幅整形を支援する離散二次振幅変調を用いたプロトコルを提案し,ワイヤタップチャネルとロスレスホモダイン検出を仮定して鍵生成率解析を行う。

To achieve the maximum information transfer and face a possible eavesdropper, the samples transmitted in continuous-variable quantum key distribution (CV-QKD) protocols are to be drawn from a continuous Gaussian distribution. As a matter of fact, in practical implementations the transmitter has a finite (power) dynamics and the Gaussian sampling can be only approximated. This requires the quantum protocols to operate at small powers. In this paper, we show that a suitable probabilistic amplitude shaping of a finite set of symbols allows to approximate at will the optimal channel capacity also for increasing average powers. We investigate the feasibility of this approach in the framework of CV-QKD, propose a protocol employing discrete quadrature amplitude modulation assisted with probabilistic amplitude shaping, and we perform the key generation rate analysis assuming a wiretap channel and lossless homodyne detection.
翻訳日:2023-07-20 18:03:53 公開日:2023-07-18
# 教育ビデオの視覚的ナレーション検出」とは何か?(動画あり)

What You Say Is What You Show: Visual Narration Detection in Instructional Videos ( http://arxiv.org/abs/2301.02307v2 )

ライセンス: Link先を確認
Kumar Ashutosh, Rohit Girdhar, Lorenzo Torresani, Kristen Grauman(参考訳) ナレーション付き 'how-to' ビデオは、視覚表現の学習からロボットポリシーのトレーニングに至るまで、幅広い学習問題のための有望なデータソースとして登場した。 しかし、ナレーションはビデオで示される動作を必ずしも記述していないため、このデータは極めて騒がしい。 この問題に対処するために,映像中の行動によってナレーションが視覚的に描写されているかどうかを判定する,視覚的ナレーション検出の新たなタスクを導入する。 本稿では,マルチモーダルな手がかりと擬似ラベルを用いて,弱ラベルデータのみを用いて視覚的なナレーションを検出する手法である(wys^2)を提案する。 本モデルでは,映像中の視覚的ナレーションの検出に成功し,高いベースラインを達成し,映像の最先端の要約や時間的アライメントに対する影響を実証する。

Narrated ''how-to'' videos have emerged as a promising data source for a wide range of learning problems, from learning visual representations to training robot policies. However, this data is extremely noisy, as the narrations do not always describe the actions demonstrated in the video. To address this problem we introduce the novel task of visual narration detection, which entails determining whether a narration is visually depicted by the actions in the video. We propose What You Say is What You Show (WYS^2), a method that leverages multi-modal cues and pseudo-labeling to learn to detect visual narrations with only weakly labeled data. Our model successfully detects visual narrations in in-the-wild videos, outperforming strong baselines, and we demonstrate its impact for state-of-the-art summarization and temporal alignment of instructional videos.
翻訳日:2023-07-20 17:55:40 公開日:2023-07-18
# CIPER: コントラスト学習と予測学習による不変表現と等価表現の組み合わせ

CIPER: Combining Invariant and Equivariant Representations Using Contrastive and Predictive Learning ( http://arxiv.org/abs/2302.02330v2 )

ライセンス: Link先を確認
Xia Xu, Jochen Triesch(参考訳) 自己教師付き表現学習(SSRL)法はコンピュータビジョンにおいて大きな成功を収めている。 近年,事前定義されたデータ拡張操作に不変あるいは同値な表現を学習するために,拡張に基づくコントラスト学習法が提案されている。 しかし、不変あるいは同変の特徴は、選択された拡張に依存する特定の下流タスクのみを好む。 学習した表現がタスク要求に合致しない場合、パフォーマンスが低下する可能性がある。 本稿では、オブジェクトのビューを操作でき、各ビューを生成するアクションの知識を持つアクティブオブザーバについて考察する。 比較不変性と予測同変表現学習(CIPER)を紹介する。 ciperは1つの共有エンコーダと2つの異なる出力ヘッドを用いた不変および同変学習目的の両方を含む。 1つの出力ヘッドは、拡張への不変性を奨励する最先端のコントラスト目的を持つプロジェクションヘッドである。 もう1つは、拡張パラメータを推定し、同変の特徴を捉える予測ヘッドである。 両方のヘッドはトレーニング後に破棄され、エンコーダのみが下流タスクに使用される。 我々は静的画像タスクと時間拡張画像データセットについて評価する。 この結果から,CIPERは様々なタスクにおいて,基準となるコントラスト法よりも優れていた。 興味深いことに、CIPERは階層的に構造化された表現の形成を奨励し、オブジェクトの異なるビューが潜在表現空間で体系的に組織化される。

Self-supervised representation learning (SSRL) methods have shown great success in computer vision. In recent studies, augmentation-based contrastive learning methods have been proposed for learning representations that are invariant or equivariant to pre-defined data augmentation operations. However, invariant or equivariant features favor only specific downstream tasks depending on the augmentations chosen. They may result in poor performance when the learned representation does not match task requirements. Here, we consider an active observer that can manipulate views of an object and has knowledge of the action(s) that generated each view. We introduce Contrastive Invariant and Predictive Equivariant Representation learning (CIPER). CIPER comprises both invariant and equivariant learning objectives using one shared encoder and two different output heads on top of the encoder. One output head is a projection head with a state-of-the-art contrastive objective to encourage invariance to augmentations. The other is a prediction head estimating the augmentation parameters, capturing equivariant features. Both heads are discarded after training and only the encoder is used for downstream tasks. We evaluate our method on static image tasks and time-augmented image datasets. Our results show that CIPER outperforms a baseline contrastive method on various tasks. Interestingly, CIPER encourages the formation of hierarchically structured representations where different views of an object become systematically organized in the latent representation space.
翻訳日:2023-07-20 17:44:00 公開日:2023-07-18
# 銀河によるロバスト場準同値推論

Robust Field-level Likelihood-free Inference with Galaxies ( http://arxiv.org/abs/2302.14101v2 )

ライセンス: Link先を確認
Natal\'i S. M. de Santi, Helen Shao, Francisco Villaescusa-Navarro, L. Raul Abramo, Romain Teyssier, Pablo Villanueva-Domingo, Yueying Ni, Daniel Angl\'es-Alc\'azar, Shy Genel, Elena Hernandez-Martinez, Ulrich P. Steinwandel, Christopher C. Lovell, Klaus Dolag, Tiago Castro, Mark Vogelsberger(参考訳) 我々は、CAMELSプロジェクトの最先端の流体力学シミュレーションから銀河カタログを用いて、グラフニューラルネットワークを訓練し、フィールドレベル確率自由推論を行う。 我々のモデルは回転、翻訳、置換不変量であり、スケールにいかなるカットも課さない。 私たちのモデルでは、わずか$(25~h^{-1}{\rm mpc})^3$ボリュームの3ドルの位置と半径速度だけを含む銀河カタログから、約12ドルの精度で$\omega_{\rm m}$の値を推測できます。 さらに重要なことは、何千もの流体力学シミュレーションの銀河カタログ上でモデルをテストすることで、それぞれ異なる超新星とAGNフィードバックの効率を持ち、5つの異なるコードとサブグリッドモデル(IllustrisTNG, SIMBA, Astrid, Magneticum, SWIFT-EAGLE)を走らせます。 さらに、パラメータ空間の広大な領域をカバーする1,024ドルのシミュレーション(5ドルの宇宙論的パラメータと23ドルの天体物理学的パラメータのバリエーション)でモデルをテストすることで、モデルが本当にうまく外挿できることが分かりました。 その結果、強固なモデルを構築する鍵は銀河の位置と速度の両方を使用することであり、このネットワークは銀河形成に依存しず、$\sim10~h^{-1}{\rm kpc}$以上のスケールで有効である可能性が示唆された。

We train graph neural networks to perform field-level likelihood-free inference using galaxy catalogs from state-of-the-art hydrodynamic simulations of the CAMELS project. Our models are rotational, translational, and permutation invariant and do not impose any cut on scale. From galaxy catalogs that only contain $3$D positions and radial velocities of $\sim 1, 000$ galaxies in tiny $(25~h^{-1}{\rm Mpc})^3$ volumes our models can infer the value of $\Omega_{\rm m}$ with approximately $12$ % precision. More importantly, by testing the models on galaxy catalogs from thousands of hydrodynamic simulations, each having a different efficiency of supernova and AGN feedback, run with five different codes and subgrid models - IllustrisTNG, SIMBA, Astrid, Magneticum, SWIFT-EAGLE -, we find that our models are robust to changes in astrophysics, subgrid physics, and subhalo/galaxy finder. Furthermore, we test our models on $1,024$ simulations that cover a vast region in parameter space - variations in $5$ cosmological and $23$ astrophysical parameters - finding that the model extrapolates really well. Our results indicate that the key to building a robust model is the use of both galaxy positions and velocities, suggesting that the network have likely learned an underlying physical relation that does not depend on galaxy formation and is valid on scales larger than $\sim10~h^{-1}{\rm kpc}$.
翻訳日:2023-07-20 17:34:04 公開日:2023-07-18
# 非エルミート多体ランダウ・ツェナー系の量子力学

Quantum dynamics of non-Hermitian many-body Landau-Zener systems ( http://arxiv.org/abs/2304.03471v2 )

ライセンス: Link先を確認
Rajesh K. Malla, Julia Cen, Wilton J. M. Kort-Kamp, Avadh Saxena(参考訳) 線形駆動非エルミート量子系を大規模に解く枠組みを開発した。 エルミートシナリオにおけるそのようなモデルのクラスは、多状態ランダウ・ツェナーモデル(MLZ)として知られている。 非ハーミティー性は、ダイアバティックレベルの間の反エルミティアン結合から生じる。 我々は、非正規化波動関数の同時成長を記述するこの種類のモデルに特有の新しい保存則が存在することを発見した。 これらのモデルはボース=アインシュタイン凝縮に応用され、多種ボソニック系のダイナミクスを記述することができる。 保存法則は二原子分子の原子への解離を説明する対生成機構に関係している。 可解かつ半古典的可解なNMLZモデルのための一般的なフレームワークを提供する。 我々の発見は、時間依存の非エルミート量子系における様々な創発現象の新しい道を開く。

We develop a framework to solve a large class of linearly driven non-Hermitian quantum systems. Such a class of models in the Hermitian scenario is commonly known as multi-state Landau-Zener (MLZ) models. The non-Hermiticity emerges from the anti-Hermitian couplings between the diabatic levels. We find that there exists a new conservation law, unique to this class of models, that describes the simultaneous growth of the unnormalized wavefunctions. These models have practical applications in Bose-Einstein condensates, and they can describe the dynamics of multi-species bosonic systems. The conservation law relates to a pair-production mechanism that explains the dissociation of diatomic molecules into atoms. We provide a general framework for both solvable and semiclassical solvable NMLZ models. Our findings will open new avenues for a number of diverse emergent phenomena in explicitly time-dependent non-Hermitian quantum systems.
翻訳日:2023-07-20 17:25:04 公開日:2023-07-18
# 距離ベース外乱の確率論的変換

A Probabilistic Transformation of Distance-Based Outliers ( http://arxiv.org/abs/2305.09446v2 )

ライセンス: Link先を確認
David Muhr, Michael Affenzeller, Josef K\"ung(参考訳) 距離に基づく外れ値検出手法のスコアは解釈が難しいため、追加のコンテキストなしで通常のデータポイントと外れ値の切断しきい値を決定することは困難である。 本稿では,距離ベース外れ値の一般変換を解釈可能な確率的推定に記述する。 この変換はランキング安定であり、通常のデータポイントと外れ値のデータポイントのコントラストを増加させる。 データポイント間の距離関係を決定するには、データ内の最寄りのneighbor関係を識別する必要があるが、計算された距離のほとんどが破棄される。 距離確率分布をモデル化するために他のデータポイントへの距離を使用でき、その後、分布を用いて距離ベースのアウトリーチスコアをオフリー確率に変換する。 実験の結果,確率変換は多数の表と画像のベンチマークデータに比較して検出性能に影響を与えず,通常のサンプルと外値のコントラストが増大し,解釈可能な外値スコアが得られた。 本研究は, 広範囲な距離ベース外乱検出手法に一般化され, 既存の距離計算が用いられているため, 計算オーバーヘッドが大幅に増大しない。

The scores of distance-based outlier detection methods are difficult to interpret, making it challenging to determine a cut-off threshold between normal and outlier data points without additional context. We describe a generic transformation of distance-based outlier scores into interpretable, probabilistic estimates. The transformation is ranking-stable and increases the contrast between normal and outlier data points. Determining distance relationships between data points is necessary to identify the nearest-neighbor relationships in the data, yet, most of the computed distances are typically discarded. We show that the distances to other data points can be used to model distance probability distributions and, subsequently, use the distributions to turn distance-based outlier scores into outlier probabilities. Our experiments show that the probabilistic transformation does not impact detection performance over numerous tabular and image benchmark datasets but results in interpretable outlier scores with increased contrast between normal and outlier samples. Our work generalizes to a wide range of distance-based outlier detection methods, and because existing distance computations are used, it adds no significant computational overhead.
翻訳日:2023-07-20 17:15:07 公開日:2023-07-18
# 高次元生成モデルの忠実性と多様性を測定するための精度とリコールの創発的非対称性

Emergent Asymmetry of Precision and Recall for Measuring Fidelity and Diversity of Generative Models in High Dimensions ( http://arxiv.org/abs/2306.09618v2 )

ライセンス: Link先を確認
Mahyar Khayatkhoei, Wael AbdAlmageed(参考訳) 精度とリコールは、生成モデルの忠実性と多様性を別々に測定するために提案された生成性能の2つの顕著な指標である。 生成モデルの比較と改善における中心的な役割を考えると、それらの限界を理解することは極めて重要である。 そこで本研究では,k-nearest-neighborsを用いて,これらの測定値の共通近似における重要な欠陥を同定し,精度とリコールに割り当てられた忠実さと多様性の解釈が高次元で失敗し,非常に誤解を招く結果となった。 具体的には,実分布の支持部から等距離に支持される2つのモデル分布が,各分布によらず非常に異なる精度と記憶力を持つことを実験的に理論的に示し,高次元における創発的非対称性を明らかにした。 理論的な洞察に基づいて、次元の数に関係なく対称なメトリクスを構築するために、これらのメトリクスを単純かつ効果的に修正する。 最後に,実世界のデータセットに関する実験を行い,特定された欠陥が単なる病理的事例ではなく,提案手法が影響の軽減に有効であることを示す。

Precision and Recall are two prominent metrics of generative performance, which were proposed to separately measure the fidelity and diversity of generative models. Given their central role in comparing and improving generative models, understanding their limitations are crucially important. To that end, in this work, we identify a critical flaw in the common approximation of these metrics using k-nearest-neighbors, namely, that the very interpretations of fidelity and diversity that are assigned to Precision and Recall can fail in high dimensions, resulting in very misleading conclusions. Specifically, we empirically and theoretically show that as the number of dimensions grows, two model distributions with supports at equal point-wise distance from the support of the real distribution, can have vastly different Precision and Recall regardless of their respective distributions, hence an emergent asymmetry in high dimensions. Based on our theoretical insights, we then provide simple yet effective modifications to these metrics to construct symmetric metrics regardless of the number of dimensions. Finally, we provide experiments on real-world datasets to illustrate that the identified flaw is not merely a pathological case, and that our proposed metrics are effective in alleviating its impact.
翻訳日:2023-07-20 17:06:18 公開日:2023-07-18
# 近似有効$p$-Resistanceによるマルチクラスグラフクラスタリング

Multi-class Graph Clustering via Approximated Effective $p$-Resistance ( http://arxiv.org/abs/2306.08617v2 )

ライセンス: Link先を確認
Shota Saito, Mark Herbster(参考訳) 本稿では,(有効)$p$-resistanceの近似を開発し,マルチクラスクラスタリングに適用する。 グラフラプラシアンに基づくスペクトル法とそのグラフ $p$-laplacian への一般化は、非ユークリッドクラスタリング技術のバックボーンとなっている。 p$-Laplacian の利点は、パラメータ $p$ がクラスタ構造に制御可能なバイアスをもたらすことである。 p$-Laplacian eigenvector based methodの欠点は、3番目と上位の固有ベクトルの計算が難しいことである。 したがって、我々はクラスタリングに$p$-Laplacianによって誘導される$p$-resistanceを使うことを動機付けている。 p$-resistanceでは、小さな$p$バイアスが内部接続性の高いクラスタに対して、大きな$p$バイアスが小さな"exent"のクラスタに対して、すなわちクラスタ内の頂点間の短パス距離の短さを優先する。 しかし、$p$-resistanceは計算にコストがかかる。 我々は、$p$-resistanceの近似を開発することでこれを克服する。 この近似で上界と下界を証明し、グラフが木であるときにそれが正確であることを観測する。 また、クラスタリングに$p$-resistanceを使用するための理論的正当性も提供する。 最後に、近似した$p$-resistanceクラスタリングと他の$p$-Laplacianベースのメソッドとの比較実験を行う。

This paper develops an approximation to the (effective) $p$-resistance and applies it to multi-class clustering. Spectral methods based on the graph Laplacian and its generalization to the graph $p$-Laplacian have been a backbone of non-euclidean clustering techniques. The advantage of the $p$-Laplacian is that the parameter $p$ induces a controllable bias on cluster structure. The drawback of $p$-Laplacian eigenvector based methods is that the third and higher eigenvectors are difficult to compute. Thus, instead, we are motivated to use the $p$-resistance induced by the $p$-Laplacian for clustering. For $p$-resistance, small $p$ biases towards clusters with high internal connectivity while large $p$ biases towards clusters of small "extent," that is a preference for smaller shortest-path distances between vertices in the cluster. However, the $p$-resistance is expensive to compute. We overcome this by developing an approximation to the $p$-resistance. We prove upper and lower bounds on this approximation and observe that it is exact when the graph is a tree. We also provide theoretical justification for the use of $p$-resistance for clustering. Finally, we provide experiments comparing our approximated $p$-resistance clustering to other $p$-Laplacian based methods.
翻訳日:2023-07-20 17:05:54 公開日:2023-07-18
# 回路量子力学のための広帯域帯域通過パーセルフィルタ

Broadband Bandpass Purcell Filter for Circuit Quantum Electrodynamics ( http://arxiv.org/abs/2306.06258v3 )

ライセンス: Link先を確認
Haoxiong Yan and Xuntao Wu and Andrew Lingenfelter and Yash J. Joshi and Gustav Andersson and Christopher R. Conner and Ming-Han Chou and Joel Grebel and Jacob M. Miller and Rhys G. Povey and Hong Qiao and Aashish A. Clerk and Andrew N. Cleland(参考訳) 回路量子電磁力学(qed)では、量子ビットは通常分散結合した読み出し共振器を用いて測定される。 それぞれのリードアウト共振器と電気環境の結合は、パーセル効果によってクビット寿命を減少させる。 Purcellフィルタの挿入は、高い読み出し精度を維持しながらこの効果に対処するが、測定帯域幅を減らし、多重読み出し容量を制限する。 本稿では,帯域幅と多重化容量を増加させながら,より優れた量子ビット保護を実現する多段帯域通過パーセルフィルタを開発し実装する。 提案手法の伝送ラインベース実装の実験的性能について報告する。このフレキシブルな設計は、現在のスケールアップで長いコヒーレンス時間超伝導量子プロセッサと容易に統合できる。

In circuit quantum electrodynamics (QED), qubits are typically measured using dispersively-coupled readout resonators. Coupling between each readout resonator and its electrical environment however reduces the qubit lifetime via the Purcell effect. Inserting a Purcell filter counters this effect while maintaining high readout fidelity, but reduces measurement bandwidth and thus limits multiplexing readout capacity. In this letter, we develop and implement a multi-stage bandpass Purcell filter that yields better qubit protection while simultaneously increasing measurement bandwidth and multiplexed capacity. We report on the experimental performance of our transmission-line--based implementation of this approach, a flexible design that can easily be integrated with current scaled-up, long coherence time superconducting quantum processors.
翻訳日:2023-07-20 17:04:15 公開日:2023-07-18
# 近位埋め込みを用いた感染効果推定

Contagion Effect Estimation Using Proximal Embeddings ( http://arxiv.org/abs/2306.02479v2 )

ライセンス: Link先を確認
Zahra Fatemi, Elena Zheleva(参考訳) 感染効果とは、ソーシャルネットワークにおける個人の結果に対する仲間の行動の因果的影響を指す。 観察研究における感染効果を推定するための顕著な手法は、計測されていない共同設立者がいないと仮定することが多いが、同胞ネットワークのノードは、類似した属性を持つピアと結びつきがあり、互いに影響を与えずに同じように振る舞う傾向にある。 遅延ホモフィリーを説明する一つの方法は、観測されていない共同設立者のプロキシを検討することである。 しかし,高次元プロキシの存在下では,本論文で示すように,プロキシに基づく手法は,感染効果の偏りを著しく減少させる可能性がある。 本稿では,多変量オートエンコーダ (vaes) と逆ネットワーク (adversarial network) を統合し, 異なる治療群に対する高次元プロキシのバランスのとれた低次元表現を生成し, 監視されていないネットワークコンビナートの存在下での感染効果を識別するフレームワーク proximal embeddeds (proemb) を提案する。 本手法は,最先端手法と比較して,観測ネットワークデータにおける伝染効果推定の精度が有意に向上することを示す。

Contagion effect refers to the causal effect of peers' behavior on the outcome of an individual in social networks. While prominent methods for estimating contagion effects in observational studies often assume that there are no unmeasured confounders, contagion can be confounded due to latent homophily: nodes in a homophilous network tend to have ties to peers with similar attributes and can behave similarly without influencing one another. One way to account for latent homophily is by considering proxies for the unobserved confounders. However, in the presence of high-dimensional proxies, proxy-based methods can lead to substantially biased estimation of contagion effects, as we demonstrate in this paper. To tackle this issue, we introduce the novel Proximal Embeddings (ProEmb), a framework which integrates Variational Autoencoders (VAEs) and adversarial networks to generate balanced low-dimensional representations of high-dimensional proxies for different treatment groups and identifies contagion effects in the presence of unobserved network confounders. We empirically show that our method significantly increases the accuracy of contagion effect estimation in observational network data compared to state-of-the-art methods.
翻訳日:2023-07-20 17:04:02 公開日:2023-07-18
# ボルン-オッペンハイマー分子動力学におけるマデルング変換と変分漸近

Madelung transform and variational asymptotics in Born-Oppenheimer molecular dynamics ( http://arxiv.org/abs/2305.18972v2 )

ライセンス: Link先を確認
Paul Bergold and Cesare Tronci(参考訳) ボルン・オッペンハイマー分子動力学(bomd)は、数学的解析における強力な手法を用いて広く研究されてきたが、ハミルトンの変分原理と対称性によるオイラー・ポインカルの還元という観点から幾何学的定式化を提案する。 マデラン変換で利用できるラグランジアン流体力学経路を利用すると、BOMDは異なる連続体モデルとそれらの粒子閉包スキームの基礎となる変動原理に漸近的手法を適用することによって生じることを示す。 特に、完全量子力学の流体力学形式に着目した後、最近提案されたbohmionスキームがbomdのオンザフライ実装にどのようにつながるかを示す。 さらに,量子古典力学の混合モデルにも解析を拡張した。

While Born-Oppenheimer molecular dynamics (BOMD) has been widely studied by resorting to powerful methods in mathematical analysis, this paper presents a geometric formulation in terms of Hamilton's variational principle and Euler-Poincar\'{e} reduction by symmetry. Upon resorting to the Lagrangian hydrodynamic paths made available by the Madelung transform, we show how BOMD arises by applying asymptotic methods to the variational principles underlying different continuum models and their particle closure schemes. In particular, after focusing on the hydrodynamic form of the fully quantum dynamics, we show how the recently proposed bohmion scheme leads to an on-the-fly implementation of BOMD. In addition, we extend our analysis to models of mixed quantum-classical dynamics.
翻訳日:2023-07-20 17:03:28 公開日:2023-07-18
# マルチエージェント強化学習における本質的動機づけとしての心の理論

Theory of Mind as Intrinsic Motivation for Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2307.01158v2 )

ライセンス: Link先を確認
Ini Oguntola, Joseph Campbell, Simon Stepputtis, Katia Sycara(参考訳) 他者の精神状態をモデル化する能力は、人間の社会的知性にとって不可欠であり、マルチエージェント環境で引き起こされる社会的ダイナミクスに関して、人工エージェントにも同様の利点を提供することができる。 本稿では,深いネットワークによってモデル化された政策の中で意味論的・人間解釈的信念を基礎づける手法を提案する。 次に,2次信念予測の課題について考察する。 各エージェントが他のエージェントの信念を予測する能力は,マルチエージェント強化学習の本質的な報奨信号として利用できることを提案する。 最後に,複合協調競争環境における予備実験結果を示す。

The ability to model the mental states of others is crucial to human social intelligence, and can offer similar benefits to artificial agents with respect to the social dynamics induced in multi-agent settings. We present a method of grounding semantically meaningful, human-interpretable beliefs within policies modeled by deep networks. We then consider the task of 2nd-order belief prediction. We propose that ability of each agent to predict the beliefs of the other agents can be used as an intrinsic reward signal for multi-agent reinforcement learning. Finally, we present preliminary empirical results in a mixed cooperative-competitive environment.
翻訳日:2023-07-20 16:57:16 公開日:2023-07-18
# ゆるやかに駆動される量子系における量子幾何と散逸の境界

Quantum geometry and bounds on dissipation in slowly driven quantum systems ( http://arxiv.org/abs/2306.17220v2 )

ライセンス: Link先を確認
Iliya Esin, \'Etienne Lantagne-Hurtubise, Frederik Nathan, Gil Refael(参考訳) ゆっくり駆動された量子系における熱生成は、フビニ・スタディテンソルを介して駆動プロトコルの位相構造と関連していることを示す。 熱浴に弱結合したスピンの最小モデルを分析すると、散逸は量子計量とスピンの歳差を特徴付ける「品質因子」によって制御されていることが分かる。 これらの知見を生かして、位相周波数変換器などの2トーンプロトコルにおける加熱速度の低い境界を確立する。 特に、これらの境界は、その微視的な詳細とは独立に、プロトコルのトポロジーによって決定される。 この結果から, ゆるやかに駆動される量子システムにおける位相現象とエネルギー散逸を橋渡しし, 最適駆動プロトコルの設計原理を提供する。

We show that heat production in slowly driven quantum systems is linked to the topological structure of the driving protocol through the Fubini-Study tensor. Analyzing a minimal model of a spin weakly coupled to a heat bath, we find that dissipation is controlled by the quantum metric and a "quality factor" characterizing the spin's precession. Utilizing these findings, we establish lower bounds on the heating rate in two-tone protocols, such as those employed in topological frequency converters. Notably, these bounds are determined by the topology of the protocol, independent of its microscopic details. Our results bridge topological phenomena and energy dissipation in slowly driven quantum systems, providing a design principle for optimal driving protocols.
翻訳日:2023-07-20 16:56:51 公開日:2023-07-18
# 量子時間から量子進化への洞察

Insights of quantum time into quantum evolution ( http://arxiv.org/abs/2306.11675v3 )

ライセンス: Link先を確認
Ngo Phuc Duc Loc(参考訳) 時間が出現すると、量子系は進化するにつれて量子時間と絡み合う。 システム自体に絡み合いがある場合、それは「外的」時間系の絡み合いと区別するために \textit{internal entanglement} と呼ぶことができ、進化の速度が向上する。 本稿では、2つの絡み合った量子ビットを含むシステムの進化における量子時間の洞察について検討する。 1)局所力学の下で進化する2つの初期絡み合い量子ビット、(2)その間の絡み合いが時間とともに生じる2つの相互作用量子ビットを考える。 最初のケースでは、内部の絡み合いの増加が進化を加速させ、時間とともにより絡み合いを増すという主な結果が得られる。 第2のケースでは、忠実性によって特徴づけられる進化距離に対する時間系の絡み合いエントロピーの依存性を示す。 相互作用が十分に強い場合、2つの相互作用する量子ビットは2つの相互作用しない量子ビットよりも高速に進化し、より効率的に時間と絡み合うようになる。 これらの結果は、膨張する宇宙におけるブラックホール蒸発や宇宙論的摂動への量子時間の新たな洞察を得るのに有用である。

If time is emergent, quantum system is entangled with quantum time as it evolves. If the system contains entanglement within itself, which we can call \textit{internal entanglement} to distinguish it from the ``external" time-system entanglement, the speed of evolution is enhanced. In this paper, we explore the insights of quantum time for the evolution of a system that contains two entangled qubits. We consider two cases: (1) two initially entangled qubits that evolve under local dynamics; (2) two interacting qubits such that entanglement between them is generated over time. In the first case, we obtain the main result that increasing internal entanglement speeds up the evolution and makes the system more entangled with time. In the second case, we show the dependence of time-system entanglement entropy on the distance of evolution which is characterized by fidelity. We compare the two cases with each other and find that two interacting qubits can evolve faster than two non-interacting qubits if the interaction is sufficiently strong, and thus they become entangled with time more efficiently. These results could be useful to gain new insights of quantum time into black hole evaporation or cosmological perturbations in an expanding Universe, since we also have an evolving entangled bipartite system in those cases.
翻訳日:2023-07-20 16:54:35 公開日:2023-07-18
# フォトニック量子ネットワークのための時間望遠鏡

Erecting time telescope for photonic quantum networks ( http://arxiv.org/abs/2307.09493v1 )

ライセンス: Link先を確認
Shivang Srivastava, Dmitri B. Horoshko, Mikhail I. Kolobov(参考訳) タイムレンズは、空間内の従来のレンズと同様、時間内に光波形を伸縮または圧縮することができる。 しかし、単一時間レンズイメージングシステムは、時間的イメージが他の磁場と相互作用する量子ネットワークにとって有害な、残余の時間的チャープを常に画像に付与する。 本研究は,2時間レンズ撮像システムである時間望遠鏡が,チャープレス画像の作成に必要かつ十分であることを示す。 我々は、時間望遠鏡の一般的な理論を開発し、損失最小化の条件を見つけ、時間望遠鏡が時間天体の実像を作成する方法を示す。 このような望遠鏡の応用により、自発的なパラメトリック・ダウンコンバージョンや量子ドットのような単一エミッタによって生じる光子を区別できないものにする。

A time lens allows one to stretch or compress optical waveforms in time, similar to the conventional lens in space. However, a single-time-lens imaging system always imparts a residual temporal chirp on the image, which may be detrimental for quantum networks, where the temporal image interacts with other fields. We show that a two-time-lens imaging system satisfying the telescopic condition, a time telescope, is necessary and sufficient for creating a chirpless image. We develop a general theory of a time telescope, find the conditions for loss minimization, and show how an erecting time telescope creating a real image of a temporal object can be constructed. We consider several applications of such a telescope to making indistinguishable the photons generated by spontaneous parametric downconversion or single emitters such as quantum dots.
翻訳日:2023-07-20 16:37:34 公開日:2023-07-18
# PLiNIO: 複雑度を考慮したDNN最適化のためのグラディエントなメソッドのユーザフレンドリなライブラリ

PLiNIO: A User-Friendly Library of Gradient-based Methods for Complexity-aware DNN Optimization ( http://arxiv.org/abs/2307.09488v1 )

ライセンス: Link先を確認
Daniele Jahier Pagliari, Matteo Risso, Beatrice Alessandra Motetti, Alessio Burrello(参考訳) DNN(Deep Neural Networks)は、特に制約のあるエッジデバイス上での実行を必要とするアプリケーションにおいて、精度が高く、かつ効率的である。 新しいアプリケーションに適したタイミングでそのようなDNNを見つけるには、ハイパーパラメータの組み合わせの膨大なスペースを手作業で探索することは不可能であるため、自動最適化パイプラインが必要である。 そこで本研究では,軽量勾配最適化に基づく最新のDNN設計自動化手法を,統一的かつユーザフレンドリなインターフェースで実装したオープンソースライブラリであるPLiNIOを提案する。 複数のエッジ関連タスクに関する実験により、plinioで利用可能な様々な最適化を組み合わせることで、考慮されるベースラインを精度とモデルサイズで優位にする、リッチなソリューションセットが得られることを示した。 注目すべき点として、PLiNIOはベースラインアーキテクチャと比較して最大94.34%のメモリ削減を実現している。

Accurate yet efficient Deep Neural Networks (DNNs) are in high demand, especially for applications that require their execution on constrained edge devices. Finding such DNNs in a reasonable time for new applications requires automated optimization pipelines since the huge space of hyper-parameter combinations is impossible to explore extensively by hand. In this work, we propose PLiNIO, an open-source library implementing a comprehensive set of state-of-the-art DNN design automation techniques, all based on lightweight gradient-based optimization, under a unified and user-friendly interface. With experiments on several edge-relevant tasks, we show that combining the various optimizations available in PLiNIO leads to rich sets of solutions that Pareto-dominate the considered baselines in terms of accuracy vs model size. Noteworthy, PLiNIO achieves up to 94.34% memory reduction for a <1% accuracy drop compared to a baseline architecture.
翻訳日:2023-07-20 16:37:18 公開日:2023-07-18
# マトロイドとクナプサックの界面における部分モジュラー最大化

Submodular Maximization under the Intersection of Matroid and Knapsack Constraints ( http://arxiv.org/abs/2307.09487v1 )

ライセンス: Link先を確認
Yu-Ran Gu, Chao Bian and Chao Qian(参考訳) サブモジュールの最大化は多くの応用で起こり、人工知能、金融、オペレーション研究など様々な分野から多くの研究の注目を集めている。 従来の研究は主に1種類の制約しか考慮していなかったが、現実の問題の多くはいくつかの制約を伴っている。 本稿では,2つの一般的な制約,すなわち$k$-matroid 制約と $m$-knapsack 制約の交点における部分モジュラ最大化の問題を考察し,部分列挙を同時グリードフレームワークに組み込んだ新しいアルゴリズム SPROUT を提案する。 我々はsproutが最先端アルゴリズムよりも多項式時間近似の保証を実現できることを証明した。 次に,SPROUTにランダム列挙とスムーズな手法を導入して効率を向上し,SPROUT++アルゴリズムにより同様の近似を保証する。 映画レコメンデーションと加重マックスカットの応用実験は、実際にSPROUT++の優位性を実証している。

Submodular maximization arises in many applications, and has attracted a lot of research attentions from various areas such as artificial intelligence, finance and operations research. Previous studies mainly consider only one kind of constraint, while many real-world problems often involve several constraints. In this paper, we consider the problem of submodular maximization under the intersection of two commonly used constraints, i.e., $k$-matroid constraint and $m$-knapsack constraint, and propose a new algorithm SPROUT by incorporating partial enumeration into the simultaneous greedy framework. We prove that SPROUT can achieve a polynomial-time approximation guarantee better than the state-of-the-art algorithms. Then, we introduce the random enumeration and smooth techniques into SPROUT to improve its efficiency, resulting in the SPROUT++ algorithm, which can keep a similar approximation guarantee. Experiments on the applications of movie recommendation and weighted max-cut demonstrate the superiority of SPROUT++ in practice.
翻訳日:2023-07-20 16:37:02 公開日:2023-07-18
# 産業4.0における実時間異常検出のためのニューロシンボリックエンパワードノイズ拡散確率モデル

Neuro-symbolic Empowered Denoising Diffusion Probabilistic Models for Real-time Anomaly Detection in Industry 4.0 ( http://arxiv.org/abs/2307.06975v2 )

ライセンス: Link先を確認
Luigi Capogrosso, Alessio Mascolini, Federico Girella, Geri Skenderi, Sebastiano Gaiardelli, Nicola Dall'Ora, Francesco Ponzio, Enrico Fraccaroli, Santa Di Cataldo, Sara Vinco, Enrico Macii, Franco Fummi, Marco Cristani(参考訳) 産業 4.0は、IoT、ビッグデータ、AIといったデジタル技術が製造プロセスと産業プロセスに統合され、効率と生産性が向上する。 これらの技術が相互接続され相互依存的になるにつれて、業界 4.0システムはより複雑になり、製造プロセスに障害を引き起こす可能性のある異常を特定し、停止することが難しくなる。 本稿では,産業4.0プロセスにおけるリアルタイム異常予測のための拡散モデルを提案する。 ニューロシンボリックアプローチを用いて,産業オントロジーをモデルに統合し,スマートマニュファクチャリングに関する形式的知識を付加する。 最後に, 製造プロセスへの直接統合のための組込みシステムへの展開のために, ランダムフーリエ機能を通して拡散モデルを蒸留する方法を提案する。 私たちの知る限りでは、このアプローチはこれまでに検討されたことがない。

Industry 4.0 involves the integration of digital technologies, such as IoT, Big Data, and AI, into manufacturing and industrial processes to increase efficiency and productivity. As these technologies become more interconnected and interdependent, Industry 4.0 systems become more complex, which brings the difficulty of identifying and stopping anomalies that may cause disturbances in the manufacturing process. This paper aims to propose a diffusion-based model for real-time anomaly prediction in Industry 4.0 processes. Using a neuro-symbolic approach, we integrate industrial ontologies in the model, thereby adding formal knowledge on smart manufacturing. Finally, we propose a simple yet effective way of distilling diffusion models through Random Fourier Features for deployment on an embedded system for direct integration into the manufacturing process. To the best of our knowledge, this approach has never been explored before.
翻訳日:2023-07-20 16:36:43 公開日:2023-07-18
# exfacegan:ganの学習した潜在空間におけるアイデンティティの方向性を探る

ExFaceGAN: Exploring Identity Directions in GAN's Learned Latent Space for Synthetic Identity Generation ( http://arxiv.org/abs/2307.05151v2 )

ライセンス: Link先を確認
Fadi Boutros, Marcel Klemt, Meiling Fang, Arjan Kuijper, Naser Damer(参考訳) 深層生成モデルは、最近、ランダムな合成アイデンティティの現実的な顔画像を生成する素晴らしい結果を示した。 特定の合成アイデンティティの複数のサンプルを生成するために、GANの潜伏空間を、追加の監督や正規化を取り入れて、特定の属性の操作を可能にした以前の研究が提案されている。 他の者は、非条件で事前訓練されたGANの潜在空間内の特定の因子をアンタングルして出力を制御することを提案した。 さらに、これらの属性はganの潜在空間に絡み合っており、識別情報に影響を与えることなくそれらを操作することが困難である。 本稿では,事前訓練されたgans潜在空間におけるid情報を分離し,任意の合成idの複数のサンプルを生成するためのフレームワークexfaceganを提案する。 我々のExFaceGANは、任意の合成画像の参照潜時符号と事前訓練されたGANの潜時空間の参照潜時符号から、潜時空間を2つの部分空間にアンタングルするアイデンティティ指向境界を学習する。 境界の両側からサンプリングすることで、ExFaceGANは専用のアーキテクチャを設計したり属性分類器から監督したりすることなく、複数の合成アイデンティティのサンプルを生成することができる。 我々は,これらを3つのSOTA GANアプローチの学習潜在空間に統合することにより,ExFaceGANの一般化性と有効性を示す。 ExFaceGANの実用的なメリットの例として、ExFaceGANが生成したデータが顔認識モデル(\url{https://github.com/fdbtrs/ExFaceGAN})のトレーニングに有効であることを示す。

Deep generative models have recently presented impressive results in generating realistic face images of random synthetic identities. To generate multiple samples of a certain synthetic identity, previous works proposed to disentangle the latent space of GANs by incorporating additional supervision or regularization, enabling the manipulation of certain attributes. Others proposed to disentangle specific factors in unconditional pretrained GANs latent spaces to control their output, which also requires supervision by attribute classifiers. Moreover, these attributes are entangled in GAN's latent space, making it difficult to manipulate them without affecting the identity information. We propose in this work a framework, ExFaceGAN, to disentangle identity information in pretrained GANs latent spaces, enabling the generation of multiple samples of any synthetic identity. Given a reference latent code of any synthetic image and latent space of pretrained GAN, our ExFaceGAN learns an identity directional boundary that disentangles the latent space into two sub-spaces, with latent codes of samples that are either identity similar or dissimilar to a reference image. By sampling from each side of the boundary, our ExFaceGAN can generate multiple samples of synthetic identity without the need for designing a dedicated architecture or supervision from attribute classifiers. We demonstrate the generalizability and effectiveness of ExFaceGAN by integrating it into learned latent spaces of three SOTA GAN approaches. As an example of the practical benefit of our ExFaceGAN, we empirically prove that data generated by ExFaceGAN can be successfully used to train face recognition models (\url{https://github.com/fdbtrs/ExFaceGAN}).
翻訳日:2023-07-20 16:35:16 公開日:2023-07-18
# 下流治療効果推定のためのベイズ因果発見手法のベンチマーク

Benchmarking Bayesian Causal Discovery Methods for Downstream Treatment Effect Estimation ( http://arxiv.org/abs/2307.04988v2 )

ライセンス: Link先を確認
Chris Chinenye Emezue, Alexandre Drouin, Tristan Deleu, Stefan Bauer, Yoshua Bengio(参考訳) 意思決定における因果関係の実践的有用性は、因果関係の発見と因果関係の推測の絡み合いによってもたらされる。 それでも、下流推論に不十分な重点を置く因果発見手法の評価において、顕著なギャップが存在する。 このギャップに対処するため,GFlowNetsに基づく新たな手法を含む7つの基本因果探索手法を,治療効果推定の下流課題に基づいて評価した。 分散レベルの評価の実装を通じて,総合的および実世界のシナリオと低データシナリオの両方を考慮した,これらの因果的発見手法の有効性に関する貴重な洞察を提供する。 研究の結果、研究対象のアルゴリズムのいくつかは、多種多様なATEモードを効果的に捉えることができ、一方で、(無関係な)リコールと精度に影響を与える多くの低確率モードを学習する傾向にあることが示された。

The practical utility of causality in decision-making is widespread and brought about by the intertwining of causal discovery and causal inference. Nevertheless, a notable gap exists in the evaluation of causal discovery methods, where insufficient emphasis is placed on downstream inference. To address this gap, we evaluate seven established baseline causal discovery methods including a newly proposed method based on GFlowNets, on the downstream task of treatment effect estimation. Through the implementation of a distribution-level evaluation, we offer valuable and unique insights into the efficacy of these causal discovery methods for treatment effect estimation, considering both synthetic and real-world scenarios, as well as low-data scenarios. The results of our study demonstrate that some of the algorithms studied are able to effectively capture a wide range of useful and diverse ATE modes, while some tend to learn many low-probability modes which impacts the (unrelaxed) recall and precision.
翻訳日:2023-07-20 16:34:42 公開日:2023-07-18
# 自己整合性:地中真実のない因果発見の評価

Self-Compatibility: Evaluating Causal Discovery without Ground Truth ( http://arxiv.org/abs/2307.09552v1 )

ライセンス: Link先を確認
Philipp M. Faller (1), Leena Chennuru Vankadara (2), Atalanti A. Mastakouri (2), Francesco Locatello (2), Dominik Janzing (2) ((1) Karlsruhe Institute of Technology, (2) Amazon Research Tuebingen)(参考訳) 因果的根拠の真理は非常に稀であるため、因果的発見アルゴリズムは一般にシミュレーションデータでのみ評価される。 これは、ノイズ分布やモデルクラスなどに関するプロセス生成に関する一般的な前提をシミュレーションが反映しているためである。 本研究では,基底真理が欠如している場合に因果探索アルゴリズムの出力をfalsificationする新しい手法を提案する。 我々の重要な洞察は、統計的学習がデータポイントのサブセット間の安定性を求める一方で、因果学習は変数のサブセット間の安定性を求めるべきであるということである。 この知見に動機づけられたこの方法は、変数の異なる部分集合で学習された因果グラフ間の互換性の概念に依存している。 非互換性の検出は、仮定の違反や有限なサンプル効果による誤りにより、誤った推論因果関係を偽り得ることが証明される。 このような整合性テストの通過は, 良好な性能を示す上で必要な基準に過ぎないが, 整合性が結合分布に強い影響を及ぼす場合, 因果関係モデルに対して強い証拠を与えると論じる。 また,不適合性の検出が因果モデル選択の助けとなることを実験的に示す。

As causal ground truth is incredibly rare, causal discovery algorithms are commonly only evaluated on simulated data. This is concerning, given that simulations reflect common preconceptions about generating processes regarding noise distributions, model classes, and more. In this work, we propose a novel method for falsifying the output of a causal discovery algorithm in the absence of ground truth. Our key insight is that while statistical learning seeks stability across subsets of data points, causal learning should seek stability across subsets of variables. Motivated by this insight, our method relies on a notion of compatibility between causal graphs learned on different subsets of variables. We prove that detecting incompatibilities can falsify wrongly inferred causal relations due to violation of assumptions or errors from finite sample effects. Although passing such compatibility tests is only a necessary criterion for good performance, we argue that it provides strong evidence for the causal models whenever compatibility entails strong implications for the joint distribution. We also demonstrate experimentally that detection of incompatibilities can aid in causal model selection.
翻訳日:2023-07-20 16:27:10 公開日:2023-07-18
# ニューラルネットワークのための意味的ランドスケープパラダイム

The semantic landscape paradigm for neural networks ( http://arxiv.org/abs/2307.09550v1 )

ライセンス: Link先を確認
Shreyas Gokhale(参考訳) ディープニューラルネットワークは、予測可能なスケーリング法則から、トレーニング時間、データセットサイズ、ネットワークサイズといった新たな能力の予測不能な出現まで、興味深い現象のスペクトルを示しています。 これらの現象の分析により、これらのネットワークの学習された表現の中にエンコードされた概念とアルゴリズムの存在が明らかになった。 観測された現象を別々に説明する上で重要な進歩がなされているが、ニューラルネットワークのパフォーマンスを理解し、解剖し、予測するための統一的な枠組みが欠如している。 本稿では、ニューラルネットワークのトレーニングダイナミクスを、ノードがネットワークの学習した表現に内在する創発的アルゴリズムに対応するグラフ上の軌跡として記述する、概念的および数学的枠組みであるセマンティックスケープパラダイムを紹介する。 この抽象化により、統計物理学におけるよく研究された問題の観点から、幅広いニューラルネットワーク現象を記述できる。 具体的には,グルーキングとスケールの出現はパーコレーション現象と関連し,ニューラルネットワークのスケーリング法則はグラフ上のランダムウォークの統計から説明できることを示す。 最後に,深層ニューラルネットワークの理解と解釈を目的とした理論的および実践的なアプローチを,セマンティックランドスケープパラダイムが補完する方法について論じる。

Deep neural networks exhibit a fascinating spectrum of phenomena ranging from predictable scaling laws to the unpredictable emergence of new capabilities as a function of training time, dataset size and network size. Analysis of these phenomena has revealed the existence of concepts and algorithms encoded within the learned representations of these networks. While significant strides have been made in explaining observed phenomena separately, a unified framework for understanding, dissecting, and predicting the performance of neural networks is lacking. Here, we introduce the semantic landscape paradigm, a conceptual and mathematical framework that describes the training dynamics of neural networks as trajectories on a graph whose nodes correspond to emergent algorithms that are instrinsic to the learned representations of the networks. This abstraction enables us to describe a wide range of neural network phenomena in terms of well studied problems in statistical physics. Specifically, we show that grokking and emergence with scale are associated with percolation phenomena, and neural scaling laws are explainable in terms of the statistics of random walks on graphs. Finally, we discuss how the semantic landscape paradigm complements existing theoretical and practical approaches aimed at understanding and interpreting deep neural networks.
翻訳日:2023-07-20 16:26:52 公開日:2023-07-18
# 機器間相互作用の混合教師付き学習による手術行動トリプレット検出

Surgical Action Triplet Detection by Mixed Supervised Learning of Instrument-Tissue Interactions ( http://arxiv.org/abs/2307.09548v1 )

ライセンス: Link先を確認
Saurav Sharma, Chinedu Innocent Nwoye, Didier Mutter, Nicolas Padoy(参考訳) 手術アクショントリプレットは、手術現場の活動やワークフローの詳細な分析をサポートするため、機器と機器の相互作用を(挿入、動詞、対象)組み合わせとして記述する。 本研究は,(1)手術器具の局所化,(2)各局所化機器に関連する手術動作三重項認識からなる従来の三重項認識課題よりも難しいが,より正確である手術動作三重項検出に焦点をあてる。 三重項検出は空間的三重項アノテーションの欠如により複雑である。 計測器の空間的アノテーションの量が三重項検出にどのように影響するかを分析し、正確な計測器の定位が三重項検出を保証していないことを観察する。 この2つの課題を解決するために,マルチクラス・インスツルメンツ・アウェア・トランスフォーマー・インタラクショングラフの2段階ネットワークMCIT-IGを提案する。 ネットワークモデルのMCITステージでは、ターゲットのクラス埋め込み毎に追加機能として、三重項の誤関連のリスクを低減する。 さらに、IGステージは、動詞としてキャストされる楽器とターゲット間の相互作用をモデル化する二部グラフを構築する。 我々は、MCITの弱い目標位置ラベルとIGの擬似三重項ラベルを組み合わせてネットワークを訓練する混合教師付き学習戦略を利用する。 対象埋め込みを用いた最小の計測器空間アノテーションを補完することにより,トリプレット検出精度が向上した。 我々は,cholect50データセット上でのモデルを評価し,miccai 2022 のcholectriplet challenge のリードボードを上回って,計測位置とトリプレット検出の両方で性能が向上したことを示す。

Surgical action triplets describe instrument-tissue interactions as (instrument, verb, target) combinations, thereby supporting a detailed analysis of surgical scene activities and workflow. This work focuses on surgical action triplet detection, which is challenging but more precise than the traditional triplet recognition task as it consists of joint (1) localization of surgical instruments and (2) recognition of the surgical action triplet associated with every localized instrument. Triplet detection is highly complex due to the lack of spatial triplet annotation. We analyze how the amount of instrument spatial annotations affects triplet detection and observe that accurate instrument localization does not guarantee better triplet detection due to the risk of erroneous associations with the verbs and targets. To solve the two tasks, we propose MCIT-IG, a two-stage network, that stands for Multi-Class Instrument-aware Transformer-Interaction Graph. The MCIT stage of our network models per class embedding of the targets as additional features to reduce the risk of misassociating triplets. Furthermore, the IG stage constructs a bipartite dynamic graph to model the interaction between the instruments and targets, cast as the verbs. We utilize a mixed-supervised learning strategy that combines weak target presence labels for MCIT and pseudo triplet labels for IG to train our network. We observed that complementing minimal instrument spatial annotations with target embeddings results in better triplet detection. We evaluate our model on the CholecT50 dataset and show improved performance on both instrument localization and triplet detection, topping the leaderboard of the CholecTriplet challenge in MICCAI 2022.
翻訳日:2023-07-20 16:26:32 公開日:2023-07-18
# 拡散駆動型機能MRIのためのDreaMR

DreaMR: Diffusion-driven Counterfactual Explanation for Functional MRI ( http://arxiv.org/abs/2307.09547v1 )

ライセンス: Link先を確認
Hasan Atakan Bedel, Tolga \c{C}ukur(参考訳) 深層学習分析は、脳全体にわたる機能的MRI(fMRI)測定から認知状態の検出に敏感な飛躍をもたらした。 しかし、深層モデルが入力に対して階層的非線形変換を行うため、脳の反応と認知状態の関係を解釈することは困難である。 深達度fmri分類器の一般的な説明手法では、帰属法は特異性が低く、摂動法は限定的である。 反事実生成はこれらの制限に対処することを約束するが、以前の手法では、最適なサンプルの忠実度をもたらす変動または逆の先行値を使用する。 本稿では,拡散駆動型逆ファクト法であるDreaMRを導入し,高い特異性,妥当性,忠実度でfMRIの解釈を可能にする。 DreaMRは、入力fMRIサンプルの拡散に基づく再サンプリングを行い、下流分類器の決定を変更し、説明のために元のサンプルと反実例の最小差を計算する。 従来の拡散法とは異なり、DreaMRはサンプリング効率を向上させるために新しい分数的多相蒸留拡散を利用しており、fMRIスキャンの長時間時空間を考慮したトランスフォーマーアーキテクチャを採用している。 ニューロイメージングデータセットに関する総合的な実験は、fMRIの解釈のための最先端のカウンターファクト法よりも、サンプル生成におけるDreaMRの特異性、忠実性、効率性が優れていることを示した。

Deep learning analyses have offered sensitivity leaps in detection of cognitive states from functional MRI (fMRI) measurements across the brain. Yet, as deep models perform hierarchical nonlinear transformations on their input, interpreting the association between brain responses and cognitive states is challenging. Among common explanation approaches for deep fMRI classifiers, attribution methods show poor specificity and perturbation methods show limited plausibility. While counterfactual generation promises to address these limitations, previous methods use variational or adversarial priors that yield suboptimal sample fidelity. Here, we introduce the first diffusion-driven counterfactual method, DreaMR, to enable fMRI interpretation with high specificity, plausibility and fidelity. DreaMR performs diffusion-based resampling of an input fMRI sample to alter the decision of a downstream classifier, and then computes the minimal difference between the original and counterfactual samples for explanation. Unlike conventional diffusion methods, DreaMR leverages a novel fractional multi-phase-distilled diffusion prior to improve sampling efficiency without compromising fidelity, and it employs a transformer architecture to account for long-range spatiotemporal context in fMRI scans. Comprehensive experiments on neuroimaging datasets demonstrate the superior specificity, fidelity and efficiency of DreaMR in sample generation over state-of-the-art counterfactual methods for fMRI interpretation.
翻訳日:2023-07-20 16:26:01 公開日:2023-07-18
# オンライン学習におけるアジャイル方法論とコミュニケーション改善の方法:ケーススタディ

Agile Methodology in Online Learning and How It Can Improve Communication: A Case Study ( http://arxiv.org/abs/2307.09543v1 )

ライセンス: Link先を確認
M. Petrescu and A Sterca(参考訳) 本稿では,Covid-19パンデミック中の大学・カレッジレベルでの授業プロセスにおけるアジャイル手法の活用について検討する。 オンライン教育に使用できるソフトウェア工学のアジャイル方法論に触発されたテクニックの一覧を詳述する。 また、学生の成績を分析して、これらのアジャイルにインスパイアされたテクニックが教育プロセスに役立つことも示しています。

This paper presents a study on using Agile methodologies in the teaching process at the university/college level during the Covid-19 pandemic, online classes. We detail a list of techniques inspired from software engineering Agile methodologies that can be used in online teaching. We also show, by analyzing students grades, that these Agile inspired techniques probably help in the educational process.
翻訳日:2023-07-20 16:25:41 公開日:2023-07-18
# ニューラルネットワークの記憶はローカライズできるか?

Can Neural Network Memorization Be Localized? ( http://arxiv.org/abs/2307.09542v1 )

ライセンス: Link先を確認
Pratyush Maini, Michael C. Mozer, Hanie Sedghi, Zachary C. Lipton, J. Zico Kolter, Chiyuan Zhang(参考訳) 深層パラメータネットワークにおける記憶と一般化の相互作用を説明する最近の取り組みは、モデルの最後のいくつかの層でニューラルネットワークが$\textit{memorize}$ "hard" の例を示している。 Memorizationは、トレーニングセットの例を$\textit{atypical}$で正確に予測する機能を指す。 本研究では、個々の層に制限されるのではなく、記憶はモデルの様々な層の小さな集合のニューロンに限定される現象であることを示す。 まず、三つの実験的な証拠源を通して、ほとんどの層は例の記憶に冗長であり、例の記憶に寄与する層は一般に最終層ではないことが分かる。 3つのソースは、$\textit{gradient accounting}$ (記憶とクリーンな例からの勾配ノルムへの貢献を計測する)、$\textit{layer rewinding}$ (以前のトレーニングチェックポイントで収束したモデルの特定のモデル重みをリプレース)、$\textit{retraining}$ (クリーンな例でのみリウォード層をトレーニングする)である。 第二に、より一般的な質問をする: メモリ化は、モデルで$\textit{anywhere}$をローカライズできるか? 記憶はモデルの少数のニューロンやチャネル(約5つ)に限定されることが多い。 これらの知見に基づき、我々は新しい形式のドロップアウト -- $\textit{example-tied dropout}$を提案する。 これらのニューロンを取り除くことで、記憶された例の精度を100\%\to3\%$に低下させると同時に、一般化ギャップを低減できる。

Recent efforts at explaining the interplay of memorization and generalization in deep overparametrized networks have posited that neural networks $\textit{memorize}$ "hard" examples in the final few layers of the model. Memorization refers to the ability to correctly predict on $\textit{atypical}$ examples of the training set. In this work, we show that rather than being confined to individual layers, memorization is a phenomenon confined to a small set of neurons in various layers of the model. First, via three experimental sources of converging evidence, we find that most layers are redundant for the memorization of examples and the layers that contribute to example memorization are, in general, not the final layers. The three sources are $\textit{gradient accounting}$ (measuring the contribution to the gradient norms from memorized and clean examples), $\textit{layer rewinding}$ (replacing specific model weights of a converged model with previous training checkpoints), and $\textit{retraining}$ (training rewound layers only on clean examples). Second, we ask a more generic question: can memorization be localized $\textit{anywhere}$ in a model? We discover that memorization is often confined to a small number of neurons or channels (around 5) of the model. Based on these insights we propose a new form of dropout -- $\textit{example-tied dropout}$ that enables us to direct the memorization of examples to an apriori determined set of neurons. By dropping out these neurons, we are able to reduce the accuracy on memorized examples from $100\%\to3\%$, while also reducing the generalization gap.
翻訳日:2023-07-20 16:25:33 公開日:2023-07-18
# 長期文書分類におけるモデルfusingはトランスフォーマーに役立つか? 実証的研究

Can Model Fusing Help Transformers in Long Document Classification? An Empirical Study ( http://arxiv.org/abs/2307.09532v1 )

ライセンス: Link先を確認
Damith Premasiri, Tharindu Ranasinghe, Ruslan Mitkov(参考訳) テキスト分類は、自然言語処理(NLP)において長年研究されてきた研究分野である。 複数のドメインにNLPを適用することで、テキスト分類の新しい課題が数多く導入され、そのうちの1つは長い文書分類である。 最先端のトランスモデルはテキスト分類において優れた結果をもたらすが、そのほとんどは入力シーケンスの最大シーケンス長に制限がある。 トランスモデルの大多数は512トークンに制限されているため、長い文書分類の問題に悩まされている。 本研究では,長文分類にModel Fusingを用い,その結果とBERTおよびLongformerアーキテクチャとの比較を行った。

Text classification is an area of research which has been studied over the years in Natural Language Processing (NLP). Adapting NLP to multiple domains has introduced many new challenges for text classification and one of them is long document classification. While state-of-the-art transformer models provide excellent results in text classification, most of them have limitations in the maximum sequence length of the input sequence. The majority of the transformer models are limited to 512 tokens, and therefore, they struggle with long document classification problems. In this research, we explore on employing Model Fusing for long document classification while comparing the results with well-known BERT and Longformer architectures.
翻訳日:2023-07-20 16:24:59 公開日:2023-07-18
# 単元領域一般化のための逆ベイズ拡張

Adversarial Bayesian Augmentation for Single-Source Domain Generalization ( http://arxiv.org/abs/2307.09520v1 )

ライセンス: Link先を確認
Sheng Cheng, Tejas Gokhale, Yezhou Yang(参考訳) 見えないイメージドメインへの一般化は、主に多様なトレーニングデータ、アクセス不能なターゲットデータ、そして多くの実世界の設定に存在する可能性のある大きなドメインシフトが欠如しているため、難しい問題である。 このようなデータ拡張は、この問題に対処しようとするドメイン一般化メソッドの重要なコンポーネントです。 そこで本研究では,一元的領域一般化における画像拡張を学習する新しいアルゴリズムであるadversarial bayesian augmentation (aba)を提案する。 abaは、さまざまなデータ拡張の生成を導くために、逆学習とベイズニューラルネットワークの強みを描いている。 そこで我々は,ABAが各種領域シフトに対する強さを実証し,その特徴として,スタイルシフト,サブポピュレーションシフト,医療画像設定のシフトを挙げる。 abaは、事前指定された拡張、ピクセルベースおよび畳み込みベースの拡張を含む、以前の最先端のメソッドをすべて上回っている。

Generalizing to unseen image domains is a challenging problem primarily due to the lack of diverse training data, inaccessible target data, and the large domain shift that may exist in many real-world settings. As such data augmentation is a critical component of domain generalization methods that seek to address this problem. We present Adversarial Bayesian Augmentation (ABA), a novel algorithm that learns to generate image augmentations in the challenging single-source domain generalization setting. ABA draws on the strengths of adversarial learning and Bayesian neural networks to guide the generation of diverse data augmentations -- these synthesized image domains aid the classifier in generalizing to unseen domains. We demonstrate the strength of ABA on several types of domain shift including style shift, subpopulation shift, and shift in the medical imaging setting. ABA outperforms all previous state-of-the-art methods, including pre-specified augmentations, pixel-based and convolutional-based augmentations.
翻訳日:2023-07-20 16:24:47 公開日:2023-07-18
# 散逸相転移とパッシブエラー補正

Dissipative phase transitions and passive error correction ( http://arxiv.org/abs/2307.09512v1 )

ライセンス: Link先を確認
Yu-Jie Liu and Simon Lieu(参考訳) 古典的および量子的な情報を受動的に保護する方法を分類し、スピン系の局所リンドブラッドモデルでは、シンドロームの測定を許可しない。 このモデルの族の中では、受動的誤差補正は物質の非自明な相と結びついており、熱力学極限におけるリンドブラディアンの安定な状態退化に基づく散逸相の定義を提案する。 2次元イジングモデル,2次元トーリックコード,4次元トーリックコードという3つの熱化モデルについて検討した。 低温状態では、2D Isingモデルは頑健な古典的定常状態縮退を、4Dトーリックコードは頑健な量子定常状態縮退をホストする。 我々は、詳細なバランスに違反する項でモデルを摂動させ、質的特徴が変わらないことを観測し、lindbladian における $\mathbb{z}_2$ symmetry breaking が古典ビットを保護するのに役立つことを示唆する。

We classify different ways to passively protect classical and quantum information, i.e. we do not allow for syndrome measurements, in the context of local Lindblad models for spin systems. Within this family of models, we suggest that passive error correction is associated with nontrivial phases of matter and propose a definition for dissipative phases based on robust steady state degeneracy of a Lindbladian in the thermodynamic limit. We study three thermalizing models in this context: the 2D Ising model, the 2D toric code, and the 4D toric code. In the low-temperature phase, the 2D Ising model hosts a robust classical steady state degeneracy while the 4D toric code hosts a robust quantum steady state degeneracy. We perturb the models with terms that violate detailed balance and observe that qualitative features remain unchanged, suggesting that $\mathbb{Z}_2$ symmetry breaking in a Lindbladian is useful to protect a classical bit while intrinsic topological order protects a qubit.
翻訳日:2023-07-20 16:24:32 公開日:2023-07-18
# 透明6G RANスライシングのための説明誘導フェアフェデレーション学習

Explanation-Guided Fair Federated Learning for Transparent 6G RAN Slicing ( http://arxiv.org/abs/2307.09494v1 )

ライセンス: Link先を確認
Swastika Roy, Hatim Chergui, Christos Verikoukis(参考訳) 将来のゼロタッチ人工知能(AI)による6Gネットワーク自動化は、説明可能な人工知能(XAI)を通じて、AIブラックボックスへの信頼を構築する必要がある。 これにより、XAI出力を利用して透明で偏りのないディープニューラルネットワーク(DNN)を生成する。 閉ループ(CL)の自動化と説明誘導学習(EGL)によって動機づけられた我々は,Jensen-Shannon(JS)の発散によるトレーニング実行中にXAI戦略から発せられるモデル説明を利用して,信頼に値する予測を保証するための説明誘導連合学習(EGFL)スキームを設計する。 具体的には、最適化タスクに制約として含まれるリコール基準で定式化された公正度目標を尊重しながら、提案概念を実証するために、スライス当たりの交通確率を推定する。 最後に、包括性スコアを用いて、説明の忠実度を定量的に測定し、検証する。 シミュレーションの結果,提案したEGFL-JS スキームは,文献,特に Kullback-Leibler Divergence に基づく変種EGFL-KL と比較して,包括性において 50 % 以上向上していることがわかった。 またリコールスコアも25\%以上向上し、非拘束のEGFLに比例した。

Future zero-touch artificial intelligence (AI)-driven 6G network automation requires building trust in the AI black boxes via explainable artificial intelligence (XAI), where it is expected that AI faithfulness would be a quantifiable service-level agreement (SLA) metric along with telecommunications key performance indicators (KPIs). This entails exploiting the XAI outputs to generate transparent and unbiased deep neural networks (DNNs). Motivated by closed-loop (CL) automation and explanation-guided learning (EGL), we design an explanation-guided federated learning (EGFL) scheme to ensure trustworthy predictions by exploiting the model explanation emanating from XAI strategies during the training run time via Jensen-Shannon (JS) divergence. Specifically, we predict per-slice RAN dropped traffic probability to exemplify the proposed concept while respecting fairness goals formulated in terms of the recall metric which is included as a constraint in the optimization task. Finally, the comprehensiveness score is adopted to measure and validate the faithfulness of the explanations quantitatively. Simulation results show that the proposed EGFL-JS scheme has achieved more than $50\%$ increase in terms of comprehensiveness compared to different baselines from the literature, especially the variant EGFL-KL that is based on the Kullback-Leibler Divergence. It has also improved the recall score with more than $25\%$ relatively to unconstrained-EGFL.
翻訳日:2023-07-20 16:24:12 公開日:2023-07-18
# 自動キャプションによる交通関連ビデオ質問応答

Traffic-Domain Video Question Answering with Automatic Captioning ( http://arxiv.org/abs/2307.09636v1 )

ライセンス: Link先を確認
Ehsan Qasemi, Jonathan M. Francis, Alessandro Oltramari(参考訳) Video Question Answering (VidQA)は、インテリジェントトラフィックモニタリングとインテリジェントトランスポーテーションシステムの領域内で、高度なマシン推論機能を促進する上で、大きな可能性を秘めている。 それでも、都市交通現場の知識をVidQAシステムに統合することは、これまでの研究ではあまり注目されなかった。 本稿では,トラヒックドメイン知識を大規模ビデオ言語モデルに流用するための弱いスーパービジョン手法として,トラヒックドメインビデオ質問応答と自動キャプション(trivia)という新しい手法を提案する。 SUTD-TrafficQAタスクから得られた経験的発見は、TRIVIAによって達成された実質的な改善を強調し、ベースライン設定に比べて6.5ポイント(19.88%)の精度を高める。 この先駆的な手法は、この分野の進歩を加速させる大きな可能性を秘めており、研究者や実践者たちも、交通関連アプリケーションにおける新しいビデオ言語モデルの可能性を完全に解き放つように促している。

Video Question Answering (VidQA) exhibits remarkable potential in facilitating advanced machine reasoning capabilities within the domains of Intelligent Traffic Monitoring and Intelligent Transportation Systems. Nevertheless, the integration of urban traffic scene knowledge into VidQA systems has received limited attention in previous research endeavors. In this work, we present a novel approach termed Traffic-domain Video Question Answering with Automatic Captioning (TRIVIA), which serves as a weak-supervision technique for infusing traffic-domain knowledge into large video-language models. Empirical findings obtained from the SUTD-TrafficQA task highlight the substantial enhancements achieved by TRIVIA, elevating the accuracy of representative video-language models by a remarkable 6.5 points (19.88%) compared to baseline settings. This pioneering methodology holds great promise for driving advancements in the field, inspiring researchers and practitioners alike to unlock the full potential of emerging video-language models in traffic-related applications.
翻訳日:2023-07-20 16:17:45 公開日:2023-07-18
# 心筋SPECT画像再構成のためのトランスフォーマーベースデュアルドメインネットワーク

Transformer-based Dual-domain Network for Few-view Dedicated Cardiac SPECT Image Reconstructions ( http://arxiv.org/abs/2307.09624v1 )

ライセンス: Link先を確認
Huidong Xie, Bo Zhou, Xiongchao Chen, Xueqi Guo, Stephanie Thorn, Yi-Hwa Liu, Ge Wang, Albert Sinusas, Chi Liu(参考訳) 心臓血管疾患(CVD)は世界中で死因の主要な疾患であり, SPECTを用いた心筋灌流像はCVDの診断に広く用いられている。 GE 530/570c専用心筋SPECTスキャナは静止形状を採用し、19個の投射を同時に取得して感度を高め、ダイナミックイメージングを実現する。 しかし、角サンプリングの限られた量は画質に悪影響を及ぼす。 静止データから高品質な画像を生成するディープラーニング手法を実装できる。 これは本質的には数ビューの撮像問題である。 本研究では,高品質3d心筋spect画像再構成のための新しい3dトランスフォーマーベースのデュアルドメインネットワークtip-netを提案する。 本手法は,プロジェクション・ツー・イメージ・ドメイン・トランスフォーマーのカスタマイズにより,投影データから直接3次元SPECT画像を再構成することを目的としている。 そして、その復元出力と元の少数視点再構成を考慮し、画像ドメイン再構築ネットワークを用いて再構成をさらに洗練する。 fda 510(k)-cleared clinical softwareによって定量化された心臓カテーテル画像、核心科医からの診断解釈、および欠陥サイズによって検証された本手法は、ヒト研究において従来の基準法と比較して高い心不全コントラストを有する画像を生成し、静止数ビュー専用心筋spectスキャナを用いて高品質の欠陥可視化を可能にする。

Cardiovascular disease (CVD) is the leading cause of death worldwide, and myocardial perfusion imaging using SPECT has been widely used in the diagnosis of CVDs. The GE 530/570c dedicated cardiac SPECT scanners adopt a stationary geometry to simultaneously acquire 19 projections to increase sensitivity and achieve dynamic imaging. However, the limited amount of angular sampling negatively affects image quality. Deep learning methods can be implemented to produce higher-quality images from stationary data. This is essentially a few-view imaging problem. In this work, we propose a novel 3D transformer-based dual-domain network, called TIP-Net, for high-quality 3D cardiac SPECT image reconstructions. Our method aims to first reconstruct 3D cardiac SPECT images directly from projection data without the iterative reconstruction process by proposing a customized projection-to-image domain transformer. Then, given its reconstruction output and the original few-view reconstruction, we further refine the reconstruction using an image-domain reconstruction network. Validated by cardiac catheterization images, diagnostic interpretations from nuclear cardiologists, and defect size quantified by an FDA 510(k)-cleared clinical software, our method produced images with higher cardiac defect contrast on human studies compared with previous baseline methods, potentially enabling high-quality defect visualization using stationary few-view dedicated cardiac SPECT scanners.
翻訳日:2023-07-20 16:17:27 公開日:2023-07-18
# 没入型室内シーンデコレーションのための条件付き360度画像合成

Conditional 360-degree Image Synthesis for Immersive Indoor Scene Decoration ( http://arxiv.org/abs/2307.09621v1 )

ライセンス: Link先を確認
Ka Chun Shum, Hong-Wing Pang, Binh-Son Hua, Duc Thanh Nguyen, Sai-Kit Yeung(参考訳) 本稿では,360度画像における条件付きシーン装飾の問題に対処する。 室内シーンの360度背景写真を撮影し、パノラマビューで同じシーンのデコレーション画像を生成する。 そこで我々は,360度背景画像の様々な家具配置を可能にするために,360度視野における潜時物体ベクトルを学習する360度オブジェクトレイアウト生成装置を開発した。 我々は,このオブジェクトレイアウトを用いて生成的逆ネットワークを条件付けし,入力シーンの画像を合成する。 モデルの生成能力をさらに強化するため,生成した家具を除去し,循環制約を学習するための空きシーンを生成する,シンプルで効果的なシーン空き装置を開発した。 structure3dデータセットでモデルをトレーニングし、制御可能なオブジェクトレイアウトで多様なデコレーションを生成できることを示します。 本手法は,Structure3Dデータセットの最先端性能を実現し,Zillow屋内シーンデータセットによく適合する。 本研究は,実写画像品質と家具レイアウトから得られる没入体験を,その生成結果から確認する。 私たちの実装は利用可能になります。

In this paper, we address the problem of conditional scene decoration for 360-degree images. Our method takes a 360-degree background photograph of an indoor scene and generates decorated images of the same scene in the panorama view. To do this, we develop a 360-aware object layout generator that learns latent object vectors in the 360-degree view to enable a variety of furniture arrangements for an input 360-degree background image. We use this object layout to condition a generative adversarial network to synthesize images of an input scene. To further reinforce the generation capability of our model, we develop a simple yet effective scene emptier that removes the generated furniture and produces an emptied scene for our model to learn a cyclic constraint. We train the model on the Structure3D dataset and show that our model can generate diverse decorations with controllable object layout. Our method achieves state-of-the-art performance on the Structure3D dataset and generalizes well to the Zillow indoor scene dataset. Our user study confirms the immersive experiences provided by the realistic image quality and furniture layout in our generation results. Our implementation will be made available.
翻訳日:2023-07-20 16:17:03 公開日:2023-07-18
# 連合基盤モデルに向けて: グループ構造学習のためのスケーラブルなデータセットパイプライン

Towards Federated Foundation Models: Scalable Dataset Pipelines for Group-Structured Learning ( http://arxiv.org/abs/2307.09619v1 )

ライセンス: Link先を確認
Zachary Charles, Nicole Mitchell, Krishna Pillutla, Michael Reneer, Zachary Garrett(参考訳) 我々は,大規模なグループ構造化(フェデレート)データセットを作成するために,Dataset Grouperというライブラリを導入し,基礎モデルの規模でのフェデレーション学習シミュレーションを可能にする。 このライブラリは、ユーザが指定したパーティションに基づいて、既存のデータセットのグループ構造バージョンを作成することができ、既存のソフトウェアフレームワークにプラグイン可能な、様々な有用な異種データセットに直接つながる。 Dataset Grouperには3つの利点がある。 まず、単一のグループのデータセットでさえメモリに収まるには大きすぎる設定にスケールします。 第2に、基本(非分割)データセットの選択とパーティション定義の両方において、柔軟性を提供します。 最後に、フレームワークに依存しない。 我々は、Dataset Grouperが、以前よりも桁違いに大きいデータセット上で、大規模なフェデレーション言語モデリングシミュレーションを可能にすることを実証的に実証した。 実験の結果,FedAvgのようなアルゴリズムは,この規模の経験的リスク最小化手法よりもメタラーニング手法として機能し,下流のパーソナライズやタスク固有の適応に有用であることが示唆された。

We introduce a library, Dataset Grouper, to create large-scale group-structured (e.g., federated) datasets, enabling federated learning simulation at the scale of foundation models. This library allows the creation of group-structured versions of existing datasets based on user-specified partitions, and directly leads to a variety of useful heterogeneous datasets that can be plugged into existing software frameworks. Dataset Grouper offers three key advantages. First, it scales to settings where even a single group's dataset is too large to fit in memory. Second, it provides flexibility, both in choosing the base (non-partitioned) dataset and in defining partitions. Finally, it is framework-agnostic. We empirically demonstrate that Dataset Grouper allows for large-scale federated language modeling simulations on datasets that are orders of magnitude larger than in previous work. Our experimental results show that algorithms like FedAvg operate more as meta-learning methods than as empirical risk minimization methods at this scale, suggesting their utility in downstream personalization and task-specific adaptation.
翻訳日:2023-07-20 16:16:44 公開日:2023-07-18
# 勾配が逆戻り:高周波数のフィルタリングが説明を改善する

Gradient strikes back: How filtering out high frequencies improves explanations ( http://arxiv.org/abs/2307.09591v1 )

ライセンス: Link先を確認
Sabine Muzellec, Leo Andeol, Thomas Fel, Rufin VanRullen, Thomas Serre(参考訳) 近年では、新しい予測に基づく帰属法の開発が爆発的に増加しており、深層ニューラルネットワークの決定を説明するために、古い勾配に基づく手法を徐々に置き換えている。 しかし、なぜ予測に基づく手法が勾配に基づく手法よりも優れているのかは定かではない。 これらの2つのアプローチは、非常に異なるパワースペクトルを持つ帰属写像を生み出し、勾配に基づく手法は、予測に基づく方法よりも高周波のコンテンツを明らかにする。 この高周波情報の源は何であり、システムによる決定を本当に反映しているのか? 最後に、なぜ予測に基づく手法に高周波情報がないことが、複数の指標に沿ってより良い説明可能性スコアをもたらすのか? 代表的な3つの視覚分類モデルの勾配を解析し、高頻度から発生するノイズ情報を含むことを観察する。 さらに、我々の分析では、ダウンサンプリングにConvolutional Neural Networks(CNN)で使用される操作が、この高周波コンテンツの重要なソースであるように見えることが判明した。 次に, 最適低域通過フィルタを帰属写像に適用し, 勾配に基づく帰属法を改善することを示す。 私たちはそれを示します (i)高周波ノイズの除去は、複数のモデルにまたがる勾配法による説明可能性スコアの大幅な改善をもたらす。 (ii)グラデーションに基づく手法を頂点とした最先端手法の新規ランキング 本研究の結果は, より単純で, より効率的な勾配法への新たな関心を喚起すると考えられる。

Recent years have witnessed an explosion in the development of novel prediction-based attribution methods, which have slowly been supplanting older gradient-based methods to explain the decisions of deep neural networks. However, it is still not clear why prediction-based methods outperform gradient-based ones. Here, we start with an empirical observation: these two approaches yield attribution maps with very different power spectra, with gradient-based methods revealing more high-frequency content than prediction-based methods. This observation raises multiple questions: What is the source of this high-frequency information, and does it truly reflect decisions made by the system? Lastly, why would the absence of high-frequency information in prediction-based methods yield better explainability scores along multiple metrics? We analyze the gradient of three representative visual classification models and observe that it contains noisy information emanating from high-frequencies. Furthermore, our analysis reveals that the operations used in Convolutional Neural Networks (CNNs) for downsampling appear to be a significant source of this high-frequency content -- suggesting aliasing as a possible underlying basis. We then apply an optimal low-pass filter for attribution maps and demonstrate that it improves gradient-based attribution methods. We show that (i) removing high-frequency noise yields significant improvements in the explainability scores obtained with gradient-based methods across multiple models -- leading to (ii) a novel ranking of state-of-the-art methods with gradient-based methods at the top. We believe that our results will spur renewed interest in simpler and computationally more efficient gradient-based methods for explainability.
翻訳日:2023-07-20 16:16:11 公開日:2023-07-18
# 現実の非局所制御

Nonlocal Control of Reality ( http://arxiv.org/abs/2307.09589v1 )

ライセンス: Link先を確認
Diego S. S. Chrysosthemos, Jonas Maziero and Renato M. Angelo(参考訳) 1935年、アインシュタイン、ポドルスキー、ローゼンは、局所的な作用が遠方の場所における現実の要素に影響を与えないことを仮定して、量子力学の不完全性を主張した。 それとは対照的に、このレターでは、アリスは彼女の場所で行われた量子演算を通して、ボブの遠い研究室で観測可能な天体の現実を変えることができることを示した。 我々は,現在の技術を用いて,レトロディクションを必要とせず,理論的な予測を検証できる改良型光量子消去器実験を提案する。 我々はIBM量子コンピュータを用いた実験を実演する。

In 1935, Einstein, Podolsky, and Rosen claimed the incompleteness of quantum mechanics by assuming that local actions cannot influence the elements of reality in a distant location. Very much to the contrary, in this Letter we show that via quantum operations performed in her location, Alice can change the reality of observables in the distant laboratory of Bob. We propose a modified optical quantum eraser experiment that can be implemented using current technology for verifying our theoretical predictions, without any need for retrodiction. We demonstrate such an experiment using IBM quantum computers.
翻訳日:2023-07-20 16:15:48 公開日:2023-07-18
# 深層学習による繊維状材料の顕微鏡像における木材種検出と分類の自動化

Automating Wood Species Detection and Classification in Microscopic Images of Fibrous Materials with Deep Learning ( http://arxiv.org/abs/2307.09588v1 )

ライセンス: Link先を確認
Lars Nieradzik, J\"ordis Sieburg-Rockel, Stephanie Helmling, Janis Keuper, Thomas Weibel, Andrea Olbrich, Henrike Stephani(参考訳) そこで本研究では,9種の硬木属に対する画像データ生成に用いたマセレーテッドウッド参照の大規模画像データセットを体系的に生成する手法を開発した。 これは、深層学習による繊維質材料の顕微鏡像における硬材種の同定を初めて自動化するための、実質的なアプローチの基礎である。 提案手法は,血管要素のアノテーションを容易にする柔軟なパイプラインを含んでいる。 異なるニューラルネットワークアーキテクチャとハイパーパラメータのパフォーマンスを比較する。 提案手法は人間の専門家とよく似ている。 将来的には森林保護のため、グローバルな木繊維製品フローの制御を改善する。

We have developed a methodology for the systematic generation of a large image dataset of macerated wood references, which we used to generate image data for nine hardwood genera. This is the basis for a substantial approach to automate, for the first time, the identification of hardwood species in microscopic images of fibrous materials by deep learning. Our methodology includes a flexible pipeline for easy annotation of vessel elements. We compare the performance of different neural network architectures and hyperparameters. Our proposed method performs similarly well to human experts. In the future, this will improve controls on global wood fiber product flows to protect forests.
翻訳日:2023-07-20 16:15:38 公開日:2023-07-18
# 制限付き高次元QKDプロトコルの新しいセキュリティ証明

New Security Proof of a Restricted High-Dimensional QKD Protocol ( http://arxiv.org/abs/2307.09560v1 )

ライセンス: Link先を確認
Hasan Iqbal and Walter O. Krawec(参考訳) 高次元(hd)状態は量子暗号に適用するといくつかの興味深い性質を持つことが知られている。 量子鍵分布(QKD)では、これらの状態は耐雑音性と効率性を改善する可能性がある。 しかし、HD状態の生成と測定は技術的に難しいため、アリスとボブが量子能力に制限されるHD-QKDプロトコルを研究することが重要である。 本稿では,AliceとBobが相互に偏りのない全ベースで送信・測定する必要がない,特定のHD-QKDプロトコル(PRA 97 (4):042348, 2018)を再検討する。 ある意味では、このプロトコルは3つの状態bb84のhdバージョンである: 1つの完全基底はキー蒸留に使われるが、チャネルの忠実性をテストするために1つの状態だけを使用する。 このプロトコルの以前のセキュリティの証明は数値的な方法に依存しているため、高次元の評価は困難である。 本研究では,セキュリティの新たな証明を提供し,脱分極チャネルに対する明示的なキーレート方程式を与え,任意の高次元状態に対するキーレートの評価を可能にする。 さらに,本論文では,8次元以上の先行研究よりも優れた結果が得られ,HD状態が制限されたプロトコルの恩恵を受けることを示す。

High-dimensional (HD) states are known to have several interesting properties when applied to quantum cryptography. For quantum key distribution (QKD), these states have the potential to improve noise tolerance and efficiency. However, creating, and measuring, HD states is technologically challenging, thus making it important to study HD-QKD protocols where Alice and Bob are restricted in their quantum capabilities. In this paper, we revisit a particular HD-QKD protocol, introduced in (PRA 97 (4):042348, 2018), which does not require Alice and Bob to be capable of sending and measuring in full mutually unbiased bases. In a way, the protocol is a HD version of the three state BB84: one full basis is used for key distillation, but only a single state is used, from an alternative basis, for testing the fidelity of the channel. The previous proof of security for this protocol has relied on numerical methods, making it difficult to evaluate for high dimensions. In this work, we provide a new proof of security, and give an explicit key-rate equation for depolarization channels, allowing us to evaluate the key-rate for arbitrarily high dimensional states. Furthermore, our new proof produces better results than prior work for dimensions greater than eight, and shows that HD-states can benefit restricted protocols of this nature.
翻訳日:2023-07-20 16:15:01 公開日:2023-07-18
# 物体認識型ゲズターゲット検出

Object-aware Gaze Target Detection ( http://arxiv.org/abs/2307.09662v1 )

ライセンス: Link先を確認
Francesco Tonini and Nicola Dall'Asen and Cigdem Beyan and Elisa Ricci(参考訳) 視線目標検出は、人物が見ている画像の位置と、視線が現場外にある確率を予測することを目的としている。 いくつかの研究は、視線位置を中心とする視線熱マップを回帰することでこの課題に取り組んできたが、人と視線のある物体の関係を復号化することを見落としていた。 本稿では,視線対象領域,視線画素点,クラス,および視線対象の画像位置の包括的かつ説明可能な視線解析を実現するために,シーン内の物体(頭部を含む)を自動的に検出し,各頭部と視線/物体の関連関係を構築するトランスフォーマーアーキテクチャを提案する。 本手法は,対象物の平均精度を11-13%向上し,全測定値(AUCで2.91%,視線距離で50%,フレーム外平均精度で9%,視線目標検出で1.9%,視線対象物の局所化における平均精度を11-13%向上した。 提案手法のコードはhttps://github.com/francescotonini/object-aware-gaze-target-detectionで利用可能である。

Gaze target detection aims to predict the image location where the person is looking and the probability that a gaze is out of the scene. Several works have tackled this task by regressing a gaze heatmap centered on the gaze location, however, they overlooked decoding the relationship between the people and the gazed objects. This paper proposes a Transformer-based architecture that automatically detects objects (including heads) in the scene to build associations between every head and the gazed-head/object, resulting in a comprehensive, explainable gaze analysis composed of: gaze target area, gaze pixel point, the class and the image location of the gazed-object. Upon evaluation of the in-the-wild benchmarks, our method achieves state-of-the-art results on all metrics (up to 2.91% gain in AUC, 50% reduction in gaze distance, and 9% gain in out-of-frame average precision) for gaze target detection and 11-13% improvement in average precision for the classification and the localization of the gazed-objects. The code of the proposed method is available https://github.com/francescotonini/object-aware-gaze-target-detection
翻訳日:2023-07-20 16:08:02 公開日:2023-07-18
# ベイズ最適化を用いた導波路の不確かさ定量化のための物理モデル

Physics-based Reduced Order Modeling for Uncertainty Quantification of Guided Wave Propagation using Bayesian Optimization ( http://arxiv.org/abs/2307.09661v1 )

ライセンス: Link先を確認
G. I. Drakoulas, T. V. Gortsas, D. Polyzos(参考訳) デジタル双生児の文脈では、構造的健康監視(SHM)が状態ベースのメンテナンスのバックボーンを構成し、仮想資産と物理資産の相互接続を促進する。 ガイド波伝搬(GWP)はSHMの構造検査に一般的に用いられる。 しかし、gwpは構造の物質的性質の変化に敏感であり、誤報を引き起こしている。 この方向では、予測の信頼性を向上させるために不確実性定量化(UQ)が定期的に適用される。 計算力学はGWPのシミュレーションに有用なツールであり、しばしばUQに応用される。 それでも、UQ法の適用には多数のシミュレーションが必要であるが、大規模で過渡的な数値GWPソリューションは計算コストを増大させる。 還元次数モデル(ROM)は、限られた時間で数値結果を提供するために一般的に用いられる。 本稿では,機械学習(ML)ベースのROMであるBO-ML-ROMを提案し,GWPのシミュレーションに関する計算時間を短縮する。 ROMはベイズ最適化(BO)フレームワークと統合され、ROMトレーニングのパラメータを適応的にサンプリングする。 有限要素法は高忠実度モデルのシミュレーションに使用される。 成形されたROMは、材料特性の異なるアルミニウム板におけるGWPの前方UQに用いられる。 各パラメータの摂動の影響を決定するために、sobolの指標に基づいてグローバル分散に基づく感度解析を行う。 ベイズ最適化は,精度と高速化の両面において,単発サンプリング法よりも優れていた。 その結果,GWPにおけるBO-ML-ROMの有効性が明らかとなり,UQに対する価値が示された。

In the context of digital twins, structural health monitoring (SHM) constitutes the backbone of condition-based maintenance, facilitating the interconnection between virtual and physical assets. Guided wave propagation (GWP) is commonly employed for the inspection of structures in SHM. However, GWP is sensitive to variations in the material properties of the structure, leading to false alarms. In this direction, uncertainty quantification (UQ) is regularly applied to improve the reliability of predictions. Computational mechanics is a useful tool for the simulation of GWP, and is often applied for UQ. Even so, the application of UQ methods requires numerous simulations, while large-scale, transient numerical GWP solutions increase the computational cost. Reduced order models (ROMs) are commonly employed to provide numerical results in a limited amount of time. In this paper, we propose a machine learning (ML)-based ROM, mentioned as BO-ML-ROM, to decrease the computational time related to the simulation of the GWP. The ROM is integrated with a Bayesian optimization (BO) framework, to adaptively sample the parameters for the ROM training. The finite element method is used for the simulation of the high-fidelity models. The formulated ROM is used for forward UQ of the GWP in an aluminum plate with varying material properties. To determine the influence of each parameter perturbation, a global, variance-based sensitivity analysis is implemented based on Sobol' indices. It is shown that Bayesian optimization outperforms one-shot sampling methods, both in terms of accuracy and speed-up. The predicted results reveal the efficiency of BO-ML-ROM for GWP and demonstrate its value for UQ.
翻訳日:2023-07-20 16:07:35 公開日:2023-07-18
# グラフニューラルネットワークのためのニューラルプライオリティキュー

Neural Priority Queues for Graph Neural Networks ( http://arxiv.org/abs/2307.09660v1 )

ライセンス: Link先を確認
Rishabh Jain, Petar Veli\v{c}kovi\'c, Pietro Li\`o(参考訳) グラフニューラルネットワーク(GNN)は、ニューラルネットワーク推論においてかなりの成功を収めている。 多くの伝統的なアルゴリズムは、データ構造の形で明示的なメモリを使用する。 しかし、外部メモリによるgnnの拡張に関する調査は限られている。 本稿では,gnnのためのアルゴリズム優先待ち行列の微分可能な類似品であるneural priority queuesを提案する。 本稿では,メモリモジュールのデシデラタの提案と動機付けを行い,ニューラルpqがデシデラタを示し,アルゴリズム推論による使用の理由を示す。 これはclrs-30データセットの実証的な結果によってさらに示される。 さらに、Long-Range Graph Benchmarkのデータセットに実証的に示されているように、ニューラルPQは長距離相互作用のキャプチャに有用である。

Graph Neural Networks (GNNs) have shown considerable success in neural algorithmic reasoning. Many traditional algorithms make use of an explicit memory in the form of a data structure. However, there has been limited exploration on augmenting GNNs with external memory. In this paper, we present Neural Priority Queues, a differentiable analogue to algorithmic priority queues, for GNNs. We propose and motivate a desiderata for memory modules, and show that Neural PQs exhibit the desiderata, and reason about their use with algorithmic reasoning. This is further demonstrated by empirical results on the CLRS-30 dataset. Furthermore, we find the Neural PQs useful in capturing long-range interactions, as empirically shown on a dataset from the Long-Range Graph Benchmark.
翻訳日:2023-07-20 16:06:48 公開日:2023-07-18
# hat-cl: 継続学習のためのタスク対応pytorchライブラリ

HAT-CL: A Hard-Attention-to-the-Task PyTorch Library for Continual Learning ( http://arxiv.org/abs/2307.09653v1 )

ライセンス: Link先を確認
Xiaotian Duan(参考訳) ニューラルネットワークが新しいタスクの学習中に得られた知識を失う破滅的な忘れ物は、継続的な学習において重要な課題となる。 ハード・アテンション・トゥ・ザ・タスク(HAT)機構はこの問題を緩和する可能性を示しているが、ユーザビリティと互換性の問題や既存のネットワークの再利用サポートの欠如によりその実践は複雑である。 本稿では,ユーザフレンドリなPyTorch互換のHAT-CLについて紹介する。 HAT-CLは勾配操作を自動化するだけでなく、PyTorchモジュールのHATモジュールへの変換を効率化する。 既存のアーキテクチャにシームレスに統合可能なモジュールの包括的なスイートを提供することで、これを実現する。 さらに hat-cl は,timm ライブラリとスムーズに統合可能な hat ネットワークも提供している。 hatの再設計と再実装以外にも,さまざまな実験で一貫して改善されている,新たなマスク操作テクニックも導入しています。 我々の研究は、HATメカニズムのより広範な応用の道を開き、多様なモデルやアプリケーションにわたる継続的な学習の新たな可能性を開く。

Catastrophic forgetting, the phenomenon in which a neural network loses previously obtained knowledge during the learning of new tasks, poses a significant challenge in continual learning. The Hard-Attention-to-the-Task (HAT) mechanism has shown potential in mitigating this problem, but its practical implementation has been complicated by issues of usability and compatibility, and a lack of support for existing network reuse. In this paper, we introduce HAT-CL, a user-friendly, PyTorch-compatible redesign of the HAT mechanism. HAT-CL not only automates gradient manipulation but also streamlines the transformation of PyTorch modules into HAT modules. It achieves this by providing a comprehensive suite of modules that can be seamlessly integrated into existing architectures. Additionally, HAT-CL offers ready-to-use HAT networks that are smoothly integrated with the TIMM library. Beyond the redesign and reimplementation of HAT, we also introduce novel mask manipulation techniques for HAT, which have consistently shown improvements across various experiments. Our work paves the way for a broader application of the HAT mechanism, opening up new possibilities in continual learning across diverse models and applications.
翻訳日:2023-07-20 16:06:29 公開日:2023-07-18
# VISER:情報非対称性を持つゲームのためのトラクタブルソリューションコンセプト

VISER: A Tractable Solution Concept for Games with Information Asymmetry ( http://arxiv.org/abs/2307.09652v1 )

ライセンス: Link先を確認
Jeremy McMahan, Young Wu, Yudong Chen, Xiaojin Zhu, Qiaomin Xie(参考訳) 多くの現実世界のゲームは情報非対称性に悩まされており、一方のプレイヤーは自分の支払いのみを認識し、もう一方のプレイヤーは完全なゲーム情報を持っている。 例えば、セキュリティゲームの重要な領域や、敵のマルチエージェント強化学習がある。 情報非対称性は、SSE(Strong Stackelberg Equilibrium)やROE(Robust-Optimization Equilibrium)といった従来のソリューション概念を非機能的に表現する。 本稿では,VISER(Victim Is Secure, Exploiter best-Responds)という新しいソリューション概念を提案する。 VISERは、外部オブザーバがそのようなゲームの結果を予測することを可能にする。 特にセキュリティアプリケーションの場合、viserは攻撃者に最もダメージを与える攻撃を特徴付けながら、被害者の身を守るのに役立ちます。 各プレイヤーのバイザー戦略は線形計画 (lp) を用いて多項式時間で独立に計算できることを示す。 また,VISER を Markov ゲーム用の Markov 完全対応に拡張し,一連の LP を用いて効率よく解けるようにした。

Many real-world games suffer from information asymmetry: one player is only aware of their own payoffs while the other player has the full game information. Examples include the critical domain of security games and adversarial multi-agent reinforcement learning. Information asymmetry renders traditional solution concepts such as Strong Stackelberg Equilibrium (SSE) and Robust-Optimization Equilibrium (ROE) inoperative. We propose a novel solution concept called VISER (Victim Is Secure, Exploiter best-Responds). VISER enables an external observer to predict the outcome of such games. In particular, for security applications, VISER allows the victim to better defend itself while characterizing the most damaging attacks available to the attacker. We show that each player's VISER strategy can be computed independently in polynomial time using linear programming (LP). We also extend VISER to its Markov-perfect counterpart for Markov games, which can be solved efficiently using a series of LPs.
翻訳日:2023-07-20 16:05:44 公開日:2023-07-18
# 超伝導量子プロセッサ上でのサブ線形資源を持つ整数のベクトル化」へのコメント

A comment on "Factoring integers with sublinear resources on a superconducting quantum processor" ( http://arxiv.org/abs/2307.09651v1 )

ライセンス: Link先を確認
Tanuj Khattar, Nour Yosri(参考訳) 量子コンピューティングは、RSAやDiffie-Hellmanのような古典的な公開鍵暗号スキームを破り、暗号に革命をもたらす可能性がある。 しかし、Shorの量子因数分解アルゴリズムを用いて広く使われている2048ビットRSAを破るには、何百万ものノイズの多い物理量子ビットが必要であり、現在の量子コンピュータの能力をはるかに超えている。 Yanらによる最近の提案。 al.は、量子オプティマイザ(qaoa)を用いて広く議論されているシュノールの格子ベースの整数分解アルゴリズムを改善し、さらに372量子ビットでrsa 2048を破ることができると主張する。 本稿では,yanらによって提案されたアルゴリズムのオープンソース実装を提案する。 完璧な量子オプティマイザ(QAOAのようなヒューリスティックではなく)があったとしても、提案された主張は真実ではない。 具体的には、Schnorrのアルゴリズムのハイブリッド量子+古典版に対する主張されるサブ線形格子次元は、70ビットまでの整数しか分解できず、80ビット以上のランダムな整数に対して十分な分解関係が見つからないことを示す。 さらに我々は、我々の実装が、格子に基づく還元を用いて、他のハイブリッド量子+古典整数分解アルゴリズムのアイデアを簡単にテストできる場となることを望んでいる。

Quantum computing has the potential to revolutionize cryptography by breaking classical public-key cryptography schemes, such as RSA and Diffie-Hellman. However, breaking the widely used 2048-bit RSA using Shor's quantum factoring algorithm is expected to require millions of noisy physical qubits and is well beyond the capabilities of present day quantum computers. A recent proposal by Yan et. al. tries to improve the widely debated Schnorr's lattice-based integer factorization algorithm using a quantum optimizer (QAOA), and further claim that one can break RSA 2048 using only 372 qubits. In this work, we present an open-source implementation of the algorithm proposed by Yan et. al. and show that, even if we had a perfect quantum optimizer (instead of a heuristic like QAOA), the proposed claims don't hold true. Specifically, our implementation shows that the claimed sublinear lattice dimension for the Hybrid quantum+classical version of Schnorr's algorithm successfully factors integers only up to 70 bits and fails to find enough factoring relations for random 80 bit integers and beyond. We further hope that our implementation serves as a playground for the community to easily test other hybrid quantum + classical integer factorization algorithm ideas using lattice based reductions.
翻訳日:2023-07-20 16:05:20 公開日:2023-07-18
# 空飛ぶ色:大規模共同キャンペーンにおけるコミュニティの成功を予測する

With Flying Colors: Predicting Community Success in Large-scale Collaborative Campaigns ( http://arxiv.org/abs/2307.09650v1 )

ライセンス: Link先を確認
Abraham Israeli and Oren Tsur(参考訳) オンラインコミュニティは独自の特徴を発達させ、社会的規範を確立し、メンバー間で異なるダイナミクスを示す。 オンラインコミュニティにおける活動は、社会的影響の広い具体的な「オフライン」行動(例えば、政治的街頭抗議や性的不行に関連する規範)をもたらすことが多い。 コミュニティのダイナミクス、情報拡散、オンラインコラボレーションは過去20年間に広く研究されてきたが、オンラインコミュニティのアジェンダを促進する効果を測定する定量的研究は乏しい。 本研究では,競争力のあるオンラインキャンペーンにおける成功度によって測定されるコミュニティの有効性と,そのメンバ間の基盤となるダイナミクスの対応について検討する。 この目的のために私たちは,Redditのr/placeにおけるオンラインコミュニティの成功レベルを予測する,コミュニティメンバ間のコラボレーションを必要とする大規模分散実験という,新たなタスクを定義しました。 私たちは成功レベルのための一連の定義を考えており、それぞれが協調達成の異なる側面に向けられている。 様々な種類の特徴を組み合わせたハイブリッドモデルを実験した。 私たちのモデルは‘成功レベル’のすべての定義に対して、すべてのベースラインモデルを大幅に上回っています。 コーディネートキャンペーンの成功に寄与する要因と結果の分析は、選挙妨害や反科学傾向といったオンライン社会の脅威に対するコミュニティのレジリエンスや脆弱性をよりよく理解することができる。 この研究に使用されるデータはすべて、さらなる研究のために公開されています。

Online communities develop unique characteristics, establish social norms, and exhibit distinct dynamics among their members. Activity in online communities often results in concrete ``off-line'' actions with a broad societal impact (e.g., political street protests and norms related to sexual misconduct). While community dynamics, information diffusion, and online collaborations have been widely studied in the past two decades, quantitative studies that measure the effectiveness of online communities in promoting their agenda are scarce. In this work, we study the correspondence between the effectiveness of a community, measured by its success level in a competitive online campaign, and the underlying dynamics between its members. To this end, we define a novel task: predicting the success level of online communities in Reddit's r/place - a large-scale distributed experiment that required collaboration between community members. We consider an array of definitions for success level; each is geared toward different aspects of collaborative achievement. We experiment with several hybrid models, combining various types of features. Our models significantly outperform all baseline models over all definitions of `success level'. Analysis of the results and the factors that contribute to the success of coordinated campaigns can provide a better understanding of the resilience or the vulnerability of communities to online social threats such as election interference or anti-science trends. We make all data used for this study publicly available for further research.
翻訳日:2023-07-20 16:04:53 公開日:2023-07-18
# バドネットのスパムフィルタへの応用

Application of BadNets in Spam Filters ( http://arxiv.org/abs/2307.09649v1 )

ライセンス: Link先を確認
Swagnik Roychoudhury, Akshaj Kumar Veldanda(参考訳) スパムフィルターは、不要で有害なメールからユーザーを保護するため、現代の電子メールシステムにおいて重要な要素である。 しかし、これらのフィルタの有効性は、それらを動かす機械学習モデルの品質に依存する。 本稿では,スパムフィルタリング分野におけるバックドア攻撃を設計する。 機械学習モデルサプライチェーンの潜在的な脆弱性を示すことで、スパムフィルタで使用されるモデルの注意深い検討と評価の必要性を強調した。 その結果,バックドア攻撃はスパムフィルタの脆弱性を効果的に特定し,現在進行中の監視と改善の必要性を示唆する。

Spam filters are a crucial component of modern email systems, as they help to protect users from unwanted and potentially harmful emails. However, the effectiveness of these filters is dependent on the quality of the machine learning models that power them. In this paper, we design backdoor attacks in the domain of spam filtering. By demonstrating the potential vulnerabilities in the machine learning model supply chain, we highlight the need for careful consideration and evaluation of the models used in spam filters. Our results show that the backdoor attacks can be effectively used to identify vulnerabilities in spam filters and suggest the need for ongoing monitoring and improvement in this area.
翻訳日:2023-07-20 16:04:31 公開日:2023-07-18
# 全身写真における皮膚病変の対応

Skin Lesion Correspondence Localization in Total Body Photography ( http://arxiv.org/abs/2307.09642v1 )

ライセンス: Link先を確認
Wei-Lun Huang, Davood Tashayyod, Jun Kang, Amir Gandjbakhche, Michael Kazhdan, Mehran Armand(参考訳) 皮膚病変の経時的追跡(対応の発見,形態変化,食感の変化)はメラノーマの早期発見に有用である。 しかし、フルボディイメージングの文脈では十分に研究されていない。 そこで本研究では,形状情報とテクスチャ情報を組み合わせて,皮膚病変の対応関係をソーススキャンからターゲットスキャンにローカライズする枠組みを提案する。 ボディランドマークまたはスパース対応は、まずソースとターゲットの3Dテクスチャメッシュ上に作成される。 各メッシュ上のすべての頂点は、そのメッシュ上のランドマークへの測地距離を特徴付ける特徴ベクトルにマッピングされる。 次に、ソース上の各興味病変(LOI)について、特徴ベクトルに符号化された幾何情報を用いてターゲット上の対応する位置をまず粗く推定し、そのテクスチャ情報を用いて精査する。 提案手法は公開データセットとプライベートデータセットの両方で定量的に評価し,成功率(10mm基準)が報告された唯一の縦断調査と同等であることを確認した。 全身3dキャプチャが普及し品質が向上するにつれて,提案手法が皮膚病変の縦断追跡において有用なステップとなることを期待する。

Longitudinal tracking of skin lesions - finding correspondence, changes in morphology, and texture - is beneficial to the early detection of melanoma. However, it has not been well investigated in the context of full-body imaging. We propose a novel framework combining geometric and texture information to localize skin lesion correspondence from a source scan to a target scan in total body photography (TBP). Body landmarks or sparse correspondence are first created on the source and target 3D textured meshes. Every vertex on each of the meshes is then mapped to a feature vector characterizing the geodesic distances to the landmarks on that mesh. Then, for each lesion of interest (LOI) on the source, its corresponding location on the target is first coarsely estimated using the geometric information encoded in the feature vectors and then refined using the texture information. We evaluated the framework quantitatively on both a public and a private dataset, for which our success rates (at 10 mm criterion) are comparable to the only reported longitudinal study. As full-body 3D capture becomes more prevalent and has higher quality, we expect the proposed method to constitute a valuable step in the longitudinal tracking of skin lesions.
翻訳日:2023-07-20 16:04:22 公開日:2023-07-18
# 臨界モーメントを用いた記憶提示アダムの探索促進

Promoting Exploration in Memory-Augmented Adam using Critical Momenta ( http://arxiv.org/abs/2307.09638v1 )

ライセンス: Link先を確認
Pranshu Malviya, Gon\c{c}alo Mordido, Aristide Baratin, Reza Babanezhad Harikandeh, Jerry Huang, Simon Lacoste-Julien, Razvan Pascanu, Sarath Chandar(参考訳) 適応勾配に基づくオプティマイザ、特にadamは、大規模ディープラーニングモデルのトレーニングにおいて、その特徴を残している。 このようなオプティマイザの強みは、ハイパーパラメータ選択に対してより堅牢でありながら、高速収束を示すことである。 しかし、しばしば非適応的な方法よりも悪質なものを一般化する。 最近の研究では、この性能の差は平坦な極小選択に結びついている:適応的手法は損失景観のより鋭い盆地で解を見つける傾向があり、それが一般化を損なう。 この問題を解決するために,トレーニング中に臨界運動量項のバッファを用いてフラットなミニマへの探索を促進するAdamの新しいメモリ拡張版を提案する。 直感的には、バッファの使用は、十分な広さがなければアトラクションの流域の外で最適化器をオーバーシュートさせる。 我々は,標準的な教師付き言語モデリングと画像分類タスクにおいて,Adamのいくつかの変種の性能向上を実証的に示す。

Adaptive gradient-based optimizers, particularly Adam, have left their mark in training large-scale deep learning models. The strength of such optimizers is that they exhibit fast convergence while being more robust to hyperparameter choice. However, they often generalize worse than non-adaptive methods. Recent studies have tied this performance gap to flat minima selection: adaptive methods tend to find solutions in sharper basins of the loss landscape, which in turn hurts generalization. To overcome this issue, we propose a new memory-augmented version of Adam that promotes exploration towards flatter minima by using a buffer of critical momentum terms during training. Intuitively, the use of the buffer makes the optimizer overshoot outside the basin of attraction if it is not wide enough. We empirically show that our method improves the performance of several variants of Adam on standard supervised language modelling and image classification tasks.
翻訳日:2023-07-20 16:04:03 公開日:2023-07-18
# ランダムに相互作用するスピンの絡み合い統計

Entanglement statistics of randomly interacting spins ( http://arxiv.org/abs/2307.09685v1 )

ライセンス: Link先を確認
Paulo Freitas Gomes, Marcel Novaes, and Fernando Parisio(参考訳) ランダムな相互作用を持つ2と3の量子ビットからなる系の基底状態における絡みについて検討する。 ハミルトニアンはまた、決定論的一体項も含んでいるため、相互作用強度を変化させることで、決定論的分離可能な固有状態と完全にランダムな絡み合った固有状態とを、非自明な中間挙動で連続的に補間することができる。 絡み合いは、キュービット間の相互作用の基盤となるトポロジーに強く依存する。 ある種類の相互作用に対して ghz の絡み合いは分離不能な集団相互作用によって好まれるが、完全分離可能な対向相互作用では基底状態は w 状態の近傍に集中する。

We investigate the entanglement in the ground state of systems comprising two and three qubits with random interactions. Since the Hamiltonians also contain deterministic one-body terms, by varying the interaction strength, one can continuously interpolate between deterministic separable eigenstates and fully random entangled eigenstates, with non-trivial intermediate behavior. Entanglement strongly depends on the underlying topology of the interaction among the qubits. For a certain class of interactions GHZ entanglement is favoured by a non-separable collective interaction, while for fully separable pairwise interactions the ground states concentrate in the vicinity of W states.
翻訳日:2023-07-20 15:57:50 公開日:2023-07-18
# PubMedとBeyond:最近のバイオメディカル文献検索の進歩とベストプラクティス

PubMed and Beyond: Recent Advances and Best Practices in Biomedical Literature Search ( http://arxiv.org/abs/2307.09683v1 )

ライセンス: Link先を確認
Qiao Jin, Robert Leaman, Zhiyong Lu(参考訳) 生物医学的な研究は豊富な情報をもたらし、その多くが文学を通してのみアクセス可能である。 その結果,文献検索は臨床・生医学研究における先行知識の構築に不可欠である。 人工知能の最近の進歩はキーワードベースの検索を超えて機能を拡張しているが、これらの進歩は臨床医や研究者には馴染みがない。 そこで本研究では, 生物医学における一般情報と特定情報の両方に合わせた文献検索ツールについて, 読者の情報ニーズを効率的に満たすための調査を行った。 まず,広く使われているPubMed検索エンジンについて検討し,最近の改良と課題の継続について論じる。 次に,5つの情報ニーズに対応する文献検索ツールについて述べる。 エビデンスに基づく医療の質の高い臨床研究の特定 2.精密医学とゲノム学のための遺伝子関連情報検索 3.自然言語質問を含む意味による検索。 4.文献推薦による関連記事の掲載 5.病気や遺伝子変異などの概念の関連を見出すためのマイニング文献。 さらに、これらのツールの選択と使用に関する実践的考察とベストプラクティスについても取り上げる。 最後に,chatgptのような大規模言語モデルにおける最近のブレークスルーを考慮し,文学検索エンジンの将来への展望を示す。 本研究は,36のツールを用いて,生物医学的文献検索機能に関する総合的視点を提供する。

Biomedical research yields a wealth of information, much of which is only accessible through the literature. Consequently, literature search is an essential tool for building on prior knowledge in clinical and biomedical research. Although recent improvements in artificial intelligence have expanded functionality beyond keyword-based search, these advances may be unfamiliar to clinicians and researchers. In response, we present a survey of literature search tools tailored to both general and specific information needs in biomedicine, with the objective of helping readers efficiently fulfill their information needs. We first examine the widely used PubMed search engine, discussing recent improvements and continued challenges. We then describe literature search tools catering to five specific information needs: 1. Identifying high-quality clinical research for evidence-based medicine. 2. Retrieving gene-related information for precision medicine and genomics. 3. Searching by meaning, including natural language questions. 4. Locating related articles with literature recommendation. 5. Mining literature to discover associations between concepts such as diseases and genetic variants. Additionally, we cover practical considerations and best practices for choosing and using these tools. Finally, we provide a perspective on the future of literature search engines, considering recent breakthroughs in large language models such as ChatGPT. In summary, our survey provides a comprehensive view of biomedical literature search functionalities with 36 publicly available tools.
翻訳日:2023-07-20 15:57:38 公開日:2023-07-18
# 自律運転のための霧・雨天における物体検出のための領域適応

Domain Adaptation for Enhanced Object Detection in Foggy and Rainy Weather for Autonomous Driving ( http://arxiv.org/abs/2307.09676v1 )

ライセンス: Link先を確認
Jinlong Li, Runsheng Xu, Jin Ma, Qin Zou, Jiaqi Ma, Hongkai Yu(参考訳) 自律運転のためのオブジェクト検出モデルは、よく知られたドメインシフトの問題により、現実世界のアプリケーションでデプロイされた場合、パフォーマンスが大幅に低下する可能性がある。 自律運転のための監視対象検出法は、通常、トレーニングデータとテストデータの間に一貫した特徴分布を仮定するが、そのような仮定は、天候条件が著しく異なる場合に常に当てはまるとは限らない。 例えば、晴れた天候下で訓練された物体検出モデルは、ドメインギャップのために霧や雨天ではうまく機能しない可能性がある。 霧や雨のシナリオにおける検出ボトルネックの克服は、野生に配備された自動運転車にとって大きな課題である。 気象条件の異なる領域ギャップに対処するため,霧や雨の天候下での自律走行のための新しい領域適応型物体検出フレームワークを提案する。 本手法は画像レベルの適応とオブジェクトレベルの適応を両立させ,画像スタイルやオブジェクトの外観における領域差を低減する。 さらに,挑戦的なサンプル下でのモデル性能を向上させるため,ドメイン適応と並行してハードサンプルに対して逆勾配逆転層を新たに導入する。 さらに,新たな領域レベルの計量正規化を実施するために,データ拡張による補助ドメインの生成を提案する。 提案手法を自律運転アプリケーションにおける領域シフトシナリオに用いた場合, 物体検出性能が大幅に向上することを示す。

Most object detection models for autonomous driving may experience a significant drop in performance when deployed in real-world applications, due to the well-known domain shift issue. Supervised object detection methods for autonomous driving usually assume a consistent feature distribution between training and testing data, however, such assumptions may not always be the case when weather conditions differ significantly. For example, an object detection model trained under clear weather may not perform well in foggy or rainy weather, due to the domain gap. Overcoming detection bottlenecks in foggy or rainy weather scenarios is a significant challenge for autonomous vehicles deployed in the wild. To address the domain gap in different weather conditions, This paper proposes a novel domain adaptive object detection framework for autonomous driving in foggy and rainy weather. Our method leverages both image-level and object-level adaptation to reduce the domain discrepancy in image style and object appearance. Additionally, to enhance the model's performance under challenging samples, we introduce a new adversarial gradient reversal layer that performs adversarial mining on hard examples alongside domain adaptation. Moreover, we propose to generate an auxiliary domain by data augmentation to enforce a new domain-level metric regularization. Experimental results on public benchmarks demonstrate that object detection performance is significantly improved when using our proposed method in domain shift scenarios for autonomous driving applications.
翻訳日:2023-07-20 15:57:21 公開日:2023-07-18
# 説明可能なモデルが意味するもの: Scoping Review

What's meant by explainable model: A Scoping Review ( http://arxiv.org/abs/2307.09673v1 )

ライセンス: Link先を確認
Mallika Mainali, Rosina O Weber(参考訳) 人工知能(AI)に基づく応用を記述した論文のタイトルで説明可能な用語としてよく見られる。 しかしながら、説明可能な人工知能(XAI)の文献では、XAIにおける説明はアプリケーション固有のものであり、特定のアプリケーション問題に対する決定を行うモデルを説明するために使用されるたびに評価が必要であることが示されている。 さらに、ポストホック法、特に特徴属性法のパフォーマンスは、AI説明可能性のソリューションを表現していないことを著しく示唆している。 したがって、XAI手法を使用する場合、その情報出力の品質と適合性を、特定のアプリケーション内で評価する必要がある。 これらの理由から,aiモデルを適用した論文を調査し,そのモデルを参照しながらポストホックな説明を生成する手法を適用した。 本稿では,ポストホックxai法を取り入れて説明可能なモデルを特徴付けることを前提として,説明可能なモデルが著者によって採用されているかどうかについて検討する。 この問題を調べるために,本論文が評価を行ったかどうかについて検討した。 説明可能なモデルとしてアプローチを引用するアプリケーション論文の81%は、使用したXAI手法についていかなる評価も行っていないことがわかった。

We often see the term explainable in the titles of papers that describe applications based on artificial intelligence (AI). However, the literature in explainable artificial intelligence (XAI) indicates that explanations in XAI are application- and domain-specific, hence requiring evaluation whenever they are employed to explain a model that makes decisions for a specific application problem. Additionally, the literature reveals that the performance of post-hoc methods, particularly feature attribution methods, varies substantially hinting that they do not represent a solution to AI explainability. Therefore, when using XAI methods, the quality and suitability of their information outputs should be evaluated within the specific application. For these reasons, we used a scoping review methodology to investigate papers that apply AI models and adopt methods to generate post-hoc explanations while referring to said models as explainable. This paper investigates whether the term explainable model is adopted by authors under the assumption that incorporating a post-hoc XAI method suffices to characterize a model as explainable. To inspect this problem, our review analyzes whether these papers conducted evaluations. We found that 81% of the application papers that refer to their approaches as an explainable model do not conduct any form of evaluation on the XAI method they used.
翻訳日:2023-07-20 15:56:56 公開日:2023-07-18
# ReLU層の凸形状, ボールへの注入率, 局所再構成

Convex Geometry of ReLU-layers, Injectivity on the Ball and Local Reconstruction ( http://arxiv.org/abs/2307.09672v1 )

ライセンス: Link先を確認
Daniel Haider, Martin Ehler, Peter Balazs(参考訳) この論文はフレーム理論を用いて、$\mathbb{R}^n$の閉球上のReLU層の射影率とその非負の部分を研究する。 特に、ボールの半径とバイアスベクトルとの相互作用が強調される。 凸幾何学からの視点とともに、このことは、バイアスベクトルの上界における合理的な制限の下でReLU層の射影性を検証する計算可能な方法をもたらす。 明示的な再構成公式は、フレーム理論からの双対性の概念にインスパイアされたものである。 これらにより、ボール上の任意の入力ベクトルに対するReLU層と具体的な再構成アルゴリズムの可逆性を定量化することができる。

The paper uses a frame-theoretic setting to study the injectivity of a ReLU-layer on the closed ball of $\mathbb{R}^n$ and its non-negative part. In particular, the interplay between the radius of the ball and the bias vector is emphasized. Together with a perspective from convex geometry, this leads to a computationally feasible method of verifying the injectivity of a ReLU-layer under reasonable restrictions in terms of an upper bound of the bias vector. Explicit reconstruction formulas are provided, inspired by the duality concept from frame theory. All this gives rise to the possibility of quantifying the invertibility of a ReLU-layer and a concrete reconstruction algorithm for any input vector on the ball.
翻訳日:2023-07-20 15:56:37 公開日:2023-07-18
# 量子計算を用いた薬物発見のための標的共有結合阻害剤のデータ駆動反応性予測

Data-driven reactivity prediction of targeted covalent inhibitors using computed quantum features for drug discovery ( http://arxiv.org/abs/2307.09671v1 )

ライセンス: Link先を確認
Tom W. A. Montgomery, Peter Pog\'any, Alice Purdy, Mike Harris, Marek Kowalik, Alex Ferraro, Hikmatyar Hasan, Darren V. S. Green and Sam Genway(参考訳) 本稿では,新しい分子機能と実験データを組み合わせたデータ駆動パイプラインを提案する。 この方法は、ターゲットとなる共有結合阻害剤の発見に用いられる一連のスルホニルフッ化物分子断片の反応性を予測することに適用される。 密度行列埋め込み理論を用いて反応弾頭の量子埋め込みを利用したワークフローから抽出した特徴を用いた反応性予測の実用性を示し、続いて初期参照状態から得られたフラグメントモデルのハミルトンシミュレーションを行う。 これらの予測は、より大きな活性空間と長い進化時間の両方を研究する際に改善される。 計算された特徴は「量子指紋」を形成し、弾頭特性に関して分子をクラスター化することができる。 量子指紋は、将来の量子コンピューティングハードウェアにおけるスケーラブルな計算に適しており、エラー緩和と抑制技術を用いて現在の量子ハードウェアの結果をキャプチャする手法を探求する。 さらに,この汎用フレームワークを,将来的な量子ユーティリティの可能性が存在する幅広い課題に適用する可能性についても論じる。

We present an approach to combine novel molecular features with experimental data within a data-driven pipeline. The method is applied to the challenge of predicting the reactivity of a series of sulfonyl fluoride molecular fragments used for drug discovery of targeted covalent inhibitors. We demonstrate utility in predicting reactivity using features extracted from a workflow which employs quantum embedding of the reactive warhead using density matrix embedding theory, followed by Hamiltonian simulation of the resulting fragment model from an initial reference state. These predictions are found to improve when studying both larger active spaces and longer evolution times. The calculated features form a `quantum fingerprint' which allows molecules to be clustered with regard to warhead properties. We identify that the quantum fingerprint is well suited to scalable calculation on future quantum computing hardware, and explore approaches to capture results on current quantum hardware using error mitigation and suppression techniques. We further discuss how this general framework may be applied to a wider range of challenges where the potential for future quantum utility exists.
翻訳日:2023-07-20 15:56:27 公開日:2023-07-18
# jazzvar: music overpaintingのジャズ標準のソロピアノ演奏に見られるバリエーションのデータセット

JAZZVAR: A Dataset of Variations found within Solo Piano Performances of Jazz Standards for Music Overpainting ( http://arxiv.org/abs/2307.09670v1 )

ライセンス: Link先を確認
Eleanor Row, Jingjing Tang and George Fazekas(参考訳) ジャズピアニストはしばしばジャズの標準を独特に解釈する。 これらの解釈からのパスは変化のセクションと見なすことができる。 独奏ジャズピアノ演奏から,このようなバリエーションを手作業で抽出した。 JAZVARデータセットは502組の変動とオリジナルMIDIセグメントの集合である。 データセットの各バリエーションには、元のジャズ標準からのメロディとコードを含む対応するオリジナルセグメントが付随する。 提案手法は,音楽情報検索 (mir) コミュニティにおける既存のジャズデータセットと異なり,ジャズ演奏の即興セクションに着目していることが多い。 本稿では,レパートリーの取得とソートのためのキュレーションプロセス,オリジナルと変動ペアの作成のためのパイプライン,データセットの解析について概説する。 また,新しい生成的音楽課題,音楽オーバーペイントを導入し,このタスクのためにjazzvarデータセットでトレーニングされたベースライントランスフォーマモデルを提案する。 私たちのデータセットの他の潜在的な応用には、表現力のあるパフォーマンス分析とパフォーマー識別がある。

Jazz pianists often uniquely interpret jazz standards. Passages from these interpretations can be viewed as sections of variation. We manually extracted such variations from solo jazz piano performances. The JAZZVAR dataset is a collection of 502 pairs of Variation and Original MIDI segments. Each Variation in the dataset is accompanied by a corresponding Original segment containing the melody and chords from the original jazz standard. Our approach differs from many existing jazz datasets in the music information retrieval (MIR) community, which often focus on improvisation sections within jazz performances. In this paper, we outline the curation process for obtaining and sorting the repertoire, the pipeline for creating the Original and Variation pairs, and our analysis of the dataset. We also introduce a new generative music task, Music Overpainting, and present a baseline Transformer model trained on the JAZZVAR dataset for this task. Other potential applications of our dataset include expressive performance analysis and performer identification.
翻訳日:2023-07-20 15:56:09 公開日:2023-07-18
# ファウンデーションモデルを用いた統一エージェントを目指して

Towards A Unified Agent with Foundation Models ( http://arxiv.org/abs/2307.09668v1 )

ライセンス: Link先を確認
Norman Di Palo, Arunkumar Byravan, Leonard Hasenclever, Markus Wulfmeier, Nicolas Heess, Martin Riedmiller(参考訳) 言語モデルと視覚言語モデルは最近、人間の意図、推論、シーン理解、計画的行動などについてテキスト形式で理解するという点で、前例のない能力を示した。 本研究では,Reinforcement Learning (RL)エージェントにそのような能力を組み込んで活用する方法を検討する。 私たちは言語を推論ツールの中心として使用するフレームワークを設計し、エージェントが効率的な探索、経験データの再使用、スケジューリングスキル、そして伝統的に垂直に設計されたアルゴリズムを必要とする観察からの学習といった一連の基本的なrl課題にどのように対処できるかを探求します。 本研究では,ロボットが物体群を積み重ねる必要のあるロボット操作環境において,この手法をテストした。 我々は、オフラインデータセットからデータを再利用する探索効率と能力において、ベースラインよりも実質的なパフォーマンス改善を示し、学習したスキルを再利用して新しいタスクを解決したり、人間専門家の動画を模倣する方法について説明する。

Language Models and Vision Language Models have recently demonstrated unprecedented capabilities in terms of understanding human intentions, reasoning, scene understanding, and planning-like behaviour, in text form, among many others. In this work, we investigate how to embed and leverage such abilities in Reinforcement Learning (RL) agents. We design a framework that uses language as the core reasoning tool, exploring how this enables an agent to tackle a series of fundamental RL challenges, such as efficient exploration, reusing experience data, scheduling skills, and learning from observations, which traditionally require separate, vertically designed algorithms. We test our method on a sparse-reward simulated robotic manipulation environment, where a robot needs to stack a set of objects. We demonstrate substantial performance improvements over baselines in exploration efficiency and ability to reuse data from offline datasets, and illustrate how to reuse learned skills to solve novel tasks or imitate videos of human experts.
翻訳日:2023-07-20 15:55:55 公開日:2023-07-18
# 量子コンピュータにおける読み出し誤り軽減のための情報理論的アプローチ

Information theoretic approach to readout error mitigation for quantum computers ( http://arxiv.org/abs/2307.09667v1 )

ライセンス: Link先を確認
H. Chau Nguyen(参考訳) 量子コンピュータにおける読み出し誤りを緩和するための反復ベイズ展開法は情報理論解析から導出できることを示す。 これにより、このエラー軽減スキームのより柔軟な応用がもたらされる。 特に,構造的緩和と非構造的緩和を区別する。 構造緩和は、コンピュータが単一のまたは少数の結果ビットストリングを出力することが期待される、ほぼ決定論的量子計算に対処する。 読み出し誤差のみを計算の繰り返しによって補正できることが示されている。 対照的に、非構造的緩和は量子シミュレーションのために設計され、コンピュータはビットストリングを広く分散する。 この場合、ある観測可能な関心を緩和することに興味がある。 ほとんどの観測対象はビットに依存しており、全ビットストリングではないため、これらの依存ビットに対する限界分布を緩和するのに十分である。 読み出し誤差のクロストークを無視できる限り、これらの限界分布に局所的に適用される反復ベイズ展開は、最小二乗誤差を用いた緩和と同様の結果をもたらす。 127量子ビット量子コンピュータにおけるGHZ状態の生成データを用いて解析を行った。

We show that the method of iterative bayesian unfolding for mitigating readout errors in quantum computers can be derived from an information theoretic analysis. This inspires more flexible applications of this error mitigation scheme. In particular, we distinguish between structural mitigation and unstructural mitigation. Structural mitigation addresses nearly deterministic quantum computation, where the computer is expected to output a single or few outcome bitstrings. It is shown that the readout errors alone can be corrected by few repetitions of the computation. In contrast, unstructural mitigation is designed for quantum simulation, where the computer outputs bitstrings broadly distributed. In this case, one is interested in mitigating certain observables of interest. As most observables of interest are dependent on few bits and not the whole bitstring, it is sufficient to mitigate the marginal distributions over these dependent bits. As long as the cross-talk of readout errors can be ignored, it is shown that the iterative bayesian unfolding applied locally for these marginal distributions gives similar results as mitigation using least squared errors. We illustrate our analysis using the data of the preparation of the GHZ state in a 127-qubit quantum computer.
翻訳日:2023-07-20 15:55:37 公開日:2023-07-18
# 動的グラフ変換器を用いた研究コミュニティの技術的専門性と能力進化の予測

Anticipating Technical Expertise and Capability Evolution in Research Communities using Dynamic Graph Transformers ( http://arxiv.org/abs/2307.09665v1 )

ライセンス: Link先を確認
Sameera Horawalavithana, Ellyn Ayton, Anastasiya Usenko, Robin Cosbey, Svitlana Volkova(参考訳) 技術的専門知識と能力進化のトレンドをグローバルに予測する能力は、特に核拡散防止(NN)や人工知能(AI)のような急激な新興分野において、国家的およびグローバルなセキュリティにとって不可欠である。 本研究では,従来の統計的関係性学習手法(例えば,協調ネットワークにおけるリンク予測)を拡張し,動的不均一グラフ表現を用いた技術知識と能力進化の予測問題を定式化する。 我々は、2つの異なる研究分野において、異なる粒度(科学者レベル、機関レベルなど)でコラボレーションパターン、著者行動、技術能力の進化を予測する新しい能力を開発する。 我々は動的グラフ変換器(DGT)ニューラルアーキテクチャを実装し、最先端のグラフニューラルネットワークモデルを推し進める。 (a)異質な(均質でない)ノードやエッジを予測すること、及び (b)離散時間入力と連続時間入力の両方に依存する。 我々は、我々のDGTモデルがAIの0.26、0.73、0.53の平均相互ランク値、NNドメインの0.48、0.93、0.22のコラボレーション、パートナーシップ、専門パターンを予測することを実証した。 DGTモデルのパフォーマンスは、AIとNNドメイン間で、最高のパフォーマンスの静的グラフベースラインモデルよりも30~80%高い。 我々の研究結果は、DGTモデルが、新しいコラボレーションパターン(AIなど)を持つドメインに対して、これまで見つからなかったノードがテストデータに現れると、帰納的タスクパフォーマンスが向上することを示した。 特にモデルでは、確立された科学者が初期のキャリア科学者やai分野の逆者と協力するかを正確に予測する。

The ability to anticipate technical expertise and capability evolution trends globally is essential for national and global security, especially in safety-critical domains like nuclear nonproliferation (NN) and rapidly emerging fields like artificial intelligence (AI). In this work, we extend traditional statistical relational learning approaches (e.g., link prediction in collaboration networks) and formulate a problem of anticipating technical expertise and capability evolution using dynamic heterogeneous graph representations. We develop novel capabilities to forecast collaboration patterns, authorship behavior, and technical capability evolution at different granularities (e.g., scientist and institution levels) in two distinct research fields. We implement a dynamic graph transformer (DGT) neural architecture, which pushes the state-of-the-art graph neural network models by (a) forecasting heterogeneous (rather than homogeneous) nodes and edges, and (b) relying on both discrete -- and continuous -- time inputs. We demonstrate that our DGT models predict collaboration, partnership, and expertise patterns with 0.26, 0.73, and 0.53 mean reciprocal rank values for AI and 0.48, 0.93, and 0.22 for NN domains. DGT model performance exceeds the best-performing static graph baseline models by 30-80% across AI and NN domains. Our findings demonstrate that DGT models boost inductive task performance, when previously unseen nodes appear in the test data, for the domains with emerging collaboration patterns (e.g., AI). Specifically, models accurately predict which established scientists will collaborate with early career scientists and vice-versa in the AI domain.
翻訳日:2023-07-20 15:55:21 公開日:2023-07-18
# マルチエージェント協調知覚のためのS2R-ViT:シミュレーションから現実へのギャップを埋める

S2R-ViT for Multi-Agent Cooperative Perception: Bridging the Gap from Simulation to Reality ( http://arxiv.org/abs/2307.07935v2 )

ライセンス: Link先を確認
Jinlong Li, Runsheng Xu, Xinyu Liu, Baolu Li, Qin Zou, Jiaqi Ma, Hongkai Yu(参考訳) 実際のマルチエージェントデータの欠如とラベリングの時間消費のため、既存のマルチエージェント協調認識アルゴリズムは通常、トレーニングと検証のためにシミュレーションされたセンサデータを選択する。 しかし,シミュレーション学習モデルが実世界へデプロイされた場合,シミュレーションデータと実データの間の領域ギャップが大きいため,知覚性能が低下する。 本稿では,S2R-ViTと命名された新しい視覚変換器を用いて,シミュレーションデータと実データ間の実装ギャップと特徴ギャップの両方を考慮した,マルチエージェント協調認識のための最初のシミュレーション・トゥ・リアル変換学習フレームワークを提案する。 本稿では,これらの2種類の領域ギャップの効果について検討し,実装ギャップを効果的に緩和する新しい不確実性認識型視覚変換器とエージェントベースの特徴適応モジュールを提案する。 提案するs2r-vitはシミュレーションから現実へのギャップを効果的に橋渡しし,ポイントクラウドに基づく3次元物体検出において,他の手法を大幅に上回ることができることを示す。

Due to the lack of real multi-agent data and time-consuming of labeling, existing multi-agent cooperative perception algorithms usually select the simulated sensor data for training and validating. However, the perception performance is degraded when these simulation-trained models are deployed to the real world, due to the significant domain gap between the simulated and real data. In this paper, we propose the first Simulation-to-Reality transfer learning framework for multi-agent cooperative perception using a novel Vision Transformer, named as S2R-ViT, which considers both the Implementation Gap and Feature Gap between simulated and real data. We investigate the effects of these two types of domain gaps and propose a novel uncertainty-aware vision transformer to effectively relief the Implementation Gap and an agent-based feature adaptation module with inter-agent and ego-agent discriminators to reduce the Feature Gap. Our intensive experiments on the public multi-agent cooperative perception datasets OPV2V and V2V4Real demonstrate that the proposed S2R-ViT can effectively bridge the gap from simulation to reality and outperform other methods significantly for point cloud-based 3D object detection.
翻訳日:2023-07-20 11:09:01 公開日:2023-07-18
# リプシッツ非線形単一ニューロンモデルの能動的学習

Active Learning for Single Neuron Models with Lipschitz Non-Linearities ( http://arxiv.org/abs/2210.13601v4 )

ライセンス: Link先を確認
Aarshvi Gajjar, Chinmay Hegde, Christopher Musco(参考訳) 単一ニューロンモデルのアクティブラーニングの問題(しばしば「リッジ関数」とも呼ばれる)を、不可知な設定(逆ラベル雑音下で)において検討する。 このようなモデルは、物理現象のモデリングや偏微分方程式の代理データ駆動モデルの構築に広く有効であることが示されている。 驚くべきことに、任意のリプシッツ非線形性(relu、sgmoid、絶対値、低次多項式など)を持つ単一ニューロンモデルの場合、無依存な設定で \emph{linear function} を満たすための有名なアクティブ学習戦略を用いて、強い証明可能な近似保証が得られる。 % --すなわち、非線形性が存在しない場合である。 すなわち、他のアクティブな学習シナリオでほぼ最適であることが示されている統計値 \emph{leverage score sampling} によってサンプルを収集できる。 実験的なシミュレーションにより,単一ニューロンモデルに適合する場合に,スコアサンプリング法(通常)に匹敵する一様サンプリングを活用し,アクティブラーニング戦略を提案する。

We consider the problem of active learning for single neuron models, also sometimes called ``ridge functions'', in the agnostic setting (under adversarial label noise). Such models have been shown to be broadly effective in modeling physical phenomena, and for constructing surrogate data-driven models for partial differential equations. Surprisingly, we show that for a single neuron model with any Lipschitz non-linearity (such as the ReLU, sigmoid, absolute value, low-degree polynomial, among others), strong provable approximation guarantees can be obtained using a well-known active learning strategy for fitting \emph{linear functions} in the agnostic setting. % -- i.e. for the case when there is no non-linearity. Namely, we can collect samples via statistical \emph{leverage score sampling}, which has been shown to be near-optimal in other active learning scenarios. We support our theoretical results with empirical simulations showing that our proposed active learning strategy based on leverage score sampling outperforms (ordinary) uniform sampling when fitting single neuron models.
翻訳日:2023-07-20 09:12:16 公開日:2023-07-18
# 操舵・非局所性を超えた量子性証明とその量子情報処理への応用

Certifying quantumness beyond steering and nonlocality and its implications on quantum information processing ( http://arxiv.org/abs/1912.01270v4 )

ライセンス: Link先を確認
Chellasamy Jebarathinam, and Debarshi Das(参考訳) 超不安定性(superunsteerability)は、特定の空間量子相関であり、限られた共有ランダム性の存在下でステアリングシナリオで観察できる。 本研究では,スーパーアンステアビリティを証明するためのステアリングシナリオにおいて,実験的に測定可能な量を定義する。 このシナリオによるランダム性認証の文脈において、そのような超不安定性認証が真のランダム性生成量に制限を与えることを示す。 一方、超局所性は、限られた共有ランダム性の存在下でベルのシナリオで観測できる別の空間量子相関である。 我々は,2ドルから1ドル,3ドルから1ドルのランダムアクセスコードを実装するために,ベルシナリオにおける超局所性を証明する不等式を特定する。 このような超局所性認証は、限られた共有ランダム性が存在する場合、ランダムアクセス符号のリソースとして機能する。 超unsteerabilityと超局所性認定の副産物として、量子性を持つ分離可能な状態の新しい分類を同定する。

Superunsteerability is a particular kind of spatial quantum correlation that can be observed in a steering scenario in the presence of limited shared randomness. In this work, we define an experimentally measurable quantity in a steering scenario to certify superunsteerability. In the context of certification of randomness with this scenario, we demonstrate that such certification of superunsteerability provides a bound on the amount of genuine randomness generation. On the other hand, superlocality is another kind of spatial quantum correlation that can be observed in a Bell scenario in the presence of limited shared randomness. We identify inequalities to certify superlocality in the Bell scenarios that can be adopted to implement $2$-to-$1$ and $3$-to-$1$ random-access codes. We observe that such certification of superlocality acts as resource for the random-access codes in the presence of limited shared randomness. As a by-product of our certification of superunsteerability and superlocality, we identify a new classification of separable states having quantumness.
翻訳日:2023-07-19 20:01:39 公開日:2023-07-18
# 可変密度雑音によるサブサンプリングを用いた自己教師型MR画像再構成のための理論的枠組み

A theoretical framework for self-supervised MR image reconstruction using sub-sampling via variable density Noisier2Noise ( http://arxiv.org/abs/2205.10278v5 )

ライセンス: Link先を確認
Charles Millard, Mark Chiew(参考訳) 近年,サブサンプルMRI(Magnetic Resonance Imaging)データの再構成にニューラルネットワークの統計的モデリング機能を活用することに注目が集まっている。 提案手法は, 代表的な完全サンプルデータセットの存在を前提として, 完全教師付きトレーニングを用いる。 しかし、多くのアプリケーションでは、完全なサンプルトレーニングデータは利用できず、取得には非常に実用的でない可能性がある。 したがって、訓練にサブサンプリングデータのみを使用する自己教師あり手法の開発と理解が極めて望ましい。 この研究は、当初自己教師付き認知タスクのために構築されたNoisier2Noiseフレームワークを、可変密度サブサンプルMRIデータに拡張した。 提案手法であるdata undersampling (ssdu) による自己教師付き学習の性能を解析的に説明するために,noisier2noiseフレームワークを用いた。 さらに、理論的発展の結果として生じるSSDUの2つの修正を提案する。 まず、サンプリングセットを分割して、サブセットが元のサンプリングマスクと同じタイプの分布を持つようにすることを提案する。 次に, サンプル密度と分割密度を補償する損失重み付けを提案する。 fastMRIデータセットでは,これらの変化によりSSDUの画像復元精度が向上し,パーティショニングパラメータの堅牢性が向上した。

In recent years, there has been attention on leveraging the statistical modeling capabilities of neural networks for reconstructing sub-sampled Magnetic Resonance Imaging (MRI) data. Most proposed methods assume the existence of a representative fully-sampled dataset and use fully-supervised training. However, for many applications, fully sampled training data is not available, and may be highly impractical to acquire. The development and understanding of self-supervised methods, which use only sub-sampled data for training, are therefore highly desirable. This work extends the Noisier2Noise framework, which was originally constructed for self-supervised denoising tasks, to variable density sub-sampled MRI data. We use the Noisier2Noise framework to analytically explain the performance of Self-Supervised Learning via Data Undersampling (SSDU), a recently proposed method that performs well in practice but until now lacked theoretical justification. Further, we propose two modifications of SSDU that arise as a consequence of the theoretical developments. Firstly, we propose partitioning the sampling set so that the subsets have the same type of distribution as the original sampling mask. Secondly, we propose a loss weighting that compensates for the sampling and partitioning densities. On the fastMRI dataset we show that these changes significantly improve SSDU's image restoration quality and robustness to the partitioning parameters.
翻訳日:2023-07-19 19:56:53 公開日:2023-07-18
# スマートフォン内蔵センサデータを用いたユーザの社会的状況と身近な場所のオンデバイスモデリング

On-device modeling of user's social context and familiar places from smartphone-embedded sensor data ( http://arxiv.org/abs/2205.08790v3 )

ライセンス: Link先を確認
Mattia Giovanni Campana, Franca Delmastro(参考訳) コンテキストモデリングと認識は、モバイルおよびユビキタスコンピューティングアプリケーションがユーザの状況に適応できるようにする複雑なタスクを表す。 現在のソリューションは主に、集中型アーキテクチャで一般的に処理される限られたコンテキスト情報に重点を置いており、ユーザの個人情報をプライバシリークに暴露する可能性があり、パーソナライズ機能が欠落している。 これらの理由から、オンデバイスコンテキストモデリングと認識は、この分野における現在の研究トレンドを表している。 モバイル環境におけるユーザのコンテキストを特徴付ける異なる情報のうち、社会的相互作用や訪問場所は日常生活シナリオの特徴づけに大いに寄与している。 本稿では,モバイル端末上で直接egoネットワークに基づいて,ユーザの社会的コンテキストと位置情報をモデル化する新しい,教師なし,かつ軽量なアプローチを提案する。 このモデルに基づいて、スマートフォン内蔵センサーデータから高レベルで意味に富んだコンテキスト特徴を抽出することができる。 具体的には、ユーザーとデバイス間の物理的およびサイバー的社会的相互作用に関するデータを利用する。 位置情報のコンテキストに関しては,GPS座標と近接装置の両方の観点から,ユーザのコンテキストに対する特定の位置情報の親しみ度を生の位置情報データよりもモデル化することが重要と考えられる。 実世界の5つのデータセットを用いて,社会的および位置的エゴネットワークの構造を評価し,提案したモデルのセマンティックな評価と,モバイルコンピューティングの性能の観点からの複雑性評価を提供する。 最後に,3つの機械学習アルゴリズムによる日常的状況認識の性能を示すことで,抽出された特徴の関連性を実証し,aurocの3%,精度9%,再現率5%の改善を得た。

Context modeling and recognition represent complex tasks that allow mobile and ubiquitous computing applications to adapt to the user's situation. Current solutions mainly focus on limited context information generally processed on centralized architectures, potentially exposing users' personal data to privacy leakage, and missing personalization features. For these reasons on-device context modeling and recognition represent the current research trend in this area. Among the different information characterizing the user's context in mobile environments, social interactions and visited locations remarkably contribute to the characterization of daily life scenarios. In this paper we propose a novel, unsupervised and lightweight approach to model the user's social context and her locations based on ego networks directly on the user mobile device. Relying on this model, the system is able to extract high-level and semantic-rich context features from smartphone-embedded sensors data. Specifically, for the social context it exploits data related to both physical and cyber social interactions among users and their devices. As far as location context is concerned, we assume that it is more relevant to model the familiarity degree of a specific location for the user's context than the raw location data, both in terms of GPS coordinates and proximity devices. By using 5 real-world datasets, we assess the structure of the social and location ego networks, we provide a semantic evaluation of the proposed models and a complexity evaluation in terms of mobile computing performance. Finally, we demonstrate the relevance of the extracted features by showing the performance of 3 machine learning algorithms to recognize daily-life situations, obtaining an improvement of 3% of AUROC, 9% of Precision, and 5% in terms of Recall with respect to use only features related to physical context.
翻訳日:2023-07-19 19:56:31 公開日:2023-07-18
# 不均衡データストリームからの学習に関する調査--分類学、課題、実証的研究、再現可能な実験枠組み

A survey on learning from imbalanced data streams: taxonomy, challenges, empirical study, and reproducible experimental framework ( http://arxiv.org/abs/2204.03719v2 )

ライセンス: Link先を確認
Gabriel Aguiar, Bartosz Krawczyk, Alberto Cano(参考訳) クラスの不均衡は、データストリームの分類に関して新たな課題をもたらす。 論文で最近提案された多くのアルゴリズムは、様々なデータレベル、アルゴリズムレベル、アンサンブルアプローチを用いてこの問題に取り組んでいる。 しかし、これらのアルゴリズムの評価方法に関する標準化および合意された手順とベンチマークが欠如している。 本研究は、多種多様な不均衡データストリームシナリオの集合においてアルゴリズムを評価するための、標準化され、徹底的で包括的な実験フレームワークを提案する。 実験では,静的および動的クラス不均衡比,インスタンスレベルの困難,概念の漂流,実世界および多クラスシナリオにおける半合成データセットを組み合わせた515データストリーム上で,24の最先端データストリームアルゴリズムを評価する。 これは、データストリームマイニング領域における最先端の分類器を比較した大規模な実験研究につながる。 各シナリオにおける最先端の分類器の長所と短所について検討し,不均衡データストリームに対して最適なアルゴリズムを選択することをエンドユーザに推奨する。 さらに、このドメインに対するオープンな挑戦と今後の方向性を定式化します。 実験フレームワークは完全に再現可能で,新しい手法で拡張が容易です。 このようにして、他の研究者が新たに提案した手法の完全で信頼性があり、公正な評価のために利用できる不均衡なデータストリームの実験を行うための標準化されたアプローチを提案する。 実験フレームワークはhttps://github.com/canoalberto/imbalanced-streamsからダウンロードできます。

Class imbalance poses new challenges when it comes to classifying data streams. Many algorithms recently proposed in the literature tackle this problem using a variety of data-level, algorithm-level, and ensemble approaches. However, there is a lack of standardized and agreed-upon procedures and benchmarks on how to evaluate these algorithms. This work proposes a standardized, exhaustive, and comprehensive experimental framework to evaluate algorithms in a collection of diverse and challenging imbalanced data stream scenarios. The experimental study evaluates 24 state-of-the-art data streams algorithms on 515 imbalanced data streams that combine static and dynamic class imbalance ratios, instance-level difficulties, concept drift, real-world and semi-synthetic datasets in binary and multi-class scenarios. This leads to a large-scale experimental study comparing state-of-the-art classifiers in the data stream mining domain. We discuss the advantages and disadvantages of state-of-the-art classifiers in each of these scenarios and we provide general recommendations to end-users for selecting the best algorithms for imbalanced data streams. Additionally, we formulate open challenges and future directions for this domain. Our experimental framework is fully reproducible and easy to extend with new methods. This way, we propose a standardized approach to conducting experiments in imbalanced data streams that can be used by other researchers to create complete, trustworthy, and fair evaluation of newly proposed methods. Our experimental framework can be downloaded from https://github.com/canoalberto/imbalanced-streams.
翻訳日:2023-07-19 19:56:04 公開日:2023-07-18
# 格子とファジィ空間上の絡み合いエントロピーへのユークリッド時間アプローチ

Euclidean Time Approach to Entanglement Entropy on Lattices and Fuzzy Spaces ( http://arxiv.org/abs/2201.03595v3 )

ライセンス: Link先を確認
A. Allouche and D. Dou(参考訳) 最近の論文では,グリーン関数に基づく格子およびファジィ空間上のR\'{e}nyiエントロピーを計算するためのユークリッド時間アプローチを開発した。 この研究は、前回の手紙で引用され使用されたグリーン行列関数の公式の明示的な証明と、この形式主義のいくつかの応用に焦点が当てられている。 1+1 格子のスカラー理論に着目する。 また,この手法を用いて,相互作用モデルを検討することにより,ガウスのケースを超えて体系的に展開する。 最後に、この手法を用いてファジィ空間上の絡み合いエントロピーを自由かつ相互作用するスカラー理論のために計算する方法を概説する。

In a recent letter, we developed a novel Euclidean time approach to compute R\'{e}nyi entanglement entropy on lattices and fuzzy spaces based on Green's function. The present work is devoted in part to the explicit proof of the Green's matrix function formula which was quoted and used in the previous letter, and on the other part to some applications of this formalism. We focus on scalar theory on 1+1 lattice. We also use the developed approach to go systematically beyond the Gaussian case by considering interacting models, in particular our results confirm earlier expectations concerning the correction to the entanglement at first order. We finally outline how this approach can be used to compute the entanglement entropy on fuzzy spaces for free and interacting scalar theories.
翻訳日:2023-07-19 19:55:39 公開日:2023-07-18
# qudit表面符号とハイパーマップ符号

Qudit surface codes and hypermap codes ( http://arxiv.org/abs/2112.01752v4 )

ライセンス: Link先を確認
Zihan Lei(参考訳) 本稿では、2-複素 $\sigma$ 上の css 演算子を直接定義することにより、任意の qudit 次元 $d\geq 2$ でホモロジー量子符号を定義する。 2-コンプレックスが曲面から構成されている場合、qudit曲面符号を得る。 次に、定義するコードの次元が常に $\sigma$ の最初のホモロジー群のサイズに等しいことを証明する。 また、この設定でコードの距離を定義し、qubitと同じような特性を共有していることを確認します。 さらに、Martin Leslie が提案した超写像-ホモロジー量子符号をqudit ケースに一般化する。 そのようなハイパーマップコードすべてに対して、ホモロジー量子コードがハイパーマップコードと等価である抽象的な2-コンプレックスを構築する。

In this article, we define homological quantum codes in arbitrary qudit dimensions $D\geq 2$ by directly defining CSS operators on a 2-Complex $\Sigma$. If the 2-Complex is constructed from a surface, we obtain a qudit surface code. We then prove that the dimension of the code we define always equals the size of the first homology group of $\Sigma$. We also define the distance of the codes in this setting, finding that they share similar properties with their qubit counterpart. Additionally, we generalize the hypermap-homology quantum code proposed by Martin Leslie to the qudit case. For every such hypermap code, we construct an abstract 2-Complex whose homological quantum code is equivalent to the hypermap code.
翻訳日:2023-07-19 19:55:22 公開日:2023-07-18
# 資源理論の不確定性:理論を区別できるか?

Undecidability in resource theory: can you tell theories apart? ( http://arxiv.org/abs/2105.09341v4 )

ライセンス: Link先を確認
Matteo Scandi and Jacopo Surace(参考訳) 資源理論における中心的な問題は、自由操作の集合によって引き起こされる許容される遷移を完全に特徴づける単調な集合を構成できるかどうかである。 同様の問題は、2つの異なる自由操作の集合が同じ遷移クラスを生成するかどうかである。 これらの疑問は、資源理論の1つの特性化から別の性質への移行が可能かどうかというより一般的な問題の一部である。 本文では、量子資源理論の文脈において、この問題のクラスは一般に決定不可能であることを示す。 これは、CPTPマップのメンバシップ問題の不確定性を証明し、他のすべての結果を仮定することで実現される。

A central question in resource theory is whether one can construct a set of monotones that completely characterise the allowed transitions dictated by a set of free operations. A similar question is whether two distinct sets of free operations generate the same class of transitions. These questions are part of the more general problem of whether it is possible to pass from one characterisation of a resource theory to another. In the present letter we prove that in the context of quantum resource theories this class of problems is undecidable in general. This is done by proving the undecidability of the membership problem for CPTP maps, which subsumes all the other results.
翻訳日:2023-07-19 19:55:09 公開日:2023-07-18
# 時間外テンソルにおける量子カオスのシグネチャ

Signatures of quantum chaos in an out-of-time-order tensor ( http://arxiv.org/abs/2105.08282v2 )

ライセンス: Link先を確認
Magdalini Zonnios, Jesper Levinsen, Meera M. Parish, Felix A. Pollock, Kavan Modi(参考訳) 液体のカオス性を決定するためにインク滴を用いる有名なインク滴実験に動機づけられ,量子プロセスのスクランブル容量を実験的に測定する方法を提案する。 ここで、興味のある系は、系のカオス性を特定する動的性質を持つ小さな量子プローブと相互作用する。 具体的には、プロセスのカオス性に関する明確な情報理論的意味を提供する、時間外行列(OTOM)と呼ばれる、時間外相関器(OTOC)の完全量子バージョンを提案する。 我々は、ランダムなユニタリ過程を用いたカオスのシグネチャとしてのotomの有用性と、カオス性がチューニング可能な量子キックロータについて説明する。

Motivated by the famous ink-drop experiment, where ink droplets are used to determine the chaoticity of a fluid, we propose an experimentally implementable method for measuring the scrambling capacity of quantum processes. Here, a system of interest interacts with a small quantum probe whose dynamical properties identify the chaoticity of the system. Specifically, we propose a fully quantum version of the out-of-time-order correlator (OTOC) - which we term the out-of-time-order matrix (OTOM) - whose correlations offer clear information theoretic meanings about the chaoticity of a process. We illustrate the utility of the OTOM as a signature of chaos using random unitary processes as well as in the quantum kicked rotor, where the chaoticity is tuneable.
翻訳日:2023-07-19 19:54:57 公開日:2023-07-18
# テキストにおけるバイアスメトリクスの解釈可能性と意義--pmiに基づくアプローチ

On the Interpretability and Significance of Bias Metrics in Texts: a PMI-based Approach ( http://arxiv.org/abs/2104.06474v2 )

ライセンス: Link先を確認
Francisco Valentini, Germ\'an Rosati, Dami\'an Blasi, Diego Fernandez Slezak, and Edgar Altszyler(参考訳) 近年,テキスト中のバイアスを測定するために単語埋め込みが広く用いられている。 様々なバイアスを検出するのに効果があることが証明されたとしても、単語の埋め込みに基づくメトリクスは透明性と解釈可能性に欠ける。 我々は、テキスト中のバイアスを定量化するために、別のPMIベースのメトリクスを分析する。 これは条件付き確率の関数として表すことができ、単語共起の言葉で簡単に解釈できる。 また,確率のオッズ比で近似できることを証明し,信頼区間の推定とテキストバイアスの統計的意義を明らかにした。 この手法は,大規模コーパスに埋め込まれた実世界の性差を捉える際に,単語埋め込みに基づく指標と類似した結果をもたらす。

In recent years, word embeddings have been widely used to measure biases in texts. Even if they have proven to be effective in detecting a wide variety of biases, metrics based on word embeddings lack transparency and interpretability. We analyze an alternative PMI-based metric to quantify biases in texts. It can be expressed as a function of conditional probabilities, which provides a simple interpretation in terms of word co-occurrences. We also prove that it can be approximated by an odds ratio, which allows estimating confidence intervals and statistical significance of textual biases. This approach produces similar results to metrics based on word embeddings when capturing gender gaps of the real world embedded in large corpora.
翻訳日:2023-07-19 19:54:45 公開日:2023-07-18
# ブラックホールのシュロディンガー理論

Schrodinger theory of black holes ( http://arxiv.org/abs/2012.08967v3 )

ライセンス: Link先を確認
Christian Corda(参考訳) シュワルツシルトブラックホール(SBH)のシュロディンガー方程式は、ファインマンの経路積分法によって導出され、著者と共同研究者が最近の2つの研究論文で発見した同様の結果を得る。 このBH量子物理学への2粒子系アプローチでは、SBHの中核における伝統的な古典特異点は、量子重力相互作用によって互いに強く相互作用する「核」と「電子」という2つの成分を持つ非特異な2粒子系に置き換えられる。 言い換えれば、SBHは水素原子の重力アナログであり、原理的には量子力学的粒子のアプローチに基づく時空量子化へと進むことができる。 このSBHシュロディンガー方程式と水素原子のs状態(l=0)の伝統的なシュロディンガー方程式との類似性に注意して、SBHシュロディンガー方程式を解き、議論することができる。 このアプローチはまた、微細構造定数とリドバーグ定数の重力類似である量子重力量を見つけることを可能にする。 驚くべきことに、そのような量は定数ではない。 代わりに、それらはよく定義された離散スペクトルを持つ動的量である。 特に、「重力微細構造定数」のスペクトルは、正確には 0 でない自然数 \mathbb{N}-\left\{ 0\right\} の集合である。 したがって、SBHがよく定義された量子重力系をもたらすという興味深い結果が、シュロディンガーの理論に従い、「重力水素原子」となる。

The Schrodinger equation of the Schwarzschild black hole (SBH) is derived via Feynman's path integral approach by re-obtaining the same results found by the Author and collaborators in two recent research papers. In this two-particle system approach to BH quantum physics the traditional classical singularity in the core of the SBH is replaced by a nonsingular two-particle system where the two components, the "nucleus" and the "electron", strongly interact with each other through a quantum gravitational interaction. In other words, the SBH is the gravitational analog of the hydrogen atom and this could, in principle, drive to a space-time quantization based on a quantum mechanical particle approach. By following with caution the analogy between this SBH Schrodinger equation and the traditional Schrodinger equation of the s states (l=0) of the hydrogen atom, the SBH Schrodinger equation can be solved and discussed. The approach also permits us to find the quantum gravitational quantities which are the gravitational analogous of the fine structure constant and of the Rydberg constant. Remarkably, such quantities are not constants. Instead, they are dynamical quantities having well defined discrete spectra. In particular, the spectrum of the "gravitational fine structure constant" is exactly the set of non-zero natural numbers \mathbb{N}-\left\{ 0\right\} . Therefore, one argues the interesting consequence that the SBH results in a well defined quantum gravitational system, which obeys Schrodinger's theory: the "gravitational hydrogen atom".
翻訳日:2023-07-19 19:54:34 公開日:2023-07-18
# InitialGAN: 完全にランダムな初期化を備えた言語GAN

InitialGAN: A Language GAN with Completely Random Initialization ( http://arxiv.org/abs/2208.02531v3 )

ライセンス: Link先を確認
Da Ren and Qing Li(参考訳) MLE(Maximum Likelihood Estimation)によって訓練されたテキスト生成モデルは、悪名高い露出バイアス問題に悩まされており、GAN(Generative Adversarial Networks)はこの問題に対処する可能性がある。 既存の言語 GAN では、REINFORCE や連続緩和といった推定器を使って単語の確率をモデル化している。 このような推定器の固有の制限は、現在のモデルが事前トレーニング技術(事前トレーニングまたは事前トレーニング埋め込み)に依存することに繋がる。 しかし、これらの制限から解放された表現モデリング手法は、以前の試みでは性能が劣っていたため、しばしば検討される。 分析の結果,不適切なサンプリング手法と不健康勾配が,このような不満足な性能に寄与していることが判明した。 本研究では,これらの問題に対処する手法として,ドロップアウトサンプリングと完全正規化LSTMの2つを提案する。 これらの2つの手法に基づいて,パラメータがランダムに初期化されるInitialGANを提案する。 また,新たな評価基準であるLast Coverage Rateを導入し,生成したサンプルの質をよりよく評価する。 実験の結果,InitialGANはMLEと他の比較モデルよりも優れていた。 私たちの知る限りでは、事前学習技術を用いることなく、言語 GAN が MLE より優れているのは初めてです。

Text generative models trained via Maximum Likelihood Estimation (MLE) suffer from the notorious exposure bias problem, and Generative Adversarial Networks (GANs) are shown to have potential to tackle this problem. Existing language GANs adopt estimators like REINFORCE or continuous relaxations to model word probabilities. The inherent limitations of such estimators lead current models to rely on pre-training techniques (MLE pre-training or pre-trained embeddings). Representation modeling methods which are free from those limitations, however, are seldomly explored because of their poor performance in previous attempts. Our analyses reveal that invalid sampling methods and unhealthy gradients are the main contributors to such unsatisfactory performance. In this work, we present two techniques to tackle these problems: dropout sampling and fully normalized LSTM. Based on these two techniques, we propose InitialGAN whose parameters are randomly initialized in full. Besides, we introduce a new evaluation metric, Least Coverage Rate, to better evaluate the quality of generated samples. The experimental results demonstrate that InitialGAN outperforms both MLE and other compared models. To the best of our knowledge, it is the first time a language GAN can outperform MLE without using any pre-training techniques.
翻訳日:2023-07-19 19:47:42 公開日:2023-07-18
# 2次元関数時系列のための等角予測バンド

Conformal Prediction Bands for Two-Dimensional Functional Time Series ( http://arxiv.org/abs/2207.13656v2 )

ライセンス: Link先を確認
Niccol\`o Ajroldi, Jacopo Diquigiovanni, Matteo Fontana, Simone Vantini(参考訳) 時間発展曲面は2次元関数時系列としてモデル化することができ、関数データ解析のツールを利用する。 このアプローチを活用することで、このような複雑なデータの予測フレームワークが開発される。 主な焦点は、予測問題の不確かさを定量化するために使用される多彩な非パラメトリックパラダイムである共形予測(conformal prediction)である。 2次元関数時系列の確率的予測スキームは,近年の関数時系列のコンフォーマル予測に基づいて構築され,次数1から次数1への関数自己回帰過程の拡張を提供する。 後者のプロセスの予測手法を導入し、その結果の予測領域の観点から性能を比較した。 最後に,提案手法と不確実性定量化手法を実際のデータセットに適用し,黒海における海面異常の日次観測を行った。

Time evolving surfaces can be modeled as two-dimensional Functional time series, exploiting the tools of Functional data analysis. Leveraging this approach, a forecasting framework for such complex data is developed. The main focus revolves around Conformal Prediction, a versatile nonparametric paradigm used to quantify uncertainty in prediction problems. Building upon recent variations of Conformal Prediction for Functional time series, a probabilistic forecasting scheme for two-dimensional functional time series is presented, while providing an extension of Functional Autoregressive Processes of order one to this setting. Estimation techniques for the latter process are introduced and their performance are compared in terms of the resulting prediction regions. Finally, the proposed forecasting procedure and the uncertainty quantification technique are applied to a real dataset, collecting daily observations of Sea Level Anomalies of the Black Sea
翻訳日:2023-07-19 19:47:18 公開日:2023-07-18
# DESCN:個別処理効果推定のための深部宇宙クロスネットワーク

DESCN: Deep Entire Space Cross Networks for Individual Treatment Effect Estimation ( http://arxiv.org/abs/2207.09920v2 )

ライセンス: Link先を確認
Kailiang Zhong, Fengtong Xiao, Yan Ren, Yaorong Liang, Wenqing Yao, Xiaofeng Yang, and Ling Cen(参考訳) 因果推論は電子商取引や精密医療など様々な分野で広く応用されており、その性能は個別処理効果(ITE)の正確な推定に大きく依存している。 従来、ITEは個々のサンプル空間で処理および制御応答関数を個別にモデル化することで予測される。 しかし、このようなアプローチは通常、治療バイアスによる治療群とコントロール群間の分散分布と、それらの集団サイズの顕著なサンプル不均衡という2つの問題に遭遇する。 本稿では,エンド・ツー・エンドの観点から治療効果をモデル化するためのDeep Entire Space Cross Networks (DESCN)を提案する。 DESCNは、マルチタスク学習方式で、治療の妥当性、応答、および隠れた治療効果の統合情報をクロスネットワークを介してキャプチャする。 本手法は, サンプル空間全体の処理機能と応答機能を協調的に学習し, 治療バイアスを回避し, 中間的擬似処理効果予測ネットワークを用いてサンプルの不均衡を緩和する。 総合的な実験は、Eコマースブーチャー流通ビジネスから合成データセットと大規模生産データセットを用いて行われる。 その結果,DESCNはITE推定精度を向上し,昇降ランキング性能を向上させることができた。 生産データセットとソースコードのサンプルは、コミュニティの将来的な研究を促進するためにリリースされ、これは私たちの知る限り、因果推論のための最初の大規模公共バイアス処理データセットである。

Causal Inference has wide applications in various areas such as E-commerce and precision medicine, and its performance heavily relies on the accurate estimation of the Individual Treatment Effect (ITE). Conventionally, ITE is predicted by modeling the treated and control response functions separately in their individual sample spaces. However, such an approach usually encounters two issues in practice, i.e. divergent distribution between treated and control groups due to treatment bias, and significant sample imbalance of their population sizes. This paper proposes Deep Entire Space Cross Networks (DESCN) to model treatment effects from an end-to-end perspective. DESCN captures the integrated information of the treatment propensity, the response, and the hidden treatment effect through a cross network in a multi-task learning manner. Our method jointly learns the treatment and response functions in the entire sample space to avoid treatment bias and employs an intermediate pseudo treatment effect prediction network to relieve sample imbalance. Extensive experiments are conducted on a synthetic dataset and a large-scaled production dataset from the E-commerce voucher distribution business. The results indicate that DESCN can successfully enhance the accuracy of ITE estimation and improve the uplift ranking performance. A sample of the production dataset and the source code are released to facilitate future research in the community, which is, to the best of our knowledge, the first large-scale public biased treatment dataset for causal inference.
翻訳日:2023-07-19 19:47:06 公開日:2023-07-18
# 属性表現のコントラスト最適化によるゼロショット学習の促進

Boosting Zero-shot Learning via Contrastive Optimization of Attribute Representations ( http://arxiv.org/abs/2207.03824v3 )

ライセンス: Link先を確認
Yu Du, Miaojing Shi, Fangyun Wei, Guoqi Li(参考訳) Zero-shot Learning (ZSL) は、トレーニングセットにサンプルを持たないクラスを認識することを目的としている。 代表的なソリューションの1つは、視覚特徴と対応するクラスセマンティクスを関連付けて、新しいクラスを認識する埋め込み関数を直接学習することである。 このソリューションには多くの方法が拡張されており、最近のものは特に属性機能のような画像からリッチな特徴を抽出することに熱心である。 これらの属性特徴は通常、個々の画像内で抽出されるが、同じ属性に属する画像にまたがる特徴の共通特性は強調されない。 本稿では,画像以外の属性のプロトタイプを明示的に学習し,画像内の属性レベルの特徴を対照的に最適化することにより,ZSLを向上する新たなフレームワークを提案する。 新しいプロトタイプ生成モジュールは属性セマンティクスから属性プロトタイプを生成するように設計され、ハードな例ベースのコントラスト最適化スキームは、埋め込み空間における属性レベル機能を強化するために導入された。 フレームワークの構築と,CUB,SUN,AwA2という3つの標準ベンチマークの実験を行うために,CNNベースとTransformerベースの2つのバックボーンについて検討する。 これらのベンチマークの結果から,本手法は芸術の状態をかなり改善することが示された。 私たちのコードはhttps://github.com/dyabel/CoAR-ZSL.gitで公開されます。

Zero-shot learning (ZSL) aims to recognize classes that do not have samples in the training set. One representative solution is to directly learn an embedding function associating visual features with corresponding class semantics for recognizing new classes. Many methods extend upon this solution, and recent ones are especially keen on extracting rich features from images, e.g. attribute features. These attribute features are normally extracted within each individual image; however, the common traits for features across images yet belonging to the same attribute are not emphasized. In this paper, we propose a new framework to boost ZSL by explicitly learning attribute prototypes beyond images and contrastively optimizing them with attribute-level features within images. Besides the novel architecture, two elements are highlighted for attribute representations: a new prototype generation module is designed to generate attribute prototypes from attribute semantics; a hard example-based contrastive optimization scheme is introduced to reinforce attribute-level features in the embedding space. We explore two alternative backbones, CNN-based and transformer-based, to build our framework and conduct experiments on three standard benchmarks, CUB, SUN, AwA2. Results on these benchmarks demonstrate that our method improves the state of the art by a considerable margin. Our codes will be available at https://github.com/dyabel/CoAR-ZSL.git
翻訳日:2023-07-19 19:46:42 公開日:2023-07-18
# 視覚および言語摂動に対するビデオ言語モデルのロバスト性解析

Robustness Analysis of Video-Language Models Against Visual and Language Perturbations ( http://arxiv.org/abs/2207.02159v4 )

ライセンス: Link先を確認
Madeline C. Schiappa, Shruti Vyas, Hamid Palangi, Yogesh S. Rawat, Vibhav Vineet(参考訳) 大規模データセットを用いた共同視覚モデルと言語モデリングは、最近、単一モーダル学習と比較して、マルチモーダルタスクの良好な進歩を示している。 しかし、現実世界の摂動に対するこれらのアプローチの堅牢性は研究されていない。 本研究では,様々な現実世界の摂動に対する映像言語モデルの最初の広範囲なロバストネス研究を行う。 テキスト間検索に焦点をあて,90の異なる視覚的および35の異なるテキスト摂動を利用する2つの大規模ベンチマークデータセットMSRVTT-PとYouCook2-Pを提案する。 この研究は、研究モデルから興味深い発見をいくつか明らかにしている。 1) テキストのみを摂動させるのに対して,ビデオのみを摂動させる場合,モデルの方が一般的に感受性が高い。 2)事前トレーニングされたモデルは,スクラッチからトレーニングしたモデルよりも堅牢である。 3)モデルは動きやアクションよりも、シーンやオブジェクトにもっと参加します。 この研究が、ロバストなビデオ言語学習における将来の研究のベンチマークとなり、ガイドとなることを願っている。 この研究で導入されたベンチマークは、コードとデータセットとともに、https://bit.ly/3cnoly4で利用可能である。

Joint visual and language modeling on large-scale datasets has recently shown good progress in multi-modal tasks when compared to single modal learning. However, robustness of these approaches against real-world perturbations has not been studied. In this work, we perform the first extensive robustness study of video-language models against various real-world perturbations. We focus on text-to-video retrieval and propose two large-scale benchmark datasets, MSRVTT-P and YouCook2-P, which utilize 90 different visual and 35 different text perturbations. The study reveals some interesting initial findings from the studied models: 1) models are generally more susceptible when only video is perturbed as opposed to when only text is perturbed, 2) models that are pre-trained are more robust than those trained from scratch, 3) models attend more to scene and objects rather than motion and action. We hope this study will serve as a benchmark and guide future research in robust video-language learning. The benchmark introduced in this study along with the code and datasets is available at https://bit.ly/3CNOly4.
翻訳日:2023-07-19 19:46:19 公開日:2023-07-18
# 分子遷移経路の集団可変自由サンプリングのための確率的最適制御

Stochastic Optimal Control for Collective Variable Free Sampling of Molecular Transition Paths ( http://arxiv.org/abs/2207.02149v2 )

ライセンス: Link先を確認
Lars Holdijk, Yuanqi Du, Ferry Hooft, Priyank Jaini, Bernd Ensing, Max Welling(参考訳) 分子系の2つの準安定な状態、例えば、折りたたまれたタンパク質や生成物と化学反応の反応物の間の遷移経路をサンプリングする問題を考える。 状態を分離する高エネルギー障壁が存在するため、これらの遷移経路は標準的な分子動力学(MD)シミュレーションでサンプリングされる可能性は低い。 遷移の確率を高めるバイアスポテンシャルでMDを増強する伝統的な方法は、集団変数(CV)に基づく次元的還元ステップに依存している。 残念ながら、適切なcvsを選択するには化学直観が必要であるため、従来の方法がより大きなシステムに適用できるとは限らない。 さらに、不正なcvsを使用する場合、バイアスポテンシャルは最小ではなく、遷移と無関係な次元に沿ってシステムをバイアスする可能性がある。 分子遷移経路のサンプリング問題,シュリンガーブリッジ問題,ニューラルネットワークポリシによる確率的最適制御の形式的関係を示すため,これらの遷移をサンプリングする機械学習手法を提案する。 従来の非機械学習法とは異なり、PIPSと呼ばれる手法はCVに依存しない。 本手法はアラニンジペプチドおよびより大きいポリプロリンおよびチグノリンタンパク質の低エネルギー遷移を誘導する。

We consider the problem of sampling transition paths between two given metastable states of a molecular system, e.g. a folded and unfolded protein or products and reactants of a chemical reaction. Due to the existence of high energy barriers separating the states, these transition paths are unlikely to be sampled with standard Molecular Dynamics (MD) simulation. Traditional methods to augment MD with a bias potential to increase the probability of the transition rely on a dimensionality reduction step based on Collective Variables (CVs). Unfortunately, selecting appropriate CVs requires chemical intuition and traditional methods are therefore not always applicable to larger systems. Additionally, when incorrect CVs are used, the bias potential might not be minimal and bias the system along dimensions irrelevant to the transition. Showing a formal relation between the problem of sampling molecular transition paths, the Schr\"odinger bridge problem and stochastic optimal control with neural network policies, we propose a machine learning method for sampling said transitions. Unlike previous non-machine learning approaches our method, named PIPS, does not depend on CVs. We show that our method successful generates low energy transitions for Alanine Dipeptide as well as the larger Polyproline and Chignolin proteins.
翻訳日:2023-07-19 19:46:04 公開日:2023-07-18
# TabText: タブラルデータ表現に対するフレキシブルでコンテキスト的なアプローチ

TabText: A Flexible and Contextual Approach to Tabular Data Representation ( http://arxiv.org/abs/2206.10381v3 )

ライセンス: Link先を確認
Kimberly Villalobos Carballo, Liangyuan Na, Yu Ma, L\'eonard Boussioux, Cynthia Zeng, Luis R. Soenksen, Dimitris Bertsimas(参考訳) タブラルデータは、機械学習タスクをさまざまな産業に適用するために欠かせない。 しかし、従来のデータ処理手法では、テーブルで利用可能な全ての情報を十分に活用せず、カラムヘッダ記述のような重要なコンテキスト情報を無視している。 さらに、前処理データを表形式にすることは、モデル開発における労働集約的なボトルネックであり続ける可能性がある。 この作業では,表データ構造からコンテキスト情報を抽出する処理および特徴抽出フレームワークであるTabTextを導入する。 tabtextは、コンテンツを言語に変換し、事前訓練された大型言語モデル(llm)を活用することで、処理の困難に対処する。 患者の退院, ICU入院, 死亡に至る9つの医療予測課題の枠組みについて検討した。 私たちはそれを示します 1) TabTextフレームワークを適用することで、最小限のデータ前処理を伴う高性能でシンプルな機械学習ベースラインモデルの生成が可能になります。 2) TabText表現による事前処理タブラデータの増大により,標準機械学習モデルの平均および最悪のAUC性能は最大6%向上する。

Tabular data is essential for applying machine learning tasks across various industries. However, traditional data processing methods do not fully utilize all the information available in the tables, ignoring important contextual information such as column header descriptions. In addition, pre-processing data into a tabular format can remain a labor-intensive bottleneck in model development. This work introduces TabText, a processing and feature extraction framework that extracts contextual information from tabular data structures. TabText addresses processing difficulties by converting the content into language and utilizing pre-trained large language models (LLMs). We evaluate our framework on nine healthcare prediction tasks ranging from patient discharge, ICU admission, and mortality. We show that 1) applying our TabText framework enables the generation of high-performing and simple machine learning baseline models with minimal data pre-processing, and 2) augmenting pre-processed tabular data with TabText representations improves the average and worst-case AUC performance of standard machine learning models by as much as 6%.
翻訳日:2023-07-19 19:45:43 公開日:2023-07-18
# 非凸問題と非滑らか問題による確率最適化の安定性と一般化

Stability and Generalization of Stochastic Optimization with Nonconvex and Nonsmooth Problems ( http://arxiv.org/abs/2206.07082v3 )

ライセンス: Link先を確認
Yunwen Lei(参考訳) 確率的最適化は、機械学習における目的関数の最小化に広く応用されており、実用的成功を理解するために多くの理論的研究を動機付けている。 既存の研究の多くは最適化誤差の収束に焦点を当てているが、確率最適化の一般化解析は遅れをとっている。 これは、実際にしばしば遭遇する非凸問題や非滑らかな問題に特に当てはまる。 本稿では,非凸および非滑らか問題に対する確率最適化の体系的安定性と一般化解析を初期化する。 本研究では,新たなアルゴリズム的安定性尺度を導入し,人口勾配と経験的勾配とのギャップの定量的な関係を確立し,さらに,経験的リスクのモロー包含と人口リスクのギャップについて検討する。 我々の知る限り、この安定性と一般化の間の定量的な関係は、勾配やモローエンベロープの観点からは研究されていない。 サンプリング決定アルゴリズムのクラスを導入し、3つの安定性対策のバウンダリを開発する。 最後に,これらの議論を確率的勾配降下とその適応型に対する誤差境界の導出に適用し,ステップサイズと反復数を調整して暗黙の正則化を実現する方法を示す。

Stochastic optimization has found wide applications in minimizing objective functions in machine learning, which motivates a lot of theoretical studies to understand its practical success. Most of existing studies focus on the convergence of optimization errors, while the generalization analysis of stochastic optimization is much lagging behind. This is especially the case for nonconvex and nonsmooth problems often encountered in practice. In this paper, we initialize a systematic stability and generalization analysis of stochastic optimization on nonconvex and nonsmooth problems. We introduce novel algorithmic stability measures and establish their quantitative connection on the gap between population gradients and empirical gradients, which is then further extended to study the gap between the Moreau envelope of the empirical risk and that of the population risk. To our knowledge, these quantitative connection between stability and generalization in terms of either gradients or Moreau envelopes have not been studied in the literature. We introduce a class of sampling-determined algorithms, for which we develop bounds for three stability measures. Finally, we apply these discussions to derive error bounds for stochastic gradient descent and its adaptive variant, where we show how to achieve an implicit regularization by tuning the step sizes and the number of iterations.
翻訳日:2023-07-19 19:45:30 公開日:2023-07-18
# 複合量子シミュレーション

Composite Quantum Simulations ( http://arxiv.org/abs/2206.06409v2 )

ライセンス: Link先を確認
Matthew Hagan and Nathan Wiebe(参考訳) 本稿では, トロッタスズキ公式やQDriftなどの複数の量子シミュレーション手法を, ゲート数を削減するための古いコネッセーションのアイデアの上に構築した1つの複合チャネルに組み合わせる枠組みを提案する。 このアプローチの背後にある中心的な考え方は、シミュレーション内のチャネルのトロッターまたはQDrift部分にハミルトン項を割り当てるパーティショニングスキームを使用することである。 これにより、高次トロッタースズキ式を用いてより大きい項をシミュレートしながら、QDriftを用いて、小さくて多数の項をシミュレートできる。 合成チャネルと理想シミュレーションチャネルとの間のダイヤモンド距離の厳密な境界を証明し、合成チャネルの実装コストが漸近的に上界となる条件下では、項の確率的分割と決定論的分割の両方でそれを構成する方法を示す。 最後に、分割スキームを決定するための戦略と、同一フレームワーク内で異なるシミュレーション手法を組み込む手法について論じる。

In this paper we provide a framework for combining multiple quantum simulation methods, such as Trotter-Suzuki formulas and QDrift into a single Composite channel that builds upon older coalescing ideas for reducing gate counts. The central idea behind our approach is to use a partitioning scheme that allocates a Hamiltonian term to the Trotter or QDrift part of a channel within the simulation. This allows us to simulate small but numerous terms using QDrift while simulating the larger terms using a high-order Trotter-Suzuki formula. We prove rigorous bounds on the diamond distance between the Composite channel and the ideal simulation channel and show under what conditions the cost of implementing the Composite channel is asymptotically upper bounded by the methods that comprise it for both probabilistic partitioning of terms and deterministic partitioning. Finally, we discuss strategies for determining partitioning schemes as well as methods for incorporating different simulation methods within the same framework.
翻訳日:2023-07-19 19:45:12 公開日:2023-07-18
# ベッチ数推定のための(単純)古典的アルゴリズム

A (simple) classical algorithm for estimating Betti numbers ( http://arxiv.org/abs/2211.09618v2 )

ライセンス: Link先を確認
Simon Apers, Sander Gribling, Sayantan Sen, D\'aniel Szab\'o(参考訳) 経路積分モンテカルロ法を用いて、$k$-th正規化ベッチ数を$n$要素上の単純複素数として推定する簡単なアルゴリズムを記述する。 一般単純複体の場合、アルゴリズムの実行時間は$n^{o\left(\frac{1}{\sqrt{\gamma}}\log\frac{1}{\varepsilon}\right)}$であり、$\gamma$は組合せラプラシアンのスペクトルギャップを測定し、$\varepsilon \in (0,1)$は加法精度である。 クリフ複体の場合、我々のアルゴリズムの実行時間は$\left(n/\lambda_{\max}\right)^{O\left(\frac{1}{\sqrt{\gamma}}\log\frac{1}{\varepsilon}\right)}$ with $\lambda_{\max} \geq k$, ここで$\lambda_{\max}$は組合せラプラシアンの最大固有値である。 本アルゴリズムは、ベッチ数を推定する一連の量子アルゴリズムの古典的なベンチマークを提供する。 クリッド複体では、例えば $\gamma \in \Omega(1)$ と $k \in \Omega(n)$ のランニング時間と一致する。

We describe a simple algorithm for estimating the $k$-th normalized Betti number of a simplicial complex over $n$ elements using the path integral Monte Carlo method. For a general simplicial complex, the running time of our algorithm is $n^{O\left(\frac{1}{\sqrt{\gamma}}\log\frac{1}{\varepsilon}\right)}$ with $\gamma$ measuring the spectral gap of the combinatorial Laplacian and $\varepsilon \in (0,1)$ the additive precision. In the case of a clique complex, the running time of our algorithm improves to $\left(n/\lambda_{\max}\right)^{O\left(\frac{1}{\sqrt{\gamma}}\log\frac{1}{\varepsilon}\right)}$ with $\lambda_{\max} \geq k$, where $\lambda_{\max}$ is the maximum eigenvalue of the combinatorial Laplacian. Our algorithm provides a classical benchmark for a line of quantum algorithms for estimating Betti numbers. On clique complexes it matches their running time when, for example, $\gamma \in \Omega(1)$ and $k \in \Omega(n)$.
翻訳日:2023-07-19 19:36:45 公開日:2023-07-18
# 量子機械学習のためのリソースフラガー最適化器

Resource frugal optimizer for quantum machine learning ( http://arxiv.org/abs/2211.04965v2 )

ライセンス: Link先を確認
Charles Moussa, Max Hunter Gordon, Michal Baczyk, M. Cerezo, Lukasz Cincio, Patrick J. Coles(参考訳) qml(quantum machine learning)とも呼ばれる量子エンハンスドデータサイエンスは、短期量子コンピュータの応用として注目されている。 変分QMLアルゴリズムは、特に量子データを含む場合、実際のハードウェアにおける実用的な問題を解く可能性がある。 しかし、これらのアルゴリズムのトレーニングは困難であり、最適化手順の調整が求められる。 特に、QMLアプリケーションは、大きなデータセットに関連するため、ショットカウントのオーバーヘッドが大きい可能性がある。 本研究では,損失関数を定義する測度演算子だけでなく,データセット上での同時ランダムサンプリングを提唱する。 我々は、多くのQMLアプリケーションを含む非常に一般的な損失関数を考察し、その勾配の偏りのない推定器を構築する方法を示す。 これにより、Refoqus (Resource Frugal Optimizer for QUantum Stochastic gradient descent) と呼ばれるショットフルーガル勾配勾配最適化器を提案することができる。 私たちの数値は、refoqusは、測定演算子単独でサンプルを最適化するオプティマイザと比較しても、数桁のショットコストを節約できることを示している。

Quantum-enhanced data science, also known as quantum machine learning (QML), is of growing interest as an application of near-term quantum computers. Variational QML algorithms have the potential to solve practical problems on real hardware, particularly when involving quantum data. However, training these algorithms can be challenging and calls for tailored optimization procedures. Specifically, QML applications can require a large shot-count overhead due to the large datasets involved. In this work, we advocate for simultaneous random sampling over both the dataset as well as the measurement operators that define the loss function. We consider a highly general loss function that encompasses many QML applications, and we show how to construct an unbiased estimator of its gradient. This allows us to propose a shot-frugal gradient descent optimizer called Refoqus (REsource Frugal Optimizer for QUantum Stochastic gradient descent). Our numerics indicate that Refoqus can save several orders of magnitude in shot cost, even relative to optimizers that sample over measurement operators alone.
翻訳日:2023-07-19 19:36:14 公開日:2023-07-18
# オブザーバベース逆強化学習における等価解に対する不合理性と収束

Nonuniqueness and Convergence to Equivalent Solutions in Observer-based Inverse Reinforcement Learning ( http://arxiv.org/abs/2210.16299v2 )

ライセンス: Link先を確認
Jared Town, Zachary Morrison, Rushikesh Kamalapurkar(参考訳) オンラインおよびリアルタイムに決定論的逆強化学習(IRL)問題を解決する上で重要な課題は、複数の解が存在することである。 非特異性は等価解の概念、すなわち異なるコスト関数的だが同じフィードバック行列をもたらす解、およびそのような解への収束の研究を必要とする。 同等のソリューションに収束するオフラインアルゴリズムが文献で開発されているが、非合理性に対処するオンラインリアルタイム技術は利用できない。 本稿では、IRL問題のほぼ等価解に収束する正規化履歴スタックオブザーバを開発する。 本手法の有効性を実証するために,新しいデータリッチネス条件を開発し,シミュレーション結果を得た。

A key challenge in solving the deterministic inverse reinforcement learning (IRL) problem online and in real-time is the existence of multiple solutions. Nonuniqueness necessitates the study of the notion of equivalent solutions, i.e., solutions that result in a different cost functional but same feedback matrix, and convergence to such solutions. While offline algorithms that result in convergence to equivalent solutions have been developed in the literature, online, real-time techniques that address nonuniqueness are not available. In this paper, a regularized history stack observer that converges to approximately equivalent solutions of the IRL problem is developed. Novel data-richness conditions are developed to facilitate the analysis and simulation results are provided to demonstrate the effectiveness of the developed technique.
翻訳日:2023-07-19 19:35:58 公開日:2023-07-18
# ディファレンシャルプライバシを用いた合成テキスト生成:単純かつ実用的なレシピ

Synthetic Text Generation with Differential Privacy: A Simple and Practical Recipe ( http://arxiv.org/abs/2210.14348v3 )

ライセンス: Link先を確認
Xiang Yue, Huseyin A. Inan, Xuechen Li, Girish Kumar, Julia McAnallen, Hoda Shajari, Huan Sun, David Levitan and Robert Sim(参考訳) プライバシに関する懸念は、センシティブなトレーニングデータを記憶する機械学習モデルの傾向により、データ駆動製品に注目が集まっている。 差分プライバシー(DP)のような形式的なプライバシ保証を備えた合成データの生成は、これらのプライバシの懸念を軽減するための有望な経路を提供するが、この方向の以前のアプローチは通常、高品質な合成データの生成に失敗した。 そこで本研究では,DPで事前学習した生成言語モデルを微調整することで,強力なプライバシ保護を備えた有用な合成テキストを生成できる,シンプルで実用的なテキスト領域のレシピが有効であることを示す。 ベンチマークデータとプライベート顧客データの両方に関する広範な実証分析を通じて,本手法が非プライベートデータと実用性の観点から競合する合成テキストを生成する一方で,潜在的なプライバシー漏洩に対する強力な保護を提供することを示す。

Privacy concerns have attracted increasing attention in data-driven products due to the tendency of machine learning models to memorize sensitive training data. Generating synthetic versions of such data with a formal privacy guarantee, such as differential privacy (DP), provides a promising path to mitigating these privacy concerns, but previous approaches in this direction have typically failed to produce synthetic data of high quality. In this work, we show that a simple and practical recipe in the text domain is effective: simply fine-tuning a pretrained generative language model with DP enables the model to generate useful synthetic text with strong privacy protection. Through extensive empirical analyses on both benchmark and private customer data, we demonstrate that our method produces synthetic text that is competitive in terms of utility with its non-private counterpart, meanwhile providing strong protection against potential privacy leakages.
翻訳日:2023-07-19 19:35:46 公開日:2023-07-18
# 連続モンテカルログラフ探索

Continuous Monte Carlo Graph Search ( http://arxiv.org/abs/2210.01426v2 )

ライセンス: Link先を確認
Kalle Kujanp\"a\"a, Amin Babadi, Yi Zhao, Juho Kannala, Alexander Ilin, Joni Pajarinen(参考訳) 多くの複雑な意思決定タスクにおいて、オンラインプランニングはハイパフォーマンスに不可欠である。 効率的なオンラインプランニングのために、Monte Carlo Tree Search (MCTS)は、エクスプロイトのための探索のトレードオフに原則化されたメカニズムを採用している。 mctsはgo, chess, shogiなど多くの個別意思決定領域で比較手法よりも優れている。 その後、連続領域へのmctsの拡張が提案されている。 しかし、本質的に高い分岐率と探索木の大きさの爆発は、既存の手法を制限している。 そこで本研究では,mctsのオンライン計画への新たな拡張である連続モンテカルログラフ探索(cmcgs)を提案する。 CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。 このアイデアを実現するため、MCGSはMCTS検索ツリーの代わりに層状有向グラフを生成するため、同様の状態を限られた数の確率的行動帯域ノードにクラスタリングする。 CMCGSは、いくつかの複雑な連続DeepMind Control Suiteベンチマークと、2次元ナビゲーションタスクにおいて、サンプル予算に制限のある同等の計画手法より優れていることを示す。 さらに、CMCGSを並列化してスケールアップし、学習力学モデルによる連続制御においてクロスエントロピー法(CEM)よりも優れている。

In many complex sequential decision-making tasks, online planning is crucial for high performance. For efficient online planning, Monte Carlo Tree Search (MCTS) employs a principled mechanism for trading off exploration for exploitation. MCTS outperforms comparison methods in many discrete decision-making domains such as Go, Chess, and Shogi. Following, extensions of MCTS to continuous domains have been proposed. However, the inherent high branching factor and the resulting explosion of search tree size are limiting existing methods. To address this problem, we propose Continuous Monte Carlo Graph Search (CMCGS), a novel extension of MCTS to online planning in environments with continuous state and action spaces. CMCGS takes advantage of the insight that, during planning, sharing the same action policy between several states can yield high performance. To implement this idea, at each time step, CMCGS clusters similar states into a limited number of stochastic action bandit nodes, which produce a layered directed graph instead of an MCTS search tree. Experimental evaluation shows that CMCGS outperforms comparable planning methods in several complex continuous DeepMind Control Suite benchmarks and a 2D navigation task with limited sample budgets. Furthermore, CMCGS can be parallelized to scale up and it outperforms the Cross-Entropy Method (CEM) in continuous control with learned dynamics models.
翻訳日:2023-07-19 19:34:56 公開日:2023-07-18
# 可視性摂動による視覚情報の隠蔽

Hiding Visual Information via Obfuscating Adversarial Perturbations ( http://arxiv.org/abs/2209.15304v3 )

ライセンス: Link先を確認
Zhigang Su and Dawei Zhou and Decheng Liu and Nannan Wang and Zhen Wang and Xinbo Gao(参考訳) ビジュアル情報の漏洩と誤用の増加は、セキュリティとプライバシーの懸念を高め、情報保護の開発を促進する。 既存の対向的摂動に基づく手法は、主に深層学習モデルに対する識別の除去に焦点を当てている。 しかし、データ固有の視覚情報は十分に保護されていない。 本稿では,type-iアドバーサリー攻撃に触発されて,データの視覚プライバシを保護するためのアドバーサリービジュアル情報隠蔽手法を提案する。 具体的には、データの視覚情報を隠蔽する難読化対向摂動を生成する。 一方、モデルによって正しく予測される隠れた目的を維持している。 さらに,本手法は適用モデルのパラメータを変更しないため,異なるシナリオに対して柔軟である。 認識・分類タスクの実験結果は,提案手法が視覚情報を効果的に隠蔽し,モデルの性能にはほとんど影響しないことを示す。 コードは補足資料で入手できる。

Growing leakage and misuse of visual information raise security and privacy concerns, which promotes the development of information protection. Existing adversarial perturbations-based methods mainly focus on the de-identification against deep learning models. However, the inherent visual information of the data has not been well protected. In this work, inspired by the Type-I adversarial attack, we propose an adversarial visual information hiding method to protect the visual privacy of data. Specifically, the method generates obfuscating adversarial perturbations to obscure the visual information of the data. Meanwhile, it maintains the hidden objectives to be correctly predicted by models. In addition, our method does not modify the parameters of the applied model, which makes it flexible for different scenarios. Experimental results on the recognition and classification tasks demonstrate that the proposed method can effectively hide visual information and hardly affect the performances of models. The code is available in the supplementary material.
翻訳日:2023-07-19 19:34:33 公開日:2023-07-18
# Frouros: 機械学習システムにおけるドリフト検出のためのPythonライブラリ

Frouros: A Python library for drift detection in machine learning systems ( http://arxiv.org/abs/2208.06868v3 )

ライセンス: Link先を確認
Jaime C\'espedes-Sisniega and \'Alvaro L\'opez-Garc\'ia(参考訳) FrourosはオープンソースのPythonライブラリで、機械学習システムのドリフトを検出することができる。 ドリフト検出のための古典的なアルゴリズムとより最近のアルゴリズムの組み合わせを提供する:概念とデータドリフトの両方である。 私たちは、あらゆる機械学習フレームワークと互換性を持たせ、現実世界のユースケースに容易に適応できるように設計しました。 このライブラリは、メンテナンスの容易さと拡張性を確保するために、最良の開発と継続的インテグレーションのプラクティスに従って開発されている。 ソースコードはhttps://github.com/ifca/frouros.com/で入手できる。

Frouros is an open-source Python library capable of detecting drift in machine learning systems. It provides a combination of classical and more recent algorithms for drift detection: both concept and data drift. We have designed it with the objective of making it compatible with any machine learning framework and easily adaptable to real-world use cases. The library is developed following a set of best development and continuous integration practices to ensure ease of maintenance and extensibility. The source code is available at https://github.com/IFCA/frouros.
翻訳日:2023-07-19 19:34:19 公開日:2023-07-18
# キャビティ誘起動的ゲージ場を有する超低温ボソンの非平衡相

Nonequilibrium phases of ultracold bosons with cavity-induced dynamic gauge fields ( http://arxiv.org/abs/2208.04602v2 )

ライセンス: Link先を確認
Arkadiusz Kosior and Helmut Ritsch and Farokh Mivehvar(参考訳) ゲージ場は物理学の基本理論の中心的な概念であり、素粒子間の長距離相互作用を媒介する。 近年,原子-光子相互作用を利用した合成中性量子ガス-キャビティ系において,動的ゲージ場を光子によって自然に設計することが提案されている。 ここでは,2光子ラマン過程を介し,脚依存の動的複素トンネルを有する2脚ボソニック格子モデルに現れる非平衡動的相を包括的に検討する。 このシステムは最小限の動的フラックス格子モデルを構成する。 運動方程式の固定点とその安定性,結果の動的相図,および対応する相転移と分岐について検討する。 特に、位相図は極限サイクルやカオス相を含む非平衡動的相の多相を特徴とする。 最後に、システムの正則周期ダイナミクス(すなわちリミットサイクル位相)を時間結晶に関連付ける。

Gauge fields are a central concept in fundamental theories of physics, and responsible for mediating long-range interactions between elementary particles. Recently, it has been proposed that dynamical gauge fields can be naturally engineered by photons in composite, neutral quantum gas--cavity systems using suitable atom-photon interactions. Here we comprehensively investigate nonequilibrium dynamical phases appearing in a two-leg bosonic lattice model with leg-dependent, dynamical complex tunnelings mediated by cavity-assisted two-photon Raman processes. The system constitutes a minimal dynamical flux-lattice model. We study fixed points of the equations of motion and their stability, the resultant dynamical phase diagram, and the corresponding phase transitions and bifurcations. Notably, the phase diagram features a plethora of nonequilibrium dynamical phases including limit-cycle and chaotic phases. In the end, we relate regular periodic dynamics (i.e., limit-cycle phases) of the system to time crystals.
翻訳日:2023-07-19 19:34:12 公開日:2023-07-18
# 未検出光による量子イメージング蒸留実験

Experimental quantum imaging distillation with undetected light ( http://arxiv.org/abs/2301.02529v2 )

ライセンス: Link先を確認
Jorge Fuenzalida, Marta Gilaberte Basset, Sebastian T\"opfer, Juan P. Torres, Markus Gr\"afe(参考訳) 誘導コヒーレンス効果に基づくイメージングは、光子対を用いて、それをプローブする光を検出することなく、物体の情報を得る。 1つの光子が物体を照らすが、そのパートナーのみが検出されるため、偶然の事象の測定は不要である。 検出された光子の特定の干渉パターンを観察して、追従対象の情報を開示する。 ここでは、この撮像技術がノイズに耐性を持たせることを実験的に実証する。 本稿では,関心信号の干渉変調に基づく画像蒸留法を提案する。 提案手法は,実利得信号の250倍のノイズレベルに対しても高品質の画像を生成することができることを示す。 また、我々の発見に関する詳細な理論的説明も含んでいる。

Imaging based on the induced coherence effect makes use of photon pairs to obtain information of an object without detecting the light that probes it. While one photon illuminates the object, only its partner is detected, so no measurement of coincidence events are needed. The sought-after object's information is revealed observing a certain interference pattern on the detected photon. Here we demonstrate experimentally that this imaging technique can be made resilient to noise. We introduce an imaging distillation approach based on the interferometric modulation of the signal of interest. We show that our scheme can generate a high-quality image of an object even against noise levels up to 250 times the actual signal of interest. We also include a detailed theoretical explanation of our findings.
翻訳日:2023-07-19 19:28:22 公開日:2023-07-18
# グローバル位相追跡のない量子通信実験によるレートロス限界の克服

Experimental Quantum Communication Overcomes the Rate-loss Limit without Global Phase Tracking ( http://arxiv.org/abs/2212.14190v3 )

ライセンス: Link先を確認
Lai Zhou, Jinping Lin, Yuan-Mei Xie, Yu-Shuo Lu, Yumang Jing, Hua-Lei Yin, and Zhiliang Yuan(参考訳) 点点量子鍵分布(QKD)のセキュア鍵レート(SKR)は、基本的に速度損失制限によって拘束される。 ツインフィールド(TF) QKDの最近のブレークスルーは、この限界を克服し、長距離量子通信を可能にするが、その実装は複雑な大域的な位相追跡を必要とし、ノイズを付加するだけでなく、量子伝送の義務サイクルを減少させる強力な位相参照を必要とする。 本稿では,これらの欠点を解消し,非同期一致ペアリングによるリピータライクな通信を実現する,革新的かつ簡易な測定デバイス非依存qkdの実装により,tf-qkdよりもさらに高いskrを実現する。 413 km および 508 km 以上の光ファイバーにおいて、それぞれの絶対レート限界の 1.80 倍および 4.08 倍の 590.61 および 42.64 ビット/秒の有限サイズskr を達成する。 重要なことに、306kmのSKRは5kbit/sを超え、音声通信の1時間パッドのライブ暗号化に必要なビットレートを満たす。 我々の研究は、経済的かつ効率的な都市間量子セキュリティネットワークを前進させます。

Secure key rate (SKR) of point-point quantum key distribution (QKD) is fundamentally bounded by the rate-loss limit. Recent breakthrough of twin-field (TF) QKD can overcome this limit and enables long distance quantum communication, but its implementation necessitates complex global phase tracking and requires strong phase references which not only add to noise but also reduce the duty cycle for quantum transmission. Here, we resolve these shortcomings, and importantly achieve even higher SKRs than TF-QKD, via implementing an innovative but simpler measurement-device-independent QKD which realizes repeater-like communication through asynchronous coincidence pairing. Over 413 and 508 km optical fibers, we achieve finite-size SKRs of 590.61 and 42.64 bit/s, which are respectively 1.80 and 4.08 times of their corresponding absolute rate limits. Significantly, the SKR at 306 km exceeds 5 kbit/s and meets the bitrate requirement for live one-time-pad encryption of voice communication. Our work will bring forward economical and efficient intercity quantum-secure networks.
翻訳日:2023-07-19 19:28:14 公開日:2023-07-18
# 量子蝶前線での進行不連続性

Traveling discontinuity at the quantum butterfly front ( http://arxiv.org/abs/2212.13265v2 )

ライセンス: Link先を確認
Camille Aron, Eric Brunet, Aditi Mitra(参考訳) 超伝導相転移近傍の相互作用電子のパラダイムモデルを用いて,量子情報の運動論的理論を定式化する。 総体次元に広がる情報のダイナミクスを効果的に制御する連結偏微分方程式の組を慎重に導出する。 それらの解は、フェルミ速度によって設定された最大速度で発散することを示す。 初期の段階では、非弾性散乱によって設定された速度で指数的な成長が見られる。 最近では,光円錐境界における不連続性を示す走行波による衝撃波動によって揺らぎが支配されていることが判明した。 特に、溶液が光円錐の外をこぼさないような完全な因果ダイナミクスが見つかる。

We formulate a kinetic theory of quantum information scrambling in the context of a paradigmatic model of interacting electrons in the vicinity of a superconducting phase transition. We carefully derive a set of coupled partial differential equations that effectively govern the dynamics of information spreading in generic dimensions. Their solutions show that scrambling propagates at the maximal speed set by the Fermi velocity. At early times, we find exponential growth at a rate set by the inelastic scattering. At late times, we find that scrambling is governed by shock-wave dynamics with traveling waves exhibiting a discontinuity at the boundary of the light cone. Notably, we find perfectly causal dynamics where the solutions do not spill outside of the light cone.
翻訳日:2023-07-19 19:27:52 公開日:2023-07-18
# 脳波復号のための深いリーマンネットワーク

Deep Riemannian Networks for EEG Decoding ( http://arxiv.org/abs/2212.10426v5 )

ライセンス: Link先を確認
Daniel Wilson, Robin Tibor Schirrmeister, Lukas Alexander Wilhelm Gemein, Tonio Ball(参考訳) 脳波デコーダ(EEG)の最先端性能は、現在、Deep-Learning (DL) または Riemannian-Geometry-based decoders (RBD) によって達成されている。 近年,Deep Riemannian Networks (DRN) への関心が高まっている。 しかし、より広範なDRNをEEGに応用するには、さらなる洞察が必要である、というトピックは、まだたくさんある。 ネットワークサイズやエンドツーエンドの能力といったアーキテクチャ設計の問題など,これらの要因がモデル性能に与える影響については検討されていない。 さらに、これらのネットワーク内のデータがどのように変換され、それが従来の脳波デコードと相関するかは明らかではない。 本研究の目的は,脳波のDRNを多種多様なパラメーターで解析することで,これらのトピックの領域の基盤となることにある。 ネットワークは2つのパブリックEEGデータセットでテストされ、最先端のConvNetと比較された。 本稿では、エンド・ツー・エンドの脳波spdnet(ee(g)-spdnet)を提案し、この広範囲のエンド・ツー・エンドのdrmが、コンブネットよりも優れており、生理学的に妥当な周波数領域を用いていることを示す。 また、エンド・ツー・エンドの手法は、脳波の古典的アルファ、ベータ、ガンマ周波数帯域を対象とする従来の帯域通過フィルタよりも複雑なフィルタを学習し、チャネル固有のフィルタリング手法の恩恵を受けることを示す。 さらに、アーキテクチャ解析により、ネットワーク全体のリーマン固有情報が失われる可能性があるため、さらなる改善が図られた。 そこで本研究では,手作りのフィルタバンクを必要とせずに,生の脳波からタスク関連情報を推測するためのDRNの設計と訓練方法を示し,高性能な脳波復号のためのEE(G)-SPDNetなどのエンドツーエンドDRNの可能性を強調した。

State-of-the-art performance in electroencephalography (EEG) decoding tasks is currently often achieved with either Deep-Learning (DL) or Riemannian-Geometry-based decoders (RBDs). Recently, there is growing interest in Deep Riemannian Networks (DRNs) possibly combining the advantages of both previous classes of methods. However, there are still a range of topics where additional insight is needed to pave the way for a more widespread application of DRNs in EEG. These include architecture design questions such as network size and end-to-end ability.How these factors affect model performance has not been explored. Additionally, it is not clear how the data within these networks is transformed, and whether this would correlate with traditional EEG decoding. Our study aims to lay the groundwork in the area of these topics through the analysis of DRNs for EEG with a wide range of hyperparameters. Networks were tested on two public EEG datasets and compared with state-of-the-art ConvNets. Here we propose end-to-end EEG SPDNet (EE(G)-SPDNet), and we show that this wide, end-to-end DRN can outperform the ConvNets, and in doing so use physiologically plausible frequency regions. We also show that the end-to-end approach learns more complex filters than traditional band-pass filters targeting the classical alpha, beta, and gamma frequency bands of the EEG, and that performance can benefit from channel specific filtering approaches. Additionally, architectural analysis revealed areas for further improvement due to the possible loss of Riemannian specific information throughout the network. Our study thus shows how to design and train DRNs to infer task-related information from the raw EEG without the need of handcrafted filterbanks and highlights the potential of end-to-end DRNs such as EE(G)-SPDNet for high-performance EEG decoding.
翻訳日:2023-07-19 19:27:40 公開日:2023-07-18
# 超伝導量子ビット配列におけるソリトン対単一光子量子力学

Soliton versus single photon quantum dynamics in arrays of superconducting qubits ( http://arxiv.org/abs/2212.06627v2 )

ライセンス: Link先を確認
Ben Blain, Giampiero Marchegiani, Juan Polo, Gianluigi Catelani, and Luigi Amico(参考訳) 超伝導回路は量子プロセッサとシミュレータの将来実装に有望なプラットフォームである。 容量結合トランスモン量子ビットの配列は、魅力的なオンサイト相互作用を持つBose-Hubbardモデルを自然に実装する。 このような多体系のスペクトルは、明るいソリトンの格子アナログを定義する低エネルギー局在状態によって特徴づけられる。 ここでは、これらの明るいソリトンをシステムに固定できることを示し、その形状を維持しながらソリトンが動くことを発見した。 その速度は、結合相互作用と構成ボソンの数の観点から、スケーリング則に従う。 対照的に、アレイを通る光子のソース-ドレイン輸送は、明るいソリトンよりも高いエネルギーを持つ拡張状態を通じて起こる。 ソース/ドレインと配列の間の弱い結合のために、ソースとドレインの個体数は時間的に振動し、チェーンは常時ほぼ無人口のままである。 このような現象はパリティに依存している。 実験実現に向けた実験結果の意義について考察した。

Superconducting circuits constitute a promising platform for future implementation of quantum processors and simulators. Arrays of capacitively coupled transmon qubits naturally implement the Bose-Hubbard model with attractive on-site interaction. The spectrum of such many-body systems is characterised by low-energy localised states defining the lattice analog of bright solitons. Here, we demonstrate that these bright solitons can be pinned in the system, and we find that a soliton moves while maintaining its shape. Its velocity obeys a scaling law in terms of the combined interaction and number of constituent bosons. In contrast, the source-to-drain transport of photons through the array occurs through extended states that have higher energy compared to the bright soliton. For weak coupling between the source/drain and the array, the populations of the source and drain oscillate in time, with the chain remaining nearly unpopulated at all times. Such a phenomenon is found to be parity dependent. Implications of our results for the actual experimental realisations are discussed.
翻訳日:2023-07-19 19:27:05 公開日:2023-07-18
# ランダムガウス状態からのガウス的作業抽出はほぼ不可能である

Gaussian work extraction from random Gaussian states is nearly impossible ( http://arxiv.org/abs/2212.03492v2 )

ライセンス: Link先を確認
Uttam Singh, Jaros{\l}aw K. Korbicz, Nicolas J. Cerf(参考訳) 量子熱力学は、自然に量子状態変換の理論や、熱力学過程の小さな量子系のエネルギー交換として表現され、資源理論のアプローチに非常に適している。 熱力学における重要な資源は抽出可能な作業であり、熱機関のバックボーンを形成する。 したがって、量子状態は仕事の源として機能する能力に基づいて特徴付けることが興味深い。 短期的には、量子光学セットアップは量子熱力学の理想的なテストベッドであることが判明し、量子光学状態からの作業抽出を評価することが重要である。 ここで、ガウス状態は一般的にガウスの作業抽出に役に立たないことを示す。 より具体的には、「測度集中」現象を利用して、ゼロ平均エネルギー有界な多モードランダムガウス状態からガウス抽出可能作業が指数関数的に小さくなる確率を証明した。 この結果はガウス的ユニタリーの下でガウス的状態から作業抽出を行うための$\epsilon$-no-go定理と考えて、ガウス的成分の量子熱力学的有用性に関する基本的な制限を明らかにすることができる。

Quantum thermodynamics can be naturally phrased as a theory of quantum state transformation and energy exchange for small-scale quantum systems undergoing thermodynamical processes, thereby making the resource theoretical approach very well suited. A key resource in thermodynamics is the extractable work, forming the backbone of thermal engines. Therefore it is of interest to characterize quantum states based on their ability to serve as a source of work. From a near-term perspective, quantum optical setups turn out to be ideal test beds for quantum thermodynamics; so it is important to assess work extraction from quantum optical states. Here, we show that Gaussian states are typically useless for Gaussian work extraction. More specifically, by exploiting the ``concentration of measure'' phenomenon, we prove that the probability that the Gaussian extractable work from a zero-mean energy-bounded multimode random Gaussian state is nonzero is exponentially small. This result can be thought of as an $\epsilon$-no-go theorem for work extraction from Gaussian states under Gaussian unitaries, thereby revealing a fundamental limitation on the quantum thermodynamical usefulness of Gaussian components.
翻訳日:2023-07-19 19:26:52 公開日:2023-07-18
# 強化学習における信号時間論理タスクのためのファンネルに基づく逆整形

Funnel-based Reward Shaping for Signal Temporal Logic Tasks in Reinforcement Learning ( http://arxiv.org/abs/2212.03181v2 )

ライセンス: Link先を確認
Naman Saxena, Gorantla Sandeep, Pushpak Jagtap(参考訳) Signal Temporal Logic (STL) は力学系の複雑な時間的・論理的な振る舞いを記述するための強力なフレームワークである。 多くの研究が強化学習を用いてSTL仕様を強制するコントローラを学習しているが、持続的な状態空間における堅牢な満足とトラクタビリティの維持という課題に効果的に対処することはできなかった。 本稿では, ファンネル関数の概念を活かし, 連続状態空間におけるstl仕様の頑健な満足のための時間依存ポリシーを学習するための拡張学習アルゴリズムを提案する。 異なる環境を用いて複数のSTLタスクにアプローチの有効性を示す。

Signal Temporal Logic (STL) is a powerful framework for describing the complex temporal and logical behaviour of the dynamical system. Numerous studies have attempted to employ reinforcement learning to learn a controller that enforces STL specifications; however, they have been unable to effectively tackle the challenges of ensuring robust satisfaction in continuous state space and maintaining tractability. In this paper, leveraging the concept of funnel functions, we propose a tractable reinforcement learning algorithm to learn a time-dependent policy for robust satisfaction of STL specification in continuous state space. We demonstrate the utility of our approach on several STL tasks using different environments.
翻訳日:2023-07-19 19:26:29 公開日:2023-07-18
# 量子計測のための構造論理

A substructural logic for quantum measurements ( http://arxiv.org/abs/2212.02833v2 )

ライセンス: Link先を確認
Daniel Lehmann(参考訳) 本稿では,非常に制限された交換規則と弱化規則を持つシークエントのサブストラクショナル論理を提案する。 量子系の測定のシーケンスに関して、これは健全である。 音と完全な意味論が提供されている。 意味構造は、要素間の直交を表現し、ヒルベルト空間における射影演算を一般化する演算の定義を可能にする二項関係を含む。 この言語はユニタリ接続、一種の否定、2つの双対結合を持ち、可換的でも連想的でも、ある種の結合と解離でもない。 これは、証明理論が美学的に喜ばしい量子測定の論理を提供する。

This paper presents a substructural logic of sequents with very restricted exchange and weakening rules. It is sound with respect to sequences of measurements of a quantic system. A sound and complete semantics is provided. The semantic structures include a binary relation that expresses orthogonality between elements and enables the definition of an operation that generalizes the projection operation in Hilbert spaces. The language has a unitary connective, a sort of negation, and two dual binary connectives that are neither commutative nor associative, sorts of conjunction and disjunction. This provides a logic for quantum measurements whose proof theory is aesthetically pleasing.
翻訳日:2023-07-19 19:26:18 公開日:2023-07-18
# cube-and-conquerによる暗号ハッシュ関数の反転

Inverting Cryptographic Hash Functions via Cube-and-Conquer ( http://arxiv.org/abs/2212.02405v2 )

ライセンス: Link先を確認
Oleg Zaikin(参考訳) MD4とMD5は1990年代初頭に提案された暗号ハッシュ関数である。 MD4は48ステップで構成され、128ビットのハッシュを任意の有限サイズのメッセージとして生成する。 MD5はMD4のよりセキュアな64ステップ拡張である。 MD4とMD5はどちらも実用的な衝突攻撃に弱いが、ハッシュが与えられたメッセージを見つけることは現実的ではない。 2007年、39段版のMD4はSATに還元され、いわゆるDobbertinの制約とともにCDCLソルバが適用された。 MD5に関しては、2012年に28ステップバージョンがCDCLソルバを介して特定のハッシュに対して追加の制約を加えることなく反転された。 本研究では,cdclとlookaheadの組み合わせであるcube-and-conquerをmd4とmd5の逆ステップ縮小バージョンに適用する。 この目的のために2つのアルゴリズムを提案する。 まず、dobbertinの制約を徐々に修正することで、md4の反転問題を生成する。 第2のアルゴリズムは、キューブ・アンド・コンクエストのキュービングフェーズを異なるカットオフしきい値で試行し、コンクエストフェーズを最小のランタイム推定で見つける。 このアルゴリズムは2つのモードで動作する。 (i) 与えられた命題ブール公式の硬さを推定すること。 (ii) 与えられた満足な命題ブール式の不完全SAT解法。 第1のアルゴリズムはステップ還元MD4の反転に重点を置いているが、第2のアルゴリズムは領域固有ではなく、ハードSATインスタンスの様々なクラスに適用できる。 本研究では,40段,41段,42段,43段のMD4を,第1のアルゴリズムと第2のアルゴリズムの推定モードによって初めて反転させる。 28ステップmd5は、第2アルゴリズムの不完全sat解決モードを介して4つのハッシュに対して反転する。 そのうちの3つのハッシュは、これが初めて行われる。

MD4 and MD5 are seminal cryptographic hash functions proposed in early 1990s. MD4 consists of 48 steps and produces a 128-bit hash given a message of arbitrary finite size. MD5 is a more secure 64-step extension of MD4. Both MD4 and MD5 are vulnerable to practical collision attacks, yet it is still not realistic to invert them, i.e. to find a message given a hash. In 2007, the 39-step version of MD4 was inverted via reducing to SAT and applying a CDCL solver along with the so-called Dobbertin's constraints. As for MD5, in 2012 its 28-step version was inverted via a CDCL solver for one specified hash without adding any additional constraints. In this study, Cube-and-Conquer (a combination of CDCL and lookahead) is applied to invert step-reduced versions of MD4 and MD5. For this purpose, two algorithms are proposed. The first one generates inversion problems for MD4 by gradually modifying the Dobbertin's constraints. The second algorithm tries the cubing phase of Cube-and-Conquer with different cutoff thresholds to find the one with minimal runtime estimation of the conquer phase. This algorithm operates in two modes: (i) estimating the hardness of a given propositional Boolean formula; (ii) incomplete SAT-solving of a given satisfiable propositional Boolean formula. While the first algorithm is focused on inverting step-reduced MD4, the second one is not area-specific and so is applicable to a variety of classes of hard SAT instances. In this study, 40-, 41-, 42-, and 43-step MD4 are inverted for the first time via the first algorithm and the estimating mode of the second algorithm. 28-step MD5 is inverted for four hashes via the incomplete SAT-solving mode of the second algorithm. For three hashes out of them this is done for the first time.
翻訳日:2023-07-19 19:26:08 公開日:2023-07-18
# hopfir: 3次元ポーズ推定のためのグループ内関節改良型ホップワイズグラフフォーマ

HopFIR: Hop-wise GraphFormer with Intragroup Joint Refinement for 3D Human Pose Estimation ( http://arxiv.org/abs/2302.14581v2 )

ライセンス: Link先を確認
Kai Zhai, Qiang Nie, Bo Ouyang, Xiang Li and ShanLin Yang(参考訳) 2次元から3次元のポーズリフトは3次元のポーズ推定(HPE)の基礎となる。 グラフ畳み込みネットワーク(gcn)は、本質的にヒト骨格トポロジーのモデル化に適していることが証明されている。 しかし、現在のGCNベースの3D HPE法は、異なる動作パターンの関節の相互作用を考慮せずに、隣人の情報を集約することでノードの特徴を更新する。 運動パターンを学ぶために手足情報をインポートする研究もあるが、運動のバランスを維持するなど関節間の潜伏したシナジーはほとんど調べられていない。 3次元hpe問題に取り組むために,グループ内ジョイントリファインメント(hopfir)を用いたホップワイズグラフフォーマを提案する。 HopFIRは主に、新しいホップワイドグラフフォーマー(HGF)モジュールと、周辺関節改善のための前肢情報を利用するグループ内関節リファインメント(IJR)モジュールで構成されている。 hgfモジュールはジョイントをk$-hop近傍でグループ化し、これらのグループの中でホップワイズトランスフォーマーのような注意機構を利用して潜在的なジョイントシナジーを発見する。 大規模な実験の結果、HopFIRはSOTA法よりも大きなマージンを持つ(Human3.6Mデータセットでは、関節位置誤差の平均は32.67mm)。 また,従来のsoma gcnベースの手法では,semcnやmgcnなどの性能向上効果をそれぞれ8.9%,4.5%向上させ,ホップワイズアテンション機構を効率的に活用できることが実証された。

2D-to-3D human pose lifting is fundamental for 3D human pose estimation (HPE). Graph Convolutional Network (GCN) has been proven inherently suitable to model the human skeletal topology. However, current GCN-based 3D HPE methods update the node features by aggregating their neighbors' information without considering the interaction of joints in different motion patterns. Although some studies import limb information to learn the movement patterns, the latent synergies among joints, such as maintaining balance in the motion are seldom investigated. We propose a hop-wise GraphFormer with intragroup joint refinement (HopFIR) to tackle the 3D HPE problem. The HopFIR mainly consists of a novel Hop-wise GraphFormer(HGF) module and an Intragroup Joint Refinement(IJR) module which leverages the prior limb information for peripheral joints refinement. The HGF module groups the joints by $k$-hop neighbors and utilizes a hop-wise transformer-like attention mechanism among these groups to discover latent joint synergy. Extensive experimental results show that HopFIR outperforms the SOTA methods with a large margin (on the Human3.6M dataset, the mean per joint position error (MPJPE) is 32.67mm). Furthermore, it is also demonstrated that previous SOTA GCN-based methods can benefit from the proposed hop-wise attention mechanism efficiently with significant performance promotion, such as SemGCN and MGCN are improved by 8.9% and 4.5%, respectively.
翻訳日:2023-07-19 19:17:52 公開日:2023-07-18
# 人語関連とグラフ埋め込みに基づくペルシャ語話題の検出

Persian topic detection based on Human Word association and graph embedding ( http://arxiv.org/abs/2302.09775v2 )

ライセンス: Link先を確認
Mehrdad Ranjbar-Khadivi, Shahin Akbarpour, Mohammad-Reza Feizi-Derakhshi, Babak Anari(参考訳) 本稿では,人間の単語連想に基づくソーシャルメディアの話題を検出する枠組みを提案する。 これらのメディアで議論されているトピックの特定は、批判的かつ重要な課題となっている。 この地域での作業のほとんどは英語で行われているが、ペルシア語、特にペルシア語で書かれたマイクロブラッグで行われている。 また、既存の研究は頻繁なパターンやセマンティックな関係を探究することに集中し、言語の構造的手法を無視した。 本稿では,ヒューマンワードアソシエーションの手法であるHWAを用いた話題検出フレームワークを提案する。 この方法は、単語連想に精神能力の模倣という概念を用いる。 この方法はまた、単語がどう関連しているかを示す結合重力を計算する。 このパラメータを使ってグラフを生成することができる。 このグラフを埋め込み、クラスタリング手法を使ってトピックを抽出することができる。 このアプローチはTelegramから収集されたペルシア語のデータセットに適用されている。 提案フレームワークの性能を評価するための実験がいくつか行われている。 実験結果から,本手法は他のトピック検出手法よりも有効であることがわかった。

In this paper, we propose a framework to detect topics in social media based on Human Word Association. Identifying topics discussed in these media has become a critical and significant challenge. Most of the work done in this area is in English, but much has been done in the Persian language, especially microblogs written in Persian. Also, the existing works focused more on exploring frequent patterns or semantic relationships and ignored the structural methods of language. In this paper, a topic detection framework using HWA, a method for Human Word Association, is proposed. This method uses the concept of imitation of mental ability for word association. This method also calculates the Associative Gravity Force that shows how words are related. Using this parameter, a graph can be generated. The topics can be extracted by embedding this graph and using clustering methods. This approach has been applied to a Persian language dataset collected from Telegram. Several experimental studies have been performed to evaluate the proposed framework's performance. Experimental results show that this approach works better than other topic detection methods.
翻訳日:2023-07-19 19:17:22 公開日:2023-07-18
# 確率的最適化と変分不等式に対する高確率境界:非有界分散の場合

High-Probability Bounds for Stochastic Optimization and Variational Inequalities: the Case of Unbounded Variance ( http://arxiv.org/abs/2302.00999v2 )

ライセンス: Link先を確認
Abdurakhmon Sadiev, Marina Danilova, Eduard Gorbunov, Samuel Horv\'ath, Gauthier Gidel, Pavel Dvurechensky, Alexander Gasnikov, Peter Richt\'arik(参考訳) 近年,確率的最適化手法の高確率収束に対する最適化と機械学習コミュニティの関心が高まっている。 この主な理由の1つは、高確率の複雑性境界が観測値よりも正確で研究の少ないことである。 しかし、SOTA高確率非漸近収束結果は、勾配雑音分散の有界性や目的の勾配自体の有界性といった強い仮定の下で導出される。 本稿では,制約の少ない仮定下で高い確率収束結果を持つアルゴリズムを提案する。 特に、勾配/演算ノイズが、次の設定で$\alpha \in (1,2]$の中央$\alpha$-thのモーメントを有界とする仮定の下で、新しい高確率収束結果を得る。 (i)滑らかな非凸/ポリak-ロヤシーヴィチ/凸/強凸/準強凸最小化問題 (II)リプシッツ / スターコヒールシブ, モノトン / 準強いモノトン変分不等式。 これらの結果は、確率最適化で研究されている標準関数クラスに適合しない問題を解くための考慮された方法の使用を正当化する。

During recent years the interest of optimization and machine learning communities in high-probability convergence of stochastic optimization methods has been growing. One of the main reasons for this is that high-probability complexity bounds are more accurate and less studied than in-expectation ones. However, SOTA high-probability non-asymptotic convergence results are derived under strong assumptions such as the boundedness of the gradient noise variance or of the objective's gradient itself. In this paper, we propose several algorithms with high-probability convergence results under less restrictive assumptions. In particular, we derive new high-probability convergence results under the assumption that the gradient/operator noise has bounded central $\alpha$-th moment for $\alpha \in (1,2]$ in the following setups: (i) smooth non-convex / Polyak-Lojasiewicz / convex / strongly convex / quasi-strongly convex minimization problems, (ii) Lipschitz / star-cocoercive and monotone / quasi-strongly monotone variational inequalities. These results justify the usage of the considered methods for solving problems that do not fit standard functional classes studied in stochastic optimization.
翻訳日:2023-07-19 19:17:10 公開日:2023-07-18
# 弱い値、カークウッド--ディラック準確率分布、状態スペクトルを測定する量子回路

Quantum circuits measuring weak values, Kirkwood--Dirac quasiprobability distributions, and state spectra ( http://arxiv.org/abs/2302.00705v2 )

ライセンス: Link先を確認
Rafael Wagner, Zohar Schwartzman-Nowik, Ismael L. Paiva, Amit Te'eni, Antonio Ruiz-Molero, Rui Soares Barbosa, Eliahu Cohen, Ernesto F. Galv\~ao(参考訳) 弱値とカークウッド-ディラック(KD)準確率分布は、量子論の基本問題と量子計量学の利点の両方に独立に関係している。 本稿では,弱い値,KD分布,密度行列のスペクトルを測定するための簡単な量子回路を提案する。 これは、バーグマン不変量の関数である量子状態のユニタリ不変な関係性を測定することによって達成される。 また,後選択パラメータ推定におけるオフ・オブ・オーダードコリエータ(otocs)や量子フィッシャー情報など,kd分布の様々な関数を実験的に実装することを可能にする。 アップショットは、これらすべてのタスクにおける非古典性の統合ビューである。 特に、バーグマン不変量の負性や虚性が集合コヒーレンスとどのように関係するかについて議論する。

Weak values and Kirkwood--Dirac (KD) quasiprobability distributions have been independently associated with both foundational issues in quantum theory and advantages in quantum metrology. We propose simple quantum circuits to measure weak values, KD distributions, and spectra of density matrices without the need for post-selection. This is achieved by measuring unitary-invariant, relational properties of quantum states, which are functions of Bargmann invariants, the concept that underpins our unified perspective. Our circuits also enable experimental implementation of various functions of KD distributions, such as out-of-time-ordered correlators (OTOCs) and the quantum Fisher information in post-selected parameter estimation, among others. An upshot is a unified view of nonclassicality in all those tasks. In particular, we discuss how negativity and imaginarity of Bargmann invariants relate to set coherence.
翻訳日:2023-07-19 19:16:54 公開日:2023-07-18
# ロバストなオンラインアクティブラーニング

Robust online active learning ( http://arxiv.org/abs/2302.00422v6 )

ライセンス: Link先を確認
Davide Cacciarelli, Murat Kulahci, John S{\o}lve Tyssedal(参考訳) 多くの産業アプリケーションでは、人間の専門家の介入や高価なテスト機器の使用を必要とするため、ラベル付き観測を得ることは容易ではない。 このような状況下では、モデルに合わせる際に最も有用なデータポイントを提案する上で、アクティブな学習は極めて有益である。 モデル開発に必要な観測回数を減らすことで、トレーニングに必要な計算負担とラベリングに関連する運用コストが軽減される。 特にオンラインアクティブラーニングは、データポイントに対するラベルの取得に関する決定が極めて短い時間枠内で行われなければならない、大量生産プロセスにおいて有用である。 しかし,近年のオンラインアクティブラーニング戦略の展開にも拘わらず,アウトレーヤの存在下でのこれらの手法の行動は十分に検討されていない。 本研究では,汚染データストリームにおけるオンラインアクティブ線形回帰の性能について検討する。 我々の研究は、現在利用可能なクエリ戦略が外れやすいことを示し、トレーニングセットに含めると、最終的にモデルの予測性能が低下することを示している。 この問題に対処するため,条件付きD-最適アルゴリズムの探索領域を限定し,ロバストな推定器を用いた解を提案する。 我々の手法は、入力空間の見えない領域を探索することと、外れ値から保護することのバランスをとる。 数値シミュレーションにより,提案手法は,アウトレーヤの存在下でのオンライン能動学習の性能向上に有効であることを示す。

In many industrial applications, obtaining labeled observations is not straightforward as it often requires the intervention of human experts or the use of expensive testing equipment. In these circumstances, active learning can be highly beneficial in suggesting the most informative data points to be used when fitting a model. Reducing the number of observations needed for model development alleviates both the computational burden required for training and the operational expenses related to labeling. Online active learning, in particular, is useful in high-volume production processes where the decision about the acquisition of the label for a data point needs to be taken within an extremely short time frame. However, despite the recent efforts to develop online active learning strategies, the behavior of these methods in the presence of outliers has not been thoroughly examined. In this work, we investigate the performance of online active linear regression in contaminated data streams. Our study shows that the currently available query strategies are prone to sample outliers, whose inclusion in the training set eventually degrades the predictive performance of the models. To address this issue, we propose a solution that bounds the search area of a conditional D-optimal algorithm and uses a robust estimator. Our approach strikes a balance between exploring unseen regions of the input space and protecting against outliers. Through numerical simulations, we show that the proposed method is effective in improving the performance of online active learning in the presence of outliers, thus expanding the potential applications of this powerful tool.
翻訳日:2023-07-19 19:16:37 公開日:2023-07-18
# 深層強化学習を用いた実行ベースコード生成

Execution-based Code Generation using Deep Reinforcement Learning ( http://arxiv.org/abs/2301.13816v3 )

ライセンス: Link先を確認
Parshin Shojaee, Aneesh Jain, Sindhu Tipirneni and Chandan K. Reddy(参考訳) ソフトウェア工学プロセスを自動化する手段として、大規模コードコーパスで事前訓練されたプログラミング言語(PL)モデルの利用は、コード補完、コード翻訳、プログラム合成など、様々なコード生成タスクの合理化において大きな可能性を証明している。 しかし、現在のアプローチは、主にテキスト生成から借用した教師付き微調整目標に依存しており、コードのユニークなシーケンスレベルの特性を無視している。 そこで本研究では,プリトレーニングされたplモデルと,広く使用されている深層強化学習手法であるppo(proximal policy optimization)を組み合わせた新しいコード生成フレームワークであるppocoderを提案する。 PPOCoderは、コード実行と構造アライメントからの非微分可能なフィードバックを利用することで、外部コード固有の知識をモデル最適化プロセスにシームレスに統合する。 PPOCoderはタスクに依存しない、モデルに依存しないフレームワークで、さまざまなコード生成タスクやPLで使用できます。 3つのコード生成タスクに関する大規模な実験は、SOTA法と比較して提案手法の有効性を示し、異なるPL間でのコンパイル成功率と機能的正当性を著しく改善した。

The utilization of programming language (PL) models, pre-trained on large-scale code corpora, as a means of automating software engineering processes has demonstrated considerable potential in streamlining various code generation tasks such as code completion, code translation, and program synthesis. However, current approaches mainly rely on supervised fine-tuning objectives borrowed from text generation, neglecting unique sequence-level characteristics of code, including but not limited to compilability as well as syntactic and functional correctness. To address this limitation, we propose PPOCoder, a new framework for code generation that synergistically combines pre-trained PL models with Proximal Policy Optimization (PPO) which is a widely used deep reinforcement learning technique. By utilizing non-differentiable feedback from code execution and structure alignment, PPOCoder seamlessly integrates external code-specific knowledge into the model optimization process. It's important to note that PPOCoder is a task-agnostic and model-agnostic framework that can be used across different code generation tasks and PLs. Extensive experiments on three code generation tasks demonstrate the effectiveness of our proposed approach compared to SOTA methods, achieving significant improvements in compilation success rates and functional correctness across different PLs.
翻訳日:2023-07-19 19:15:52 公開日:2023-07-18
# ソーシャルネットワークにおける話題検出のためのヒューマンワードアソシエーションに基づくモデル

A Human Word Association based model for topic detection in social networks ( http://arxiv.org/abs/2301.13066v2 )

ライセンス: Link先を確認
Mehrdad Ranjbar Khadivi, Shahin Akbarpour, Mohammad-Reza Feizi-Derakhshi, Babak Anari(参考訳) ソーシャルネットワークの普及に伴い、これらのネットワークで議論されている話題の検出が大きな課題となっている。 現在の研究は主に頻繁なパターンマイニングや意味的関係に基づいており、言語構造は考慮されていない。 言語構造的手法の意味は、単語と人間の理解方法の関係を発見することである。 そこで,本稿では,「心的能力の模倣」の概念を用いて,ソーシャルネットワークにおける話題検出フレームワークを提案する。 この枠組みはHuman Word Association法に基づいている。 この目的のために特別抽出アルゴリズムも設計されている。 FA-CUPデータセットを用いて,本手法の性能評価を行った。 これはトピック検出の分野におけるベンチマークデータセットである。 提案手法は,Topic-recallとキーワードF1測度に基づいて,他の手法と比較して改善されている。 また、トピック検出の分野における以前の研究のほとんどは英語に限られており、ペルシア語、特にこの言語で書かれたマイクロブログは低リソース言語と考えられている。 そのため、farsi言語におけるテレグラム投稿のデータセットが収集されている。 このデータセットに提案手法を適用することで,本手法は他のトピック検出手法よりも有効であることを示す。

With the widespread use of social networks, detecting the topics discussed in these networks has become a significant challenge. The current works are mainly based on frequent pattern mining or semantic relations, and the language structure is not considered. The meaning of language structural methods is to discover the relationship between words and how humans understand them. Therefore, this paper uses the Concept of the Imitation of the Mental Ability of Word Association to propose a topic detection framework in social networks. This framework is based on the Human Word Association method. A special extraction algorithm has also been designed for this purpose. The performance of this method is evaluated on the FA-CUP dataset. It is a benchmark dataset in the field of topic detection. The results show that the proposed method is a good improvement compared to other methods, based on the Topic-recall and the keyword F1 measure. Also, most of the previous works in the field of topic detection are limited to the English language, and the Persian language, especially microblogs written in this language, is considered a low-resource language. Therefore, a data set of Telegram posts in the Farsi language has been collected. Applying the proposed method to this dataset also shows that this method works better than other topic detection methods.
翻訳日:2023-07-19 19:15:30 公開日:2023-07-18
# 量子チャネルの時間表現のヒット:既約の場合とユニタリウォークへの応用を超えて

Hitting time expressions for quantum channels: beyond the irreducible case and applications to unitary walks ( http://arxiv.org/abs/2301.07003v4 )

ライセンス: Link先を確認
C. F. Lardizabal and L. F. L. Pereira(参考訳) この研究では、有限次元ヒルベルト空間に作用する量子チャネルに関連する一般化された逆数を用いて、粒子が選択されたゴール部分空間に到達する平均ヒット時間を計算することができる。 この研究で研究されている問題は、グラフ、特に量子マルコフ連鎖の量子力学に関する最近の結果に動機づけられている。 我々は,一般化された逆数と打点時間がどのように得られるかを記述することに集中する。 a) 既約性の概念を弱めることができるので、既約の例も考慮できる。 b) 一般正のトレース保存地図に対する任意の到着部分空間を考えることができる。 可算写像の自然な例はユニタリ量子ウォークによって与えられる。 また、より特定の逆元、すなわち群逆元が我々の文脈でどのように現れるかを説明し、独立した興味を持つ行列代数的構成と関係付ける。

In this work we make use of generalized inverses associated with quantum channels acting on finite-dimensional Hilbert spaces, so that one may calculate the mean hitting time for a particle to reach a chosen goal subspace. The questions studied in this work are motivated by recent results on quantum dynamics on graphs, most particularly quantum Markov chains. We focus on describing how generalized inverses and hitting times can be obtained, with the main novelties of this work with respect to previous ones being that a) we are able to weaken the notion of irreducibility, so that reducible examples can be considered as well, and b) one may consider arbitrary arrival subspaces for general positive, trace preserving maps. Natural examples of reducible maps are given by unitary quantum walks. We also take the opportunity to explain how a more specific inverse, namely the group inverse, appears in our context, in connection with matrix algebraic constructions which may be of independent interest.
翻訳日:2023-07-19 19:15:12 公開日:2023-07-18
# 非分離ハミルトン型平均場ゲームのためのディープラーニング

Deep Learning for Mean Field Games with non-separable Hamiltonians ( http://arxiv.org/abs/2301.02877v2 )

ライセンス: Link先を確認
Mouhcine Assouli and Badr Missaoui(参考訳) 本稿では,高次元確率平均場ゲーム (MFG) の解法として,Deep Galerkin Methods (DGM) に基づく新しい手法を提案する。 本研究では,2つのニューラルネットワークを用いて,mfgシステムの未知解と前方逆向き条件を近似する。 提案手法は,少数のイテレーションであっても効率が良く,最大300次元を単一層で処理できるため,他の手法よりも高速である。 対照的に、GAN(Generative Adversarial Networks)に基づく手法は、非分離ハミルトニアンのMFGを解くことはできない。 提案手法は,ニュートン反復法を用いて決定論的にのみ解いたトラヒックフロー問題に適用することにより,本手法の有効性を実証する。 本手法の結果を分析解と従来の手法と比較し,その効率を示す。 また,普遍近似定理を用いて,単一の隠れ層によるニューラルネットワーク近似の収束を証明した。

This paper introduces a new method based on Deep Galerkin Methods (DGMs) for solving high-dimensional stochastic Mean Field Games (MFGs). We achieve this by using two neural networks to approximate the unknown solutions of the MFG system and forward-backward conditions. Our method is efficient, even with a small number of iterations, and is capable of handling up to 300 dimensions with a single layer, which makes it faster than other approaches. In contrast, methods based on Generative Adversarial Networks (GANs) cannot solve MFGs with non-separable Hamiltonians. We demonstrate the effectiveness of our approach by applying it to a traffic flow problem, which was previously solved using the Newton iteration method only in the deterministic case. We compare the results of our method to analytical solutions and previous approaches, showing its efficiency. We also prove the convergence of our neural network approximation with a single hidden layer using the universal approximation theorem.
翻訳日:2023-07-19 19:14:56 公開日:2023-07-18
# faket:neural style transferでcryo-electrontomogramをシミュレートする

FakET: Simulating Cryo-Electron Tomograms with Neural Style Transfer ( http://arxiv.org/abs/2304.02011v2 )

ライセンス: Link先を確認
Pavol Harar, Lukas Herrmann, Philipp Grohs, David Haselbach(参考訳) 粒子の局在と分類は、計算顕微鏡における2つの基本的な問題である。 近年,これらの課題に対してディープラーニングに基づくアプローチが導入され,大きな成功を収めている。 これらの教師付き学習法の重要な欠点は、透過電子顕微鏡の物理をシミュレートする複雑な数値フォワードモデルとともに、粒子モデルから生成される大規模なトレーニングデータセットの必要性である。 このようなフォワードモデルのコンピュータ実装は計算上極めて必要であり、適用範囲を制限している。 本稿では, 付加雑音とニューラルスタイル転送技術に基づく, 電子顕微鏡のフォワード演算子をシミュレーションする手法を提案する。 提案手法は,既存の最先端アーキテクチャの1つを用いて,その性能をベンチマークと同等に評価する。 従来の手法とは対照的に,従来の透過型電子顕微鏡検出器のサイズに対して33倍のメモリを消費しながら,750倍の速度でデータ生成プロセスを加速する手法である。 GPUアクセラレーションと並列処理を利用する。 任意の透過型電子顕微鏡からの参照データに従って合成トレーニングデータセットを適応させるために使用できる。 ソースコードはhttps://gitlab.com/deepet/faket.comで入手できる。

Particle localization and -classification constitute two of the most fundamental problems in computational microscopy. In recent years, deep learning based approaches have been introduced for these tasks with great success. A key shortcoming of these supervised learning methods is their need for large training data sets, typically generated from particle models in conjunction with complex numerical forward models simulating the physics of transmission electron microscopes. Computer implementations of such forward models are computationally extremely demanding and limit the scope of their applicability. In this paper we propose a method for simulating the forward operator of an electron microscope based on additive noise and Neural Style Transfer techniques. We evaluate the method on localization and classification tasks using one of the established state-of-the-art architectures showing performance on par with the benchmark. In contrast to previous approaches, our method accelerates the data generation process by a factor of 750 while using 33 times less memory and scales well to typical transmission electron microscope detector sizes. It utilizes GPU acceleration and parallel processing. It can be used to adapt a synthetic training data set according to reference data from any transmission electron microscope. The source code is available at https://gitlab.com/deepet/faket.
翻訳日:2023-07-19 19:09:15 公開日:2023-07-18
# 生体認証における非目標近傍衝突攻撃

Untargeted Near-collision Attacks in Biometric Recognition ( http://arxiv.org/abs/2304.01580v3 )

ライセンス: Link先を確認
Axel Durbet and Paul-Marie Grollemund and Kevin Thiry-Atighehchi(参考訳) 生体認証システムは、識別または検証の2つの異なるモードで動作する。 第1のモードでは、システムは、マッチするすべてのユーザの登録テンプレートを検索することで、個人を認識する。 第2モードでは、新たに提供されたテンプレートと登録されたテンプレートを比較して、ユーザのアイデンティティクレームを検証する。 バイオメトリック変換方式は通常、暗号方式によりよりよく扱われるバイナリテンプレートを生成し、比較は2つのバイオメトリックテンプレート間の類似性に関する情報をリークする距離に基づいて行われる。 認識しきい値調整による偽の一致率と偽の一致率の両方が認識精度を規定し、システムのセキュリティを規定している。 私たちの知る限りでは、情報の漏えいを最小限に抑え、すなわち閾値との比較による二分結果の下でセキュリティを形式的に扱う作品はほとんどない。 本稿では,バイナリテンプレートのセキュリティ強度を定量化するために,確率モデルに頼る。 テンプレートサイズ,データベースサイズ,しきい値がほぼ衝突する確率に及ぼす影響について検討した。 本研究は, 生体認証システムに対する非標的攻撃を数回強調する。 興味深いことに、これらの攻撃はオンラインとオフラインの両方で、識別モードと検証モードの両方で起動できる。 汎用攻撃によるパラメータの選択について検討する。

A biometric recognition system can operate in two distinct modes, identification or verification. In the first mode, the system recognizes an individual by searching the enrolled templates of all the users for a match. In the second mode, the system validates a user's identity claim by comparing the fresh provided template with the enrolled template. The biometric transformation schemes usually produce binary templates that are better handled by cryptographic schemes, and the comparison is based on a distance that leaks information about the similarities between two biometric templates. Both the experimentally determined false match rate and false non-match rate through recognition threshold adjustment define the recognition accuracy, and hence the security of the system. To the best of our knowledge, few works provide a formal treatment of the security under minimum leakage of information, i.e., the binary outcome of a comparison with a threshold. In this paper, we rely on probabilistic modelling to quantify the security strength of binary templates. We investigate the influence of template size, database size and threshold on the probability of having a near-collision. We highlight several untargeted attacks on biometric systems considering naive and adaptive adversaries. Interestingly, these attacks can be launched both online and offline and, both in the identification mode and in the verification mode. We discuss the choice of parameters through the generic presented attacks.
翻訳日:2023-07-19 19:08:58 公開日:2023-07-18
# Unify, Align and Refine:マルチレベルセマンティックアライメントによる放射線診断レポート生成

Unify, Align and Refine: Multi-Level Semantic Alignment for Radiology Report Generation ( http://arxiv.org/abs/2303.15932v5 )

ライセンス: Link先を確認
Yaowei Li and Bang Yang and Xuxin Cheng and Zhihong Zhu and Hongxiang Li and Yuexian Zou(参考訳) 自動放射線学レポート生成は, 放射線技師の作業負荷軽減の実践的価値から, 膨大な研究関心を集めている。 しかし、画像(例えば、Chest X-ray)とその関連レポートと画像パッチとキーワードの局所的なアライメントのグローバルな対応を同時に確立することは困難である。 この目的のために,多段階のクロスモーダルアライメントを学習し,LSU(Latent Space Unifier),CRA(Cross-modal Representation Aligner),TIR(Text-to-Image Refiner)の3つの新しいモジュールを導入するためのUnify,Align, then Refine (UAR)アプローチを提案する。 特に、LSUはマルチモーダルデータを離散トークンに統一し、共有ネットワークを用いてモダリティ間の共通知識を学習する。 モダリティ非依存 cra は、まず正規直交基底と双対ゲート機構のセットを通して識別的特徴を学習し、次に三重項コントラスト損失の下で視覚的およびテキスト的表現をグローバルに調整する。 TIRは、学習可能なマスクでテキストと画像の注意を校正することでトークンレベルの局所アライメントを高める。 さらに,2段階の学習手順をデザインし,uarが様々なレベルにおけるクロスモーダルアライメントを徐々に把握できるようにし,放射線科医のワークフローを模倣した。 IU-XrayおよびMIMIC-CXRベンチマークデータセットの大規模な実験と解析により、UARの様々な最先端手法に対する優位性を示す。

Automatic radiology report generation has attracted enormous research interest due to its practical value in reducing the workload of radiologists. However, simultaneously establishing global correspondences between the image (e.g., Chest X-ray) and its related report and local alignments between image patches and keywords remains challenging. To this end, we propose an Unify, Align and then Refine (UAR) approach to learn multi-level cross-modal alignments and introduce three novel modules: Latent Space Unifier (LSU), Cross-modal Representation Aligner (CRA) and Text-to-Image Refiner (TIR). Specifically, LSU unifies multimodal data into discrete tokens, making it flexible to learn common knowledge among modalities with a shared network. The modality-agnostic CRA learns discriminative features via a set of orthonormal basis and a dual-gate mechanism first and then globally aligns visual and textual representations under a triplet contrastive loss. TIR boosts token-level local alignment via calibrating text-to-image attention with a learnable mask. Additionally, we design a two-stage training procedure to make UAR gradually grasp cross-modal alignments at different levels, which imitates radiologists' workflow: writing sentence by sentence first and then checking word by word. Extensive experiments and analyses on IU-Xray and MIMIC-CXR benchmark datasets demonstrate the superiority of our UAR against varied state-of-the-art methods.
翻訳日:2023-07-19 19:08:36 公開日:2023-07-18
# 多変量臨床時系列データによるtbi生理状態の同定

Identifying TBI Physiological States by Clustering Multivariate Clinical Time-Series Data ( http://arxiv.org/abs/2303.13024v3 )

ライセンス: Link先を確認
Hamid Ghaderi, Brandon Foreman, Amin Nayebi, Sindhu Tipirneni, Chandan K. Reddy, Vignesh Subbian(参考訳) 外傷性脳損傷(tbi)、呼吸不全、心不全などの急性疾患に対する適切な治療を行うには、多変量時系列データから臨床関連生理状態を決定することが不可欠である。 非時間的クラスタリングやデータ計算や集約技術を利用することで、貴重な情報やバイアス分析が失われる可能性がある。 本研究では,イミューテーションやアグリゲーションを回避してデータの整合性を維持する革新的な自己超越型アプローチであるSLAC-Timeアルゴリズムを適用し,急性患者の状態をより有用な表現を提供する。 大規模な研究データセットにSLAC-Timeを用いてデータをクラスタリングすることにより,3つの異なるTBI生理状態とその特徴プロファイルを同定した。 種々のクラスタリング評価指標を用いて,臨床領域の専門家からの入力を取り入れ,同定された生理状態の検証と解釈を行った。 さらに,臨床経過や介入が患者の状態や状態遷移にどのように影響するかも明らかにした。

Determining clinically relevant physiological states from multivariate time series data with missing values is essential for providing appropriate treatment for acute conditions such as Traumatic Brain Injury (TBI), respiratory failure, and heart failure. Utilizing non-temporal clustering or data imputation and aggregation techniques may lead to loss of valuable information and biased analyses. In our study, we apply the SLAC-Time algorithm, an innovative self-supervision-based approach that maintains data integrity by avoiding imputation or aggregation, offering a more useful representation of acute patient states. By using SLAC-Time to cluster data in a large research dataset, we identified three distinct TBI physiological states and their specific feature profiles. We employed various clustering evaluation metrics and incorporated input from a clinical domain expert to validate and interpret the identified physiological states. Further, we discovered how specific clinical events and interventions can influence patient states and state transitions.
翻訳日:2023-07-19 19:08:06 公開日:2023-07-18
# 第1と第2の近接場相互作用を持つ2フェルミオン格子ハミルトニアン

Two-fermion lattice Hamiltonian with first and second nearest-neighboring-site interactions ( http://arxiv.org/abs/2303.10491v2 )

ライセンス: Link先を確認
Saidakhmat N. Lakaev, Alexander K. Motovilov, Saidakbar Kh. Abdukhakimov(参考訳) シュレーディンガー作用素 H_{\lambda\mu}(K) について、K \in T_2 を粒子対の固定準モーメントとし、2次元格子 Z_2 上の2つの同一フェルミオンの系と、等級 \lambda \in R と \mu \in R の隣り合う第1および第2の相互作用をそれぞれ関連付ける。 我々は、(\lambda,\mu)-平面の分割を確立し、それぞれの連結成分において、シュレーディンガー作用素 H_{\lambda\mu}(0) が固有値の定数(固定値)を持つようにし、これは本質スペクトルの下部と上部に位置する。 さらに、各連結成分におけるH_{\lambda\mu}(K) の孤立固有値の数に対して、鋭い下界を確立する。

We study the Schroedinger operators H_{\lambda\mu}(K), with K \in T_2 the fixed quasi-momentum of the particles pair, associated with a system of two identical fermions on the two-dimensional lattice Z_2 with first and second nearest-neighboring-site interactions of magnitudes \lambda \in R and \mu \in R, respectively. We establish a partition of the (\lambda,\mu)-plane so that in each its connected component, the Schroedinger operator H_{\lambda\mu}(0) has a definite (fixed) number of eigenvalues, which are situated below the bottom of the essential spectrum and above its top. Moreover, we establish a sharp lower bound for the number of isolated eigenvalues of H_{\lambda\mu}(K) in each connected component.
翻訳日:2023-07-19 19:07:48 公開日:2023-07-18
# Follow-the-regularized-Leadアルゴリズムによる線形帯域の3次元最適解析

Best-of-three-worlds Analysis for Linear Bandits with Follow-the-regularized-leader Algorithm ( http://arxiv.org/abs/2303.06825v2 )

ライセンス: Link先を確認
Fang Kong, Canzhe Zhao, Shuai Li(参考訳) 線形バンディット問題は、確率的および対角的設定の両方において長年研究されてきた。 損失タイプを知らずに環境を最適化できるアルゴリズムを設計することは、多くの関心を集めている。 \citet{LeeLWZ021} は、損失タイプを積極的に検出し、特定の設定のために特別に設計された異なるアルゴリズムを切り替えるアルゴリズムを提案する。 しかし、このようなアプローチはあらゆる環境でうまく機能するために精巧な設計を必要とする。 FTRL(Follow-the-regularized-leader)は、異なる環境に適応可能な人気アルゴリズムの一種である。 このアルゴリズムは単純な設計であり, 従来のマルチアームバンディット問題において, 検出スウィッチ型と比較して, 後悔境界が最適であることが示されている。 線形バンディットのためのFTRL型アルゴリズムの設計は、長い間開かれてきた重要な問題である。 本稿では, 負エントロピー正規化器を用いたFTRLアルゴリズムが線形バンディット問題に対して最適3次元結果が得られることを示す。 我々の後悔の限界は、以前の検出スイッチ型アルゴリズムと同じかほぼ同じ順序で達成されるが、アルゴリズム設計はずっと単純である。

The linear bandit problem has been studied for many years in both stochastic and adversarial settings. Designing an algorithm that can optimize the environment without knowing the loss type attracts lots of interest. \citet{LeeLWZ021} propose an algorithm that actively detects the loss type and then switches between different algorithms specially designed for specific settings. However, such an approach requires meticulous designs to perform well in all environments. Follow-the-regularized-leader (FTRL) is another type of popular algorithm that can adapt to different environments. This algorithm is of simple design and the regret bounds are shown to be optimal in traditional multi-armed bandit problems compared with the detect-switch type. Designing an FTRL-type algorithm for linear bandits is an important question that has been open for a long time. In this paper, we prove that the FTRL algorithm with a negative entropy regularizer can achieve the best-of-three-world results for the linear bandit problem. Our regret bounds achieve the same or nearly the same order as the previous detect-switch type algorithm but with a much simpler algorithmic design.
翻訳日:2023-07-19 19:07:28 公開日:2023-07-18
# 機械学習によるハンケル動的モード分解

Machine Learning Enhanced Hankel Dynamic-Mode Decomposition ( http://arxiv.org/abs/2303.06289v3 )

ライセンス: Link先を確認
Christopher W. Curtis, D. Jay Alford-Lago, Erik Bollt, Andrew Tuma(参考訳) 時系列の取得はより簡単になったが、時系列からの動的モデルの開発は依然として困難な問題領域であり、進化している。 ここ数年、この問題に対処するために、動的モード分解(DMD)と呼ばれる機械学習ツールが統合されてきた。 この一般的なアプローチは、正確なモデル開発にとって特に有望な方法であることが示されている。 この先行研究に基づいて,Takens' Embedding Theoremの基本的な洞察を生かした深層学習MDDベースの手法を開発し,高次元およびカオス力学をよりよく近似した適応学習スキームを構築する。 我々はこの手法をDeep Learning Hankel DMD (DLHDMD)と呼ぶ。 同様に、我々の手法は、トレーニングが成功した後、ダイナミックスにおける次元間の相互情報を著しく変化させる傾向にあるマッピングをどのように学習するかを考察する。 これはdmd全体を拡張するための重要な機能であり、時系列分析とモデル生成のための他のディープラーニング手法の開発に、さらなる洞察を提供するのに役立つだろう。

While the acquisition of time series has become more straightforward, developing dynamical models from time series is still a challenging and evolving problem domain. Within the last several years, to address this problem, there has been a merging of machine learning tools with what is called the dynamic mode decomposition (DMD). This general approach has been shown to be an especially promising avenue for accurate model development. Building on this prior body of work, we develop a deep learning DMD based method which makes use of the fundamental insight of Takens' Embedding Theorem to build an adaptive learning scheme that better approximates higher dimensional and chaotic dynamics. We call this method the Deep Learning Hankel DMD (DLHDMD). We likewise explore how our method learns mappings which tend, after successful training, to significantly change the mutual information between dimensions in the dynamics. This appears to be a key feature in enhancing the DMD overall, and it should help provide further insight for developing other deep learning methods for time series analysis and model generation.
翻訳日:2023-07-19 19:07:09 公開日:2023-07-18
# slca:事前学習モデルを用いた連続学習のための分類器アライメント付き遅い学習者

SLCA: Slow Learner with Classifier Alignment for Continual Learning on a Pre-trained Model ( http://arxiv.org/abs/2303.05118v2 )

ライセンス: Link先を確認
Gengwei Zhang, Liyuan Wang, Guoliang Kang, Ling Chen, Yunchao Wei(参考訳) 連続学習の目的は、逐次到達データ学習における認識モデルの性能を向上させることである。 既存の作品の多くはスクラッチから学ぶという前提で構築されているが、事前学習の利点を取り入れることに努力が注がれている。 しかし、その一般化性を維持しつつ、各漸進的なタスクに対する事前学習された知識を適応的に活用する方法は、未解決の問題である。 本研究では,事前学習モデル (CLPM) を用いた継続学習の広範な解析を行い,その課題を進歩的オーバーフィッティング問題に帰着させる。 学習率を選択的に減少させることで、この問題を表現層でほぼ解決することができることを観察し、クラスワイズ分布をモデル化し、ポストホックな方法で分類層を整列させることにより、分類層をさらに改善するSlow Learner with Classifier Alignment (SLCA) という、シンプルだが極めて効果的なアプローチを提案する。 さまざまなシナリオにおいて、当社の提案はCLPMの大幅な改善(例えば、Split CIFAR-100、Split ImageNet-R、Split CUB-200、Split Cars-196で最大49.76%、50.05%、44.69%、40.16%)を提供し、その結果、最先端のアプローチを大きなマージンで上回っている。 このような強いベースラインに基づいて、重要な要因と有望な方向性を詳細に分析し、その後の研究を促進する。

The goal of continual learning is to improve the performance of recognition models in learning sequentially arrived data. Although most existing works are established on the premise of learning from scratch, growing efforts have been devoted to incorporating the benefits of pre-training. However, how to adaptively exploit the pre-trained knowledge for each incremental task while maintaining its generalizability remains an open question. In this work, we present an extensive analysis for continual learning on a pre-trained model (CLPM), and attribute the key challenge to a progressive overfitting problem. Observing that selectively reducing the learning rate can almost resolve this issue in the representation layer, we propose a simple but extremely effective approach named Slow Learner with Classifier Alignment (SLCA), which further improves the classification layer by modeling the class-wise distributions and aligning the classification layers in a post-hoc fashion. Across a variety of scenarios, our proposal provides substantial improvements for CLPM (e.g., up to 49.76%, 50.05%, 44.69% and 40.16% on Split CIFAR-100, Split ImageNet-R, Split CUB-200 and Split Cars-196, respectively), and thus outperforms state-of-the-art approaches by a large margin. Based on such a strong baseline, critical factors and promising directions are analyzed in-depth to facilitate subsequent research.
翻訳日:2023-07-19 19:06:51 公開日:2023-07-18
# 空間情報型キーポイントのカスケードキャプチャによる変圧器ベース画像マッチングの改善

Improving Transformer-based Image Matching by Cascaded Capturing Spatially Informative Keypoints ( http://arxiv.org/abs/2303.02885v2 )

ライセンス: Link先を確認
Chenjie Cao, Yanwei Fu(参考訳) 堅牢なローカルイメージ機能マッチングの学習は、ここ数年で広く研究されてきた、基本的な低レベルのビジョンタスクである。 近年,変圧器をベースとしたセンサレス局所特徴整形器が有望な結果を示し,CNN(Creative Convolutional Neural Network)をベースとした手法よりも優れていた。 しかし,トランスフォーマによる相関は,注意学習のコストがかかるため,ソースビューの粗いパッチの中心に空間的に制限されている。 本稿では,この問題を再考し,特に低解像度画像に対して,このような定式化が劣化すると推定する。 そこで本研究では,高次特徴相関を効率的に学習し,相対的なポーズ推定のためにより信頼度の高いマッチングペアを選択するための,変圧器を用いたカスケード特徴マッチングモデルcasmtrを提案する。 新しい検出器を再訓練する代わりに、単純で効果的な非最大抑圧(NMS)後処理を用いて、信頼性マップを通じてキーポイントをフィルタリングし、マッチング精度を大幅に改善する。 CasMTRは室内および屋外のポーズ推定および視覚的位置推定において最先端の性能を達成する。 さらに, 徹底的なアブレーションは, 提案する成分や手法の有効性を示す。

Learning robust local image feature matching is a fundamental low-level vision task, which has been widely explored in the past few years. Recently, detector-free local feature matchers based on transformers have shown promising results, which largely outperform pure Convolutional Neural Network (CNN) based ones. But correlations produced by transformer-based methods are spatially limited to the center of source views' coarse patches, because of the costly attention learning. In this work, we rethink this issue and find that such matching formulation degrades pose estimation, especially for low-resolution images. So we propose a transformer-based cascade matching model -- Cascade feature Matching TRansformer (CasMTR), to efficiently learn dense feature correlations, which allows us to choose more reliable matching pairs for the relative pose estimation. Instead of re-training a new detector, we use a simple yet effective Non-Maximum Suppression (NMS) post-process to filter keypoints through the confidence map, and largely improve the matching precision. CasMTR achieves state-of-the-art performance in indoor and outdoor pose estimation as well as visual localization. Moreover, thorough ablations show the efficacy of the proposed components and techniques.
翻訳日:2023-07-19 19:06:23 公開日:2023-07-18
# 不確実性を考慮した因果モデルによる画像ベース精密医療の改善

Improving Image-Based Precision Medicine with Uncertainty-Aware Causal Models ( http://arxiv.org/abs/2305.03829v3 )

ライセンス: Link先を確認
Joshua Durso-Finley, Jean-Pierre Falet, Raghav Mehta, Douglas L. Arnold, Nick Pawlowski, Tal Arbel(参考訳) 画像に基づく精密医療は、個人の独自の画像特徴に基づいて治療決定をパーソナライズし、臨床結果を改善することを目的としている。 治療レコメンデーションの一部として不確実性推定を統合する機械学習フレームワークは、より安全で信頼性が高い。 しかし,不確実性推定手法や検証基準を精度医学に適用する作業はほとんど行われていない。 本稿では,ベイズ深層学習を用いて,いくつかの治療における実結果と偽結果の後方分布を推定する。 これにより、各治療オプションに対する不確実性や、2つの治療法間の個々の治療効果(ite)の推定が可能になる。 このモデルを用いて,多発性硬化症患者のmr脳画像の大規模多施設データセットにおけるt2病変数を予測し,ランダム化比較試験中に複数の治療を行った。 我々は,不確実性推定と事実誤差の相関性を評価し,実測結果の欠如を踏まえて,ITT予測の不確実性がITT誤差の境界とどのように関係しているかを示す。 最後に、不確実性に関する知識が、患者個人および臨床試験結果を改善するために臨床意思決定をどう変えるかを示す。

Image-based precision medicine aims to personalize treatment decisions based on an individual's unique imaging features so as to improve their clinical outcome. Machine learning frameworks that integrate uncertainty estimation as part of their treatment recommendations would be safer and more reliable. However, little work has been done in adapting uncertainty estimation techniques and validation metrics for precision medicine. In this paper, we use Bayesian deep learning for estimating the posterior distribution over factual and counterfactual outcomes on several treatments. This allows for estimating the uncertainty for each treatment option and for the individual treatment effects (ITE) between any two treatments. We train and evaluate this model to predict future new and enlarging T2 lesion counts on a large, multi-center dataset of MR brain images of patients with multiple sclerosis, exposed to several treatments during randomized controlled trials. We evaluate the correlation of the uncertainty estimate with the factual error, and, given the lack of ground truth counterfactual outcomes, demonstrate how uncertainty for the ITE prediction relates to bounds on the ITE error. Lastly, we demonstrate how knowledge of uncertainty could modify clinical decision-making to improve individual patient and clinical trial outcomes.
翻訳日:2023-07-19 18:58:13 公開日:2023-07-18
# インプシット生成モデルのためのスコア差流

The Score-Difference Flow for Implicit Generative Modeling ( http://arxiv.org/abs/2304.12906v2 )

ライセンス: Link先を確認
Romann M. Weber(参考訳) 暗黙的生成モデリング(igm)は、ターゲットデータ分布の特性にマッチする合成データのサンプルを作成することを目的としている。 最近の研究(例えばスコアマッチングネットワーク、拡散モデル)は、動的摂動や周囲空間の流れを通じて、合成音源データを目標分布へ押し上げるという観点から、igm問題にアプローチしている。 この方向では、任意のターゲット分布とソース分布のスコア差(SD)をフローとして提示し、Kulback-Leiblerの分岐を最適に低減するとともに、Schroedinger橋の問題も解決する。 SDフローを便利なプロキシ分布に適用し、元の分布が整列している場合に限り整列する。 この定式化の形式的等価性を示し、ある条件下での拡散モデルをデノナイズする。 また,識別器が最適である場合に,特定の損失関数の選択の下でSDフローを誘導する,隠れたデータ最適化サブプロブレムを含む生成逆ネットワークのトレーニングを示す。 その結果、sdフローは、"生成的モデリングトリレンマ"の3つの課題 — 高いサンプル品質、モードカバレッジ、高速なサンプリング – を個別に解決するモデルクラス間の理論的リンクを提供し、統一アプローチのステージを設定する。

Implicit generative modeling (IGM) aims to produce samples of synthetic data matching the characteristics of a target data distribution. Recent work (e.g. score-matching networks, diffusion models) has approached the IGM problem from the perspective of pushing synthetic source data toward the target distribution via dynamical perturbations or flows in the ambient space. In this direction, we present the score difference (SD) between arbitrary target and source distributions as a flow that optimally reduces the Kullback-Leibler divergence between them while also solving the Schroedinger bridge problem. We apply the SD flow to convenient proxy distributions, which are aligned if and only if the original distributions are aligned. We demonstrate the formal equivalence of this formulation to denoising diffusion models under certain conditions. We also show that the training of generative adversarial networks includes a hidden data-optimization sub-problem, which induces the SD flow under certain choices of loss function when the discriminator is optimal. As a result, the SD flow provides a theoretical link between model classes that individually address the three challenges of the "generative modeling trilemma" -- high sample quality, mode coverage, and fast sampling -- thereby setting the stage for a unified approach.
翻訳日:2023-07-19 18:57:52 公開日:2023-07-18
# 圧縮的注意マッチングによるユニバーサルドメイン適応

Universal Domain Adaptation via Compressive Attention Matching ( http://arxiv.org/abs/2304.11862v3 )

ライセンス: Link先を確認
Didi Zhu, Yincuan Li, Junkun Yuan, Zexi Li, Kun Kuang and Chao Wu(参考訳) ユニバーサルドメイン適応(UniDA)は、ラベルセットに関する事前の知識なしで、ソースドメインからターゲットドメインに知識を転送することを目的としている。 課題は、ターゲットサンプルが共通のカテゴリに属するかどうかを決定する方法にある。 主流の手法はサンプルの特徴に基づいて判断を行うが、これは画像内の最も重要な局所オブジェクトを無視しながらグローバル情報を過度に強調し、精度が制限される。 この問題を解決するために,視覚変換器の自己注意機構を利用して重要な対象情報を捕捉するユニバーサルアテンションマッチング(UniAM)フレームワークを提案する。 提案フレームワークは,注目度を圧縮的に表現することでコア情報を探究する,新しい圧縮的注意マッチング(CAM)手法を提案する。 さらに、CAMはサンプルの共通性を決定するために残留測定を組み込んでいる。 この測定を利用して、UniAMはドメインワイドおよびカテゴリワイド共通特徴調整(CFA)とターゲットクラス分離(TCS)を達成する。 特に、UniAMは視覚変換器の注意を利用して分類タスクを実行する最初の方法である。 広範な実験により、uniamは様々なベンチマークデータセットで現在の最先端のメソッドよりも優れています。

Universal domain adaptation (UniDA) aims to transfer knowledge from the source domain to the target domain without any prior knowledge about the label set. The challenge lies in how to determine whether the target samples belong to common categories. The mainstream methods make judgments based on the sample features, which overemphasizes global information while ignoring the most crucial local objects in the image, resulting in limited accuracy. To address this issue, we propose a Universal Attention Matching (UniAM) framework by exploiting the self-attention mechanism in vision transformer to capture the crucial object information. The proposed framework introduces a novel Compressive Attention Matching (CAM) approach to explore the core information by compressively representing attentions. Furthermore, CAM incorporates a residual-based measurement to determine the sample commonness. By utilizing the measurement, UniAM achieves domain-wise and category-wise Common Feature Alignment (CFA) and Target Class Separation (TCS). Notably, UniAM is the first method utilizing the attention in vision transformer directly to perform classification tasks. Extensive experiments show that UniAM outperforms the current state-of-the-art methods on various benchmark datasets.
翻訳日:2023-07-19 18:57:13 公開日:2023-07-18
# クラスタ割り当ての対比によるディープマルチビュークラスタリング

Deep Multiview Clustering by Contrasting Cluster Assignments ( http://arxiv.org/abs/2304.10769v2 )

ライセンス: Link先を確認
Jie Chen, Hua Mao, Wai Lok Woo, and Xi Peng(参考訳) マルチビュークラスタリング(MVC)は、データサンプルをクラスタに分類することで、マルチビューデータの基盤構造を明らかにすることを目的としている。 ディープラーニングベースの手法は、大規模データセットに強力な特徴学習能力を示す。 既存の多くのディープMVCメソッドでは、複数のビューの不変表現を探索することは、いまだに難解な問題である。 本稿では,複数ビュー間のクラスタ割り当てを対比することにより,ビュー不変表現を学習し,クラスタリング結果を生成するクロスビューコントラスト学習(cvcl)手法を提案する。 具体的には、まず、事前学習段階におけるビュー依存の特徴を抽出するために、ディープオートエンコーダを用いる。 次に、クラスタレベルのCVCL戦略を示し、微調整段階における複数のビュー間の一貫性のあるセマンティックラベル情報を探索する。 そこで,提案手法は,この学習戦略を活かして,より識別的なクラスタ割り当てを生成することができる。 さらに,ソフトクラスタ割り当てアライメントの理論解析を行う。 複数のデータセットで得られた広範囲な実験結果から,提案手法が最先端手法よりも優れていることが示された。

Multiview clustering (MVC) aims to reveal the underlying structure of multiview data by categorizing data samples into clusters. Deep learning-based methods exhibit strong feature learning capabilities on large-scale datasets. For most existing deep MVC methods, exploring the invariant representations of multiple views is still an intractable problem. In this paper, we propose a cross-view contrastive learning (CVCL) method that learns view-invariant representations and produces clustering results by contrasting the cluster assignments among multiple views. Specifically, we first employ deep autoencoders to extract view-dependent features in the pretraining stage. Then, a cluster-level CVCL strategy is presented to explore consistent semantic label information among the multiple views in the fine-tuning stage. Thus, the proposed CVCL method is able to produce more discriminative cluster assignments by virtue of this learning strategy. Moreover, we provide a theoretical analysis of soft cluster assignment alignment. Extensive experimental results obtained on several datasets demonstrate that the proposed CVCL method outperforms several state-of-the-art approaches.
翻訳日:2023-07-19 18:56:52 公開日:2023-07-18
# lla-flow:光フロー推定のためのコストボリュームに関する軽量局所集計

LLA-FLOW: A Lightweight Local Aggregation on Cost Volume for Optical Flow Estimation ( http://arxiv.org/abs/2304.08101v2 )

ライセンス: Link先を確認
Jiawei Xu, Zongqing Lu, Qingmin Liao(参考訳) テクスチャの欠如はしばしばマッチングの曖昧さを引き起こし、この問題に対処することが光フロー推定の重要な課題である。 いくつかの方法はスタック化されたトランスフォーマーモジュールを挿入し、ネットワークが見積もりにコストボリュームのグローバル情報を使用することを可能にする。 しかし、グローバルな情報集約は、トレーニングと推論の間に深刻なメモリと時間コストを引き起こし、モデルデプロイメントを妨げます。 従来の地域制約からインスピレーションを得て,地域類似度集約(LSA)と地域類似度集約(SLSA)を設計する。 コストボリュームの集約は、機能マップに作用する軽量モジュールで実装される。 Sintelの最終パスの実験は、競争性能を維持しながら、我々のアプローチに必要なコストが低いことを示している。

Lack of texture often causes ambiguity in matching, and handling this issue is an important challenge in optical flow estimation. Some methods insert stacked transformer modules that allow the network to use global information of cost volume for estimation. But the global information aggregation often incurs serious memory and time costs during training and inference, which hinders model deployment. We draw inspiration from the traditional local region constraint and design the local similarity aggregation (LSA) and the shifted local similarity aggregation (SLSA). The aggregation for cost volume is implemented with lightweight modules that act on the feature maps. Experiments on the final pass of Sintel show the lower cost required for our approach while maintaining competitive performance.
翻訳日:2023-07-19 18:56:35 公開日:2023-07-18
# 偏光周波数相関を用いた量子消去器のコヒーレント励起非局所量子特性

Coherently excited nonlocal quantum features using polarization-frequency correlation between quantum erasers ( http://arxiv.org/abs/2304.04006v2 )

ライセンス: Link先を確認
B. S. Ham(参考訳) 光子識別性は、量子力学における波動粒子双対性の観点から、謎の量子的特徴を理解する上で不可欠な概念である。 不明瞭性の基本的な物理学は、量子消去器のような単一の光子の正則基底間の量子重ね合わせの操作にある。 ここでは、ポアソン分散光子対の偏光周波数相関に基づく非局所相関に純粋コヒーレンス法を適用し、測定の役割について検討する。 このために、遅延チョイス量子消去器スキームにおける一致測定にゲートヘテロダイン検出法が採用され、空間状分離粒子間の分離不能な基底積となる。 このコヒーレント誘起不分離基底積に対して、直流カット交流通過フィルタを介して偏光周波数相関光子対を選択的に測定する。 最後に、ベルパラメータS=2.828を得る解析解に対してベル不等式違反を数値的に確認する。

Photon indistinguishability is an essential concept to understanding mysterious quantum features from the viewpoint of the wave-particle duality in quantum mechanics. The fundamental physics of indistinguishability lies in the manipulation of quantum superposition between orthonormal bases of a single photon such as in a quantum eraser. Here, a pure coherence approach is applied for the nonlocal correlation based on the polarization-frequency correlation of Poisson-distributed coherent photon pairs to investigate the role of measurements. For this, a gated heterodyne-detection technique is adopted for coincidence measurements in a delayed-choice quantum eraser scheme, resulting in an inseparable basis product between space-like separated parties. For the coherently induced inseparable basis product, polarization-frequency correlated photon pairs are selectively measured through a dc-cut ac-pass filter. Finally, the Bell inequality violation is numerically confirmed for the analytical solutions, where the Bell parameter S=2.828 is obtained.
翻訳日:2023-07-19 18:56:23 公開日:2023-07-18
# レニアの新たな複雑さを捉え

Capturing Emerging Complexity in Lenia ( http://arxiv.org/abs/2305.09378v3 )

ライセンス: Link先を確認
Sanyam Jain, Aarati Shrestha and Stefano Nichele(参考訳) この研究プロジェクトは、デジタル生物の生態系をシミュレートする人工生命プラットフォームLeniaを調査する。 レニアの生態系は、移動し、消費し、成長し、再生できる単純な人工生物から成り立っている。 このプラットフォームは、様々な能力と行動を持つ多様な生物を生み出すためのスケーラブルで柔軟な環境を提供するため、人工生命と進化を研究するためのツールとして重要である。 レニアの複雑さを測定することは、まだ発見されていないレニアの行動を改善することを目的として、ルールの長期的な複雑な出現行動を測定するための指標を特定する研究の重要な側面である。 遺伝的アルゴリズムは、近辺やカーネルを遺伝子型として使用し、レニアの残りのパラメータを例えば成長関数のように固定し、個体群ごとに異なる行動を生成し、その結果生じる行動の複雑さを決定するために適合値を測定する。 まず,フレーム間のばらつきが高まるようなフィットネス機能として,時間とともに変化を利用する。 第2に,フレームの復元損失リストの変動が報われる自動エンコーダベースの適合性を用いる。 第3に、再構成フレームの画素密度のより高い変動が報われるような複合フィットネスを行う。 3つの実験はすべてpixel alive thresholdとフレームで調整されている。 最後に、500世代毎に各フィットネスの9つの実験を行った後、さらなる進化のスコープがあるような全ての実験から構成を選択し、2500世代にわたって実行します。 結果は、核の質量中心は、特定のピクセル集合と、核がガウス分布を達成しようとする境界とともに増加することを示している。

This research project investigates Lenia, an artificial life platform that simulates ecosystems of digital creatures. Lenia's ecosystem consists of simple, artificial organisms that can move, consume, grow, and reproduce. The platform is important as a tool for studying artificial life and evolution, as it provides a scalable and flexible environment for creating a diverse range of organisms with varying abilities and behaviors. Measuring complexity in Lenia is a key aspect of the study, which identifies the metrics for measuring long-term complex emerging behavior of rules, with the aim of evolving better Lenia behaviors which are yet not discovered. The Genetic Algorithm uses neighborhoods or kernels as genotype while keeping the rest of the parameters of Lenia as fixed, for example growth function, to produce different behaviors respective to the population and then measures fitness value to decide the complexity of the resulting behavior. First, we use Variation over Time as a fitness function where higher variance between the frames are rewarded. Second, we use Auto-encoder based fitness where variation of the list of reconstruction loss for the frames is rewarded. Third, we perform combined fitness where higher variation of the pixel density of reconstructed frames is rewarded. All three experiments are tweaked with pixel alive threshold and frames used. Finally, after performing nine experiments of each fitness for 500 generations, we pick configurations from all experiments such that there is a scope of further evolution, and run it for 2500 generations. Results show that the kernel's center of mass increases with a specific set of pixels and together with borders the kernel try to achieve a Gaussian distribution.
翻訳日:2023-07-19 18:49:55 公開日:2023-07-18
# GIFT:多人数会話理解のためのグラフ誘発微調整

GIFT: Graph-Induced Fine-Tuning for Multi-Party Conversation Understanding ( http://arxiv.org/abs/2305.09360v3 )

ライセンス: Link先を確認
Jia-Chen Gu, Zhen-Hua Ling, Quan Liu, Cong Liu, Guoping Hu(参考訳) マルチパーティ会話(MPC)で誰に何を言ったかという問題に、最近多くの研究が注目されている。 しかしながら、mpc理解の既存の手法では、通常、インターロカクタや発話を逐次情報フローに埋め込むか、mpcの固有グラフ構造の表面のみを利用する。 そこで本研究では,汎用MPC理解のためのトランスフォーマーベース事前学習言語モデル(PLM)に適応可能な,グラフ誘発微調整(GIFT)という,プラグアンドプレイで軽量な手法を提案する。 詳しくは、正規トランスフォーマーにおける発話間の完全かつ等価な接続は、mpcにおける発話のばらばらだが独特の依存を無視する。 発話間の異なる関係を区別するために、4種類のエッジがグラフ誘起信号を注意機構に統合し、もともとシーケンシャルテキストを処理するために設計されたPLMを洗練するように設計されている。 ギフトを3つのplmに実装して評価し,入力者認識,話者識別,応答選択という3つの下流タスクのパフォーマンスをテストした。 実験の結果,3つの下流タスクにおける3つのPLMと2つのベンチマークにおいて,符号化層当たり4つのパラメータしか持たない結果が得られた。

Addressing the issues of who saying what to whom in multi-party conversations (MPCs) has recently attracted a lot of research attention. However, existing methods on MPC understanding typically embed interlocutors and utterances into sequential information flows, or utilize only the superficial of inherent graph structures in MPCs. To this end, we present a plug-and-play and lightweight method named graph-induced fine-tuning (GIFT) which can adapt various Transformer-based pre-trained language models (PLMs) for universal MPC understanding. In detail, the full and equivalent connections among utterances in regular Transformer ignore the sparse but distinctive dependency of an utterance on another in MPCs. To distinguish different relationships between utterances, four types of edges are designed to integrate graph-induced signals into attention mechanisms to refine PLMs originally designed for processing sequential texts. We evaluate GIFT by implementing it into three PLMs, and test the performance on three downstream tasks including addressee recognition, speaker identification and response selection. Experimental results show that GIFT can significantly improve the performance of three PLMs on three downstream tasks and two benchmarks with only 4 additional parameters per encoding layer, achieving new state-of-the-art performance on MPC understanding.
翻訳日:2023-07-19 18:49:31 公開日:2023-07-18
# cb-hvtnet : 病理組織像におけるリンパ球評価のためのチャネルブーストハイブリッド視覚トランスフォーマーネットワーク

CB-HVTNet: A channel-boosted hybrid vision transformer network for lymphocyte assessment in histopathological images ( http://arxiv.org/abs/2305.09211v2 )

ライセンス: Link先を確認
Momina Liaqat Ali, Zunaira Rauf, Asifullah Khan, Anabia Sohail, Rafi Ullah, Jeonghwan Gwak(参考訳) トランスフォーマーは、長距離依存を学習する能力のため、グローバルな視点学習のための畳み込みニューラルネットワーク(CNN)の欠点を克服している。 そのため、医学診断などの視力関連タスクに研究者の焦点が当てられている。 しかし,そのマルチヘッドアテンションモジュールは,医用画像では不十分なグローバルレベルの特徴表現のみをキャプチャする。 この問題を解決するために、トランスファーラーニングを用いてチャネルを再生し、トランスフォーマーとCNNの両方を用いてリンパ球の組織像を解析するCB HVT(Channel Boosted Hybrid Vision Transformer)を提案する。 提案するcb hvtは、チャネル生成モジュール、チャネルエクスプロイトレーションモジュール、チャネルマージモジュール、リージョンアウェアモジュール、およびリンパ球を効果的に同定するための検出およびセグメンテーションヘッドを含む5つのモジュールから構成されている。 チャネル生成モジュールは、移動学習によるチャネル増強というアイデアを用いて、異なる補助学習者から多様なチャネルを抽出する。 CB HVTでは、これらのチャネルを最初に連結し、チャネル利用モジュールの注意機構を用いてランク付けする。 次に、融合ブロックをチャネルマージモジュールに使用して、多様なブーストされたチャネルを段階的かつ体系的にマージし、ネットワークの学習表現を改善する。 CB HVTはまた、その領域認識モジュールとヘッドに提案ネットワークを使用して、重複する領域やアーティファクトであってもオブジェクトを効果的に識別する。 今回提案したCB HVTを,病理組織像におけるリンパ球評価のための2つの公開データセットで評価した。 以上の結果から,CB HVTは術式検出モデルの他の状態よりも優れており,病理医のツールとしての価値が示された。

Transformers, due to their ability to learn long range dependencies, have overcome the shortcomings of convolutional neural networks (CNNs) for global perspective learning. Therefore, they have gained the focus of researchers for several vision related tasks including medical diagnosis. However, their multi-head attention module only captures global level feature representations, which is insufficient for medical images. To address this issue, we propose a Channel Boosted Hybrid Vision Transformer (CB HVT) that uses transfer learning to generate boosted channels and employs both transformers and CNNs to analyse lymphocytes in histopathological images. The proposed CB HVT comprises five modules, including a channel generation module, channel exploitation module, channel merging module, region-aware module, and a detection and segmentation head, which work together to effectively identify lymphocytes. The channel generation module uses the idea of channel boosting through transfer learning to extract diverse channels from different auxiliary learners. In the CB HVT, these boosted channels are first concatenated and ranked using an attention mechanism in the channel exploitation module. A fusion block is then utilized in the channel merging module for a gradual and systematic merging of the diverse boosted channels to improve the network's learning representations. The CB HVT also employs a proposal network in its region aware module and a head to effectively identify objects, even in overlapping regions and with artifacts. We evaluated the proposed CB HVT on two publicly available datasets for lymphocyte assessment in histopathological images. The results show that CB HVT outperformed other state of the art detection models, and has good generalization ability, demonstrating its value as a tool for pathologists.
翻訳日:2023-07-19 18:49:07 公開日:2023-07-18
# Meta-Polyp: 効率的なPolypセグメンテーションのためのベースライン

Meta-Polyp: a baseline for efficient Polyp segmentation ( http://arxiv.org/abs/2305.07848v3 )

ライセンス: Link先を確認
Quoc-Huy Trinh(参考訳) 近年,ポリプのセグメンテーションが重要となり,cnn,視覚トランスフォーマー,トランスフォーマー技術を用いた競合的手法が数多く開発されている。 しかし、これらの手法は、分散外データセット、境界の欠如、小さなポリプを扱う際にしばしば困難に直面する。 2022年、メタフォーマーはビジョンの新しいベースラインとして導入され、マルチタスクコンピュータビジョンのパフォーマンスを向上させるだけでなく、ビジョントランスフォーマーとcnnファミリーバックボーンの制限にも対処した。 セグメンテーションをさらに強化するために,UNetとMeta-Formerの融合と,テクスチャを強化するためにデコーダステージにレベルアップを組み合わせたマルチスケールアップサンプリングブロックを提案するとともに,Meta-Formerのアイデアに基づいたConvformerブロックベースを提案し,ローカル特徴の重要な情報を強化する。 これらのブロックは、ポリープの全体形状のようなグローバル情報と、医療区分の決定に不可欠な局所情報と境界情報の組み合わせを可能にする。 提案手法は競争性能を達成し,CVC-300データセット,Kvasir,CVC-ColonDBデータセットにおける最先端の成果を得た。 Kvasir-SEGとは別に、他はアウトオブディストリビューションデータセットである。 実装は以下の通りである。 https://github.com/huyquoctrinh/MetaPolyp-CBMS2023。

In recent years, polyp segmentation has gained significant importance, and many methods have been developed using CNN, Vision Transformer, and Transformer techniques to achieve competitive results. However, these methods often face difficulties when dealing with out-of-distribution datasets, missing boundaries, and small polyps. In 2022, Meta-Former was introduced as a new baseline for vision, which not only improved the performance of multi-task computer vision but also addressed the limitations of the Vision Transformer and CNN family backbones. To further enhance segmentation, we propose a fusion of Meta-Former with UNet, along with the introduction of a Multi-scale Upsampling block with a level-up combination in the decoder stage to enhance the texture, also we propose the Convformer block base on the idea of the Meta-former to enhance the crucial information of the local feature. These blocks enable the combination of global information, such as the overall shape of the polyp, with local information and boundary information, which is crucial for the decision of the medical segmentation. Our proposed approach achieved competitive performance and obtained the top result in the State of the Art on the CVC-300 dataset, Kvasir, and CVC-ColonDB dataset. Apart from Kvasir-SEG, others are out-of-distribution datasets. The implementation can be found at: https://github.com/huyquoctrinh/MetaPolyp-CBMS2023.
翻訳日:2023-07-19 18:48:18 公開日:2023-07-18
# 時間空間結晶構造を用いた8次元トポロジーシステム

Eight-dimensional topological systems simulated using time-space crystalline structures ( http://arxiv.org/abs/2305.07668v2 )

ライセンス: Link先を確認
Yakov Braver, Egidijus Anisimovas, Krzysztof Sacha(参考訳) 時間空間結晶構造を用いて,2次元しか持たない8次元系をシミュレートする可能性を示す。 システムパラメータの適切な選択により、ガッピングエネルギースペクトルを得ることができ、トポロジカル効果が関連づけられる。 系の非自明なトポロジーは、時間的および空間的結晶的な方向に沿って汲み上げられる断熱状態を考慮することで得られる。 システムの解析は、ハミルトニアン系をタイトな結合形式に書き換えることで容易であり、空間、時間、付加的な合成次元を等しい足場に配置する。

We demonstrate the possibility of using time-space crystalline structures to simulate eight-dimensional systems based on only two physical dimensions. A suitable choice of system parameters allows us to obtain a gapped energy spectrum, making topological effects become relevant. The nontrivial topology of the system is evinced by considering the adiabatic state pumping along temporal and spatial crystalline directions. Analysis of the system is facilitated by rewriting the system Hamiltonian in a tight-binding form, thereby putting space, time, and the additional synthetic dimensions on an equal footing.
翻訳日:2023-07-19 18:47:50 公開日:2023-07-18
# 論理推論によるディープラーニングのスケーラブルな結合

Scalable Coupling of Deep Learning with Logical Reasoning ( http://arxiv.org/abs/2305.07617v2 )

ライセンス: Link先を確認
Marianne Defresne, Sophie Barbe, Thomas Schiex(参考訳) 離散的推論とニューラルネットのハイブリッド化を推し進めている中で、離散的推論の解法や最適化問題を自然な入力から学べるニューラルネットワークへの関心が高まっている。 本稿では,離散図形モデルとして表現されるNPハード推論問題の制約と基準を学習するために,スケーラブルなニューラルアーキテクチャと損失関数を導入する。 我々の損失関数は、Besagの擬似対数関係の主な制限の1つを解き、高エネルギーの学習を可能にする。 本研究では, タンパク質設計問題のエネルギー最適化の定式化や, データ効率, 解釈可能性, 予測に対するtextit{a reari}制御など, 自然の入力からNPハード推論問題の解法を効果的に学習できることを実証的に示す。

In the ongoing quest for hybridizing discrete reasoning with neural nets, there is an increasing interest in neural architectures that can learn how to solve discrete reasoning or optimization problems from natural inputs. In this paper, we introduce a scalable neural architecture and loss function dedicated to learning the constraints and criteria of NP-hard reasoning problems expressed as discrete Graphical Models. Our loss function solves one of the main limitations of Besag's pseudo-loglikelihood, enabling learning of high energies. We empirically show it is able to efficiently learn how to solve NP-hard reasoning problems from natural inputs as the symbolic, visual or many-solutions Sudoku problems as well as the energy optimization formulation of the protein design problem, providing data efficiency, interpretability, and \textit{a posteriori} control over predictions.
翻訳日:2023-07-19 18:47:38 公開日:2023-07-18
# 分散多目的意思決定

Distributional Multi-Objective Decision Making ( http://arxiv.org/abs/2305.05560v3 )

ライセンス: Link先を確認
Willem R\"opke, Conor F. Hayes, Patrick Mannion, Enda Howley, Ann Now\'e and Diederik M. Roijers(参考訳) 矛盾する目的を持つシナリオにおける効果的な意思決定支援のために、潜在的に最適な解決策のセットを意思決定者に提示することができる。 これらの集合が持つべきポリシーと、そのような集合を効率的に計算する方法を考察する。 このことを念頭に配当的アプローチをとり,政策の帰納分布に関する新たな支配基準を導入する。 この基準に基づき、分布的非支配集合を示し、パレートフロントで無視されている最適ポリシーを含むことを示す。 さらに, 凸分布型非支配集合を提案し, 多変量リスク回避意思決定者に期待できる有用性を最大化するすべての方針を含むことを証明した。 本稿では,分布非支配集合を学習し,その集合を凸分布非支配集合に還元するためのプランニング演算子をさらに貢献する新しいアルゴリズムを提案する。 実験を通じて,これらの手法の有効性と効果を実証し,実世界問題における意思決定支援の新たなアプローチとして有用であることを示す。

For effective decision support in scenarios with conflicting objectives, sets of potentially optimal solutions can be presented to the decision maker. We explore both what policies these sets should contain and how such sets can be computed efficiently. With this in mind, we take a distributional approach and introduce a novel dominance criterion relating return distributions of policies directly. Based on this criterion, we present the distributional undominated set and show that it contains optimal policies otherwise ignored by the Pareto front. In addition, we propose the convex distributional undominated set and prove that it comprises all policies that maximise expected utility for multivariate risk-averse decision makers. We propose a novel algorithm to learn the distributional undominated set and further contribute pruning operators to reduce the set to the convex distributional undominated set. Through experiments, we demonstrate the feasibility and effectiveness of these methods, making this a valuable new approach for decision support in real-world problems.
翻訳日:2023-07-19 18:47:19 公開日:2023-07-18
# 変分量子固有解法のためのモジュラークラスタ回路

Modular Cluster Circuits for the Variational Quantum Eigensolver ( http://arxiv.org/abs/2305.04425v2 )

ライセンス: Link先を確認
Seyed Ehsan Ghasempouri and Gerhard W. Dueck and Stijn De Baerdemacker(参考訳) 変分量子固有ソルバ(vqe)アルゴリズムは、ノイズの多い中間スケール量子(nisq)デバイス上で分子の量子化学的性質を計算する一般的な方法となった。 回路内のNISQ装置からのノイズ蓄積を避けるため、回路のいわゆる量子深さを最小に保ち、連続的に操作する必要がある最小数の量子ゲートとして定義することが重要である。 本研究では,従来提案していた化学精度を損なうことなく,深層量子回路の設計を可能にするモジュール型2量子ビットクラスタ回路を提案する。 また、クラスタ回路の簡素化により、クラスタ回路に原子価結合化学解釈を割り当てることができる。 設計はh2、(h2)2、lih分子、および有限サイズの横磁場イジングモデルで試験され、後者は共鳴原子価結合図における回路構築に関するさらなる洞察を提供する。

The variational quantum eigensolver (VQE) algorithm recently became a popular method to compute quantum chemical properties of molecules on noisy intermediate scale quantum (NISQ) devices. In order to avoid noise accumulation from the NISQ device in the circuit, it is important to keep the so-called quantum depth of the circuit at a minimum, defined as the minimum number of quantum gates that need to be operated sequentially. In the present work, we introduce a modular 2-qubit cluster circuit that allows for the design of a shallow-depth quantum circuit compared to previously proposed architectures without loss of chemical accuracy. Moreover, by virtue of the simplicity of the cluster circuit, it is possible to assign a valence bond chemical interpretation to the cluster circuit. The design was tested on the H2, (H2)2 and LiH molecules, as well as the finite-size transverse-field Ising model, as the latter provides additional insights in the construction of the circuit in a resonating valence bond picture.
翻訳日:2023-07-19 18:46:26 公開日:2023-07-18
# 強く相互作用するリドバーグ気体中の散逸時間結晶の観察

Observation of a dissipative time crystal in a strongly interacting Rydberg gas ( http://arxiv.org/abs/2305.20070v2 )

ライセンス: Link先を確認
Xiaoling Wu, Zhuqing Wang, Fan Yang, Ruochen Gao, Chao Liang, Meng Khoon Tey, Xiangliang Li, Thomas Pohl, Li You(参考訳) 自発的対称性の破れの概念は、凝縮、結晶化、量子磁性などの物質の古典的および量子的相転移を特徴づけるためによく確立されている。 このパラダイムの時間次元への一般化は、系 [1] の時間翻訳対称性を自発的に破るエキゾチックな動的位相、時間結晶につながる。 平衡における連続時間結晶の存在は、no-go定理[2-4]によって問題視されているが、開系における散逸によって困難を回避できる。 ここでは, 地中原子がリドベルク状態に連続的に駆動される室温原子ガス中での, このような散逸時間結晶秩序の実験的観察について報告する。 創発時間結晶は、光子透過の持続的な振動によって明らかにされ、測定中に観測可能な減衰は生じない。 観察された極限周期は、顕微鏡モデルから得られた平均場解析と一致して、Rydberg成分間の共存と競合から生じることを示す。 振動の非決定的自己相関と時間雑音に対するロバスト性は、真の長距離時間秩序の確立を示し、実験における連続時間結晶の実現を実証する。

The notion of spontaneous symmetry breaking has been well established to characterize classical and quantum phase transitions of matter, such as in condensation, crystallization or quantum magnetism. Generalizations of this paradigm to the time dimension can lead to an exotic dynamical phase, the time crystal, which spontaneously breaks the time translation symmetry of the system [1]. While the existence of a continuous time crystal at equilibrium has been challenged by no-go theorems [2-4], the difficulty can be circumvented by dissipation in an open system. Here, we report the experimental observation of such dissipative time crystalline order in a room-temperature atomic gas, where ground-state atoms are continuously driven to Rydberg states. The emergent time crystal is revealed by persistent oscillations of the photon transmission, with no observable damping during the measurement. We show that the observed limit cycles arise from the coexistence and competition between distinct Rydberg components, in agreement with a mean-field analysis derived from the microscopic model. The nondecaying autocorrelation of the oscillation, together with the robustness against temporal noises, indicates the establishment of true long-range temporal order and demonstrates the realization of a continuous time crystal in our experiments.
翻訳日:2023-07-19 18:39:41 公開日:2023-07-18
# 量子コンピュータ技術を用いた時系列画像のクラスタリング手法

Clustering Method for Time-Series Images Using Quantum-Inspired Computing Technology ( http://arxiv.org/abs/2305.16656v3 )

ライセンス: Link先を確認
Tomoki Inoue, Koyo Kubota, Tsubasa Ikami, Yasuhiro Egami, Hiroki Nagai, Takahiro Kashikawa, Koichi Kimura, Yu Matsuda(参考訳) 時系列クラスタリングは、クラスタに関する事前知識がなければ、時系列データの強力なデータマイニング技術として機能する。 大規模な時系列データを取得し,様々な研究分野に利用している。 そのため,計算コストの低いクラスタリングが必要となる。 シミュレーションアニーリングマシンのような量子インスパイアされたコンピューティング技術は、組合せ最適化の問題を高速かつ正確に解くという点で、従来のコンピュータを上回り、既存の手法で達成することが難しいクラスタリングタスクを達成することを約束している。 本研究では,アニーリングマシンを用いた時系列クラスタリング手法を提案する。 提案手法は,外乱に対する堅牢性を維持しつつ,時系列データを互いに近接するクラスタに均等に分類することを容易にする。 さらに、その適用範囲は時系列画像にも及ぶ。 提案手法を,オンライン分散データセットをクラスタリングする標準的な方法と比較した。 既存の手法では、ユークリッド距離メトリックに基づいて各データ間の距離を計算し、k-means++法を用いてクラスタリングを行う。 どちらの手法も同等の結果が得られた。 さらに,信号対雑音比が約1。 約2%の信号変動にもかかわらず,提案手法はクラスタ間の重なりを伴わずに効果的にデータを分類した。 対照的に,既存の標準手法と条件付き画像サンプリング(CIS)手法によるクラスタリングの結果は,重なり合うクラスタを表示するフロー計測データの特殊な手法である。 その結果,提案手法は他の2手法よりも優れた結果が得られ,優れたクラスタリング手法としての可能性を示した。

Time-series clustering serves as a powerful data mining technique for time-series data in the absence of prior knowledge about clusters. A large amount of time-series data with large size has been acquired and used in various research fields. Hence, clustering method with low computational cost is required. Given that a quantum-inspired computing technology, such as a simulated annealing machine, surpasses conventional computers in terms of fast and accurately solving combinatorial optimization problems, it holds promise for accomplishing clustering tasks that are challenging to achieve using existing methods. This study proposes a novel time-series clustering method that leverages an annealing machine. The proposed method facilitates an even classification of time-series data into clusters close to each other while maintaining robustness against outliers. Moreover, its applicability extends to time-series images. We compared the proposed method with a standard existing method for clustering an online distributed dataset. In the existing method, the distances between each data are calculated based on the Euclidean distance metric, and the clustering is performed using the k-means++ method. We found that both methods yielded comparable results. Furthermore, the proposed method was applied to a flow measurement image dataset containing noticeable noise with a signal-to-noise ratio of approximately 1. Despite a small signal variation of approximately 2%, the proposed method effectively classified the data without any overlap among the clusters. In contrast, the clustering results by the standard existing method and the conditional image sampling (CIS) method, a specialized technique for flow measurement data, displayed overlapping clusters. Consequently, the proposed method provides better results than the other two methods, demonstrating its potential as a superior clustering method.
翻訳日:2023-07-19 18:39:19 公開日:2023-07-18
# 火星の時系列:因子的変動オートエンコーダを用いたマルチスケールネステッドアプローチ

Martian time-series unraveled: A multi-scale nested approach with factorial variational autoencoders ( http://arxiv.org/abs/2305.16189v2 )

ライセンス: Link先を確認
Ali Siahkoohi and Rudy Morel and Randall Balestriero and Erwan Allys and Gr\'egory Sainton and Taichi Kawamura and Maarten V. de Hoop(参考訳) 教師なしのソース分離は、ミキシング演算子を通じて記録された未知のソース信号のセットを解き放ち、ソースに関する事前知識が限られ、信号混合のデータセットのみにアクセスする。 この問題は本質的に不適切であり、時系列データで情報源が示す様々な時間スケールによってさらに問題視されている。 既存のメソッドは通常、選択されたウィンドウサイズに依存し、マルチスケールソースを扱う能力を制限する。 そこで本研究では,非ガウジアン確率過程を区別可能な確率過程の低次元表現を提供するウェーブレット散乱共分散を用いて,非教師なしマルチスケールクラスタリングおよびソース分離フレームワークを提案する。 この表現空間にネストし,(1)異なる時間スケールでの確率的クラスター源,(2)各クラスタに関連する独立なサンプル散乱共分散表現を訓練した因子型ガウス型変分オートエンコーダを開発した。 各クラスタからのサンプルを事前情報として,ウェーブレット散乱共分散表現空間の最適化問題としてソース分離を定式化し,時間領域でソースを分離する。 nasaの火星探査ミッションで記録された地震データに適用すると、我々のマルチスケールのネストドアプローチは、時間的スケールで大きく異なる源(例えば、"glitches"として知られる)と、通常数分間続く大気活動によって生じる大気環境ノイズとを識別するための強力なツールであることが証明されます。 これらの結果は、大気-表面相互作用、熱緩和、その他の複雑な現象に関連する孤立した源についてさらなる調査を行う機会を与える。

Unsupervised source separation involves unraveling an unknown set of source signals recorded through a mixing operator, with limited prior knowledge about the sources, and only access to a dataset of signal mixtures. This problem is inherently ill-posed and is further challenged by the variety of time-scales exhibited by sources in time series data. Existing methods typically rely on a preselected window size that limits their capacity to handle multi-scale sources. To address this issue, instead of operating in the time domain, we propose an unsupervised multi-scale clustering and source separation framework by leveraging wavelet scattering covariances that provide a low-dimensional representation of stochastic processes, capable of distinguishing between different non-Gaussian stochastic processes. Nested within this representation space, we develop a factorial Gaussian-mixture variational autoencoder that is trained to (1) probabilistically cluster sources at different time-scales and (2) independently sample scattering covariance representations associated with each cluster. Using samples from each cluster as prior information, we formulate source separation as an optimization problem in the wavelet scattering covariance representation space, resulting in separated sources in the time domain. When applied to seismic data recorded during the NASA InSight mission on Mars, our multi-scale nested approach proves to be a powerful tool for discriminating between sources varying greatly in time-scale, e.g., minute-long transient one-sided pulses (known as ``glitches'') and structured ambient noises resulting from atmospheric activities that typically last for tens of minutes. These results provide an opportunity to conduct further investigations into the isolated sources related to atmospheric-surface interactions, thermal relaxations, and other complex phenomena.
翻訳日:2023-07-19 18:38:39 公開日:2023-07-18
# スパイクニューラルネットワークにおける計算と学習のための資源としてのノイズの利用

Exploiting Noise as a Resource for Computation and Learning in Spiking Neural Networks ( http://arxiv.org/abs/2305.16044v5 )

ライセンス: Link先を確認
Gehua Ma, Rui Yan, Huajin Tang(参考訳) スパイクニューロンのネットワークは、脳の異常な情報処理能力の基盤となり、ニューロモルフィック人工知能の柱モデルとなっている。 スパイキングニューラルネットワーク(SNN)に関する広範な研究にもかかわらず、ほとんどの研究は決定論的モデルに基づいており、神経計算の本質的に非決定論的でノイズの多い性質を見下ろしている。 そこで本研究では,ノイズスパイキングニューラルネットワーク (nsnn) とノイズ駆動学習規則 (ndl) を導入し,雑音ニューロンのダイナミクスを組み込んで,ノイズニューラルプロセッシングの計算的利点を生かした。 NSNNは、スケーラブルでフレキシブルで信頼性の高い計算をもたらす理論的なフレームワークを提供する。 我々は、NSNNが競合性能を持つニューラルモデルをスパイクし、決定論的SNNよりも困難な摂動に対する堅牢性を向上し、ニューラルコーディングにおける確率的ニューラル計算を再現することを示した。 本研究は、機械学習、ニューロモルフィックインテリジェンス実践者、計算神経科学研究者に強力で使いやすいツールを提供する。

Networks of spiking neurons underpin the extraordinary information-processing capabilities of the brain and have become pillar models in neuromorphic artificial intelligence. Despite extensive research on spiking neural networks (SNNs), most studies are established on deterministic models, overlooking the inherent non-deterministic, noisy nature of neural computations. This study introduces the noisy spiking neural network (NSNN) and the noise-driven learning rule (NDL) by incorporating noisy neuronal dynamics to exploit the computational advantages of noisy neural processing. NSNN provides a theoretical framework that yields scalable, flexible, and reliable computation. We demonstrate that NSNN leads to spiking neural models with competitive performance, improved robustness against challenging perturbations than deterministic SNNs, and better reproducing probabilistic neural computation in neural coding. This study offers a powerful and easy-to-use tool for machine learning, neuromorphic intelligence practitioners, and computational neuroscience researchers.
翻訳日:2023-07-19 18:38:06 公開日:2023-07-18
# グラフニューラルネットワークにおける注意の因果的スーパービジョン:強力な注意へのより良い、より単純な選択

Causal-Based Supervision of Attention in Graph Neural Network: A Better and Simpler Choice towards Powerful Attention ( http://arxiv.org/abs/2305.13115v2 )

ライセンス: Link先を確認
Hongjun Wang, Jiyuan Chen, Lun Du, Qiang Fu, Shi Han, Xuan Song(参考訳) 近年,グラフ表現学習における注目のメカニズムが注目されている。 しかしながら、注目に基づくGNNの変種は、多くの実世界のデータセットに対して新しいベンチマークを設定しているが、最近の研究は、彼らの誘導された注意は、直接の監督が欠如しているため、ノイズの多いグラフに対してより堅牢で一般化可能であることを指摘している。 本稿では,注意関数の学習プロセスのための強力な監視信号を提供するために,因果関係のツールを利用する新しいフレームワークを提案する。 具体的には,最終予測に対する注意の直接的因果効果を推定し,その効果を最大化し,より有意義な隣人に注意を誘導する。 本手法は,任意の標準注目型GNNに対して,エンドツーエンドでプラグイン・アンド・プレイモジュールとして機能する。 幅広いベンチマークデータセットに関する広範な実験により、注意関数を直接監視することにより、モデルはより明確な決定境界でより早く収束し、より良いパフォーマンスが得られることを示した。

Recent years have witnessed the great potential of attention mechanism in graph representation learning. However, while variants of attention-based GNNs are setting new benchmarks for numerous real-world datasets, recent works have pointed out that their induced attentions are less robust and generalizable against noisy graphs due to lack of direct supervision. In this paper, we present a new framework which utilizes the tool of causality to provide a powerful supervision signal for the learning process of attention functions. Specifically, we estimate the direct causal effect of attention to the final prediction, and then maximize such effect to guide attention attending to more meaningful neighbors. Our method can serve as a plug-and-play module for any canonical attention-based GNNs in an end-to-end fashion. Extensive experiments on a wide range of benchmark datasets illustrated that, by directly supervising attention functions, the model is able to converge faster with a clearer decision boundary, and thus yields better performances.
翻訳日:2023-07-19 18:37:00 公開日:2023-07-18
# Open-QA評価の評価

Evaluating Open-QA Evaluation ( http://arxiv.org/abs/2305.12421v2 )

ライセンス: Link先を確認
Cunxiang Wang, Sirui Cheng, Qipeng Guo, Zhikun Xu, Bowen Ding, Yidong Wang, Xiangkun Hu, Zheng Zhang, Yue Zhang(参考訳) 本研究では,大規模言語モデル (LLM) の事実性を直接推定できるオープン質問回答 (Open QA) タスクの評価に焦点をあてる。 現在の自動評価手法は限界を示しており、人間の評価が依然として最も信頼できるアプローチであることを示している。 オープンQA内の標準回答に関連するAI生成回答の精度を評価するために,新たなタスクであるQA評価(QA-Eval)とそれに対応するデータセットEVOUNAを導入する。 提案手法の評価は,その性能測定にヒューマンアノテート結果を利用する。 具体的には,人間評価と高い相関を示す手法について検討し,その信頼性について検討した。 また,LLMに基づく評価手法の改良に向け,現在の手法と手法の落とし穴についても論じる。 この新たなQA-Evalタスクとそれに対応するデータセットEVOUNAは、より効果的な自動評価ツールの開発を促進し、この分野における今後の研究に有用であることを示す。 すべてのリソースは \url{https://github.com/wangcunxiang/QA-Eval} で入手できる。

This study focuses on the evaluation of the Open Question Answering (Open-QA) task, which can directly estimate the factuality of large language models (LLMs). Current automatic evaluation methods have shown limitations, indicating that human evaluation still remains the most reliable approach. We introduce a new task, Evaluating QA Evaluation (QA-Eval) and the corresponding dataset EVOUNA, designed to assess the accuracy of AI-generated answers in relation to standard answers within Open-QA. Our evaluation of these methods utilizes human-annotated results to measure their performance. Specifically, the work investigates methods that show high correlation with human evaluations, deeming them more reliable. We also discuss the pitfalls of current methods and methods to improve LLM-based evaluators. We believe this new QA-Eval task and corresponding dataset EVOUNA will facilitate the development of more effective automatic evaluation tools and prove valuable for future research in this area. All resources are available at \url{https://github.com/wangcunxiang/QA-Eval} and it is under the Apache-2.0 License.
翻訳日:2023-07-19 18:36:41 公開日:2023-07-18
# 確率的保証を伴うニューラルネットワークのロバストな反事実説明

Robust Counterfactual Explanations for Neural Networks With Probabilistic Guarantees ( http://arxiv.org/abs/2305.11997v2 )

ライセンス: Link先を確認
Faisal Hamman, Erfaun Noorani, Saumitra Mishra, Daniele Magazzeni, Sanghamitra Dutta(参考訳) モデルが更新されたり、あるいは少し変更されたとしても、有効な、堅牢な反事実的説明を生成することへの関心が高まっている。 堅牢な反事実を見つけるために、既存の文献では、元のモデル $m$ と新しいモデル $M$ がパラメータ空間、すなわち $\|\text{Params}(M){-}\text{Params}(m)\|{<}\Delta$ に有界であると仮定することが多い。 しかし、モデルはしばしばパラメータ空間において、与えられたデータセットの予測や精度をほとんど、あるいは全く変更することなく大きく変化する。 本研究では,データ多様体上の点に対する予測の変化が制限されるようなパラメータ空間の任意の変化を可能にする,数学的抽象化である \emph{naturally-occurring} model changeを導入する。 次に、ニューラルネットワークなどの微分可能なモデルに対する潜在的なモデル変化に対する反ファクトアルのロバスト性を定量化する尺度(emph{Stability})を提案する。 我々の主な貢献は、我々の測度によって定義される十分高い値の 'emph{Stability} の反ファクトアルが、高い確率で「自然帰納的」モデルが変化した後も有効であることを示すことである(独立ガウスのリプシッツ関数に対する平均濃度境界)。 私たちの定量化は、常に利用可能ではないデータポイント周辺の局所リプシッツ定数に依存するため、提案手法の実際的な緩和を検証し、モデル変更後も有効なニューラルネットワークの堅牢な反事実を見つけるためにどのように組み込むか実験的に実証する。 この研究はまた、モデル乗法(ラショモン効果とも呼ばれる)と興味深い関係を持つ。

There is an emerging interest in generating robust counterfactual explanations that would remain valid if the model is updated or changed even slightly. Towards finding robust counterfactuals, existing literature often assumes that the original model $m$ and the new model $M$ are bounded in the parameter space, i.e., $\|\text{Params}(M){-}\text{Params}(m)\|{<}\Delta$. However, models can often change significantly in the parameter space with little to no change in their predictions or accuracy on the given dataset. In this work, we introduce a mathematical abstraction termed \emph{naturally-occurring} model change, which allows for arbitrary changes in the parameter space such that the change in predictions on points that lie on the data manifold is limited. Next, we propose a measure -- that we call \emph{Stability} -- to quantify the robustness of counterfactuals to potential model changes for differentiable models, e.g., neural networks. Our main contribution is to show that counterfactuals with sufficiently high value of \emph{Stability} as defined by our measure will remain valid after potential ``naturally-occurring'' model changes with high probability (leveraging concentration bounds for Lipschitz function of independent Gaussians). Since our quantification depends on the local Lipschitz constant around a data point which is not always available, we also examine practical relaxations of our proposed measure and demonstrate experimentally how they can be incorporated to find robust counterfactuals for neural networks that are close, realistic, and remain valid after potential model changes. This work also has interesting connections with model multiplicity, also known as, the Rashomon effect.
翻訳日:2023-07-19 18:36:24 公開日:2023-07-18
# スポーツにおける多目的追跡のための反復的スケールアップIoUとディープ・フィーチャーズ・アソシエーション

Iterative Scale-Up ExpansionIoU and Deep Features Association for Multi-Object Tracking in Sports ( http://arxiv.org/abs/2306.13074v2 )

ライセンス: Link先を確認
Hsiang-Wei Huang, Cheng-Yen Yang, Jiacheng Sun, Jenq-Neng Hwang, Chung-I Huang(参考訳) マルチオブジェクトトラッキングアルゴリズムは、近年のオブジェクト検出の発展により、大幅に進歩している。 しかし、既存のほとんどの手法は、比較的単純で規則的な動きパターンを示す歩行者や車両の追跡に重点を置いている。 その結果、マルチスロットトラッキングのような不規則または非線形な動きを伴うターゲットの追跡に対処するアルゴリズムが不足している。 さらに、一般的な追跡アルゴリズムは、物体の動きがカルマンフィルタの線形運動仮定と矛盾する場合に物体を追跡するのに失敗する物体の運動モデリングにカルマンフィルタに依存することが多い。 そこで我々は,多対象追跡のためのIterative Scale-Up ExpansionIoUとDeep Featuresという,オンラインかつ堅牢な多対象追跡手法を提案する。 従来の手法とは異なり、カルマンフィルタの使用を放棄し、反復スケールアップ拡張IoUの利用を提案する。 このアプローチは、追加のトレーニングデータを必要としたり、より堅牢な検出器を採用することなく、他の外観に基づく手法と比較して計算コストを低く抑えながら、優れたトラッキング性能を実現する。 提案手法は不規則な運動物体の追跡において顕著な効果を示し, HOTAの76.9%のスコアを得た。 さまざまなスポーツシナリオをカバーするSportsMOTデータセット上で、最先端のトラッキングアルゴリズムをすべて上回る。

Multi-object tracking algorithms have made significant advancements due to the recent developments in object detection. However, most existing methods primarily focus on tracking pedestrians or vehicles, which exhibit relatively simple and regular motion patterns. Consequently, there is a scarcity of algorithms that address the tracking of targets with irregular or non-linear motion, such as multi-athlete tracking. Furthermore, popular tracking algorithms often rely on the Kalman filter for object motion modeling, which fails to track objects when their motion contradicts the linear motion assumption of the Kalman filter. Due to this reason, we proposed a novel online and robust multi-object tracking approach, named Iterative Scale-Up ExpansionIoU and Deep Features for multi-object tracking. Unlike conventional methods, we abandon the use of the Kalman filter and propose utilizing the iterative scale-up expansion IoU. This approach achieves superior tracking performance without requiring additional training data or adopting a more robust detector, all while maintaining a lower computational cost compared to other appearance-based methods. Our proposed method demonstrates remarkable effectiveness in tracking irregular motion objects, achieving a score of 76.9% in HOTA. It outperforms all state-of-the-art tracking algorithms on the SportsMOT dataset, covering various kinds of sport scenarios.
翻訳日:2023-07-19 18:29:57 公開日:2023-07-18
# 原点決定フローモデリングに関する学際的調査:理論と技術

An Interdisciplinary Survey on Origin-destination Flows Modeling: Theory and Techniques ( http://arxiv.org/abs/2306.10048v3 )

ライセンス: Link先を確認
Can Rong, Jingtao Ding, Yong Li(参考訳) 原点決定〜(OD)フローモデリングは、輸送における旅行需要の調査や地理における空間的相互作用モデリングなど、複数の分野にわたる広範な研究対象である。 しかし、異なる分野の研究者は独自の研究パラダイムを採用し、学際的なコミュニケーションが欠如しており、知識の相互受精や課題に対する新しい解決策の開発を妨げている。 本稿では,基本理論の活用から人口移動のメカニズムの研究,および計算モデルなどの工学的手法による実践的問題の解決に至るまで,ODフローを包括的かつ一括的に精査する系統的学際調査について述べる。 特に、地域経済学、都市地理学、社会物理学は、ODフローの基盤となるメカニズムを探求するために理論的な研究手法を採用することに長けている。 彼らは重力モデル、干渉機会モデル、放射モデルという3つの重要な理論モデルを開発した。 これらのモデルは, od流に対する距離, 機会, 人口の影響をそれぞれ検討することに焦点を当てている。 一方、交通、都市計画、計算機科学といった分野は、主にOD予測、OD構築、OD推定、OD予測の4つの実践的な問題に対処することに焦点を当てている。 ディープラーニングモデルのような高度な計算モデルは、これらの問題をより効果的に扱うために徐々に導入されている。 最後に,既存研究に基づき,現状の課題を概説し,今後の方向性を概説する。 本研究では,ODフロー関連研究における規律間の障壁を解消し,学際的視点と思考様式を育成することを目的とする。

Origin-destination~(OD) flow modeling is an extensively researched subject across multiple disciplines, such as the investigation of travel demand in transportation and spatial interaction modeling in geography. However, researchers from different fields tend to employ their own unique research paradigms and lack interdisciplinary communication, preventing the cross-fertilization of knowledge and the development of novel solutions to challenges. This article presents a systematic interdisciplinary survey that comprehensively and holistically scrutinizes OD flows from utilizing fundamental theory to studying the mechanism of population mobility and solving practical problems with engineering techniques, such as computational models. Specifically, regional economics, urban geography, and sociophysics are adept at employing theoretical research methods to explore the underlying mechanisms of OD flows. They have developed three influential theoretical models: the gravity model, the intervening opportunities model, and the radiation model. These models specifically focus on examining the fundamental influences of distance, opportunities, and population on OD flows, respectively. In the meantime, fields such as transportation, urban planning, and computer science primarily focus on addressing four practical problems: OD prediction, OD construction, OD estimation, and OD forecasting. Advanced computational models, such as deep learning models, have gradually been introduced to address these problems more effectively. Finally, based on the existing research, this survey summarizes current challenges and outlines future directions for this topic. Through this survey, we aim to break down the barriers between disciplines in OD flow-related research, fostering interdisciplinary perspectives and modes of thinking.
翻訳日:2023-07-19 18:29:33 公開日:2023-07-18
# 人工知能は本当に持続可能か? --人工知能とは何で、持続可能性変換に役立ちますか?

Artificial Intelligence for Real Sustainability? -- What is Artificial Intelligence and Can it Help with the Sustainability Transformation? ( http://arxiv.org/abs/2306.09204v2 )

ライセンス: Link先を確認
Rainer Rehak(参考訳) 人工知能(AI)と呼ばれる技術の破壊的可能性に関する議論は、みんなの口の上にあります。 企業や国も、グローバルなイノベーションを見逃さないように、数十億ドル規模の研究プログラムを運営している。 その他の多くのアプリケーションの中で、AIは持続可能な社会を実現するのに必要な大規模な変更を支援することを目的としている。 これらの主張と可能性を評価するために、この記事では、AI技術を簡潔に説明し、分類し、理論化する。 しかし、技術革新、特にAIに対する固定は、持続可能性の目標と手段に関する必要な社会的決定を単なる技術として覆い隠し、むしろ現実的で効果的な社会変革の努力を妨げている。

The discussion about the disruptive possibilities of a technology called artificial intelligence (AI) is on everyone's lips. Companies and countries alike are running multi-billion-dollar research programmes to ensure they do not miss out on the global innovation hunt. Among many other applications, AI is also supposed to aid the large-scale changes needed to achieve sustainable societies. To assess those claims and possibilities, this article briefly explains, classifies, and theorises AI technology and then politically contextualises that analysis in light of the sustainability discourse. Based on those insights it finally argues, that AI can play a small role in moving towards sustainable societies, however the fixation on technological innovation, especially AI, obscures and depoliticises the necessary societal decisions regarding sustainability goals and means as mere technicalities and therefore rather obstructs real and effective societal transformation efforts.
翻訳日:2023-07-19 18:28:47 公開日:2023-07-18
# UOD: 解剖学的ランドマークのユニバーサルワンショット検出

UOD: Universal One-shot Detection of Anatomical Landmarks ( http://arxiv.org/abs/2306.07615v5 )

ライセンス: Link先を確認
Heqin Zhu, Quan Quan, Qingsong Yao, Zaiyi Liu, S. Kevin Zhou(参考訳) ワンショット医療ランドマーク検出は、多くの注目を集め、ラベル効率の良いトレーニングプロセスで大きな成功を収める。 しかし、既存のワンショット学習手法は、単一のドメインに高度に特化しており、マルチドメイン未ラベルデータの状況において、ドメインの嗜好を著しく損なう。 さらに、ワンショット学習は、サブ最適イメージにアノテートした場合のパフォーマンス低下に直面するほど堅牢ではない。 これらの課題に対処するために,Universal One-shot Detection (UOD) という,多領域の医療画像を扱うためのドメイン適応型ワンショットランドマーク検出フレームワークを開発する。 UODは、ドメイン固有モジュールとドメイン共有モジュールの組み合わせとして設計された、2つのステージと2つの対応するユニバーサルモデルから構成される。 第1段階では、ドメイン適応畳み込みモデルが学習され、擬似ランドマークラベルを生成する。 第2段階では、ドメイン優先を排除し、マルチドメインデータのグローバルコンテキストを構築するために、ドメイン適応変換器を設計する。 各ドメインからの注釈付きサンプルは1つしかトレーニングできないが、ドメイン共有モジュールはUODがすべての一発サンプルを集約し、より堅牢で正確なランドマークを検出するのに役立つ。 解剖学的領域(頭,手,胸など)で広く利用されている3つの公開X線データセットの質的,定量的に検討し,各領域における最先端の成果を得た。 コードはhttps://github.com/heqin-zhu/uod_universal_oneshot_detectionで入手できる。

One-shot medical landmark detection gains much attention and achieves great success for its label-efficient training process. However, existing one-shot learning methods are highly specialized in a single domain and suffer domain preference heavily in the situation of multi-domain unlabeled data. Moreover, one-shot learning is not robust that it faces performance drop when annotating a sub-optimal image. To tackle these issues, we resort to developing a domain-adaptive one-shot landmark detection framework for handling multi-domain medical images, named Universal One-shot Detection (UOD). UOD consists of two stages and two corresponding universal models which are designed as combinations of domain-specific modules and domain-shared modules. In the first stage, a domain-adaptive convolution model is self-supervised learned to generate pseudo landmark labels. In the second stage, we design a domain-adaptive transformer to eliminate domain preference and build the global context for multi-domain data. Even though only one annotated sample from each domain is available for training, the domain-shared modules help UOD aggregate all one-shot samples to detect more robust and accurate landmarks. We investigated both qualitatively and quantitatively the proposed UOD on three widely-used public X-ray datasets in different anatomical domains (i.e., head, hand, chest) and obtained state-of-the-art performances in each domain. The code is available at https://github.com/heqin-zhu/UOD_universal_oneshot_detection.
翻訳日:2023-07-19 18:28:33 公開日:2023-07-18
# ランクへの統一オフポリシー学習:強化学習視点

Unified Off-Policy Learning to Rank: a Reinforcement Learning Perspective ( http://arxiv.org/abs/2306.07528v2 )

ライセンス: Link先を確認
Zeyu Zhang, Yi Su, Hui Yuan, Yiran Wu, Rishab Balasubramanian, Qingyun Wu, Huazheng Wang, Mengdi Wang(参考訳) Off-policy Learning to Rank (LTR)は、デプロイされたロギングポリシによって収集されたデータからランキングを最適化することを目的としている。 しかしながら、既存のオフポリシー学習とメソッドのランク付けは、ユーザがクリックデータ、すなわちクリックモデルをどのように生成するか、という強い仮定をもたらします。 本稿では,一般的な確率的クリックモデルに基づくランク付け過程をマルコフ決定過程 (MDP) として統合し,オフライン強化学習 (RL) を用いて最適なランク付けを学習する。 そこで我々は,オフポリチックLTRのオフラインRL技術を活用し,Click Model-Agnostic Unified Off-policy Learning to Rank (CUOLR)法を提案する。 MDPの専用定式化により、オフラインRLアルゴリズムは複雑なデバイアス技術やモデルの事前知識を使わずに様々なクリックモデルに適応できることを示す。 さまざまな大規模データセットの結果から、CUOLRは、さまざまなクリックモデルの下で一貫性と堅牢性を保ちながら、アルゴリズムをランク付けする最先端のオフポリシー学習を一貫して上回ります。

Off-policy Learning to Rank (LTR) aims to optimize a ranker from data collected by a deployed logging policy. However, existing off-policy learning to rank methods often make strong assumptions about how users generate the click data, i.e., the click model, and hence need to tailor their methods specifically under different click models. In this paper, we unified the ranking process under general stochastic click models as a Markov Decision Process (MDP), and the optimal ranking could be learned with offline reinforcement learning (RL) directly. Building upon this, we leverage offline RL techniques for off-policy LTR and propose the Click Model-Agnostic Unified Off-policy Learning to Rank (CUOLR) method, which could be easily applied to a wide range of click models. Through a dedicated formulation of the MDP, we show that offline RL algorithms can adapt to various click models without complex debiasing techniques and prior knowledge of the model. Results on various large-scale datasets demonstrate that CUOLR consistently outperforms the state-of-the-art off-policy learning to rank algorithms while maintaining consistency and robustness under different click models.
翻訳日:2023-07-19 18:28:05 公開日:2023-07-18
# リプシッツ正則化による過密緩和

Mitigating Transformer Overconfidence via Lipschitz Regularization ( http://arxiv.org/abs/2306.06849v2 )

ライセンス: Link先を確認
Wenqian Ye, Yunsheng Ma, Xu Cao, Kun Tang(参考訳) トランスフォーマーは多くのコンピュータビジョンタスクにおいて有望な結果を達成してきたが、標準のDot Product Self-Attention (DPSA) は、境界のない入力領域までの距離をほとんど保たないため、予測に過信する傾向にある。 本稿では,新しいリプシッツ正規化変換器(LRFormer)を提案することにより,このギャップを埋める。 具体的には、バナッハ空間内の距離を持つ新しい類似関数を示し、リプシッツ性を保証するとともに、契約的なリプシッツ境界によってこの項を正規化する。 提案手法は理論的保証により解析され,その有効性と信頼性の厳密な基礎を提供する。 本手法は, 予測, 校正, 不確実性評価において, 最先端のシングルフォワードパス手法よりも優れていることを示す。

Though Transformers have achieved promising results in many computer vision tasks, they tend to be over-confident in predictions, as the standard Dot Product Self-Attention (DPSA) can barely preserve distance for the unbounded input domain. In this work, we fill this gap by proposing a novel Lipschitz Regularized Transformer (LRFormer). Specifically, we present a new similarity function with the distance within Banach Space to ensure the Lipschitzness and also regularize the term by a contractive Lipschitz Bound. The proposed method is analyzed with a theoretical guarantee, providing a rigorous basis for its effectiveness and reliability. Extensive experiments conducted on standard vision benchmarks demonstrate that our method outperforms the state-of-the-art single forward pass approaches in prediction, calibration, and uncertainty estimation.
翻訳日:2023-07-19 18:27:42 公開日:2023-07-18
# 高電荷hoおよびdyイオンの結合エネルギー差の計算

Calculations of the binding-energy differences for highly-charged Ho and Dy ions ( http://arxiv.org/abs/2306.03176v2 )

ライセンス: Link先を確認
I. M. Savelyev, M. Y. Kaygorodov, Y. S. Kozhedub, I. I. Tupitsyn, and V. M. Shabaev(参考訳) イオン化度が$q=38$、$39$、$40$の結合エネルギー差は$^{163}\mathrm{Ho}^{q+}$と$^{163}\mathrm{Dy}^{q+}$の結合エネルギー差を計算する。 計算は大規模相対論的構成相互作用と相対論的結合クラスタ法を用いて行われる。 量子電気力学、核反動、周波数依存性のブライト-相互作用効果の寄与を考慮する。 最終的な不確実性は1ドルeVを超えない。 得られた結果と[Savelyev et al., Phys. A 105, 012806 (2022)]で計算された中性原子の結合エネルギー差を組み合わせることで、イオン-原子結合エネルギーの二次的な違いが得られる。 これらの値は、高電荷イオン$^{163}\mathrm{Ho}^{q+}$と$^{163}\mathrm{Dy}^{q+}$の質量差が実験から知られているように、電子捕獲過程で放出されるエネルギーの量を評価するために用いられる。 Q$値はベータデカイ過程を研究することによって電子ニュートリノ質量の絶対スケールを決定する実験によって要求される。

The binding-energy differences for $^{163}\mathrm{Ho}^{q+}$ and $^{163}\mathrm{Dy}^{q+}$ ions with ionization degrees $q = 38$, $39$, and $40$ are calculated. The calculations are performed using the large-scale relativistic configuration-interaction and relativistic coupled-clusters methods. The contributions from quantum-electrodynamics, nuclear-recoil, and frequency-dependent Breit-interaction effects are taken into account. The final uncertainty does not exceed $1$ eV. Combining the obtained results with the binding-energy difference for neutral atoms calculated in [Savelyev et al., Phys. Rev. A 105, 012806 (2022)], we get the secondary differences of the ion-atom binding energies. These values can be used to evaluate the amount of energy released in the electron capture process in $^{163}\mathrm{Ho}$ atom (the $Q$ value), provided mass differences of highly charged ions $^{163}\mathrm{Ho}^{q+}$ and $^{163}\mathrm{Dy}^{q+}$ is known from experiment. The $Q$ value is required by experiments on the determination of the absolute scale of the electron neutrino mass by studying the beta-decay process.
翻訳日:2023-07-19 18:27:26 公開日:2023-07-18
# 複合粒子双対性:位相量子物質の新しいクラス

The Composite Particle Duality: A New Class of Topological Quantum Matter ( http://arxiv.org/abs/2306.00825v2 )

ライセンス: Link先を確認
Gerard Valent\'i-Rojas, Joel Priestley and Patrik \"Ohberg(参考訳) 複合粒子双対性は2+1$\text{D}$を超える時空次元におけるフラックスアタッチメントと統計的変換の概念を拡張する。 これは理論的な枠組みとして、あるいは動的物理的メカニズムとして理解できる正確な対応を構成する。 双対性の直接的な含意は、任意の次元の相互作用する量子系が、あるゲージ場に結合された場合、その統計特性の修正を経験できるということである。 言い換えれば、量子場の可換関係は動的物理過程によって効果的に修正することができる。 例えば、d空間次元のボソニック量子流体は、統計ゲージ場と結合すると、複合フェルミオン(あるいはアノニオン)励起を特徴付けることができる。 上記の合成ゲージ場の明示的な形式を$\text{D} \le 3 + 1$ で計算する。 これは格子系と連続系の両方の次元にわたる位相位相の新しい領域への扉を開く。

The composite particle duality extends the notions of both flux attachment and statistical transmutation in spacetime dimensions beyond 2+1$\text{D}$. It constitutes an exact correspondence that can be understood either as a theoretical framework or as a dynamical physical mechanism. The immediate implication of the duality is that an interacting quantum system in arbitrary dimensions can experience a modification of its statistical properties if coupled to a certain gauge field. In other words, commutation relations of quantum fields can be effectively modified by a dynamical physical process. For instance, an originally bosonic quantum fluid in d spatial dimensions can feature composite fermionic (or anyonic) excitations when coupled to a statistical gauge field. We compute the explicit form of the aforementioned synthetic gauge fields in $\text{D} \le 3 + 1$. This opens the door to a new realm of topological phases across dimensions both in lattice and continuum systems.
翻訳日:2023-07-19 18:27:02 公開日:2023-07-18
# 3次元フェルミオン物質中の渦ループダイナミクスと動的量子相転移

Vortex loop dynamics and dynamical quantum phase transitions in 3D fermion matter ( http://arxiv.org/abs/2307.02985v2 )

ライセンス: Link先を確認
Arkadiusz Kosior, Markus Heyl(参考訳) 本研究では, 一般非相互作用フェルミオン格子モデルにおけるグリーン関数の相における渦特異点の挙動を, 瞬時クエンチ後の3次元で検討する。 渦の全集合が1次元の動的物体を形成しており、渦ループと呼ばれる。 そのような渦ループの数は、異なる非平衡位相を区別する量子化順序パラメータとして解釈できる。 この順序パラメータの変化は、動的量子相転移(DQPT)と関連していることを示す。 この結果は3次元の一般格子モデルに適用できる。 具体的には、単純二バンドワイル半金属の文脈でそれらを示す。 また, 渦ループが弱い相互作用系で生き残ることを示す。 最後に, 渦ループは, バンドタッチワイルノードの存在により運動量空間の複雑な動的パターンを形成することが観察された。 本研究は,非平衡系における動的順序パラメータの定義の開発に有用な知見を提供する。

In this study, we investigate the behavior of vortex singularities in the phase of the Green's function of a general non-interacting fermionic lattice model in three dimensions after an instantaneous quench. We find that the full set of vortices form one-dimensional dynamical objects, which we call vortex loops. The number of such vortex loops can be interpreted as a quantized order parameter that distinguishes between different non-equilibrium phases. We show that changes in this order parameter are related to dynamical quantum phase transitions (DQPTs). Our results are applicable to general lattice models in three dimensions. For concreteness, we present them in the context of a simple two-band Weyl semimetal. We also show that the vortex loops survive in weakly interacting systems. Finally, we observe that vortex loops can form complex dynamical patterns in momentum space due to the existence of band touching Weyl nodes. Our findings provide valuable insights for developing definitions of dynamical order parameters in non-equilibrium systems.
翻訳日:2023-07-19 18:19:17 公開日:2023-07-18
# 局所固有次元を用いた深部拡散モデルによる画像の検出

Detecting Images Generated by Deep Diffusion Models using their Local Intrinsic Dimensionality ( http://arxiv.org/abs/2307.02347v2 )

ライセンス: Link先を確認
Peter Lorenz, Ricard Durall and Janis Keuper(参考訳) 近年,非常にリアルな画像の視覚的合成に拡散モデルが適用されている。 これにより、悪質な目的に対する潜在的な懸念が高まる。 本稿では,合成画像の自動検出とそれに基づく生成ネットワークの同定のために,元来,敵対例の検出の文脈で開発された軽量なマルチローカル固有次元(multiLID)を提案する。 GAN生成画像に対してのみ動作する多くの既存の検出手法とは対照的に,提案手法は現実的なユースケースの多くにおいて,ほぼ完璧な検出結果を提供する。 既知のデータセットと新たに作成されたデータセットに関する広範な実験は、提案手法が拡散検出とモデル同定において優れていることを示している。 生成画像の検出に関する最近の出版物の実証的評価は、主に「lsun-bedroom」データセットに焦点を当てているため、画像サイズが異なる複数の拡散モデルからのサンプルを含む拡散生成画像の検出に関する包括的なベンチマークを確立する。

Diffusion models recently have been successfully applied for the visual synthesis of strikingly realistic appearing images. This raises strong concerns about their potential for malicious purposes. In this paper, we propose using the lightweight multi Local Intrinsic Dimensionality (multiLID), which has been originally developed in context of the detection of adversarial examples, for the automatic detection of synthetic images and the identification of the according generator networks. In contrast to many existing detection approaches, which often only work for GAN-generated images, the proposed method provides close to perfect detection results in many realistic use cases. Extensive experiments on known and newly created datasets demonstrate that the proposed multiLID approach exhibits superiority in diffusion detection and model identification. Since the empirical evaluations of recent publications on the detection of generated images are often mainly focused on the "LSUN-Bedroom" dataset, we further establish a comprehensive benchmark for the detection of diffusion-generated images, including samples from several diffusion models with different image sizes.
翻訳日:2023-07-19 18:19:05 公開日:2023-07-18
# 非コントラストCTにおけるストローク病変分割と画像-ラベル拡散確率モデル

Synchronous Image-Label Diffusion Probability Model with Application to Stroke Lesion Segmentation on Non-contrast CT ( http://arxiv.org/abs/2307.01740v2 )

ライセンス: Link先を確認
Jianhai Zhang and Tonghua Wan and Ethan MacDonald and Bijoy Menon and Aravind Ganesh and Qiu Wu(参考訳) 急性虚血性脳卒中(AIS)患者の予後を評価するため, ストローク病変容積は重要なX線学的指標であり, 非コントラストCT(NCCT)スキャンでは自動測定が困難である。 最近の拡散確率モデルは、画像分割に使用される可能性を示している。 本稿では,マルコフ拡散法を用いてNCCTの脳梗塞セグメント化を行うために,シンクロナス画像ラベル拡散確率モデル(SDPM)を提案する。 提案したSDPMはLVM(Latent Variable Model)を完全にベースとしており、完全な確率的エラボレーションを提供する。 ノイズ予測ストリームと平行な追加のネットストリームを導入し、最終ラベルを効率的に推定するための初期ノイズラベル推定値を得る。 特定の変動境界を最適化することにより、トレーニングされたモデルは、ノイズのある入力画像から基準値に対する複数のラベル推定を推測することができる。 提案モデルは1つの公開データセットと2つのプライベートデータセットを含む3つの脳卒中病変データセットで評価された。 いくつかのu-netおよびtransformerベースのセグメンテーション手法と比較して,提案するsdpmモデルは最先端の性能を実現することができる。 コードは公開されている。

Stroke lesion volume is a key radiologic measurement for assessing the prognosis of Acute Ischemic Stroke (AIS) patients, which is challenging to be automatically measured on Non-Contrast CT (NCCT) scans. Recent diffusion probabilistic models have shown potentials of being used for image segmentation. In this paper, a novel Synchronous image-label Diffusion Probability Model (SDPM) is proposed for stroke lesion segmentation on NCCT using Markov diffusion process. The proposed SDPM is fully based on a Latent Variable Model (LVM), offering a complete probabilistic elaboration. An additional net-stream, parallel with a noise prediction stream, is introduced to obtain initial noisy label estimates for efficiently inferring the final labels. By optimizing the specified variational boundaries, the trained model can infer multiple label estimates for reference given the input images with noises. The proposed model was assessed on three stroke lesion datasets including one public and two private datasets. Compared to several U-net and transformer-based segmentation methods, our proposed SDPM model is able to achieve state-of-the-art performance. The code is publicly available.
翻訳日:2023-07-19 18:18:47 公開日:2023-07-18
# ワイヤマスク誘導ブラックボックス最適化によるマクロ配置

Macro Placement by Wire-Mask-Guided Black-Box Optimization ( http://arxiv.org/abs/2306.16844v2 )

ライセンス: Link先を確認
Yunqi Shi, Ke Xue, Lei Song, Chao Qian(参考訳) 超大規模統合(VLSI)技術の開発は、チップフロアプランニングにおける電子設計自動化(EDA)技術に新たな課題を提起している。 この過程において、マクロ配置は重要なサブプロブレムであり、全マクロの位置を最小化することと重なりを避けることを目的として決定しようとする。 以前の方法としては、パッキングベース、分析、強化学習法がある。 本稿では,マクロ配置のための新しいblack-box optimization(bbo)フレームワーク(wiremask-bbo)を提案する。 異なるBBOアルゴリズムを組み込んだWireMask-BBOは、経験的に従来の手法よりも大幅に改善し、より少ない時間でHPWLを大幅に短縮する。 さらに、既存の配置を初期解として微調整することで、hpwlの50%の改善をもたらすことができる。 WireMask-BBOは、チップフロアプランニングの品質と効率を大幅に改善する可能性があり、EDAの研究者や実践者にアピールし、BBOの適用を促進する。

The development of very large-scale integration (VLSI) technology has posed new challenges for electronic design automation (EDA) techniques in chip floorplanning. During this process, macro placement is an important subproblem, which tries to determine the positions of all macros with the aim of minimizing half-perimeter wirelength (HPWL) and avoiding overlapping. Previous methods include packing-based, analytical and reinforcement learning methods. In this paper, we propose a new black-box optimization (BBO) framework (called WireMask-BBO) for macro placement, by using a wire-mask-guided greedy procedure for objective evaluation. Equipped with different BBO algorithms, WireMask-BBO empirically achieves significant improvements over previous methods, i.e., achieves significantly shorter HPWL by using much less time. Furthermore, it can fine-tune existing placements by treating them as initial solutions, which can bring up to 50% improvement in HPWL. WireMask-BBO has the potential to significantly improve the quality and efficiency of chip floorplanning, which makes it appealing to researchers and practitioners in EDA and will also promote the application of BBO.
翻訳日:2023-07-19 18:18:09 公開日:2023-07-18
# ブラジルポルトガル語の文法的誤り訂正におけるGPT-3.5とGPT-4の評価

Evaluating GPT-3.5 and GPT-4 on Grammatical Error Correction for Brazilian Portuguese ( http://arxiv.org/abs/2306.15788v2 )

ライセンス: Link先を確認
Maria Carolina Penteado, F\'abio Perez(参考訳) ブラジルポルトガル語の文法誤り訂正(GEC)ツールとして, GPT-3.5 と GPT-4 の有効性について検討し,Microsoft Word と Google Docs を比較した。 ブラジルポルトガル語のGECデータセットには,文法,スペリング,インターネット,高速タイピングの4つのカテゴリがある。 以上の結果より, GPT-4は他の方法よりも高いリコール率を示したが, LLMの精度は低くなり, 過補正が生じる傾向にあった。 本研究は,ブラジルポルトガル語の実践的 GEC ツールとしての LLM の可能性を示し,英語以外の教育環境における LLM のさらなる探索を奨励するものである。

We investigate the effectiveness of GPT-3.5 and GPT-4, two large language models, as Grammatical Error Correction (GEC) tools for Brazilian Portuguese and compare their performance against Microsoft Word and Google Docs. We introduce a GEC dataset for Brazilian Portuguese with four categories: Grammar, Spelling, Internet, and Fast typing. Our results show that while GPT-4 has higher recall than other methods, LLMs tend to have lower precision, leading to overcorrection. This study demonstrates the potential of LLMs as practical GEC tools for Brazilian Portuguese and encourages further exploration of LLMs for non-English languages and other educational settings.
翻訳日:2023-07-19 18:17:50 公開日:2023-07-18
# 確率的因果モデルを用いた高忠実度画像対策

High Fidelity Image Counterfactuals with Probabilistic Causal Models ( http://arxiv.org/abs/2306.15764v2 )

ライセンス: Link先を確認
Fabio De Sousa Ribeiro, Tian Xia, Miguel Monteiro, Nick Pawlowski, Ben Glocker(参考訳) 深い構造因果モデルを用いた高忠実度画像反事実の正確な推定のための一般的な因果生成モデルフレームワークを提案する。 画像などの高次元構造化変数に対する干渉的および反実的クエリの推定は、依然として難しい課題である。 我々は、因果媒介分析のアイデアと生成モデリングの進歩を活用し、因果モデルにおける構造変数の新しい深い因果機構を設計する。 実験により, 提案機構は, 直接的, 間接的, 全体的効果を, 反事実の公理的健全性によって正確に推定できることを示した。

We present a general causal generative modelling framework for accurate estimation of high fidelity image counterfactuals with deep structural causal models. Estimation of interventional and counterfactual queries for high-dimensional structured variables, such as images, remains a challenging task. We leverage ideas from causal mediation analysis and advances in generative modelling to design new deep causal mechanisms for structured variables in causal models. Our experiments demonstrate that our proposed mechanisms are capable of accurate abduction and estimation of direct, indirect and total effects as measured by axiomatic soundness of counterfactuals.
翻訳日:2023-07-19 18:17:36 公開日:2023-07-18
# SparseOptimizer: Moreau-Yosida正規化による言語モデルのスパース化とコンパイラ共設計による高速化

SparseOptimizer: Sparsify Language Models through Moreau-Yosida Regularization and Accelerate via Compiler Co-design ( http://arxiv.org/abs/2306.15656v3 )

ライセンス: Link先を確認
Fu-Ming Guo(参考訳) 本稿では、モロー・ヨシダ正規化を利用してBERT、ALBERT、GPTなどの大規模言語モデルにおいて、自然に空間性を誘導する新しいディープラーニングオプティマイザであるSparseOptimizerを紹介する。 スパースオプティマイザの設計の鍵は、最適化プロセス内で直接スパース性を与える埋め込み縮小演算子である。 この演算子は、音理論の枠組みによって支えられ、解析的な解を含み、最適化者の堅牢性と有効性を補強する。 重要なことに、SparseOptimizerのプラグイン・アンド・プレイ機能は、コード修正の必要性を排除し、幅広い大きな言語モデルに対して普遍的に適応可能なツールである。 GLUE, RACE, SQuAD1, SQuAD2などのベンチマークデータセットに対する実証的な評価では、SparseOptimizerを使用してスパースされたSparseBERTとSparseALBERTが、密度の高いBERTとALBERTに匹敵するパフォーマンスを実現し、パラメータ数を大幅に削減した。 さらに本研究では,pytorch,tensorflow,llvmジェネリックコンパイルと比較して,sparsebertにおける推論加速度(\textbf{3.37x}, \textbf{6.30x}, \textbf{7.15x})の可能性を示す,革新的なオプティマイザ・コンパイラの共同設計戦略を提案する。 この研究は、効率的でスケーラブルでハイパフォーマンスな大規模言語モデルの進化における重要な一歩であり、この領域における将来の探索と最適化の先例となる。 SparseOptimizerコードとSparseALBERTモデルは、論文の受理時に公開される。

This paper introduces SparseOptimizer, a novel deep learning optimizer that exploits Moreau-Yosida regularization to naturally induce sparsity in large language models such as BERT, ALBERT and GPT. Key to the design of SparseOptimizer is an embedded shrinkage operator, which imparts sparsity directly within the optimization process. This operator, backed by a sound theoretical framework, includes an analytical solution, thereby reinforcing the optimizer's robustness and efficacy. Crucially, SparseOptimizer's plug-and-play functionality eradicates the need for code modifications, making it a universally adaptable tool for a wide array of large language models. Empirical evaluations on benchmark datasets such as GLUE, RACE, SQuAD1, and SQuAD2 confirm that SparseBERT and SparseALBERT, when sparsified using SparseOptimizer, achieve performance comparable to their dense counterparts, BERT and ALBERT, while significantly reducing their parameter count. Further, this work proposes an innovative optimizer-compiler co-design strategy, demonstrating the potential of inference acceleration (\textbf{3.37x}, \textbf{6.30x}, and \textbf{7.15x} in comparison with Pytorch, TensorFlow, and LLVM generic compile, respectively) in SparseBERT when paired with an appropriately designed compiler. This study represents a significant step forward in the evolution of efficient, scalable, and high-performing large language models, setting a precedent for future exploration and optimization in this domain. The SparseOptimizer code and SparseALBERT model will be publicly available upon paper acceptance.
翻訳日:2023-07-19 18:17:24 公開日:2023-07-18
# 幾何超音波局在顕微鏡

Geometric Ultrasound Localization Microscopy ( http://arxiv.org/abs/2306.15548v3 )

ライセンス: Link先を確認
Christopher Hahne and Raphael Sznitman(参考訳) 造影超音波(CEUS)は、医学診断における非侵襲的、動的可視化の有効な方法となっているが、超音波局在顕微鏡(ULM)は10倍の高分解能を提供することで、画期的なブレークスルーを実現している。 現在までに、遅延アンドサム(DAS)ビームフォーマを使用してULMフレームをレンダリングし、最終的に画像解像度の能力を決定する。 ULMを最大限に活用するために,本研究では,ビームフォーミングがULMの最も効果的な処理ステップであるかどうかを疑問視し,TDoA情報のみに依存する代替手法を提案する。 この目的のために, 既存のビームフォーミング限界を克服するために, 楕円交差による微小気泡局在のための新しい幾何学的枠組みを提案する。 本稿では,既存のベースライン法よりも精度とロバスト性が優れており,利用可能なトランスデューサデータの一部のみを活用できる公開データセットに基づくベンチマーク比較を行う。

Contrast-Enhanced Ultra-Sound (CEUS) has become a viable method for non-invasive, dynamic visualization in medical diagnostics, yet Ultrasound Localization Microscopy (ULM) has enabled a revolutionary breakthrough by offering ten times higher resolution. To date, Delay-And-Sum (DAS) beamformers are used to render ULM frames, ultimately determining the image resolution capability. To take full advantage of ULM, this study questions whether beamforming is the most effective processing step for ULM, suggesting an alternative approach that relies solely on Time-Difference-of-Arrival (TDoA) information. To this end, a novel geometric framework for micro bubble localization via ellipse intersections is proposed to overcome existing beamforming limitations. We present a benchmark comparison based on a public dataset for which our geometric ULM outperforms existing baseline methods in terms of accuracy and robustness while only utilizing a portion of the available transducer data.
翻訳日:2023-07-19 18:16:45 公開日:2023-07-18
# 重み付き平均確率勾配降下:漸近正規性と最適性

Weighted Averaged Stochastic Gradient Descent: Asymptotic Normality and Optimality ( http://arxiv.org/abs/2307.06915v2 )

ライセンス: Link先を確認
Ziyang Wei, Wanrong Zhu, Wei Biao Wu(参考訳) Stochastic Gradient Descent (SGD) は、その計算とメモリ効率により、現代の統計学と機械学習において最も単純かつ最も人気のあるアルゴリズムの1つである。 異なる環境でのSGDの収束を加速する様々な平均化スキームが提案されている。 本稿では,SGDの一般的な平均化手法について検討する。 具体的には、幅広い重み付き平均SGDソリューションの漸近正規性を確立し、漸近的に有効なオンライン推論手法を提供する。 さらに, 線形モデルの最適重みから, 非漸近平均二乗誤差(MSE)の観点から, 最適統計率と良好な非漸近収束性の両方を示す適応平均化手法を提案する。

Stochastic Gradient Descent (SGD) is one of the simplest and most popular algorithms in modern statistical and machine learning due to its computational and memory efficiency. Various averaging schemes have been proposed to accelerate the convergence of SGD in different settings. In this paper, we explore a general averaging scheme for SGD. Specifically, we establish the asymptotic normality of a broad range of weighted averaged SGD solutions and provide asymptotically valid online inference approaches. Furthermore, we propose an adaptive averaging scheme that exhibits both optimal statistical rate and favorable non-asymptotic convergence, drawing insights from the optimal weight for the linear model in terms of non-asymptotic mean squared error (MSE).
翻訳日:2023-07-19 18:10:38 公開日:2023-07-18
# DLモデルとトレーニング環境はエネルギー消費に影響を及ぼすか?

Do DL models and training environments have an impact on energy consumption? ( http://arxiv.org/abs/2307.05520v2 )

ライセンス: Link先を確認
Santiago del Rey, Silverio Mart\'inez-Fern\'andez, Lu\'is Cruz, Xavier Franch(参考訳) 最近のコンピュータビジョン分野の研究は、深層学習(dl)の正確性と推論時間パフォーマンスの改善に重点を置いている。 しかし、dlモデルをトレーニングする巨大なカーボンフットプリントの作業はまだほとんどありません。 本研究の目的は,グリーンコンピュータビジョンモデルの学習におけるモデルアーキテクチャと学習環境の影響を分析することである。 私たちはこの目標を2つの研究課題に分ける。 まず, 最適レベルに正確性を維持しつつ, グリーンモデル達成に対するモデルアーキテクチャの影響を分析する。 第2に, 学習環境がグリーンモデル形成に及ぼす影響について検討した。 これらの関係を調べるために,モデルのトレーニング中にエネルギー効率とモデルの正しさに関する複数の指標を収集する。 次に,実測エネルギー効率とモデルアーキテクチャに関するモデルの正確性とのトレードオフと,それらの訓練環境との関係について概説する。 我々はこの研究を,画像分類のためのコンピュータビジョンシステムの文脈で実施する。 結論として,適切なモデルアーキテクチャとトレーニング環境を選択することで,正当性を損なうことなくエネルギー消費量を劇的に削減(最大98.83%)できることを示した。 また、GPUがよりエネルギー効率を高めるために、モデルの計算複雑性とともにスケールすべきであることを示す。

Current research in the computer vision field mainly focuses on improving Deep Learning (DL) correctness and inference time performance. However, there is still little work on the huge carbon footprint that has training DL models. This study aims to analyze the impact of the model architecture and training environment when training greener computer vision models. We divide this goal into two research questions. First, we analyze the effects of model architecture on achieving greener models while keeping correctness at optimal levels. Second, we study the influence of the training environment on producing greener models. To investigate these relationships, we collect multiple metrics related to energy efficiency and model correctness during the models' training. Then, we outline the trade-offs between the measured energy efficiency and the models' correctness regarding model architecture, and their relationship with the training environment. We conduct this research in the context of a computer vision system for image classification. In conclusion, we show that selecting the proper model architecture and training environment can reduce energy consumption dramatically (up to 98.83%) at the cost of negligible decreases in correctness. Also, we find evidence that GPUs should scale with the models' computational complexity for better energy efficiency.
翻訳日:2023-07-19 18:09:41 公開日:2023-07-18
# 大規模言語モデルにおけるRLHFの秘密(1):PPO

Secrets of RLHF in Large Language Models Part I: PPO ( http://arxiv.org/abs/2307.04964v2 )

ライセンス: Link先を確認
Rui Zheng, Shihan Dou, Songyang Gao, Yuan Hua, Wei Shen, Binghai Wang, Yan Liu, Senjie Jin, Qin Liu, Yuhao Zhou, Limao Xiong, Lu Chen, Zhiheng Xi, Nuo Xu, Wenbin Lai, Minghao Zhu, Cheng Chang, Zhangyue Yin, Rongxiang Weng, Wensen Cheng, Haoran Huang, Tianxiang Sun, Hang Yan, Tao Gui, Qi Zhang, Xipeng Qiu, Xuanjing Huang(参考訳) 大規模言語モデル(llm)は、人工知能の進歩のための青写真を形成する。 主な目的は、人間中心(人間中心、正直で無害な)アシスタントとして機能することである。 人間とのアライメントが最重要視され、人間のフィードバックによる強化学習(RLHF)がこの追求を支える重要な技術パラダイムとして出現する。 現在の技術ルートには、人間の好みを測定するための \textbf{reward models}、ポリシーモデルの出力を最適化する \textbf{proximal policy optimization} (ppo)、ステップバイステップの推論能力を改善するための \textbf{process supervisor}が含まれる。 しかし、報酬設計、環境相互作用、エージェントトレーニングといった課題と、大規模な言語モデルの巨大な試行とエラーコストが相まって、ai研究者が技術的アライメントとllmの安全なランディングの開発を動機付けるための大きな障壁がある。 RLHFの安定した訓練は未だにパズルである。 第1報では、RLHFの枠組みを解明し、PPOの内部構造を再評価し、PPOアルゴリズムを構成する部分が政策エージェントの訓練にどのように影響するかを考察する。 PPOアルゴリズムの効果的な実装の鍵となる要因は政策制約である。 そこで我々は,PPOアルゴリズムの高度なバージョンであるPPO-maxを探索し,政策モデルのトレーニング安定性を効率的に向上する。 本研究の主な成果に基づき,SFTモデルやChatGPTと比較して,RLHF能力の包括的解析を行う。 オープンソース実装の欠如は、LCMのアライメントの調査に重大な課題をもたらした。 そこで我々は,LLMの進歩に控えめな貢献を目指して,技術報告,報酬モデル,PPOコードをリリースすることを熱望している。

Large language models (LLMs) have formulated a blueprint for the advancement of artificial general intelligence. Its primary objective is to function as a human-centric (helpful, honest, and harmless) assistant. Alignment with humans assumes paramount significance, and reinforcement learning with human feedback (RLHF) emerges as the pivotal technological paradigm underpinning this pursuit. Current technical routes usually include \textbf{reward models} to measure human preferences, \textbf{Proximal Policy Optimization} (PPO) to optimize policy model outputs, and \textbf{process supervision} to improve step-by-step reasoning capabilities. However, due to the challenges of reward design, environment interaction, and agent training, coupled with huge trial and error cost of large language models, there is a significant barrier for AI researchers to motivate the development of technical alignment and safe landing of LLMs. The stable training of RLHF has still been a puzzle. In the first report, we dissect the framework of RLHF, re-evaluate the inner workings of PPO, and explore how the parts comprising PPO algorithms impact policy agent training. We identify policy constraints being the key factor for the effective implementation of the PPO algorithm. Therefore, we explore the PPO-max, an advanced version of PPO algorithm, to efficiently improve the training stability of the policy model. Based on our main results, we perform a comprehensive analysis of RLHF abilities compared with SFT models and ChatGPT. The absence of open-source implementations has posed significant challenges to the investigation of LLMs alignment. Therefore, we are eager to release technical reports, reward models and PPO codes, aiming to make modest contributions to the advancement of LLMs.
翻訳日:2023-07-19 18:09:24 公開日:2023-07-18
# 生成モデルに基づくワンショットアンラーニングのためのグラディエント手術

Gradient Surgery for One-shot Unlearning on Generative Model ( http://arxiv.org/abs/2307.04550v2 )

ライセンス: Link先を確認
Seohui Bae, Seoyoon Kim, Hyemin Jung, Woohyung Lim(参考訳) 近年では、未学習の事前学習機械学習モデルへの関心が高まっている。 しかし最近の機械学習手法では、重みを更新して重みパラメータへの影響を除去することでサンプルを解放している。 本稿では, 深層生成モデルに影響を及ぼすデータを取り除くための, 単純かつ効果的な手法を提案する。 マルチタスク学習における作業に着想を得て,保持する勾配の正規面に勾配を投影することにより,サンプル間の影響の相互作用を規則化する勾配操作を提案する。 本研究は, 抽出サンプルの統計に非依存であり, 既存のベースラインを上回り, 生成モデルを未学習で初めて理論的解析を行った。

Recent regulation on right-to-be-forgotten emerges tons of interest in unlearning pre-trained machine learning models. While approximating a straightforward yet expensive approach of retrain-from-scratch, recent machine unlearning methods unlearn a sample by updating weights to remove its influence on the weight parameters. In this paper, we introduce a simple yet effective approach to remove a data influence on the deep generative model. Inspired by works in multi-task learning, we propose to manipulate gradients to regularize the interplay of influence among samples by projecting gradients onto the normal plane of the gradients to be retained. Our work is agnostic to statistics of the removal samples, outperforming existing baselines while providing theoretical analysis for the first time in unlearning a generative model.
翻訳日:2023-07-19 18:08:38 公開日:2023-07-18
# 量子プロセッサのためのハイブリッド量子-古典的生成逆数ネットワーク

A Hybrid Quantum-Classical Generative Adversarial Network for Near-Term Quantum Processors ( http://arxiv.org/abs/2307.03269v2 )

ライセンス: Link先を確認
Albha O'Dwyer Boyle and Reza Nikandish(参考訳) 本稿では,近距離量子プロセッサのためのハイブリッド量子古典生成逆数ネットワーク(GAN)を提案する。 ハイブリッドGANは、ジェネレータと識別器量子ニューラルネットワーク(QNN)とを備える。 生成ネットワークは、角符号化量子回路と変分量子アンサッツを用いて実現される。 識別器ネットワークは、多段トレーニング可能な量子回路を用いて実現される。 QNNでは,その深度を制御し,精度と回路複雑度を妥協するモジュール設計手法が提案されている。 ジェネレータと判別器ネットワークの損失関数の勾配は、その実装に使用される同じ量子回路を用いて導出される。 これにより、余分な量子回路や補助量子ビットが不要になる。 量子シミュレーションはIBM Qiskitオープンソースソフトウェア開発キット(SDK)を用いて行われ、ハイブリッド量子古典的GANのトレーニングは、古典的コンピュータ上でのミニバッチ確率勾配勾配(SGD)最適化を用いて行われる。 ハイブリッド量子古典的GANは、異なる識別器ネットワーク構造を持つ2量子システムを用いて実装される。 5段判別器ネットワークを用いて実現されたハイブリッドGANは、63個の量子ゲートと31個のトレーニング可能なパラメータから構成され、実データ分布と生成されたデータ分布の類似性のために、それぞれKLとJensen-Shannonの発散スコア0.39と0.52を達成する。

In this article, we present a hybrid quantum-classical generative adversarial network (GAN) for near-term quantum processors. The hybrid GAN comprises a generator and a discriminator quantum neural network (QNN). The generator network is realized using an angle encoding quantum circuit and a variational quantum ansatz. The discriminator network is realized using multi-stage trainable encoding quantum circuits. A modular design approach is proposed for the QNNs which enables control on their depth to compromise between accuracy and circuit complexity. Gradient of the loss functions for the generator and discriminator networks are derived using the same quantum circuits used for their implementation. This prevents the need for extra quantum circuits or auxiliary qubits. The quantum simulations are performed using the IBM Qiskit open-source software development kit (SDK), while the training of the hybrid quantum-classical GAN is conducted using the mini-batch stochastic gradient descent (SGD) optimization on a classic computer. The hybrid quantum-classical GAN is implemented using a two-qubit system with different discriminator network structures. The hybrid GAN realized using a five-stage discriminator network, comprises 63 quantum gates and 31 trainable parameters, and achieves the Kullback-Leibler (KL) and the Jensen-Shannon (JS) divergence scores of 0.39 and 0.52, respectively, for similarity between the real and generated data distributions.
翻訳日:2023-07-19 18:08:24 公開日:2023-07-18
# 大規模言語モデルの評価に関する調査

A Survey on Evaluation of Large Language Models ( http://arxiv.org/abs/2307.03109v5 )

ライセンス: Link先を確認
Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Kaijie Zhu, Hao Chen, Linyi Yang, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang, Philip S. Yu, Qiang Yang, Xing Xie(参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにおける前例のない性能のため、学術と産業の両方で人気が高まっている。 LLMは研究と日常利用の両方において重要な役割を担い続けており、その評価はタスクレベルだけでなく社会レベルでもますます重要になり、潜在的なリスクの理解を深めている。 過去数年間、様々な観点からLSMを調べるための重要な努力が続けられてきた。 本稿では, これらのLCMの評価手法を総合的に検討し, 評価方法, 評価方法, 評価方法の3つの重要な側面に着目した。 まず,一般的な自然言語処理タスク,推論,医療利用,倫理,教育,自然科学,社会科学,エージェント応用など,評価タスクの観点から概観する。 第2に,LLMの性能評価において重要な要素である評価手法とベンチマークに飛び乗ることで,'where' と 'how' の質問に答える。 次に、異なるタスクにおけるLCMの成功事例と失敗事例を要約する。 最後に、llms評価の先にあるいくつかの将来の課題に光を当てた。 我々の目的は、LLMの評価の領域における研究者に貴重な洞察を提供することであり、それによってより熟練したLLMの開発を支援することである。 我々のキーポイントは、LCMの開発を支援するために、評価を必須の規律として扱うべきであるということです。 関連したオープンソース資料は、https://github.com/mlgroupjlu/llm-eval-surveyで一貫して保守しています。

Large language models (LLMs) are gaining increasing popularity in both academia and industry, owing to their unprecedented performance in various applications. As LLMs continue to play a vital role in both research and daily use, their evaluation becomes increasingly critical, not only at the task level, but also at the society level for better understanding of their potential risks. Over the past years, significant efforts have been made to examine LLMs from various perspectives. This paper presents a comprehensive review of these evaluation methods for LLMs, focusing on three key dimensions: what to evaluate, where to evaluate, and how to evaluate. Firstly, we provide an overview from the perspective of evaluation tasks, encompassing general natural language processing tasks, reasoning, medical usage, ethics, educations, natural and social sciences, agent applications, and other areas. Secondly, we answer the `where' and `how' questions by diving into the evaluation methods and benchmarks, which serve as crucial components in assessing performance of LLMs. Then, we summarize the success and failure cases of LLMs in different tasks. Finally, we shed light on several future challenges that lie ahead in LLMs evaluation. Our aim is to offer invaluable insights to researchers in the realm of LLMs evaluation, thereby aiding the development of more proficient LLMs. Our key point is that evaluation should be treated as an essential discipline to better assist the development of LLMs. We consistently maintain the related open-source materials at: https://github.com/MLGroupJLU/LLM-eval-survey.
翻訳日:2023-07-19 18:07:57 公開日:2023-07-18
# ニューラル表現を用いたDeep-Modal Steganography

Deep Cross-Modal Steganography Using Neural Representations ( http://arxiv.org/abs/2307.08671v2 )

ライセンス: Link先を確認
Gyojin Han, Dong-Jae Lee, Jiwan Hur, Jaehyun Choi, Junmo Kim(参考訳) ステガノグラフィ(英: steganography)は、秘密データを他のメッセージやデータに埋め込むプロセスであり、容易には認識できない。 ディープラーニングの進歩に伴い、Deep Neural Networks (DNN) がステガノグラフィーに利用されるようになった。 しかし、既存の深部ステガノグラフィー技術は、特定のデータ型に焦点を合わせ、クロスモーダルステガノグラフィーには有効ではないため、範囲が限られている。 そこで本研究では,暗黙のニューラル表現(inrs)を用いて,カバー画像に様々な形式の秘密データを隠蔽するディープクロスモーダルステガノグラフィーフレームワークを提案する。 提案フレームワークは秘密データを表現するためにINRを用いており、様々なモダリティや解像度のデータを扱うことができる。 様々な種類の秘密データセットに関する実験は、提案手法が拡張可能であり、異なるモダリティを適応できることを示した。

Steganography is the process of embedding secret data into another message or data, in such a way that it is not easily noticeable. With the advancement of deep learning, Deep Neural Networks (DNNs) have recently been utilized in steganography. However, existing deep steganography techniques are limited in scope, as they focus on specific data types and are not effective for cross-modal steganography. Therefore, We propose a deep cross-modal steganography framework using Implicit Neural Representations (INRs) to hide secret data of various formats in cover images. The proposed framework employs INRs to represent the secret data, which can handle data of various modalities and resolutions. Experiments on various secret datasets of diverse types demonstrate that the proposed approach is expandable and capable of accommodating different modalities.
翻訳日:2023-07-19 17:56:54 公開日:2023-07-18
# シャープネス・アウェアグラフ協調フィルタリング

Sharpness-Aware Graph Collaborative Filtering ( http://arxiv.org/abs/2307.08910v1 )

ライセンス: Link先を確認
Huiyuan Chen, Chin-Chia Michael Yeh, Yujie Fan, Yan Zheng, Junpeng Wang, Vivian Lai, Mahashweta Das, Hao Yang(参考訳) グラフニューラルネットワーク(GNN)は、協調フィルタリングにおいて素晴らしいパフォーマンスを達成した。 しかし、GNNはトレーニングデータとテストデータの分布がうまく一致していない場合、性能が劣る傾向にある。 また、GNNのトレーニングでは、ローカルおよびグローバルなミニマの豊富な非凸ニューラルネットワークを最適化する必要がある。 そのため、慎重にミニマを選ぶことが不可欠である。 ここでは, \textit{flatter} minima が \textit{sharper} よりも優れた一般化能力を持つという原理の下で,{gsam} と呼ばれる効果的なトレーニングスキーマを提案する。 この目的を達成するために、gSAMは2段階の最適化によって重量損失景観の平坦性を正則化し、外側の問題は標準モデルのトレーニングを行い、内側の問題はシャープなミニマからモデルが飛び出すのを助ける。 実験の結果, gSAMの優位性が確認された。

Graph Neural Networks (GNNs) have achieved impressive performance in collaborative filtering. However, GNNs tend to yield inferior performance when the distributions of training and test data are not aligned well. Also, training GNNs requires optimizing non-convex neural networks with an abundance of local and global minima, which may differ widely in their performance at test time. Thus, it is essential to choose the minima carefully. Here we propose an effective training schema, called {gSAM}, under the principle that the \textit{flatter} minima has a better generalization ability than the \textit{sharper} ones. To achieve this goal, gSAM regularizes the flatness of the weight loss landscape by forming a bi-level optimization: the outer problem conducts the standard model training while the inner problem helps the model jump out of the sharp minima. Experimental results show the superiority of our gSAM.
翻訳日:2023-07-19 17:01:30 公開日:2023-07-18
# 簡単な算術的操作は時間モデリングに何ができるか?

What Can Simple Arithmetic Operations Do for Temporal Modeling? ( http://arxiv.org/abs/2307.08908v1 )

ライセンス: Link先を確認
Wenhao Wu, Yuxin Song, Zhun Sun, Jingdong Wang, Chang Xu, Wanli Ouyang(参考訳) 時間モデリングはビデオコンテンツを理解する上で重要な役割を果たす。 この問題に取り組むために、従来の研究では、計算能力の高いデバイスの開発により、時系列を通じて複雑な時間関係を構築した。 本研究では,時間モデリングのための4つの単純な算術演算の可能性について検討する。 具体的には, 抽出されたフレーム特徴のペア間の加算, 減算, 乗算, 分割を計算し, 補助的な時間的手がかりを捉えた。 次に、これらの手がかりから対応する特徴を抽出し、元の時間非依存領域に便益を与える。 このような単純なパイプラインを算術的テンポラリモジュール(atm)と呼び、プラグアンドプレイスタイルで視覚的バックボーンの茎を操作する。 我々はATMのインスタンス化に関する包括的なアブレーション研究を行い、このモジュールが低計算コストで強力な時間モデリング機能を提供することを示した。 さらにATMはCNNとViTsベースのアーキテクチャの両方に対応している。 以上の結果から,ATMは人気ビデオベンチマークよりも優れた性能を示した。 具体的には、Something V1、V2、Kinetics-400では、それぞれ65.6%、74.6%、89.4%というトップ1の精度に達した。 コードは https://github.com/whwu95/ATM で入手できる。

Temporal modeling plays a crucial role in understanding video content. To tackle this problem, previous studies built complicated temporal relations through time sequence thanks to the development of computationally powerful devices. In this work, we explore the potential of four simple arithmetic operations for temporal modeling. Specifically, we first capture auxiliary temporal cues by computing addition, subtraction, multiplication, and division between pairs of extracted frame features. Then, we extract corresponding features from these cues to benefit the original temporal-irrespective domain. We term such a simple pipeline as an Arithmetic Temporal Module (ATM), which operates on the stem of a visual backbone with a plug-andplay style. We conduct comprehensive ablation studies on the instantiation of ATMs and demonstrate that this module provides powerful temporal modeling capability at a low computational cost. Moreover, the ATM is compatible with both CNNs- and ViTs-based architectures. Our results show that ATM achieves superior performance over several popular video benchmarks. Specifically, on Something-Something V1, V2 and Kinetics-400, we reach top-1 accuracy of 65.6%, 74.6%, and 89.4% respectively. The code is available at https://github.com/whwu95/ATM.
翻訳日:2023-07-19 17:01:14 公開日:2023-07-18
# 対称性保護スピン鎖の量子計算に基づく測定のための直観的かつ効率的レジーム

Counter-intuitive yet efficient regimes for measurement based quantum computation on symmetry protected spin chains ( http://arxiv.org/abs/2307.08903v1 )

ライセンス: Link先を確認
Arnab Adhikary, Wang Yang and Robert Raussendorf(参考訳) 非自明対称性保護位相(SPT)相から選択された量子状態は、測定に基づく量子計算において計算能力を有する。 このパワーはSPT相にわたって均一であり、対称性を破る測定によって解錠される。 位相の特別な点を除いて、今日知られているすべての計算スキームはこれらの対称性を破る測定を遠くに置き、突発的で非普遍的な絡み合いによって引き起こされる相関を避ける。 本研究では,対称破断測定が密集した計算の逆の状況について検討する。 計算がまだ機能しているだけでなく、合理的な物理的仮定の下では、これは最も資源効率の良いモードである。

Quantum states picked from non-trivial symmetry protected topological (SPT) phases have computational power in measurement based quantum computation. This power is uniform across SPT phases, and is unlocked by measurements that break the symmetry. Except at special points in the phase, all computational schemes known to date place these symmetry-breaking measurements far apart, to avoid the correlations introduced by spurious, non-universal entanglement. In this work, we investigate the opposite regime of computation where the symmetry-breaking measurements are packed densely. We show that not only does the computation still function, but in fact, under reasonable physical assumptions, this is the most resource efficient mode.
翻訳日:2023-07-19 17:00:55 公開日:2023-07-18
# 実効ハミルトニアンのパラメトリゼーションのためのオンザフライ機械学習

On-the-fly machine learning for parametrization of the effective Hamiltonian ( http://arxiv.org/abs/2307.08929v1 )

ライセンス: Link先を確認
Xingyue Ma, L. Bellaiche, Di Wu, Yurong Yang(参考訳) 第一原理に基づく有効ハミルトニアンは、強誘電体とリラクサー強誘電体の特性を予測およびシミュレートするために広く使われている。 しかし、有効なハミルトニアンのパラメトリゼーション法は複雑であり、複雑な相互作用や複素成分を持つ系をほとんど解決できない。 そこで我々は,ベイズ線形回帰に基づく実効ハミルトニアンをパラメータ化するためのオンザフライ機械学習手法を開発した。 パラメトリゼーションは分子動力学シミュレーションで完了し、各ステップで予測されるエネルギー、力、ストレスは不確実性と共に行われる。 第一原理計算は、不確実性が大きければパラメータを再訓練するときに実行される。 このアプローチは、以前の方法では扱えない複雑なシステムを含むあらゆる考慮されたシステムに対して、効果的なハミルトンパラメータを計算する普遍的で自動的な方法を提供する。 BaTiO3とPb(Sc,Ta)O3は、従来の第一原理パラメトリゼーション法と比較して、このアプローチの正確性を示す例として挙げられる。

The first-principles-based effective Hamiltonian is widely used to predict and simulate the properties of ferroelectrics and relaxor ferroelectrics. However, the parametrization method of the effective Hamiltonian is complicated and hardly can resolve the systems with complex interactions and/or complex components. Here, we developed an on-the-fly machine learning approach to parametrize the effective Hamiltonian based on Bayesian linear regression. The parametrization is completed in molecular dynamics simulations, with the energy, forces and stress predicted at each step along with their uncertainties. First-principles calculations are executed when the uncertainties are large to retrain the parameters. This approach provides a universal and automatic way to compute the effective Hamiltonian parameters for any considered systems including complex systems which previous methods can not handle. BaTiO3 and Pb(Sc,Ta)O3 are taken as examples to show the accurateness of this approach comparing with conventional first-principles parametrization method.
翻訳日:2023-07-19 16:52:15 公開日:2023-07-18
# Federated Large Language Model: ポジションペーパー

Federated Large Language Model: A Position Paper ( http://arxiv.org/abs/2307.08925v1 )

ライセンス: Link先を確認
Chaochao Chen, Xiaohua Feng, Jun Zhou, Jianwei Yin, Xiaolin Zheng(参考訳) 大規模言語モデル(llm)は注目を集め、様々なドメインにまたがる多様なアプリケーションを見出したが、その開発は現実世界のシナリオで課題に遭遇する。 これらの課題は、パブリックドメインデータの可用性の欠如と、プライベートドメインデータに対するプライバシの維持の必要性によって生じる。 これらの問題に対処するため、フェデレートラーニング(FL)は、分散データを保存しながら共有モデルの協調トレーニングを可能にする有望な技術として登場した。 本稿では,連合LDMの事前訓練,連合LDMファインチューニング,連合LDMプロンプトエンジニアリングの3つの重要な構成要素からなる連合LDMの概念を提案する。 各コンポーネントについて,従来のllmトレーニング手法に対するアドバンテージを議論し,実装のための具体的なエンジニアリング戦略を提案する。 さらに,FL と LLM の統合による新たな課題についても検討する。 我々は既存のソリューションを分析し,これらのソリューションが直面する潜在的な障害を,連合LLMの文脈内で同定する。

Large scale language models (LLM) have received significant attention and found diverse applications across various domains, but their development encounters challenges in real-world scenarios. These challenges arise due to the scarcity of public domain data availability and the need to maintain privacy with respect to private domain data. To address these issues, federated learning (FL) has emerged as a promising technology that enables collaborative training of shared models while preserving decentralized data. We propose the concept of federated LLM, which comprises three key components, i.e., federated LLM pre-training, federated LLM fine-tuning, and federated LLM prompt engineering. For each component, we discuss its advantage over traditional LLM training methods and propose specific engineering strategies for implementation. Furthermore, we explore the novel challenges introduced by the integration of FL and LLM. We analyze existing solutions and identify potential obstacles faced by these solutions within the context of federated LLM.
翻訳日:2023-07-19 16:51:58 公開日:2023-07-18
# メタ学習のためのタスクのサンプル学習

Learning to Sample Tasks for Meta Learning ( http://arxiv.org/abs/2307.08924v1 )

ライセンス: Link先を確認
Jingyao Wang, Zeen Song, Xingzhe Su, Lingyu Si, Hongwei Dong, Wenwen Qiang, Changwen Zheng(参考訳) 本稿では,様々なメタラーニング手法,タスクサンプリング,少数ショットラーニングタスクの実験を通じて,3つの結論に達した。 まず,メタ学習モデルの性能を保証する普遍的なタスクサンプリング戦略は存在しない。 第二に、タスクの多様性は、トレーニング中にモデルに不適合または過適合をもたらす可能性がある。 最後に、モデルの一般化性能は、タスクの発散、タスクエントロピー、タスクの難易度に影響される。 そこで本研究では,ASr(Adaptive Sampler)と呼ばれる新しいタスクサンプリング手法を提案する。 ASrは、タスクのばらつき、タスクのエントロピー、タスクのサンプリングが困難になるタスクサンプリングツールである。 ASrを最適化するために、我々はシンプルで一般的なメタ学習アルゴリズムを再考し提案する。 最後に、多数の実験実験を行い、提案したASrの有効性を示した。

Through experiments on various meta-learning methods, task samplers, and few-shot learning tasks, this paper arrives at three conclusions. Firstly, there are no universal task sampling strategies to guarantee the performance of meta-learning models. Secondly, task diversity can cause the models to either underfit or overfit during training. Lastly, the generalization performance of the models are influenced by task divergence, task entropy, and task difficulty. In response to these findings, we propose a novel task sampler called Adaptive Sampler (ASr). ASr is a plug-and-play task sampler that takes task divergence, task entropy, and task difficulty to sample tasks. To optimize ASr, we rethink and propose a simple and general meta-learning algorithm. Finally, a large number of empirical experiments demonstrate the effectiveness of the proposed ASr.
翻訳日:2023-07-19 16:51:41 公開日:2023-07-18
# 診断推論を行う大規模言語モデル

Large Language Models Perform Diagnostic Reasoning ( http://arxiv.org/abs/2307.08922v1 )

ライセンス: Link先を確認
Cheng-Kuang Wu, Wei-Lin Chen, Hsin-Hsi Chen(参考訳) 自動診断の課題に対する医学的推論を促すためのチェーン・オブ・シント(CoT)の拡張について検討する。 医師の根底にある推論プロセスに動機付けられ,診断推論CoT(DR-CoT)を提示する。 実験の結果, 2つのdr-cotexemplarを用いた一般的なテキストコーパスでのみトレーニングされた大規模言語モデルにプロンプトすることで, 診断精度が標準プロンプトと比較して15%向上することがわかった。 さらに、領域外設定では、ギャップは18%に達する。 以上の結果から,大規模言語モデルのエキスパート知識推論は適切なプロンプトによって引き起こされる可能性が示唆された。

We explore the extension of chain-of-thought (CoT) prompting to medical reasoning for the task of automatic diagnosis. Motivated by doctors' underlying reasoning process, we present Diagnostic-Reasoning CoT (DR-CoT). Empirical results demonstrate that by simply prompting large language models trained only on general text corpus with two DR-CoT exemplars, the diagnostic accuracy improves by 15% comparing to standard prompting. Moreover, the gap reaches a pronounced 18% in out-domain settings. Our findings suggest expert-knowledge reasoning in large language models can be elicited through proper promptings.
翻訳日:2023-07-19 16:51:29 公開日:2023-07-18
# 非線形モデルの可能性を明らかにする最適推定

Optimistic Estimate Uncovers the Potential of Nonlinear Models ( http://arxiv.org/abs/2307.08921v1 )

ライセンス: Link先を確認
Yaoyu Zhang, Zhongwang Zhang, Leyang Zhang, Zhiwei Bai, Tao Luo, Zhi-Qin John Xu(参考訳) 非線形モデルの最適適合性能を評価するための楽観的な推定法を提案する。 楽観的なサンプルサイズを生成し、最小限のサンプルサイズを定量化し、非線形モデルを用いてターゲット関数を適合・復元する。 行列因数分解モデル,深層モデル,および完全連結あるいは畳み込みアーキテクチャを持つディープニューラルネットワーク(DNN)の楽観的なサンプルサイズを推定する。 各非線形モデルに対して、我々の推定は、オーバーパラメータ化に適合するターゲットの特定のサブセットを予測し、実験により確認する。 我々の楽観的な推定は、DNNモデルの2つの特別な特性、すなわち、幅の自由表現性と接続におけるコストの高い表現性を明らかにする。 これらの特性はdnnのアーキテクチャ設計の原則を示唆する。 (i)ニューロンやカーネルを自由に追加すること (ii)結合ニューロンの抑制。 概して、我々の楽観的な推定は、オーバーパラメータ化に適合する非線形モデルの膨大なポテンシャルを理論的に明らかにする。 この枠組みに基づいて、DNNのような多くの非線形モデルが近い将来にその潜在能力を効果的に実現できる理由と理由について、より深い理解を得ることを期待する。

We propose an optimistic estimate to evaluate the best possible fitting performance of nonlinear models. It yields an optimistic sample size that quantifies the smallest possible sample size to fit/recover a target function using a nonlinear model. We estimate the optimistic sample sizes for matrix factorization models, deep models, and deep neural networks (DNNs) with fully-connected or convolutional architecture. For each nonlinear model, our estimates predict a specific subset of targets that can be fitted at overparameterization, which are confirmed by our experiments. Our optimistic estimate reveals two special properties of the DNN models -- free expressiveness in width and costly expressiveness in connection. These properties suggest the following architecture design principles of DNNs: (i) feel free to add neurons/kernels; (ii) restrain from connecting neurons. Overall, our optimistic estimate theoretically unveils the vast potential of nonlinear models in fitting at overparameterization. Based on this framework, we anticipate gaining a deeper understanding of how and why numerous nonlinear models such as DNNs can effectively realize their potential in practice in the near future.
翻訳日:2023-07-19 16:51:18 公開日:2023-07-18
# 連続時間強化学習:理論的洞察と性能保証を備えた新しい設計アルゴリズム

Continuous-Time Reinforcement Learning: New Design Algorithms with Theoretical Insights and Performance Guarantees ( http://arxiv.org/abs/2307.08920v1 )

ライセンス: Link先を確認
Brent A. Wallace, Jennie Si(参考訳) 連続時間非線形最適制御問題は実世界の応用において大きな期待を抱いている。 何十年もの開発を経て、強化学習(rl)は一般的な非線形制御設計法として最も成功した。 しかし、最近のCT-RL法、すなわち適応動的プログラミング(ADP)に基づくCT-RLアルゴリズムの包括的解析により、それらの複雑さ、数値条件付け、次元スケーリングの問題により、設計上の重大な課題に直面していることが明らかとなった。 先進的な理論的結果にもかかわらず、既存のADP CT-RL合成法は小さな学術的な問題を解くには不十分である。 この研究の目的は、アフィン非線形系の制御のための新しいCT-RLアルゴリズムを導入することである。 私たちの設計アプローチは2つの重要な要素に依存します。 まず,本手法はより小さなサブプロブレムに分割できる物理系に適用可能である。 この構成的考慮は、次元性を減少させ、設計の直感性を著しく改善する。 第二に, 従来の入出力インサイトを通した励磁の持続性, 数値コンディショニング性能を向上させるための新しい励磁フレームワークを提案する。 このような設計中心のアプローチは、ADP CT-RLコミュニティで最初のものである。 本稿では,(分散)興奮型統合強化学習(eirl)アルゴリズムの一組を紹介する。 我々は収束性および閉ループ安定性の保証を提供し、不安定な非最小位相超音速車両(HSV)を制御する重要な応用問題に対してこれらの保証を示す。

Continuous-time nonlinear optimal control problems hold great promise in real-world applications. After decades of development, reinforcement learning (RL) has achieved some of the greatest successes as a general nonlinear control design method. However, a recent comprehensive analysis of state-of-the-art continuous-time RL (CT-RL) methods, namely, adaptive dynamic programming (ADP)-based CT-RL algorithms, reveals they face significant design challenges due to their complexity, numerical conditioning, and dimensional scaling issues. Despite advanced theoretical results, existing ADP CT-RL synthesis methods are inadequate in solving even small, academic problems. The goal of this work is thus to introduce a suite of new CT-RL algorithms for control of affine nonlinear systems. Our design approach relies on two important factors. First, our methods are applicable to physical systems that can be partitioned into smaller subproblems. This constructive consideration results in reduced dimensionality and greatly improved intuitiveness of design. Second, we introduce a new excitation framework to improve persistence of excitation (PE) and numerical conditioning performance via classical input/output insights. Such a design-centric approach is the first of its kind in the ADP CT-RL community. In this paper, we progressively introduce a suite of (decentralized) excitable integral reinforcement learning (EIRL) algorithms. We provide convergence and closed-loop stability guarantees, and we demonstrate these guarantees on a significant application problem of controlling an unstable, nonminimum phase hypersonic vehicle (HSV).
翻訳日:2023-07-19 16:51:01 公開日:2023-07-18
# 医用画像における半教師型・自己教師型学習の精度と時間フロンティア

Accuracy versus time frontiers of semi-supervised and self-supervised learning on medical images ( http://arxiv.org/abs/2307.08919v1 )

ライセンス: Link先を確認
Zhe Huang, Ruijie Jiang, Shuchin Aeron, and Michael C. Hughes(参考訳) 医用画像への分類器の応用の多くは、画像ごとに信頼できるラベルを得るのが困難またはコストがかかる。 対照的に、ラベルのない画像はより簡単に入手できる。 自己教師学習は、ラベル付きデータのみに有用な表現を事前訓練し、ラベル付きセットを介してこれらの表現に分類器を微調整し、半教師付き学習はラベル付きデータとラベル付きデータに同時に分類器を訓練する。 両方向からの最近の手法は、非医療的作業において顕著な効果を主張しているが、医療画像の体系的評価は行わず、ほとんど同じ方向の方法と比較している。 小さいラベル付きデータセットとトレーニングに要する時間に制限された予算を考えると、追加のラベル付きイメージから得られるものは何か、どれが最適な方法なのか? 従来のベンチマークとは違って,ハイパーパラメータの選択や実行時のパフォーマンストレードオフの評価,2つの研究分野のブリッジに,現実的なサイズの検証セットを使用している。 6つの半教師付きメソッドと5つの自己教師付きメソッドを、30~1000のラベルを持つ3つの医学データセット上で強力なラベル付きベースラインと比較することにより、リソース制約のある結果重視実践者(MixMatch、SimCLR、BYOL)に洞察を提供する。 1つのデータセットでハイパーパラメータを選択することに多くの労力を費やした後、私たちは、強力なメソッドが数時間以内に新しい医療タスクでうまく機能することを可能にする設定を公開します。

For many applications of classifiers to medical images, a trustworthy label for each image can be difficult or expensive to obtain. In contrast, images without labels are more readily available. Two major research directions both promise that additional unlabeled data can improve classifier performance: self-supervised learning pretrains useful representations on unlabeled data only, then fine-tunes a classifier on these representations via the labeled set; semi-supervised learning directly trains a classifier on labeled and unlabeled data simultaneously. Recent methods from both directions have claimed significant gains on non-medical tasks, but do not systematically assess medical images and mostly compare only to methods in the same direction. This study contributes a carefully-designed benchmark to help answer a practitioner's key question: given a small labeled dataset and a limited budget of hours to spend on training, what gains from additional unlabeled images are possible and which methods best achieve them? Unlike previous benchmarks, ours uses realistic-sized validation sets to select hyperparameters, assesses runtime-performance tradeoffs, and bridges two research fields. By comparing 6 semi-supervised methods and 5 self-supervised methods to strong labeled-only baselines on 3 medical datasets with 30-1000 labels per class, we offer insights to resource-constrained, results-focused practitioners: MixMatch, SimCLR, and BYOL represent strong choices that were not surpassed by more recent methods. After much effort selecting hyperparameters on one dataset, we publish settings that enable strong methods to perform well on new medical tasks within a few hours, with further search over dozens of hours delivering modest additional gains.
翻訳日:2023-07-19 16:50:32 公開日:2023-07-18
# 準古典状態の量子的性質と最大単一光子速度

Quantum Nature of Quasi-Classical States and Highest Possible Single-photon Rate ( http://arxiv.org/abs/2307.08916v1 )

ライセンス: Link先を確認
Moslem Mahdavifar(参考訳) 準古典状態の純粋に量子力学的効果の観測は、これらの状態が現実的な放射源であり、光子数に不足がないため、最も重要である。 したがって、他の単一光子源ほどスケーラビリティの問題に直面することはなく、光子損失に対してより堅牢である。 さらに、これらの状態は標準量子極限を定義する。 したがって、量子シグネチャを見つけることは、最も高い1光子レートを示唆する。 本稿では,この概念を理論的に既知の力学を用いて実証し,実験結果を提示する。 実験により、連続波源からの軌道角運動量の投射を伴う状態を用いて量子情報の転送から2光子束を実現した。 我々の研究は量子光学と量子情報の領域における準古典状態のより多様で実践的な利用に向けた一歩である。

Observation of the purely quantum mechanical effects of quasi-classical states is of utmost importance since these states are realistic sources of radiation and do not have any shortage in photon numbers. Therefore, they do not face the scalability problem as much as other single-photon sources do, which makes them much more robust against photon loss. Moreover, these states define the standard quantum limit. Hence, finding their quantum signature hints to the highest possible single-photon rate. In this manuscript, we attempt to demonstrate this idea theoretically using known dynamics and then present supporting experimental results. Through our experiment, we realize two-photon bunching from the transfer of quantum information using such states with the projection of orbital angular momentum from a continuous wave source. Our work is a step forward towards a more diverse and practical use of quasi-classical states in the domain of quantum optics and quantum information.
翻訳日:2023-07-19 16:49:59 公開日:2023-07-18
# 等角的タイトフレームに基づく絡み合い基準

The entanglement criteria based on equiangular tight frames ( http://arxiv.org/abs/2307.08914v1 )

ライセンス: Link先を確認
Xian Shi(参考訳) 有限のタイトフレームは、量子情報理論を含む様々な分野において重要な役割を果たす。 ここでは, 2成分状態の絡み合いを検出する問題に対処するために, タイトフレームのクラス, 等角タイトフレームを適用する。 ここでは、等角的タイトフレームから構築された正の演算子値測定に基づいて、いくつかの絡み合い基準を導出する。 また、等角的きついフレームに基づく絡み合いの目撃者のクラスも提示する。 最終的に、二成分系に対する絡み合い基準を多成分系に一般化する。

Finite tight frames play an important role in miscellaneous areas, including quantum information theory. Here we apply a class of tight frames, equiangular tight frames, to address the problem of detecting the entanglement of bipartite states. Here we derive some entanglement criteria based on positive operator-valued measurements built from equiangular tight frames. We also present a class of entanglement witnesses based on the equiangular tight frames. At last, we generalize the entanglement criterion for bipartite systems to multipartite systems.
翻訳日:2023-07-19 16:49:47 公開日:2023-07-18
# 自己指導型学習における投影ヘッドのスパース性に向けて

Towards the Sparseness of Projection Head in Self-Supervised Learning ( http://arxiv.org/abs/2307.08913v1 )

ライセンス: Link先を確認
Zeen Song, Xingzhe Su, Jingyao Wang, Wenwen Qiang, Changwen Zheng, Fuchun Sun(参考訳) 近年,ラベルのないデータから価値ある表現を抽出する手段として,自己教師あり学習(SSL)が登場している。 SSLメソッドの成功の1つは、ネガティブな例を分割しながら、ポジティブな例をより近づけることを目的とした、対照的な学習である。 現在のコントラスト学習手法の多くは、パラメータ化された投影ヘッドを用いる。 実験分析と理論的研究を組み合わせることで,投影ヘッドの内部機構と次元崩壊現象との関係について考察する。 その結果,投影ヘッドは投影された部分空間においてコントラスト損失を発生させることにより表現の質を高めることが示された。 そこで本稿では,ミニバッチのコントラスト損失を最小化する場合には,特徴のサブセットのみが必要であるという仮定を提案する。 SparseHeadはプロジェクションヘッドの空間性を効果的に制限し、自己教師付き学習(SSL)アプローチとシームレスに統合できる正規化用語である。 実験の結果,sparseheadの有効性が検証され,既存のコントラスト法の性能向上効果が示された。

In recent years, self-supervised learning (SSL) has emerged as a promising approach for extracting valuable representations from unlabeled data. One successful SSL method is contrastive learning, which aims to bring positive examples closer while pushing negative examples apart. Many current contrastive learning approaches utilize a parameterized projection head. Through a combination of empirical analysis and theoretical investigation, we provide insights into the internal mechanisms of the projection head and its relationship with the phenomenon of dimensional collapse. Our findings demonstrate that the projection head enhances the quality of representations by performing contrastive loss in a projected subspace. Therefore, we propose an assumption that only a subset of features is necessary when minimizing the contrastive loss of a mini-batch of data. Theoretical analysis further suggests that a sparse projection head can enhance generalization, leading us to introduce SparseHead - a regularization term that effectively constrains the sparsity of the projection head, and can be seamlessly integrated with any self-supervised learning (SSL) approaches. Our experimental results validate the effectiveness of SparseHead, demonstrating its ability to improve the performance of existing contrastive methods.
翻訳日:2023-07-19 16:49:40 公開日:2023-07-18
# Alioth: パブリッククラウドにおけるマルチテナンシアプリケーションのための機械学習ベースの干渉認識パフォーマンスモニタ

Alioth: A Machine Learning Based Interference-Aware Performance Monitor for Multi-Tenancy Applications in Public Cloud ( http://arxiv.org/abs/2307.08949v1 )

ライセンス: Link先を確認
Tianyao Shi, Yingxuan Yang, Yunlong Cheng, Xiaofeng Gao, Zhen Fang, Yongqiang Yang(参考訳) パブリッククラウドにおけるマルチテナンシは共有リソースに対するコロケーションの干渉を招き、結果としてクラウドアプリケーションのパフォーマンスが低下する可能性がある。 クラウドプロバイダは、そのようなイベントがいつ発生し、その劣化がどれほど深刻かを知り、干渉対応のマイグレーションを実行し、問題を緩和したいと考えている。 しかし、Infrastructure-as-a-Serviceパブリッククラウドの仮想マシン(VM)は、アプリケーションレベルのパフォーマンス情報を取得できないプロバイダへのブラックボックスである。 クラウドプロバイダはcpu使用量やハードウェアカウンタといった低レベルのメトリクスのみに依存するため、パフォーマンス監視は極めて困難である。 本稿では,クラウドアプリケーションのパフォーマンス低下を監視するための新しい機械学習フレームワークであるaliothを提案する。 実世界のシナリオにおける複雑性とダイナミックさを反映したAlioth-datasetを構築するために,まず,テストベッド上で複雑な干渉発生器と包括的コロケーション実験を行う。 次に,(1)非干渉下での低レベルメトリクスの復元による機能強化,(2)ドメイン適応型ニューラルネットワークに基づくトランスファー学習モデルの考案,(2)オフライントレーニングでは認識できないテストケースの一般化,(3)特徴選択の自動化とモデルの解釈性向上のためのshap説明器の開発により,aliothを構成する。 実験によれば、aliothは平均平均的な絶対エラーをオフラインで5.29%、トレーニング段階で見えないアプリケーションでテストすると10.8%達成し、ベースラインメソッドを上回っている。 Aliothは、動的性の下でのサービス品質違反のシグナルとしても堅牢です。 最後に、aliothの解釈可能性の応用の可能性を示し、クラウドオペレーターの意思決定に利益をもたらす洞察を提供する。 AliothのデータセットとコードはGitHubで公開されている。

Multi-tenancy in public clouds may lead to co-location interference on shared resources, which possibly results in performance degradation of cloud applications. Cloud providers want to know when such events happen and how serious the degradation is, to perform interference-aware migrations and alleviate the problem. However, virtual machines (VM) in Infrastructure-as-a-Service public clouds are black-boxes to providers, where application-level performance information cannot be acquired. This makes performance monitoring intensely challenging as cloud providers can only rely on low-level metrics such as CPU usage and hardware counters. We propose a novel machine learning framework, Alioth, to monitor the performance degradation of cloud applications. To feed the data-hungry models, we first elaborate interference generators and conduct comprehensive co-location experiments on a testbed to build Alioth-dataset which reflects the complexity and dynamicity in real-world scenarios. Then we construct Alioth by (1) augmenting features via recovering low-level metrics under no interference using denoising auto-encoders, (2) devising a transfer learning model based on domain adaptation neural network to make models generalize on test cases unseen in offline training, and (3) developing a SHAP explainer to automate feature selection and enhance model interpretability. Experiments show that Alioth achieves an average mean absolute error of 5.29% offline and 10.8% when testing on applications unseen in the training stage, outperforming the baseline methods. Alioth is also robust in signaling quality-of-service violation under dynamicity. Finally, we demonstrate a possible application of Alioth's interpretability, providing insights to benefit the decision-making of cloud operators. The dataset and code of Alioth have been released on GitHub.
翻訳日:2023-07-19 16:42:01 公開日:2023-07-18
# Decoupled Confident Learningによるラベルバイアスの緩和

Mitigating Label Bias via Decoupled Confident Learning ( http://arxiv.org/abs/2307.08945v1 )

ライセンス: Link先を確認
Yunyi Li, Maria De-Arteaga, Maytal Saar-Tsechansky(参考訳) アルゴリズムの公平性に対する懸念が高まり、アルゴリズムのバイアスを軽減する手法が急増した。 しかし、そのような方法論は、トレーニングデータの観察されたラベルが正しいとほとんど仮定している。 これは、ラベルのバイアスが医療、雇用、コンテンツモデレーションなど重要なドメインにまたがっているため、問題である。 特に、人為的なラベルは社会バイアスを符号化する傾向がある。 ラベル付けバイアスの存在は概念的に議論されているが,この問題に対処する方法論は乏しい。 本稿では,ラベルバイアスを緩和するためのプルーニング手法,Decoupled Confident Learning (DeCoLe)を提案する。 合成データセットでその性能を例示した後、ラベルバイアスが重要な課題として認識されているヘイトスピーチ検出の文脈でdecoleを適用し、バイアス付きラベルを識別し、競合するアプローチを上回っていることを示す。

Growing concerns regarding algorithmic fairness have led to a surge in methodologies to mitigate algorithmic bias. However, such methodologies largely assume that observed labels in training data are correct. This is problematic because bias in labels is pervasive across important domains, including healthcare, hiring, and content moderation. In particular, human-generated labels are prone to encoding societal biases. While the presence of labeling bias has been discussed conceptually, there is a lack of methodologies to address this problem. We propose a pruning method -- Decoupled Confident Learning (DeCoLe) -- specifically designed to mitigate label bias. After illustrating its performance on a synthetic dataset, we apply DeCoLe in the context of hate speech detection, where label bias has been recognized as an important challenge, and show that it successfully identifies biased labels and outperforms competing approaches.
翻訳日:2023-07-19 16:41:28 公開日:2023-07-18
# 弱監視された人間の活動認識のためのシームズネットワーク

Siamese Networks for Weakly Supervised Human Activity Recognition ( http://arxiv.org/abs/2307.08944v1 )

ライセンス: Link先を確認
Taoran Sheng, Manfred Huber(参考訳) 深層学習は人間の活動認識に成功している。 しかし、ディープニューラルネットワークのトレーニングには、取得が困難なラベル付きデータが必要である。 本稿では,データサンプルのペア間の類似性に関する情報のみを用いて,明示的なラベルを知らずに学習する複数のシャムネットワークを持つモデルを提案する。 訓練されたモデルは、活動データサンプルを一定の大きさの表現ベクトルにマッピングし、表現空間内のベクトル間の距離が入力空間におけるデータサンプルの類似度を近似する。 したがって、トレーニングされたモデルは、幅広い異なるクラスタリングアルゴリズムのメトリックとして機能することができる。 トレーニングプロセスは類似度損失関数を最小化し、同じ種類のアクティビティからサンプルのペアに対して距離メートル法を小さくし、異なる種類のアクティビティからサンプルのペアに対して大きいように強制する。 連続した人間の活動系列のセグメンテーションと認識における有効性を検証するため、3つのデータセット上でモデルを評価した。

Deep learning has been successfully applied to human activity recognition. However, training deep neural networks requires explicitly labeled data which is difficult to acquire. In this paper, we present a model with multiple siamese networks that are trained by using only the information about the similarity between pairs of data samples without knowing the explicit labels. The trained model maps the activity data samples into fixed size representation vectors such that the distance between the vectors in the representation space approximates the similarity of the data samples in the input space. Thus, the trained model can work as a metric for a wide range of different clustering algorithms. The training process minimizes a similarity loss function that forces the distance metric to be small for pairs of samples from the same kind of activity, and large for pairs of samples from different kinds of activities. We evaluate the model on three datasets to verify its effectiveness in segmentation and recognition of continuous human activity sequences.
翻訳日:2023-07-19 16:41:14 公開日:2023-07-18
# 効率的な言語モデルの微調整のためのntk近似mlp融合

NTK-approximating MLP Fusion for Efficient Language Model Fine-tuning ( http://arxiv.org/abs/2307.08941v1 )

ライセンス: Link先を確認
Tianxin Wei, Zeming Guo, Yifan Chen, Jingrui He(参考訳) 訓練済み言語モデル(PLM)の微調整は、多くの自然言語処理アプリケーションにおいて主要な戦略として現れる。 しかし、特に計算能力の低いエッジデバイスでは、PLMの微調整や推論も高価である。 いくつかの一般的なアプローチ(量子化や蒸留など)は、PLM微調整の計算/メモリを削減するために広く研究され、一方、単発圧縮技術はほとんど研究されていない。 本稿では,PLM における多層パーセプトロン (MLP) モジュールのニューラルネットワークの勾配勾配ダイナミクスを明らかにするニューラルタンジェントカーネル (NTK) について検討し,NTK 近似 MLP 融合による軽量 PLM の創出を提案する。 そこで我々は、MLPをサブMLPのバンドルとして再考し、それらを所定の数のセンタロイドに分類し、圧縮MLPとして復元し、元のPLMのNTKを驚くほどよく近似させることを示した。 提案手法の有効性を検証するため,自然言語理解(NLU)と生成(NLG)の両タスクを用いたPLM微調整実験を行った。 私たちのコードはhttps://github.com/weitianxin/MLP_Fusion.comで利用可能です。

Fine-tuning a pre-trained language model (PLM) emerges as the predominant strategy in many natural language processing applications. However, even fine-tuning the PLMs and doing inference are expensive, especially on edge devices with low computing power. Some general approaches (e.g. quantization and distillation) have been widely studied to reduce the compute/memory of PLM fine-tuning, while very few one-shot compression techniques are explored. In this paper, we investigate the neural tangent kernel (NTK)--which reveals the gradient descent dynamics of neural networks--of the multilayer perceptrons (MLP) modules in a PLM and propose to coin a lightweight PLM through NTK-approximating MLP fusion. To achieve this, we reconsider the MLP as a bundle of sub-MLPs, and cluster them into a given number of centroids, which can then be restored as a compressed MLP and surprisingly shown to well approximate the NTK of the original PLM. Extensive experiments of PLM fine-tuning on both natural language understanding (NLU) and generation (NLG) tasks are provided to verify the effectiveness of the proposed method MLP fusion. Our code is available at https://github.com/weitianxin/MLP_Fusion.
翻訳日:2023-07-19 16:40:59 公開日:2023-07-18
# 文脈認識型知覚攻撃によるDNN型適応クルーズ制御の実験セキュリティ解析

Experimental Security Analysis of DNN-based Adaptive Cruise Control under Context-Aware Perception Attacks ( http://arxiv.org/abs/2307.08939v1 )

ライセンス: Link先を確認
Xugui Zhou and Anqi Chen and Maxfield Kouzel and Haotian Ren and Morgan McCarty and Cristina Nita-Rotaru and Homa Alemzadeh(参考訳) アダプティブ・クルーズ・コントロール(ACC、Adaptive Cruise Control)は、先導車への所望の速度と安全な距離を維持するための運転補助機能である。 本稿では,カメラデータに摂動を戦略的に注入し,前方衝突を引き起こす盗聴攻撃を受けるディープニューラルネットワーク(DNN)ベースのACCシステムのセキュリティを評価する。 本稿では,攻撃を誘発するための最重要時間選択のための文脈認識戦略を設計するための知識・データ駆動手法と,実行時の画像摂動の適応生成のための新しい最適化ベース手法を提案する。 本研究は,運転者の介入や自動緊急ブレーキ (AEB) や前方衝突警報 (FCW) などの安全機能を考慮して,実運転データセットと実動シミュレーションプラットフォームを用いて実運用ACCシステムと実世界運転シミュレータの制御ソフトウェアを用いた攻撃の有効性を評価した。 実験結果から, ランダム攻撃よりも事故発生率が142.9倍向上し, 安全性特性により89.6%低下し, 現実の要因や環境の動的変化に頑健であることがわかった。 本研究は,攻撃防止におけるヒューマンオペレーターの役割と基本的な安全介入に関する知見を提供する。

Adaptive Cruise Control (ACC) is a widely used driver assistance feature for maintaining desired speed and safe distance to the leading vehicles. This paper evaluates the security of the deep neural network (DNN) based ACC systems under stealthy perception attacks that strategically inject perturbations into camera data to cause forward collisions. We present a combined knowledge-and-data-driven approach to design a context-aware strategy for the selection of the most critical times for triggering the attacks and a novel optimization-based method for the adaptive generation of image perturbations at run-time. We evaluate the effectiveness of the proposed attack using an actual driving dataset and a realistic simulation platform with the control software from a production ACC system and a physical-world driving simulator while considering interventions by the driver and safety features such as Automatic Emergency Braking (AEB) and Forward Collision Warning (FCW). Experimental results show that the proposed attack achieves 142.9x higher success rate in causing accidents than random attacks and is mitigated 89.6% less by the safety features while being stealthy and robust to real-world factors and dynamic changes in the environment. This study provides insights into the role of human operators and basic safety interventions in preventing attacks.
翻訳日:2023-07-19 16:40:35 公開日:2023-07-18
# 光時計における重力赤方偏移の量子非局在化効果検出の可能性について

On the feasibility of detecting quantum delocalization effects on gravitational redshift in optical clocks ( http://arxiv.org/abs/2307.08938v1 )

ライセンス: Link先を確認
Yanglin Hu, Maximilian P. E. Lock, Mischa P. Woods(参考訳) 量子相対論的補正において、重力場の存在下での光学格子配置において、非局在原子時計の予測時間拡張を導出する。 我々は、重力時間の拡張が古典的一般相対性理論の領域の外側にあるエキゾチックな量子状態を調査し、現在開発中の$^{24}\mathrm{mg}$光学格子時計が、この量子効果(そのような状態を生成する技術的課題が満たされるならば)を快適に検出できるような構造を見出した。 詳細な実験プロトコルを提供し,騒音が予測に及ぼす影響を分析した。 また、我々の予測した量子重力時間拡張効果の大きさは、現在の光格子時計である$^{87}\mathrm{sr}$ を検出できる範囲外であることも示しています。 我々の計算はガウス状態に制限されるときの古典的一般相対性理論の予測時間拡張と一致する。

We derive the predicted time dilation of delocalized atomic clocks in an optical lattice setup in the presence of a gravitational field to leading order in quantum relativistic corrections. We investigate exotic quantum states of motion whose gravitational time dilation is outside of the realm of classical general relativity, finding a regime where $^{24}\mathrm{Mg}$ optical lattice clocks currently in development would comfortably be able to detect this quantum effect (if the technical challenge of generating such states can be met). We provide a detailed experimental protocol and analyse the effects of noise on our predictions. We also show that the magnitude of our predicted quantum gravitational time dilation effect remains just out of detectable reach for the current generation of $^{87}\mathrm{Sr}$ optical lattice clocks. Our calculations agree with the predicted time dilation of classical general relativity when restricting to Gaussian states.
翻訳日:2023-07-19 16:40:13 公開日:2023-07-18
# 多段階ニューラルネットワーク:機械精度の関数近似器

Multi-stage Neural Networks: Function Approximator of Machine Precision ( http://arxiv.org/abs/2307.08934v1 )

ライセンス: Link先を確認
Yongji Wang, Ching-Yao Lai(参考訳) 深層学習技術は、ネットワークの精度が不可欠である科学的な問題にますます応用されている。 普遍関数近似器と見なされているが、実際にはニューラルネットワークは、大きなネットワークサイズと拡張されたトレーニングイテレーションであっても、$O(10^{-5})以下の予測エラーを減らすのに苦労している。 この問題に対処するために,我々は,トレーニングプロセスを異なるステージに分割するマルチステージニューラルネットワークを開発した。 逐次段階において、残差等級は実質的に減少し、残差周波数との逆パワーロー関係に従う。 多段ニューラルネットワークは、通常のニューラルネットワークに関連するスペクトルバイアスを効果的に軽減し、ターゲット関数の高周波特性を捉えることができる。 回帰問題と物理インフォームドニューラルネットワークの両方に対する多段階学習による予測誤差は, 有限個の繰り返しにおいて, 機械精度$O(10^{-16})$の二重浮動小数点にほぼ達することを示した。 このような精度のレベルは、単一のニューラルネットワークだけで達成することは滅多にない。

Deep learning techniques are increasingly applied to scientific problems, where the precision of networks is crucial. Despite being deemed as universal function approximators, neural networks, in practice, struggle to reduce the prediction errors below $O(10^{-5})$ even with large network size and extended training iterations. To address this issue, we developed the multi-stage neural networks that divides the training process into different stages, with each stage using a new network that is optimized to fit the residue from the previous stage. Across successive stages, the residue magnitudes decreases substantially and follows an inverse power-law relationship with the residue frequencies. The multi-stage neural networks effectively mitigate the spectral biases associated with regular neural networks, enabling them to capture the high frequency feature of target functions. We demonstrate that the prediction error from the multi-stage training for both regression problems and physics-informed neural networks can nearly reach the machine-precision $O(10^{-16})$ of double-floating point within a finite number of iterations. Such levels of accuracy are rarely attainable using single neural networks alone.
翻訳日:2023-07-19 16:39:58 公開日:2023-07-18
# IxDRL:興味の分析に基づく説明可能な深層強化学習ツールキット

IxDRL: A Novel Explainable Deep Reinforcement Learning Toolkit based on Analyses of Interestingness ( http://arxiv.org/abs/2307.08933v1 )

ライセンス: Link先を確認
Pedro Sequeira and Melinda Gervasio(参考訳) 近年, 深層学習の進歩は, 高次元入力を用いた複雑な逐次決定課題の解決に強化学習(RL)を用いることで, 数多くの成功をもたらしている。 しかし、既存のシステムは、人間に能力の全体像を提供するために必要なメカニズムを欠いており、特にエージェントが決定を下す重要なアプリケーションにおいて、その採用に障害を与えている。 しかし、既存のRLベースのシステムは、人間のオペレーターがその能力についての洞察に富み、総合的な見解を持てるために必要な解釈機構が欠如していることに、本質的には認識できない。 より説明しやすい深層rl(xdrl)に向けて,興味をそそる分析に基づく新しいフレームワークを提案する。 本稿では,RLLib アルゴリズムをネイティブにサポートした多種多様な RL アルゴリズムに適用可能な RL エージェント能力の測定方法を提案する。 提案したパイプラインを,複雑性の異なるシナリオのセットに適用することで,フレームワークの利用を実証する。 我々は,エージェントの行動パターンと能力制御条件を識別するアプローチの能力と,興味のグローバルおよび局所的な分析に基づいてエージェントの能力に主に責任を持つタスク要素を実証的に評価する。 全体として、我々のフレームワークは、エージェントデザイナーに、rlエージェントの能力、能力と限界の両方について洞察を与え、介入、追加のトレーニング、および協調的なヒューマンマシン設定における他のインタラクションに関するよりインフォームドな決定を可能にする。

In recent years, advances in deep learning have resulted in a plethora of successes in the use of reinforcement learning (RL) to solve complex sequential decision tasks with high-dimensional inputs. However, existing systems lack the necessary mechanisms to provide humans with a holistic view of their competence, presenting an impediment to their adoption, particularly in critical applications where the decisions an agent makes can have significant consequences. Yet, existing RL-based systems are essentially competency-unaware in that they lack the necessary interpretation mechanisms to allow human operators to have an insightful, holistic view of their competency. Towards more explainable Deep RL (xDRL), we propose a new framework based on analyses of interestingness. Our tool provides various measures of RL agent competence stemming from interestingness analysis and is applicable to a wide range of RL algorithms, natively supporting the popular RLLib toolkit. We showcase the use of our framework by applying the proposed pipeline in a set of scenarios of varying complexity. We empirically assess the capability of the approach in identifying agent behavior patterns and competency-controlling conditions, and the task elements mostly responsible for an agent's competence, based on global and local analyses of interestingness. Overall, we show that our framework can provide agent designers with insights about RL agent competence, both their capabilities and limitations, enabling more informed decisions about interventions, additional training, and other interactions in collaborative human-machine settings.
翻訳日:2023-07-19 16:39:42 公開日:2023-07-18
# 文書読解後の質問に答える学習モデル

Teach model to answer questions after comprehending the document ( http://arxiv.org/abs/2307.08931v1 )

ライセンス: Link先を確認
Ruiqing Sun and Ping Jian(参考訳) MRC(Multi-choice Machine Reading Comprehension)は、自然言語処理(NLP)の難解な拡張であり、与えられたテキスト内のエンティティ間のセマンティクスと論理的関係を理解する能力を必要とする。 mrcタスクは伝統的に、与えられたテキストに基づいて質問に答えるプロセスと見なされてきた。 この単段的なアプローチによって、ネットワークはしばしば正しい答えを生成することに集中し、テキスト自体の理解を怠る可能性がある。 その結果、多くの一般的なモデルでは、長いテキストを扱う際にこのタスクをうまく実行するという課題に直面している。 本稿では,mrcタスクを2つの異なる段階に分けて,より理解を深めるようにモデルに教える2段階の知識蒸留法を提案する。 実験の結果,本手法を応用した学生モデルは,本手法の有効性を実証し,大幅な改善が得られた。

Multi-choice Machine Reading Comprehension (MRC) is a challenging extension of Natural Language Processing (NLP) that requires the ability to comprehend the semantics and logical relationships between entities in a given text. The MRC task has traditionally been viewed as a process of answering questions based on the given text. This single-stage approach has often led the network to concentrate on generating the correct answer, potentially neglecting the comprehension of the text itself. As a result, many prevalent models have faced challenges in performing well on this task when dealing with longer texts. In this paper, we propose a two-stage knowledge distillation method that teaches the model to better comprehend the document by dividing the MRC task into two separate stages. Our experimental results show that the student model, when equipped with our method, achieves significant improvements, demonstrating the effectiveness of our method.
翻訳日:2023-07-19 16:39:16 公開日:2023-07-18
# サイクル一貫性に基づく教師なしディープグラフマッチング

Unsupervised Deep Graph Matching Based on Cycle Consistency ( http://arxiv.org/abs/2307.08930v1 )

ライセンス: Link先を確認
Siddharth Tourani, Carsten Rother and Muhammad Haris Khan and Bogdan Savchynskkyy(参考訳) 我々は,教師なし深度グラフマッチングの疎密な領域と,画像のキーポイントマッチングへの応用に寄与する。 標準の \emph{supervised} アプローチとは対照的に、本手法ではキーポイント対間の基底真理対応は不要である。 代わりに、同じオブジェクトカテゴリの画像間のマッチングの一貫性を強制することにより、自己監視される。 マッチングと一貫性損失は離散的であるため、それらの微分は直接学習には使用できない。 組合せ解のブラックボックス微分に関する最近の結果に基づいて,本手法を原理的に構築することにより,この問題に対処する。 この手法は任意のネットワークアーキテクチャや組合せ解法と互換性があるため,非常に柔軟である。 実験により,本手法は教師なしグラフマッチングのための新しい最先端技術であることがわかった。

We contribute to the sparsely populated area of unsupervised deep graph matching with application to keypoint matching in images. Contrary to the standard \emph{supervised} approach, our method does not require ground truth correspondences between keypoint pairs. Instead, it is self-supervised by enforcing consistency of matchings between images of the same object category. As the matching and the consistency loss are discrete, their derivatives cannot be straightforwardly used for learning. We address this issue in a principled way by building our method upon the recent results on black-box differentiation of combinatorial solvers. This makes our method exceptionally flexible, as it is compatible with arbitrary network architectures and combinatorial solvers. Our experimental evaluation suggests that our technique sets a new state-of-the-art for unsupervised graph matching.
翻訳日:2023-07-19 16:39:01 公開日:2023-07-18
# 人間と機械のためのスケーラブルなビデオコーディング

Learned Scalable Video Coding For Humans and Machines ( http://arxiv.org/abs/2307.08978v1 )

ライセンス: Link先を確認
Hadi Hadizadeh and Ivan V. Baji\'c(参考訳) ビデオコーディングは伝統的に、ビデオストリーミング、ビデオ会議、デジタルテレビなどのサービスをサポートするために開発されてきた。 主な目的は、人間がエンコードされたコンテンツを閲覧できるようにすることであった。 しかし、ディープニューラルネットワーク(dnn)の進歩により、エンコードされたビデオは機械が行う自動ビデオ分析にますます使われている。 自動交通監視のようなアプリケーションでは、車両の検知、追跡、計数などの分析は継続的に行われ、人間の視認は潜在的なインシデントをレビューするために時々必要となる。 このようなアプリケーションをサポートするためには、機械と人の両方でビデオの効率的な表現と圧縮をスケーラブルに行えるビデオ符号化の新しいパラダイムが必要である。 本稿では,機械ビジョンタスクをベース層でサポートする最初のエンドツーエンドの学習可能ビデオコーデックを紹介し,その拡張レイヤは人間の視聴のための入力再構成をサポートする。 より優れた圧縮ゲインを実現するために,条件付き符号化の概念に基づいて提案システムを構築した。 4つの標準ビデオデータセットで行った総合的な実験評価により、本フレームワークは、基礎層における最先端学習コーデックと従来のビデオコーデックの両方よりも優れており、その強化層において人間の視覚タスクで同等の性能を維持していることが示された。 レビュープロセスが完了すると、提案システムの実装をwww.github.comで提供します。

Video coding has traditionally been developed to support services such as video streaming, videoconferencing, digital TV, and so on. The main intent was to enable human viewing of the encoded content. However, with the advances in deep neural networks (DNNs), encoded video is increasingly being used for automatic video analytics performed by machines. In applications such as automatic traffic monitoring, analytics such as vehicle detection, tracking and counting, would run continuously, while human viewing could be required occasionally to review potential incidents. To support such applications, a new paradigm for video coding is needed that will facilitate efficient representation and compression of video for both machine and human use in a scalable manner. In this manuscript, we introduce the first end-to-end learnable video codec that supports a machine vision task in its base layer, while its enhancement layer supports input reconstruction for human viewing. The proposed system is constructed based on the concept of conditional coding to achieve better compression gains. Comprehensive experimental evaluations conducted on four standard video datasets demonstrate that our framework outperforms both state-of-the-art learned and conventional video codecs in its base layer, while maintaining comparable performance on the human vision task in its enhancement layer. We will provide the implementation of the proposed system at www.github.com upon completion of the review process.
翻訳日:2023-07-19 16:34:58 公開日:2023-07-18
# カウンタブルレポーティング・ユース(CANGARU)ガイドラインのためのチャットGPT, 生成人工知能, 自然言語モデルの開発

Development of the ChatGPT, Generative Artificial Intelligence and Natural Large Language Models for Accountable Reporting and Use (CANGARU) Guidelines ( http://arxiv.org/abs/2307.08974v1 )

ライセンス: Link先を確認
Giovanni E. Cacciamani, Michael B. Eppler, Conner Ganjavi, Asli Pekan, Brett Biedermann, Gary S. Collins, Inderbir S. Gill(参考訳) ジェネレーティブAI(GAI)やジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)、ChatGPTのような大規模言語モデル(LLM)の急速な進歩とユビキタスな採用により、学術研究や科学生産における倫理的応用、使用、開示に関する問い合わせが急増した。 いくつかの出版社や雑誌は最近独自のルールを作成したが、統一的なアプローチがないと「バベル・タワー効果」となり、望ましい標準化よりも混乱を招く可能性がある。 そこで本研究では,学界におけるgai/gpt/llm技術の倫理的利用,開示,適切な報告に関する学際的総合的なコンセンサスを育成することを目的として,chatgpt,generative artificial intelligence,natural large language models for accountable reporting and use guidelines (cangaru)イニシアチブを提案する。 現在のプロトコルは4つの異なる部分で構成されている。 a) GAI/GPT/LLM適用の体系的見直しは、学術研究における関連概念、発見及び報告基準を理解し、その使用及び開示のガイドラインを定式化する。 b)gai/gpt/llmに関するジャーナルにおける既存の著者ガイドラインの書誌学的分析,既存のガイドラインの評価,勧告の相違の分析,delphiコンセンサスプロセスに導入可能な共通ルールの特定を目標とする。 c) ガイドラインの項目に関する合意を確立するためのデルフィ調査、原則的GAI/GPT/LLMの使用、開示及びアカデミックにおける報告の確保 d) 最終ガイドラインのその後の開発及び普及とその補足的な説明及び明細書

The swift progress and ubiquitous adoption of Generative AI (GAI), Generative Pre-trained Transformers (GPTs), and large language models (LLMs) like ChatGPT, have spurred queries about their ethical application, use, and disclosure in scholarly research and scientific productions. A few publishers and journals have recently created their own sets of rules; however, the absence of a unified approach may lead to a 'Babel Tower Effect,' potentially resulting in confusion rather than desired standardization. In response to this, we present the ChatGPT, Generative Artificial Intelligence, and Natural Large Language Models for Accountable Reporting and Use Guidelines (CANGARU) initiative, with the aim of fostering a cross-disciplinary global inclusive consensus on the ethical use, disclosure, and proper reporting of GAI/GPT/LLM technologies in academia. The present protocol consists of four distinct parts: a) an ongoing systematic review of GAI/GPT/LLM applications to understand the linked ideas, findings, and reporting standards in scholarly research, and to formulate guidelines for its use and disclosure, b) a bibliometric analysis of existing author guidelines in journals that mention GAI/GPT/LLM, with the goal of evaluating existing guidelines, analyzing the disparity in their recommendations, and identifying common rules that can be brought into the Delphi consensus process, c) a Delphi survey to establish agreement on the items for the guidelines, ensuring principled GAI/GPT/LLM use, disclosure, and reporting in academia, and d) the subsequent development and dissemination of the finalized guidelines and their supplementary explanation and elaboration documents.
翻訳日:2023-07-19 16:34:34 公開日:2023-07-18
# 連続観測における個人差分和の統一化フレームワーク

A Unifying Framework for Differentially Private Sums under Continual Observation ( http://arxiv.org/abs/2307.08970v1 )

ライセンス: Link先を確認
Monika Henzinger and Jalaj Upadhyay and Sarvagya Upadhyay(参考訳) 本研究では,連続観測下での差分プライベート崩壊和の維持問題について検討する。 この問題に対する統一フレームワークと効率的なアルゴリズムを 'emph{any enough smooth} 関数に対して与える。 我々のアルゴリズムは多項式分解重みに対する乗算誤差を持たない最初の微分プライベートアルゴリズムである。 本アルゴリズムは,連続観測下での微分プライベート減衰和に関するすべての先行研究を改善し,henzinger et al. (soda 2023) からの連続カウントの特別な場合の加法誤差を正確に回復する。 我々のアルゴリズムは、誤差が基底行列の$\gamma_2$と$\gamma_F$ノルムに依存する分解機構の変種である。 我々は、$\gamma_2$ および $\gamma_F$ ノルム上のほぼ正確な上界と、大域な三角形行列のクラスに対する $\gamma_2$ ノルム上のほぼ厳密な下界に対する構成的証明を与える。 これは、非零成分がすべて同じでない下三角行列に対する最初の非自明な下界である。 これはすべての連続的減衰和問題に対する行列を含み、連続的観測の下では任意の微分的減衰和アルゴリズムの加法誤差の上界となる。 我々はまた、不一致理論と作用素代数における結果のいくつかの意味についても検討する。 計算機科学における$\gamma_2$ノルムの重要性と数学における広範な研究を考えると、我々の結果はさらなる応用が期待できる。

We study the problem of maintaining a differentially private decaying sum under continual observation. We give a unifying framework and an efficient algorithm for this problem for \emph{any sufficiently smooth} function. Our algorithm is the first differentially private algorithm that does not have a multiplicative error for polynomially-decaying weights. Our algorithm improves on all prior works on differentially private decaying sums under continual observation and recovers exactly the additive error for the special case of continual counting from Henzinger et al. (SODA 2023) as a corollary. Our algorithm is a variant of the factorization mechanism whose error depends on the $\gamma_2$ and $\gamma_F$ norm of the underlying matrix. We give a constructive proof for an almost exact upper bound on the $\gamma_2$ and $\gamma_F$ norm and an almost tight lower bound on the $\gamma_2$ norm for a large class of lower-triangular matrices. This is the first non-trivial lower bound for lower-triangular matrices whose non-zero entries are not all the same. It includes matrices for all continual decaying sums problems, resulting in an upper bound on the additive error of any differentially private decaying sums algorithm under continual observation. We also explore some implications of our result in discrepancy theory and operator algebra. Given the importance of the $\gamma_2$ norm in computer science and the extensive work in mathematics, we believe our result will have further applications.
翻訳日:2023-07-19 16:34:01 公開日:2023-07-18
# Quantivine: 大規模量子回路表現と解析のための可視化手法

Quantivine: A Visualization Approach for Large-scale Quantum Circuit Representation and Analysis ( http://arxiv.org/abs/2307.08969v1 )

ライセンス: Link先を確認
Zhen Wen, Yihan Liu, Siwei Tan, Jieyi Chen, Minfeng Zhu, Dongming Han, Jianwei Yin, Mingliang Xu, and Wei Chen(参考訳) 量子コンピューティングは、古典的アルゴリズムよりも指数的なスピードアップを可能にする急速に進化する分野である。 この革命的技術の核心は量子回路であり、量子アルゴリズムの実装、分析、最適化のための重要なツールとなっている。 量子コンピューティングの最近の進歩と量子デバイスの能力の増大は、より複雑な量子回路の開発につながった。 しかし、従来の量子回路図はスケーラビリティと可読性の問題に悩まされ、解析と最適化プロセスの効率が制限される。 本研究では,量子回路の理解を容易にするために意味解析を適用し,大規模量子回路の可視化手法を提案する。 まず、量子回路の基盤となるコードから抽出されたメタデータと意味情報を活用し、コンポーネントのセグメンテーションとパターンの抽象化を作成し、大規模回路図の理解を容易にする。 次に,量子回路の探索と理解のための対話型システムQuantivineを開発した。 一連の新しい回路視覚化は、キュービットの証明、並列性、絡み合いなどのコンテキストの詳細を明らかにするように設計されている。 Quantivineの有効性は、最大100キュービットの量子回路の使用シナリオと、量子専門家による正式なユーザ評価の2つを通じて実証される。 この論文の無料コピーと追加資料はhttps://osf.io/2m9yh/? view_only=0aa1618c97244f5093cd7ce15f1431f9。

Quantum computing is a rapidly evolving field that enables exponential speed-up over classical algorithms. At the heart of this revolutionary technology are quantum circuits, which serve as vital tools for implementing, analyzing, and optimizing quantum algorithms. Recent advancements in quantum computing and the increasing capability of quantum devices have led to the development of more complex quantum circuits. However, traditional quantum circuit diagrams suffer from scalability and readability issues, which limit the efficiency of analysis and optimization processes. In this research, we propose a novel visualization approach for large-scale quantum circuits by adopting semantic analysis to facilitate the comprehension of quantum circuits. We first exploit meta-data and semantic information extracted from the underlying code of quantum circuits to create component segmentations and pattern abstractions, allowing for easier wrangling of massive circuit diagrams. We then develop Quantivine, an interactive system for exploring and understanding quantum circuits. A series of novel circuit visualizations are designed to uncover contextual details such as qubit provenance, parallelism, and entanglement. The effectiveness of Quantivine is demonstrated through two usage scenarios of quantum circuits with up to 100 qubits and a formal user evaluation with quantum experts. A free copy of this paper and all supplemental materials are available at https://osf.io/2m9yh/?view_only=0aa1618c97244f5093cd7ce15f1431f9.
翻訳日:2023-07-19 16:33:36 公開日:2023-07-18
# landscape surrogate: 部分的情報に基づく数学的最適化のための学習決定損失

Landscape Surrogate: Learning Decision Losses for Mathematical Optimization Under Partial Information ( http://arxiv.org/abs/2307.08964v1 )

ライセンス: Link先を確認
Arman Zharmagambetov, Brandon Amos, Aaron Ferber, Taoan Huang, Bistra Dilkina, Yuandong Tian(参考訳) 学習統合最適化に関する最近の研究は、最適化問題が部分的にしか観察されていない場合や、汎用最適化が専門的なチューニングなしではうまく機能しない場合において、期待が持たれている。 目的として$f$でこれらの困難な問題に取り組むために最適化器$\mathbf{g}$を学習することで、過去の経験を活用することで最適化プロセスを大幅に加速することができる。 最適化子は、既知の最適解の監督や、複合関数 $f\circ \mathbf{g}$ を最適化することで暗黙的に訓練することができる。 暗黙のアプローチはラベルとして最適なソリューションを必要としないため、問題の不確実性を扱うことができるが、トレーニングとテストの両方において、Optimator $\mathbf{g}$を頻繁に呼び出すため、トレーニングとデプロイが遅い。 この訓練はさらに$\mathbf{g}$のスパース勾配、特に組合せ解法に対して挑戦される。 これらの課題に対処するため、スムーズで学習可能なランドスケープサロゲート$M$を$f\circ \mathbf{g}$の代替として提案する。 このサロゲートはニューラルネットワークによって学習可能で、ソルバ$\mathbf{g}$より高速に計算でき、トレーニング中に密度が高く滑らかな勾配を提供し、目に見えない最適化問題に一般化でき、交互最適化によって効率的に学習される。 我々は,最短経路と多次元クナップサックを含む合成問題と,ポートフォリオ最適化のような実世界の問題,最先端のベースラインと比較して同等あるいは優れた目標値を達成すること,およびコール数を$\mathbf{g}$に削減すること,の両方法を試行する。 特に,計算コストの高い高次元問題に対する既存の手法を上回っている。

Recent works in learning-integrated optimization have shown promise in settings where the optimization problem is only partially observed or where general-purpose optimizers perform poorly without expert tuning. By learning an optimizer $\mathbf{g}$ to tackle these challenging problems with $f$ as the objective, the optimization process can be substantially accelerated by leveraging past experience. The optimizer can be trained with supervision from known optimal solutions or implicitly by optimizing the compound function $f\circ \mathbf{g}$. The implicit approach may not require optimal solutions as labels and is capable of handling problem uncertainty; however, it is slow to train and deploy due to frequent calls to optimizer $\mathbf{g}$ during both training and testing. The training is further challenged by sparse gradients of $\mathbf{g}$, especially for combinatorial solvers. To address these challenges, we propose using a smooth and learnable Landscape Surrogate $M$ as a replacement for $f\circ \mathbf{g}$. This surrogate, learnable by neural networks, can be computed faster than the solver $\mathbf{g}$, provides dense and smooth gradients during training, can generalize to unseen optimization problems, and is efficiently learned via alternating optimization. We test our approach on both synthetic problems, including shortest path and multidimensional knapsack, and real-world problems such as portfolio optimization, achieving comparable or superior objective values compared to state-of-the-art baselines while reducing the number of calls to $\mathbf{g}$. Notably, our approach outperforms existing methods for computationally expensive high-dimensional problems.
翻訳日:2023-07-19 16:33:17 公開日:2023-07-18
# REX: AIエージェントの迅速な探索とeXploitation

REX: Rapid Exploration and eXploitation for AI Agents ( http://arxiv.org/abs/2307.08962v1 )

ライセンス: Link先を確認
Rithesh Murthy, Shelby Heinecke, Juan Carlos Niebles, Zhiwei Liu, Le Xue, Weiran Yao, Yihao Feng, Zeyuan Chen, Akash Gokul, Devansh Arpit, Ran Xu, Phil Mui, Huan Wang, Caiming Xiong, Silvio Savarese(参考訳) 本稿では、REXと呼ばれるAIエージェントのための高速探索およびeXploitationのための拡張アプローチを提案する。 既存のAutoGPTスタイルのテクニックには、意思決定の正確な記述に大きく依存することや、従来の強化学習(RL)に似た試行錯誤手順を活用するための体系的なアプローチの欠如など、固有の制限がある。 REXは追加の報酬層を導入し、アッパー信頼境界(UCB)スコアに似た概念を統合し、より堅牢で効率的なAIエージェントのパフォーマンスをもたらす。 このアプローチは、ログからのオフライン動作の利用を可能にすると同時に、既存の基盤モデルとのシームレスな統合を可能にする。 Chain-of-Thoughts(CoT)やReasoning viA Planning(RAP)といった既存の手法との比較分析を通じて、REXベースの手法は同等のパフォーマンスを示し、場合によっては、既存の手法によって達成された結果を超えている。 特に、REXベースの手法は実行時間の大幅な削減を示し、様々なシナリオに適用性を高めている。

In this paper, we propose an enhanced approach for Rapid Exploration and eXploitation for AI Agents called REX. Existing AutoGPT-style techniques have inherent limitations, such as a heavy reliance on precise descriptions for decision-making, and the lack of a systematic approach to leverage try-and-fail procedures akin to traditional Reinforcement Learning (RL). REX introduces an additional layer of rewards and integrates concepts similar to Upper Confidence Bound (UCB) scores, leading to more robust and efficient AI agent performance. This approach has the advantage of enabling the utilization of offline behaviors from logs and allowing seamless integration with existing foundation models while it does not require any model fine-tuning. Through comparative analysis with existing methods such as Chain-of-Thoughts(CoT) and Reasoning viA Planning(RAP), REX-based methods demonstrate comparable performance and, in certain cases, even surpass the results achieved by these existing techniques. Notably, REX-based methods exhibit remarkable reductions in execution time, enhancing their practical applicability across a diverse set of scenarios.
翻訳日:2023-07-19 16:32:42 公開日:2023-07-18
# 量子情報におけるハール測定ツールの紹介 : 初心者のチュートリアル

Introduction to Haar Measure Tools in Quantum Information: A Beginner's Tutorial ( http://arxiv.org/abs/2307.08956v1 )

ライセンス: Link先を確認
Antonio Anna Mele(参考訳) ハール測度は量子情報において重要な役割を果たすが、その研究はしばしば表現論の深い理解を必要とし、初心者にとって挑戦となる。 このチュートリアルは、線形代数の基本的な知識のみを利用して量子情報におけるハール測度ツールの基本的な紹介を提供することを目的としており、このトピックをよりアクセスしやすくすることを目的としている。 チュートリアルは、ハール測度上の積分を計算する必須要素であるモーメント作用素を特徴づけることに特に重点を置いてハール測度を導入することから始まります。 対称部分空間の性質もカバーし、計算の可視化と単純化を支援するテンソルネットワーク図式記法のような便利なツールも導入している。 次に、チュートリアルではユニタリデザインの概念を探求し、等価な定義を提供し、その後ユニタリデザインの近似概念を探求し、これら異なる概念間の関係を明らかにした。 ハール測度の計算の実際的な例は、量子チャネルの回転のようなよく知られた公式の導出を含む。 最後に、量子機械学習と古典的シャドウトモグラフィーにおけるハール測度計算の適用例を紹介する。

The Haar measure plays a vital role in quantum information, but its study often requires a deep understanding of representation theory, posing a challenge for beginners. This tutorial aims to provide a basic introduction to Haar measure tools in quantum information, utilizing only basic knowledge of linear algebra and thus aiming to make this topic more accessible. The tutorial begins by introducing the Haar measure with a specific emphasis on characterizing the moment operator, an essential element for computing integrals over the Haar measure. It also covers properties of the symmetric subspace and introduces helpful tools like Tensor network diagrammatic notation, which aid in visualizing and simplifying calculations. Next, the tutorial explores the concept of unitary designs, providing equivalent definitions, and subsequently explores approximate notions of unitary designs, shedding light on the relationships between these different notions. Practical examples of Haar measure calculations are illustrated, including the derivation of well-known formulas such as the twirling of a quantum channel. Lastly, the tutorial showcases the applications of Haar measure calculations in Quantum Machine Learning and Classical Shadow tomography.
翻訳日:2023-07-19 16:32:07 公開日:2023-07-18
# IoTにおけるロバスト学習のための離散化に基づくアンサンブルモデル

Discretization-based ensemble model for robust learning in IoT ( http://arxiv.org/abs/2307.08955v1 )

ライセンス: Link先を確認
Anahita Namvar, Chandra Thapa, Salil S. Kanhere(参考訳) IoTデバイス識別は、接続されたIoTデバイスをネットワークに認識し、検証するプロセスである。 これは、認証されたデバイスだけがネットワークにアクセスできるようにするために必要なプロセスであり、ネットワーク管理とメンテナンスに必要である。 近年,ネットワーク内のデバイス識別プロセスの自動化に機械学習モデルが広く利用されている。 しかし、これらのモデルは、その正確性と有効性を損なう可能性のある敵攻撃に対して脆弱である。 デバイス識別モデルをより安全にするために、離散化技術は、モデルの安定性と信頼性に寄与する敵対的攻撃に対する機械学習モデルの感度を低下させる。 一方、Ensemble法は複数の異種モデルを組み合わせることで、モデル内の残音やエラーの影響を低減する。 そこで本研究では,離散化手法とアンサンブル手法を統合し,敵の攻撃に対するモデルロバスト性を検討する。 言い換えれば、我々のMLモデルのセキュリティを改善するために、離散化に基づくアンサンブルスタック技術を提案する。 28個のIoTデバイスからのネットワークトラフィックからなる実世界のデータセットを用いて、ホワイトボックスとブラックボックス攻撃に対するMLベースの異なるIoTデバイス識別モデルの性能を評価する。 提案手法により,iotデバイス識別モデルに対するロバスト性が実現できることを実証する。

IoT device identification is the process of recognizing and verifying connected IoT devices to the network. This is an essential process for ensuring that only authorized devices can access the network, and it is necessary for network management and maintenance. In recent years, machine learning models have been used widely for automating the process of identifying devices in the network. However, these models are vulnerable to adversarial attacks that can compromise their accuracy and effectiveness. To better secure device identification models, discretization techniques enable reduction in the sensitivity of machine learning models to adversarial attacks contributing to the stability and reliability of the model. On the other hand, Ensemble methods combine multiple heterogeneous models to reduce the impact of remaining noise or errors in the model. Therefore, in this paper, we integrate discretization techniques and ensemble methods and examine it on model robustness against adversarial attacks. In other words, we propose a discretization-based ensemble stacking technique to improve the security of our ML models. We evaluate the performance of different ML-based IoT device identification models against white box and black box attacks using a real-world dataset comprised of network traffic from 28 IoT devices. We demonstrate that the proposed method enables robustness to the models for IoT device identification.
翻訳日:2023-07-19 16:31:26 公開日:2023-07-18
# 知識注入型深層学習による地すべり予測

Knowledge-infused Deep Learning Enables Interpretable Landslide Forecasting ( http://arxiv.org/abs/2307.08951v1 )

ライセンス: Link先を確認
Zhengjing Ma, Gang Mei(参考訳) 地すべりが時間とともにどのように進化するか、あるいは失敗するかを予測することは、内部および外部の両方のさまざまな要因のために難しい課題である。 これらの課題に対処する大きな可能性にもかかわらず、深層学習技術は解釈可能性に欠けており、それらが生み出す予測の信頼性を損なう。 近年の変圧器を用いた深層学習は,前例のない解釈性と非線形特徴学習機能を備えた地すべりの予測を未然に行うことができる。 本稿では,lfitと呼ばれるトランスフォーマーベースのネットワークを用いて,事前知識と複数ソースデータから複雑な非線形関係を学習し,最も関連する変数を特定し,地すべり進展と時間パターンの包括的理解を示す。 先行知識を統合することにより,地すべり予測の総合的改善を図り,異なる地すべり地域における各種要因に対する多様な応答を捉えることができる。 3峡谷貯水池における貯留層地すべりとチベット高原の沿面地すべりの予測モデルを用いて, 地すべりの速度を測定するためのプロキシーとして変形観測を行った。 先行知識が組み込まれた場合, 解釈可能な地すべり予測は, 種々の地すべりにおける影響因子を効果的に同定することを示す。 さらに地域がこれらの要因にどのように反応するかを解明し、地すべり行動や傾向をより解釈し予測可能にした。 本研究から得られた知見は, 地すべりの挙動を新しい方法で理解し, 今後, 内外の要因によって影響される他の複雑な災害にも適用できることに寄与する。

Forecasting how landslides will evolve over time or whether they will fail is a challenging task due to a variety of factors, both internal and external. Despite their considerable potential to address these challenges, deep learning techniques lack interpretability, undermining the credibility of the forecasts they produce. The recent development of transformer-based deep learning offers untapped possibilities for forecasting landslides with unprecedented interpretability and nonlinear feature learning capabilities. Here, we present a deep learning pipeline that is capable of predicting landslide behavior holistically, which employs a transformer-based network called LFIT to learn complex nonlinear relationships from prior knowledge and multiple source data, identifying the most relevant variables, and demonstrating a comprehensive understanding of landslide evolution and temporal patterns. By integrating prior knowledge, we provide improvement in holistic landslide forecasting, enabling us to capture diverse responses to various influencing factors in different local landslide areas. Using deformation observations as proxies for measuring the kinetics of landslides, we validate our approach by training models to forecast reservoir landslides in the Three Gorges Reservoir and creeping landslides on the Tibetan Plateau. When prior knowledge is incorporated, we show that interpretable landslide forecasting effectively identifies influential factors across various landslides. It further elucidates how local areas respond to these factors, making landslide behavior and trends more interpretable and predictable. The findings from this study will contribute to understanding landslide behavior in a new way and make the proposed approach applicable to other complex disasters influenced by internal and external factors in the future.
翻訳日:2023-07-19 16:30:56 公開日:2023-07-18
# 圧縮センシングのためのDeep Physics-Guided Unrolling Generalization

Deep Physics-Guided Unrolling Generalization for Compressed Sensing ( http://arxiv.org/abs/2307.08950v1 )

ライセンス: Link先を確認
Bin Chen, Jiechong Song, Jingfen Xie, Jian Zhang(参考訳) モデルとデータ駆動方式の両方の利点を吸収することにより、深層物理学による学習方式は高精度で解釈可能な画像再構成を実現する。 注目を集め、逆撮像タスクの主流となっている。 画像圧縮センシング(cs)問題に焦点を絞ると、この新たなパラダイムの本質的な欠陥が明らかになる。深層アルゴリズムによるネットワークによって広く実装され、実際の物理学に関わるより単純なイテレーションが膨大な計算コストと長い推論時間をもたらし、実用的応用を妨げる。 Deep $\textbf{P}$hysics-guided un$\textbf{R}$olled recovery $\textbf{L}$earning$\textbf{PRL}$)フレームワークは、画像ドメイン(ID)から高次元特徴ドメイン(FD)への伝統的な反復回復モデルを一般化することによって提案される。 その後、ネットワーク容量を高め、リアルタイムの推論速度を維持するために、コンパクトなマルチスケールアンローリングアーキテクチャが開発される。 アルゴリズム固有のアンローリングネットワークを構築する代わりに、最適化とレンジ-ヌルスペースの分解という2つの異なる観点から、$\textbf{PRL-PGD}$と$\textbf{PRL-RND}$の2つの実装を提供する。 実験は、prlネットワークが他の最先端手法よりも大きな性能と効率性を示し、さらなる改善と、他の逆イメージング問題や最適化モデルへの実際の応用の可能性を示している。

By absorbing the merits of both the model- and data-driven methods, deep physics-engaged learning scheme achieves high-accuracy and interpretable image reconstruction. It has attracted growing attention and become the mainstream for inverse imaging tasks. Focusing on the image compressed sensing (CS) problem, we find the intrinsic defect of this emerging paradigm, widely implemented by deep algorithm-unrolled networks, in which more plain iterations involving real physics will bring enormous computation cost and long inference time, hindering their practical application. A novel deep $\textbf{P}$hysics-guided un$\textbf{R}$olled recovery $\textbf{L}$earning ($\textbf{PRL}$) framework is proposed by generalizing the traditional iterative recovery model from image domain (ID) to the high-dimensional feature domain (FD). A compact multiscale unrolling architecture is then developed to enhance the network capacity and keep real-time inference speeds. Taking two different perspectives of optimization and range-nullspace decomposition, instead of building an algorithm-specific unrolled network, we provide two implementations: $\textbf{PRL-PGD}$ and $\textbf{PRL-RND}$. Experiments exhibit the significant performance and efficiency leading of PRL networks over other state-of-the-art methods with a large potential for further improvement and real application to other inverse imaging problems or optimization models.
翻訳日:2023-07-19 16:30:27 公開日:2023-07-18
# ConViTを用いた静止画像における人間の行動認識

Human Action Recognition in Still Images Using ConViT ( http://arxiv.org/abs/2307.08994v1 )

ライセンス: Link先を確認
Seyed Rohollah Hosseyni, Hasan Taheri, Sanaz Seyedin, Ali Ahmad Rahmani(参考訳) 画像の異なる部分間の関係を理解することは、多くの視覚認識タスクにおいて重要な役割を果たす。 畳み込みニューラルネットワーク(CNN)は、単一物体の検出において驚くべき結果を示したが、人間の行動認識において重要な要素である画像の様々な領域間の関係を抽出する能力は欠如している。 そこで本稿では,視覚トランスフォーマ (vit) を用いた畳み込み層として機能する新しいモジュールを提案する。 提案する動作認識モデルは,画像から高レベルな空間的特徴を抽出する深層畳み込みネットワークと,cnn出力によって生成された特徴マップを用いて画像の様々な領域間の関係を抽出する視覚トランスフォーマを使用している。 提案したモデルはStanford40とPASCAL VOC 2012のアクションデータセットで評価され、それぞれ95.5% mAPと91.5% mAPを達成している。

Understanding the relationship between different parts of the image plays a crucial role in many visual recognition tasks. Despite the fact that Convolutional Neural Networks (CNNs) have demonstrated impressive results in detecting single objects, they lack the capability to extract the relationship between various regions of an image, which is a crucial factor in human action recognition. To address this problem, this paper proposes a new module that functions like a convolutional layer using Vision Transformer (ViT). The proposed action recognition model comprises two components: the first part is a deep convolutional network that extracts high-level spatial features from the image, and the second component of the model utilizes a Vision Transformer that extracts the relationship between various regions of the image using the feature map generated by the CNN output. The proposed model has been evaluated on the Stanford40 and PASCAL VOC 2012 action datasets and has achieved 95.5% mAP and 91.5% mAP results, respectively, which are promising compared to other state-of-the-art methods.
翻訳日:2023-07-19 16:22:31 公開日:2023-07-18
# デュアルバックプロジェクションネットワークによる任意点雲アップサンプリング

Arbitrary point cloud upsampling via Dual Back-Projection Network ( http://arxiv.org/abs/2307.08992v1 )

ライセンス: Link先を確認
Zhi-Song Liu, Zijia Wang, Zhen Jia(参考訳) 3dセンサーから獲得した点雲は通常、ばらばらでうるさい。 ポイントクラウドアップサンプリング(point cloud upsampling)は、ポイントクラウドの密度を高めて、詳細な幾何学的情報を復元する手法である。 本稿では,dbpnet (point cloud upsampling) のためのデュアルバックプロジェクションネットワークを提案する。 デュアルバックプロジェクションは、ポイントクラウドアップサンプリングのためのアップアップアップ方式で定式化される。 バックプロジェクトは残差を特徴とするだけでなく、ネットワークが特徴領域と空間領域の点相関をよりよく捉え、一様および非一様のスパース点雲の低い再構成誤差を達成するように調整する。 提案手法は,任意のアップサンプリングタスク(例えば4x,5.5x)に対して一般化可能である。 実験結果から, 提案手法は, ベンチマークに対して最小の点集合の損失を達成できることがわかった。 さらに, 提案手法の成功は, 非一様点雲には生成ネットワークが必ずしも必要ではないことを示す。

Point clouds acquired from 3D sensors are usually sparse and noisy. Point cloud upsampling is an approach to increase the density of the point cloud so that detailed geometric information can be restored. In this paper, we propose a Dual Back-Projection network for point cloud upsampling (DBPnet). A Dual Back-Projection is formulated in an up-down-up manner for point cloud upsampling. It not only back projects feature residues but also coordinates residues so that the network better captures the point correlations in the feature and space domains, achieving lower reconstruction errors on both uniform and non-uniform sparse point clouds. Our proposed method is also generalizable for arbitrary upsampling tasks (e.g. 4x, 5.5x). Experimental results show that the proposed method achieves the lowest point set matching losses with respect to the benchmark. In addition, the success of our approach demonstrates that generative networks are not necessarily needed for non-uniform point clouds.
翻訳日:2023-07-19 16:22:11 公開日:2023-07-18
# EgoVM: 軽量ベクトルマップによる精密Egoローカライゼーションの実現

EgoVM: Achieving Precise Ego-Localization using Lightweight Vectorized Maps ( http://arxiv.org/abs/2307.08991v1 )

ライセンス: Link先を確認
Yuzhe He, Shuang Liang, Xiaofei Rui, Chengying Cai, Guowei Wan(参考訳) 自動運転には正確で信頼性の高いエゴローカライズが不可欠である。 本稿では,最先端の手法と同等のローカライズ精度を実現するとともに,重みのある点ベースの地図の代わりに軽量なベクトル化地図を用いる,エンドツーエンドのローカライズネットワークであるegovmを提案する。 まず、オンラインのマルチビュー画像とlidar point cloudからbev機能を抽出する。 次に,マップ要素の意味型をエンコードし,意味セグメンテーションでそれらを監督し,それらの特徴表現をbev機能と一貫性を持たせるために,学習可能な意味埋め込みを用いた。 その後、map要素の学習可能な意味埋め込みと座標からなるmapクエリをtransformerデコーダに供給し、bev機能とのクロスモダリティマッチングを行う。 最後に,ロバストなヒストグラムベースのポーズソルバを用いて,候補ポーズを徹底的に探索することで最適なポーズを推定する。 nuScenesデータセットと新たに収集したデータセットの両方を用いて,本手法の有効性を総合的に検証した。 実験の結果, 提案手法はセンチメートルレベルの位置推定精度を達成し, ベクトル化地図を用いた既存手法を大きなマージンで上回った。 さらに,我々のモデルは,様々な挑戦的な都市環境下で,大規模な自動運転車で広範囲にテストされてきた。

Accurate and reliable ego-localization is critical for autonomous driving. In this paper, we present EgoVM, an end-to-end localization network that achieves comparable localization accuracy to prior state-of-the-art methods, but uses lightweight vectorized maps instead of heavy point-based maps. To begin with, we extract BEV features from online multi-view images and LiDAR point cloud. Then, we employ a set of learnable semantic embeddings to encode the semantic types of map elements and supervise them with semantic segmentation, to make their feature representation consistent with BEV features. After that, we feed map queries, composed of learnable semantic embeddings and coordinates of map elements, into a transformer decoder to perform cross-modality matching with BEV features. Finally, we adopt a robust histogram-based pose solver to estimate the optimal pose by searching exhaustively over candidate poses. We comprehensively validate the effectiveness of our method using both the nuScenes dataset and a newly collected dataset. The experimental results show that our method achieves centimeter-level localization accuracy, and outperforms existing methods using vectorized maps by a large margin. Furthermore, our model has been extensively tested in a large fleet of autonomous vehicles under various challenging urban scenes.
翻訳日:2023-07-19 16:21:55 公開日:2023-07-18
# GraphCL-DTA : 薬物結合親和性予測のための分子セマンティクスを用いたグラフコントラスト学習

GraphCL-DTA: a graph contrastive learning with molecular semantics for drug-target binding affinity prediction ( http://arxiv.org/abs/2307.08989v1 )

ライセンス: Link先を確認
Xinxing Yang and Genke Yang and Jian Chu(参考訳) 薬物-標的結合親和性予測は、新薬と新しい標的との相互作用の強さを推測する薬物発見の初期段階において重要な役割を果たす。 しかし,従来の計算モデルの性能は,以下の欠点によって制限される。 薬物表現の学習は、分子グラフ自体に含まれる情報を考慮せずに、教師付きデータにのみ依存する。 さらに、従来の研究では複雑な表現学習モジュールを設計する傾向があったが、表現品質を測定するために用いられる一様性は無視されている。 本研究では,薬物-標的結合親和性予測のためのグラフコントラスト学習法であるGraphCL-DTAを提案する。 graphcl-dtaでは,分子グラフのコントラスト学習フレームワークを設計し,薬物表現を学習し,分子グラフのセマンティクスを保存した。 このグラフの対比フレームワークを通じて、より本質的で効果的な薬物表現は、追加の教師付きデータなしで学べる。 次に、薬物と標的表現の均一性をスムーズに調整するために、直接使用できる新しい損失関数を設計する。 表現の均一性を直接最適化することにより、薬物および標的の表現品質を向上させることができる。 上記の革新的要素の有効性は、KIBAとDavisの2つの実際のデータセットで検証される。 上記のデータセットにおけるGraphCL-DTAの優れたパフォーマンスは、最先端モデルよりも優れていることを示唆している。

Drug-target binding affinity prediction plays an important role in the early stages of drug discovery, which can infer the strength of interactions between new drugs and new targets. However, the performance of previous computational models is limited by the following drawbacks. The learning of drug representation relies only on supervised data, without taking into account the information contained in the molecular graph itself. Moreover, most previous studies tended to design complicated representation learning module, while uniformity, which is used to measure representation quality, is ignored. In this study, we propose GraphCL-DTA, a graph contrastive learning with molecular semantics for drug-target binding affinity prediction. In GraphCL-DTA, we design a graph contrastive learning framework for molecular graphs to learn drug representations, so that the semantics of molecular graphs are preserved. Through this graph contrastive framework, a more essential and effective drug representation can be learned without additional supervised data. Next, we design a new loss function that can be directly used to smoothly adjust the uniformity of drug and target representations. By directly optimizing the uniformity of representations, the representation quality of drugs and targets can be improved. The effectiveness of the above innovative elements is verified on two real datasets, KIBA and Davis. The excellent performance of GraphCL-DTA on the above datasets suggests its superiority to the state-of-the-art model.
翻訳日:2023-07-19 16:21:32 公開日:2023-07-18
# EVIL:信頼できる半教師型医用画像セグメンテーションのためのエビデンシャル推論学習

EVIL: Evidential Inference Learning for Trustworthy Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2307.08988v1 )

ライセンス: Link先を確認
Yingyu Chen, Ziyuan Yang, Chenyu Shen, Zhiwen Wang, Yang Qin, Yi Zhang(参考訳) 近年,半監督医用画像セグメンテーションにおいて不確実性認識手法が注目されている。 しかし,現在の手法では計算コスト,推定精度,理論的支援のバランスが難しいという欠点がある。 この問題を軽減するために,Evidential Inference Learning (EVIL) と呼ばれる半教師付き医用画像セグメンテーションにDST(Dempster-Shafer Theory of Evidence)を導入する。 EVILは理論上保証されたソリューションを提供し、単一の前方通過で正確な不確実な定量化を推測する。 不確実性推定後、ラベルなしデータの信頼できる擬似ラベルを生成する。 最近提案された整合性正規化に基づくトレーニングパラダイムをフレームワークに導入し,摂動予測の整合性を適用し,ラベル付きデータの少ない一般化を促進する。 実験結果から, EVILは, 公開データセット上での最先端手法と比較して, 競争性能が向上することが示された。

Recently, uncertainty-aware methods have attracted increasing attention in semi-supervised medical image segmentation. However, current methods usually suffer from the drawback that it is difficult to balance the computational cost, estimation accuracy, and theoretical support in a unified framework. To alleviate this problem, we introduce the Dempster-Shafer Theory of Evidence (DST) into semi-supervised medical image segmentation, dubbed Evidential Inference Learning (EVIL). EVIL provides a theoretically guaranteed solution to infer accurate uncertainty quantification in a single forward pass. Trustworthy pseudo labels on unlabeled data are generated after uncertainty estimation. The recently proposed consistency regularization-based training paradigm is adopted in our framework, which enforces the consistency on the perturbed predictions to enhance the generalization with few labeled data. Experimental results show that EVIL achieves competitive performance in comparison with several state-of-the-art methods on the public dataset.
翻訳日:2023-07-19 16:21:12 公開日:2023-07-18
# 5G NRによる低遅延XRのためのAI支援型サービスプロビジョニング

AI-assisted Improved Service Provisioning for Low-latency XR over 5G NR ( http://arxiv.org/abs/2307.08987v1 )

ライセンス: Link先を確認
Moyukh Laha, Dibbendu Roy, Sourav Dutta, Goutam Das(参考訳) 拡張現実(xr)は、人間の相互作用を根本的に変える最も重要な5g/6gメディアアプリケーションの一つである。 しかしながら、XRサービスをサポートするために低レイテンシ、高いデータレート、信頼性を保証することは大きな課題である。 このレターは、予測されたフレームを実際のフレームのみに依存するのではなく、処理に利用する、AI支援のサービスプロビジョニングスキームを新たに提示する。 この方法はネットワーク遅延予算を事実上増加させ、マイナーな予測エラーを犠牲にしてサービス提供を改善する。 提案手法は,XRユーザ数の増加を示す広範囲なシミュレーションにより検証され,ネットワーク設計上の重要な知見も提供する。

Extended Reality (XR) is one of the most important 5G/6G media applications that will fundamentally transform human interactions. However, ensuring low latency, high data rate, and reliability to support XR services poses significant challenges. This letter presents a novel AI-assisted service provisioning scheme that leverages predicted frames for processing rather than relying solely on actual frames. This method virtually increases the network delay budget and consequently improves service provisioning, albeit at the expense of minor prediction errors. The proposed scheme is validated by extensive simulations demonstrating a multi-fold increase in supported XR users and also provides crucial network design insights.
翻訳日:2023-07-19 16:20:55 公開日:2023-07-18
# PromptCrafter: LLMとの対話によるテキストから画像へのプロンプト作成

PromptCrafter: Crafting Text-to-Image Prompt through Mixed-Initiative Dialogue with LLM ( http://arxiv.org/abs/2307.08985v1 )

ライセンス: Link先を確認
Seungho Baek, Hyerin Im, Jiseung Ryu, Juhyeong Park, Takyeon Lee(参考訳) テキスト・ツー・イメージ生成モデルは、1つのプロンプトに基づいて様々な主題やスタイルの画像を生成できる。 近年の研究では,ユーザがモデルの能力を理解し,活用するための様々なインタラクション手法が提案されている。 しかし、モデルの性能を効率的に探索し、効果的なプロンプトを作成するためにユーザを支援する方法はまだオープンな研究課題である。 本稿では,テキストから画像へのプロンプトをステップバイステップで作成可能な,新しい混合入力システムpromptedcrafterを提案する。 反復的なプロセスを通じて、ユーザーは効率的にモデルの能力を探索し、意図を明らかにすることができる。 PromptCrafterはまた、大きな言語モデルによって生成された質問を明確にするために、さまざまな応答に答えることで、プロンプトを洗練できるようにする。 最後に、ユーザーは作業履歴をレビューすることで、望ましいステップに戻すことができる。 本稿では,PromptCrafterの設計プロセスとフォローアップ研究の計画について論じる。

Text-to-image generation model is able to generate images across a diverse range of subjects and styles based on a single prompt. Recent works have proposed a variety of interaction methods that help users understand the capabilities of models and utilize them. However, how to support users to efficiently explore the model's capability and to create effective prompts are still open-ended research questions. In this paper, we present PromptCrafter, a novel mixed-initiative system that allows step-by-step crafting of text-to-image prompt. Through the iterative process, users can efficiently explore the model's capability, and clarify their intent. PromptCrafter also supports users to refine prompts by answering various responses to clarifying questions generated by a Large Language Model. Lastly, users can revert to a desired step by reviewing the work history. In this workshop paper, we discuss the design process of PromptCrafter and our plans for follow-up studies.
翻訳日:2023-07-19 16:20:44 公開日:2023-07-18
# クリップによる映像関係検出の防御

In Defense of Clip-based Video Relation Detection ( http://arxiv.org/abs/2307.08984v1 )

ライセンス: Link先を確認
Meng Wei, Long Chen, Wei Ji, Xiaoyu Yue, Roger Zimmermann(参考訳) video visual relations detection (vidvrd) は、空間境界ボックスと時間境界を用いて映像中の視覚関係三重項を検出することを目的としている。 既存のVidVRD手法は、関係を分類するアプローチによって、ボトムアップパラダイムとトップダウンパラダイムに広く分類することができる。 ボトムアップ手法はクリップベースのアプローチに従い、短いクリップチューブレットペアの関係を分類し、長いビデオ関係にマージする。 一方,トップダウン方式では長尺ビデオチューブレット対を直接分類する。 ビデオチューブを用いた最近のビデオベース手法は有望な結果を示しているが、クリップチューブとビデオチューブの選択よりも、空間的・時間的文脈の効果的なモデリングが重要な役割を担っていると論じている。 このことは、クリップベースのパラダイムを再考し、VidVRDの重要な成功要因を探る動機となります。 本稿では,オブジェクトベースの空間的コンテキストと,クリップに基づく関係に基づく時間的コンテキストを充実させる階層型コンテキストモデルを提案する。 クリップチューブを用いることで,ほとんどのビデオベース手法と比較して優れた性能が得られることを示す。 さらに、クリップチューブレットを使用することで、モデル設計の柔軟性が向上し、長期オブジェクト追跡問題や長期的なチューブレット特徴圧縮における時間情報の喪失など、ビデオチューブレットに関連する制限が緩和される。 2つの挑戦的なVidVRDベンチマークで実施された大規模な実験により、我々のHCMが新しい最先端性能を実現し、クリップベースパラダイムに高度な空間的・時間的コンテキストモデリングを組み込むことの有効性を強調した。

Video Visual Relation Detection (VidVRD) aims to detect visual relationship triplets in videos using spatial bounding boxes and temporal boundaries. Existing VidVRD methods can be broadly categorized into bottom-up and top-down paradigms, depending on their approach to classifying relations. Bottom-up methods follow a clip-based approach where they classify relations of short clip tubelet pairs and then merge them into long video relations. On the other hand, top-down methods directly classify long video tubelet pairs. While recent video-based methods utilizing video tubelets have shown promising results, we argue that the effective modeling of spatial and temporal context plays a more significant role than the choice between clip tubelets and video tubelets. This motivates us to revisit the clip-based paradigm and explore the key success factors in VidVRD. In this paper, we propose a Hierarchical Context Model (HCM) that enriches the object-based spatial context and relation-based temporal context based on clips. We demonstrate that using clip tubelets can achieve superior performance compared to most video-based methods. Additionally, using clip tubelets offers more flexibility in model designs and helps alleviate the limitations associated with video tubelets, such as the challenging long-term object tracking problem and the loss of temporal information in long-term tubelet feature compression. Extensive experiments conducted on two challenging VidVRD benchmarks validate that our HCM achieves a new state-of-the-art performance, highlighting the effectiveness of incorporating advanced spatial and temporal context modeling within the clip-based paradigm.
翻訳日:2023-07-19 16:20:27 公開日:2023-07-18
# スペクトル保存プロセスとしてのニューラルネットワークプルーニング

Neural Network Pruning as Spectrum Preserving Process ( http://arxiv.org/abs/2307.08982v1 )

ライセンス: Link先を確認
Shibo Yao, Dantong Yu, Ioannis Koutis(参考訳) ニューラルネットワークは様々なアプリケーション領域で顕著なパフォーマンスを実現している。 それでも、事前訓練されたディープニューラルネットワークの多くの重量は、スマートフォンや組み込みシステムにデプロイされることを禁じている。 エッジデバイスでの推論のために,ニューラルネットワークの軽量バージョンを得ることが望ましい。 多くのコスト効率の良いアプローチが、ディープニューラルネットワークで一般的であり、パラメータ空間で支配的な密度と畳み込み層を創り出すために提案された。 しかし、この問題の統一的な理論基盤はほとんど失われている。 本稿では,行列スペクトル学習とニューラルネットワークトレーニングの密集層と畳み込み層との密接な関係を同定し,重み付けは基本的にスペクトルを保存するための行列スカラー化プロセスであると主張する。 また,本解析に基づいて,ニューラルネットワークの刈り取りに適した行列スパース化アルゴリズムを提案し,より優れた刈り取り結果を得る。 議論を支える実験を慎重に設計し、実施する。 そこで本研究では,ニューラルネットワークのプルーニングの統一的視点を提供し,重要な重み付けを同定し保存することで,ディープニューラルネットワークの解釈性を高める。

Neural networks have achieved remarkable performance in various application domains. Nevertheless, a large number of weights in pre-trained deep neural networks prohibit them from being deployed on smartphones and embedded systems. It is highly desirable to obtain lightweight versions of neural networks for inference in edge devices. Many cost-effective approaches were proposed to prune dense and convolutional layers that are common in deep neural networks and dominant in the parameter space. However, a unified theoretical foundation for the problem mostly is missing. In this paper, we identify the close connection between matrix spectrum learning and neural network training for dense and convolutional layers and argue that weight pruning is essentially a matrix sparsification process to preserve the spectrum. Based on the analysis, we also propose a matrix sparsification algorithm tailored for neural network pruning that yields better pruning result. We carefully design and conduct experiments to support our arguments. Hence we provide a consolidated viewpoint for neural network pruning and enhance the interpretability of deep neural networks by identifying and preserving the critical neural weights.
翻訳日:2023-07-19 16:19:57 公開日:2023-07-18
# 制約付き組合せ最適化問題とメトロポリス・ハスティングス・ウォームスターティングアルゴリズムのためのハミルトニアン

Ising Hamiltonians for Constrained Combinatorial Optimization Problems and the Metropolis-Hastings Warm-Starting Algorithm ( http://arxiv.org/abs/2307.08980v1 )

ライセンス: Link先を確認
Hui-Min Li, Jin-Min Liang, Zhi-Xi Wang, Shao-Ming Fei(参考訳) 量子近似最適化アルゴリズム(QAOA)は組合せ最適化問題に対する有望な変分量子アルゴリズムである。 しかしながら、qaoaの実装はイジングハミルトニアンと非凸最適化のランドスケープに問題をマッピングする必要性から制限されている。 多くのNP問題に対するIsing Hamiltonianが得られたが、制約付き組合せ最適化問題(CCOP)に対するIsing Hamiltoniansを得る一般的な方法はまだ研究されていない。 本稿では,ccopsのためのイジングハミルトニアンを得るための一般的な方法を紹介し,大域的最適解に確実に収束可能なqaoaのためのメトロポリス・ハスティングスウォームスタートアルゴリズムを提案する。 本手法の有効性は, 最小ウェイト頂点被覆(MWVC)問題, 最小バーテックス被覆(MVC)問題, 最大独立集合問題を例に挙げて示す。 MWVC問題に対するIsing Hamiltonianは、この方法を用いて初めて得られる。 ここで提示されるMetropolis-Hastingsウォームスタートアルゴリズムの利点は、ランダムに生成された30のMVCケースを1-depth QAOAで解いて数値解析する。

Quantum approximate optimization algorithm (QAOA) is a promising variational quantum algorithm for combinatorial optimization problems. However, the implementation of QAOA is limited due to the requirement that the problems be mapped to Ising Hamiltonians and the nonconvex optimization landscapes. Although the Ising Hamiltonians for many NP hard problems have been obtained, a general method to obtain the Ising Hamiltonians for constrained combinatorial optimization problems (CCOPs) has not yet been investigated. In this paper, a general method is introduced to obtain the Ising Hamiltonians for CCOPs and the Metropolis-Hastings warm-starting algorithm for QAOA is presented which can provably converge to the global optimal solutions. The effectiveness of this method is demonstrated by tackling the minimum weight vertex cover (MWVC) problem, the minimum vertex cover (MVC) problem, and the maximal independent set problem as examples. The Ising Hamiltonian for the MWVC problem is obtained first time by using this method. The advantages of the Metropolis-Hastings warm-starting algorithm presented here is numerically analyzed through solving 30 randomly generated MVC cases with 1-depth QAOA.
翻訳日:2023-07-19 16:19:41 公開日:2023-07-18
# ChatGPTの行動は時間とともにどのように変化するのか?

How is ChatGPT's behavior changing over time? ( http://arxiv.org/abs/2307.09009v1 )

ライセンス: Link先を確認
Lingjiao Chen and Matei Zaharia and James Zou(参考訳) GPT-3.5とGPT-4は2つの最も広く使われている大規模言語モデル(LLM)である。 しかし、これらのモデルがいつどのように更新されるかは不透明である。 ここでは,GPT-3.5とGPT-4の2023年3月および2023年6月版を4つのタスクで評価する。 1)数学の問題を解く。 2)敏感で危険な質問に答えること。 3) コードの生成と 4) 視覚的推論。 GPT-3.5とGPT-4の両方の性能と挙動は時間とともに大きく変化することがわかった。 例えば、GPT-4(2023年3月)は素数(精度97.6%)の同定に非常に優れていたが、GPT-4(2023年6月)はこれらの同じ質問(精度2.4%)で非常に貧弱であった。 興味深いことに GPT-3.5 (2023年6月) は GPT-3.5 (2023年3月) よりもはるかに優れていた。 GPT-4は3月よりセンシティブな質問に答える意思が低く、GPT-4とGPT-3.5は3月よりコード生成のフォーマットミスが多かった。 以上の結果から,LLMサービスの動作は比較的短時間で大幅に変化し,LLM品質の継続的なモニタリングの必要性が示唆された。

GPT-3.5 and GPT-4 are the two most widely used large language model (LLM) services. However, when and how these models are updated over time is opaque. Here, we evaluate the March 2023 and June 2023 versions of GPT-3.5 and GPT-4 on four diverse tasks: 1) solving math problems, 2) answering sensitive/dangerous questions, 3) generating code and 4) visual reasoning. We find that the performance and behavior of both GPT-3.5 and GPT-4 can vary greatly over time. For example, GPT-4 (March 2023) was very good at identifying prime numbers (accuracy 97.6%) but GPT-4 (June 2023) was very poor on these same questions (accuracy 2.4%). Interestingly GPT-3.5 (June 2023) was much better than GPT-3.5 (March 2023) in this task. GPT-4 was less willing to answer sensitive questions in June than in March, and both GPT-4 and GPT-3.5 had more formatting mistakes in code generation in June than in March. Overall, our findings shows that the behavior of the same LLM service can change substantially in a relatively short amount of time, highlighting the need for continuous monitoring of LLM quality.
翻訳日:2023-07-19 16:14:18 公開日:2023-07-18
# 連続潜時空間画像超解像のためのソフトイントロVAE

Soft-IntroVAE for Continuous Latent space Image Super-Resolution ( http://arxiv.org/abs/2307.09008v1 )

ライセンス: Link先を確認
Zhi-Song Liu, Zijia Wang, Zhen Jia(参考訳) 連続画像超解像(SR)は、様々なディスプレイの実用的で柔軟な画像スケーリングのために、研究者から多くの注目を集めている。 局所暗黙的画像表現は、潜在空間補間のための座標と2次元特徴をマッピングできる方法の1つである。 変分オートエンコーダにインスパイアされた連続潜時空間画像超解像(SVAE-SR)のためのソフトイントロVAEを提案する。 フォトリアリスティック画像復元のための新しい潜時空間対向トレーニングを実現する。 さらに品質を向上させるために、画素領域の周波数情報を集約して元の画素座標を拡張する位置符号化方式を用いる。 本稿では,量的および定性的な比較によるSVAE-SRの有効性を示すとともに,デノナイズおよび実像超解像における一般化について述べる。

Continuous image super-resolution (SR) recently receives a lot of attention from researchers, for its practical and flexible image scaling for various displays. Local implicit image representation is one of the methods that can map the coordinates and 2D features for latent space interpolation. Inspired by Variational AutoEncoder, we propose a Soft-introVAE for continuous latent space image super-resolution (SVAE-SR). A novel latent space adversarial training is achieved for photo-realistic image restoration. To further improve the quality, a positional encoding scheme is used to extend the original pixel coordinates by aggregating frequency information over the pixel areas. We show the effectiveness of the proposed SVAE-SR through quantitative and qualitative comparisons, and further, illustrate its generalization in denoising and real-image super-resolution.
翻訳日:2023-07-19 16:13:58 公開日:2023-07-18
# 中国語テキスト訂正における大言語モデルの効果について

On the (In)Effectiveness of Large Language Models for Chinese Text Correction ( http://arxiv.org/abs/2307.09007v1 )

ライセンス: Link先を確認
Yinghui Li, Haojing Huang, Shirong Ma, Yong Jiang, Yangning Li, Feng Zhou, Hai-Tao Zheng, Qingyu Zhou(参考訳) 近年,Large Language Models (LLMs) の開発と進歩が,人工知能コミュニティ全体に驚きを与えている。 LLMの卓越した代表者であり、LLMの研究の波となった基礎モデルとして、ChatGPTは、様々な下流自然言語処理(NLP)タスクでその能力と性能を研究するために、ますます多くの研究者を惹きつけてきた。 ChatGPTがタスクの種類で素晴らしいパフォーマンスを発揮しているのに対して、ChatGPTは中国語などの多言語処理にも優れています。 ChatGPTの中国語処理能力を探るため,中国における基本的かつ困難なNLP課題である中国語テキスト補正に焦点を当てた。 具体的には,中国語の文法的誤り訂正(CGEC)と中国語のスペルチェック(CSC)の2つのタスクにおいてChatGPTを評価する。 従来の微調整モデルとの比較や分析から、ChatGPTは現在、中国語のテキスト訂正に素晴らしい性能と不満足な動作を持っていることを実証的に見出した。 我々は,中国NLPコミュニティにおけるLSMの着地と適用を促進できると考えている。

Recently, the development and progress of Large Language Models (LLMs) have amazed the entire Artificial Intelligence community. As an outstanding representative of LLMs and the foundation model that set off this wave of research on LLMs, ChatGPT has attracted more and more researchers to study its capabilities and performance on various downstream Natural Language Processing (NLP) tasks. While marveling at ChatGPT's incredible performance on kinds of tasks, we notice that ChatGPT also has excellent multilingual processing capabilities, such as Chinese. To explore the Chinese processing ability of ChatGPT, we focus on Chinese Text Correction, a fundamental and challenging Chinese NLP task. Specifically, we evaluate ChatGPT on the Chinese Grammatical Error Correction (CGEC) and Chinese Spelling Check (CSC) tasks, which are two main Chinese Text Correction scenarios. From extensive analyses and comparisons with previous state-of-the-art fine-tuned models, we empirically find that the ChatGPT currently has both amazing performance and unsatisfactory behavior for Chinese Text Correction. We believe our findings will promote the landing and application of LLMs in the Chinese NLP community.
翻訳日:2023-07-19 16:13:42 公開日:2023-07-18
# オックスフォードVGがEGO4D AV転写チャレンジに参加

OxfordVGG Submission to the EGO4D AV Transcription Challenge ( http://arxiv.org/abs/2307.09006v1 )

ライセンス: Link先を確認
Jaesung Huh, Max Bain and Andrew Zisserman(参考訳) 本報告では,OxfordVG チームによる EGO4D Audio-Visual (AV) Automatic Speech Recognition Challenge 2023 の提出の技術的詳細について述べる。 本稿では,単語レベルの時間アライメントを用いた長文音声の効率的な音声認識システムであるwhisperxについて述べる。 最終提出書では、挑戦テストセットでワードエラー率(WER)の56.0%を獲得し、リーダーボードで1位となった。 すべてのベースラインコードとモデルはhttps://github.com/m-bain/whisperXで入手できる。

This report presents the technical details of our submission on the EGO4D Audio-Visual (AV) Automatic Speech Recognition Challenge 2023 from the OxfordVGG team. We present WhisperX, a system for efficient speech transcription of long-form audio with word-level time alignment, along with two text normalisers which are publicly available. Our final submission obtained 56.0% of the Word Error Rate (WER) on the challenge test set, ranked 1st on the leaderboard. All baseline codes and models are available on https://github.com/m-bain/whisperX.
翻訳日:2023-07-19 16:13:22 公開日:2023-07-18
# 医用画像分割のための周波数混合単一ソース領域一般化

Frequency-mixed Single-source Domain Generalization for Medical Image Segmentation ( http://arxiv.org/abs/2307.09005v1 )

ライセンス: Link先を確認
Heng Li, Haojin Li, Wei Zhao, Huazhu Fu, Xiuyun Su, Yan Hu, Jiang Liu(参考訳) 医用画像セグメンテーションのアノテーション不足は、ディープラーニングモデルに十分なトレーニングデータを集める上での課題となっている。 具体的には、限られたデータでトレーニングされたモデルは、他の見えないデータドメインにうまく一般化できない可能性があるため、ドメインシフトの問題が発生する。 その結果、ドメイン一般化(DG)は、目に見えない領域におけるセグメンテーションモデルの性能を高めるために開発された。 しかし、DGセットアップには複数のソースドメインが必要であり、臨床シナリオにおけるセグメンテーションアルゴリズムの効率的なデプロイを妨げる。 この課題に対処し、セグメントモデルの一般化性を改善するために、周波数混合単一ソース領域一般化法(FreeSDG)と呼ばれる新しいアプローチを提案する。 領域の不一致に対する周波数の影響を分析することで、freesdgは混合周波数スペクトルを利用して単一ソースドメインを増強する。 さらに、セグメンテーションタスクの堅牢なコンテキスト認識表現を学ぶために、ドメイン拡張で自己スーパービジョンを構築する。 3つのモダリティからなる5つのデータセットに関する実験結果は,提案アルゴリズムの有効性を示している。 FreeSDGは最先端の手法より優れ、セグメンテーションモデルの一般化性を大幅に改善する。 従ってfreesdgは、特に注釈データが少ない場合に、医用画像のセグメンテーションモデルの一般化を促進するための有望なソリューションを提供する。 コードはhttps://github.com/liamheng/non-iid_medical_image_segmentationで入手できる。

The annotation scarcity of medical image segmentation poses challenges in collecting sufficient training data for deep learning models. Specifically, models trained on limited data may not generalize well to other unseen data domains, resulting in a domain shift issue. Consequently, domain generalization (DG) is developed to boost the performance of segmentation models on unseen domains. However, the DG setup requires multiple source domains, which impedes the efficient deployment of segmentation algorithms in clinical scenarios. To address this challenge and improve the segmentation model's generalizability, we propose a novel approach called the Frequency-mixed Single-source Domain Generalization method (FreeSDG). By analyzing the frequency's effect on domain discrepancy, FreeSDG leverages a mixed frequency spectrum to augment the single-source domain. Additionally, self-supervision is constructed in the domain augmentation to learn robust context-aware representations for the segmentation task. Experimental results on five datasets of three modalities demonstrate the effectiveness of the proposed algorithm. FreeSDG outperforms state-of-the-art methods and significantly improves the segmentation model's generalizability. Therefore, FreeSDG provides a promising solution for enhancing the generalization of medical image segmentation models, especially when annotated data is scarce. The code is available at https://github.com/liamheng/Non-IID_Medical_Image_Segmentation.
翻訳日:2023-07-19 16:13:11 公開日:2023-07-18
# ord2seq:順序回帰をラベルシーケンス予測として考える

Ord2Seq: Regard Ordinal Regression as Label Sequence Prediction ( http://arxiv.org/abs/2307.09004v1 )

ライセンス: Link先を確認
Jinhong Wang, Yi Cheng, Jintai Chen, Tingting Chen, Danny Chen and Jian Wu(参考訳) 通常の回帰とは、オブジェクトインスタンスを順序カテゴリーに分類することを指す。 医学的疾患の格付けや映画評価など、多くのシナリオで広く研究されている。 既知の手法は、クラス間の順序関係の学習のみに焦点をあてるが、これまでのところ、隣接するカテゴリの識別には制限が伴う。 本稿では,Ord2Seqと呼ばれる順序回帰のための簡単なシーケンス予測フレームワークを提案する。このフレームワークは,各順序圏ラベルを特別なラベルシーケンスに変換することで,順序回帰タスクをシーケンス予測プロセスとみなす。 このように、順序回帰タスクを一連の再帰的な二分分類ステップに分解し、隣接するカテゴリを部分的に区別する。 総合的な実験により,隣接するカテゴリを識別して性能向上を図り,新しいアプローチが4つのシナリオにおいて最先端のパフォーマンスを上回ることを示す。 コードは受理次第利用可能だ。

Ordinal regression refers to classifying object instances into ordinal categories. It has been widely studied in many scenarios, such as medical disease grading, movie rating, etc. Known methods focused only on learning inter-class ordinal relationships, but still incur limitations in distinguishing adjacent categories thus far. In this paper, we propose a simple sequence prediction framework for ordinal regression called Ord2Seq, which, for the first time, transforms each ordinal category label into a special label sequence and thus regards an ordinal regression task as a sequence prediction process. In this way, we decompose an ordinal regression task into a series of recursive binary classification steps, so as to subtly distinguish adjacent categories. Comprehensive experiments show the effectiveness of distinguishing adjacent categories for performance improvement and our new approach exceeds state-of-the-art performances in four different scenarios. Codes will be available upon acceptance.
翻訳日:2023-07-19 16:12:50 公開日:2023-07-18
# TractCloud: 新たなローカル・グローバル・ストリーム・ポイント・クラウド表現による登録不要トラクトグラフィ解析

TractCloud: Registration-free tractography parcellation with a novel local-global streamline point cloud representation ( http://arxiv.org/abs/2307.09000v1 )

ライセンス: Link先を確認
Tengfei Xue, Yuqian Chen, Chaoyi Zhang, Alexandra J. Golby, Nikos Makris, Yogesh Rathi, Weidong Cai, Fan Zhang, Lauren J. O'Donnell(参考訳) Diffusion MRI tractography parcellation は、臨床および科学的応用の定量化と可視化を可能にするために、ストリーラインを解剖学的線維路に分類する。 現在のトラクトグラフィ・パーセレーション手法は登録に大きく依存しているが、登録の不正確性はパーセレーションに影響を与える可能性があり、大規模なデータセットでは登録の計算コストが高い。 近年,様々な種類の表現をストリームラインに用いたトラクトグラフィ解析のためのディープラーニング手法が提案されている。 しかし、これらの方法は単一の流線からの情報のみに焦点を当て、脳の流線間の幾何学的関係を無視する。 我々は、個別の主題空間で直接脳波解析を行う、登録不要のフレームワークであるTractCloudを提案する。 本稿では,脳の局所的な解剖とグローバルなポーズを記述するために,近隣および全脳のストリープラインの情報を活用する,新しい,学習可能な,局所的なストリープライン表現を提案する。 我々は,回転,スケーリング,翻訳を含む合成変換を適用することで,大規模ラベル付きトラクトグラフィーデータセットでフレームワークをトレーニングする。 我々は、人口と健康状態の5つの独立したデータセット上で、我々のフレームワークをテストする。 TractCloudは、すべてのテストデータセットにおいて、最先端メソッドを著しく上回る。 TractCloudは、寿命(新生児から高齢者まで、脳腫瘍患者を含む)にわたって、登録を必要とせずに、効率的で一貫した脳白質のパーセレーションを実現する。 TractCloudの堅牢性と高い推論速度は、大規模トラクトグラフィーデータ解析に適している。 プロジェクトページはhttps://tractcloud.github.io/で閲覧できます。

Diffusion MRI tractography parcellation classifies streamlines into anatomical fiber tracts to enable quantification and visualization for clinical and scientific applications. Current tractography parcellation methods rely heavily on registration, but registration inaccuracies can affect parcellation and the computational cost of registration is high for large-scale datasets. Recently, deep-learning-based methods have been proposed for tractography parcellation using various types of representations for streamlines. However, these methods only focus on the information from a single streamline, ignoring geometric relationships between the streamlines in the brain. We propose TractCloud, a registration-free framework that performs whole-brain tractography parcellation directly in individual subject space. We propose a novel, learnable, local-global streamline representation that leverages information from neighboring and whole-brain streamlines to describe the local anatomy and global pose of the brain. We train our framework on a large-scale labeled tractography dataset, which we augment by applying synthetic transforms including rotation, scaling, and translations. We test our framework on five independently acquired datasets across populations and health conditions. TractCloud significantly outperforms several state-of-the-art methods on all testing datasets. TractCloud achieves efficient and consistent whole-brain white matter parcellation across the lifespan (from neonates to elderly subjects, including brain tumor patients) without the need for registration. The robustness and high inference speed of TractCloud make it suitable for large-scale tractography data analysis. Our project page is available at https://tractcloud.github.io/.
翻訳日:2023-07-19 16:12:35 公開日:2023-07-18
# oracleの効率的なオンラインマルチカリブレーションとomniprediction

Oracle Efficient Online Multicalibration and Omniprediction ( http://arxiv.org/abs/2307.08999v1 )

ライセンス: Link先を確認
Sumegha Garg, Christopher Jung, Omer Reingold, Aaron Roth(参考訳) 近年の研究は、多群フェアネスの概念であるマルチカリブレーションと、多数の損失関数に対する同時損失最小化保証を提供する学習パラダイムであるomnipredictionの間に驚くべき関連性を示している。 先行研究は、バッチ設定における全合成の研究である。 我々は,オンライン・アドバーサル・セッティングにおける全量予測の研究を開始する。 オンラインの逆境設定で多重化の概念を得るアルゴリズムは存在するが、バッチアルゴリズムとは異なり、各ラウンドごとに$f \in f$の関数を列挙する必要があるため、ベンチマーク関数の小さな有限クラスに対してのみ動作する。 対照的に、オムニプレディクションは、一般に連続的に大きい理論仮説クラス$F$を学ぶのに最も興味深い。 私たちは、無限ベンチマーククラス$f$でよく定義された新しいオンラインマルチキャリブレーションアルゴリズムを開発し、oracleの効率的(すなわち、どのクラス$f$に対して、このアルゴリズムは、非レグレット学習アルゴリズムを$f$で効率良く還元する形式を持つ)である。 これはoracleの効率的な予測アルゴリズムであり、すべてのリプシッツ凸損失関数に対する後悔の保証を同時に得ることなく利用できる。 線形関数のクラス$f$については、最悪の場合にアルゴリズムを効率的にする方法を示します。 oracleの効率的なアルゴリズムは、実際にはswap-omnipredictionと呼ばれるより強力な保証を約束しており、swap-omnipredictionの$o(\sqrt{t})$バウンドを取得することはオンライン環境では不可能であることを示す下限を示します。 一方、最適の$O(\sqrt{T})$ omniprediction界を多重校正を経ずに得ることができる(非オラクル効率)アルゴリズムを与え、これらの2つの解概念間の情報理論的な分離を与える。

A recent line of work has shown a surprising connection between multicalibration, a multi-group fairness notion, and omniprediction, a learning paradigm that provides simultaneous loss minimization guarantees for a large family of loss functions. Prior work studies omniprediction in the batch setting. We initiate the study of omniprediction in the online adversarial setting. Although there exist algorithms for obtaining notions of multicalibration in the online adversarial setting, unlike batch algorithms, they work only for small finite classes of benchmark functions $F$, because they require enumerating every function $f \in F$ at every round. In contrast, omniprediction is most interesting for learning theoretic hypothesis classes $F$, which are generally continuously large. We develop a new online multicalibration algorithm that is well defined for infinite benchmark classes $F$, and is oracle efficient (i.e. for any class $F$, the algorithm has the form of an efficient reduction to a no-regret learning algorithm for $F$). The result is the first efficient online omnipredictor -- an oracle efficient prediction algorithm that can be used to simultaneously obtain no regret guarantees to all Lipschitz convex loss functions. For the class $F$ of linear functions, we show how to make our algorithm efficient in the worst case. Also, we show upper and lower bounds on the extent to which our rates can be improved: our oracle efficient algorithm actually promises a stronger guarantee called swap-omniprediction, and we prove a lower bound showing that obtaining $O(\sqrt{T})$ bounds for swap-omniprediction is impossible in the online setting. On the other hand, we give a (non-oracle efficient) algorithm which can obtain the optimal $O(\sqrt{T})$ omniprediction bounds without going through multicalibration, giving an information theoretic separation between these two solution concepts.
翻訳日:2023-07-19 16:12:08 公開日:2023-07-18
# 反復拡散モデルを用いた認証顔復元に向けて

Towards Authentic Face Restoration with Iterative Diffusion Models and Beyond ( http://arxiv.org/abs/2307.08996v1 )

ライセンス: Link先を確認
Yang Zhao, Tingbo Hou, Yu-Chuan Su, Xuhui Jia. Yandong Li and Matthias Grundmann(参考訳) 画像強調、ビデオ通信、ポートレート撮影など、多くのコンピュータビジョンアプリケーションにおいて、顔の真の復元システムがますます求められている。 ほとんどの高度な顔復元モデルは、低品質な顔から高品質な顔を復元できるが、ユーザーから好まれるリアルで高頻度なディテールを忠実に生成できない。 真正復元を実現するために,$\textbf{IDM}$, $\textbf{I}$teratively learned face restoration system を $\textbf{D}$iffusion $\textbf{M}$odels (DDMs) のデノゲーションに基づいて提案する。 我々は, 真の顔復元システムの基準を定め, 拡散モデルに固有の反復的改良と拡張的反復的拡張という2つの側面から, 自然にこの特性を付与していると主張する。 内在学習は、コンテンツを良好に保存し、高品質の細部を徐々に洗練し、外在的拡張はデータをきれいにし、回復タスクをさらに改善するのに役立つ。 ブラインドフェイス修復作業における優れた性能を示す。 復元以外にも,提案する修復システムによるオーステンシャルにクリーン化されたデータは,トレーニング安定化とサンプル品質の観点から画像生成にも有用である。 モデルを変更することなく、GANまたは拡散モデルを用いてFFHQおよびImageNet生成の最先端技術よりも優れた品質を実現する。

An authentic face restoration system is becoming increasingly demanding in many computer vision applications, e.g., image enhancement, video communication, and taking portrait. Most of the advanced face restoration models can recover high-quality faces from low-quality ones but usually fail to faithfully generate realistic and high-frequency details that are favored by users. To achieve authentic restoration, we propose $\textbf{IDM}$, an $\textbf{I}$teratively learned face restoration system based on denoising $\textbf{D}$iffusion $\textbf{M}$odels (DDMs). We define the criterion of an authentic face restoration system, and argue that denoising diffusion models are naturally endowed with this property from two aspects: intrinsic iterative refinement and extrinsic iterative enhancement. Intrinsic learning can preserve the content well and gradually refine the high-quality details, while extrinsic enhancement helps clean the data and improve the restoration task one step further. We demonstrate superior performance on blind face restoration tasks. Beyond restoration, we find the authentically cleaned data by the proposed restoration system is also helpful to image generation tasks in terms of training stabilization and sample quality. Without modifying the models, we achieve better quality than state-of-the-art on FFHQ and ImageNet generation using either GANs or diffusion models.
翻訳日:2023-07-19 16:11:28 公開日:2023-07-18
# リアルタイム画像編集のためのGAN変換の潜時空間の再検討

Revisiting Latent Space of GAN Inversion for Real Image Editing ( http://arxiv.org/abs/2307.08995v1 )

ライセンス: Link先を確認
Kai Katsumata, Duc Minh Vo, Bei Liu, Hideki Nakayama(参考訳) StyleGANsとGANインバージョンにおける潜伏空間の探索は、印象的な実世界の画像編集を実証するが、再構築品質と編集品質のトレードオフは未解決の問題である。 本研究では、StyleGANsの超球面以前の$\mathcal{Z}$を再検討し、高機能な潜在空間と組み合わせて、編集された画像の品質を維持しつつ、実像を忠実に反転させる複合空間を構築する。 より具体的には、2つの部分空間からなる$\mathcal{f}/\mathcal{z}^{+}$空間を提案する。 $\mathcal{f}$ space of a intermediate feature map of stylegans enabling faithful reconstruction and $\mathcal{z}^{+}$ space of an extended stylegan before supported high editing quality。 提案した空間に実際のイメージを投影して逆コードを取得し、そこから$\mathcal{Z}^{+}$を移動し、画像品質を犠牲にすることなくセマンティックな編集を可能にする。 総合的な実験により、$\mathcal{z}^{+}$ は最も一般的に使われている$\mathcal{w}$、$\mathcal{w}^{+}$、$\mathcal{s}$スペースを置き換えることができることが示され、結果として編集された画像の歪みが減少する。

The exploration of the latent space in StyleGANs and GAN inversion exemplify impressive real-world image editing, yet the trade-off between reconstruction quality and editing quality remains an open problem. In this study, we revisit StyleGANs' hyperspherical prior $\mathcal{Z}$ and combine it with highly capable latent spaces to build combined spaces that faithfully invert real images while maintaining the quality of edited images. More specifically, we propose $\mathcal{F}/\mathcal{Z}^{+}$ space consisting of two subspaces: $\mathcal{F}$ space of an intermediate feature map of StyleGANs enabling faithful reconstruction and $\mathcal{Z}^{+}$ space of an extended StyleGAN prior supporting high editing quality. We project the real images into the proposed space to obtain the inverted codes, by which we then move along $\mathcal{Z}^{+}$, enabling semantic editing without sacrificing image quality. Comprehensive experiments show that $\mathcal{Z}^{+}$ can replace the most commonly-used $\mathcal{W}$, $\mathcal{W}^{+}$, and $\mathcal{S}$ spaces while preserving reconstruction quality, resulting in reduced distortion of edited images.
翻訳日:2023-07-19 16:10:59 公開日:2023-07-18
# qecgpt: 生成プリトレーニングトランスを用いた量子誤り訂正符号の復号化

qecGPT: decoding Quantum Error-correcting Codes with Generative Pre-trained Transformers ( http://arxiv.org/abs/2307.09025v1 )

ライセンス: Link先を確認
Hanyan Cao, Feng Pan, Yijia Wang, Pan Zhang(参考訳) 生成モデルを用いて量子誤り訂正符号を復号する一般的なフレームワークを提案する。 このモデルは自己回帰型ニューラルネットワーク、特にトランスフォーマーを使用して論理演算子とシンドロームの合同確率を学習する。 このトレーニングは教師なしの方法で、ラベル付きトレーニングデータを必要としないため、事前トレーニングと呼ばれる。 事前学習後、モデルは任意のシンドロームに対する論理演算子の確率を最大値復号を用いて効率的に計算することができる。 計算量$\mathcal o(2k)$の論理量子ビット数で、最もよく似た論理演算子を直接生成できるが、これは$\mathcal o(4^k)$計算を必要とする従来の最大確率復号アルゴリズムよりもはるかに優れている。 さらに,事前学習モデルに基づき,スタビライザ演算子を直接サンプリングすることにより,所定のシンドロームに対する論理演算子の可能性をより正確に得るための改良を提案する。 我々は,符号距離が小さい安定化器符号の数値実験を行い,非偏極誤差モデルと相関雑音のある誤差モデルの両方を用いた。 その結果,本手法は最小重みの完全マッチングや信念伝達に基づくアルゴリズムよりも復号精度が著しく向上することがわかった。 当社のフレームワークは一般的なもので,表面コードや量子ldpcコードなど,さまざまなトポロジを持つ任意のエラーモデルや量子コードに適用可能です。 さらに、GPUの並列化機能を活用し、多数のシンドロームの同時復号を可能にする。 我々のアプローチは、生成人工知能と現代の計算力を用いた量子誤り訂正符号の効率的かつ正確な復号化に光を当てている。

We propose a general framework for decoding quantum error-correcting codes with generative modeling. The model utilizes autoregressive neural networks, specifically Transformers, to learn the joint probability of logical operators and syndromes. This training is in an unsupervised way, without the need for labeled training data, and is thus referred to as pre-training. After the pre-training, the model can efficiently compute the likelihood of logical operators for any given syndrome, using maximum likelihood decoding. It can directly generate the most-likely logical operators with computational complexity $\mathcal O(2k)$ in the number of logical qubits $k$, which is significantly better than the conventional maximum likelihood decoding algorithms that require $\mathcal O(4^k)$ computation. Based on the pre-trained model, we further propose refinement to achieve more accurately the likelihood of logical operators for a given syndrome by directly sampling the stabilizer operators. We perform numerical experiments on stabilizer codes with small code distances, using both depolarizing error models and error models with correlated noise. The results show that our approach provides significantly better decoding accuracy than the minimum weight perfect matching and belief-propagation-based algorithms. Our framework is general and can be applied to any error model and quantum codes with different topologies such as surface codes and quantum LDPC codes. Furthermore, it leverages the parallelization capabilities of GPUs, enabling simultaneous decoding of a large number of syndromes. Our approach sheds light on the efficient and accurate decoding of quantum error-correcting codes using generative artificial intelligence and modern computational power.
翻訳日:2023-07-19 16:03:56 公開日:2023-07-18
# LA-Net:ラベル雑音下での表情認識のためのランドマーク認識学習

LA-Net: Landmark-Aware Learning for Reliable Facial Expression Recognition under Label Noise ( http://arxiv.org/abs/2307.09023v1 )

ライセンス: Link先を確認
Zhiyu Wu, Jinshi Cui(参考訳) 表情認識(FER)は、表現のあいまいさのため難しい課題である。 派生したノイズラベルは、実世界のシナリオのパフォーマンスを著しく損なう。 この問題に対処するため,我々は2つの視点からラベルノイズの影響を軽減するために顔のランドマークを利用した新しいferモデルであるlandmark-aware net~(la-net)を提案する。 まず、LA-Netは、表現空間の不確実性を抑えるためにランドマーク情報を使用し、各サンプルのラベル分布を近傍集約により構築し、訓練監督の質を向上させる。 第二に、設計した表現ランドマークの対照的な損失を用いて、ランドマーク情報を表現表現に組み込む。 強調表現特徴抽出器はラベルノイズの影響を受けにくい。 本手法は,任意の深層ニューラルネットワークと統合することで,余分な推論コストを発生させることなく,よりよい指導を行うことができる。 我々は,組込みデータセットと合成ノイズデータセットの両方について広範な実験を行い,LA-Netが最先端の性能を達成することを示す。

Facial expression recognition (FER) remains a challenging task due to the ambiguity of expressions. The derived noisy labels significantly harm the performance in real-world scenarios. To address this issue, we present a new FER model named Landmark-Aware Net~(LA-Net), which leverages facial landmarks to mitigate the impact of label noise from two perspectives. Firstly, LA-Net uses landmark information to suppress the uncertainty in expression space and constructs the label distribution of each sample by neighborhood aggregation, which in turn improves the quality of training supervision. Secondly, the model incorporates landmark information into expression representations using the devised expression-landmark contrastive loss. The enhanced expression feature extractor can be less susceptible to label noise. Our method can be integrated with any deep neural network for better training supervision without introducing extra inference costs. We conduct extensive experiments on both in-the-wild datasets and synthetic noisy datasets and demonstrate that LA-Net achieves state-of-the-art performance.
翻訳日:2023-07-19 16:03:28 公開日:2023-07-18
# コラボレーションのための対話管理のニューラルネットワーク時代に向けて:文献調査

Towards a Neural Era in Dialogue Management for Collaboration: A Literature Survey ( http://arxiv.org/abs/2307.09021v1 )

ライセンス: Link先を確認
Amogh Mannekote(参考訳) 対話に基づく人間とAIのコラボレーションは、協調的な問題解決、創造的な探索、社会的支援に革命をもたらす。 この目標を達成するためには、交渉、従順の指示、共通基盤の確立、共有タスクの進行といったスキルに熟練した自動エージェントの開発が不可欠である。 この調査は、従来の手作りや情報に基づく手法からai計画に触発されたアプローチまで、協調対話システムにおける対話管理パラダイムの進化をレビューすることから始まる。 そして、フォームフィリングやオープンドメインの設定からコラボレーティブなコンテキストへディープラーニングの成功を移そうとする、現代のデータ駆動型対話管理技術に焦点を移す。 本稿は,協調的な対話管理にニューラルアプローチを適用した最近の研究の選抜セットを分析し,この分野の流行にスポットライトを当てる。 この調査は、特に対話システムコミュニティが大きな言語モデルの可能性を受け入れ続ける中で、共同対話管理の今後の進歩の基礎となる背景を提供することを期待している。

Dialogue-based human-AI collaboration can revolutionize collaborative problem-solving, creative exploration, and social support. To realize this goal, the development of automated agents proficient in skills such as negotiating, following instructions, establishing common ground, and progressing shared tasks is essential. This survey begins by reviewing the evolution of dialogue management paradigms in collaborative dialogue systems, from traditional handcrafted and information-state based methods to AI planning-inspired approaches. It then shifts focus to contemporary data-driven dialogue management techniques, which seek to transfer deep learning successes from form-filling and open-domain settings to collaborative contexts. The paper proceeds to analyze a selected set of recent works that apply neural approaches to collaborative dialogue management, spotlighting prevailing trends in the field. This survey hopes to provide foundational background for future advancements in collaborative dialogue management, particularly as the dialogue systems community continues to embrace the potential of large language models.
翻訳日:2023-07-19 16:03:11 公開日:2023-07-18
# Face-PAST: 顔の姿勢認識とスタイル伝達ネットワーク

Face-PAST: Facial Pose Awareness and Style Transfer Networks ( http://arxiv.org/abs/2307.09020v1 )

ライセンス: Link先を確認
Sunder Ali Khowaja, Ghulam Mujtaba, Jiseok Yoon, Ik Hyun Lee(参考訳) eXtended Reality (XR)、Metaverse、Non-Fungible Tokens (NFTs)などの新興技術の台頭により、顔の移動は研究者の間で非常に人気がある。 さらに、StyleGAN法は、転送学習戦略とともに、限られたデータの問題をある程度減らした。 しかし、StyleGANメソッドのほとんどは、顔画像にアーティファクトを追加しながら、スタイルを過度に適合させる。 本稿では,高品質なスタイリング画像を生成しつつ,顔の詳細や構造を保存した顔ポーズ認識とスタイル転送(Face-PAST)ネットワークを提案する。 デュアルスタイルGANは我々の研究を刺激するが、対照的に、我々の研究は、変換符号化ブロックの代わりに残留変調ブロックを持つ外部スタイルパスのトレーニング済みスタイル生成ネットワークを使用する。 さらに、ゲートマッピングユニットと顔の構造、アイデンティティ、セグメンテーションの損失を利用して、顔の構造と詳細を保存します。 これにより、高品質なスタイリング画像を生成しながら、非常に限られた量のデータでネットワークをトレーニングすることができる。 学習過程はカリキュラム学習戦略に適応し、生成空間における効率的で柔軟なスタイルの混合を行う。 我々は、既存の最先端手法と比較して、Face-PASTの優位性を示す広範囲な実験を行った。

Facial style transfer has been quite popular among researchers due to the rise of emerging technologies such as eXtended Reality (XR), Metaverse, and Non-Fungible Tokens (NFTs). Furthermore, StyleGAN methods along with transfer-learning strategies have reduced the problem of limited data to some extent. However, most of the StyleGAN methods overfit the styles while adding artifacts to facial images. In this paper, we propose a facial pose awareness and style transfer (Face-PAST) network that preserves facial details and structures while generating high-quality stylized images. Dual StyleGAN inspires our work, but in contrast, our work uses a pre-trained style generation network in an external style pass with a residual modulation block instead of a transform coding block. Furthermore, we use the gated mapping unit and facial structure, identity, and segmentation losses to preserve the facial structure and details. This enables us to train the network with a very limited amount of data while generating high-quality stylized images. Our training process adapts curriculum learning strategy to perform efficient and flexible style mixing in the generative space. We perform extensive experiments to show the superiority of Face-PAST in comparison to existing state-of-the-art methods.
翻訳日:2023-07-19 16:02:55 公開日:2023-07-18
# u字形変圧器:時系列解析における高周波コンテキストの保持

U-shaped Transformer: Retain High Frequency Context in Time Series Analysis ( http://arxiv.org/abs/2307.09019v1 )

ライセンス: Link先を確認
Qingkui Chen, Yiqin Zhang(参考訳) 時系列予測は様々な産業分野で重要な役割を果たしている。 近年、トランスフォーマーバックボーンを持つニューラルネットワークは、コンピュータビジョンやNLPを含む多くの領域で顕著な成功を収めている。 時系列解析の分野では、最も単純なMLPネットワークでさえ、時系列予測タスクにおいて先進的なトランスフォーマーベースのネットワークより優れていることを示唆する研究もある。 しかし,これらの結果は時系列列に低ランクな性質があることを示唆している。 本稿では,変圧器の低域特性を考察し,MLPの利点を取り入れようと試みる。 我々は、unetに触発されたスキップ層接続を従来のトランスフォーマーバックボーンに採用し、入力から出力への高周波コンテキスト、すなわちu字形トランスフォーマーを保存する。 パッチマージと分割操作を導入し、異なるスケールの機能を抽出し、より大きなデータセットを使用してトランスフォーマーバックボーンを完全に活用する。 実験では,比較的低コストで,複数のデータセットをまたいだ高度な性能を示す。

Time series prediction plays a crucial role in various industrial fields. In recent years, neural networks with a transformer backbone have achieved remarkable success in many domains, including computer vision and NLP. In time series analysis domain, some studies have suggested that even the simplest MLP networks outperform advanced transformer-based networks on time series forecast tasks. However, we believe these findings indicate there to be low-rank properties in time series sequences. In this paper, we consider the low-pass characteristics of transformers and try to incorporate the advantages of MLP. We adopt skip-layer connections inspired by Unet into traditional transformer backbone, thus preserving high-frequency context from input to output, namely U-shaped Transformer. We introduce patch merge and split operation to extract features with different scales and use larger datasets to fully make use of the transformer backbone. Our experiments demonstrate that the model performs at an advanced level across multiple datasets with relatively low cost.
翻訳日:2023-07-19 16:02:33 公開日:2023-07-18
# 個別データに基づく健康のためのマルチモーダルLCM

Multimodal LLMs for health grounded in individual-specific data ( http://arxiv.org/abs/2307.09018v1 )

ライセンス: Link先を確認
Anastasiya Belyaeva, Justin Cosentino, Farhad Hormozdiari, Cory Y. McLean, Nicholas A. Furlotte(参考訳) 基礎となる大規模言語モデル(LLM)は、健康を含む幅広い分野のタスクを解く素晴らしい能力を示している。 パーソナライズされた健康タスクを効果的に解決するために、LLMは個人の健康状態に関連するさまざまなデータモダリティを抽出する能力が必要である。 本稿では,マルチモーダル理解のための健康大言語モデル (helm: health large language model for multimodal understanding) を開発し,基礎疾患リスクを推定するために高次元臨床モダリティ(high-dimensional clinical modality)を活用することを可能にする。 HeLMは複雑なデータモダリティをLLMのトークン埋め込み空間にマッピングするエンコーダを学習し、データをテキストにシリアライズすることで表データのような単純なモダリティを符号化する。 英国バイオバンクのデータを用いて,HeLMは高次元時系列データに加えて,人口統計学的,臨床的特徴を効果的に利用し,疾患リスクを推定できることを示した。 例えば、HeLMは、表状データのみを使用する場合の0.49と比較して、表状データとスピログラムデータを組み合わせた場合の喘息予測のためのAUROCの0.75を達成している。 全体として、Helmは8つのバイナリ特性から選択した古典的な機械学習アプローチよりも優れ、あるいは同等に動作する。 さらに, 分布特性に対する一般化可能性や, 個人の健康と健康に関する会話を駆動する能力など, このモデルの下流利用について検討した。

Foundation large language models (LLMs) have shown an impressive ability to solve tasks across a wide range of fields including health. To effectively solve personalized health tasks, LLMs need the ability to ingest a diversity of data modalities that are relevant to an individual's health status. In this paper, we take a step towards creating multimodal LLMs for health that are grounded in individual-specific data by developing a framework (HeLM: Health Large Language Model for Multimodal Understanding) that enables LLMs to use high-dimensional clinical modalities to estimate underlying disease risk. HeLM encodes complex data modalities by learning an encoder that maps them into the LLM's token embedding space and for simple modalities like tabular data by serializing the data into text. Using data from the UK Biobank, we show that HeLM can effectively use demographic and clinical features in addition to high-dimensional time-series data to estimate disease risk. For example, HeLM achieves an AUROC of 0.75 for asthma prediction when combining tabular and spirogram data modalities compared with 0.49 when only using tabular data. Overall, we find that HeLM outperforms or performs at parity with classical machine learning approaches across a selection of eight binary traits. Furthermore, we investigate the downstream uses of this model such as its generalizability to out-of-distribution traits and its ability to power conversations around individual health and wellness.
翻訳日:2023-07-19 16:02:15 公開日:2023-07-18
# 情報駆動非線形量子ニューロン

Information-driven Nonlinear Quantum Neuron ( http://arxiv.org/abs/2307.09017v1 )

ライセンス: Link先を確認
Ufuk Korkmaz, Deniz T\"urkpen\c{c}e(参考訳) 量子コンピューティングによって提供される有望なパフォーマンス向上は、ニューラルネットワークに適用するというアイデアにつながった。 この点についての研究は、量子ニューラルネットワークを標準的な量子回路モデルでシミュレーションし、ハードウェアに基づいて実装する2つの主要なカテゴリに分けられる。 しかしながら、通常は線形量子力学の原理を含む計算プロセスを用いてニューラルネットワークの非線形挙動を捉える能力は、どちらのカテゴリにおいても大きな課題である。 本研究では,開量子系として動作するハードウェア効率のよい量子ニューラルネットワークを提案し,非線形挙動を示す。 モデルの学習プロセスとの適合性は、得られた分析結果を通してテストされる。 言い換えると、この散逸モデルは反復相互作用に基づくもので、入力量子情報のパラメータ化が容易であり、微分可能で非線形な活性化関数を示す。

The promising performance increase offered by quantum computing has led to the idea of applying it to neural networks. Studies in this regard can be divided into two main categories: simulating quantum neural networks with the standard quantum circuit model, and implementing them based on hardware. However, the ability to capture the non-linear behavior in neural networks using a computation process that usually involves linear quantum mechanics principles remains a major challenge in both categories. In this study, a hardware-efficient quantum neural network operating as an open quantum system is proposed, which presents non-linear behaviour. The model's compatibility with learning processes is tested through the obtained analytical results. In other words, we show that this dissipative model based on repeated interactions, which allows for easy parametrization of input quantum information, exhibits differentiable, non-linear activation functions.
翻訳日:2023-07-19 16:01:43 公開日:2023-07-18
# KeyBERTとSNAによる自動運転車政策の受容:工学系学生を対象として

Exploring acceptance of autonomous vehicle policies using KeyBERT and SNA: Targeting engineering students ( http://arxiv.org/abs/2307.09014v1 )

ライセンス: Link先を確認
Jinwoo Ha, Dongsoo Kim(参考訳) 本研究は,テキストマイニングを改良した自律走行(AV)ポリシーのユーザ受け入れを検討することを目的とする。 近年、韓国の政策立案者は、ADC(Autonomous Driving Car)とADR(Autonomous Driving Robot)を、乗客や商品の輸送コストを下げる次世代の輸送手段と見なしている。 彼らは、ADCのためのV2IとV2V通信インフラの構築をサポートし、ADRが歩道への展開を促進するために歩行者と同等のものであることを認識している。 本研究は、エンドユーザーによるこれらの政策の受容が不十分なギャップを埋めるために、産業・機械・電子計算機分野の大学院生のコメントに2つのテキストマイニング手法を適用した。 1つはTF-IWFとDice係数に基づく共起ネットワーク分析(CNA)であり、もう1つは、コンテキスト意味ネットワーク分析(C-SNA)であり、この2つは、文脈的にコメントを表すキーワードを抽出し、二重コサイン類似性である。 これらのアプローチを比較する理由は、AV政策の影響だけでなく、この研究領域に品質の高いテキストマイニングを適用する必要性のバランスを取るためである。 特に,テキストの文脈を反映しない頻度ベースのテキストマイニングの限界や,意味ネットワーク分析(sna)におけるしきい値調整のトレードオフが検討された。 2つのアプローチを比較した結果、C-SNAはCNAよりも少ないノードと機能を使用してユーザの声を理解するために必要な情報を提供した。 エンジニアリングリテラシーと与えられたテキストに基づいて、事前にAVポリシーを理解したユーザは、AV事故ポリシーの潜在的なリスクを明らかにした。 本研究は、公道でのAVの展開を成功させるために、これらのリスクを管理することを提案する。

This study aims to explore user acceptance of Autonomous Vehicle (AV) policies with improved text-mining methods. Recently, South Korean policymakers have viewed Autonomous Driving Car (ADC) and Autonomous Driving Robot (ADR) as next-generation means of transportation that will reduce the cost of transporting passengers and goods. They support the construction of V2I and V2V communication infrastructures for ADC and recognize that ADR is equivalent to pedestrians to promote its deployment into sidewalks. To fill the gap where end-user acceptance of these policies is not well considered, this study applied two text-mining methods to the comments of graduate students in the fields of Industrial, Mechanical, and Electronics-Electrical-Computer. One is the Co-occurrence Network Analysis (CNA) based on TF-IWF and Dice coefficient, and the other is the Contextual Semantic Network Analysis (C-SNA) based on both KeyBERT, which extracts keywords that contextually represent the comments, and double cosine similarity. The reason for comparing these approaches is to balance interest not only in the implications for the AV policies but also in the need to apply quality text mining to this research domain. Significantly, the limitation of frequency-based text mining, which does not reflect textual context, and the trade-off of adjusting thresholds in Semantic Network Analysis (SNA) were considered. As the results of comparing the two approaches, the C-SNA provided the information necessary to understand users' voices using fewer nodes and features than the CNA. The users who pre-emptively understood the AV policies based on their engineering literacy and the given texts revealed potential risks of the AV accident policies. This study adds suggestions to manage these risks to support the successful deployment of AVs on public roads.
翻訳日:2023-07-19 16:01:32 公開日:2023-07-18
# 例外点のシフトに基づく高感度センシング機構

Enhanced sensing mechanism based on shifting an exceptional point ( http://arxiv.org/abs/2307.09013v1 )

ライセンス: Link先を確認
Xuan Mao, Guo-Qing Qin, Hao Zhang, Bo-Yang Wang, Dan Long, Gui-Qin Li, and Gui-Lu Long(参考訳) 異常点(EP)に付随する非エルミート系は,様々なセンサに対して大きな応答向上を示すことが期待される。 EPからの発散に基づく拡張メカニズムは,EPを破壊し,複数のセンシングシナリオへの適用を時間列で制限する。 上記の限界を破るために,epのシフトに基づく新しいセンシング機構を提案する。 EPから分岐するメカニズムとは違って,我々の手法はEP非破壊であり,摂動によって引き起こされるパラメータ軸に沿ったEPのわずかなシフトによって応答の巨大化が達成される。 新たなセンシングメカニズムは、時系列で複数のセンシングを行う場合、すべてのセンサに対する最も摂動的な応答の強化を約束する。 センシング機構を検証するために, 質量センサとジャイロスコープを具体的物理的実装で構築した。 我々の研究は、EPベースのセンシングの理解を深め、様々な物理的システムに様々な高感度センサーを設計するきっかけとなるだろう。

Non-Hermitian systems associated with exceptional points (EPs) are expected to demonstrate a giant response enhancement for various sensors. The widely investigated enhancement mechanism based on diverging from an EP should destroy the EP and further limits its applications for multiple sensing scenarios in a time sequence. To break the above limit, here we proposed a new enhanced sensing mechanism based on shifting an EP. Different from the mechanism of diverging from an EP, our scheme is an EP non-demolition and the giant enhancement of response is acquired by a slight shift of the EP along the parameter axis induced by perturbation. The new sensing mechanism can promise the most ffective response enhancement for all sensors in the case of multiple sensing in a time sequence. To verify our sensing mechanism, we construct a mass sensor and a gyroscope with concrete physical implementations. Our work will deepen the understanding of EP-based sensing and inspire designing various high sensitivity sensors in different physical systems.
翻訳日:2023-07-19 16:00:58 公開日:2023-07-18
# 重ね合わせトラジェコットを用いた量子電池の高速充電

Quick charging of a quantum battery with superposed trajecotries ( http://arxiv.org/abs/2307.09010v1 )

ライセンス: Link先を確認
Po-Rong Lai, Jhen-Dong Lin, Yi-Te Huang, Yueh-Nan Chen(参考訳) 本稿では,軌道の量子重ね合わせに基づく量子電池の充電プロトコルを提案する。 具体的には、量子ビット(バッテリ)が複数のキャビティまたは単一のキャビティと様々な位置に相互作用し、キャビティが充電器として作用すると考える。 さらに,量子重ね合わせ状態で作製した量子制御を導入することで,複数のキャビティや入射位置の異なる単一キャビティを同時に充電することができる。 電池の性能を評価するため,エルゴトロピーと呼ばれる最大抽出可能性能の評価を行った。 我々の主な成果は、提案プロトコルが量子干渉効果を利用して充電過程を高速化できることである。 複数のキャビティを含むプロトコルでは、重畳された軌道の数が増加するにつれて、エルゴトロピーが著しく増加するのを観察する。 単一キャビティプロトコルの場合、2つの重畳された軌道(入射位置)が充電過程全体を通してエルゴトロピーの上限を達成するのに十分であることを示す。 さらに、これらの充電プロトコルの回路モデルを提案し、IBMQおよびIonQ量子プロセッサ上で実証実験を行う。 その結果、理論的な予測が検証され、エルゴトロピーの明確な強化が示された。

We propose novel charging protocols for quantum batteries based on quantum superpositions of trajectories. Specifically, we consider that a qubit (the battery) interacts with multiple cavities or a single cavity at various positions, where the cavities act as chargers. Further, we introduce a quantum control prepared in a quantum superposition state, allowing the battery to be simultaneously charged by multiple cavities or a single cavity with different entry positions. To assess the battery's performance, we evaluate the maximum extractable work, referred to as ergotropy. Our main result is that the proposed protocols can utilize quantum interference effects to speed up the charging process. For the protocol involving multiple cavities, we observe a substantial increase in ergotropy as the number of superposed trajectories increases. In the case of the single-cavity protocol, we show that two superposed trajectories (entry positions) are sufficient to achieve the upper limit of the ergotropy throughout the entire charging process. Furthermore, we propose circuit models for these charging protocols and conduct proof-of-principle demonstrations on IBMQ and IonQ quantum processors. The results validate our theoretical predictions, demonstrating a clear enhancement in ergotropy.
翻訳日:2023-07-19 16:00:42 公開日:2023-07-18
# QMNet:分散マルチエージェント強化学習におけるメッセージ交換の重要性

QMNet: Importance-Aware Message Exchange for Decentralized Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2307.09051v1 )

ライセンス: Link先を確認
Xiufeng Huang, Sheng Zhou(参考訳) 無線資源の制約下でのマルチエージェント強化学習の性能を向上させるために,メッセージ重要度指標を提案し,メッセージを効果的に交換するための重要度対応スケジューリングポリシを設計する。 重要な洞察は、重要なメッセージに貴重なコミュニケーションリソースを使うことです。 メッセージの重要性は、メッセージ自体だけでなく、受信するエージェントのニーズにも依存します。 そこで我々はqmnetと呼ばれるクエリメッセージベースのアーキテクチャを提案する。 エージェントは、環境観察でクエリとメッセージを生成する。 クエリーの共有はメッセージの重要性を計算するのに役立つ。 メッセージ交換はエージェントの協力に役立つ。 さらに、メッセージの重要性を活用して、分散システムにおけるランダムアクセス衝突に対処する。 さらに,送信されていないメッセージを補うために,メッセージ予測機構を提案する。 最後に,無線リソースの制限により少数のエージェントがメッセージを送ることができる交通ジャンクション環境において,提案手法を評価する。 その結果、QMNetは、たった30セントのエージェントがメッセージを共有できる場合でも、システム性能を保証するために貴重な情報を抽出できることがわかった。 メッセージ予測を活用することで、システムはさらに40\%の無線リソースを節約できる。 重要を意識した分散マルチアクセス機構は、衝突を効果的に回避し、集中スケジューリングとほぼ同等のパフォーマンスを実現する。

To improve the performance of multi-agent reinforcement learning under the constraint of wireless resources, we propose a message importance metric and design an importance-aware scheduling policy to effectively exchange messages. The key insight is spending the precious communication resources on important messages. The message importance depends not only on the messages themselves, but also on the needs of agents who receive them. Accordingly, we propose a query-message-based architecture, called QMNet. Agents generate queries and messages with the environment observation. Sharing queries can help calculate message importance. Exchanging messages can help agents cooperate better. Besides, we exploit the message importance to deal with random access collisions in decentralized systems. Furthermore, a message prediction mechanism is proposed to compensate for messages that are not transmitted. Finally, we evaluate the proposed schemes in a traffic junction environment, where only a fraction of agents can send messages due to limited wireless resources. Results show that QMNet can extract valuable information to guarantee the system performance even when only $30\%$ of agents can share messages. By exploiting message prediction, the system can further save $40\%$ of wireless resources. The importance-aware decentralized multi-access mechanism can effectively avoid collisions, achieving almost the same performance as centralized scheduling.
翻訳日:2023-07-19 15:55:02 公開日:2023-07-18
# R-Cut: 重み付けとカットによる視覚変換器の説明可能性向上

R-Cut: Enhancing Explainability in Vision Transformers with Relationship Weighted Out and Cut ( http://arxiv.org/abs/2307.09050v1 )

ライセンス: Link先を確認
Yingjie Niu, Ming Ding, Maoning Ge, Robin Karlsson, Yuxiao Zhang, and Kazuya Takeda(参考訳) トランスフォーマーベースのモデルは自然言語処理(NLP)の分野で人気があり、コンピュータビジョンタスクやGPT4のようなマルチモーダルモデルで広く利用されている。 本稿では,トランスベース画像分類モデルの説明性を向上させる新しい手法を提案する。 本手法は,分類結果の信頼性の向上と,クラス固有の地図の可視化を提供することで,下流タスクのモデルをより深く理解することを目的としている。 我々は ``Relationship Weighted Out" と ``Cut" の2つのモジュールを紹介します。 Relationship Weighted Out"モジュールは、中間層からクラス固有の情報を抽出し、関連する特徴を強調できるようにする。さらに、‘Cut’モジュールは、位置、テクスチャ、色などの要因を考慮して、きめ細かい機能分解を行う。 これらのモジュールを統合することで、クラス固有の視覚的説明可能性マップを生成する。 我々は,ImageNetデータセット上で定性的かつ定量的な実験を行った。 さらに、複雑な背景下での手法の説明可能性を評価するために、特に自動運転警告のために設計されたLRNデータセット上で多数の実験を行う。 その結果,従来の方法よりも顕著な改善が得られた。 さらに,各モジュールの有効性を検証するため,アブレーション実験を行った。 これらの実験を通じて,各モジュールの貢献度を確認することが可能となり,提案手法の総合的有効性が確立された。

Transformer-based models have gained popularity in the field of natural language processing (NLP) and are extensively utilized in computer vision tasks and multi-modal models such as GPT4. This paper presents a novel method to enhance the explainability of Transformer-based image classification models. Our method aims to improve trust in classification results and empower users to gain a deeper understanding of the model for downstream tasks by providing visualizations of class-specific maps. We introduce two modules: the ``Relationship Weighted Out" and the ``Cut" modules. The ``Relationship Weighted Out" module focuses on extracting class-specific information from intermediate layers, enabling us to highlight relevant features. Additionally, the ``Cut" module performs fine-grained feature decomposition, taking into account factors such as position, texture, and color. By integrating these modules, we generate dense class-specific visual explainability maps. We validate our method with extensive qualitative and quantitative experiments on the ImageNet dataset. Furthermore, we conduct a large number of experiments on the LRN dataset, specifically designed for automatic driving danger alerts, to evaluate the explainability of our method in complex backgrounds. The results demonstrate a significant improvement over previous methods. Moreover, we conduct ablation experiments to validate the effectiveness of each module. Through these experiments, we are able to confirm the respective contributions of each module, thus solidifying the overall effectiveness of our proposed approach.
翻訳日:2023-07-19 15:54:45 公開日:2023-07-18
# FedDefender: クライアントサイドのアタックトレラントなフェデレーション学習

FedDefender: Client-Side Attack-Tolerant Federated Learning ( http://arxiv.org/abs/2307.09048v1 )

ライセンス: Link先を確認
Sungwon Park, Sungwon Han, Fangzhao Wu, Sundong Kim, Bin Zhu, Xing Xie and Meeyoung Cha(参考訳) フェデレーション学習は、プライバシを損なうことなく、分散データソースからの学習を可能にする。 しかし、悪意のあるクライアントがトレーニングプロセスに干渉するモデル中毒攻撃に対して脆弱である。 以前の防御機構は、注意深くモデル集約を使用することでサーバサイドにフォーカスしてきたが、データが同一に分散していない場合や、攻撃者が良質なクライアントの情報にアクセスできない場合、効果はない。 本稿では,FedDefenderと呼ばれるクライアントサイドに焦点を当てた新たな防御機構を提案する。攻撃者による悪意あるモデル更新の悪影響を回避するため,サーバサイドのディフェンスが敵の識別や削除をできない場合でも,クライアントが堅牢なローカルモデルのトレーニングを支援する。 本手法は,(1)アタック耐性局所メタ更新,(2)アタック耐性グローバル知識蒸留の2つの主成分からなる。 これらのコンポーネントは、潜在的に破損したグローバルモデルから正確な知識を抽出しながら、ノイズ耐性モデルパラメータを見つけるために使用される。 当社のクライアント側の防御戦略は柔軟な構造を持ち、既存のサーバ側の戦略と協調して機能します。 複数のデータセットにまたがる実世界のシナリオの評価は,提案手法がモデル中毒攻撃に対するフェデレーション学習の堅牢性を高めることを示している。

Federated learning enables learning from decentralized data sources without compromising privacy, which makes it a crucial technique. However, it is vulnerable to model poisoning attacks, where malicious clients interfere with the training process. Previous defense mechanisms have focused on the server-side by using careful model aggregation, but this may not be effective when the data is not identically distributed or when attackers can access the information of benign clients. In this paper, we propose a new defense mechanism that focuses on the client-side, called FedDefender, to help benign clients train robust local models and avoid the adverse impact of malicious model updates from attackers, even when a server-side defense cannot identify or remove adversaries. Our method consists of two main components: (1) attack-tolerant local meta update and (2) attack-tolerant global knowledge distillation. These components are used to find noise-resilient model parameters while accurately extracting knowledge from a potentially corrupted global model. Our client-side defense strategy has a flexible structure and can work in conjunction with any existing server-side strategies. Evaluations of real-world scenarios across multiple datasets show that the proposed method enhances the robustness of federated learning against model poisoning attacks.
翻訳日:2023-07-19 15:54:24 公開日:2023-07-18
# 科学文献における定理と証明の抽出のためのマルチモーダル機械学習

Multimodal Machine Learning for Extraction of Theorems and Proofs in the Scientific Literature ( http://arxiv.org/abs/2307.09047v1 )

ライセンス: Link先を確認
Shrey Mishra, Antoine Gauquier, Pierre Senellart(参考訳) 数学的分野における学術的な記事には、定理や命題などの数学的ステートメントとその証明が含まれる。 論文のPDF表現からそれらを抽出するには、視覚的およびフォントに基づく指標とともに科学的テキストを理解する必要がある。 テキスト,フォント特徴,およびPDFのビットマップ画像レンダリングを異なるモダリティとして用いたマルチモーダル分類問題として,この問題に対処する。 本稿では,個々の単項分類器によって抽出された特徴の後期融合に基づいて,文書中のブロックの逐次継承を考慮した,定理的環境と証明の抽出のためのマルチモーダル機械学習手法を提案する。 テキストモダリティについては、11gbの科学コーパスで新しい言語モデルを事前トレーニングします。実験では、160gbで事前トレーニングされたモデル(roberta)と同じようなパフォーマンスを示します。 フォントベースの情報は、128セルlstmを各ブロック内のフォント名とサイズのシーケンスでトレーニングすることに依存している。 ビットマップレンダリングは、各画像ブロックを分類するために調整されたEfficientNetv2ディープネットワークを使用して処理される。 最後に、単純なCRFベースのアプローチでは、ブロックシーケンスに関する情報とともに、マルチモーダルモデルの特徴を使用する。 実験結果から,マルチモーダルアプローチと任意の単一モダリティ,およびブロックシーケンスのCRFモデリングによる大きな性能改善の利点が示された。

Scholarly articles in mathematical fields feature mathematical statements such as theorems, propositions, etc., as well as their proofs. Extracting them from the PDF representation of the articles requires understanding of scientific text along with visual and font-based indicators. We pose this problem as a multimodal classification problem using text, font features, and bitmap image rendering of the PDF as different modalities. In this paper we propose a multimodal machine learning approach for extraction of theorem-like environments and proofs, based on late fusion of features extracted by individual unimodal classifiers, taking into account the sequential succession of blocks in the document. For the text modality, we pretrain a new language model on a 11 GB scientific corpus; experiments shows similar performance for our task than a model (RoBERTa) pretrained on 160 GB, with faster convergence while requiring much less fine-tuning data. Font-based information relies on training a 128-cell LSTM on the sequence of font names and sizes within each block. Bitmap renderings are dealt with using an EfficientNetv2 deep network tuned to classify each image block. Finally, a simple CRF-based approach uses the features of the multimodal model along with information on block sequences. Experimental results show the benefits of using a multimodal approach vs any single modality, as well as major performance improvements using the CRF modeling of block sequences.
翻訳日:2023-07-19 15:54:00 公開日:2023-07-18
# 大規模言語モデルの感情インテリジェンス

Emotional Intelligence of Large Language Models ( http://arxiv.org/abs/2307.09042v1 )

ライセンス: Link先を確認
Xuena Wang (1), Xueting Li (2), Zi Yin (1), Yue Wu (1) and Liu Jia (1) ((1) Department of Psychology & Tsinghua Laboratory of Brain and Intelligence, Tsinghua University, (2) Department of Psychology, Renmin University)(参考訳) 大規模言語モデル(LLM)は、言語生成、知識利用、複雑な推論といったタスクを通じて、多くの分野において顕著な能力を示してきた。 しかし、現実の応用に欠かせない人間の感情や価値観との整合は体系的に評価されていない。 そこで我々は,LLMの感情知能(EI)を評価し,効果的なコミュニケーションや社会的相互作用に必要な感情認識,解釈,理解を包含した。 具体的には、EIのコアコンポーネントである感情理解(EU)に焦点を当てた、人間とLLMの両方に適した新しい心理測定評価法を開発した。 このテストでは、現実的なシナリオにおいて複雑な感情(例えば、驚き、喜び、パズル、誇り)を評価する必要がある(例えば、パフォーマンスの低さにもかかわらず、ジョンは驚くほどトップスコアを獲得した)。 500人以上の大人から作られた参照フレームを用いて、私たちは様々な主要なLSMをテストしました。 GPT-4は、EQが117人である人の89%を超えている。 興味深いことに、多変量パターン解析により、一部のLCMは人間と質的に異なる表現パターンであるため、人間レベルのパフォーマンスを達成するための人間的なメカニズムに応答しなかったことが明らかとなった。 さらに,モデルサイズ,トレーニング方法,アーキテクチャなどの要因がllmsのeqに与える影響についても検討した。 本研究は,LLMの人間的特徴に関する最初の心理測定的評価の1つであり,高知能・感情知能の両立を目指したLCMの今後の発展に光を当てる可能性がある。 プロジェクトウェブサイト: https://emotional-intelligence.github.io/

Large Language Models (LLMs) have demonstrated remarkable abilities across numerous disciplines, primarily assessed through tasks in language generation, knowledge utilization, and complex reasoning. However, their alignment with human emotions and values, which is critical for real-world applications, has not been systematically evaluated. Here, we assessed LLMs' Emotional Intelligence (EI), encompassing emotion recognition, interpretation, and understanding, which is necessary for effective communication and social interactions. Specifically, we first developed a novel psychometric assessment focusing on Emotion Understanding (EU), a core component of EI, suitable for both humans and LLMs. This test requires evaluating complex emotions (e.g., surprised, joyful, puzzled, proud) in realistic scenarios (e.g., despite feeling underperformed, John surprisingly achieved a top score). With a reference frame constructed from over 500 adults, we tested a variety of mainstream LLMs. Most achieved above-average EQ scores, with GPT-4 exceeding 89% of human participants with an EQ of 117. Interestingly, a multivariate pattern analysis revealed that some LLMs apparently did not reply on the human-like mechanism to achieve human-level performance, as their representational patterns were qualitatively distinct from humans. In addition, we discussed the impact of factors such as model size, training method, and architecture on LLMs' EQ. In summary, our study presents one of the first psychometric evaluations of the human-like characteristics of LLMs, which may shed light on the future development of LLMs aiming for both high intellectual and emotional intelligence. Project website: https://emotional-intelligence.github.io/
翻訳日:2023-07-19 15:53:35 公開日:2023-07-18
# PottsMGNet:エンコーダデコーダに基づくニューラルネットワークの数学的説明

PottsMGNet: A Mathematical Explanation of Encoder-Decoder Based Neural Networks ( http://arxiv.org/abs/2307.09039v1 )

ライセンス: Link先を確認
Xue-Cheng Tai, Hao Liu, Raymond Chan(参考訳) 画像処理やその他の多くの分野の問題に対して、大規模なニューラルネットワークはエンコーダデコーダベースのアーキテクチャを持つ。 これらのネットワークは印象的な性能を発揮しているが、アーキテクチャの数学的説明はまだ未開発である。 本稿では,エンコーダ・デコーダに基づくネットワークアーキテクチャをアルゴリズム的観点から検討し,数学的説明を行う。 画像分割には二相ポットモデルを用いる。 セグメント化問題と連続的な設定における制御問題とを関連付ける。 次に,マルチグリッド法と演算子分割方式であるPottsMGNetを用いて連続制御モデルを識別する。 離散的なPottsMGNetはエンコーダデコーダベースのネットワークと等価であることを示す。 マイナーチェンジでは、多くの人気のあるエンコーダデコーダベースのニューラルネットワークが提案されているPottsMGNetのインスタンスであることが示された。 pottsmgnetにソフトthreshold-dynamicsをレギュラライザとして組み込むことにより、pottsmgnetはネットワーク幅や深さといったネットワークパラメータに頑健であることを示し、非常に大きなノイズを持つデータセットで顕著な性能を達成した。 ほぼすべての実験で、新しいネットワークは、画像分割のための既存のネットワークよりも、精度とサイコロスコアにおいて常に優れています。

For problems in image processing and many other fields, a large class of effective neural networks has encoder-decoder-based architectures. Although these networks have made impressive performances, mathematical explanations of their architectures are still underdeveloped. In this paper, we study the encoder-decoder-based network architecture from the algorithmic perspective and provide a mathematical explanation. We use the two-phase Potts model for image segmentation as an example for our explanations. We associate the segmentation problem with a control problem in the continuous setting. Then, multigrid method and operator splitting scheme, the PottsMGNet, are used to discretize the continuous control model. We show that the resulting discrete PottsMGNet is equivalent to an encoder-decoder-based network. With minor modifications, it is shown that a number of the popular encoder-decoder-based neural networks are just instances of the proposed PottsMGNet. By incorporating the Soft-Threshold-Dynamics into the PottsMGNet as a regularizer, the PottsMGNet has shown to be robust with the network parameters such as network width and depth and achieved remarkable performance on datasets with very large noise. In nearly all our experiments, the new network always performs better or as good on accuracy and dice score than existing networks for image segmentation.
翻訳日:2023-07-19 15:53:09 公開日:2023-07-18
# promptmagician: テキストから画像へのインタラクティブなプロンプトエンジニアリング

PromptMagician: Interactive Prompt Engineering for Text-to-Image Creation ( http://arxiv.org/abs/2307.09036v1 )

ライセンス: Link先を確認
Yingchaojie Feng, Xingbo Wang, Kam Kwai Wong, Sijia Wang, Yuhong Lu, Minfeng Zhu, Baicheng Wang, Wei Chen(参考訳) 自然言語プロンプトに基づいた高品質な画像を生成する能力によって、生成型テキストから画像へのモデルが大衆に人気を集めている。 しかし、自然言語の複雑さとあいまいさのため、望ましい画像に対する効果的なプロンプトの開発は困難である。 本研究では,画像結果の探索と入力プロンプトの洗練を支援する視覚解析システムpromptmagicianを提案する。 システムのバックボーンは、ユーザのプロンプトを入力として取り、DiffusionDBから同様のプロンプトイメージペアを取得し、特別な(重要かつ関連する)プロンプトキーワードを識別するプロンプトレコメンデーションモデルである。 インタラクティブなプロンプトリファインメントを容易にするために、prompcipalmagicianは、検索された画像と推奨キーワードのクロスモーダル埋め込みのためのマルチレベル可視化を導入し、パーソナライズされた探索のための複数の基準を指定するユーザをサポートする。 ユーザスタディとエキスパートインタビューの2つの利用シナリオは,システムの有効性とユーザビリティを実証し,迅速なエンジニアリングを促進し,生成テキスト・画像モデルの創造的サポートを改善することを示唆している。

Generative text-to-image models have gained great popularity among the public for their powerful capability to generate high-quality images based on natural language prompts. However, developing effective prompts for desired images can be challenging due to the complexity and ambiguity of natural language. This research proposes PromptMagician, a visual analysis system that helps users explore the image results and refine the input prompts. The backbone of our system is a prompt recommendation model that takes user prompts as input, retrieves similar prompt-image pairs from DiffusionDB, and identifies special (important and relevant) prompt keywords. To facilitate interactive prompt refinement, PromptMagician introduces a multi-level visualization for the cross-modal embedding of the retrieved images and recommended keywords, and supports users in specifying multiple criteria for personalized exploration. Two usage scenarios, a user study, and expert interviews demonstrate the effectiveness and usability of our system, suggesting it facilitates prompt engineering and improves the creativity support of the generative text-to-image model.
翻訳日:2023-07-19 15:52:47 公開日:2023-07-18
# 共振駆動cnotゲートのフォールトトレラント閾値上におけるハミルトン位相誤差

Hamiltonian Phase Error in Resonantly Driven CNOT Gate Above the Fault-Tolerant Threshold ( http://arxiv.org/abs/2307.09031v1 )

ライセンス: Link先を確認
Yi-Hsien Wu, Leon C. Camenzind, Akito Noiri, Kenta Takeda, Takashi Nakajima, Takashi Kobayashi, Chien-Yuan Chang, Amir Sammak, Giordano Scappucci, Hsi-Sheng Goan and Seigo Tarucha(参考訳) 長いコヒーレンス時間とindustrial foundryプロセスとの互換性のため、electron spin qubitsはスケーラブルな量子プロセッサにとって有望なプラットフォームである。 本格的な量子コンピュータは、高忠実度量子ゲートを必要とする量子エラー補正を必要とする。 ゲートエラーの分析と緩和は、ゲート忠実性を改善するのに有用である。 本稿では,高忠実度制御回転ゲートの簡易かつ信頼性の高いキャリブレーション手順を,量子誤り訂正の耐故障しきい値を超える動作を可能にする交換型シリコン量子プロセッサで実証する。 制御相の形でのコヒーレント誤差により,制御相ゲートの忠実度が制限され,これらの位相誤差を計測・補正する方法を提案する。 次に、ランダム化ベンチマークおよびゲートセットトモグラフィプロトコルを用いて、ゲートフィダリティの改善を検証する。 最後に、位相補正プロトコルを用いて、仮想かつ高忠実な制御相ゲートを実装する。

Because of their long coherence time and compatibility with industrial foundry processes, electron spin qubits are a promising platform for scalable quantum processors. A full-fledged quantum computer will need quantum error correction, which requires high-fidelity quantum gates. Analyzing and mitigating the gate errors are useful to improve the gate fidelity. Here, we demonstrate a simple yet reliable calibration procedure for a high-fidelity controlled-rotation gate in an exchange-always-on Silicon quantum processor allowing operation above the fault-tolerance threshold of quantum error correction. We find that the fidelity of our uncalibrated controlled-rotation gate is limited by coherent errors in the form of controlled-phases and present a method to measure and correct these phase errors. We then verify the improvement in our gate fidelities by randomized benchmark and gate-set tomography protocols. Finally, we use our phase correction protocol to implement a virtual, high-fidelity controlled-phase gate.
翻訳日:2023-07-19 15:52:26 公開日:2023-07-18
# 航空車両用オンライン自己監督型熱水セグメンテーション

Online Self-Supervised Thermal Water Segmentation for Aerial Vehicles ( http://arxiv.org/abs/2307.09027v1 )

ライセンス: Link先を確認
Connor Lee, Jonathan Gustafsson Frennert, Lu Gan, Matthew Anderson, Soon-Jo Chung(参考訳) 本稿では, テクスチャとモーションキューを監視信号として活用することにより, RGB 学習水分割ネットワークを, オンラインセルフスーパービジョンを用いて, ターゲット領域の空中熱画像に適用する新しい手法を提案する。 この新しい熱機能により、現在の自律飛行ロボットは、夜間に視覚ナビゲーション、バスメトリー、フロートラッキングなどのタスクを実行することができる。 本手法は, 従来の教師なし・教師なし法の適用を防止するため, あまり観測が難しい近日点熱データの不足を克服する。 本研究では,最初の空中熱的ニアショアデータセットをキュレートし,限られた対象領域の熱データに基づいてトレーニングされた完全教師付きセグメンテーションモデルより優れた性能を示し,Nvidia Jetson組み込みコンピューティングプラットフォーム上でリアルタイム機能を示す。 この作業で使用されるコードとデータセットは、https://github.com/connorlee77/uav-thermal-water-segmentationで利用可能である。

We present a new method to adapt an RGB-trained water segmentation network to target-domain aerial thermal imagery using online self-supervision by leveraging texture and motion cues as supervisory signals. This new thermal capability enables current autonomous aerial robots operating in near-shore environments to perform tasks such as visual navigation, bathymetry, and flow tracking at night. Our method overcomes the problem of scarce and difficult-to-obtain near-shore thermal data that prevents the application of conventional supervised and unsupervised methods. In this work, we curate the first aerial thermal near-shore dataset, show that our approach outperforms fully-supervised segmentation models trained on limited target-domain thermal data, and demonstrate real-time capabilities onboard an Nvidia Jetson embedded computing platform. Code and datasets used in this work will be available at: https://github.com/connorlee77/uav-thermal-water-segmentation.
翻訳日:2023-07-19 15:52:11 公開日:2023-07-18
# actionprompt:テキストとポーズプロンプトを用いた行動誘導型3次元ポーズ推定

ActionPrompt: Action-Guided 3D Human Pose Estimation With Text and Pose Prompting ( http://arxiv.org/abs/2307.09026v1 )

ライセンス: Link先を確認
Hongwei Zheng, Han Li, Bowen Shi, Wenrui Dai, Botao Wan, Yu Sun, Min Guo, Hongkai Xiong(参考訳) 近年の2d-to-3d human pose estimation (hpe) では,シーケンス間の時間的一貫性を活用し,奥行き曖昧性問題を軽減するとともに,ポーズ系列に隠された先行知識を無視している。 本稿では,3d hpeの動作ヒントを効果的にマイニングするアクションプロンプトモジュール(apm)を提案する。 APMのマイニングスキームは、様々なフレームワークに広く適応し、一貫した利点をもたらすことができる。 具体的には、アクションラベルを直接埋め込み、ラベル内のリッチ言語情報をポーズシーケンスに転送する新しいアクション関連テキストプロンプトモジュール(ATP)を最初に提示する。 さらに,各動作の位置認識されたポーズパターンをマイニングするためのアクション固有ポーズプロンプトモジュール(app)も導入し,マイニングされたパターンと入力ポーズシーケンスとの相関を利用してさらに姿勢改善を行う。 APMはビデオベースの2D-to-3D HPEフレームワークの性能を大幅に向上させることができる。

Recent 2D-to-3D human pose estimation (HPE) utilizes temporal consistency across sequences to alleviate the depth ambiguity problem but ignore the action related prior knowledge hidden in the pose sequence. In this paper, we propose a plug-and-play module named Action Prompt Module (APM) that effectively mines different kinds of action clues for 3D HPE. The highlight is that, the mining scheme of APM can be widely adapted to different frameworks and bring consistent benefits. Specifically, we first present a novel Action-related Text Prompt module (ATP) that directly embeds action labels and transfers the rich language information in the label to the pose sequence. Besides, we further introduce Action-specific Pose Prompt module (APP) to mine the position-aware pose pattern of each action, and exploit the correlation between the mined patterns and input pose sequence for further pose refinement. Experiments show that APM can improve the performance of most video-based 2D-to-3D HPE frameworks by a large margin.
翻訳日:2023-07-19 15:51:55 公開日:2023-07-18
# DiTTO:拡散型時間変換演算子

DiTTO: Diffusion-inspired Temporal Transformer Operator ( http://arxiv.org/abs/2307.09072v1 )

ライセンス: Link先を確認
Oded Ovadia, Eli Turkel, Adar Kahana, George Em Karniadakis(参考訳) データ駆動アプローチによる偏微分方程式(pdes)の解法が一般的になりつつある。 近年の演算子学習パラダイムの発展により,より広範なPDE関連問題の解決が可能となった。 本稿では,時間依存型PDEを時間的離散化なしで連続的に解く演算子学習法を提案する。 提案手法はDiTTOと呼ばれ、潜在拡散モデルにインスパイアされている。 拡散モデルは通常、生成人工知能タスクで使用されるが、その時間条件機構はPDEにとって非常に有用である。 diffusion-inspired frameworkはtransformerアーキテクチャの要素と組み合わせて機能を改善する。 本研究では,多次元の多次元PDE,すなわち1次元バーガー方程式,2次元ナビエ・ストークス方程式,および2次元および3次元の音響波動方程式に対する新しいアプローチの有効性を示す。 DiTTOはこれらの問題の精度の点で最先端の結果を達成する。 また,拡散モデルから高速サンプリングの概念を用いてDiTTOの性能を向上させる手法を提案する。 最後に、DitTOはゼロショット超解像を時間内に正確に行うことができることを示す。

Solving partial differential equations (PDEs) using a data-driven approach has become increasingly common. The recent development of the operator learning paradigm has enabled the solution of a broader range of PDE-related problems. We propose an operator learning method to solve time-dependent PDEs continuously in time without needing any temporal discretization. The proposed approach, named DiTTO, is inspired by latent diffusion models. While diffusion models are usually used in generative artificial intelligence tasks, their time-conditioning mechanism is extremely useful for PDEs. The diffusion-inspired framework is combined with elements from the Transformer architecture to improve its capabilities. We demonstrate the effectiveness of the new approach on a wide variety of PDEs in multiple dimensions, namely the 1-D Burgers' equation, 2-D Navier-Stokes equations, and the acoustic wave equation in 2-D and 3-D. DiTTO achieves state-of-the-art results in terms of accuracy for these problems. We also present a method to improve the performance of DiTTO by using fast sampling concepts from diffusion models. Finally, we show that DiTTO can accurately perform zero-shot super-resolution in time.
翻訳日:2023-07-19 15:44:41 公開日:2023-07-18
# PixelHuman:少数の画像から得られるニューラルネットワークのアニメーション

PixelHuman: Animatable Neural Radiance Fields from Few Images ( http://arxiv.org/abs/2307.09070v1 )

ライセンス: Link先を確認
Gyumin Shim, Jaeseong Lee, Junha Hyung, Jaegul Choo(参考訳) 本稿では,未確認のアイデンティティ,ビュー,ポーズを持つ人物の少数の画像からアニメーション可能な人間のシーンを生成する新しい人体レンダリングモデルであるPixelHumanを提案する。 以前の研究では、新しいビューやポーズの合成において合理的なパフォーマンスを示してきたが、トレーニングには大量の画像に依存しており、ビデオからシーンごとに訓練されるため、目に見えない人間の画像からアニマタブルなシーンを生成するのにかなりの時間を要する。 本手法は,任意の入力画像に一般化できる点において,既存の手法と異なる。 ランダムなポーズ系列が与えられた場合,各ターゲットシーンを,正準表現とポーズ認識された画素整合特徴に基づくニューラル・ラミアンス・フィールドを用いて合成し,両者をデータ駆動方式で学習した変形場から得られる。 実験により,本手法はマルチビューにおける最先端性能と,少数ショット画像からの新規ポーズ合成を実現する。

In this paper, we propose PixelHuman, a novel human rendering model that generates animatable human scenes from a few images of a person with unseen identity, views, and poses. Previous work have demonstrated reasonable performance in novel view and pose synthesis, but they rely on a large number of images to train and are trained per scene from videos, which requires significant amount of time to produce animatable scenes from unseen human images. Our method differs from existing methods in that it can generalize to any input image for animatable human synthesis. Given a random pose sequence, our method synthesizes each target scene using a neural radiance field that is conditioned on a canonical representation and pose-aware pixel-aligned features, both of which can be obtained through deformation fields learned in a data-driven manner. Our experiments show that our method achieves state-of-the-art performance in multiview and novel pose synthesis from few-shot images.
翻訳日:2023-07-19 15:44:24 公開日:2023-07-18
# u-netを用いた胎児頭部超音波画像分割における微調整戦略の評価

Evaluate Fine-tuning Strategies for Fetal Head Ultrasound Image Segmentation with U-Net ( http://arxiv.org/abs/2307.09067v1 )

ライセンス: Link先を確認
Fangyijie Wang, Gu\'enol\'e Silvestre, Kathleen M. Curran(参考訳) 胎児の頭部分節は妊娠中の胎児の頭周囲(hc)を測定する上で重要なステップであり、産婦人科において胎児の成長を監視する上で重要なバイオメトリックである。 しかし、手動のバイオメトリ生成は時間がかかり、不整合の精度をもたらす。 この問題に対処するために、畳み込みニューラルネットワーク(CNN)モデルを使用して、医療バイオメトリの効率を改善する。 しかし、cnnネットワークをスクラッチからトレーニングすることは難しい課題であり、我々は転送学習(tl)法を提案した。 本手法では,軽量なMobileNetをエンコーダとするU-Netネットワークの微細チューニング(FT)を行い,胎児頭部超音波(US)画像のセグメンテーションを行う。 この方法は、CNNネットワークをスクラッチからトレーニングする際の課題に対処する。 提案したFT戦略は,パラメータ数を85.8%削減してトレーニングした場合に同等のセグメンテーション性能が得られることを示唆している。 提案したFT戦略は、トレーニング可能なパラメータサイズが440万未満の他の戦略よりも優れている。 したがって、医療画像解析におけるモデルのサイズを減らすための、信頼できるftアプローチとして機能することができると主張する。 我々の重要な発見は、TL法による人工知能(AI)アプリケーションの開発において、モデル性能とサイズの間のバランスの重要性を強調した。 コードはhttps://github.com/13204942/FT_Methods_for_Fetal_Head_Segmentationで公開されている。

Fetal head segmentation is a crucial step in measuring the fetal head circumference (HC) during gestation, an important biometric in obstetrics for monitoring fetal growth. However, manual biometry generation is time-consuming and results in inconsistent accuracy. To address this issue, convolutional neural network (CNN) models have been utilized to improve the efficiency of medical biometry. But training a CNN network from scratch is a challenging task, we proposed a Transfer Learning (TL) method. Our approach involves fine-tuning (FT) a U-Net network with a lightweight MobileNet as the encoder to perform segmentation on a set of fetal head ultrasound (US) images with limited effort. This method addresses the challenges associated with training a CNN network from scratch. It suggests that our proposed FT strategy yields segmentation performance that is comparable when trained with a reduced number of parameters by 85.8%. And our proposed FT strategy outperforms other strategies with smaller trainable parameter sizes below 4.4 million. Thus, we contend that it can serve as a dependable FT approach for reducing the size of models in medical image analysis. Our key findings highlight the importance of the balance between model performance and size in developing Artificial Intelligence (AI) applications by TL methods. Code is available at https://github.com/13204942/FT_Methods_for_Fetal_Head_Segmentation.
翻訳日:2023-07-19 15:44:07 公開日:2023-07-18
# PatchCT:マルチラベル画像分類のための条件付きトランスポート付きパッチセットとラベルセットのアライメント

PatchCT: Aligning Patch Set and Label Set with Conditional Transport for Multi-Label Image Classification ( http://arxiv.org/abs/2307.09066v1 )

ライセンス: Link先を確認
Miaoge Li, Dongsheng Wang, Xinyang Liu, Zequn Zeng, Ruiying Lu, Bo Chen, Mingyuan Zhou(参考訳) マルチラベル画像分類は、与えられた画像から複数のラベルを識別することを目的とした予測タスクである。 本稿では,視覚パッチと言語ラベルドメイン間の潜時空間のセマンティック一貫性について考察し,そのギャップを埋めるために条件伝達(CT)理論を導入する。 最近のクロスモーダルアテンションに基づく研究は、このような2つの表現の整列を試み、優れた性能を達成したが、注意計算には慎重に設計されたアライメントモジュールと追加の複雑な演算が必要であった。 我々は,複数ラベルの分類をCT問題として定式化することにより,画像とラベルの相互作用を効率よく利用し,双方向CTコストを最小化できることを見出した。 具体的には、イメージとテキストラベルをモダリティ固有のエンコーダに供給した後、各イメージをパッチ埋め込みとラベル埋め込みの混合物として捉え、それぞれ局所的な特徴とクラスプロトタイプをキャプチャする。 CTは、前方と後方のナビゲータを定義することによって、これらの2つのセマンティックセットを学習し、調整するために使用される。 重要なことに、CT距離で定義されたナビゲータはパッチとラベルの類似性をモデル化し、学習したプロトタイプを視覚化するための解釈可能なツールを提供する。 3つの公開画像ベンチマークによる大規模な実験により,提案手法が従来手法より一貫して優れていることが示された。 私たちのコードはhttps://github.com/keepgoingjkg/PatchCTで利用可能です。

Multi-label image classification is a prediction task that aims to identify more than one label from a given image. This paper considers the semantic consistency of the latent space between the visual patch and linguistic label domains and introduces the conditional transport (CT) theory to bridge the acknowledged gap. While recent cross-modal attention-based studies have attempted to align such two representations and achieved impressive performance, they required carefully-designed alignment modules and extra complex operations in the attention computation. We find that by formulating the multi-label classification as a CT problem, we can exploit the interactions between the image and label efficiently by minimizing the bidirectional CT cost. Specifically, after feeding the images and textual labels into the modality-specific encoders, we view each image as a mixture of patch embeddings and a mixture of label embeddings, which capture the local region features and the class prototypes, respectively. CT is then employed to learn and align those two semantic sets by defining the forward and backward navigators. Importantly, the defined navigators in CT distance model the similarities between patches and labels, which provides an interpretable tool to visualize the learned prototypes. Extensive experiments on three public image benchmarks show that the proposed model consistently outperforms the previous methods. Our code is available at https://github.com/keepgoingjkg/PatchCT.
翻訳日:2023-07-19 15:43:44 公開日:2023-07-18
# グラフニューラルネットワークのための適応型近傍学習

Learning Adaptive Neighborhoods for Graph Neural Networks ( http://arxiv.org/abs/2307.09065v1 )

ライセンス: Link先を確認
Avishkar Saha, Oscar Mendez, Chris Russell, Richard Bowden(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフ構造化データのエンドツーエンド学習を可能にする。 しかし、多くの著作物が与えられたグラフ構造を仮定している。 入力グラフがノイズや利用できない場合、一つのアプローチは潜在グラフ構造を構築し、学習することである。 これらの手法は典型的にはグラフ全体のノード次数の選択を補正する。 そこで我々は,各ノードが近傍と大きさを選択するグラフトポロジを構築する,新しいエンドツーエンドの微分可能なグラフ生成器を提案する。 このモジュールは、グラフ畳み込み操作を含む既存のパイプラインに容易に統合でき、一般的な目的の一部として、所定のまたは既存の隣接マトリックスを学習し、最適化したものに置き換えることができます。 したがって、任意のGCNに適用できる。 我々のモジュールを軌道予測、ポイントクラウド分類、ノード分類パイプラインに統合することで、幅広いデータセットとGCNバックボーンにわたる他の構造学習手法よりも精度が向上する。

Graph convolutional networks (GCNs) enable end-to-end learning on graph structured data. However, many works assume a given graph structure. When the input graph is noisy or unavailable, one approach is to construct or learn a latent graph structure. These methods typically fix the choice of node degree for the entire graph, which is suboptimal. Instead, we propose a novel end-to-end differentiable graph generator which builds graph topologies where each node selects both its neighborhood and its size. Our module can be readily integrated into existing pipelines involving graph convolution operations, replacing the predetermined or existing adjacency matrix with one that is learned, and optimized, as part of the general objective. As such it is applicable to any GCN. We integrate our module into trajectory prediction, point cloud classification and node classification pipelines resulting in improved accuracy over other structure-learning methods across a wide range of datasets and GCN backbones.
翻訳日:2023-07-19 15:43:18 公開日:2023-07-18
# アナログマルコフ連鎖を用いた極端熱波サンプリングと予測とディープラーニングとの比較

Extreme heatwave sampling and prediction with analog Markov chain and comparisons with deep learning ( http://arxiv.org/abs/2307.09060v1 )

ライセンス: Link先を確認
George Miloshevich, Dario Lucente, Pascal Yiou, Freddy Bouchet(参考訳) 本研究では,フランスとスカンジナビアの長寿命熱波の確率推定に適したデータ駆動エミュレータ,確率気象発生器(SWG)を提案する。 このエミュレータは, 温度と土壌水分を予測場として加える循環のアナログ法に基づいている。 中間複雑性気候モデルでエミュレータを訓練し、サンプルからの熱波の条件確率(予測)を予測することができることを示す。 この予測は,レアイベントに適した適切なスコアを用いて評価される。 アナログの次元縮小手法の計算を高速化し、性能評価を行う。 SWGによる確率的予測は、畳み込みニューラルネットワーク(CNN)による予測と比較される。 何百年ものトレーニングデータの可用性により、CNNは確率的予測のタスクにおいてより良いパフォーマンスを発揮する。 また,80 年間のデータに基づいてトレーニングされた swg エミュレータは,一般化された極値分布に基づく適合性よりも,数 日よりも長い熱波に対して,数千 年単位の極値返却時間を推定できることを示した。 最後に, 確率的気象発生器を用いて得られた人工極端テレコネクションパターンの質について検討した。 本稿では,フランスとスカンジナビアの温熱波の合成テレコネクトパターンを,非常に長い気候モデル制御法と比較した2つの例を示す。

We present a data-driven emulator, stochastic weather generator (SWG), suitable for estimating probabilities of prolonged heatwaves in France and Scandinavia. This emulator is based on the method of analogs of circulation to which we add temperature and soil moisture as predictor fields. We train the emulator on an intermediate complexity climate model run and show that it is capable of predicting conditional probabilities (forecasting) of heatwaves out of sample. Special attention is payed that this prediction is evaluated using proper score appropriate for rare events. To accelerate the computation of analogs dimensionality reduction techniques are applied and the performance is evaluated. The probabilistic prediction achieved with SWG is compared with the one achieved with Convolutional Neural Network (CNN). With the availability of hundreds of years of training data CNNs perform better at the task of probabilistic prediction. In addition, we show that the SWG emulator trained on 80 years of data is capable of estimating extreme return times of order of thousands of years for heatwaves longer than several days more precisely than the fit based on generalised extreme value distribution. Finally, the quality of its synthetic extreme teleconnection patterns obtained with stochastic weather generator is studied. We showcase two examples of such synthetic teleconnection patterns for heatwaves in France and Scandinavia that compare favorably to the very long climate model control run.
翻訳日:2023-07-19 15:43:04 公開日:2023-07-18
# テキストの想像力を解き放つ : 単語の力の探索による人物のテキスト対画像検索のための新しい枠組み

Unleashing the Imagination of Text: A Novel Framework for Text-to-image Person Retrieval via Exploring the Power of Words ( http://arxiv.org/abs/2307.09059v1 )

ライセンス: Link先を確認
Delong Liu, Haiwen Li(参考訳) テキスト対画像検索の目標は、与えられたテキスト記述にマッチする大きなギャラリーから人物画像を取得することである。 このタスクの主な課題は、視覚的モダリティとテキスト的モダリティの間の情報表現の顕著な違いにある。 テクストモダリティは語彙や文法構造を通して抽象的で正確な情報を伝達し、視覚モダリティは画像を通して具体的で直感的な情報を伝達する。 テキスト表現の表現力を完全に活用するには、抽象的なテキスト記述を特定の画像に正確にマッピングすることが不可欠である。 この問題に対処するために,文中の単語のパワーを十分に探求することを目的として,テキストから画像への人物検索において,UIT(Imagination of Text)を解き放つ新しい枠組みを提案する。 具体的には、事前トレーニングされた完全なCLIPモデルをイメージとテキストのデュアルエンコーダとして使用し、以前のクロスモーダルアライメントの知識を活用する。 抽象的なテキストエンティティを特定の画像領域に暗黙的にマッピングすることを目的として,テキストと視覚の埋め込みの調整を容易にするテキストガイド画像復元補助タスクを提案する。 さらに, 厳密なサンプル処理に適したクロスモーダル三重項損失を導入し, 微妙な差分を識別するモデルの能力を高めた。 そこで本研究では,文中のキー成分に着目し,新しいテキストデータ拡張手法を提案する。 提案手法は3つのベンチマークデータセットで最新の結果を得ることができ,ソースコードも間もなく公開される予定だ。

The goal of Text-to-image person retrieval is to retrieve person images from a large gallery that match the given textual descriptions. The main challenge of this task lies in the significant differences in information representation between the visual and textual modalities. The textual modality conveys abstract and precise information through vocabulary and grammatical structures, while the visual modality conveys concrete and intuitive information through images. To fully leverage the expressive power of textual representations, it is essential to accurately map abstract textual descriptions to specific images. To address this issue, we propose a novel framework to Unleash the Imagination of Text (UIT) in text-to-image person retrieval, aiming to fully explore the power of words in sentences. Specifically, the framework employs the pre-trained full CLIP model as a dual encoder for the images and texts , taking advantage of prior cross-modal alignment knowledge. The Text-guided Image Restoration auxiliary task is proposed with the aim of implicitly mapping abstract textual entities to specific image regions, facilitating alignment between textual and visual embeddings. Additionally, we introduce a cross-modal triplet loss tailored for handling hard samples, enhancing the model's ability to distinguish minor differences. To focus the model on the key components within sentences, we propose a novel text data augmentation technique. Our proposed methods achieve state-of-the-art results on three popular benchmark datasets, and the source code will be made publicly available shortly.
翻訳日:2023-07-19 15:42:43 公開日:2023-07-18
# 低次元ユークリッド空間における点雲のグロモフ・ワッセルシュタイン問題に対する大域的解法

Globally solving the Gromov-Wasserstein problem for point clouds in low dimensional Euclidean spaces ( http://arxiv.org/abs/2307.09057v1 )

ライセンス: Link先を確認
Martin Ryner, Jan Kronqvist, Johan Karlsson(参考訳) 本稿では,低次元空間における2つの点の集合間のグロモフ・ワッセルシュタイン問題を解くための枠組みを提案する。 グロモフ=ワッサーシュタイン問題(Gromov-Wasserstein problem)は、ペア距離を極力保った2つの集合間の割当を求める最適輸送問題の一般化である。 これは、AIと機械学習における一般的な問題である2つの構成または形状の類似性を定量化するために使用できる。 この問題は二次割当問題 (QAP) として定式化できるが、これは小さな問題であっても一般に計算的に難解である。 本フレームワークは,QAPを低次元領域の最適化問題として再構成し,低階の凹凸2次最適化問題として表現できるという事実を活用することで,この問題に対処する。 この手法はポイント数によく適合しており、数千ポイントの大規模問題に対するグローバルソリューションを見つけるのに使うことができる。 提案手法の計算複雑性を,合成問題に関する最先端の手法と比較し,計算生物学に特に関心を持つ準対称問題に適用する。

This paper presents a framework for computing the Gromov-Wasserstein problem between two sets of points in low dimensional spaces, where the discrepancy is the squared Euclidean norm. The Gromov-Wasserstein problem is a generalization of the optimal transport problem that finds the assignment between two sets preserving pairwise distances as much as possible. This can be used to quantify the similarity between two formations or shapes, a common problem in AI and machine learning. The problem can be formulated as a Quadratic Assignment Problem (QAP), which is in general computationally intractable even for small problems. Our framework addresses this challenge by reformulating the QAP as an optimization problem with a low-dimensional domain, leveraging the fact that the problem can be expressed as a concave quadratic optimization problem with low rank. The method scales well with the number of points, and it can be used to find the global solution for large-scale problems with thousands of points. We compare the computational complexity of our approach with state-of-the-art methods on synthetic problems and apply it to a near-symmetrical problem which is of particular interest in computational biology.
翻訳日:2023-07-19 15:42:15 公開日:2023-07-18
# データクラスタリングのためのアウトリアーロバストテンソル低ランク表現

Outlier-Robust Tensor Low-Rank Representation for Data Clustering ( http://arxiv.org/abs/2307.09055v1 )

ライセンス: Link先を確認
Tong Wu(参考訳) 低ランクテンソル解析は多くの実用的応用で広く注目を集めている。 しかしテンソルデータは、しばしば異常値やサンプル固有の腐敗によって汚染される。 異常値によって破損したテンソルデータを回復し、データクラスタリングを実行する方法は、依然として難しい課題である。 本稿では, テンソル特異値分解(t-SVD)代数フレームワークに基づく, 同時外乱検出とテンソルデータクラスタリングのための外乱テンソル低ランク表現(OR-TLRR)法を提案する。 これは、ある条件を満たす可逆線型変換によって誘導される最近提案されたテンソルテンソル積によって動機付けられる。 任意の外乱によるテンソル観測では、OR-TLRRは、清潔なデータの行空間を正確に復元し、穏やかな条件下で外乱を検出する性能を保証する。 また、データの一部が欠落している場合に、OR-TLRRの拡張も提案されている。 最後に、合成データと実データの両方に対する広範な実験結果から、提案アルゴリズムの有効性が示された。

Low-rank tensor analysis has received widespread attention with many practical applications. However, the tensor data are often contaminated by outliers or sample-specific corruptions. How to recover the tensor data that are corrupted by outliers and perform data clustering remains a challenging problem. This paper develops an outlier-robust tensor low-rank representation (OR-TLRR) method for simultaneous outlier detection and tensor data clustering based on the tensor singular value decomposition (t-SVD) algebraic framework. It is motivated by the recently proposed tensor-tensor product induced by invertible linear transforms that satisfy certain conditions. For tensor observations with arbitrary outlier corruptions, OR-TLRR has provable performance guarantee for exactly recovering the row space of clean data and detecting outliers under mild conditions. Moreover, an extension of OR-TLRR is also proposed to handle the case when parts of the data are missing. Finally, extensive experimental results on both synthetic and real data demonstrate the effectiveness of the proposed algorithms.
翻訳日:2023-07-19 15:41:49 公開日:2023-07-18
# 演算子分割法と深部ニューラルネットワークの接続と画像分割への応用

Connections between Operator-splitting Methods and Deep Neural Networks with Applications in Image Segmentation ( http://arxiv.org/abs/2307.09052v1 )

ライセンス: Link先を確認
Hao Liu, Xue-Cheng Tai, Raymond Chan(参考訳) ディープニューラルネットワークは多くのタスクに強力なツールである。 なぜそれが成功し、数学的説明を提供するのかを理解することは重要な問題であり、過去数年間で人気のある研究の方向性であった。 ディープディープニューラルネットワークの数学的解析の文献では、表現理論の確立に多くの研究が費やされている。 ディープニューラルネットワークと数学的アルゴリズムの接続方法はまだ開発中だ。 本稿では,ディープニューラルネットワーク,特に演算子分割法と乗算法との関係について,アルゴリズムによる説明を行う。 特定の分割戦略により、演算子分割法はネットワークと同じ構造を持つことを示す。 この接続とPottsモデルを用いて,演算子分割法に着想を得た2つのネットワークを提案する。 2つのネットワークは、Pottsモデルを解く2つの演算子分割アルゴリズムである。 提案するネットワークの有効性を実証するために数値実験を行った。

Deep neural network is a powerful tool for many tasks. Understanding why it is so successful and providing a mathematical explanation is an important problem and has been one popular research direction in past years. In the literature of mathematical analysis of deep deep neural networks, a lot of works are dedicated to establishing representation theories. How to make connections between deep neural networks and mathematical algorithms is still under development. In this paper, we give an algorithmic explanation for deep neural networks, especially in their connection with operator splitting and multigrid methods. We show that with certain splitting strategies, operator-splitting methods have the same structure as networks. Utilizing this connection and the Potts model for image segmentation, two networks inspired by operator-splitting methods are proposed. The two networks are essentially two operator-splitting algorithms solving the Potts model. Numerical experiments are presented to demonstrate the effectiveness of the proposed networks.
翻訳日:2023-07-19 15:41:21 公開日:2023-07-18
# bold:linked data user agentのベンチマークと動的linked data environmentのシミュレーションフレームワーク

BOLD: A Benchmark for Linked Data User Agents and a Simulation Framework for Dynamic Linked Data Environments ( http://arxiv.org/abs/2307.09114v1 )

ライセンス: Link先を確認
Tobias K\"afer, Victor Charpenay, Andreas Harth(参考訳) 本稿では,動的linked data環境をシミュレートするフレームワークの横に,linked data agentのためのbold(buildings on linked data)ベンチマークを示す。 BOLDベンチマークはBOLDフレームワークをインスタンス化し、読み書き型Linked Dataインターフェースをスマートな建物に提供し、照明周辺の時間、占有状況、センサー、アクチュエーターをシミュレートする。 この環境のLinked Data表現では、エージェントは照明を制御するなど、いくつかの特定のタスクを実行する。 シミュレーション環境は、タスクの正しい実行をチェックし、エージェントのパフォーマンスを測定する手段を提供する。 条件-作用則に基づくリンクデータエージェントの測定を行う。

The paper presents the BOLD (Buildings on Linked Data) benchmark for Linked Data agents, next to the framework to simulate dynamic Linked Data environments, using which we built BOLD. The BOLD benchmark instantiates the BOLD framework by providing a read-write Linked Data interface to a smart building with simulated time, occupancy movement and sensors and actuators around lighting. On the Linked Data representation of this environment, agents carry out several specified tasks, such as controlling illumination. The simulation environment provides means to check for the correct execution of the tasks and to measure the performance of agents. We conduct measurements on Linked Data agents based on condition-action rules.
翻訳日:2023-07-19 15:35:01 公開日:2023-07-18
# NU-MCC:周辺デコーダと反発型UDFを用いたマルチビュー圧縮符号化

NU-MCC: Multiview Compressive Coding with Neighborhood Decoder and Repulsive UDF ( http://arxiv.org/abs/2307.09112v1 )

ライセンス: Link先を確認
Stefan Lionar, Xiangyu Xu, Min Lin, Gim Hee Lee(参考訳) シングルビューのRGB-D入力からの3D再構成で顕著な進歩が見られた。 MCCはこの分野で現在最先端の手法であり、視覚変換器と大規模訓練を組み合わせることで前例のない成功を収めている。 しかし、mccの2つの重要な制限を特定しました。 1) トランスフォーマーデコーダは,多数のクエリポイントを扱うのに非効率である。 2)3D表現は,高忠実度の詳細の回復に苦慮している。 本稿では,これらの制約に対処するNU-MCCという新しい手法を提案する。 NU-MCCには、近隣デコーダとRepulsive Unsigned Distance Function (Repulsive UDF)の2つの重要なイノベーションが含まれている。 まず,我々の近所デコーダは,入力視覚機能の効率的なプロキシとしてセンターポイントを導入し,各クエリポイントが小さな近傍にのみ出席できるようにした。 この設計は推論速度をはるかに速くするだけでなく、3次元テクスチャの回復を改善するため、より微細な視覚的特徴の活用を可能にする。 第2に,我々のRepulsive UDFはMCCの占有領域に代わる新しい代替品であり,3次元オブジェクト再構成の精度を著しく向上させる。 従来のUDFと比較すると,提案するUDFはより完全な表面再構成を実現することができる。 実験により, NU-MCCは強い3次元表現を学習でき, 単視点3次元再構成における技量を著しく向上できることが示された。 特に、CO3D-v2データセットのF1スコアでMCCを9.7%上回り、実行速度は5倍以上である。

Remarkable progress has been made in 3D reconstruction from single-view RGB-D inputs. MCC is the current state-of-the-art method in this field, which achieves unprecedented success by combining vision Transformers with large-scale training. However, we identified two key limitations of MCC: 1) The Transformer decoder is inefficient in handling large number of query points; 2) The 3D representation struggles to recover high-fidelity details. In this paper, we propose a new approach called NU-MCC that addresses these limitations. NU-MCC includes two key innovations: a Neighborhood decoder and a Repulsive Unsigned Distance Function (Repulsive UDF). First, our Neighborhood decoder introduces center points as an efficient proxy of input visual features, allowing each query point to only attend to a small neighborhood. This design not only results in much faster inference speed but also enables the exploitation of finer-scale visual features for improved recovery of 3D textures. Second, our Repulsive UDF is a novel alternative to the occupancy field used in MCC, significantly improving the quality of 3D object reconstruction. Compared to standard UDFs that suffer from holes in results, our proposed Repulsive UDF can achieve more complete surface reconstruction. Experimental results demonstrate that NU-MCC is able to learn a strong 3D representation, significantly advancing the state of the art in single-view 3D reconstruction. Particularly, it outperforms MCC by 9.7% in terms of the F1-score on the CO3D-v2 dataset with more than 5x faster running speed.
翻訳日:2023-07-19 15:34:49 公開日:2023-07-18
# 意味セグメンテーションのためのアクティブラーニングによる単クラスマイニング

Mining of Single-Class by Active Learning for Semantic Segmentation ( http://arxiv.org/abs/2307.09109v1 )

ライセンス: Link先を確認
Hugues Lambert, Emma Slade(参考訳) いくつかのアクティブラーニング(AL)ポリシーでは、最も情報に富んだサンプルを特定するために、ターゲットモデルを何度も再訓練する必要がある。 ここでは,al政策を深層強化学習によって構築し,高パフォーマンスモデルが特定のクラスに対して訓練可能なデータセットを構築するために量的精度相関を利用する,アクティブラーニング(misical)パラダイムによる単一クラスマイニングを導入する。 MiSiCALは、他のALメソッドと同様、反復的なモデルトレーニングセッションを必要としないため、非常に大きなバッチサイズの場合において特に有用である。 これは、候補データポイントの固定表現を利用する能力のおかげです。 MiSiCALは171のCOCO10kクラス中150のランダムポリシーを上回り、最強のベースラインは101のクラスでのみランダムポリシーを上回ります。

Several Active Learning (AL) policies require retraining a target model several times in order to identify the most informative samples and rarely offer the option to focus on the acquisition of samples from underrepresented classes. Here the Mining of Single-Class by Active Learning (MiSiCAL) paradigm is introduced where an AL policy is constructed through deep reinforcement learning and exploits quantity-accuracy correlations to build datasets on which high-performance models can be trained with regards to specific classes. MiSiCAL is especially helpful in the case of very large batch sizes since it does not require repeated model training sessions as is common in other AL methods. This is thanks to its ability to exploit fixed representations of the candidate data points. We find that MiSiCAL is able to outperform a random policy on 150 out of 171 COCO10k classes, while the strongest baseline only outperforms random on 101 classes.
翻訳日:2023-07-19 15:34:26 公開日:2023-07-18
# 低照度画像強調のための明度認識と詳細感性表現の学習

Division Gets Better: Learning Brightness-Aware and Detail-Sensitive Representations for Low-Light Image Enhancement ( http://arxiv.org/abs/2307.09104v1 )

ライセンス: Link先を確認
Huake Wang, Xiaoyang Yan, Xingsong Hou, Junhui Li, Yujie Dun, Kaibing Zhang(参考訳) 低照度画像強調はコントラストを改善し、可視性を調整し、色やテクスチャの歪みを復元する。 既存の手法では、低照度画像の明度を高めることで視認性やコントラストの向上に注意を払うが、高品質画像における色やテクスチャの復元の重要性は無視できる。 本稿では,低照度画像強調を2つのサブタスク,例えば輝度調整と色復元に分割する低照度画像強調のための,LCDBNetと呼ばれる新しい輝度・彩色二重分岐ネットワークを提案する。 具体的には、LCDBNetは、輝度調整ネットワーク(LAN)と色復元ネットワーク(CRN)の2つのブランチから構成される。 LANは、長距離依存と局所的な注意相関を利用した輝度認識機能を学ぶ責任を負う。 CRNはマルチレベルウェーブレット分解によるディテールセンシティブな特徴の学習に重点を置いている。 最後に、融合ネットワークは、学習した特徴をブレンドして視覚的に印象的な画像を生成するように設計されている。 その結果,LCDBNetは,複数の参照/非参照品質評価器において,他の最先端のコンペティタと比較して優れた性能を発揮することが示された。 コードと事前訓練されたモデルが利用可能になります。

Low-light image enhancement strives to improve the contrast, adjust the visibility, and restore the distortion in color and texture. Existing methods usually pay more attention to improving the visibility and contrast via increasing the lightness of low-light images, while disregarding the significance of color and texture restoration for high-quality images. Against above issue, we propose a novel luminance and chrominance dual branch network, termed LCDBNet, for low-light image enhancement, which divides low-light image enhancement into two sub-tasks, e.g., luminance adjustment and chrominance restoration. Specifically, LCDBNet is composed of two branches, namely luminance adjustment network (LAN) and chrominance restoration network (CRN). LAN takes responsibility for learning brightness-aware features leveraging long-range dependency and local attention correlation. While CRN concentrates on learning detail-sensitive features via multi-level wavelet decomposition. Finally, a fusion network is designed to blend their learned features to produce visually impressive images. Extensive experiments conducted on seven benchmark datasets validate the effectiveness of our proposed LCDBNet, and the results manifest that LCDBNet achieves superior performance in terms of multiple reference/non-reference quality evaluators compared to other state-of-the-art competitors. Our code and pretrained model will be available.
翻訳日:2023-07-19 15:34:08 公開日:2023-07-18
# 多目的ニューラルアーキテクチャ探索に関する調査

A Survey on Multi-Objective Neural Architecture Search ( http://arxiv.org/abs/2307.09099v1 )

ライセンス: Link先を確認
Seyed Mahdi Shariatzadeh, Mahmood Fathy, Reza Berangi, Mohammad Shahverdy(参考訳) 近年,ハイパーパラメータ最適化とオート機械学習(automl)に密接な関係を持つニューラルネットワーク探索(nas)とネットワーク構造の自動生成(およびチューニング)の活用により,専門家によるニューラルアーキテクチャが追い越されている。 初期のnasによる予測精度のみの最適化の試みの後、多目的ニューラルネットワーク検索(monas)は、計算複雑性、消費電力、最適化のためのネットワークのサイズなど、より多くの目標を考慮し、精度と計算コストなどの他の機能とのトレードオフに到達した。 本稿では,モナスの分野における主要な作品と最先端の作品について概観する。 NAS分野の分類と定式化から始めて、NAS分野の以前の調査において、いくつかの誤分類に対処し、修正する。 また、使用中のすべての既知の目標のリストを提供し、新しいものをいくつか追加し、仕様を詳しく説明します。 我々は,最も重要な目的に関する分析を行い,それらの確率的性質はnasの多目的最適化手順において決定論的目的と異なるべきであることを示した。 本論文は,MONAS分野における今後の方向性と課題についてまとめる。

Recently, the expert-crafted neural architectures is increasing overtaken by the utilization of neural architecture search (NAS) and automatic generation (and tuning) of network structures which has a close relation to the Hyperparameter Optimization and Auto Machine Learning (AutoML). After the earlier NAS attempts to optimize only the prediction accuracy, Multi-Objective Neural architecture Search (MONAS) has been attracting attentions which considers more goals such as computational complexity, power consumption, and size of the network for optimization, reaching a trade-off between the accuracy and other features like the computational cost. In this paper, we present an overview of principal and state-of-the-art works in the field of MONAS. Starting from a well-categorized taxonomy and formulation for the NAS, we address and correct some miscategorizations in previous surveys of the NAS field. We also provide a list of all known objectives used and add a number of new ones and elaborate their specifications. We have provides analyses about the most important objectives and shown that the stochastic properties of some the them should be differed from deterministic ones in the multi-objective optimization procedure of NAS. We finalize this paper with a number of future directions and topics in the field of MONAS.
翻訳日:2023-07-19 15:33:43 公開日:2023-07-18
# 因果リワードを伴う非定常遅延組合せ半帯域

Non-stationary Delayed Combinatorial Semi-Bandit with Causally Related Rewards ( http://arxiv.org/abs/2307.09093v1 )

ライセンス: Link先を確認
Saeed Ghoorchian and Setareh Maghsudi(参考訳) 不確実性の下での連続的な意思決定は、しばしば長いフィードバックの遅延と関連付けられる。 このような遅延は、学習エージェントの性能を低下させ、長期における最適な集団報酬によってアームのサブセットを特定する。 この問題は、アームに関連する報酬分布に構造的依存がある非定常環境では著しく困難になる。 したがって、遅延や環境変化に適応する以外に、因果関係の学習は、フィードバック遅延が意思決定プロセスに悪影響を与えることを緩和する。 上記の設定を因果関係の報酬を伴う非定常および遅延組合せ半バンド問題として定式化する。 定常構造方程式モデルにおける有向グラフによる因果関係をモデル化する。 エージェントは、ベースアームの報酬の線形関数として定義される長期的な平均ペイオフを最大化する。 我々は,遅延フィードバックから構造的依存関係を学習し,ドリフトに適応しながら意思決定を最適化するポリシを開発する。 我々は,提案アルゴリズムの性能に対する後悔を証明した。 さらに, イタリアにおけるCovid-19の拡散に最も寄与する地域を検出するために, 合成および実世界のデータセットを用いた数値解析による手法の評価を行った。

Sequential decision-making under uncertainty is often associated with long feedback delays. Such delays degrade the performance of the learning agent in identifying a subset of arms with the optimal collective reward in the long run. This problem becomes significantly challenging in a non-stationary environment with structural dependencies amongst the reward distributions associated with the arms. Therefore, besides adapting to delays and environmental changes, learning the causal relations alleviates the adverse effects of feedback delay on the decision-making process. We formalize the described setting as a non-stationary and delayed combinatorial semi-bandit problem with causally related rewards. We model the causal relations by a directed graph in a stationary structural equation model. The agent maximizes the long-term average payoff, defined as a linear function of the base arms' rewards. We develop a policy that learns the structural dependencies from delayed feedback and utilizes that to optimize the decision-making while adapting to drifts. We prove a regret bound for the performance of the proposed algorithm. Besides, we evaluate our method via numerical analysis using synthetic and real-world datasets to detect the regions that contribute the most to the spread of Covid-19 in Italy.
翻訳日:2023-07-19 15:33:23 公開日:2023-07-18
# 周期ディラック・フォック関数と最小化器の特性

Properties of periodic Dirac--Fock functional and minimizers ( http://arxiv.org/abs/2307.09088v1 )

ライセンス: Link先を確認
Isabelle Catto, Long Meng(参考訳) Existence of minimizers for the Dirac--Fock model in crystals was recently proved by Paturel and S\'er\'e and the authors \cite{crystals} by a retraction technique due to S\'er\'e \cite{Ser09}. In this paper, inspired by Ghimenti and Lewin's result \cite{ghimenti2009properties} for the periodic Hartree--Fock model, we prove that the Fermi level of any periodic Dirac--Fock minimizer is either empty or totally filled when $\frac{\alpha}{c}\leq C_{\rm cri}$ and $\alpha>0$. Here $c$ is the speed of light, $\alpha$ is the fine structure constant, and $C_{\rm cri}$ is a constant only depending on the number of electrons and on the charge of nuclei per cell. More importantly, we provide an explicit upper bound for $C_{\rm cri}$. Our result implies that any minimizer of the periodic Dirac--Fock model is a projector when $\frac{\alpha}{c}\leq C_{\rm cri}$ and $\alpha>0$. 特に、非相対論的レジーム(すなわち$c\gg1$)と弱い結合レジーム(すなわち$0<\alpha\ll1$)はカバーされる。 この証明は、 \cite{crystals} で用いられるリトラクションからなる周期的ディラック-フォック函数の2階展開に関する微妙な研究に基づいている。

Existence of minimizers for the Dirac--Fock model in crystals was recently proved by Paturel and S\'er\'e and the authors \cite{crystals} by a retraction technique due to S\'er\'e \cite{Ser09}. In this paper, inspired by Ghimenti and Lewin's result \cite{ghimenti2009properties} for the periodic Hartree--Fock model, we prove that the Fermi level of any periodic Dirac--Fock minimizer is either empty or totally filled when $\frac{\alpha}{c}\leq C_{\rm cri}$ and $\alpha>0$. Here $c$ is the speed of light, $\alpha$ is the fine structure constant, and $C_{\rm cri}$ is a constant only depending on the number of electrons and on the charge of nuclei per cell. More importantly, we provide an explicit upper bound for $C_{\rm cri}$. Our result implies that any minimizer of the periodic Dirac--Fock model is a projector when $\frac{\alpha}{c}\leq C_{\rm cri}$ and $\alpha>0$. In particular, the non-relativistic regime (i.e., $c\gg1$) and the weak coupling regime (i.e., $0<\alpha\ll1$) are covered. The proof is based on a delicate study of a second-order expansion of the periodic Dirac--Fock functional composed with the retraction used in \cite{crystals}.
翻訳日:2023-07-19 15:33:07 公開日:2023-07-18
# 長期文書分類のための事前学習文埋め込みの注意

Attention over pre-trained Sentence Embeddings for Long Document Classification ( http://arxiv.org/abs/2307.09084v1 )

ライセンス: Link先を確認
Amine Abdaoui and Sourav Dutta(参考訳) ほとんどのnlpタスクにおける現在のデファクトモデルであるにもかかわらず、トランスフォーマーはしばしばトークン数に対する2次注意の複雑さのために短いシーケンスに制限される。 この問題に対処するいくつかの試みは、自己着脱計算のコストを削減したり、より小さなシーケンスをモデル化したり、再帰機構や新しいトランスフォーマーモデルを使ってそれらを組み合わせたりすることで研究された。 本稿では,各文の意味的に意味のある埋め込みから,事前学習された文トランスフォーマーを活用し,文書長に線形にスケールする小さな注意層を組み合わせることを提案する。 本稿では,3つの標準文書分類データセットについて,この単純なアーキテクチャにより得られた結果を報告する。 標準の微調整を用いた現在の最先端モデルと比較すると、(この構成に明確なモデルがないとしても)競合結果が得られる。 また, 基礎となる変圧器を凍結した場合に, 検討したアーキテクチャがよりよい結果を得ることを示す。 完全な微調整を避ける必要がある場合(例えば、同じ凍結トランスフォーマーが異なるアプリケーションで共有されている場合)に便利である構成。 最後に、より単純なベースラインよりも研究されたアーキテクチャの関連性を評価するために、2つの追加実験が提供される。

Despite being the current de-facto models in most NLP tasks, transformers are often limited to short sequences due to their quadratic attention complexity on the number of tokens. Several attempts to address this issue were studied, either by reducing the cost of the self-attention computation or by modeling smaller sequences and combining them through a recurrence mechanism or using a new transformer model. In this paper, we suggest to take advantage of pre-trained sentence transformers to start from semantically meaningful embeddings of the individual sentences, and then combine them through a small attention layer that scales linearly with the document length. We report the results obtained by this simple architecture on three standard document classification datasets. When compared with the current state-of-the-art models using standard fine-tuning, the studied method obtains competitive results (even if there is no clear best model in this configuration). We also showcase that the studied architecture obtains better results when freezing the underlying transformers. A configuration that is useful when we need to avoid complete fine-tuning (e.g. when the same frozen transformer is shared by different applications). Finally, two additional experiments are provided to further evaluate the relevancy of the studied architecture over simpler baselines.
翻訳日:2023-07-19 15:32:44 公開日:2023-07-18
# ブロックチェーン技術を用いたエネルギー管理のためのフェデレーション学習モデル

A Federated learning model for Electric Energy management using Blockchain Technology ( http://arxiv.org/abs/2307.09080v1 )

ライセンス: Link先を確認
Muhammad Shoaib Farooq, Azeen Ahmed Hayat(参考訳) エネルギー不足と電力負荷の削減が発展途上国の主な問題である。 主な原因は、エネルギーセクターにおける管理の欠如と再生不可能なエネルギー源の使用である。 エネルギー管理の改善と再生可能エネルギーの利用は、エネルギー危機の解決に重要である。 化石燃料エネルギーの高価格によるエネルギー需要の増加に対応するため,再生可能エネルギー源(RES)の利用を増加させる必要がある。 フェデレーション学習(federated learning, fl)は、人工知能の分野でもっとも新しい技術である。 フェデレーション学習は、データプライバシを保持しながら、リモートエッジサイトでローカルにトレーニングされたモデルをアンサンブルすることで、サーバ側でグローバルモデルを生成するのに役立つ。 グローバルモデルは、消費者のニーズを満たすためにエネルギー需要を予測するために使用される。 本稿では,プロデューサとコンシューマ間のデータのトランザクションのためのブロックチェーンベースの安全な分散台帳技術を提案し,その透明性,トレーサビリティ,セキュリティを確保する。 さらに, 消費者とプロシューマーのエネルギー要求を予測するためのフェデレーション学習モデルも提案している。 さらに、Blockchainは、プロシューマーとグリッド間のエネルギー管理を改善するために、プロシューマーから過剰なエネルギーデータを格納するために使われてきた。 最後に、再生可能エネルギー源は他の再生不可能エネルギー資源と同等の結果が得られた。

Energy shortfall and electricity load shedding are the main problems for developing countries. The main causes are lack of management in the energy sector and the use of non-renewable energy sources. The improved energy management and use of renewable sources can be significant to resolve energy crisis. It is necessary to increase the use of renewable energy sources (RESs) to meet the increasing energy demand due to high prices of fossil-fuel based energy. Federated learning (FL) is the most emerging technique in the field of artificial intelligence. Federated learning helps to generate global model at server side by ensemble locally trained models at remote edges sites while preserving data privacy. The global model used to predict energy demand to satisfy the needs of consumers. In this article, we have proposed Blockchain based safe distributed ledger technology for transaction of data between prosumer and consumer to ensure their transparency, traceability and security. Furthermore, we have also proposed a Federated learning model to forecast the energy requirements of consumer and prosumer. Moreover, Blockchain has been used to store excess energy data from prosumer for better management of energy between prosumer and grid. Lastly, the experiment results revealed that renewable energy sources have produced better and comparable results to other non-renewable energy resources.
翻訳日:2023-07-19 15:32:23 公開日:2023-07-18
# 大規模データセットにおける順序帳依存ホークス過程の推定

Estimation of an Order Book Dependent Hawkes Process for Large Datasets ( http://arxiv.org/abs/2307.09077v1 )

ライセンス: Link先を確認
Luca Mucciante and Alessio Sancetta(参考訳) 高周波取引におけるイベント到着のポイントプロセスを示す。 強度はホークス過程の積であり、秩序本から導かれる共変量の高次元関数である。 プロセスの定常性の条件が述べられている。 何十億ものデータポイントが存在する場合でもモデルを評価するアルゴリズムが提示され、おそらく共変量を高次元空間にマッピングする。 大規模なサンプルサイズは、複数の液体機器を用いた高周波データ応用によく用いられる。 アルゴリズムの収束が示され、弱条件下での一貫性が確立され、異なるモデル仕様のサンプル性能を評価するためのテスト統計が提案されている。 この手法は、ニューヨーク証券取引所(NYSE)で取引される4つの株式の研究に適用される。 サンプル実験の結果,注文帳情報の非線形性を捉えることは,高周波取引イベントの自己刺激性に価値をもたらすことが示唆された。

A point process for event arrivals in high frequency trading is presented. The intensity is the product of a Hawkes process and high dimensional functions of covariates derived from the order book. Conditions for stationarity of the process are stated. An algorithm is presented to estimate the model even in the presence of billions of data points, possibly mapping covariates into a high dimensional space. The large sample size can be common for high frequency data applications using multiple liquid instruments. Convergence of the algorithm is shown, consistency results under weak conditions is established, and a test statistic to assess out of sample performance of different model specifications is suggested. The methodology is applied to the study of four stocks that trade on the New York Stock Exchange (NYSE). The out of sample testing procedure suggests that capturing the nonlinearity of the order book information adds value to the self exciting nature of high frequency trading events.
翻訳日:2023-07-19 15:32:05 公開日:2023-07-18
# mva2023 鳥発見のための小物体検出チャレンジ:データセット、方法、結果

MVA2023 Small Object Detection Challenge for Spotting Birds: Dataset, Methods, and Results ( http://arxiv.org/abs/2307.09143v1 )

ライセンス: Link先を確認
Yuki Kondo, Norimichi Ukita, Takayuki Yamaguchi, Hao-Yu Hou, Mu-Yi Shen, Chia-Chi Hsu, En-Ming Huang, Yu-Chen Huang, Yu-Cheng Xia, Chien-Yao Wang, Chun-Yi Lee, Da Huo, Marc A. Kastner, Tingwei Liu, Yasutomo Kawanishi, Takatsugu Hirayama, Takahiro Komamizu, Ichiro Ide, Yosuke Shinya, Xinyao Liu, Guang Liang, Syusuke Yasui(参考訳) スモールオブジェクト検出(SOD)は重要なマシンビジョンのトピックである (i)様々な現実世界のアプリケーションは、遠方の物体に対する物体検出を必要とする。 (II)SODは,小物体のノイズやぼやけた画像の出現が少ないため,困難な課題である。 本稿では,sod4sb(small object detection for spotting birds)データセットと呼ばれる,137,121個の鳥インスタンスを含む39,070画像からなる新しいsodデータセットを提案する。 本稿では,SOD4SBデータセットによる課題の詳細を紹介する。 このチャレンジには合計223人の参加者が参加した。 本稿では,受賞方法を簡単に紹介する。 データセット、ベースラインコード、公開テストセットの評価のためのWebサイトが公開されている。

Small Object Detection (SOD) is an important machine vision topic because (i) a variety of real-world applications require object detection for distant objects and (ii) SOD is a challenging task due to the noisy, blurred, and less-informative image appearances of small objects. This paper proposes a new SOD dataset consisting of 39,070 images including 137,121 bird instances, which is called the Small Object Detection for Spotting Birds (SOD4SB) dataset. The detail of the challenge with the SOD4SB dataset is introduced in this paper. In total, 223 participants joined this challenge. This paper briefly introduces the award-winning methods. The dataset, the baseline code, and the website for evaluation on the public testset are publicly available.
翻訳日:2023-07-19 15:23:54 公開日:2023-07-18
# 多相多体散逸粒子動力学とPINNに基づくデータ駆動発見を用いたCMAS液滴による部分湿潤特性評価

Characterization of partial wetting by CMAS droplets using multiphase many-body dissipative particle dynamics and data-driven discovery based on PINNs ( http://arxiv.org/abs/2307.09142v1 )

ライセンス: Link先を確認
Elham Kiyani, Mahdi Kooshkbaghi, Khemraj Shukla, Rahul Babu Koneru, Zhen Li, Luis Bravo, Anindya Ghoshal, George Em Karniadakis, and Mikko Karttunen(参考訳) cmasとして知られるカルシア、マグネシア、アルミナ、ケイ酸塩の混合物である溶融砂は、高い粘度、密度、表面張力が特徴である。 CMASの独特な性質は、高温の用途で扱うのが困難な材料であり、重要な機器の組み立てや損傷を防ぐために革新的な解決策と材料を必要とする。 本稿では, 多相多体散逸粒子動力学(mDPD)シミュレーションを用いて, 高粘性溶融CMAS液滴の湿潤ダイナミクスについて検討する。 シミュレーションは3次元で行われ、初期液滴の大きさと平衡接触角は異なる。 本研究では, cmas液滴の拡散半径挙動を捉える粗パラメトリック常微分方程式 (ode) を提案する。 ODEパラメータは、Physical-Informed Neural Network (PINN)フレームワークに基づいて識別される。 その後、PINNが初期半径と接触角のパラメータ値の閉形式依存性を記号回帰を用いて与えられる。 最後に,ベイジアンPINN(B-PINN)を用いて,発見パラメータに関連する不確実性を評価し定量化する。 本稿では,単純なパラメトリックODEモデリングと最先端機械学習技術を融合させることにより,CMAS液滴のダイナミクスの拡散に関する知見を提供する。

The molten sand, a mixture of calcia, magnesia, alumina, and silicate, known as CMAS, is characterized by its high viscosity, density, and surface tension. The unique properties of CMAS make it a challenging material to deal with in high-temperature applications, requiring innovative solutions and materials to prevent its buildup and damage to critical equipment. Here, we use multiphase many-body dissipative particle dynamics (mDPD) simulations to study the wetting dynamics of highly viscous molten CMAS droplets. The simulations are performed in three dimensions, with varying initial droplet sizes and equilibrium contact angles. We propose a coarse parametric ordinary differential equation (ODE) that captures the spreading radius behavior of the CMAS droplets. The ODE parameters are then identified based on the Physics-Informed Neural Network (PINN) framework. Subsequently, the closed form dependency of parameter values found by PINN on the initial radii and contact angles are given using symbolic regression. Finally, we employ Bayesian PINNs (B-PINNs) to assess and quantify the uncertainty associated with the discovered parameters. In brief, this study provides insight into spreading dynamics of CMAS droplets by fusing simple parametric ODE modeling and state-of-the-art machine learning techniques.
翻訳日:2023-07-19 15:23:41 公開日:2023-07-18
# SATのための機械学習:制限付きヒューリスティックと新しいグラフ表現

Machine Learning for SAT: Restricted Heuristics and New Graph Representations ( http://arxiv.org/abs/2307.09141v1 )

ライセンス: Link先を確認
Mikhail Shirokikh, Ilya Shenbin, Anton Alekseev, Sergey Nikolenko(参考訳) Boolean satisfiability (SAT)は、自動計画やスケジューリングを含む多くのアプリケーションにおいて、基本的なNP完全問題である。 大きなインスタンスを解決するには、SATソルバは、例えばDPLLとCDCLソルバの分岐変数を選択するなど、ヒューリスティックに頼らなければならない。 このようなヒューリスティックは機械学習(ML)モデルによって改善され、ステップ数を削減できるが、有用なモデルは比較的大きく、遅いため、通常は実行時間を妨げている。 これによりSAT解のコールドスタートが簡単になり,ステップ数と実行時間の両方を削減できるが,解法に制御をいつリリースするかは別途決定する必要がある。 さらに、オープンショップスケジューリング問題など他のドメインから変換されたSAT問題に合わせたGraph-Q-SATの修正も導入する。 ランダムおよび産業的sat問題によるアプローチの実現可能性を検証する。

Boolean satisfiability (SAT) is a fundamental NP-complete problem with many applications, including automated planning and scheduling. To solve large instances, SAT solvers have to rely on heuristics, e.g., choosing a branching variable in DPLL and CDCL solvers. Such heuristics can be improved with machine learning (ML) models; they can reduce the number of steps but usually hinder the running time because useful models are relatively large and slow. We suggest the strategy of making a few initial steps with a trained ML model and then releasing control to classical heuristics; this simplifies cold start for SAT solving and can decrease both the number of steps and overall runtime, but requires a separate decision of when to release control to the solver. Moreover, we introduce a modification of Graph-Q-SAT tailored to SAT problems converted from other domains, e.g., open shop scheduling problems. We validate the feasibility of our approach with random and industrial SAT problems.
翻訳日:2023-07-19 15:23:21 公開日:2023-07-18
# DropMix: 混合サンプルデータ拡張におけるクラス依存性の削減

DropMix: Reducing Class Dependency in Mixed Sample Data Augmentation ( http://arxiv.org/abs/2307.09136v1 )

ライセンス: Link先を確認
Haeil Lee, Hansang Lee, Junmo Kim(参考訳) MDA(Mixed sample data augmentation)は、様々なタスクのパフォーマンスを向上させるために広く使われているテクニックである。 しかし,本稿では,MSDAの効果はクラス依存であり,性能が向上するクラスもあれば,低下するクラスもある。 クラス依存性を低減するために,MSDA計算から特定のデータの割合を除外したDropMix法を提案する。 提案手法は,MSDAデータと非MSDAデータの組み合わせを訓練することにより,MSDAが以前劣化していたクラスの性能を向上させるだけでなく,Mixup, CutMix, PuzzleMixの3つのMSDA手法を用いて,2つのデータセット(CIFAR-100, ImageNet)で示すように,全体の平均精度を向上させる。

Mixed sample data augmentation (MSDA) is a widely used technique that has been found to improve performance in a variety of tasks. However, in this paper, we show that the effects of MSDA are class-dependent, with some classes seeing an improvement in performance while others experience a decline. To reduce class dependency, we propose the DropMix method, which excludes a specific percentage of data from the MSDA computation. By training on a combination of MSDA and non-MSDA data, the proposed method not only improves the performance of classes that were previously degraded by MSDA, but also increases overall average accuracy, as shown in experiments on two datasets (CIFAR-100 and ImageNet) using three MSDA methods (Mixup, CutMix and PuzzleMix).
翻訳日:2023-07-19 15:23:05 公開日:2023-07-18
# HopsworksのKubernetes上でのクラウドネイティブなRStudio

Cloud-native RStudio on Kubernetes for Hopsworks ( http://arxiv.org/abs/2307.09132v1 )

ライセンス: Link先を確認
Gibson Chikafa, Sina Sheikholeslami, Salman Niazi, Jim Dowling, Vladimir Vlassov(参考訳) クラウドコンピューティングのメリットを完全に享受するために、サービスは、ユーザ間のリソース共有を最大化することを目的とした"マルチテナント"アーキテクチャモデルに従って設計されている。 しかし、マルチテナントにはセキュリティ、パフォーマンスの分離、スケーリング、カスタマイズといった課題が伴う。 RStudioサーバ(英語: RStudio server)は、R言語用のWebブラウザ上でアクセス可能なオープンソースの統合開発環境(IDE)である。 本稿では,データ集約型aiプラットフォームであるhopsworks上で,rstudio as software as a service(saas)を提供するマルチテナントモデルに従って,マルチユーザ分散システムの設計と実装を行う。 私たちは、マルチテナント環境に存在するパフォーマンス分離、セキュリティ、スケーリングの問題を解決するために、最も人気のあるクラウドネイティブテクノロジであるDockerとKubernetesを使用しています。 さらに、RStudioサーバインスタンス内のセキュアなデータ共有により、データのプライバシを提供し、RStudioユーザ間のコラボレーションを可能にする。 当社のシステムをApache Sparkに統合することで,ビッグデータ処理ワークロードのスケールアップと処理が可能になります。 また、ユーザが独自の設定を提供し、独自のRStudioサーバインスタンスを完全にコントロールできるUIも提供しています。 このシステムは、4つのワーカノードを持つGoogle Cloud Platformクラスタ上でテストされ、それぞれに30GBのRAMが割り当てられた。 このクラスタでのテストでは、それぞれ2GBのRAMを持つ44のRStudioサーバを同時に実行することができた。 我々のシステムは、クラスタやシステムにより多くのリソース(CPUとRAM)を追加することで、数百のRStudioサーバを同時に実行する可能性がある。

In order to fully benefit from cloud computing, services are designed following the "multi-tenant" architectural model, which is aimed at maximizing resource sharing among users. However, multi-tenancy introduces challenges of security, performance isolation, scaling, and customization. RStudio server is an open-source Integrated Development Environment (IDE) accessible over a web browser for the R programming language. We present the design and implementation of a multi-user distributed system on Hopsworks, a data-intensive AI platform, following the multi-tenant model that provides RStudio as Software as a Service (SaaS). We use the most popular cloud-native technologies: Docker and Kubernetes, to solve the problems of performance isolation, security, and scaling that are present in a multi-tenant environment. We further enable secure data sharing in RStudio server instances to provide data privacy and allow collaboration among RStudio users. We integrate our system with Apache Spark, which can scale and handle Big Data processing workloads. Also, we provide a UI where users can provide custom configurations and have full control of their own RStudio server instances. Our system was tested on a Google Cloud Platform cluster with four worker nodes, each with 30GB of RAM allocated to them. The tests on this cluster showed that 44 RStudio servers, each with 2GB of RAM, can be run concurrently. Our system can scale out to potentially support hundreds of concurrently running RStudio servers by adding more resources (CPUs and RAM) to the cluster or system.
翻訳日:2023-07-19 15:22:47 公開日:2023-07-18
# 外部および内部スクイーズを有する損失空洞型干渉計の基本感度限界

Fundamental sensitivity limit of lossy cavity-enhanced interferometers with external and internal squeezing ( http://arxiv.org/abs/2307.09130v1 )

ライセンス: Link先を確認
Mikhail Korobko, Jan S\"udbeck, Sebastian Steinlechner, Roman Schnabel(参考訳) 量子光学センサーは、生物学的または医学的なセンサーから、暗黒物質や重力波を探索する大規模な実験まで、様々な研究分野に普及している。 重力波検出器は、ブラックホールや中性子星の融合からの信号に対する感度を高めるために、キャビティや量子絞り光の実装に非常に成功している。 しかし、弱い力に対する感度は、システムの利用可能なエネルギーと光デコヒーレンスによって制限される。 ここでは,キャビティの基本感度限界と光損失を伴う絞り光型干渉計を導出し,この限界を内部スクイーズ操作の最適使用により達成し,読み出し損失の軽減を図る。 各種シナリオへの内部スクイーズの適用を実証し、キャビティの最高の感度と圧縮光強化線形力センサに到達できることを確認する。 われわれの研究は、現実のシナリオにおける最適なセンサーの開発に向けた土台を築いており、これまでは様々なデコヒーレンス源によってスクイーズドライトの適用が削減されていた。

Quantum optical sensors are ubiquitous in various fields of research, from biological or medical sensors to large-scale experiments searching for dark matter or gravitational waves. Gravitational-wave detectors have been very successful in implementing cavities and quantum squeezed light for enhancing sensitivity to signals from black hole or neutron star mergers. However, the sensitivity to weak forces is limited by available energy and optical decoherence in the system. Here, we derive the fundamental sensitivity limit of cavity and squeezed-light enhanced interferometers with optical loss.This limit is attained by the optimal use of an additional internal squeeze operation, which allows to mitigate readout loss. We demonstrate the application of internal squeezing to various scenarios and confirm that it indeed allows to reach the best sensitivity in cavity and squeezed-light enhanced linear force sensors. Our work establishes the groundwork for the future development of optimal sensors in real-world scenarios where, up until now, the application of squeezed light was curtailed by various sources of decoherence.
翻訳日:2023-07-19 15:22:23 公開日:2023-07-18
# 量子電気機械による自律クロックの駆動

Powering an autonomous clock with quantum electromechanics ( http://arxiv.org/abs/2307.09122v1 )

ライセンス: Link先を確認
Oisin Culhane, Michael J. Kewming, Alessandro Silva, John Goold, Mark T. Mitchison(参考訳) 理論的には、電子トンネルにより駆動される自己振動を行うナノエレクトロメカニカルシステムからなる自律時計を解析する。 周期的な機械的運動は振り子の揺動と同様に時計の働きとして振る舞うが、電流の誘起振動はダニを読み出すのに使うことができる。 スローメカニカルモーションの準断熱限界におけるシステムのダイナミクスをシミュレートし、現在の自己相関関数からクロックダニの統計特性を推定する。 個々のダニの分布は、以前の文献から予想される精度、解像度、散逸のトレードオフを示す。 個々の音節の分布を超えて、Allan分散を計算することにより、異なる積分時間でクロック精度がどのように変化するかを検討する。 時間と印加電圧の関数としてアラン分散の非単調な特徴を観測し,ダニ間の時間相関の存在から説明できる。 これらの相関は、相関が持続する時間スケールよりもタイムキーピングに正確な利点をもたらすことが示されている。 その結果,ナノスケール時計が生成するダニ系列の非自明な特徴を示し,ナノ電気力学系を用いた時計熱力学の実験的研究の道筋を拓いた。

We theoretically analyse an autonomous clock comprising a nanoelectromechanical system, which undergoes self-oscillations driven by electron tunnelling. The periodic mechanical motion behaves as the clockwork, similar to the swinging of a pendulum, while induced oscillations in the electrical current can be used to read out the ticks. We simulate the dynamics of the system in the quasi-adiabatic limit of slow mechanical motion, allowing us to infer statistical properties of the clock's ticks from the current auto-correlation function. The distribution of individual ticks exhibits a tradeoff between accuracy, resolution, and dissipation, as expected from previous literature. Going beyond the distribution of individual ticks, we investigate how clock accuracy varies over different integration times by computing the Allan variance. We observe non-monotonic features in the Allan variance as a function of time and applied voltage, which can be explained by the presence of temporal correlations between ticks. These correlations are shown to yield a precision advantage for timekeeping over the timescales that the correlations persist. Our results illustrate the non-trivial features of the tick series produced by nanoscale clocks, and pave the way for experimental investigation of clock thermodynamics using nanoelectromechanical systems.
翻訳日:2023-07-19 15:22:06 公開日:2023-07-18
# 並列局所・大域自己注意型軽量ビジョントランス

Light-Weight Vision Transformer with Parallel Local and Global Self-Attention ( http://arxiv.org/abs/2307.09120v1 )

ライセンス: Link先を確認
Nikolas Ebert, Laurenz Reichardt, Didier Stricker, Oliver Wasenm\"uller(参考訳) 近年、トランスフォーマーアーキテクチャがコンピュータビジョンを支配しているが、リアルタイム性能を必要とする自動運転タスクのリソースが限られているハードウェア上では、これらのモデルは容易にデプロイできない。 計算の複雑さとメモリ要件は、特に高解像度入力のアプリケーションでの使用を制限する。 我々の研究では、最先端のビジョントランスフォーマー PLG-ViT を、そのようなタスクに適したよりコンパクトで効率的なアーキテクチャに再設計しました。 従来のPLG-ViTアーキテクチャにおける計算コストの高いブロックを特定し,パラメータ数や浮動小数点演算の削減を目的としたいくつかの再設計を提案する。 再設計の結果、plg-vitのサイズを5倍に削減し、パフォーマンスを適度に低下させることが出来ました。 パラメータカウントから実行時への最良のトレードオフと、パラメータカウントから正確性に最適化された2つの変種を提案する。 わずか500万のパラメータで、ImageNet-1K分類ベンチマークで79.5$\%$ top-1精度を達成した。 我々のネットワークは、COCOインスタンスセグメンテーションのような一般的なビジョンベンチマークで優れた性能を示している。 さらに,自動運転と交通の課題に特化して,様々な課題を解く上でのアプローチの可能性を示す一連の実験を行った。

While transformer architectures have dominated computer vision in recent years, these models cannot easily be deployed on hardware with limited resources for autonomous driving tasks that require real-time-performance. Their computational complexity and memory requirements limits their use, especially for applications with high-resolution inputs. In our work, we redesign the powerful state-of-the-art Vision Transformer PLG-ViT to a much more compact and efficient architecture that is suitable for such tasks. We identify computationally expensive blocks in the original PLG-ViT architecture and propose several redesigns aimed at reducing the number of parameters and floating-point operations. As a result of our redesign, we are able to reduce PLG-ViT in size by a factor of 5, with a moderate drop in performance. We propose two variants, optimized for the best trade-off between parameter count to runtime as well as parameter count to accuracy. With only 5 million parameters, we achieve 79.5$\%$ top-1 accuracy on the ImageNet-1K classification benchmark. Our networks demonstrate great performance on general vision benchmarks like COCO instance segmentation. In addition, we conduct a series of experiments, demonstrating the potential of our approach in solving various tasks specifically tailored to the challenges of autonomous driving and transportation.
翻訳日:2023-07-19 15:21:43 公開日:2023-07-18
# 摂動開系に対する量子速度限界

Quantum speed limit for perturbed open systems ( http://arxiv.org/abs/2307.09118v1 )

ライセンス: Link先を確認
Benjamin Yadin, Satoya Imai, Otfried G\"uhne(参考訳) 量子速度制限は、量子システムが初期状態から離れることのできる速度の上限を与える。 ここでは、摂動開放系の非摂動軌道からの分岐を記述するために、異なる種類の速度制限を提供する。 弱い結合の場合、分散速度は摂動ハミルトニアンの下での量子フィッシャー情報によってバウンドされ、システムや浴槽の時間スケールから推定できる誤差まで現れる。 速度制限の2つの応用を与える。 まず,完全特徴化されていないデコヒーレンスの存在下での量子フィッシャー情報の実験的推定を可能にする。 第二に、熱力学系がクエンチの下で急速に平衡から追い出されるためには、大きな量子ワークの変動が必要である。

Quantum speed limits provide upper bounds on the rate with which a quantum system can move away from its initial state. Here, we provide a different kind of speed limit, describing the divergence of a perturbed open system from its unperturbed trajectory. In the case of weak coupling, we show that the divergence speed is bounded by the quantum Fisher information under a perturbing Hamiltonian, up to an error which can be estimated from system and bath timescales. We give two applications of our speed limit. Firstly, it enables experimental estimation of quantum Fisher information in the presence of decoherence that is not fully characterised. Secondly, it implies that large quantum work fluctuations are necessary for a thermal system to be driven quickly out of equilibrium under a quench.
翻訳日:2023-07-19 15:21:26 公開日:2023-07-18
# 片側半デバイス非依存状態における量子不協和状態の不斉ステアビリティ

Asymmetric Steerability of Quantum Discordant States in a One-Sided Semi-Device-Independent way ( http://arxiv.org/abs/2307.09116v1 )

ライセンス: Link先を確認
Chellasamy Jebarathinam, Debarshi Das, R. Srikanth(参考訳) 超局所性と超非ステアビリティは、それぞれ特定の局所状態と非ステアブル状態における量子相関の操作的特徴を与える。 このような量子相関状態は非零量子不一致を持つ。 どちらの方法でも非零量子不和は超局所性によって指摘される量子相関に必要である。 一方,本研究では,両方法での非ゼロ量子不一致は,超解性を示すために必要ではないことを実証する。 この目的のために、一方向量子不協和状態の超unsteerabilityを示す。 このことは、一方向超不安定の存在と超局所性のない超不安定の存在を暗示する。 非零量子ディスコ状態の超unsteerabilityは、片側半デバイス非依存な方法でのステアビリティを意味する。 一方向ステアビリティがベル局所状態に対して一方向デバイス非依存的に発生するのと同じように、一方向ステアビリティは一方向半デバイス非依存な状態でも起こりうることを示した。

Superlocality and superunsteerability provide operational characterization of quantum correlations in certain local and unsteerable states respectively. Such quantum correlated states have a nonzero quantum discord. Nonzero quantum discord in both the ways is necessary for quantum correlations pointed out by superlocality. On the other hand, in this work, we demonstrate that a nonzero quantum discord in both the ways is not necessary to demonstrate superunsteerability. To this end, we demonstrate superunsteerability for one-way quantum discordant states. This in turn implies the existence of one-way superunsteerability and also the presence of superunsteerability without superlocality. Superunsteerability for nonzero quantum discord states implies steerability in a one-sided semi-device-independent way. Just like one-way steerability occurs for certain Bell-local states in a one-sided device-independent way, our result shows that one-way steerability can also occur for certain nonsuperlocal states but in a one-sided semi-device-independent way.
翻訳日:2023-07-19 15:21:14 公開日:2023-07-18
# 信頼できるデータセット蒸留を目指して

Towards Trustworthy Dataset Distillation ( http://arxiv.org/abs/2307.09165v1 )

ライセンス: Link先を確認
Shijie Ma, Fei Zhu, Zhen Cheng, Xu-Yao Zhang(参考訳) 効率性と信頼性は、現実世界のアプリケーションにディープラーニングを適用するとき、永遠の追求である。 効率性に関して、データセット蒸留(DD)は、大規模なデータセットを小さな合成データセットに蒸留することで、トレーニングコストを削減する。 しかし、既存の手法では、非分配(out-of-distribution、ood)のサンプルを無視して、クローズドワールドの設定でin-distribution(ind)の分類にのみ集中している。 一方、OOD検出は、フルデータ設定で常に非効率に達成されるモデルの信頼性を高めることを目的としている。 両課題を同時に検討し,信頼に値するデータセット蒸留(trustdd)と呼ばれる新しいパラダイムを提案する。 InDサンプルと外れ値の両方を蒸留することにより、凝縮データセットは、InD分類とOOD検出の両方に適するモデルをトレーニングすることができる。 さらに,実際の外部データの必要性を緩和し,OOD検出をより実用的なものにするために,擬似外部データを生成するために不正なInDサンプルを提案し,Pseudo-Outlier Exposure(POE)を導入する。 様々な環境における総合的な実験により、TrustDDの有効性が示され、提案したPOEは最先端のOutlier Exposure(OE)を超える。 以前のDDと比較してTrustDDは信頼性が高く、実際のオープンワールドシナリオに適用できる。 私たちのコードは公開されます。

Efficiency and trustworthiness are two eternal pursuits when applying deep learning in real-world applications. With regard to efficiency, dataset distillation (DD) endeavors to reduce training costs by distilling the large dataset into a tiny synthetic dataset. However, existing methods merely concentrate on in-distribution (InD) classification in a closed-world setting, disregarding out-of-distribution (OOD) samples. On the other hand, OOD detection aims to enhance models' trustworthiness, which is always inefficiently achieved in full-data settings. For the first time, we simultaneously consider both issues and propose a novel paradigm called Trustworthy Dataset Distillation (TrustDD). By distilling both InD samples and outliers, the condensed datasets are capable to train models competent in both InD classification and OOD detection. To alleviate the requirement of real outlier data and make OOD detection more practical, we further propose to corrupt InD samples to generate pseudo-outliers and introduce Pseudo-Outlier Exposure (POE). Comprehensive experiments on various settings demonstrate the effectiveness of TrustDD, and the proposed POE surpasses state-of-the-art method Outlier Exposure (OE). Compared with the preceding DD, TrustDD is more trustworthy and applicable to real open-world scenarios. Our code will be publicly available.
翻訳日:2023-07-19 15:15:52 公開日:2023-07-18
# LLMにおけるジェンダーバイアスの出現 : 社会学的意味の分析と対応

Unveiling Gender Bias in Terms of Profession Across LLMs: Analyzing and Addressing Sociological Implications ( http://arxiv.org/abs/2307.09162v1 )

ライセンス: Link先を確認
Vishesh Thakur(参考訳) 人工知能(AI)と自然言語処理におけるジェンダーバイアスは、社会的知覚やバイアスに潜在的に影響するため、大きな注目を集めている。 本研究の目的は,大言語モデル(llms)における性バイアスの分析と,gpt-2とgpt-3.5の複数の比較に着目し,その意味を深く理解することにある。 包括的な文献レビューを通じて、AI言語モデルにおけるジェンダーバイアスに関する既存の研究を調査し、現在の知識のギャップを特定する。 この手法は、gpt-2およびgpt-3.5からのデータ収集と前処理を伴い、生成されたテキストにおける性別バイアスを評価するために詳細な定量的分析技術を用いる。 この発見は、これらの大規模言語モデルのアウトプットに存在するジェンダー付き単語関連、言語使用、偏見付き物語に光を当てた。 この議論は、ジェンダーバイアスの倫理的影響とその社会的認知と限界化されたコミュニティへの潜在的な影響を探求する。 さらに,アルゴリズムアプローチやデータ拡張手法など,LSMにおける性別バイアスを低減する手法を提案する。 この研究は、aiモデルのジェンダーバイアス緩和における学際的コラボレーションの重要性と社会学研究の役割を強調している。 これらの問題を解決することで、社会にポジティブな影響を与える、包括的で偏見のないAIシステムを実現することができる。

Gender bias in artificial intelligence (AI) and natural language processing has garnered significant attention due to its potential impact on societal perceptions and biases. This research paper aims to analyze gender bias in Large Language Models (LLMs) with a focus on multiple comparisons between GPT-2 and GPT-3.5, some prominent language models, to better understand its implications. Through a comprehensive literature review, the study examines existing research on gender bias in AI language models and identifies gaps in the current knowledge. The methodology involves collecting and preprocessing data from GPT-2 and GPT-3.5, and employing in-depth quantitative analysis techniques to evaluate gender bias in the generated text. The findings shed light on gendered word associations, language usage, and biased narratives present in the outputs of these Large Language Models. The discussion explores the ethical implications of gender bias and its potential consequences on social perceptions and marginalized communities. Additionally, the paper presents strategies for reducing gender bias in LLMs, including algorithmic approaches and data augmentation techniques. The research highlights the importance of interdisciplinary collaborations and the role of sociological studies in mitigating gender bias in AI models. By addressing these issues, we can pave the way for more inclusive and unbiased AI systems that have a positive impact on society.
翻訳日:2023-07-19 15:15:05 公開日:2023-07-18
# cg-fusion cam: 大型光学系におけるレーザー誘起損傷のオンラインセグメンテーション

CG-fusion CAM: Online segmentation of laser-induced damage on large-aperture optics ( http://arxiv.org/abs/2307.09161v1 )

ライセンス: Link先を確認
Yueyue Han, Yingyan Huang, Hangcheng Dong, Fengdong Chen, Fa Zeng, Zhitao Peng, Qihua Zhu, Guodong Liu(参考訳) 高出力レーザー施設におけるレーザー誘起損傷のオンラインセグメンテーションは, 複雑な損傷形態, 不均一照明, 成層光干渉によって解決される。 完全な教師付きセマンティックセグメンテーションアルゴリズムは最先端のパフォーマンスを達成しているが、多くのピクセルレベルのラベルに依存している。 高度な教師付きセマンティックセマンティックセグメンテーションアルゴリズムであるLayerCAMは、画像レベルラベルのみを使用してピクセル精度の高い結果を生成することができるが、そのばらばらで、部分的には非活性なクラスアクティベーション領域はセグメンテーション性能を低下させる。 本稿では,連続勾配CAMとその非線形多スケール融合(CG-fusion CAM)を用いた弱教師付きセマンティックセマンティックセマンティックセマンティクス法を提案する。 本手法は, 後方伝播勾配の方法を再設計し, 複数スケールの融解熱マップを非線形に活性化し, 異なる規模の損傷部位に対して適切な活性化度でよりきめ細かなクラス活性化マップを生成する。 実験の結果,提案手法は完全教師付きアルゴリズムに匹敵するセグメンテーション性能を実現することができた。

Online segmentation of laser-induced damage on large-aperture optics in high-power laser facilities is challenged by complicated damage morphology, uneven illumination and stray light interference. Fully supervised semantic segmentation algorithms have achieved state-of-the-art performance, but rely on plenty of pixel-level labels, which are time-consuming and labor-consuming to produce. LayerCAM, an advanced weakly supervised semantic segmentation algorithm, can generate pixel-accurate results using only image-level labels, but its scattered and partially under-activated class activation regions degrade segmentation performance. In this paper, we propose a weakly supervised semantic segmentation method with Continuous Gradient CAM and its nonlinear multi-scale fusion (CG-fusion CAM). The method redesigns the way of back-propagating gradients and non-linearly activates the multi-scale fused heatmaps to generate more fine-grained class activation maps with appropriate activation degree for different sizes of damage sites. Experiments on our dataset show that the proposed method can achieve segmentation performance comparable to that of fully supervised algorithms.
翻訳日:2023-07-19 15:14:45 公開日:2023-07-18
# 多視点ステレオのための制約付き深度マップ幾何:サドル型深度セルを用いたデュアルディフアプローチ

Constraining Depth Map Geometry for Multi-View Stereo: A Dual-Depth Approach with Saddle-shaped Depth Cells ( http://arxiv.org/abs/2307.09160v1 )

ライセンス: Link先を確認
Xinyi Ye, Weiyue Zhao, Tianqi Liu, Zihao Huang, Zhiguo Cao, Xin Li(参考訳) 学習ベースマルチビューステレオ(MVS)法は,正確な深度マップを推定し,正確な3次元表現を実現する。 優れた性能にもかかわらず、既存の手法はmvsにおいて適切な深さ幾何が重要であるという事実を無視している。 本稿では,同じ深度予測誤差を用いても,異なる深度測地が顕著な性能差を有することを示す。 そこで本研究では, 連続な平滑な深さ面を維持しつつ, 予測された深さマップが地表面の上下に振動する, サドル型セルからなる理想的な深さ幾何構造を提案する。 これを実現するため、我々はdual-mvsnet (dmvsnet) と呼ばれる粒度の粗いフレームワークを開発した。 技術的には,各画素の2つの深さ値(Dual-Depth)を予測し,新しい損失関数とチェッカーボード型選択戦略を提案する。 既存の手法と比較して、DMVSNetはDTUベンチマークで高いランクを獲得し、タンクとテンプルの挑戦的なシーンで最高のパフォーマンスを獲得し、その強力なパフォーマンスと一般化能力を示している。 また,本手法は,MVSにおける深度幾何学の新たな研究方向を示す。

Learning-based multi-view stereo (MVS) methods deal with predicting accurate depth maps to achieve an accurate and complete 3D representation. Despite the excellent performance, existing methods ignore the fact that a suitable depth geometry is also critical in MVS. In this paper, we demonstrate that different depth geometries have significant performance gaps, even using the same depth prediction error. Therefore, we introduce an ideal depth geometry composed of Saddle-Shaped Cells, whose predicted depth map oscillates upward and downward around the ground-truth surface, rather than maintaining a continuous and smooth depth plane. To achieve it, we develop a coarse-to-fine framework called Dual-MVSNet (DMVSNet), which can produce an oscillating depth plane. Technically, we predict two depth values for each pixel (Dual-Depth), and propose a novel loss function and a checkerboard-shaped selecting strategy to constrain the predicted depth geometry. Compared to existing methods,DMVSNet achieves a high rank on the DTU benchmark and obtains the top performance on challenging scenes of Tanks and Temples, demonstrating its strong performance and generalization ability. Our method also points to a new research direction for considering depth geometry in MVS.
翻訳日:2023-07-19 15:14:20 公開日:2023-07-18
# 新規クラス発見のためのクラス関連知識蒸留

Class-relation Knowledge Distillation for Novel Class Discovery ( http://arxiv.org/abs/2307.09158v1 )

ライセンス: Link先を確認
Peiyan Gu, Chuyu Zhang, Ruijie Xu, Xuming He(参考訳) 既知のクラスからのラベル付きデータに基づく監督なしに新しいクラスを学習することを目的とした,新しいクラス発見の問題に取り組む。 重要な課題は、既知のクラスデータの知識を新しいクラスの学習に転送することである。 従来の手法は主に知識伝達のための共有表現空間の構築に重点を置いており、しばしばクラス関係のモデリングを無視する。 そこで本研究では,既知のクラスで学習されたモデルの予測クラス分布に基づく新しいクラスのクラス関係表現を提案する。 経験的に、そのようなクラス関係は、典型的な発見訓練において、より情報に乏しくなります。 このような情報損失を防止するため,我々のクラス関係表現を利用して新しいクラスの学習を規則化する新しい知識蒸留フレームワークを提案する。 また,新しいクラスにおける各データポイントに対する柔軟な知識蒸留スキームを実現するために,新しいクラスと既知のクラスの意味的類似性に基づいて知識伝達を適応的に促進する正規化のための学習可能な重み付け関数を開発した。 CIFAR100,Stanford Cars,CUB,FGVC-Aircraftデータセットなど,複数のベンチマークにおいて,本手法の有効性と一般化を検証する。 提案手法は, ほぼすべてのベンチマークにおいて, 従来の最先端手法よりも優れた性能を示した。 コードは \href{https://github.com/kleinzcy/cr-kd-ncd}{here} で入手できる。

We tackle the problem of novel class discovery, which aims to learn novel classes without supervision based on labeled data from known classes. A key challenge lies in transferring the knowledge in the known-class data to the learning of novel classes. Previous methods mainly focus on building a shared representation space for knowledge transfer and often ignore modeling class relations. To address this, we introduce a class relation representation for the novel classes based on the predicted class distribution of a model trained on known classes. Empirically, we find that such class relation becomes less informative during typical discovery training. To prevent such information loss, we propose a novel knowledge distillation framework, which utilizes our class-relation representation to regularize the learning of novel classes. In addition, to enable a flexible knowledge distillation scheme for each data point in novel classes, we develop a learnable weighting function for the regularization, which adaptively promotes knowledge transfer based on the semantic similarity between the novel and known classes. To validate the effectiveness and generalization of our method, we conduct extensive experiments on multiple benchmarks, including CIFAR100, Stanford Cars, CUB, and FGVC-Aircraft datasets. Our results demonstrate that the proposed method outperforms the previous state-of-the-art methods by a significant margin on almost all benchmarks. Code is available at \href{https://github.com/kleinzcy/Cr-KD-NCD}{here}.
翻訳日:2023-07-19 15:13:56 公開日:2023-07-18
# MLF-DET:クロスモーダル3次元物体検出のための多層融合

MLF-DET: Multi-Level Fusion for Cross-Modal 3D Object Detection ( http://arxiv.org/abs/2307.09155v1 )

ライセンス: Link先を確認
Zewei Lin, Yanqing Shen, Sanping Zhou, Shitao Chen, Nanning Zheng(参考訳) 本稿では,特徴レベル融合と決定レベル融合を統合し,画像内の情報を完全に活用する高性能なクロスモーダル3DオブジェクトDETectionのための,MLF-DETと呼ばれる新規かつ効果的なマルチレベルフュージョンネットワークを提案する。 特徴レベルの融合では、マルチスケールのボクセル特徴と画像の特徴を密集したマルチスケールのボクセル画像融合(MVI)モジュールを提示する。 判定レベルの融合のために,画像意味論を利用して検出候補の信頼度を補正する,軽量なFCR(Feature-cued Confidence Rectification)モジュールを提案する。 さらに,OGS(Occlusion-aware GT Smpling)と呼ばれる効果的なデータ拡張戦略を設計し,トレーニングシーンにより多くのサンプルオブジェクトを保存し,オーバーフィッティングを低減する。 KITTIデータセットの大規模な実験により,本手法の有効性が示された。 特に、非常に競争の激しい3Dオブジェクト検出ベンチマークにおいて、我々の手法は82.89%の適度APに達し、ベルやホイッスルなしで最先端の性能を達成する。

In this paper, we propose a novel and effective Multi-Level Fusion network, named as MLF-DET, for high-performance cross-modal 3D object DETection, which integrates both the feature-level fusion and decision-level fusion to fully utilize the information in the image. For the feature-level fusion, we present the Multi-scale Voxel Image fusion (MVI) module, which densely aligns multi-scale voxel features with image features. For the decision-level fusion, we propose the lightweight Feature-cued Confidence Rectification (FCR) module which further exploits image semantics to rectify the confidence of detection candidates. Besides, we design an effective data augmentation strategy termed Occlusion-aware GT Sampling (OGS) to reserve more sampled objects in the training scenes, so as to reduce overfitting. Extensive experiments on the KITTI dataset demonstrate the effectiveness of our method. Notably, on the extremely competitive KITTI car 3D object detection benchmark, our method reaches 82.89% moderate AP and achieves state-of-the-art performance without bells and whistles.
翻訳日:2023-07-19 15:13:34 公開日:2023-07-18
# OPHAvatars:ワンショット写真リアリスティックヘッドアバター

OPHAvatars: One-shot Photo-realistic Head Avatars ( http://arxiv.org/abs/2307.09153v1 )

ライセンス: Link先を確認
Shaoxu Li(参考訳) そこで本研究では,写真に写実的なデジタルアバターを1つのポートレートから合成する方法を提案する。 ポートレートが与えられた場合、駆動キーポイント機能を用いて粗い音声ヘッドビデオを合成する。 そして, この粗い映像を用いて, 粗い発話頭部アバターと, 変形する神経放射野を合成する。 粗いアバターのレンダリング画像を用いて,低品質の画像をブラインド顔復元モデルで更新する。 画像の更新により,高画質でアバターを再訓練する。 複数回繰り返して、この手法はフォトリアリスティックな3dニューラルヘッドアバターを合成することができる。 本手法のモチベーションは,image2video法によって引き起こされる不自然な歪みを除去できる,変形可能な神経放射場である。 本手法は, 各種被験者の定量的, 定性的な研究において, 最先端の手法よりも優れる。

We propose a method for synthesizing photo-realistic digital avatars from only one portrait as the reference. Given a portrait, our method synthesizes a coarse talking head video using driving keypoints features. And with the coarse video, our method synthesizes a coarse talking head avatar with a deforming neural radiance field. With rendered images of the coarse avatar, our method updates the low-quality images with a blind face restoration model. With updated images, we retrain the avatar for higher quality. After several iterations, our method can synthesize a photo-realistic animatable 3D neural head avatar. The motivation of our method is deformable neural radiance field can eliminate the unnatural distortion caused by the image2video method. Our method outperforms state-of-the-art methods in quantitative and qualitative studies on various subjects.
翻訳日:2023-07-19 15:13:12 公開日:2023-07-18
# 機械学習、セキュリティ、持続可能性、実験的ネットワーク統合によるネットワークスライシングアーキテクチャの強化

Enhancing Network Slicing Architectures with Machine Learning, Security, Sustainability and Experimental Networks Integration ( http://arxiv.org/abs/2307.09151v1 )

ライセンス: Link先を確認
Joberto S. B. Martins, Tereza C. Carvalho, Rodrigo Moreira, Cristiano Both, Adnei Donatti, Jo\~ao H. Corr\^ea, Jos\'e A. Suruagy, Sand L. Corr\^ea, Antonio J. G. Abelem, Mois\'es R. N. Ribeiro, Jose-Marcos Nogueira, Luiz C. S. Magalh\~aes, Juliano Wickboldt, Tiago Ferreto, Ricardo Mello, Rafael Pasquini, Marcos Schwarz, Leobino N. Sampaio, Daniel F. Macedo, Jos\'e F. de Rezende, Kleber V. Cardoso, Fl\'avio O. Silva(参考訳) ネットワークスライシング(NS)は,5Gネットワークコンピューティング戦略やモバイルエッジコンピューティング,モバイルクラウドコンピューティング,IoTや産業用IoTなどの垂直領域で広く使用されている,重要なテクニックである。 nsは、動的に異なるアプリケーション要求を持つクライアントの間で、希少で論争の多いリソースの最適化とカスタマイズを可能にするため、6gの未来的で高需要のアプリケーションのための主要な実現要因の1つとして期待されている。 3GPPによる次世代ネットワークの提案や最先端の5G/6G研究プロジェクトなど、さまざまな標準化組織が新しいNSアーキテクチャを提案している。 しかし、新しいnsアーキテクチャは、本質的にnsアーキテクチャの提案が共通点を持つ特定のドメインセットのニーズを満たすような幅広い要件に対応しなければならない。 Slicing Future Internet Infrastructures (SFI2)アーキテクチャ提案は、実験ネットワークの統合と、機械学習(ML)ネイティブ最適化によるNSアーキテクチャの拡張、エネルギー効率の高いスライシング、スライシングに適したセキュリティ機能によるNSアーキテクチャの拡張に重点を置いて、NSアーキテクチャの多様性から生まれたギャップを探求する。 SFI2アーキテクチャの主な貢献は、マルチドメインとマルチテクノロジーの実験ネットワークにわたるリソースのエンドツーエンドのオーケストレーションに、Slice-as-a-serviceパラダイムの利用である。 さらに、SFI2参照アーキテクチャのインスタンス化により、ネイティブML最適化、エネルギー効率の高いスライシング、実用的なドメインのためのスライシング調整されたセキュリティ機能を備えたマルチドメインおよびマルチテクノロジー統合実験ネットワークデプロイメントが強化される。

Network Slicing (NS) is an essential technique extensively used in 5G networks computing strategies, mobile edge computing, mobile cloud computing, and verticals like the Internet of Vehicles and industrial IoT, among others. NS is foreseen as one of the leading enablers for 6G futuristic and highly demanding applications since it allows the optimization and customization of scarce and disputed resources among dynamic, demanding clients with highly distinct application requirements. Various standardization organizations, like 3GPP's proposal for new generation networks and state-of-the-art 5G/6G research projects, are proposing new NS architectures. However, new NS architectures have to deal with an extensive range of requirements that inherently result in having NS architecture proposals typically fulfilling the needs of specific sets of domains with commonalities. The Slicing Future Internet Infrastructures (SFI2) architecture proposal explores the gap resulting from the diversity of NS architectures target domains by proposing a new NS reference architecture with a defined focus on integrating experimental networks and enhancing the NS architecture with Machine Learning (ML) native optimizations, energy-efficient slicing, and slicing-tailored security functionalities. The SFI2 architectural main contribution includes the utilization of the slice-as-a-service paradigm for end-to-end orchestration of resources across multi-domains and multi-technology experimental networks. In addition, the SFI2 reference architecture instantiations will enhance the multi-domain and multi-technology integrated experimental network deployment with native ML optimization, energy-efficient aware slicing, and slicing-tailored security functionalities for the practical domain.
翻訳日:2023-07-19 15:13:01 公開日:2023-07-18
# 変分量子回路を用いた確率分布の生成

Generating probability distributions using variational quantum circuits ( http://arxiv.org/abs/2307.09147v1 )

ライセンス: Link先を確認
Rohit Taeja Kumar and Ankur Raina(参考訳) 確率分布の生成には変分法を用いており、特に一様分布、正規分布、二項分布、ポアソン分布を用いる。 これを実現するために,Jensen-Shannon発散を目的関数として用いた2,3,4キュービットのケースに対して,多数の異なるアーキテクチャを用いる。 従来の勾配勾配よりも運動量による勾配勾配を最適化手法として用いる。 勾配を計算するためにパラメータシフト規則を用いるが、その定式化は従来の期待値ではなく、確率値を出力として扱うように修正する。 この手法は確率分布を近似することができ、他のアーキテクチャよりも優れた特定のアーキテクチャが存在し、このアーキテクチャはキュービットの数に依存する。 4つ、3つ、2つのキュービットのケースは、パラメータ化層と、エンタングル層と、パラメータ化層と、それぞれパラメータ化層と、パラメータ化層のみからなる。

We use a variational method for generating probability distributions, specifically, the Uniform, the Normal, the Binomial distribution, and the Poisson distribution. To do the same, we use many different architectures for the two, three and four-qubit cases using the Jensen-Shannon divergence as our objective function. We use gradient descent with momentum as our optimization scheme instead of conventionally used gradient descent. To calculate the gradient, we use the parameter shift rule, whose formulation we modify to take the probability values as outputs instead of the conventionally taken expectation values. We see that this method can approximate probability distributions, and there exists a specific architecture which outperforms other architectures, and this architecture depends on the number of qubits. The four, three and two-qubit cases consist of a parameterized layer followed by an entangling layer; a parameterized layer followed by an entangling layer, which is followed by a parameterized layer and only parameterized layers, respectively.
翻訳日:2023-07-19 15:12:29 公開日:2023-07-18
# pro-face s: secure flow による顔画像の可逆的難読化

PRO-Face S: Privacy-preserving Reversible Obfuscation of Face Images via Secure Flow ( http://arxiv.org/abs/2307.09146v1 )

ライセンス: Link先を確認
Lin Yuan, Kai Liang, Xiao Pu, Yan Zhang, Jiaxu Leng, Tao Wu, Nannan Wang, Xinbo Gao(参考訳) 本稿では,匿名性,多様性,可逆性,セキュリティなど,複数の特徴を統一した顔のプライバシー保護のための新しいパラダイムを提案する。 保護フローベースモデルを用いて,プライバシ保護による顔画像の可逆難読化(Reversible Obfuscation of Face image)を略してpro-Face Sと命名する。 本フレームワークでは、Invertible Neural Network (INN) を用いて、入力画像と、その事前難読化形式を併用して処理し、予め難読化されたものと視覚的に近似したプライバシー保護された画像を生成することにより、プライバシーを確保する。 服従前は、ユーザが指定した強さやスタイルによって多様化することができる。 保護に沿って、ネットワークに秘密鍵を注入し、提供された正しい鍵が与えられた同じモデルを介して保護画像から原画像のみを回収する。 画像復元の2つのモードは、異なるシナリオで悪意のあるリカバリの試みに対処するために考案された。 最後に、3つの公開画像データセットに対して行われた広範な実験により、提案したフレームワークが複数の最先端アプローチよりも優れていることを示した。

This paper proposes a novel paradigm for facial privacy protection that unifies multiple characteristics including anonymity, diversity, reversibility and security within a single lightweight framework. We name it PRO-Face S, short for Privacy-preserving Reversible Obfuscation of Face images via Secure flow-based model. In the framework, an Invertible Neural Network (INN) is utilized to process the input image along with its pre-obfuscated form, and generate the privacy protected image that visually approximates to the pre-obfuscated one, thus ensuring privacy. The pre-obfuscation applied can be in diversified form with different strengths and styles specified by users. Along protection, a secret key is injected into the network such that the original image can only be recovered from the protection image via the same model given the correct key provided. Two modes of image recovery are devised to deal with malicious recovery attempts in different scenarios. Finally, extensive experiments conducted on three public image datasets demonstrate the superiority of the proposed framework over multiple state-of-the-art approaches.
翻訳日:2023-07-19 15:12:11 公開日:2023-07-18
# 半教師による胸部x線解剖学的異常検出のための共進化像とレポート蒸留

You've Got Two Teachers: Co-evolutionary Image and Report Distillation for Semi-supervised Anatomical Abnormality Detection in Chest X-ray ( http://arxiv.org/abs/2307.09184v1 )

ライセンス: Link先を確認
Jinghan Sun, Dong Wei, Zhe Xu, Donghuan Lu, Hong Liu, Liansheng Wang, Yefeng Zheng(参考訳) 胸部X線 (CXR) 解剖学的異常検出は, 臨床ワークフローの迅速化と観察の監視の軽減を図り, 胸部X線所見の局所化と特徴付けを目的としている。 既存のほとんどのメソッドは、コストのかかる非正規性アノテーションを必要とする完全教師あり設定か、性能の完全な教師付きメソッドに遅れをとっている弱い教師付き設定のいずれかでこのタスクを試みた。 本研究では,CXRにおける半教師付き異常検出にアプローチした共同進化的画像・レポート蒸留(CEIRD)フレームワークを提案する。 具体的には,従来の教師・学生の擬似ラベル蒸留(TSD)パラダイムに基づいて,主視検出タスクにおける報告誘導擬似ラベル精錬(RPDLR)の予測を行う補助的なレポート分類モデルを導入する。 逆に、補助報告分類タスクにおいて、異常誘導擬似分類ラベル改善(APCLR)のための視覚検出モデルの予測も使用し、視覚と報告モデルがSPDLRとAPCLRで相互に促進する共進化戦略を提案する。 この目的のために、半教師付きTLDパイプラインへの報告による弱い監視を効果的に取り入れる。 クロスモーダルな擬似ラベル改善に加えて,教師の視覚モデルによって生成された擬似検出ラベルを,高信頼度予測により動的に修正した画像内自己適応的非最大抑圧を提案する。 公的なMIMIC-CXRベンチマークの実験結果は、CEIRDがいくつかの最新の弱い半教師付き手法に優れていることを示す。

Chest X-ray (CXR) anatomical abnormality detection aims at localizing and characterising cardiopulmonary radiological findings in the radiographs, which can expedite clinical workflow and reduce observational oversights. Most existing methods attempted this task in either fully supervised settings which demanded costly mass per-abnormality annotations, or weakly supervised settings which still lagged badly behind fully supervised methods in performance. In this work, we propose a co-evolutionary image and report distillation (CEIRD) framework, which approaches semi-supervised abnormality detection in CXR by grounding the visual detection results with text-classified abnormalities from paired radiology reports, and vice versa. Concretely, based on the classical teacher-student pseudo label distillation (TSD) paradigm, we additionally introduce an auxiliary report classification model, whose prediction is used for report-guided pseudo detection label refinement (RPDLR) in the primary vision detection task. Inversely, we also use the prediction of the vision detection model for abnormality-guided pseudo classification label refinement (APCLR) in the auxiliary report classification task, and propose a co-evolution strategy where the vision and report models mutually promote each other with RPDLR and APCLR performed alternatively. To this end, we effectively incorporate the weak supervision by reports into the semi-supervised TSD pipeline. Besides the cross-modal pseudo label refinement, we further propose an intra-image-modal self-adaptive non-maximum suppression, where the pseudo detection labels generated by the teacher vision model are dynamically rectified by high-confidence predictions by the student. Experimental results on the public MIMIC-CXR benchmark demonstrate CEIRD's superior performance to several up-to-date weakly and semi-supervised methods.
翻訳日:2023-07-19 15:04:40 公開日:2023-07-18
# 人物識別のための画素単位グラフ注意ネットワーク

Pixel-wise Graph Attention Networks for Person Re-identification ( http://arxiv.org/abs/2307.09183v1 )

ライセンス: Link先を確認
Wenyu Zhang, Qing Ding, Jian Hu, Yi Ma, Mingzhe Lu(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフの構造情報を用いてノードの特徴を更新するため、不規則なデータを扱うために広く使われている。 繰り返しGCNの助けを借りて、高次情報を取得し、ノードの表現をさらに強化することができる。 しかし、GCNを構造化データ(画像など)に適用する方法は、まだ深く研究されていない。 本稿では,画像特徴抽出におけるグラフアテンションネットワーク(gat)の応用について検討する。 まず,行列変換により画像からグラフに変換する新しいグラフ生成アルゴリズムを提案する。 K Nearest Neighbors (KNN) に基づくアルゴリズムよりも1桁高速である。 次に、生成したグラフ上でGATを使用してノード機能を更新する。 これにより、より堅牢な表現が得られる。 これら2つのステップは、ピクセルワイドグラフアテンションモジュール(PGA)と呼ばれるモジュールに結合される。 グラフ生成アルゴリズムで得られたグラフは処理後に画像に変換することができるため、PGAはCNNとうまく結合することができる。 これら2つのモジュールに基づいて, resnet と pixel-wise graph attention network (pganet) の設計を行った。 PGANetは、データセットMarket1501、DukeMTMC-reID、Occluded-DukeMTMC(mAPスコアでそれぞれ0.8\%、1.1\%、11\%)の個人再識別タスクに適用される。 実験の結果,最先端の性能が得られた。 https://github.com/wenyu1009/pganet}{the codeはここで入手できる。

Graph convolutional networks (GCN) is widely used to handle irregular data since it updates node features by using the structure information of graph. With the help of iterated GCN, high-order information can be obtained to further enhance the representation of nodes. However, how to apply GCN to structured data (such as pictures) has not been deeply studied. In this paper, we explore the application of graph attention networks (GAT) in image feature extraction. First of all, we propose a novel graph generation algorithm to convert images into graphs through matrix transformation. It is one magnitude faster than the algorithm based on K Nearest Neighbors (KNN). Then, GAT is used on the generated graph to update the node features. Thus, a more robust representation is obtained. These two steps are combined into a module called pixel-wise graph attention module (PGA). Since the graph obtained by our graph generation algorithm can still be transformed into a picture after processing, PGA can be well combined with CNN. Based on these two modules, we consulted the ResNet and design a pixel-wise graph attention network (PGANet). The PGANet is applied to the task of person re-identification in the datasets Market1501, DukeMTMC-reID and Occluded-DukeMTMC (outperforms state-of-the-art by 0.8\%, 1.1\% and 11\% respectively, in mAP scores). Experiment results show that it achieves the state-of-the-art performance. \href{https://github.com/wenyu1009/PGANet}{The code is available here}.
翻訳日:2023-07-19 15:04:07 公開日:2023-07-18
# 計算制約のある異種デバイスのためのフェデレーション学習:サーベイ

Federated Learning for Computationally-Constrained Heterogeneous Devices: A Survey ( http://arxiv.org/abs/2307.09182v1 )

ライセンス: Link先を確認
Kilian Pfeiffer, Martin Rapp, Ramin Khalili, J\"org Henkel(参考訳) モノのインターネット(IoT)デバイスのようなスマートデバイスがフィールドに展開されるにつれて、ニューラルネットワーク(NN)を中央サーバにオフロードすることは、ますます不可能になっています。 ユーザのプライバシを改善しようとする最近の取り組みは、代替手段としてデバイス上での学習が生まれている。 しかし、単一のデバイスでのみトレーニングされたモデルは、ローカルデータのみを使用して、高い精度に達する可能性は低い。 フェデレーション学習(federated learning, fl)は、デバイス間の知識を共有しながら、デバイスのプライベートデータを開示することで、通信オーバーヘッドとモデルの正確性の間のプライバシー保護トレードオフを提供するソリューションである。 しかしながら、そのような環境に存在する異質性のため、多くの関連するユースケースにおいて、適用可能性とベースラインflを適用する利点は限られている。 本稿では、FLが現実のアプリケーションに広く適用するために克服しなければならない異種性の課題について概説する。 特に,参加デバイス間の計算の不均質性の側面に着目し,不均質性認識flに関する最近の研究の概要を概観する。 NNアーキテクチャの適応作業とシステムレベルでの不均一性にアプローチする作業,フェデレート平均化(FedAvg),蒸留,分割学習に基づくアプローチ,同期および非同期アグリゲーションスキームの2つのグループについて論じる。

With an increasing number of smart devices like internet of things (IoT) devices deployed in the field, offloadingtraining of neural networks (NNs) to a central server becomes more and more infeasible. Recent efforts toimprove users' privacy have led to on-device learning emerging as an alternative. However, a model trainedonly on a single device, using only local data, is unlikely to reach a high accuracy. Federated learning (FL)has been introduced as a solution, offering a privacy-preserving trade-off between communication overheadand model accuracy by sharing knowledge between devices but disclosing the devices' private data. Theapplicability and the benefit of applying baseline FL are, however, limited in many relevant use cases dueto the heterogeneity present in such environments. In this survey, we outline the heterogeneity challengesFL has to overcome to be widely applicable in real-world applications. We especially focus on the aspect ofcomputation heterogeneity among the participating devices and provide a comprehensive overview of recentworks on heterogeneity-aware FL. We discuss two groups: works that adapt the NN architecture and worksthat approach heterogeneity on a system level, covering Federated Averaging (FedAvg), distillation, and splitlearning-based approaches, as well as synchronous and asynchronous aggregation schemes.
翻訳日:2023-07-19 15:03:44 公開日:2023-07-18
# ナノワイヤを用いた量子情報と量子センシングのための集積フォトニクス

Nanowire-based Integrated Photonics for Quantum Information and Quantum Sensing ( http://arxiv.org/abs/2307.09178v1 )

ライセンス: Link先を確認
Jin Chang, Jun Gao, Iman Esmaeil Zadeh, Ali W. Elshaari, and Val Zwiller(参考訳) 量子フォトニック情報処理とセンシングの核となる2つの主要なビル柱は、単一光子エミッタと単一光子検出器である。 本稿では, ナノワイヤエミッタおよび超伝導ナノワイヤ単光子検出器における最先端量子ドットによって実現される作業理論, 材料プラットフォーム, 製造プロセス, ゲーム変化応用を系統的に要約する。 このようなナノワイヤベースの量子ハードウェアは、現代の量子光学実験に有望な特性を提供する。 また,量子光学コミュニティのための量子情報処理およびセンシング実験と今後の学際的応用を提案する。

At the core of quantum photonic information processing and sensing, two major building pillarsare single-photon emitters and single-photon detectors. In this review, we systematically summarize the working theory, material platform, fabrication process, and game-changing applications enabled by state-of-the-art quantum dots in nanowire emitters and superconducting nanowire single-photon detectors. Such nanowire-based quantum hardware offers promising properties for modern quantum optics experiments.We highlight several burgeoning quantum photonics applications using nanowires and discuss development trends of integrated quantum photonics. Also, we propose quantum information processing and sensing experiments for the quantum optics community, and future interdisciplinary applications.
翻訳日:2023-07-19 15:03:20 公開日:2023-07-18
# 強化学習による絡み合った状態の検出

Detection of entangled states supported by reinforcement learning ( http://arxiv.org/abs/2307.09176v1 )

ライセンス: Link先を確認
Jia-Hao Cao, Feng Chen, Qi Liu, Tian-Wei Mao, Wen-Xin Xu, Ling-Na Wu, and Li You(参考訳) 絡み合った状態の識別は量子強化メロロジーの重要な要素である。 これは通常低ノイズ検出技術を必要とする。 このような課題は非線形読み出しプロセスを導入することで回避できる。 伝統的に、これはシステム進化を完全に制御する必要がある絡み合った状態を生成する非常にダイナミックな状態の反転によって実現される。 本研究では,スピン1原子凝縮体中のスピン混合ダイナミクスを操作するために強化学習(RL)を用いることにより,高絡み合い状態の非線形読み出しを提案する。 rlは不安定な不動点へとシステムを動かす結果を見つけ、(感知される)位相摂動はその後のスピン混合ダイナミクスによって増幅される。 10900 {87}^rb原子の凝縮物を扱うことで、古典的精度限界を超える6.97dbのメトロロジーゲインが得られる。 我々の研究は、実験における量子エンタングルメント(量子エンタングルメント)の完全な可能性を解き放つ新しい可能性を開くだろう。

Discrimination of entangled states is an important element of quantum enhanced metrology. This typically requires low-noise detection technology. Such a challenge can be circumvented by introducing nonlinear readout process. Traditionally, this is realized by reversing the very dynamics that generates the entangled state, which requires a full control over the system evolution. In this work, we present nonlinear readout of highly entangled states by employing reinforcement learning (RL) to manipulate the spin-mixing dynamics in a spin-1 atomic condensate. The RL found results in driving the system towards an unstable fixed point, whereby the (to be sensed) phase perturbation is amplified by the subsequent spin-mixing dynamics. Working with a condensate of 10900 {87}^Rb atoms, we achieve a metrological gain of 6.97 dB beyond the classical precision limit. Our work would open up new possibilities in unlocking the full potential of entanglement caused quantum enhancement in experiments.
翻訳日:2023-07-19 15:02:50 公開日:2023-07-18
# ジーン・リュック・ピカード - Touch\'e 2023: Image Retrieval for Arguments における画像生成, スタンス検出, 特徴マッチングの比較

Jean-Luc Picard at Touch\'e 2023: Comparing Image Generation, Stance Detection and Feature Matching for Image Retrieval for Arguments ( http://arxiv.org/abs/2307.09172v1 )

ライセンス: Link先を確認
Max Moebius, Maximilian Enderling, Sarah T. Bachinger(参考訳) 共有タスク「引数の画像検索」に参加し、画像生成、スタンス検出、事前選択、特徴マッチングを含む画像検索に異なるパイプラインを用いた。 パイプラインレイアウトの異なる4つの異なる実行をサブミットして、ベースラインと比較しました。 パイプラインはベースラインと同じように動作します。

Participating in the shared task "Image Retrieval for arguments", we used different pipelines for image retrieval containing Image Generation, Stance Detection, Preselection and Feature Matching. We submitted four different runs with different pipeline layout and compare them to given baseline. Our pipelines perform similarly to the baseline.
翻訳日:2023-07-19 15:02:35 公開日:2023-07-18
# 最大値を近似するにはいくつのニューロンが必要か?

How Many Neurons Does it Take to Approximate the Maximum? ( http://arxiv.org/abs/2307.09212v1 )

ライセンス: Link先を確認
Itay Safran, Daniel Reichman, Paul Valiant(参考訳) 本稿では、ReLUアクティベーションを用いたネットワークに対して、連続分布に対する$L_2$ノルムに対する近似の最も基本的な設定において、$d$入力の最大関数を近似するために必要なニューラルネットワークのサイズについて検討する。 様々な深さでの近似に必要な幅の新たな下界と上界を提供する。 以上の結果から,深度2と3と深度3と5のネットワーク間の新たな深度分離と,最大関数を近似した深さ$\mathcal{O}(\log(\log(d)))$と幅$\mathcal{O}(d)$の構築が実現され,線形有界なネットワークの既知境界の深さ要求が大幅に改善された。 重みの大きさに指数的な上界を仮定して、一様分布上の最大関数を近似した新しい深度2ネットワークの下位境界により、深度分離の結果が促進される。 さらに、この深さ2下界を用いて、深さ3ネットワークで最大値を近似するのに必要なニューロン数に厳密な境界を与えることができる。 我々の下界は、広く研究され使われている 'emph{max} 関数に適用され、特別に構築されたあるいは病理的な関数や分布に基づく多くの以前の結果とは対照的に、潜在的に広い関心を持つ。

We study the size of a neural network needed to approximate the maximum function over $d$ inputs, in the most basic setting of approximating with respect to the $L_2$ norm, for continuous distributions, for a network that uses ReLU activations. We provide new lower and upper bounds on the width required for approximation across various depths. Our results establish new depth separations between depth 2 and 3, and depth 3 and 5 networks, as well as providing a depth $\mathcal{O}(\log(\log(d)))$ and width $\mathcal{O}(d)$ construction which approximates the maximum function, significantly improving upon the depth requirements of the best previously known bounds for networks with linearly-bounded width. Our depth separation results are facilitated by a new lower bound for depth 2 networks approximating the maximum function over the uniform distribution, assuming an exponential upper bound on the size of the weights. Furthermore, we are able to use this depth 2 lower bound to provide tight bounds on the number of neurons needed to approximate the maximum by a depth 3 network. Our lower bounds are of potentially broad interest as they apply to the widely studied and used \emph{max} function, in contrast to many previous results that base their bounds on specially constructed or pathological functions and distributions.
翻訳日:2023-07-19 14:55:38 公開日:2023-07-18
# ネットワークとノードの同時クラスタリングのためのネスト確率ブロックモデル

Nested stochastic block model for simultaneously clustering networks and nodes ( http://arxiv.org/abs/2307.09210v1 )

ライセンス: Link先を確認
Nathaniel Josephs, Arash A. Amini, Marina Paez, and Lizhen Lin(参考訳) 本稿では,nested stochastic block model (nsbm)を導入し,各ネットワーク内のコミュニティを同時に検出しながら,ネットワークの集合をクラスタ化する。 NSBMには、潜在的に異なるノードセットを持つ未ラベルネットワークで作業する機能、異種コミュニティをモデル化する柔軟性、ネットワークのクラス数とネットワーク内のコミュニティ数を自動的に選択する機能など、いくつかの魅力的な機能がある。 これはベイズモデルによって実現され、ネストしたディリクレプロセス(NDP)をネットワーク間クラスタとネットワーク内クラスタを共同でモデル化する先駆者として適用した。 ネットワークデータによって導入された依存関係は、特に効率的なサンプリング器の開発において、NDPにとって非自明な課題を生み出します。 後方推定のために,標準のギブスサンプリング器,崩壊したギブスサンプリング器,ブロックされた2つのギブスサンプリング器を含むマルコフ連鎖モンテカルロアルゴリズムを提案する。 このモデルがクラスタリング構造の両方のレベルを非常に正確に推定できることを実証する大規模なシミュレーション研究が実施された。 また、各ネットワークにおけるノードの匿名性やノード数の変動により、文献における過去の手法では分析できない2つのソーシャルネットワークデータセットにも、我々のモデルを適用した。

We introduce the nested stochastic block model (NSBM) to cluster a collection of networks while simultaneously detecting communities within each network. NSBM has several appealing features including the ability to work on unlabeled networks with potentially different node sets, the flexibility to model heterogeneous communities, and the means to automatically select the number of classes for the networks and the number of communities within each network. This is accomplished via a Bayesian model, with a novel application of the nested Dirichlet process (NDP) as a prior to jointly model the between-network and within-network clusters. The dependency introduced by the network data creates nontrivial challenges for the NDP, especially in the development of efficient samplers. For posterior inference, we propose several Markov chain Monte Carlo algorithms including a standard Gibbs sampler, a collapsed Gibbs sampler, and two blocked Gibbs samplers that ultimately return two levels of clustering labels from both within and across the networks. Extensive simulation studies are carried out which demonstrate that the model provides very accurate estimates of both levels of the clustering structure. We also apply our model to two social network datasets that cannot be analyzed using any previous method in the literature due to the anonymity of the nodes and the varying number of nodes in each network.
翻訳日:2023-07-19 14:55:10 公開日:2023-07-18
# 自動有能性:感情と毒性分析モデルにおける明らかな障害バイアスの検討

Automated Ableism: An Exploration of Explicit Disability Biases in Sentiment and Toxicity Analysis Models ( http://arxiv.org/abs/2307.09209v1 )

ライセンス: Link先を確認
Pranav Narayanan Venkit, Mukund Srinath, Shomir Wilson(参考訳) 感情分析と毒性検出モデルを分析し,障害のある人(pwd)に対する明らかなバイアスの存在を検出する。 我々は,ソーシャルメディアプラットフォーム,特にtwitterとredditにおけるpwdに関連する会話を調べるために,摂動感度分析のバイアス識別フレームワークを用いて,実社会環境での障害バイアスの拡散状況を把握する。 そして、任意の感情分析および毒性検出モデルにおいて明らかな障害バイアスを定量化するために、 \textit{bias identification test in sentiment} (bits)コーパスを作成します。 調査ではBITSを用いて、TextBlob、VADER、Google Cloud Natural Language API、DistilBERTと2つの毒性検出モデル、すなわち2つのバージョンのToxic-BERTの4つのオープンAIaaS(AI as a Service)感情分析ツールの重大なバイアスを明らかにする。 以上の結果から,これらのモデルはすべてpwdに対する統計的に有意な偏りを示した。

We analyze sentiment analysis and toxicity detection models to detect the presence of explicit bias against people with disability (PWD). We employ the bias identification framework of Perturbation Sensitivity Analysis to examine conversations related to PWD on social media platforms, specifically Twitter and Reddit, in order to gain insight into how disability bias is disseminated in real-world social settings. We then create the \textit{Bias Identification Test in Sentiment} (BITS) corpus to quantify explicit disability bias in any sentiment analysis and toxicity detection models. Our study utilizes BITS to uncover significant biases in four open AIaaS (AI as a Service) sentiment analysis tools, namely TextBlob, VADER, Google Cloud Natural Language API, DistilBERT and two toxicity detection models, namely two versions of Toxic-BERT. Our findings indicate that all of these models exhibit statistically significant explicit bias against PWD.
翻訳日:2023-07-19 14:54:49 公開日:2023-07-18
# 格子上のHong-Ou-Mandel干渉-対称性と相互作用

Hong-Ou-Mandel interference on a lattice: symmetries and interactions ( http://arxiv.org/abs/2307.09208v1 )

ライセンス: Link先を確認
Mama Kabir Njoya Mforifoum, Andreas Buchleitner and Gabriel Dufour(参考訳) 本稿では,ビームスプリッタの役割を担っている1次元強結合格子上に発達する2つの同一粒子の香港-奥羽-マンデル干渉について述べる。 2粒子干渉効果の基礎となる対称性の注意深い考察により、マイケルソン干渉計における通常の波動干渉の観点から問題を再構成することができる。 この手法は粒子が相互作用する場合には容易に一般化でき、結果として得られる重み付け確率の解析的予測と2粒子動力学の数値シミュレーションを比較する。

We describe the Hong-Ou-Mandel interference of two identical particles evolving on a one-dimensional tight-binding lattice where a potential barrier plays the role of a beam splitter. Careful consideration of the symmetries underlying the two-particle interference effect allows us to reformulate the problem in terms of ordinary wave interference in a Michelson interferometer. This approach is easily generalized to the case where the particles interact, and we compare the resulting analytical predictions for the bunching probability to numerical simulations of the two-particle dynamics.
翻訳日:2023-07-19 14:54:28 公開日:2023-07-18
# 学習に基づく地形とロボット認識ダイナミクスモデルによるコンテキスト条件ナビゲーション

Context-Conditional Navigation with a Learning-Based Terrain- and Robot-Aware Dynamics Model ( http://arxiv.org/abs/2307.09206v1 )

ライセンス: Link先を確認
Suresh Guttikonda, Jan Achterhold, Haolong Li, Joschka Boedecker, Joerg Stueckler(参考訳) 自律的なナビゲーション設定では、いくつかの量にはバリエーションがある。 摩擦係数などの地形特性は、ロボットの位置によって時間によって変化する。 また、ロボットのダイナミクスは、例えば、異なるペイロード、システムの質量の変更、摩耗と涙、アクチュエータのゲインの変化、関節摩擦などによって変化する可能性がある。 したがって、自律エージェントはそのようなバリエーションに適応できるべきである。 本稿では,その変動に適応できる新しい確率的,地形的,ロボット対応のフォワードダイナミクスモデルであるTRADYNを開発する。 ニューラルプロセスに基づいたメタラーニングフォワードダイナミクスモデルの最近の進歩の上に構築されている。 本手法は,一輪車のようなロボットと,空間的な摩擦係数の異なる異なる地形配置を用いて,シミュレーションによる2次元ナビゲーション環境で評価する。 本実験では,非適応アブレーションモデルと比較して,長水平軌道予測のタスクに対する予測誤差が小さいことを示す。 また,ナビゲーション計画の下流作業において,ロボットと地形特性を考慮に入れた制御効率の高い経路を計画する際の性能向上を示す。

In autonomous navigation settings, several quantities can be subject to variations. Terrain properties such as friction coefficients may vary over time depending on the location of the robot. Also, the dynamics of the robot may change due to, e.g., different payloads, changing the system's mass, or wear and tear, changing actuator gains or joint friction. An autonomous agent should thus be able to adapt to such variations. In this paper, we develop a novel probabilistic, terrain- and robot-aware forward dynamics model, termed TRADYN, which is able to adapt to the above-mentioned variations. It builds on recent advances in meta-learning forward dynamics models based on Neural Processes. We evaluate our method in a simulated 2D navigation setting with a unicycle-like robot and different terrain layouts with spatially varying friction coefficients. In our experiments, the proposed model exhibits lower prediction error for the task of long-horizon trajectory prediction, compared to non-adaptive ablation models. We also evaluate our model on the downstream task of navigation planning, which demonstrates improved performance in planning control-efficient paths by taking robot and terrain properties into account.
翻訳日:2023-07-19 14:53:56 公開日:2023-07-18
# 効率的な多目的強化学習のための動的属性分解世界モデル学習

Learning Dynamic Attribute-factored World Models for Efficient Multi-object Reinforcement Learning ( http://arxiv.org/abs/2307.09205v1 )

ライセンス: Link先を確認
Fan Feng and Sara Magliacane(参考訳) 多くの強化学習タスクでは、エージェントは異なるタイプの多くのオブジェクトと対話し、目に見えない組み合わせやオブジェクト数に一般化する必要がある。 多くの場合、タスクは以前に学習したタスク(ブロックの積み重ねなど)の集合である。 これらは合成一般化の例であり、複雑なタスクを解くために対象中心表現を構成する。 最近の研究は、これらの設定におけるサンプル効率を改善するために、オブジェクト指向表現と階層的抽象化の利点を示している。 一方、これらのメソッドは、オブジェクト属性の観点で因子化の利点を十分に活用していない。 本稿では、この機会に対処し、動的属性FacTored RL(DAFT-RL)フレームワークを導入する。 DAFT-RLでは、オブジェクト中心表現学習を利用して視覚入力からオブジェクトを抽出する。 私たちはそれらをクラスに分類し、潜在パラメータを推測することを学びます。 各クラスのオブジェクトについて、クラステンプレートグラフを学び、このクラスのオブジェクトのダイナミクスと報酬が属性に応じてどのように分解されるかを記述する。 また、異なるクラスのオブジェクトが属性レベルで相互に相互作用する方法を記述する相互作用パターングラフも学習します。 これらのグラフとオブジェクト間の相互作用をモデル化する動的相互作用グラフを通じて、相互作用と潜伏パラメータを推定するだけで、新しい環境で直接適用できるポリシーを学ぶことができる。 我々は,DAFT-RLを3つのベンチマークデータセットで評価し,これまでに学習したタスクの合成だけでなく,属性や潜時パラメータの異なる未確認オブジェクトをまたいだ一般化において,我々のフレームワークが最先端の手法よりも優れていることを示す。

In many reinforcement learning tasks, the agent has to learn to interact with many objects of different types and generalize to unseen combinations and numbers of objects. Often a task is a composition of previously learned tasks (e.g. block stacking). These are examples of compositional generalization, in which we compose object-centric representations to solve complex tasks. Recent works have shown the benefits of object-factored representations and hierarchical abstractions for improving sample efficiency in these settings. On the other hand, these methods do not fully exploit the benefits of factorization in terms of object attributes. In this paper, we address this opportunity and introduce the Dynamic Attribute FacTored RL (DAFT-RL) framework. In DAFT-RL, we leverage object-centric representation learning to extract objects from visual inputs. We learn to classify them in classes and infer their latent parameters. For each class of object, we learn a class template graph that describes how the dynamics and reward of an object of this class factorize according to its attributes. We also learn an interaction pattern graph that describes how objects of different classes interact with each other at the attribute level. Through these graphs and a dynamic interaction graph that models the interactions between objects, we can learn a policy that can then be directly applied in a new environment by just estimating the interactions and latent parameters. We evaluate DAFT-RL in three benchmark datasets and show our framework outperforms the state-of-the-art in generalizing across unseen objects with varying attributes and latent parameters, as well as in the composition of previously learned tasks.
翻訳日:2023-07-19 14:53:38 公開日:2023-07-18
# ESMC:パラメータ制約によるクリック後変換率の空間マルチタスクモデル

ESMC: Entire Space Multi-Task Model for Post-Click Conversion Rate via Parameter Constraint ( http://arxiv.org/abs/2307.09193v1 )

ライセンス: Link先を確認
Zhenhao Jiang, Biao Zeng, Hao Feng, Jin Liu, Jicong Fan, Jie Zhang, Jia Jia, Ning Hu, Xingyu Chen, Xuguang Lan(参考訳) 大規模なオンラインレコメンデータシステムは、CTR(Click-Through Rate)とCVR(Post-Click Conversion Rate)という2つの基本的なタスクを担当するインターネット全体に広がっている。 しかし、従来のCVR推定器は、よく知られたサンプル選択バイアスとデータスパーシリティの問題に悩まされている。 この2つの問題に対処するために、Exposure_click_purchaseの意思決定パスをトレースするスペースモデルが提案された。 さらに、一部の研究者は、クリックと購入の間に購入関連の行動があり、ユーザーの意思決定意図をよりよく引き起こし、レコメンデーションパフォーマンスを向上させることができると観察した。 したがって、意思決定パスは"Exposure_click_in-shop action_purchase"に拡張され、条件付き確率アプローチでモデル化できる。 それでも、条件付き確率の連鎖則が常に成り立つとは限らない。 確率空間混乱 (psc) 問題を報告し, 接地と推定の差を数学的に導出する。 本稿では,パラメータ制約 (ESMC) によるポストクリック変換率の空間マルチタスクモデルと,Syamese Network (ESMS) による空間マルチタスクモデルとグローバルドメインにおける空間マルチタスクモデル (ESMG) の2つの選択肢を提案する。 具体的には,「Exposure_click_in-shop action」と「in-shop action_purchase」を個別に扱う。 第1経路は条件付き確率で処理され、第2経路はパラメータ制約戦略で処理される。 大規模レコメンデーションシステムにおけるオフライン環境とオンライン環境の両方における実験は,提案手法が最先端モデルよりも優れていることを示している。 実際のデータセットがリリースされる。

Large-scale online recommender system spreads all over the Internet being in charge of two basic tasks: Click-Through Rate (CTR) and Post-Click Conversion Rate (CVR) estimations. However, traditional CVR estimators suffer from well-known Sample Selection Bias and Data Sparsity issues. Entire space models were proposed to address the two issues via tracing the decision-making path of "exposure_click_purchase". Further, some researchers observed that there are purchase-related behaviors between click and purchase, which can better draw the user's decision-making intention and improve the recommendation performance. Thus, the decision-making path has been extended to "exposure_click_in-shop action_purchase" and can be modeled with conditional probability approach. Nevertheless, we observe that the chain rule of conditional probability does not always hold. We report Probability Space Confusion (PSC) issue and give a derivation of difference between ground-truth and estimation mathematically. We propose a novel Entire Space Multi-Task Model for Post-Click Conversion Rate via Parameter Constraint (ESMC) and two alternatives: Entire Space Multi-Task Model with Siamese Network (ESMS) and Entire Space Multi-Task Model in Global Domain (ESMG) to address the PSC issue. Specifically, we handle "exposure_click_in-shop action" and "in-shop action_purchase" separately in the light of characteristics of in-shop action. The first path is still treated with conditional probability while the second one is treated with parameter constraint strategy. Experiments on both offline and online environments in a large-scale recommendation system illustrate the superiority of our proposed methods over state-of-the-art models. The real-world datasets will be released.
翻訳日:2023-07-19 14:53:14 公開日:2023-07-18
# 丁井行列再考(II)

Choi matrices revisited, II ( http://arxiv.org/abs/2307.09247v1 )

ライセンス: Link先を確認
Kyung Hoon Han, Seung-Hyeok Kye(参考訳) 本稿では、線型写像のchoi行列のすべての変種を考察し、それらは領域空間上の非退化双線型形式によって決定されることを示す。 これを有限次元ベクトル空間の設定で行う。 行列代数の場合には、シュミット数 $\le k$ と $k$-ポジタリティと $k$-ブロック-ポジタリティの間の通常の対応を保ったchoi行列のすべての変種を特徴づける。 また、ド・ピリスの定義 (Pacific J. Math. 23 (1967), 129--137] とチョイの定義 (Linear Alg. Appl. 10 (1975), 285--290] を比較する。

In this paper, we consider all possible variants of Choi matrices of linear maps, and show that they are determined by non-degenerate bilinear forms on the domain space. We will do this in the setting of finite dimensional vector spaces. In case of matrix algebras, we characterize all variants of Choi matrices which retain the usual correspondences between $k$-superpositivity and Schmidt number $\le k$ as well as $k$-positivity and $k$-block-positivity. We also compare de Pillis' definition [Pacific J. Math. 23 (1967), 129--137] and Choi's definition [Linear Alg. Appl. 10 (1975), 285--290], which arise from different bilinear forms.
翻訳日:2023-07-19 14:44:42 公開日:2023-07-18
# NILMを用いた複数ラベル分類のための持続的深層学習に向けて

Towards Sustainable Deep Learning for Multi-Label Classification on NILM ( http://arxiv.org/abs/2307.09244v1 )

ライセンス: Link先を確認
An\v{z}e Pirnat, Bla\v{z} Bertalani\v{c}, Gregor Cerar, Mihael Mohor\v{c}i\v{c} and Carolina Fortuna(参考訳) 非侵入負荷モニタリング(Non-Inrusive Load Monitoring, NILM)とは、家庭や事業の総消費電力を計測し、単一の計測点からアプライアンスレベルのデータを取得するプロセスである。 アプライアンスレベルのデータは、需要対応アプリケーションやエネルギー管理システム、および、エネルギー効率の改善と炭素フットプリントの削減に対する意識向上とモチベーションに直接使用することができる。 近年、古典的機械学習と深層学習(dl)技術が広く普及し、nilm分類に非常に効果的であることが証明されているが、複雑さが増すにつれて、これらの手法は訓練と運用の両方において重要な計算能力とエネルギー需要に直面している。 本稿では,nilmのマルチラベル分類を改良し,計算効率とエネルギー効率を向上した新しいdlモデルを提案する。 また,実世界のシナリオをよりよく表現するために,測定データセットから合成したデータを用いて異なるモデルを比較するテスト手法を提案する。 最先端のモデルと比較して、提案モデルでは炭素フットプリントを23%以上削減し、REFITとUK-DALEデータセットから得られたデータをテストする場合、平均8ポイントの性能向上を実現している。

Non-intrusive load monitoring (NILM) is the process of obtaining appliance-level data from a single metering point, measuring total electricity consumption of a household or a business. Appliance-level data can be directly used for demand response applications and energy management systems as well as for awareness raising and motivation for improvements in energy efficiency and reduction in the carbon footprint. Recently, classical machine learning and deep learning (DL) techniques became very popular and proved as highly effective for NILM classification, but with the growing complexity these methods are faced with significant computational and energy demands during both their training and operation. In this paper, we introduce a novel DL model aimed at enhanced multi-label classification of NILM with improved computation and energy efficiency. We also propose a testing methodology for comparison of different models using data synthesized from the measurement datasets so as to better represent real-world scenarios. Compared to the state-of-the-art, the proposed model has its carbon footprint reduced by more than 23% while providing on average approximately 8 percentage points in performance improvement when testing on data derived from REFIT and UK-DALE datasets.
翻訳日:2023-07-19 14:44:28 公開日:2023-07-18
# 低空間分解能標高図からの高空間分解能地表面の生成 : 中間標高領域の階層計算による

Generation of High Spatial Resolution Terrestrial Surface from Low Spatial Resolution Elevation Contour Maps via Hierarchical Computation of Median Elevation Regions ( http://arxiv.org/abs/2307.09239v1 )

ライセンス: Link先を確認
Geetika Barman, B.S. Daya Sagar(参考訳) 本研究では,sparse digital elevation model (dem) を高密度ディジタル標高モデルに変換するための,単純かつ効果的な形態素モデルを提案する。 この変換は、低分解能DEMからの高分解能DEMの生成と似ている。 このアプローチでは、目的を達成するために中央の輪郭を生成する。 これは、i)既存のスパース輪郭写像の最大閾値上昇領域(ters)への分解の逐次ステップである。 II) スパース輪郭写像から分解された逐次TER間の非負および非重み付きメディア昇華領域(MER)を階層的に計算する。 3)全てのTERの勾配を計算し,MERが先行ステップから計算すると,より高空間分解能で予測される中間標高輪郭が得られる。 我々はまず,輪郭予測がどのように機能するかを示すために,人工的なデータを用いてこのアプローチを提示し,その有用性を正当化するためにワシントンd.c.の輪郭マップを実験した。 本手法では,既存の輪郭の幾何学的情報を考慮し,標高輪郭を生成する必要がなくなるまで,地形面の新しい空間領域における標高輪郭を補間する。 この新しいアプローチは、標高輪郭を使用するため、非常に低コストで堅牢である。

We proposed a simple yet effective morphological approach to convert a sparse Digital Elevation Model (DEM) to a dense Digital Elevation Model. The conversion is similar to that of the generation of high-resolution DEM from its low-resolution DEM. The approach involves the generation of median contours to achieve the purpose. It is a sequential step of the I) decomposition of the existing sparse Contour map into the maximum possible Threshold Elevation Region (TERs). II) Computing all possible non-negative and non-weighted Median Elevation Region (MER) hierarchically between the successive TER decomposed from a sparse contour map. III) Computing the gradient of all TER, and MER computed from previous steps would yield the predicted intermediate elevation contour at a higher spatial resolution. We presented this approach initially with some self-made synthetic data to show how the contour prediction works and then experimented with the available contour map of Washington, NH to justify its usefulness. This approach considers the geometric information of existing contours and interpolates the elevation contour at a new spatial region of a topographic surface until no elevation contours are necessary to generate. This novel approach is also very low-cost and robust as it uses elevation contours.
翻訳日:2023-07-19 14:44:09 公開日:2023-07-18
# アセンブリにおける人行動認識のための手と体骨格

Fusing Hand and Body Skeletons for Human Action Recognition in Assembly ( http://arxiv.org/abs/2307.09238v1 )

ライセンス: Link先を確認
Dustin Aganian, Mona K\"ohler, Benedict Stephan, Markus Eisenbach, Horst-Michael Gross(参考訳) コラボレーティブロボット(コラボレーティブロボット)が産業生産で人気を博すにつれ、効果的な人間とロボットのコラボレーションが重要になる。 コボットは人間の行動を認識でき、組み立て作業を支援し、自律的に行動できる。 これを実現するために、スケルトンベースのアプローチは、様々な人々や環境にまたがって一般化できるため、しばしば使用される。 ボディスケルトンアプローチは行動認識に広く用いられているが、作業者の指と手が重要な役割を果たすような組み立て動作には不十分である。 この制限に対処するために,より詳細な体骨格と高度に詳細な手骨格を組み合わせる方法を提案する。 我々はCNNとトランスフォーマーについて検討し、後者は両骨格タイプから重要な情報を注目して抽出し、組み合わせることに長けている。 本稿では,組立シナリオにおける行動認識の強化における提案手法の有効性を示す。

As collaborative robots (cobots) continue to gain popularity in industrial manufacturing, effective human-robot collaboration becomes crucial. Cobots should be able to recognize human actions to assist with assembly tasks and act autonomously. To achieve this, skeleton-based approaches are often used due to their ability to generalize across various people and environments. Although body skeleton approaches are widely used for action recognition, they may not be accurate enough for assembly actions where the worker's fingers and hands play a significant role. To address this limitation, we propose a method in which less detailed body skeletons are combined with highly detailed hand skeletons. We investigate CNNs and transformers, the latter of which are particularly adept at extracting and combining important information from both skeleton types using attention. This paper demonstrates the effectiveness of our proposed approach in enhancing action recognition in assembly scenarios.
翻訳日:2023-07-19 14:43:53 公開日:2023-07-18
# Visio-Linguistic Reasoningの改良によるCLIPの増強

Augmenting CLIP with Improved Visio-Linguistic Reasoning ( http://arxiv.org/abs/2307.09233v1 )

ライセンス: Link先を確認
Samyadeep Basu, Maziar Sanjabi, Daniela Massiceti, Shell Xu Hu, Soheil Feizi(参考訳) CLIPのような画像テキストコントラストモデルは、ゼロショット分類、画像テキスト検索、転送学習など、さまざまなダウンストリームアプリケーションに有用である。 しかし、これらの対照的に訓練された視覚言語モデルは、しばしばウィノグラウンドのような構成的なヴィシオ言語的タスクで失敗する。 本稿では,この課題に対処し,CLIPの合成視覚言語推論能力を改善するために,SDS-CLIPと呼ばれる試料効率のよい軽量化手法を提案する。 本手法の核となる考え方は,ヴィシオ言語推論タスクに比較的適した安定拡散などの大規模テキスト対画像生成モデルから,蒸留目的の蒸留クリップを微調整するために微分可能な画像パラメータ化を用いることである。 挑戦的なWinogroundコンポジション推論ベンチマークでは,異なるCLIPモデルの絶対的ビオ言語性能を最大7%向上する一方,AROデータセットでは最大3%向上する。 CLIPに視覚言語推論を誘導する副産物として、ゼロショットのパフォーマンスは、さまざまな下流データセットでわずかに向上する。 提案手法は, 既存のコントラスト画像テキストモデルを拡張し, 視覚言語的推論能力を向上させるために, 生成モデルからの蒸留目標を慎重に設計できることを裏付けるものである。

Image-text contrastive models such as CLIP are useful for a variety of downstream applications including zero-shot classification, image-text retrieval and transfer learning. However, these contrastively trained vision-language models often fail on compositional visio-linguistic tasks such as Winoground with performance equivalent to random chance. In our paper, we address this issue and propose a sample-efficient light-weight method called SDS-CLIP to improve the compositional visio-linguistic reasoning capabilities of CLIP. The core idea of our method is to use differentiable image parameterizations to fine-tune CLIP with a distillation objective from large text-to-image generative models such as Stable-Diffusion which are relatively good at visio-linguistic reasoning tasks. On the challenging Winoground compositional reasoning benchmark, our method improves the absolute visio-linguistic performance of different CLIP models by up to 7%, while on the ARO dataset, our method improves the visio-linguistic performance by upto 3%. As a byproduct of inducing visio-linguistic reasoning into CLIP, we also find that the zero-shot performance improves marginally on a variety of downstream datasets. Our method reinforces that carefully designed distillation objectives from generative models can be leveraged to extend existing contrastive image-text models with improved visio-linguistic reasoning capabilities.
翻訳日:2023-07-19 14:43:37 公開日:2023-07-18
# 弱測定を用いたユニバーサル量子テレポーテーションの実現に向けて

Towards realization of universal quantum teleportation using weak measurements ( http://arxiv.org/abs/2307.09231v1 )

ライセンス: Link先を確認
Vivek Balasaheb Sabale, Atul Kumar, Subhasish Banerjee(参考訳) ノイズは、テレポーテーションや高密度符号化のような量子プロトコルに影響を与えるため、量子技術を実現する上で大きなハードルとなる。 弱い測定のような手法を用いてノイズ効果を低減し、量子相関を保護することができる。 この研究は、量子テレポーテーションの普遍性を目指して、ノイズ量子チャネルを介して量子ビットの量子テレポーテーションの効率を高めるための弱い測定の適用可能性の度合いに対処する。 ノイズの影響により、平均的なテレポーテーションの忠実度は変化しがちであり、弱い測定により、これらの忠実度偏差はゼロに近い値に減少する。 また,提案するテレポーテーションプロトコルにおける記憶の影響と忠実性と忠実性の偏差について検討した。 弱い測定と反転の助けを借りて、記憶効果はテレポーテーションのより良い結果をもたらすことが示されている。 本研究では, 異なるノイズチャネルの影響下において, 量子相関を保護するためのプロトコルの適用性について検討した。

Noise is a major hurdle in realizing quantum technologies as it affects quantum protocols like teleportation, dense coding. It is possible to use techniques like weak measurements to reduce the noise effect and protect quantum correlations. This work addresses the extent of applicability of weak measurements to enhance the efficiency of the quantum teleportation of a qubit through a noisy quantum channel, aiming towards universal quantum teleportation. Due to the effects of noise, the average fidelity of teleportation tends to vary; weak measurements can reduce these fidelity deviations to a value close to zero. We also study the effect of memory and its impact on fidelity and fidelity deviations in the proposed teleportation protocol. The memory effects, with the aid of weak measurement and its reversal, are shown to give better results for teleportation. The extent of applicability of the proposed protocol for protecting quantum correlations, under the influence of different noise channels, are studied in the present work.
翻訳日:2023-07-19 14:43:12 公開日:2023-07-18
# 機械学習による音声信号からの喉癌検出:再現性文献レビュー

Detecting Throat Cancer from Speech Signals Using Machine Learning: A Reproducible Literature Review ( http://arxiv.org/abs/2307.09230v1 )

ライセンス: Link先を確認
Mary Paterson, James Moor, Luisa Cutillo(参考訳) 本研究は,機械学習と人工知能を用いた音声記録からの喉頭癌検出に関する現在の文献のスコーピングレビューを行う。 この領域で22の論文を見つけ、その方法と結果について論じる。 これらの論文を2次分類を行う9つのグループと,マルチクラス分類を行う13の2つのグループに分けた。 この論文は、ニューラルネットワークを最も一般的に実装した様々な手法を提示する。 多くの特徴は分類前の音声から抽出され、最も一般的なものはメル周波数ケプストラム係数である。 この検索で見つかったどの論文も関連コードリポジトリを持っておらず、再現できない。 したがって、私たちは独自の分類器の公開コードリポジトリを作成します。 トランスファー学習を多クラス問題に用い,3つの病理と健全な制御を分類する。 この手法により、平均平均リコール率は53.54%、感度83.14%、特異度64.00%である。 分類器を同じデータセットで得られた結果と比較し、同様の結果を得る。

In this work we perform a scoping review of the current literature on the detection of throat cancer from speech recordings using machine learning and artificial intelligence. We find 22 papers within this area and discuss their methods and results. We split these papers into two groups - nine performing binary classification, and 13 performing multi-class classification. The papers present a range of methods with neural networks being most commonly implemented. Many features are also extracted from the audio before classification, with the most common bring mel-frequency cepstral coefficients. None of the papers found in this search have associated code repositories and as such are not reproducible. Therefore, we create a publicly available code repository of our own classifiers. We use transfer learning on a multi-class problem, classifying three pathologies and healthy controls. Using this technique we achieve an unweighted average recall of 53.54%, sensitivity of 83.14%, and specificity of 64.00%. We compare our classifiers with the results obtained on the same dataset and find similar results.
翻訳日:2023-07-19 14:42:56 公開日:2023-07-18
# 人間の体デジタル双生児:マスタープラン

Human Body Digital Twin: A Master Plan ( http://arxiv.org/abs/2307.09225v1 )

ライセンス: Link先を確認
Chenyu Tang, Shuo Gao, and Luigi G. Occhipinti(参考訳) 人体DTは医療とウェルネスに革命をもたらす可能性があるが、その責任と効果的な実装には様々な要因を考慮する必要がある。 本稿では,人体DTの現状と今後の展望を概観し,開発のための5段階のロードマップを提案する。 ロードマップは、ウェアラブルデバイス、データ収集、データ分析、意思決定システムなど、さまざまなコンポーネントの開発をカバーしている。 記事はまた、人体DTの責任と効果的な実装を保証するために対処する必要がある、必要なサポート、セキュリティ、コスト、倫理的考察を強調している。 提案するロードマップは、将来の開発を導くためのフレームワークを提供し、この急速に発展する分野において、新たな学際的な研究と革新的なソリューションを促進する、人体DTの将来に関するユニークな視点を提供する。

The human body DT has the potential to revolutionize healthcare and wellness, but its responsible and effective implementation requires consideration of various factors. This article presents a comprehensive overview of the current status and future prospects of the human body DT and proposes a five-level roadmap for its development. The roadmap covers the development of various components, such as wearable devices, data collection, data analysis, and decision-making systems. The article also highlights the necessary support, security, cost, and ethical considerations that must be addressed in order to ensure responsible and effective implementation of the human body DT. The proposed roadmap provides a framework for guiding future development and offers a unique perspective on the future of the human body DT, facilitating new interdisciplinary research and innovative solutions in this rapidly evolving field.
翻訳日:2023-07-19 14:42:43 公開日:2023-07-18
# 複合粒子のHong-Ou-Mandel干渉

Hong-Ou-Mandel interference of composite particles ( http://arxiv.org/abs/2307.09222v1 )

ライセンス: Link先を確認
Mama Kabir Njoya Mforifoum, Andreas Buchleitner and Gabriel Dufour(参考訳) 2つの同一複合粒子の香港-奥羽-マンデル干渉を, 1次元格子の電位障壁に散乱することにより, それぞれが2つのボゾン, フェルミオン成分から形成される。 密結合型複合材料では, 成分間の相互相互作用と交換対称性の組み合わせは, 干渉コントラストの低減を誘導する, 複合材料間の効果的な近傍相互作用を引き起こすことを示す。

We study the Hong-Ou-Mandel interference of two identical, composite particles, each formed of two bosonic or fermionic constituents, as they scatter against a potential barrier in a one-dimensional lattice. For tightly bound composites, we show that the combination of their constituents' mutual interactions and exchange symmetry gives rise to an effective nearest-neighbour interaction between composites, which induces a reduction of the interference contrast.
翻訳日:2023-07-19 14:42:29 公開日:2023-07-18
# オープン語彙の検出とセグメンテーションに関する調査:過去,現在,未来

A Survey on Open-Vocabulary Detection and Segmentation: Past, Present, and Future ( http://arxiv.org/abs/2307.09220v1 )

ライセンス: Link先を確認
Chaoyang Zhu, and Long Chen(参考訳) コンピュータビジョンの最も基本的なタスクとして、オブジェクト検出とセグメンテーションはディープラーニング時代において大きな進歩を遂げた。 高価な手動ラベリングのため、既存のデータセットの注釈付きカテゴリは、しばしば小規模で事前定義された、すなわち最先端の検出器とセグメンタは、閉語彙を超えて一般化することができない。 この制限を解決するために、ここ数年はOpen-Vocabulary Detection (OVD) と Segmentation (OVS) に注目が集まっている。 本稿では,OVD と OVS の過去および最近の開発状況について概観する。 この目的のために,タスクや方法論の種類に応じて分類法を開発する。 弱い監視信号の許可と使用は、視覚意味空間マッピング、新しい視覚特徴合成、地域認識トレーニング、擬似ラベル付け、知識蒸留ベース、伝達学習ベースなど、様々な手法を適切に識別することができる。 提案する分類法は, オブジェクト検出, セマンティック/インスタンス/パノプティックセグメンテーション, 3次元シーン, ビデオ理解など, さまざまなタスクに共通する。 各カテゴリにおいて、主な原則、鍵となる課題、開発経路、強み、弱みを徹底的に議論する。 さらに、各メソッドの重要なコンポーネントとともに、各タスクをベンチマークします。 最後に、将来の研究を刺激するためにいくつかの有望な方向が提供される。

As the most fundamental tasks of computer vision, object detection and segmentation have made tremendous progress in the deep learning era. Due to the expensive manual labeling, the annotated categories in existing datasets are often small-scale and pre-defined, i.e., state-of-the-art detectors and segmentors fail to generalize beyond the closed-vocabulary. To resolve this limitation, the last few years have witnessed increasing attention toward Open-Vocabulary Detection (OVD) and Segmentation (OVS). In this survey, we provide a comprehensive review on the past and recent development of OVD and OVS. To this end, we develop a taxonomy according to the type of task and methodology. We find that the permission and usage of weak supervision signals can well discriminate different methodologies, including: visual-semantic space mapping, novel visual feature synthesis, region-aware training, pseudo-labeling, knowledge distillation-based, and transfer learning-based. The proposed taxonomy is universal across different tasks, covering object detection, semantic/instance/panoptic segmentation, 3D scene and video understanding. In each category, its main principles, key challenges, development routes, strengths, and weaknesses are thoroughly discussed. In addition, we benchmark each task along with the vital components of each method. Finally, several promising directions are provided to stimulate future research.
翻訳日:2023-07-19 14:42:21 公開日:2023-07-18
# ハイパーボックスに基づく分類のためのエンドツーエンドニューラルネットワークトレーニング

End-to-End Neural Network Training for Hyperbox-Based Classification ( http://arxiv.org/abs/2307.09269v1 )

ライセンス: Link先を確認
Denis Mayr Lima Martins and Christian L\"ulf and Fabian Gieseke(参考訳) ハイパーボックスに基づく分類は、データの決定を直交する多次元ボックス(すなわちハイパーボックス)の連続として表現し、しばしば解釈可能であり、人間が読める有望な技術と見なされている。 しかし、既存のメソッドは、今や多くのアプリケーションドメインが直面するデータ量の増加を効率的に処理できない。 このギャップに対処するために、ニューラルネットワークを介してハイパーボックスベースの分類のための、新しい、完全に差別化可能なフレームワークを提案する。 従来の研究とは対照的に、我々のハイパーボックスモデルはエンドツーエンドで効率的にトレーニングすることができ、トレーニング時間が大幅に短縮され、より優れた分類結果が得られる。

Hyperbox-based classification has been seen as a promising technique in which decisions on the data are represented as a series of orthogonal, multidimensional boxes (i.e., hyperboxes) that are often interpretable and human-readable. However, existing methods are no longer capable of efficiently handling the increasing volume of data many application domains face nowadays. We address this gap by proposing a novel, fully differentiable framework for hyperbox-based classification via neural networks. In contrast to previous work, our hyperbox models can be efficiently trained in an end-to-end fashion, which leads to significantly reduced training times and superior classification results.
翻訳日:2023-07-19 14:35:59 公開日:2023-07-18
# 弱教師付き3次元視覚接地における粗大な意味的マッチング知識の蒸留

Distilling Coarse-to-Fine Semantic Matching Knowledge for Weakly Supervised 3D Visual Grounding ( http://arxiv.org/abs/2307.09267v1 )

ライセンス: Link先を確認
Zehan Wang, Haifeng Huang, Yang Zhao, Linjun Li, Xize Cheng, Yichen Zhu, Aoxiong Yin, Zhou Zhao(参考訳) 3Dビジュアルグラウンドは、所定の文クエリに対応する3Dシーンでターゲットオブジェクトを見つけることを含む。 多くのアプローチが提案され、優れたパフォーマンスを達成したが、3Dポイントクラウドに密集したオブジェクトと文のペアアノテーションが必要である。 本稿では,細粒度アノテートデータを得るのが困難である問題に対処するため,弱い教師付きアノテーションを用いて3次元視覚接地モデル,すなわち粗いシーン・センテンス対応のみを学習する手法を提案する。 そこで我々は,オブジェクトの提案と文のセマンティックな類似性を粗い方法で解析する,新しいセマンティックマッチングモデルを設計した。 具体的には、まずオブジェクトの提案を抽出し、特徴およびクラス類似度行列に基づいてトップK候補を粗く選択する。 次に、各候補を用いて文のマスキングキーワードを1つずつ再構成し、再構成された精度は各候補のクエリに対する意味的類似性を微妙に反映する。 さらに、粗大な意味マッチング知識を2段階の視覚的接地モデルに抽出し、既存のアーキテクチャのよく研究された構造をフル活用することで、推論コストを低減し、性能を向上させる。 我々は,ScanRefer,Nr3D,Sr3Dについて広範な実験を行い,提案手法の有効性を実証した。

3D visual grounding involves finding a target object in a 3D scene that corresponds to a given sentence query. Although many approaches have been proposed and achieved impressive performance, they all require dense object-sentence pair annotations in 3D point clouds, which are both time-consuming and expensive. To address the problem that fine-grained annotated data is difficult to obtain, we propose to leverage weakly supervised annotations to learn the 3D visual grounding model, i.e., only coarse scene-sentence correspondences are used to learn object-sentence links. To accomplish this, we design a novel semantic matching model that analyzes the semantic similarity between object proposals and sentences in a coarse-to-fine manner. Specifically, we first extract object proposals and coarsely select the top-K candidates based on feature and class similarity matrices. Next, we reconstruct the masked keywords of the sentence using each candidate one by one, and the reconstructed accuracy finely reflects the semantic similarity of each candidate to the query. Additionally, we distill the coarse-to-fine semantic matching knowledge into a typical two-stage 3D visual grounding model, which reduces inference costs and improves performance by taking full advantage of the well-studied structure of the existing architectures. We conduct extensive experiments on ScanRefer, Nr3D, and Sr3D, which demonstrate the effectiveness of our proposed method.
翻訳日:2023-07-19 14:35:47 公開日:2023-07-18
# 物体検出のための知識蒸留:汎用データからリモートセンシングデータへ

Knowledge Distillation for Object Detection: from generic to remote sensing datasets ( http://arxiv.org/abs/2307.09264v1 )

ライセンス: Link先を確認
Ho\`ang-\^An L\^e and Minh-Tan Pham(参考訳) 知識蒸留は、よく知られたモデル圧縮技術であり、コンピュータビジョンとリモートセンシングコミュニティの両方において活発な研究領域である。 本稿では,pascal vocのような汎用コンピュータビジョンデータセット上で開発された様々なオフ・ザ・シェル・オブジェクト検出知識蒸留法について,遠隔センシング環境下で評価する。 特に、xViewやVEDAIデータセットなどのよく知られたベンチマークを用いて、ロジット模倣と特徴模倣の両方の手法を車両検出に適用する。 手法の相対的性能と相互関係を比較するために,広範囲にわたる実験を行った。 実験結果から,リモートセンシングデータセットにおける結果集約とクロス検証の重要性を確認した。

Knowledge distillation, a well-known model compression technique, is an active research area in both computer vision and remote sensing communities. In this paper, we evaluate in a remote sensing context various off-the-shelf object detection knowledge distillation methods which have been originally developed on generic computer vision datasets such as Pascal VOC. In particular, methods covering both logit mimicking and feature imitation approaches are applied for vehicle detection using the well-known benchmarks such as xView and VEDAI datasets. Extensive experiments are performed to compare the relative performance and interrelationships of the methods. Experimental results show high variations and confirm the importance of result aggregation and cross validation on remote sensing datasets.
翻訳日:2023-07-19 14:35:22 公開日:2023-07-18
# 低遅延フェデレート学習のためのモビリティアウェア共同ユーザスケジューリングとリソース割り当て

Mobility-Aware Joint User Scheduling and Resource Allocation for Low Latency Federated Learning ( http://arxiv.org/abs/2307.09263v1 )

ライセンス: Link先を確認
Kecheng Fan, Wen Chen, Jun Li, Xiumei Deng, Xuefeng Han and Ming Ding(参考訳) 効率的な分散機械学習アプローチとして、フェデレーション学習(fl)は、ユーザ側で反復的なローカルモデルトレーニングと中央サーバ側でのグローバルモデル集約によって共有モデルを得ることができるため、ユーザのプライバシを保護することができる。 FLシステムのモバイルユーザは、通常、無線チャネルを介して基地局(BS)と通信する。 しかし、既存の作業は静的なシナリオやユーザロケーションのランダムな初期化のみを調査し、現実世界のネットワークでモビリティを捉えることができない。 そこで本研究では,複数のbssにまたがるflにおけるユーザモビリティの実用的なモデルを提案し,制約のある通信資源を用いて学習遅延を最小限に抑えるユーザスケジューリングとリソース割当手法を開発した。 具体的には、まず、ユーザ選択、ユーザへのBS割り当て、各通信ラウンドのレイテンシを最小限に抑える帯域割り当てを共同で検討するユーザモビリティに関する最適化問題を定式化する。 この最適化問題はnpハードであることが判明し,dagsa(delay-aware greedy search algorithm)を提案する。 シミュレーションの結果,提案アルゴリズムは最先端のベースラインよりも性能が向上し,一定のレベルのユーザ移動性がトレーニング性能を向上させることが示された。

As an efficient distributed machine learning approach, Federated learning (FL) can obtain a shared model by iterative local model training at the user side and global model aggregating at the central server side, thereby protecting privacy of users. Mobile users in FL systems typically communicate with base stations (BSs) via wireless channels, where training performance could be degraded due to unreliable access caused by user mobility. However, existing work only investigates a static scenario or random initialization of user locations, which fail to capture mobility in real-world networks. To tackle this issue, we propose a practical model for user mobility in FL across multiple BSs, and develop a user scheduling and resource allocation method to minimize the training delay with constrained communication resources. Specifically, we first formulate an optimization problem with user mobility that jointly considers user selection, BS assignment to users, and bandwidth allocation to minimize the latency in each communication round. This optimization problem turned out to be NP-hard and we proposed a delay-aware greedy search algorithm (DAGSA) to solve it. Simulation results show that the proposed algorithm achieves better performance than the state-of-the-art baselines and a certain level of user mobility could improve training performance.
翻訳日:2023-07-19 14:35:12 公開日:2023-07-18
# 非従来型データ駆動チール方程式を用いたニューロモルフィックスピントロニクスのシミュレーション

Neuromorphic spintronics simulated using an unconventional data-driven Thiele equation approach ( http://arxiv.org/abs/2307.09262v1 )

ライセンス: Link先を確認
Anatole Moureaux, Simon de Wergifosse, Chlo\'e Chopin and Flavio Abreu Araujo(参考訳) 本研究では, スピントルク渦状ナノオシレータ(STVO)の力学を, テイル方程式法(TEA)とマイクロ磁気シミュレーション(MMS)のデータを組み合わせた非伝統的なモデルを用いて定量的に記述した。 stvoダイナミクスを解析モデルで解くことで、同じ精度に達しながら、9桁のシミュレーションをmmsと比較して加速することができる。 本稿では,STVOに基づくニューラルネットワークをシミュレートして,分類課題の解法を示す。 このようなシステムに影響を及ぼす可能性のある入力信号電流強度とノイズレベルについて,その性能を評価する。 提案手法は,STVOベースのニューロモルフィックコンピューティングデバイスの設計を高速化し,計算コストを大幅に削減するものである。

In this study, we developed a quantitative description of the dynamics of spin-torque vortex nano-oscillators (STVOs) through an unconventional model based on the combination of the Thiele equation approach (TEA) and data from micromagnetic simulations (MMS). Solving the STVO dynamics with our analytical model allows to accelerate the simulations by 9 orders of magnitude compared to MMS while reaching the same level of accuracy. Here, we showcase our model by simulating a STVO-based neural network for solving a classification task. We assess its performance with respect to the input signal current intensity and the level of noise that might affect such a system. Our approach is promising for accelerating the design of STVO-based neuromorphic computing devices while decreasing drastically its computational cost.
翻訳日:2023-07-19 14:34:47 公開日:2023-07-18
# 永続ホモロジーによる適応的トポロジ的特徴:点雲の濾過学習

Adaptive Topological Feature via Persistent Homology: Filtration Learning for Point Clouds ( http://arxiv.org/abs/2307.09259v1 )

ライセンス: Link先を確認
Naoki Nishikawa, Yuichi Ike and Kenji Yamanishi(参考訳) 点雲の機械学習は多くの注目を集めており、形状認識や物質科学など様々な分野に応用されている。 このような機械学習手法の精度を高めるために、持続的ホモロジーによって通常抽出される大域的な位相的特徴を組み込むことが知られている。 点雲に対する永続的ホモロジーの計算では、点雲の濾過(空間列の増大)を選択する必要がある。 永続的ホモロジーと組み合わされた機械学習手法の性能は、フィルタリングの選択によって非常に影響を受けるため、データやタスクに応じてチューニングする必要がある。 本稿では,ニューラルネットワークを用いて適応的に濾過を学習する枠組みを提案する。 結果の持続的ホモロジー同型を不変にするため、そのような不変性を持つニューラルネットワークアーキテクチャを開発する。 さらに、理論的にはアーキテクチャを正当化する有限次元近似結果を示す。 実験の結果,いくつかの分類課題におけるフレームワークの有効性が示された。

Machine learning for point clouds has been attracting much attention, with many applications in various fields, such as shape recognition and material science. To enhance the accuracy of such machine learning methods, it is known to be effective to incorporate global topological features, which are typically extracted by persistent homology. In the calculation of persistent homology for a point cloud, we need to choose a filtration for the point clouds, an increasing sequence of spaces. Because the performance of machine learning methods combined with persistent homology is highly affected by the choice of a filtration, we need to tune it depending on data and tasks. In this paper, we propose a framework that learns a filtration adaptively with the use of neural networks. In order to make the resulting persistent homology isometry-invariant, we develop a neural network architecture with such invariance. Additionally, we theoretically show a finite-dimensional approximation result that justifies our architecture. Experimental results demonstrated the efficacy of our framework in several classification tasks.
翻訳日:2023-07-19 14:34:32 公開日:2023-07-18
# トランスフォーマー言語モデルによるテキストベクトル化とn-gramパープレキシティ

Text vectorization via transformer-based language models and n-gram perplexities ( http://arxiv.org/abs/2307.09255v1 )

ライセンス: Link先を確認
Mihailo \v{S}kori\'c(参考訳) 個々のトークンの確率の積に基づいてテキストの確率(そしてそれ故にパープレキシティ)が計算されるので、単純なタイポグラフィー誤差を表現しながら、他のいくつかの非常に高い入力の確率(つまり、パープレキシティを増加させる)を著しく減少させる可能性がある。 また、パープレキシティが入力全体を参照するスカラー値であることを考えると、計算において、その内部の確率分布に関する情報が失われる(不当なトークンが1つある比較的良いテキストと、各トークンが同じ可能性を持つ別のテキストが同じパープレキシティ値を持つことができる)。 この研究はスカラーパープレキシティの代替として、入力内のn-gramパープレキシティに基づいてベクトル値を計算する単純なアルゴリズムを提案する。 このような表現は前述の側面を考慮し、一意な値の代わりに各テキストトークンの相対的パープレキシティを計算し、これらの値を入力を表す単一のベクトルに結合する。

As the probability (and thus perplexity) of a text is calculated based on the product of the probabilities of individual tokens, it may happen that one unlikely token significantly reduces the probability (i.e., increase the perplexity) of some otherwise highly probable input, while potentially representing a simple typographical error. Also, given that perplexity is a scalar value that refers to the entire input, information about the probability distribution within it is lost in the calculation (a relatively good text that has one unlikely token and another text in which each token is equally likely they can have the same perplexity value), especially for longer texts. As an alternative to scalar perplexity this research proposes a simple algorithm used to calculate vector values based on n-gram perplexities within the input. Such representations consider the previously mentioned aspects, and instead of a unique value, the relative perplexity of each text token is calculated, and these values are combined into a single vector representing the input.
翻訳日:2023-07-19 14:34:16 公開日:2023-07-18
# 生成言語モデルの不確かさを定量化するPACニューラル予測セット学習

PAC Neural Prediction Set Learning to Quantify the Uncertainty of Generative Language Models ( http://arxiv.org/abs/2307.09254v1 )

ライセンス: Link先を確認
Sangdon Park and Taesoo Kim(参考訳) 不確実性学習とモデルの定量化は,モデルの信頼性を高める上で重要な課題である。 近年のジェネレーティブ言語モデル(GLM)の急激な増加は、幻覚的事実の生成に関する懸念から、確実な不確実性定量化の必要性を強調している。 本稿では,GLMの不確かさを定量化するためのほぼ正当性(PAC)を保証するニューラル予測セットモデルを学習することを提案する。 スカラー値によってパラメータ化される既存の予測セットモデルとは異なり、ニューラルネットワークによる予測セットのパラメータ化を提案し、より正確な不確実性定量化を実現するが、それでもPAC保証を満たす。 本研究では,4種類の言語データセットと6種類のモデルに対する本手法の有効性を,標準ベースライン法と比較して平均6,3\%の量化不確かさを平均6,3\%向上させることを示した。

Uncertainty learning and quantification of models are crucial tasks to enhance the trustworthiness of the models. Importantly, the recent surge of generative language models (GLMs) emphasizes the need for reliable uncertainty quantification due to the concerns on generating hallucinated facts. In this paper, we propose to learn neural prediction set models that comes with the probably approximately correct (PAC) guarantee for quantifying the uncertainty of GLMs. Unlike existing prediction set models, which are parameterized by a scalar value, we propose to parameterize prediction sets via neural networks, which achieves more precise uncertainty quantification but still satisfies the PAC guarantee. We demonstrate the efficacy of our method on four types of language datasets and six types of models by showing that our method improves the quantified uncertainty by $63\%$ on average, compared to a standard baseline method.
翻訳日:2023-07-19 14:33:56 公開日:2023-07-18
# UniTabE:不均質な語彙データのための統一語彙エンコーダの事前学習

UniTabE: Pretraining a Unified Tabular Encoder for Heterogeneous Tabular Data ( http://arxiv.org/abs/2307.09249v1 )

ライセンス: Link先を確認
Yazheng Yang, Yuqi Wang, Guang Liu, Ledell Wu, Qi Liu(参考訳) 自然言語処理(NLP)の最近の進歩は、事前訓練されたモデルの破壊的な影響を目撃し、様々なタスクにおいて印象的な結果をもたらした。 本研究は、従来見過ごされてきたが、異なるタスクに固有のテーブルスキーマの多元性のため、本質的には困難である、表データに対する事前学習手法のパワーを拡大することを目的とする。 主な研究課題は、異質な表構造への適応、表データのための普遍的事前学習プロトコルの確立、タスク間の学習知識の一般化と転送可能性、多様な下流アプリケーションへの適応、時間とともにインクリメンタルコラムの組み込みに関するものである。 これらの課題に対応するために,我々は,特定のテーブル構造に課される制約を伴わずに,テーブルを統一的に処理するように設計された先駆的手法であるunitabeを紹介する。 UniTabEのコアコンセプトは、各基本テーブル要素をTabUnitと呼ばれるモジュールで表現することに依存している。 その後、表現を洗練させるTransformerエンコーダが続く。 さらに,自由形式のプロンプトの利用により,事前学習や微調整を容易にするように設計した。 プレトレーニングフェーズを実装するため,Kaggleプラットフォームから慎重に収集した約13億のサンプルからなる拡張表データセットをキュレートした。 本手法の有効性を検証するために,数多くのシナリオで厳密な実験と分析を行った。 実験結果は、UniTabEが複数のベンチマークデータセットのベースラインモデルに対して優れていることを示す。 これにより、UniTabEが表型データのセマンティック表現を大幅に強化する可能性を強調し、表型データ解析の分野において重要な一歩を踏み出した。

Recent advancements in Natural Language Processing (NLP) have witnessed the groundbreaking impact of pretrained models, yielding impressive outcomes across various tasks. This study seeks to extend the power of pretraining methodologies to tabular data, a domain traditionally overlooked, yet inherently challenging due to the plethora of table schemas intrinsic to different tasks. The primary research questions underpinning this work revolve around the adaptation to heterogeneous table structures, the establishment of a universal pretraining protocol for tabular data, the generalizability and transferability of learned knowledge across tasks, the adaptation to diverse downstream applications, and the incorporation of incremental columns over time. In response to these challenges, we introduce UniTabE, a pioneering method designed to process tables in a uniform manner, devoid of constraints imposed by specific table structures. UniTabE's core concept relies on representing each basic table element with a module, termed TabUnit. This is subsequently followed by a Transformer encoder to refine the representation. Moreover, our model is designed to facilitate pretraining and finetuning through the utilization of free-form prompts. In order to implement the pretraining phase, we curated an expansive tabular dataset comprising approximately 13 billion samples, meticulously gathered from the Kaggle platform. Rigorous experimental testing and analyses were performed under a myriad of scenarios to validate the effectiveness of our methodology. The experimental results demonstrate UniTabE's superior performance against several baseline models across a multitude of benchmark datasets. This, therefore, underscores UniTabE's potential to significantly enhance the semantic representation of tabular data, thereby marking a significant stride in the field of tabular data analysis.
翻訳日:2023-07-19 14:33:42 公開日:2023-07-18
# Baidu KDDカップ2022におけるBERTの風力発電予測システムへの応用

Application of BERT in Wind Power Forecasting-Teletraan's Solution in Baidu KDD Cup 2022 ( http://arxiv.org/abs/2307.09248v1 )

ライセンス: Link先を確認
Longxing Tan and Hongying Yue(参考訳) 近年、風力エネルギーは炭素中立性と持続可能な開発において重要な役割を担っている。 風力発電が電力網に統合されると、システムの持続可能性とセキュリティに正確な予測が必要である。 しかし、予測不可能な性質と長いシーケンス予測は特に困難である。 本報告では,baidu kddカップ2022に適用したbertモデルを紹介し,日次変動を後処理により加えることにより,予測結果を日次周期性に合致させる。 私たちのソリューションは2490チームの3位を獲得します。 コードはhttps://github.com/LongxingTan/KDD2022-Baiduで公開されている。

Nowadays, wind energy has drawn increasing attention as its important role in carbon neutrality and sustainable development. When wind power is integrated into the power grid, precise forecasting is necessary for the sustainability and security of the system. However, the unpredictable nature and long sequence prediction make it especially challenging. In this technical report, we introduce the BERT model applied for Baidu KDD Cup 2022, and the daily fluctuation is added by post-processing to make the predicted results in line with daily periodicity. Our solution achieves 3rd place of 2490 teams. The code is released athttps://github.com/LongxingTan/KDD2022-Baidu
翻訳日:2023-07-19 14:33:13 公開日:2023-07-18
# eigentrajectory:マルチモーダル軌道予測のための低ランクディスクリプタ

EigenTrajectory: Low-Rank Descriptors for Multi-Modal Trajectory Forecasting ( http://arxiv.org/abs/2307.09306v1 )

ライセンス: Link先を確認
Inhwan Bae, Jean Oh, Hae-Gon Jeon(参考訳) 高次元の社会的相互作用と実現可能な未来を捉えることは、軌道予測に不可欠である。 この複雑な性質に対処するために、B\'ezier曲線やB-スプライン関数のようなパラメトリック曲線のフィッティングによって出力変数の次元性を減少させる試みがいくつか行われている。 しかし、これらの機能はコンピュータグラフィックスの分野から生まれており、社会的に許容される人間の力学を考慮に入れない。 本稿では,新しい軌道記述子を用いて,歩行者運動を表すユークリッド空間の代わりに,コンパクト空間(ここでは$\mathbb{et}$ spaceと呼ばれる)を形成する軌道予測手法である固有トラジェクタ($\mathbb{et}$)を提案する。 まず, 軌道記述子の複雑性を低ランク近似により低減する。 歩行者の履歴パスを時空間-時間原理要素で表される$\mathbb{et}$空間に変換し、それらを既成の軌道予測モデルに与えます。 モデルと社会的相互作用の入力と出力はすべて、対応する$\mathbb{ET}$空間に集約される。 最後に,提案した$\mathbb{ET}$空間のすべての将来を網羅する軌道アンカーに基づく改良手法を提案する。 大規模実験により,提案手法が歩行者行動の表現に適していることを示すため,既存の軌道予測モデルの予測精度と信頼性を大幅に向上できることが実証された。 コードはhttps://github.com/inhwanbae/eigentrajectoryで公開されている。

Capturing high-dimensional social interactions and feasible futures is essential for predicting trajectories. To address this complex nature, several attempts have been devoted to reducing the dimensionality of the output variables via parametric curve fitting such as the B\'ezier curve and B-spline function. However, these functions, which originate in computer graphics fields, are not suitable to account for socially acceptable human dynamics. In this paper, we present EigenTrajectory ($\mathbb{ET}$), a trajectory prediction approach that uses a novel trajectory descriptor to form a compact space, known here as $\mathbb{ET}$ space, in place of Euclidean space, for representing pedestrian movements. We first reduce the complexity of the trajectory descriptor via a low-rank approximation. We transform the pedestrians' history paths into our $\mathbb{ET}$ space represented by spatio-temporal principle components, and feed them into off-the-shelf trajectory forecasting models. The inputs and outputs of the models as well as social interactions are all gathered and aggregated in the corresponding $\mathbb{ET}$ space. Lastly, we propose a trajectory anchor-based refinement method to cover all possible futures in the proposed $\mathbb{ET}$ space. Extensive experiments demonstrate that our EigenTrajectory predictor can significantly improve both the prediction accuracy and reliability of existing trajectory forecasting models on public benchmarks, indicating that the proposed descriptor is suited to represent pedestrian behaviors. Code is publicly available at https://github.com/inhwanbae/EigenTrajectory .
翻訳日:2023-07-19 14:26:32 公開日:2023-07-18
# 曖昧な基底真理の下での共形予測

Conformal prediction under ambiguous ground truth ( http://arxiv.org/abs/2307.09302v1 )

ライセンス: Link先を確認
David Stutz, Abhijit Guha Roy, Tatiana Matejovicova, Patricia Strachan, Ali Taylan Cemgil, Arnaud Doucet(参考訳) 安全クリティカルな分類タスクにおいて、コンフォメーション予測は、真のクラスを含む信頼セットをユーザ特定確率で提供することにより、厳密な不確実性定量化を行うことができる。 これは一般に、基底の真理ラベルにアクセス可能なキャリブレーションセットが利用可能であると仮定する。 残念なことに、多くのドメインではそのようなラベルは入手が困難であり、専門家の意見をまとめることによって通常近似される。 実際、これはCIFARやImageNetなど、ほとんどすべてのデータセットで当てはまります。 そのようなラベルを用いた共形予測の適用は不確実性を過小評価する。 実際、専門家の意見が解決できない場合、ラベルに固有の曖昧さが存在する。 すなわち、'crisp'、決定的な根本的真理ラベルを持たず、校正中にこの不確実性を考慮するべきである。 本稿では,入力されたラベルの下位分布の近似に依存する,曖昧な基底的真理設定のための共形予測フレームワークを開発した。 皮膚科における皮膚状態分類のケーススタディを含む,合成および実データ集合に関する方法論を実証する。

In safety-critical classification tasks, conformal prediction allows to perform rigorous uncertainty quantification by providing confidence sets including the true class with a user-specified probability. This generally assumes the availability of a held-out calibration set with access to ground truth labels. Unfortunately, in many domains, such labels are difficult to obtain and usually approximated by aggregating expert opinions. In fact, this holds true for almost all datasets, including well-known ones such as CIFAR and ImageNet. Applying conformal prediction using such labels underestimates uncertainty. Indeed, when expert opinions are not resolvable, there is inherent ambiguity present in the labels. That is, we do not have ``crisp'', definitive ground truth labels and this uncertainty should be taken into account during calibration. In this paper, we develop a conformal prediction framework for such ambiguous ground truth settings which relies on an approximation of the underlying posterior distribution of labels given inputs. We demonstrate our methodology on synthetic and real datasets, including a case study of skin condition classification in dermatology.
翻訳日:2023-07-19 14:25:43 公開日:2023-07-18
# 多様な反事実証拠を用いたうわさ検出

Rumor Detection with Diverse Counterfactual Evidence ( http://arxiv.org/abs/2307.09296v1 )

ライセンス: Link先を確認
Kaiwei Zhang, Junchi Yu, Haichao Shi, Jian Liang, Xiao-Yu Zhang(参考訳) ソーシャルメディアの成長は、個人やコミュニティに対する偽ニュースの脅威を悪化させている。 これにより、効率的かつタイムリーな噂検出手法の開発に注目が集まる。 一般的なアプローチは、噂の拡散プロセスの伝播後パターンを活用するために、グラフニューラルネットワーク(GNN)を利用する。 しかし、これらの手法は、GNNのブラックボックスの性質による噂検出の固有の解釈を欠いている。 さらに、これらの手法は、噂検出に全ての伝搬パターンを用いるため、より堅牢な結果に苦しむ。 本稿では,提案する多種多様なうわさ検出のための反事実証拠フレームワーク(dce-rd)の問題点について述べる。 我々の直感は、イベントグラフの多様な反事実的証拠を多視点解釈として活用し、より堅牢な噂検出結果に集約することである。 具体的には,まず,イベントグラフの異なるサブグラフを効率的に生成するためのサブグラフ生成戦略を設計する。 我々はこれらの部分グラフの除去を制約し、噂検出結果の変化を引き起こす。 したがって、これらの部分グラフは当然、噂検出の反実的な証拠となる。 マルチビューの解釈を実現するため,DPP(Determinantal Point Processes)にインスパイアされた多様性損失を設計し,反実的証拠の多様性を促進する。 GNNベースのうわさ検出モデルは、提案したDCE-RDによって発見された様々な偽物証拠を集約し、解釈可能で堅牢なうわさ検出結果を得る。 2つの実世界のデータセットに対する大規模な実験は,本手法の優れた性能を示す。 私たちのコードはhttps://github.com/Vicinity111/DCE-RDで利用可能です。

The growth in social media has exacerbated the threat of fake news to individuals and communities. This draws increasing attention to developing efficient and timely rumor detection methods. The prevailing approaches resort to graph neural networks (GNNs) to exploit the post-propagation patterns of the rumor-spreading process. However, these methods lack inherent interpretation of rumor detection due to the black-box nature of GNNs. Moreover, these methods suffer from less robust results as they employ all the propagation patterns for rumor detection. In this paper, we address the above issues with the proposed Diverse Counterfactual Evidence framework for Rumor Detection (DCE-RD). Our intuition is to exploit the diverse counterfactual evidence of an event graph to serve as multi-view interpretations, which are further aggregated for robust rumor detection results. Specifically, our method first designs a subgraph generation strategy to efficiently generate different subgraphs of the event graph. We constrain the removal of these subgraphs to cause the change in rumor detection results. Thus, these subgraphs naturally serve as counterfactual evidence for rumor detection. To achieve multi-view interpretation, we design a diversity loss inspired by Determinantal Point Processes (DPP) to encourage diversity among the counterfactual evidence. A GNN-based rumor detection model further aggregates the diverse counterfactual evidence discovered by the proposed DCE-RD to achieve interpretable and robust rumor detection results. Extensive experiments on two real-world datasets show the superior performance of our method. Our code is available at https://github.com/Vicinity111/DCE-RD.
翻訳日:2023-07-19 14:25:14 公開日:2023-07-18
# スターネットワーク非局所相関は整合性雑音に抵抗する

Star network non-n-local correlations can resist consistency noises better ( http://arxiv.org/abs/2307.09293v1 )

ライセンス: Link先を確認
Kan He and Yueran Han(参考訳) デバイスからの不完全性は、多角形および線形量子ネットワークにおいて n のパーティ数が増加するにつれて、非n-局所相関の崩壊または消失をもたらす([phys. rev. a 106, 042206 (2022)] and [phys. rev. a 107, 032404 (2023)])。 それでもこの現象は、デバイスシーケンスの整合性ノイズを含む特別な種類のノイズに対するものであり、デバイスシーケンスが同じ確率で検出できないことを意味する。 しかし,本論文では,星ネットワークの量子非局所相関が,ポリゴンネットワークや線形ネットワークよりも優れた整合性雑音に抵抗できることが判明した。 まず、雑音予測値 o f star ネットワークの非局所性を計算し、理論的に定常条件を解析する。 コンジェネレータデバイスが整合性ノイズを持つと仮定すると、ソースnの持続性数はそのようなノイズを除去し、無限大に近似する。 ポリゴンおよび線形ネットワーク非局所相関は要求を満たすことができない。 さらに、非nmax-局所相関を恒星ネットワークにおいて、一貫性のあるノイズよりも一般的な部分整合雑音の影響下で実演できるように、ソースnmaxの最大数の変化パターンを考察する。

Imperfections from devices can result in the decay or even vanish of non-n-local correlations as the number of parties n increases in the polygon and linear quantum networks ([Phys. Rev. A 106, 042206 (2022)] and [Phys. Rev. A 107, 032404 (2023)]). Even so this phenomenon is also for the special kind of noises, including consistency noises of a sequence of devices, which means the sequence of devices have the same probability fails to detect. However, in the paper, we discover that star network quantum non-n-local correlations can resist better consistency noises than these in polygon and linear networks. We first calculate the noisy expected value o f star network non-n-locality and analyze the persistency conditions theoretically. When assume that congener devices have the consistency noise, the persistency number of sources n has been rid of such noises, and approximates to the infinity. Polygon and linear network non-n-local correlations can not meet the requirements. Furthermore, we explore the change pattern of the maximal number of sources nmax such that non-nmax-local correlation can be demonstrated in the star network under the influence of partially consistent noises, which is more general than consistent ones.
翻訳日:2023-07-19 14:24:50 公開日:2023-07-18
# Llama 2: オープンファウンデーションとファインチューニングされたチャットモデル

Llama 2: Open Foundation and Fine-Tuned Chat Models ( http://arxiv.org/abs/2307.09288v1 )

ライセンス: Link先を確認
Hugo Touvron and Louis Martin and Kevin Stone and Peter Albert and Amjad Almahairi and Yasmine Babaei and Nikolay Bashlykov and Soumya Batra and Prajjwal Bhargava and Shruti Bhosale and Dan Bikel and Lukas Blecher and Cristian Canton Ferrer and Moya Chen and Guillem Cucurull and David Esiobu and Jude Fernandes and Jeremy Fu and Wenyin Fu and Brian Fuller and Cynthia Gao and Vedanuj Goswami and Naman Goyal and Anthony Hartshorn and Saghar Hosseini and Rui Hou and Hakan Inan and Marcin Kardas and Viktor Kerkez and Madian Khabsa and Isabel Kloumann and Artem Korenev and Punit Singh Koura and Marie-Anne Lachaux and Thibaut Lavril and Jenya Lee and Diana Liskovich and Yinghai Lu and Yuning Mao and Xavier Martinet and Todor Mihaylov and Pushkar Mishra and Igor Molybog and Yixin Nie and Andrew Poulton and Jeremy Reizenstein and Rashi Rungta and Kalyan Saladi and Alan Schelten and Ruan Silva and Eric Michael Smith and Ranjan Subramanian and Xiaoqing Ellen Tan and Binh Tang and Ross Taylor and Adina Williams and Jian Xiang Kuan and Puxin Xu and Zheng Yan and Iliyan Zarov and Yuchen Zhang and Angela Fan and Melanie Kambadur and Sharan Narang and Aurelien Rodriguez and Robert Stojnic and Sergey Edunov and Thomas Scialom(参考訳) 本研究では,70億から70億のパラメータを対象とした事前学習および微調整された大規模言語モデル(llm)のコレクションであるllama 2を開発し,リリースする。 Llama 2-Chatと呼ばれる細調整 LLM は対話のユースケースに最適化されている。 私たちのモデルは、テストしたほとんどのベンチマークにおいて、オープンソースのチャットモデルよりも優れています。 我々は,llama 2-chatの微調整と安全性の向上に関する我々のアプローチを詳細に説明し,コミュニティによる作業の構築とllmの責任ある開発への貢献を可能にする。

In this work, we develop and release Llama 2, a collection of pretrained and fine-tuned large language models (LLMs) ranging in scale from 7 billion to 70 billion parameters. Our fine-tuned LLMs, called Llama 2-Chat, are optimized for dialogue use cases. Our models outperform open-source chat models on most benchmarks we tested, and based on our human evaluations for helpfulness and safety, may be a suitable substitute for closed-source models. We provide a detailed description of our approach to fine-tuning and safety improvements of Llama 2-Chat in order to enable the community to build on our work and contribute to the responsible development of LLMs.
翻訳日:2023-07-19 14:24:25 公開日:2023-07-18
# FlexiAST: 柔軟性はASTに必要なもの

FlexiAST: Flexibility is What AST Needs ( http://arxiv.org/abs/2307.09286v1 )

ライセンス: Link先を確認
Jiu Feng, Mehmet Hamza Erol, Joon Son Chung, Arda Senocak(参考訳) この研究の目的は、Audio Spectrogram Transformer (AST)にパッチサイズの柔軟性を提供することである。 近年のASTの進歩は、様々な音声ベースのタスクにおいて優れたパフォーマンスを示している。 しかし、標準ASTの性能は、トレーニング中に使用するパッチサイズと異なるものを用いて評価すると大幅に低下する。 その結果、ASTモデルは通常、パッチサイズの変更に対応するために再トレーニングされる。 この制限を克服するために,アーキテクチャの変更なしに標準的なASTモデルに柔軟性を提供するためのトレーニング手順を提案する。 このトレーニングアプローチでは、パッチサイズ選択とパッチと位置埋め込み重みのリサイズを単純に利用する。 実験の結果,FlexiAST は標準 AST モデルと同等の性能を示し,音声分類タスクのための様々なデータセットに対するパッチサイズの評価能力を維持した。

The objective of this work is to give patch-size flexibility to Audio Spectrogram Transformers (AST). Recent advancements in ASTs have shown superior performance in various audio-based tasks. However, the performance of standard ASTs degrades drastically when evaluated using different patch sizes from that used during training. As a result, AST models are typically re-trained to accommodate changes in patch sizes. To overcome this limitation, this paper proposes a training procedure to provide flexibility to standard AST models without architectural changes, allowing them to work with various patch sizes at the inference stage - FlexiAST. This proposed training approach simply utilizes random patch size selection and resizing of patch and positional embedding weights. Our experiments show that FlexiAST gives similar performance to standard AST models while maintaining its evaluation ability at various patch sizes on different datasets for audio classification tasks.
翻訳日:2023-07-19 14:24:13 公開日:2023-07-18
# RepViT: ViTの視点からモバイルCNNを再考

RepViT: Revisiting Mobile CNN From ViT Perspective ( http://arxiv.org/abs/2307.09283v1 )

ライセンス: Link先を確認
Ao Wang, Hui Chen, Zijia Lin, Hengjun Pu, Guiguang Ding(参考訳) 近年、軽量視覚トランスフォーマ(vits)は、リソース制約のあるモバイルデバイスでの軽量畳み込みニューラルネットワーク(cnns)と比較して優れた性能と低レイテンシを示している。 この改善は通常、モデルがグローバル表現を学習できるようにするマルチヘッド自己保持モジュールによるものである。 しかし,軽量VTと軽量CNNのアーキテクチャ格差は十分に検討されていない。 本研究では,軽量CNNの効率的な設計を再考し,モバイルデバイスにおけるその可能性を強調する。 我々は、軽量VTの効率的なアーキテクチャ選択を統合することで、標準軽量CNN、特にMobileNetV3のモバイルフレンドリ性を徐々に強化する。 最終的に、純粋な軽量CNN、すなわちRepViTの新しいファミリーが誕生する。 大規模な実験によると、RepViTは既存の最先端の軽量ViTよりも優れており、様々なビジョンタスクにおいて好ましいレイテンシを示している。 ImageNetでは、RepViTは80\%以上のトップ1の精度を達成し、iPhone 12では1ms近いレイテンシを実現しています。 我々の最大のモデルであるRepViT-M3は、1.3msのレイテンシで81.4\%の精度を得る。 コードとトレーニングされたモデルは \url{https://github.com/jameslahm/repvit} で入手できる。

Recently, lightweight Vision Transformers (ViTs) demonstrate superior performance and lower latency compared with lightweight Convolutional Neural Networks (CNNs) on resource-constrained mobile devices. This improvement is usually attributed to the multi-head self-attention module, which enables the model to learn global representations. However, the architectural disparities between lightweight ViTs and lightweight CNNs have not been adequately examined. In this study, we revisit the efficient design of lightweight CNNs and emphasize their potential for mobile devices. We incrementally enhance the mobile-friendliness of a standard lightweight CNN, specifically MobileNetV3, by integrating the efficient architectural choices of lightweight ViTs. This ends up with a new family of pure lightweight CNNs, namely RepViT. Extensive experiments show that RepViT outperforms existing state-of-the-art lightweight ViTs and exhibits favorable latency in various vision tasks. On ImageNet, RepViT achieves over 80\% top-1 accuracy with nearly 1ms latency on an iPhone 12, which is the first time for a lightweight model, to the best of our knowledge. Our largest model, RepViT-M3, obtains 81.4\% accuracy with only 1.3ms latency. The code and trained models are available at \url{https://github.com/jameslahm/RepViT}.
翻訳日:2023-07-19 14:23:59 公開日:2023-07-18
# 回帰フリーブラインド画像品質評価

Regression-free Blind Image Quality Assessment ( http://arxiv.org/abs/2307.09279v1 )

ライセンス: Link先を確認
Xiaoqi Wang, Jian Xiong, Hao Gao, and Weisi Lin(参考訳) 回帰に基づくブラインド画像品質評価(IQA)モデルは、バイアス付きトレーニングサンプルの影響を受けやすく、モデルパラメータのバイアス付き推定につながる。 この問題を軽減するために,画像品質評価のための回帰フリーフレームワークを提案する。 このアプローチの背後にある動機は、人間の視覚システム(HVS)が、同じ歪みによって劣化した意味的に類似した画像の内容と類似した視覚応答を持つという観察に根ざしている。 提案フレームワークは,意味ベース分類(SC)モジュールと歪みベース分類(DC)モジュールの2つの分類ベースモジュールからなる。 テスト画像とIQAデータベースが与えられた後、SCモジュールは意味的類似性に基づいて複数のプリスタン画像を検索する。 そして、DCモジュールは、各検索したプリスタン画像に対応する歪画像から歪み類似性に基づいてインスタンスを検索する。 最後に、複数の検索されたインスタンスの主観的品質スコアを集約することにより、予測品質スコアを導出する。 4つのベンチマークデータベースの実験結果から,提案モデルが最先端の回帰モデルより著しく優れていることが示された。

Regression-based blind image quality assessment (IQA) models are susceptible to biased training samples, leading to a biased estimation of model parameters. To mitigate this issue, we propose a regression-free framework for image quality evaluation, which is founded upon retrieving similar instances by incorporating semantic and distortion features. The motivation behind this approach is rooted in the observation that the human visual system (HVS) has analogous visual responses to semantically similar image contents degraded by the same distortion. The proposed framework comprises two classification-based modules: semantic-based classification (SC) module and distortion-based classification (DC) module. Given a test image and an IQA database, the SC module retrieves multiple pristine images based on semantic similarity. The DC module then retrieves instances based on distortion similarity from the distorted images that correspond to each retrieved pristine image. Finally, the predicted quality score is derived by aggregating the subjective quality scores of multiple retrieved instances. Experimental results on four benchmark databases validate that the proposed model can remarkably outperform the state-of-the-art regression-based models.
翻訳日:2023-07-19 14:23:39 公開日:2023-07-18
# 3次元シームズネットワークによるテキストセマンティック類似性モデリングの改善

Improving Text Semantic Similarity Modeling through a 3D Siamese Network ( http://arxiv.org/abs/2307.09274v1 )

ライセンス: Link先を確認
Jianxiang Zang, Hui Liu(参考訳) シームズネットワークはテキスト意味的類似性をモデル化する手法として人気を集めている。 従来の方法では、トランスフォーマーブロックからのセマンティクス表現をエンコーディングで圧縮するためにプール操作に依存しているため、2次元セマンティクスベクトルとトランスフォーマーブロックからの階層的セマンティクス情報の損失が発生する。 さらに、この制限されたセマンティックベクトル構造は、平らな地形に似ており、この平坦な地形をナビゲートできるため、下流のモデリングに適用できる手法を制限している。 そこで本研究では,意味情報を高次元空間にマッピングする,テキスト意味類似性モデリングのための新たな3次元シアムネットワークを提案する。 3次元意味テンソルは、より正確な空間的および特徴領域の情報を保持するだけでなく、それらを捉えるための包括的な下流モデリング戦略に必要な構造的条件を提供する。 この構造的優位性を生かして,この3Dフレームワークを強化するモジュールをいくつか導入し,特徴抽出,注目,特徴融合という3つの側面に注目した。 4つのテキストセマンティクス類似度ベンチマークに関する広範な実験により,3d siameseネットワークの有効性と有効性が実証された。

Siamese networks have gained popularity as a method for modeling text semantic similarity. Traditional methods rely on pooling operation to compress the semantic representations from Transformer blocks in encoding, resulting in two-dimensional semantic vectors and the loss of hierarchical semantic information from Transformer blocks. Moreover, this limited structure of semantic vectors is akin to a flattened landscape, which restricts the methods that can be applied in downstream modeling, as they can only navigate this flat terrain. To address this issue, we propose a novel 3D Siamese network for text semantic similarity modeling, which maps semantic information to a higher-dimensional space. The three-dimensional semantic tensors not only retains more precise spatial and feature domain information but also provides the necessary structural condition for comprehensive downstream modeling strategies to capture them. Leveraging this structural advantage, we introduce several modules to reinforce this 3D framework, focusing on three aspects: feature extraction, attention, and feature fusion. Our extensive experiments on four text semantic similarity benchmarks demonstrate the effectiveness and efficiency of our 3D Siamese Network.
翻訳日:2023-07-19 14:23:21 公開日:2023-07-18
# 線形化相対位置符号化

Linearized Relative Positional Encoding ( http://arxiv.org/abs/2307.09270v1 )

ライセンス: Link先を確認
Zhen Qin, Weixuan Sun, Kaiyue Lu, Hui Deng, Dongxu Li, Xiaodong Han, Yuchao Dai, Lingpeng Kong, Yiran Zhong(参考訳) 相対的な位置符号化はバニラや線形トランスフォーマにおいて位置情報を表すために広く使われている。 しかしながら、バニラ変換器の既存の符号化方法は、クエリとキー表現を別個のカーネル関数に分解する必要があるため、必ずしも線形変換器に直接適用されない。 それでも、線形変圧器に適した符号化方法を設計するための原則は未検討のままである。 本研究では,既存の線形相対位置符号化手法を正準形式にまとめ,ユニタリ変換による線形相対位置符号化アルゴリズムのファミリーを提案する。 本稿の定式化は,線形時空複雑性を保存できる新しい相対的位置符号化法の開発に使用可能な原理的枠組みを導出する。 提案したリニアライズド相対位置符号化(LRPE)ファミリーは,様々な用途に有効な符号化を導出する。 実験により、LRPEは既存の手法と比較して、言語モデリング、テキスト分類、画像分類において最先端のパフォーマンスを達成することが示された。 一方、線形トランスフォーマーに適用可能な、より相対的な位置符号化法を広く設計するための一般的なパラダイムを強調している。 コードはhttps://github.com/opennlplab/lrpeで入手できる。

Relative positional encoding is widely used in vanilla and linear transformers to represent positional information. However, existing encoding methods of a vanilla transformer are not always directly applicable to a linear transformer, because the latter requires a decomposition of the query and key representations into separate kernel functions. Nevertheless, principles for designing encoding methods suitable for linear transformers remain understudied. In this work, we put together a variety of existing linear relative positional encoding approaches under a canonical form and further propose a family of linear relative positional encoding algorithms via unitary transformation. Our formulation leads to a principled framework that can be used to develop new relative positional encoding methods that preserve linear space-time complexity. Equipped with different models, the proposed linearized relative positional encoding (LRPE) family derives effective encoding for various applications. Experiments show that compared with existing methods, LRPE achieves state-of-the-art performance in language modeling, text classification, and image classification. Meanwhile, it emphasizes a general paradigm for designing broadly more relative positional encoding methods that are applicable to linear transformers. The code is available at https://github.com/OpenNLPLab/Lrpe.
翻訳日:2023-07-19 14:23:02 公開日:2023-07-18
# Company2Vec - 企業ウェブサイトに基づくドイツの企業埋め込み

Company2Vec -- German Company Embeddings based on Corporate Websites ( http://arxiv.org/abs/2307.09332v1 )

ライセンス: Link先を確認
Christopher Gerling(参考訳) 企業2Vecでは,表現学習の新しい応用法を提案する。 このモデルは、Word2Vecと次元還元を用いて、非構造化企業のウェブサイトデータからビジネス活動を分析する。 company2vecはセマンティクス言語構造を維持し、ファイングラニュラー産業における効率的な企業埋め込みを生み出している。 これらのセマンティックな埋め込みは、銀行の様々なアプリケーションに利用できる。 企業と単語の直接的な関係は、セマンティックビジネス分析を可能にする(例えば、企業のトップnワード)。 さらに、業界予測を教師付き学習アプリケーションおよび評価方法として提示する。 埋め込みのベクトル化構造により、企業はコサイン距離と類似度を測定することができる。 そのため、Count2Vecは標準産業レーベル(NACE)よりもきめ細かい比較を行っている。 この性質はクラスタリングのような教師なしの学習タスクに関係している。 別の業界セグメンテーションとして、企業埋め込みにk-meansクラスタリングがある。 最後に,(1)企業中心,(2)産業中心,(3)ポートフォリオ中心のピアファクト識別のための3つのアルゴリズムを提案する。

With Company2Vec, the paper proposes a novel application in representation learning. The model analyzes business activities from unstructured company website data using Word2Vec and dimensionality reduction. Company2Vec maintains semantic language structures and thus creates efficient company embeddings in fine-granular industries. These semantic embeddings can be used for various applications in banking. Direct relations between companies and words allow semantic business analytics (e.g. top-n words for a company). Furthermore, industry prediction is presented as a supervised learning application and evaluation method. The vectorized structure of the embeddings allows measuring companies similarities with the cosine distance. Company2Vec hence offers a more fine-grained comparison of companies than the standard industry labels (NACE). This property is relevant for unsupervised learning tasks, such as clustering. An alternative industry segmentation is shown with k-means clustering on the company embeddings. Finally, this paper proposes three algorithms for (1) firm-centric, (2) industry-centric and (3) portfolio-centric peer-firm identification.
翻訳日:2023-07-19 14:16:46 公開日:2023-07-18
# 視覚的検証と視覚的推定 : 散乱体の平均値の検討

Visual Validation versus Visual Estimation: A Study on the Average Value in Scatterplots ( http://arxiv.org/abs/2307.09330v1 )

ライセンス: Link先を確認
Daniel Braun, Ashley Suh, Remco Chang, Michael Gleicher, Tatiana von Landesberger(参考訳) 個人がデータに適合する統計モデルを視覚的に検証する能力について検討する。 視覚モデル推定は広く研究されているが、視覚モデル検証は未検討のままである。 人々がどのようにモデルを視覚的に検証できるか、その性能が視覚的および計算的推定と比較できるかは不明である。 出発点として,我々は2つの集団(クロードソースとボランティア)を対象に調査を行った。 参加者は、視覚的に見積もる(すなわちドロー)ことと、頻繁に研究される平均のモデルを視覚的に検証する(受け入れるか拒否するか)必要があった。 いずれの集団においても,有効と考えられるモデルの精度は,推定モデルの精度よりも低かった。 参加者の検証と評価は偏りがないことがわかった。 さらに、与えられた平均値の受け入れと拒否の間の自然な臨界点は、95%の信頼区間の境界に近く、視覚的に知覚される信頼区間が共通の統計基準に対応することを示す。 我々の研究は視覚モデル検証の理解に寄与し、新たな研究機会を開く。

We investigate the ability of individuals to visually validate statistical models in terms of their fit to the data. While visual model estimation has been studied extensively, visual model validation remains under-investigated. It is unknown how well people are able to visually validate models, and how their performance compares to visual and computational estimation. As a starting point, we conducted a study across two populations (crowdsourced and volunteers). Participants had to both visually estimate (i.e, draw) and visually validate (i.e., accept or reject) the frequently studied model of averages. Across both populations, the level of accuracy of the models that were considered valid was lower than the accuracy of the estimated models. We find that participants' validation and estimation were unbiased. Moreover, their natural critical point between accepting and rejecting a given mean value is close to the boundary of its 95% confidence interval, indicating that the visually perceived confidence interval corresponds to a common statistical standard. Our work contributes to the understanding of visual model validation and opens new research opportunities.
翻訳日:2023-07-19 14:16:31 公開日:2023-07-18
# 自律運転のための事前学習した視覚質問応答モデルの性能分析に向けて

Towards a performance analysis on pre-trained Visual Question Answering models for autonomous driving ( http://arxiv.org/abs/2307.09329v1 )

ライセンス: Link先を確認
Kaavya Rekanar, Ciar\'an Eising, Ganesh Sistu, Martin Hayes(参考訳) 本稿では, 運転シナリオに関する質問に答える文脈において, VQA(ViLBERT, ViLT, LXMERT)モデルについて予備分析を行った。 これらのモデルの性能は,コンピュータビジョンの専門家による参照回答と応答の類似性を比較して評価する。 モデル選択はマルチモーダルアーキテクチャにおける変圧器の利用分析に先行する。 その結果, クロスモーダル・アテンションとレイト・フュージョン技術が組み合わさったモデルが, 運転視点で改善される可能性を示すことがわかった。 この最初の分析は、9つのvqaモデルを含む包括的比較研究の発射台となり、自動運転シナリオにおけるvqaモデルクエリの有効性に関するさらなる調査の場となる。 補助材料はhttps://github.com/KaavyaRekanar/Towards-a- Performance-analysis-on-trained-VQA-models-for-autonomous-drivingで入手できる。

This short paper presents a preliminary analysis of three popular Visual Question Answering (VQA) models, namely ViLBERT, ViLT, and LXMERT, in the context of answering questions relating to driving scenarios. The performance of these models is evaluated by comparing the similarity of responses to reference answers provided by computer vision experts. Model selection is predicated on the analysis of transformer utilization in multimodal architectures. The results indicate that models incorporating cross-modal attention and late fusion techniques exhibit promising potential for generating improved answers within a driving perspective. This initial analysis serves as a launchpad for a forthcoming comprehensive comparative study involving nine VQA models and sets the scene for further investigations into the effectiveness of VQA model queries in self-driving scenarios. Supplementary material is available at https://github.com/KaavyaRekanar/Towards-a-performance-analysis-on-pre-trained-VQA-models-for-autono mous-driving.
翻訳日:2023-07-19 14:16:15 公開日:2023-07-18
# 高忠実性トーキング・ポートレート合成のための効率的な領域認識ニューラルラジアンスフィールド

Efficient Region-Aware Neural Radiance Fields for High-Fidelity Talking Portrait Synthesis ( http://arxiv.org/abs/2307.09323v1 )

ライセンス: Link先を確認
Jiahe Li, Jiawei Zhang, Xiao Bai, Jun Zhou, Lin Gu(参考訳) 本稿では,高速収束,リアルタイムレンダリング,モデルサイズの少ない最先端性能を同時に達成できる,新たな条件付きニューラルネットワークラミアンスフィールド(nerf)ベースのトーキングポートレート合成アーキテクチャであるer-nerfを提案する。 我々の考えは、空間領域の不平等な寄与を明示的に活用し、話し言葉のポートレートモデリングをガイドすることである。 具体的には、3つの平面ハッシュエンコーダで空の空間領域をプルーニングすることで、コンパクトで表現性の高いNeRFベースのTri-Plane Hash Representationを導入する。 音声音声に対して,注意機構により領域認識条件を生成できる領域注意モジュールを提案する。 MLPベースのエンコーダを用いて暗黙的にクロスモーダル関係を学習する既存の方法とは異なり、アテンションメカニズムは音声特徴と空間領域との明示的な接続を構築し、局所的な動きの先行を捉える。 さらに,頭部ポーズの複素変換を空間座標にマッピングすることにより,頭部-トルソ分離問題を最適化するために,直接かつ高速に適応的なポーズ符号化を導入する。 広範にわたる実験により,従来の手法に比べて高精細で高効率で,高忠実度とオーディオリップの同期性が向上することを実証した。

This paper presents ER-NeRF, a novel conditional Neural Radiance Fields (NeRF) based architecture for talking portrait synthesis that can concurrently achieve fast convergence, real-time rendering, and state-of-the-art performance with small model size. Our idea is to explicitly exploit the unequal contribution of spatial regions to guide talking portrait modeling. Specifically, to improve the accuracy of dynamic head reconstruction, a compact and expressive NeRF-based Tri-Plane Hash Representation is introduced by pruning empty spatial regions with three planar hash encoders. For speech audio, we propose a Region Attention Module to generate region-aware condition feature via an attention mechanism. Different from existing methods that utilize an MLP-based encoder to learn the cross-modal relation implicitly, the attention mechanism builds an explicit connection between audio features and spatial regions to capture the priors of local motions. Moreover, a direct and fast Adaptive Pose Encoding is introduced to optimize the head-torso separation problem by mapping the complex transformation of the head pose into spatial coordinates. Extensive experiments demonstrate that our method renders better high-fidelity and audio-lips synchronized talking portrait videos, with realistic details and high efficiency compared to previous methods.
翻訳日:2023-07-19 14:15:59 公開日:2023-07-18
# カテゴリデータに基づく学習のためのフィールド依存の爆発

Exploiting Field Dependencies for Learning on Categorical Data ( http://arxiv.org/abs/2307.09321v1 )

ライセンス: Link先を確認
Zhibin Li, Piotr Koniusz, Lu Zhang, Daniel Edward Pagendam, Peyman Moghadam(参考訳) 分類/回帰損失によってのみ駆動されるデータポイントの埋め込みに依存するため、データセット内の列(\akaフィールド)間の依存関係を過小評価する従来のアプローチ。 対照的に,フィールド間の依存性を活用すべく,カテゴリデータで学習する新しい手法を提案する。 グローバルな特徴の統計をモデル化する(すなわち、特徴の共分散行列によって)代わりに、フィールド間の依存関係をキャプチャするグローバルフィールド依存行列を学び、各フィールドのモデリングを改善するために、異なる重み(いわゆる局所依存モデリング)でインスタンスレベルでグローバルフィールド依存行列を洗練する。 我々のアルゴリズムはメタラーニングパラダイム、すなわち、依存行列をラベルを使わずにメタラーニングアルゴリズムの内ループで洗練するのに対して、外ループは埋め込み行列(プロジェクションを実行する行列)とグローバル依存行列の更新を(ラベルを用いて)教師付き方式で介入する。 この方法は単純だが、6つの人気のあるデータセットベンチマークで最先端のメソッドを上回っている。 詳細なアブレーション研究は、この方法にさらなる洞察を与える。

Traditional approaches for learning on categorical data underexploit the dependencies between columns (\aka fields) in a dataset because they rely on the embedding of data points driven alone by the classification/regression loss. In contrast, we propose a novel method for learning on categorical data with the goal of exploiting dependencies between fields. Instead of modelling statistics of features globally (i.e., by the covariance matrix of features), we learn a global field dependency matrix that captures dependencies between fields and then we refine the global field dependency matrix at the instance-wise level with different weights (so-called local dependency modelling) w.r.t. each field to improve the modelling of the field dependencies. Our algorithm exploits the meta-learning paradigm, i.e., the dependency matrices are refined in the inner loop of the meta-learning algorithm without the use of labels, whereas the outer loop intertwines the updates of the embedding matrix (the matrix performing projection) and global dependency matrix in a supervised fashion (with the use of labels). Our method is simple yet it outperforms several state-of-the-art methods on six popular dataset benchmarks. Detailed ablation studies provide additional insights into our method.
翻訳日:2023-07-19 14:15:33 公開日:2023-07-18
# バイオメーカca:セルオートマトンを用いたバイオメーカプロジェクト

Biomaker CA: a Biome Maker project using Cellular Automata ( http://arxiv.org/abs/2307.09320v1 )

ライセンス: Link先を確認
Ettore Randazzo and Alexander Mordvintsev(参考訳) 本稿では,Cellular Automata (CA) を用いたBiome MakerプロジェクトであるBiomaker CAを紹介する。 バイオメーカーcaでは、形態形成は第一級市民であり、小さな種子は栄養源の飢えた環境で生き残るために植物のような生物に成長する必要がある。 2次元グリッドのCAルールを用いて複雑なバイオマスをシミュレートし、Python JAXフレームワークを通じてGPU上の計算を並列化する。 このプロジェクトによって、さまざまなモデルアーキテクチャや突然変異戦略とともに、さまざまな種類の環境や「物理学」の法則が実現可能であることを示す。 さらに,植物剤の生育,生存,繁殖,進化,安定かつ不安定な生物群の形成方法を示すために,いくつかの形態を解析した。 次に、終末から終末までのメタ進化や、ペトリ皿メタ進化と呼ばれるより外科的で効率的なアプローチによって、モデルが厳しい環境で生き残ることを実証する。 最後に、ユーザが植物モデルをインタラクティブに進化させる方法を決定し、それをより大きな環境に展開するインタラクティブな進化の実行方法を示す。 私たちはBiomaker CAをhttps://tinyurl.com/2x8yu34sでオープンソース化しました。

We introduce Biomaker CA: a Biome Maker project using Cellular Automata (CA). In Biomaker CA, morphogenesis is a first class citizen and small seeds need to grow into plant-like organisms to survive in a nutrient starved environment and eventually reproduce with variation so that a biome survives for long timelines. We simulate complex biomes by means of CA rules in 2D grids and parallelize all of its computation on GPUs through the Python JAX framework. We show how this project allows for several different kinds of environments and laws of 'physics', alongside different model architectures and mutation strategies. We further analyze some configurations to show how plant agents can grow, survive, reproduce, and evolve, forming stable and unstable biomes. We then demonstrate how one can meta-evolve models to survive in a harsh environment either through end-to-end meta-evolution or by a more surgical and efficient approach, called Petri dish meta-evolution. Finally, we show how to perform interactive evolution, where the user decides how to evolve a plant model interactively and then deploys it in a larger environment. We open source Biomaker CA at: https://tinyurl.com/2x8yu34s .
翻訳日:2023-07-19 14:15:10 公開日:2023-07-18
# mars3d:マルチスキャン3dポイントクラウドにおける意味セグメンテーションのためのプラグアンドプレイモーションアウェアモデル

MarS3D: A Plug-and-Play Motion-Aware Model for Semantic Segmentation on Multi-Scan 3D Point Clouds ( http://arxiv.org/abs/2307.09316v1 )

ライセンス: Link先を確認
Jiahui Liu, Chirui Chang, Jianhui Liu, Xiaoyang Wu, Lan Ma, Xiaojuan Qi(参考訳) マルチスキャン大規模クラウド上の3次元セマンティックセグメンテーションは、自律システムにおいて重要な役割を果たす。 単一スキャンに基づくセマンティックセグメンテーションタスクとは異なり、このタスクは意味圏に加えて点の運動状態を区別する必要がある。 しかし、時間情報を統合する効果的な方法が欠如しているため、単一スキャンベースセグメンテーションタスク用に設計された手法はマルチスキャンタスクでは不十分である。 マルチスキャン3dポイントクラウド上で意味セグメンテーションを行うための,プラグインアンドプレイモーションアウェアモジュールであるmars3dを提案する。 このモジュールは、柔軟にシングルスキャンモデルと組み合わせて、マルチスキャン知覚能力を持つことができる。 このモデルは、表現学習を豊かにするクロスフレーム特徴埋め込みモジュールと、動き認識を強化するモーションアウェア特徴学習モジュールの2つの重要な設計を含んでいる。 広範な実験により、mars3dはベースラインモデルの性能を大きなマージンで改善できることが示されている。 コードはhttps://github.com/CVMI-Lab/MarS3Dで公開されている。

3D semantic segmentation on multi-scan large-scale point clouds plays an important role in autonomous systems. Unlike the single-scan-based semantic segmentation task, this task requires distinguishing the motion states of points in addition to their semantic categories. However, methods designed for single-scan-based segmentation tasks perform poorly on the multi-scan task due to the lacking of an effective way to integrate temporal information. We propose MarS3D, a plug-and-play motion-aware module for semantic segmentation on multi-scan 3D point clouds. This module can be flexibly combined with single-scan models to allow them to have multi-scan perception abilities. The model encompasses two key designs: the Cross-Frame Feature Embedding module for enriching representation learning and the Motion-Aware Feature Learning module for enhancing motion awareness. Extensive experiments show that MarS3D can improve the performance of the baseline model by a large margin. The code is available at https://github.com/CVMI-Lab/MarS3D.
翻訳日:2023-07-19 14:14:48 公開日:2023-07-18
# ELI-NPにおける非摂動QEDプロセス

Nonperturbative QED Processes at ELI-NP ( http://arxiv.org/abs/2307.09315v1 )

ライセンス: Link先を確認
M.Pentia, C.R.Badita, D.Dumitriu, A.R.Ionescu, H.Petrascu(参考訳) 本稿では,ルーマニアのマジュレにあるELI-NPの高出力レーザーシステム(HPLS)におけるSF-QED実験の現況を解析し,その設計に必要な主なステップを追求する。 レーザービームの光子と高エネルギー電子の非線形qed相互作用の存在を確認した最初の実験(e-144 slac)を短時間分析した後、eli-npで多光子系で研究できる基本的なqed過程を提示した。 電子と相互作用するレーザ光のキネマティクスと特性パラメータを提示した。 ELI-NP実験の準備には, 非線形QED相互作用過程と物理真空の運動学および力学解析が必要である。 まず、これらのプロセスの振幅を決定するための線形QEDプロセスとそれに対応するファインマン図をレビューする。 これらの振幅に基づいて、プロセスの断面積を求めることができる。 多光子相互作用には、強いEM場の粒子に対して、Dicrac-Volkov状態の量子場記述に移行することにより、線形QEDプロセスから非線形プロセスへのファインマン図の技法を適用する必要がある。 これにより、物理プロセスの振幅の評価と、最終的に対応する断面積の決定が可能になる。 強いレーザー場と多光子相互作用のSF-QEDプロセスは、電子-陽電子対とエネルギー的ガンマ線の実験生産の文脈において、ELI-NPの既存の施設の特性を考慮することができる。 また, 様々な準備段階において, 同様の実験も実施する。

The present paper analyses the current results and pursuits the main steps required for the design of SF-QED experiments at High-Power Laser System (HPLS) of ELI-NP in Magurele, Romania. After a brief analysis of the first experiment (E-144 SLAC), which confirmed the existence of non-linear QED interactions of the high energy electrons with the photons of a laser beam, we went on to present fundamental QED processes possible to be studied at ELI-NP in a multi-photon regime. The kinematics and characteristic parameters of the laser beam interacting with electrons were presented. In the preparation of an experiment at ELI-NP, the analysis of the kinematics and dynamics of the non-linear QED interaction processes with the physical vacuum are required. Initially, the linear QED processes and the corresponding Feynman diagrams that allow to determine the amplitude of these processes are reviewed. Based on these amplitudes, the cross sections of the processes can be obtained. For multi-photon interactions it is necessary to adapt the technique of Feynman diagrams from linear QED processes to the non-linear ones, by moving to the quantum field description with dressed Dirac-Volkov states, for particles in intense EM field. They then allow evaluation of the amplitude of the physical processes and ultimately the determination of the corresponding cross section. The SF-QED processes of multi-photon interactions with strong laser fields, can be done taking into account the characteristics of the existing facilities at ELI-NP in the context of the experimental production of electron-positron-pairs and of energetic gamma-rays. We show also some upcoming experiments similar to ours, in various stages of preparation.
翻訳日:2023-07-19 14:14:31 公開日:2023-07-18
# マルチモーダルディスカッション変換器:ソーシャルメディア上でのヘイトスピーチ検出のためのテキスト・画像・グラフ変換器の統合

Multi-Modal Discussion Transformer: Integrating Text, Images and Graph Transformers to Detect Hate Speech on Social Media ( http://arxiv.org/abs/2307.09312v1 )

ライセンス: Link先を確認
Liam Hebert, Gaurav Sahu, Nanda Kishore Sreenivas, Lukasz Golab, Robin Cohen(参考訳) オンラインソーシャルネットワークにおけるヘイトスピーチを検出するための新しいマルチモーダルグラフベースのトランスフォーマモデルであるMulti-Modal Discussion Transformer(mDT)を提案する。 従来のテキストのみの方法とは対照的に、コメントをヘイトスピーチとしてラベル付けするアプローチは、テキストと画像の総合分析を中心にしている。 これは、グラフトランスフォーマーを活用して、コメントを取り巻く議論全体のコンテキスト関係をキャプチャし、異なるモダリティを別々に処理する代わりに、テキストと画像の埋め込みを結合するための融合層を織り込む。 我々は,本モデルの性能をテキストのみを処理するベースラインと比較し,広範囲にわたるアブレーション研究も行った。 オンラインの文脈における社会的価値を提供するためのマルチモーダルソリューションの今後の取り組みは、会話の全体像を捉えることは、反社会的行動を検出する努力を大幅に前進させる、と論じる。

We present the Multi-Modal Discussion Transformer (mDT), a novel multi-modal graph-based transformer model for detecting hate speech in online social networks. In contrast to traditional text-only methods, our approach to labelling a comment as hate speech centers around the holistic analysis of text and images. This is done by leveraging graph transformers to capture the contextual relationships in the entire discussion that surrounds a comment, with interwoven fusion layers to combine text and image embeddings instead of processing different modalities separately. We compare the performance of our model to baselines that only process text; we also conduct extensive ablation studies. We conclude with future work for multimodal solutions to deliver social value in online contexts, arguing that capturing a holistic view of a conversation greatly advances the effort to detect anti-social behavior.
翻訳日:2023-07-19 14:14:08 公開日:2023-07-18
# 逆問題に対する自動微分と量子輸送への応用

Automatic Differentiation for Inverse Problems with Applications in Quantum Transport ( http://arxiv.org/abs/2307.09311v1 )

ライセンス: Link先を確認
Ivan Williams, Eric Polizzi(参考訳) 逆量子輸送問題に対して、ニューラルネットワークと量子伝達境界モデルの微分可能シミュレーションを提案する。 ニューラルソルバは連続伝送特性を設計するために使用され、微分可能シミュレーションは電流電圧特性を設計するために使用される。

A neural solver and differentiable simulation of the quantum transmitting boundary model is presented for the inverse quantum transport problem. The neural solver is used to engineer continuous transmission properties and the differentiable simulation is used to engineer current-voltage characteristics.
翻訳日:2023-07-19 14:13:49 公開日:2023-07-18
# MOCA:masked Online Codebook Assignments予測による自己指導型表現学習

MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments ( http://arxiv.org/abs/2307.09361v1 )

ライセンス: Link先を確認
Spyros Gidaris, Andrei Bursuc, Oriane Simeoni, Antonin Vobecky, Nikos Komodakis, Matthieu Cord, Patrick P\'erez(参考訳) 自己教師付き学習は、非常に大きな完全注釈付きデータセットに対するビジョントランスフォーマーネットワークの欲求を緩和するために使用できる。 自己教師付き学習の異なるクラスは、例えば、マスク付き画像モデリング戦略を使ったり、コントラスト的手法で画像摂動に対する不変性といった、良好な文脈推論特性を持つ表現を提供する。 そこで本研究では,高レベルの特徴(ピクセルレベルの詳細ではなく)で定義された新しいマスク・アンド・予測目標を用いて,所望の特性を統一するMOCAを提案する。 さらに,学習パラダイムを相乗的かつ計算効率のよい方法で効果的に活用する方法を示す。 そこで我々は,従来手法の少なくとも3倍の速さで,低ショット設定による新たな最先端結果と,各種評価プロトコルの強力な実験結果を得る。

Self-supervised learning can be used for mitigating the greedy needs of Vision Transformer networks for very large fully-annotated datasets. Different classes of self-supervised learning offer representations with either good contextual reasoning properties, e.g., using masked image modeling strategies, or invariance to image perturbations, e.g., with contrastive methods. In this work, we propose a single-stage and standalone method, MOCA, which unifies both desired properties using novel mask-and-predict objectives defined with high-level features (instead of pixel-level details). Moreover, we show how to effectively employ both learning paradigms in a synergistic and computation-efficient way. Doing so, we achieve new state-of-the-art results on low-shot settings and strong experimental results in various evaluation protocols with a training that is at least 3 times faster than prior methods.
翻訳日:2023-07-19 14:05:23 公開日:2023-07-18
# IBM Analog In-Memory Hardware Acceleration Kitを用いたニューラルネットワークトレーニングと推論

Using the IBM Analog In-Memory Hardware Acceleration Kit for Neural Network Training and Inference ( http://arxiv.org/abs/2307.09357v1 )

ライセンス: Link先を確認
Manuel Le Gallo, Corey Lammie, Julian Buechel, Fabio Carta, Omobayode Fagbohungbe, Charles Mackin, Hsinyu Tsai, Vijay Narayanan, Abu Sebastian, Kaoutar El Maghraoui and Malte J. Rasch(参考訳) Analog In-Memory Computing(AIMC)は、Deep Neural Network(DNN)推論とトレーニングのレイテンシとエネルギー消費を削減する、有望なアプローチである。 しかし、ノイズと非線形のデバイス特性とaimcチップの非理想周辺回路は、デジタルコンピューティングと同等の精度を達成するために、そのようなハードウェアにdnnを配置する必要がある。 このチュートリアルでは、最近リリースされたIBM Analog Hardware Acceleration Kit (AIHWKit)を使って、このような適応をどのように達成し、評価できるかを詳しく説明します。 AIHWKitは、AIMCを使用してDNNの推論とトレーニングをシミュレートするPythonライブラリである。 本稿では,AIHWKitの設計,機能,ベストプラクティスを詳細に記述し,推論とトレーニングを適切に行う。 我々はまた、完全に管理されたクラウド環境でAIHWKitシミュレーションプラットフォームを使用することの利点を提供するAnalog AI Cloud Composerの概要を示す。 最後に、ユーザが自身のニーズに合わせてAIHWKitを拡張し、カスタマイズする方法の例を示す。 このチュートリアルには、AIHWKitを使用して実行できる包括的なJupyter Notebookコード例が付属している。

Analog In-Memory Computing (AIMC) is a promising approach to reduce the latency and energy consumption of Deep Neural Network (DNN) inference and training. However, the noisy and non-linear device characteristics, and the non-ideal peripheral circuitry in AIMC chips, require adapting DNNs to be deployed on such hardware to achieve equivalent accuracy to digital computing. In this tutorial, we provide a deep dive into how such adaptations can be achieved and evaluated using the recently released IBM Analog Hardware Acceleration Kit (AIHWKit), freely available at https://github.com/IBM/aihwkit. The AIHWKit is a Python library that simulates inference and training of DNNs using AIMC. We present an in-depth description of the AIHWKit design, functionality, and best practices to properly perform inference and training. We also present an overview of the Analog AI Cloud Composer, that provides the benefits of using the AIHWKit simulation platform in a fully managed cloud setting. Finally, we show examples on how users can expand and customize AIHWKit for their own needs. This tutorial is accompanied by comprehensive Jupyter Notebook code examples that can be run using AIHWKit, which can be downloaded from https://github.com/IBM/aihwkit/tree/master/notebooks/tutorial.
翻訳日:2023-07-19 14:05:06 公開日:2023-07-18
# OnlineRefer: ビデオオブジェクトのセグメンテーションを参照するためのシンプルなオンラインベースライン

OnlineRefer: A Simple Online Baseline for Referring Video Object Segmentation ( http://arxiv.org/abs/2307.09356v1 )

ライセンス: Link先を確認
Dongming Wu, Tiancai Wang, Yuang Zhang, Xiangyu Zhang, Jianbing Shen(参考訳) ビデオオブジェクトセグメンテーション(RVOS)は、人間の指示に従ってビデオ内のオブジェクトをセグメンテーションすることを目的としている。 現在の最先端のメソッドはオフラインのパターンに陥り、各クリップは、相互モーダル理解のためのテキスト埋め込みと独立して相互作用する。 彼らは通常、RVOSにはオフラインパターンが必要であるが、クリップ内の時間的関連をモデル化する。 本研究では,従来のオフラインの信念を整理し,明示的なクエリ伝達を用いたシンプルなオンラインモデルを提案する。 具体的には,現在のフレームに対する参照予測の精度と容易性を改善するために,セマンティック情報と位置を収集するターゲットキューを活用する。 さらに,オンラインモデルをビデオベースのバックボーンと互換性のある半オンラインフレームワークに一般化する。 提案手法の有効性を示すため,Shaie,Refer-Youtube-VOS,Refer-DAVIS17,A2D-Sentences,JHMDB-Sentencesの4つのベンチマークを用いて評価を行った。 Swin-Lのバックボーンを使ったOnlineReferは、Refer-Youtube-VOSとRefer-DAVIS17で63.5 J&Fと64.8 J&Fを達成した。

Referring video object segmentation (RVOS) aims at segmenting an object in a video following human instruction. Current state-of-the-art methods fall into an offline pattern, in which each clip independently interacts with text embedding for cross-modal understanding. They usually present that the offline pattern is necessary for RVOS, yet model limited temporal association within each clip. In this work, we break up the previous offline belief and propose a simple yet effective online model using explicit query propagation, named OnlineRefer. Specifically, our approach leverages target cues that gather semantic information and position prior to improve the accuracy and ease of referring predictions for the current frame. Furthermore, we generalize our online model into a semi-online framework to be compatible with video-based backbones. To show the effectiveness of our method, we evaluate it on four benchmarks, \ie, Refer-Youtube-VOS, Refer-DAVIS17, A2D-Sentences, and JHMDB-Sentences. Without bells and whistles, our OnlineRefer with a Swin-L backbone achieves 63.5 J&F and 64.8 J&F on Refer-Youtube-VOS and Refer-DAVIS17, outperforming all other offline methods.
翻訳日:2023-07-19 14:04:43 公開日:2023-07-18
# 単一非局在質量の場による重力の非古典性検証

Testing the nonclassicality of gravity with the field of a single delocalized mass ( http://arxiv.org/abs/2307.09354v1 )

ライセンス: Link先を確認
Alessandro Pesci, Pierbiagio Pieri(参考訳) 重力の量子の性質の実験実験のための既存の提案のほとんどは、2つの非局在化質量または十分な空間範囲を持つ純粋量子状態で準備された調和結合質量の使用に基づいている。 ここでは、重力の作用下を移動する調和的に束縛された試験質量(第1の膨張と圧縮)と結合した1つの非局在化質量に基づくセットアップを提案する。 本研究では, カシミール力のテーム能力に大きく依存する, 実験の原理的実現可能性について検討する。 そこで我々は、これを達成するための設計を進め、同時にそれらと戦うだけでなく、これらの力を活用しようと試みた。

Most of the existing proposals for laboratory tests of a quantum nature of gravity are based on the use of two delocalized masses or harmonically bound masses prepared in pure quantum states with large enough spatial extent. Here, a setup is proposed that is based on on a single delocalized mass coupled to a harmonically-trapped test mass (undergoing first expansion and then compression) that moves under the action of gravity. We investigate the in-principle feasibility of such an experiment, which turns out to crucially depend on the ability to tame Casimir forces. We thus proceed with a design aimed at achieving this, trying at the same time to take advantage of these forces rather than only fighting them.
翻訳日:2023-07-19 14:04:19 公開日:2023-07-18
# spherenet: ポイントクラウド登録のためのノイズロバストと一般記述子を学ぶ

SphereNet: Learning a Noise-Robust and General Descriptor for Point Cloud Registration ( http://arxiv.org/abs/2307.09351v1 )

ライセンス: Link先を確認
Guiyu Zhao and Zhentao Guo and Xin Wang and Hongbin Ma(参考訳) ポイントクラウド登録は、異なる視点で収集されたポイントクラウドを調整するための変換を見積もることである。 学習ベースのポイントクラウド登録では、堅牢なディスクリプタが高精度な登録に不可欠である。 しかし、ほとんどのメソッドはノイズに影響を受けやすく、見えないデータセットの一般化能力が低い。 この動機付けにより,spherenet では,ポイントクラウド登録のためのノイズロバストかつ未認識のディスクリプタを学習する。 本手法では,まず,球状ボクセル化に基づく幾何学的領域を構築し,初期特徴を符号化する。 そして, 球面の球面補間を導入し, 騒音に対するロバスト性を実現する。 最後に、球面的完全性パディングを備えた新しい球形畳み込みニューラルネットワークは、ディスクリプタの抽出を完了し、特徴の損失を減らし、幾何学的特徴を完全にキャプチャする。 提案手法を評価するため, 強い雑音を有する3DMatch-noiseを新たに導入した。 大規模な実験は屋内および屋外の両方で実施される。 高い雑音下では、spherenetは3dmatch-noiseで機能マッチングリコールを25ポイント以上増加させる。 さらに、93.5\%と75.6\%の登録リコールを持つ3dmatchと3dlomatchベンチマークの新たな最先端性能を設定し、未発見のデータセットで最高の一般化能力も備えている。

Point cloud registration is to estimate a transformation to align point clouds collected in different perspectives. In learning-based point cloud registration, a robust descriptor is vital for high-accuracy registration. However, most methods are susceptible to noise and have poor generalization ability on unseen datasets. Motivated by this, we introduce SphereNet to learn a noise-robust and unseen-general descriptor for point cloud registration. In our method, first, the spheroid generator builds a geometric domain based on spherical voxelization to encode initial features. Then, the spherical interpolation of the sphere is introduced to realize robustness against noise. Finally, a new spherical convolutional neural network with spherical integrity padding completes the extraction of descriptors, which reduces the loss of features and fully captures the geometric features. To evaluate our methods, a new benchmark 3DMatch-noise with strong noise is introduced. Extensive experiments are carried out on both indoor and outdoor datasets. Under high-intensity noise, SphereNet increases the feature matching recall by more than 25 percentage points on 3DMatch-noise. In addition, it sets a new state-of-the-art performance for the 3DMatch and 3DLoMatch benchmarks with 93.5\% and 75.6\% registration recall and also has the best generalization ability on unseen datasets.
翻訳日:2023-07-19 14:04:10 公開日:2023-07-18
# 言語モデルを用いた多電子schr\"odinger方程式の直接解法

Direct Solving the Many-Electron Schr\"odinger Equation with a Language Model ( http://arxiv.org/abs/2307.09343v1 )

ライセンス: Link先を確認
Honghui Shang, Chu Guo, Yangjun Wu, Jinlong Yang(参考訳) マルチ電子Schr\"odinger方程式は、外部トレーニングデータを必要としないトランスフォーマーベースのニューラルネットワークアーキテクチャ(QiankunNet)で簡単に解き、以前のフェルミオンアンザッツと比較して第一原理計算の精度と効率を大幅に改善する。 複雑な量子相関は、我々の方法論に注意機構を組み込むことで効果的に捉えられる。 さらに、サンプリング精度と効率を大幅に向上させるため、バッチサンプリング戦略を用いる。 さらに、縮小構成相互作用解を変分アンサッツに組み込んで高い表現性を確保し、計算効率をさらに向上させる事前学習ステージを提供する。 qiankunnetは、量子化学計算において前例のない効率を達成するためにトランスフォーマーベースの言語モデルの力を実証し、化学発見への新しい道を開き、小さな計算コストで大規模schr\"odinger方程式を解く可能性を秘めている。

The many-electron Schr\"odinger equation is solved straightforwardly with a Transformer-based neural-network architecture (QiankunNet), which requires no external training data and significantly improves the accuracy and efficiency of first-principles calculations compared to previous Fermionic ansatz. The intricate quantum correlations are effectively captured by incorporating the attention mechanism into our methodology. Additionally, the batched sampling strategy is used to significantly improve the sampling accuracy and efficiency. Furthermore, a pre-training stage which incorporates the truncated configuration interaction solution into the variational ansatz, ensuring high expressiveness and further improving computational efficiency. QiankunNet demonstrates the power of the Transformer-based language model in achieving unprecedented efficiency in quantum chemistry calculations, which opens new avenues to chemical discovery and has the potential to solve the large-scale Schr\"odinger equation with modest computational cost.
翻訳日:2023-07-19 14:03:47 公開日:2023-07-18
# Pseudo-Boolean および Linear Integer 制約に対するSAT符号化の学習

Learning to Select SAT Encodings for Pseudo-Boolean and Linear Integer Constraints ( http://arxiv.org/abs/2307.09342v1 )

ライセンス: Link先を確認
Felix Ulrich-Oltean, Peter Nightingale, James Alfred Walker(参考訳) 多くの制約満足度と最適化問題は、Boolean Satisfiability problem (SAT) のインスタンスとしてエンコードすることで効果的に解決できる。 しかし、最も単純なタイプの制約でさえ、幅広い性能を持つ文献において多くのエンコーディングを持ち、与えられた問題インスタンスに対して適切なエンコーディングを選択する問題は簡単ではない。 本稿では,教師付き機械学習手法を用いて疑似booleanおよび線形制約に対する符号化選択の問題を検討する。 制約問題に対する標準的特徴集合を用いて符号化を効果的に選択することは可能であるが、擬似ボアおよび線形制約用に特別に設計された新しい特徴集合によりより良い性能が得られることを示す。 実際、見当たらない問題クラスのエンコーディングを選択すると良い結果が得られる。 結果は、同じ機能セットを使用する場合、AutoFolioと良好に比較されます。 最適なエンコーディングを選択するタスクに対するインスタンスの特徴の相対的重要性を論じ、機械学習手法のいくつかのバリエーションを比較した。

Many constraint satisfaction and optimisation problems can be solved effectively by encoding them as instances of the Boolean Satisfiability problem (SAT). However, even the simplest types of constraints have many encodings in the literature with widely varying performance, and the problem of selecting suitable encodings for a given problem instance is not trivial. We explore the problem of selecting encodings for pseudo-Boolean and linear constraints using a supervised machine learning approach. We show that it is possible to select encodings effectively using a standard set of features for constraint problems; however we obtain better performance with a new set of features specifically designed for the pseudo-Boolean and linear constraints. In fact, we achieve good results when selecting encodings for unseen problem classes. Our results compare favourably to AutoFolio when using the same feature set. We discuss the relative importance of instance features to the task of selecting the best encodings, and compare several variations of the machine learning method.
翻訳日:2023-07-19 14:03:29 公開日:2023-07-18
# 適応最適化アダプティブ・コンパプタンス・サンプリング

Adaptively Optimised Adaptive Importance Samplers ( http://arxiv.org/abs/2307.09341v1 )

ライセンス: Link先を確認
Carlos A. C. C. Perello and \"Omer Deniz Akyildiz(参考訳) 本稿では,AdaOAISと呼ばれる適応最適化ツールを活用した適応的重要度サンプリング手法を提案する。 提案手法は,提案をパラメータ化し,目標と提案の間の$\chi^2$-divergenceを最適化することにより,重要サンプリング推定器の平均二乗誤差を改善する手法であるOAIS(Optimized Adaptive Importance Samplers)に基づいて構築する。 確率的勾配降下を用いたoaisのナイーブな実装は,その収束保証にもかかわらず不安定な推定子をもたらす可能性がある。 この欠点を解消するために、我々はOAISの安定性を改善するために適応型オプティマイザ(AdaGradやAdamなど)を使うことを提案する。 我々は,AdaOAISに対して,OAISと同様の収束結果を提供する。 また,様々な事例について実証実験を行い,AdaOAISが実測値のサンプリングを安定的に行うことを示す。

We introduce a new class of adaptive importance samplers leveraging adaptive optimisation tools, which we term AdaOAIS. We build on Optimised Adaptive Importance Samplers (OAIS), a class of techniques that adapt proposals to improve the mean-squared error of the importance sampling estimators by parameterising the proposal and optimising the $\chi^2$-divergence between the target and the proposal. We show that a naive implementation of OAIS using stochastic gradient descent may lead to unstable estimators despite its convergence guarantees. To remedy this shortcoming, we instead propose to use adaptive optimisers (such as AdaGrad and Adam) to improve the stability of the OAIS. We provide convergence results for AdaOAIS in a similar manner to OAIS. We also provide empirical demonstration on a variety of examples and show that AdaOAIS lead to stable importance sampling estimators in practice.
翻訳日:2023-07-19 14:03:12 公開日:2023-07-18
# 低位励振抑制スパイクネットワークにおける潜在境界を持つ非線形関数の近似

Approximating nonlinear functions with latent boundaries in low-rank excitatory-inhibitory spiking networks ( http://arxiv.org/abs/2307.09334v1 )

ライセンス: Link先を確認
William F. Podlaski, Christian K. Machens(参考訳) ディープフィードフォワードとリカレントレートに基づくニューラルネットワークは脳の機能モデルとして成功しているが、スパイクやデールの法則のような明確な生物学的詳細は無視されている。 ここでは、実際の神経回路の動作を理解するために、これらの詳細が重要であると論じる。 この目的に向けて, スパイクベース計算のための新しいフレームワークを低ランク励振抑制スパイクネットワークに導入した。 ランク1接続性を持つ個体群を考慮し、低次元入力出力空間における各ニューロンのスパイク閾値を境界とした。 次に, この空間において抑制ニューロン集団の閾値が安定な境界を形成し, 興奮ニューロン集団の閾値が不安定な境界を形成することを示す。 2つの境界を組み合わせれば、2つの境界の交点における抑制安定化力学を持つランク2励起阻止(EI)ネットワークが得られる。 得られたネットワークの計算は、2つの凸関数の差分として理解することができ、任意の非線形入力出力マッピングを近似することができる。 ノイズ抑制と増幅,不規則な活動とシナプスバランス,境界がソフトになる限界におけるレートネットワークのダイナミクスとの関連など,これらのネットワークのいくつかの特性を実証する。 最後に、我々の研究は、小さなネットワーク(5-50ニューロン)に焦点を当てていますが、もっと大きなネットワークにスケールアップするための潜在的な方法について議論します。 全体として,生体スパイクに基づく計算を機械的に理解するための出発点となるスパイクネットワークに対する新たな視点を提案する。

Deep feedforward and recurrent rate-based neural networks have become successful functional models of the brain, but they neglect obvious biological details such as spikes and Dale's law. Here we argue that these details are crucial in order to understand how real neural circuits operate. Towards this aim, we put forth a new framework for spike-based computation in low-rank excitatory-inhibitory spiking networks. By considering populations with rank-1 connectivity, we cast each neuron's spiking threshold as a boundary in a low-dimensional input-output space. We then show how the combined thresholds of a population of inhibitory neurons form a stable boundary in this space, and those of a population of excitatory neurons form an unstable boundary. Combining the two boundaries results in a rank-2 excitatory-inhibitory (EI) network with inhibition-stabilized dynamics at the intersection of the two boundaries. The computation of the resulting networks can be understood as the difference of two convex functions, and is thereby capable of approximating arbitrary non-linear input-output mappings. We demonstrate several properties of these networks, including noise suppression and amplification, irregular activity and synaptic balance, as well as how they relate to rate network dynamics in the limit that the boundary becomes soft. Finally, while our work focuses on small networks (5-50 neurons), we discuss potential avenues for scaling up to much larger networks. Overall, our work proposes a new perspective on spiking networks that may serve as a starting point for a mechanistic understanding of biological spike-based computation.
翻訳日:2023-07-19 14:02:32 公開日:2023-07-18
# 分布内を一般化するバッチ予測器

Batched Predictors Generalize within Distribution ( http://arxiv.org/abs/2307.09379v1 )

ライセンス: Link先を確認
Andreas Loukas, Pan Kessel(参考訳) バッチ予測器の一般化特性、すなわち、サンプルの小さな集合(あるいはバッチ)の平均ラベルを予測したモデルについて検討する。 バッチ予測パラダイムは、オフラインテストの準備のために化合物群の品質を決定するためにデプロイされたモデルに特に関係します。 ラデマッハ複雑性の適切な一般化を利用することで、バッチ予測器は標準サンプル当たりのアプローチと比較して指数関数的に強い一般化保証を持つことを示した。 驚いたことに、提案された境界はオーバーパラメトリゼーションとは独立に成り立っている。 私たちの理論的洞察は、様々なタスク、アーキテクチャ、アプリケーションに対して実験的に検証されます。

We study the generalization properties of batched predictors, i.e., models tasked with predicting the mean label of a small set (or batch) of examples. The batched prediction paradigm is particularly relevant for models deployed to determine the quality of a group of compounds in preparation for offline testing. By utilizing a suitable generalization of the Rademacher complexity, we prove that batched predictors come with exponentially stronger generalization guarantees as compared to the standard per-sample approach. Surprisingly, the proposed bound holds independently of overparametrization. Our theoretical insights are validated experimentally for various tasks, architectures, and applications.
翻訳日:2023-07-19 13:56:39 公開日:2023-07-18
# 強化学習に基づくアルゴリズム取引における一般化のためのデータクロスセグメンテーション

Data Cross-Segmentation for Improved Generalization in Reinforcement Learning Based Algorithmic Trading ( http://arxiv.org/abs/2307.09377v1 )

ライセンス: Link先を確認
Vikram Duvvur, Aashay Mehta, Edward Sun, Bo Wu, Ken Yew Chan, Jeff Schneider(参考訳) アルゴリズム取引システムにおける機械学習の利用はますます一般的になっている。 典型的なセットアップでは、教師付き学習は資産の将来価格を予測するために使用され、これらの予測は単純な取引と実行戦略を駆動する。 これは、予測が十分なシグナルを持ち、市場が流動的で取引コストが低い場合に非常に有効である。 しかし、これらの条件は、不動産や自動車などの区別資産の薄い金融市場や市場においては、しばしば保持されない。 これらの市場では、取引戦略は、比較的変更が難しい立場を取ることの長期的な影響を考慮する必要がある。 本研究では,学習した予測モデルからの信号に基づいて,これらの課題に対処する強化学習(RL)アルゴリズムを提案する。 ブルサマレーシアの20年以上にわたる株式データに基づいてアルゴリズムをテストした。

The use of machine learning in algorithmic trading systems is increasingly common. In a typical set-up, supervised learning is used to predict the future prices of assets, and those predictions drive a simple trading and execution strategy. This is quite effective when the predictions have sufficient signal, markets are liquid, and transaction costs are low. However, those conditions often do not hold in thinly traded financial markets and markets for differentiated assets such as real estate or vehicles. In these markets, the trading strategy must consider the long-term effects of taking positions that are relatively more difficult to change. In this work, we propose a Reinforcement Learning (RL) algorithm that trades based on signals from a learned predictive model and addresses these challenges. We test our algorithm on 20+ years of equity data from Bursa Malaysia.
翻訳日:2023-07-19 13:56:30 公開日:2023-07-18
# CertPri: 機能空間における移動コストによるディープニューラルネットワークの認証プライオリティ化

CertPri: Certifiable Prioritization for Deep Neural Networks via Movement Cost in Feature Space ( http://arxiv.org/abs/2307.09375v1 )

ライセンス: Link先を確認
Haibin Zheng, Jinyin Chen, Haibo Jin(参考訳) ディープニューラルネットワーク(DNN)は、様々なソフトウェアシステムでその性能を実証しているが、誤った振る舞いを示し、さらには不可逆的な災害を引き起こす。 したがって、DNNベースのソフトウェアの誤動作を特定し、DNNの品質を向上させることが重要である。 テスト入力の優先順位付けは、DNNの品質を保証する最も魅力的な方法の1つである。 しかし、既存の優先順位付け方法はまだ3つの側面から制限されている。 そこで我々は,DNNの機能空間におけるテスト入力の移動コストの観点に基づいて設計したテスト入力優先化手法であるCertPriを提案する。 certpriは、3つの重要な側面で以前の作品と異なる: (1) 認証可能: 移動コストに対する公式な堅牢性保証を提供する; (2) 効果的: 公式に保証された移動コストを活用して悪意のあるバグ検出入力を識別する; (3) 汎用: 様々なタスク、データ、モデル、シナリオに適用できる。 2つのタスク(分類と回帰)、6つのデータフォーム、4つのモデル構造、2つのシナリオ(ホワイトボックスとブラックボックス)にわたる広範な評価は、certpriの優れたパフォーマンスを示している。 例えば、ベースラインに比べて平均53.97%の優先順位付け効率が大幅に向上する。 その堅牢性と一般化性はそれぞれ1.41~2.00倍と1.33~3.39倍である。

Deep neural networks (DNNs) have demonstrated their outperformance in various software systems, but also exhibit misbehavior and even result in irreversible disasters. Therefore, it is crucial to identify the misbehavior of DNN-based software and improve DNNs' quality. Test input prioritization is one of the most appealing ways to guarantee DNNs' quality, which prioritizes test inputs so that more bug-revealing inputs can be identified earlier with limited time and manual labeling efforts. However, the existing prioritization methods are still limited from three aspects: certifiability, effectiveness, and generalizability. To overcome the challenges, we propose CertPri, a test input prioritization technique designed based on a movement cost perspective of test inputs in DNNs' feature space. CertPri differs from previous works in three key aspects: (1) certifiable: it provides a formal robustness guarantee for the movement cost; (2) effective: it leverages formally guaranteed movement costs to identify malicious bug-revealing inputs; and (3) generic: it can be applied to various tasks, data, models, and scenarios. Extensive evaluations across 2 tasks (i.e., classification and regression), 6 data forms, 4 model structures, and 2 scenarios (i.e., white-box and black-box) demonstrate CertPri's superior performance. For instance, it significantly improves 53.97% prioritization effectiveness on average compared with baselines. Its robustness and generalizability are 1.41~2.00 times and 1.33~3.39 times that of baselines on average, respectively.
翻訳日:2023-07-19 13:56:17 公開日:2023-07-18
# 行列定式化によるサポートベクターマシンのパターン分類の強化

Enhancing Pattern Classification in Support Vector Machines through Matrix Formulation ( http://arxiv.org/abs/2307.09372v1 )

ライセンス: Link先を確認
Sambhav Jain Reshma Rastogi(参考訳) Support Vector Machines (SVM) は、統計的学習理論の実装の成功により、分類器として大きな評価を得ている。 しかしながら、マルチクラスやマルチラベルの設定の文脈では、既存のsvmベースのモデルにおけるベクトルベースの定式化に依存することは、特定の課題に対処するために追加用語を組み込む柔軟性と容易さに関する制限を課す。 これらの制約を克服するため,本論文では,svm の行列定式化を導入することに焦点を当てた。 高速化されたグラディエントDescent法を双対に利用することにより,行列-SVM問題の解法効率を著しく向上する。 マルチラベルデータセットとマルチクラスデータセットの実験的評価により、Matrix SVMは、バイナリ関連SVMに同様の結果を提供しながら、より優れた時間効率を実現することが示された。 さらに, 従来のベクトルに基づく表記法では容易には見当たらない重要な洞察とアドバンテージを提示する。 我々は、多くのマルチラベルモデルがsvmの拡張と見なすことができ、特定の要求を満たすようにカスタマイズされた修正が行えることを強調する。 本稿では,マルチラベル学習において生じる特徴的課題を効果的に解決できる,より洗練されたモデルを開発するための強固な基盤を確立する。

Support Vector Machines (SVM) have gathered significant acclaim as classifiers due to their successful implementation of Statistical Learning Theory. However, in the context of multiclass and multilabel settings, the reliance on vector-based formulations in existing SVM-based models poses limitations regarding flexibility and ease of incorporating additional terms to handle specific challenges. To overcome these limitations, our research paper focuses on introducing a matrix formulation for SVM that effectively addresses these constraints. By employing the Accelerated Gradient Descent method in the dual, we notably enhance the efficiency of solving the Matrix-SVM problem. Experimental evaluations on multilabel and multiclass datasets demonstrate that Matrix SVM achieves superior time efficacy while delivering similar results to Binary Relevance SVM. Moreover, our matrix formulation unveils crucial insights and advantages that may not be readily apparent in traditional vector-based notations. We emphasize that numerous multilabel models can be viewed as extensions of SVM, with customised modifications to meet specific requirements. The matrix formulation presented in this paper establishes a solid foundation for developing more sophisticated models capable of effectively addressing the distinctive challenges encountered in multilabel learning.
翻訳日:2023-07-19 13:55:45 公開日:2023-07-18
# Plug the Leaks:意図しない情報フローの防止による音声駆動型発話顔生成の促進

Plug the Leaks: Advancing Audio-driven Talking Face Generation by Preventing Unintended Information Flow ( http://arxiv.org/abs/2307.09368v1 )

ライセンス: Link先を確認
Dogucan Yaman and Fevziye Irem Eyiokur and Leonard B\"armann and Hazim Kemal Ekenel and Alexander Waibel(参考訳) 音声駆動の会話顔生成は、特定のオーディオおよび参照フレームからリップ同期でリアルな顔ビデオを作成するタスクである。 これには、生成した画像の全体的な視覚的品質と、口部の音声・視覚的同期という2つの大きな課題が含まれる。 本稿では,近年の音声駆動型発話顔生成手法における同期手法の諸問題を明らかにすることから始める。 特に、これは意図しない唇の流れと、生成された画像を参照した情報、およびモデルトレーニング中の不安定性を含む。 まず、サイレントリップ参照画像生成装置は、生成された画像への参照から唇の漏れを防止する。 第二に、適応三重項損失はポーズリーク問題を処理する。 最後に, 安定な同期損失の定式化を提案し, 上記のトレーニング不安定を回避し, さらにリップリーク問題を緩和した。 それぞれの改良点を組み合わせることで,LRS2とLRWの同期性能と視覚的品質を両立させる。 また, 種々のアブレーション実験において, 個々の貢献と補遺効果を確認することにより, 設計を検証した。

Audio-driven talking face generation is the task of creating a lip-synchronized, realistic face video from given audio and reference frames. This involves two major challenges: overall visual quality of generated images on the one hand, and audio-visual synchronization of the mouth part on the other hand. In this paper, we start by identifying several problematic aspects of synchronization methods in recent audio-driven talking face generation approaches. Specifically, this involves unintended flow of lip and pose information from the reference to the generated image, as well as instabilities during model training. Subsequently, we propose various techniques for obviating these issues: First, a silent-lip reference image generator prevents leaking of lips from the reference to the generated image. Second, an adaptive triplet loss handles the pose leaking problem. Finally, we propose a stabilized formulation of synchronization loss, circumventing aforementioned training instabilities while additionally further alleviating the lip leaking issue. Combining the individual improvements, we present state-of-the art performance on LRS2 and LRW in both synchronization and visual quality. We further validate our design in various ablation experiments, confirming the individual contributions as well as their complementary effects.
翻訳日:2023-07-19 13:55:25 公開日:2023-07-18
# 離散最適化を伴うスパースガウス図形モデル:計算的・統計的視点

Sparse Gaussian Graphical Models with Discrete Optimization: Computational and Statistical Perspectives ( http://arxiv.org/abs/2307.09366v1 )

ライセンス: Link先を確認
Kayhan Behdin, Wenyu Chen, Rahul Mazumder(参考訳) 統計的機械学習における重要な問題である,無向ガウス図形モデルに基づく疎グラフ学習の問題を考える。 p$変数を持つ多変量ガウス分布からの$n$のサンプルが与えられると、目標は、それがスパースである(すなわち、いくつかの非零エントリを持つ)と仮定して、$p \times p$ 逆共分散行列(別名精度行列)を推定することである。 我々は、擬似類似関数の$\ell_0$-penalizedバージョンに基づく新しい推定器であるgraphl0bnbを提案するが、ほとんどの初期のアプローチは$\ell_1$-relaxationに基づいている。 我々の推定器は凸混合整数プログラム(MIP)として定式化することができ、市販の解法を用いて大規模に計算することは困難である。 MIP を解決するために,ノード緩和を最適化した一階法で解く,独自の非線形分岐結合(BnB)フレームワークを提案する。 BnBフレームワークの副産物として、独立性のある優れた原始解を得るための大規模解法を提案する。 我々は,推定器に対する新しい統計的保証(推定と変数選択)を導き,既存の推定器によるアプローチの改善について議論する。 実合成データセットに関する数値実験から,本手法がほぼ最適に,約$p=10^4$の問題を,約$p^2/2$の対称行列に対応して解くことができることが示唆された。 我々は,GraphL0BnBと,さまざまなデータセットに対する最先端アプローチの有用性を示す。

We consider the problem of learning a sparse graph underlying an undirected Gaussian graphical model, a key problem in statistical machine learning. Given $n$ samples from a multivariate Gaussian distribution with $p$ variables, the goal is to estimate the $p \times p$ inverse covariance matrix (aka precision matrix), assuming it is sparse (i.e., has a few nonzero entries). We propose GraphL0BnB, a new estimator based on an $\ell_0$-penalized version of the pseudolikelihood function, while most earlier approaches are based on the $\ell_1$-relaxation. Our estimator can be formulated as a convex mixed integer program (MIP) which can be difficult to compute at scale using off-the-shelf commercial solvers. To solve the MIP, we propose a custom nonlinear branch-and-bound (BnB) framework that solves node relaxations with tailored first-order methods. As a by-product of our BnB framework, we propose large-scale solvers for obtaining good primal solutions that are of independent interest. We derive novel statistical guarantees (estimation and variable selection) for our estimator and discuss how our approach improves upon existing estimators. Our numerical experiments on real/synthetic datasets suggest that our method can solve, to near-optimality, problem instances with $p = 10^4$ -- corresponding to a symmetric matrix of size $p \times p$ with $p^2/2$ binary variables. We demonstrate the usefulness of GraphL0BnB versus various state-of-the-art approaches on a range of datasets.
翻訳日:2023-07-19 13:54:49 公開日:2023-07-18
# ゼロコストプロキシの評価 --ニューラルアーキテクチャの性能からモデルロバスト性まで-

An Evaluation of Zero-Cost Proxies -- from Neural Architecture Performance to Model Robustness ( http://arxiv.org/abs/2307.09365v1 )

ライセンス: Link先を確認
Jovita Lukasik, Michael Moeller, Margret Keuper(参考訳) ゼロコストプロキシは近年頻繁に研究され、ニューラルアーキテクチャの探索に用いられる。 トレーニングされていない重みを使ってアーキテクチャのパフォーマンスを予測できる印象的な能力を示している。 これらの技術は検索の高速化を可能にする。 これまでのところ、高性能でロバストなアーキテクチャに対する共同調査は、nasの分野においてあまり注目されていない。 したがって、ゼロコストプロキシの主な焦点は、アーキテクチャのクリーンな精度であるが、モデルロバスト性は、等しく重要な役割を果たすべきである。 本稿では,一般的なゼロコストプロキシがNAS-Bench-201探索空間において,ロバスト性を示す性能予測器として機能することを示す。 我々は、ロバストネスの単一予測タスクと、クリーンでロバストな精度のジョイント多目的性に興味を持っている。 さらに,これらのプロキシの特徴の重要性を解析し,ロバスト性予測が既存のゼロコストプロキシからの予測タスクをより困難にすることを示す。 その結果、モデルのロバスト性を予測するために複数のプロキシの結合的考慮が必要となり、一方、クリーンな精度を単一の特徴から回帰させることができる。

Zero-cost proxies are nowadays frequently studied and used to search for neural architectures. They show an impressive ability to predict the performance of architectures by making use of their untrained weights. These techniques allow for immense search speed-ups. So far the joint search for well-performing and robust architectures has received much less attention in the field of NAS. Therefore, the main focus of zero-cost proxies is the clean accuracy of architectures, whereas the model robustness should play an evenly important part. In this paper, we analyze the ability of common zero-cost proxies to serve as performance predictors for robustness in the popular NAS-Bench-201 search space. We are interested in the single prediction task for robustness and the joint multi-objective of clean and robust accuracy. We further analyze the feature importance of the proxies and show that predicting the robustness makes the prediction task from existing zero-cost proxies more challenging. As a result, the joint consideration of several proxies becomes necessary to predict a model's robustness while the clean accuracy can be regressed from a single such feature.
翻訳日:2023-07-19 13:54:11 公開日:2023-07-18
# 協調インタラクションにおける局所的ミニマドライブ通信

Local Minima Drive Communications in Cooperative Interaction ( http://arxiv.org/abs/2307.09364v1 )

ライセンス: Link先を確認
Roger K. Moore(参考訳) 人間-ロボット相互作用(HRI)における重要なオープンな疑問は、エージェントがいつコミュニケーションをするか、特に協調作業において正確に決定することである。 知覚制御理論(pct)では、エージェントは単に同じ「意図」を共有するだけで共同タスクで協力することができ、エージェント間でタスクを完了させるのに必要な労力を分散することができる。 これは同じ能力を持たないエージェントに対してさえ当てはまり、目標が観測可能である限り、組み合わせたアクションはタスクを完了するのに十分であり、検索空間に局所的な最小値がない。 これらの条件が成立すれば、協力的なタスクは、貢献するエージェント間のコミュニケーションなしに達成できる。 しかし、局所的なミニマを含むタスクの場合、グローバルソリューションは、少なくとも1つのエージェントが適切なタイミングでその意図に適応した場合にのみ到達でき、適切なタイミングのコミュニケーションによってのみ達成できる。 言い換えれば、協調作業においては、通信の機能は局所ミニマを含む複素探索空間における行動を調整することであると仮定される。 これらの原理は、2つの独立した1次元エージェントが2次元パスフィニングタスクを解決するために協力しなければならないコンピュータベースのシミュレーション環境で検証されている。

An important open question in human-robot interaction (HRI) is precisely when an agent should decide to communicate, particularly in a cooperative task. Perceptual Control Theory (PCT) tells us that agents are able to cooperate on a joint task simply by sharing the same 'intention', thereby distributing the effort required to complete the task among the agents. This is even true for agents that do not possess the same abilities, so long as the goal is observable, the combined actions are sufficient to complete the task, and there is no local minimum in the search space. If these conditions hold, then a cooperative task can be accomplished without any communication between the contributing agents. However, for tasks that do contain local minima, the global solution can only be reached if at least one of the agents adapts its intention at the appropriate moments, and this can only be achieved by appropriately timed communication. In other words, it is hypothesised that in cooperative tasks, the function of communication is to coordinate actions in a complex search space that contains local minima. These principles have been verified in a computer-based simulation environment in which two independent one-dimensional agents are obliged to cooperate in order to solve a two-dimensional path-finding task.
翻訳日:2023-07-19 13:53:55 公開日:2023-07-18
# ディスタングル(disentangle then Parse:Night-time Semantic Segmentation with Illumination Disentanglement)

Disentangle then Parse:Night-time Semantic Segmentation with Illumination Disentanglement ( http://arxiv.org/abs/2307.09362v1 )

ライセンス: Link先を確認
Zhixiang Wei, Lin Chen, Tao Tu, Huaian Chen, Pengyang Ling, Yi Jin(参考訳) 従来のセマンティックセグメンテーション手法は昼間の場面で開発されているが、夜間のシーンでは照明条件が不十分で複雑な場合が多い。 本研究では,この課題に対処するために,新しい夜間セマンティックセマンティックセマンティクスパラダイム,すなわちディスアンタングル(disentangle then parse,DTP)を提案する。 DTPは、夜間画像を光不変反射率と光特異的照明成分に明示的に分離し、適応融合に基づいて意味を認識する。 具体的には,提案するdtpは2つのキーコンポーネントからなる。 1) 従来の作業のように光の絡み合う特徴を処理する代わりに,我々のセマンティック・オリエント・ディスタングルメント(SOD)フレームワークは,反射成分の抽出を照明の影響を受けずに可能としており,ネットワークは様々な複雑な照明条件をカバーしたセマンティクスを一貫して認識することができる。 2)照明成分がいくつかの意味的に混乱した領域の手がかりとなりうるという観測に基づいて、さらに、意味論と照明の相関を明示的に学習する照明認識解析器(iaparser)を導入し、照明特徴を集約し、より正確な予測を行う。 夜間セグメンテーションタスクにおける多種多様な設定による大規模な実験により、DTPは最先端の手法を著しく上回っていることが示された。 さらに、追加パラメータが無視できるため、dtpは夜間セグメンテーションの既存の昼間メソッドの恩恵を受けるために直接使用できる。

Most prior semantic segmentation methods have been developed for day-time scenes, while typically underperforming in night-time scenes due to insufficient and complicated lighting conditions. In this work, we tackle this challenge by proposing a novel night-time semantic segmentation paradigm, i.e., disentangle then parse (DTP). DTP explicitly disentangles night-time images into light-invariant reflectance and light-specific illumination components and then recognizes semantics based on their adaptive fusion. Concretely, the proposed DTP comprises two key components: 1) Instead of processing lighting-entangled features as in prior works, our Semantic-Oriented Disentanglement (SOD) framework enables the extraction of reflectance component without being impeded by lighting, allowing the network to consistently recognize the semantics under cover of varying and complicated lighting conditions. 2) Based on the observation that the illumination component can serve as a cue for some semantically confused regions, we further introduce an Illumination-Aware Parser (IAParser) to explicitly learn the correlation between semantics and lighting, and aggregate the illumination features to yield more precise predictions. Extensive experiments on the night-time segmentation task with various settings demonstrate that DTP significantly outperforms state-of-the-art methods. Furthermore, with negligible additional parameters, DTP can be directly used to benefit existing day-time methods for night-time segmentation.
翻訳日:2023-07-19 13:53:33 公開日:2023-07-18
# 複合磁気力学系における光子ホッピングによる遠絡

Distant entanglement via photon hopping in a coupled magnomechanical system ( http://arxiv.org/abs/2307.09424v1 )

ライセンス: Link先を確認
Amjad Sohail, Jia-Xin Peng, Abdelkader Hidki and S. K. Singh(参考訳) マイクロ波キャビティを単一光子ホッピングパラメータで結合した結合マグノメカニカルシステムにおいて,各サブシステム間の遠方二部絡みを発生させる手法を理論的に提案する。 各キャビティにはマグノンモードとフォノンモードが含まれており、モデルハミルトニアンではキャビティ-1光子、キャビティ2光子、マグノン、および両方のyig球面におけるフォノンモードの5つの励起モードが与えられる。 マイクロ波キャビティ内の間接結合サブシステム間には,パラメータの適切なセットに対する有意な二部構造が存在していることがわかった。 また,異なる二分節の有意な遠方二分節絡みに対するキャビティおよびマグノンデチューニングパラメータについても検討した。 さらに、単一光子ホッピングパラメータは、様々な二成分間の量子エンタングルメントの移動と同様に、次数に大きな影響を与えることが分かる。 したがって、結合マイクロ波空洞マグノメカニクス構成に関する本研究は、マクロ量子系間の量子状態移動を含む様々な量子相関のコヒーレント制御における新しい視点を開くことになる。

We theoretically propose a scheme to generate distant bipartite entanglement between various subsystems in coupled magnomechanical systems where both the microwave cavities are coupled through single photon hopping parameter. Each cavity also contains a magnon mode and phonon mode and this gives five excitation modes in our model Hamiltonian which are cavity-1 photons, cavity-2 photons, magnon, and phonon modes in both YIG spheres. We found that significant bipartite entanglement exists between indirectly coupled subsystems in coupled microwave cavities for an appropriate set of parameters regime. Moreover, we also obtain suitable cavity and magnon detuning parameters for a significant distant bipartite entanglement in different bipartitions. In addition, it can be seen that a single photon hopping parameter significantly affects both the degree as well as the transfer of quantum entanglement between various bipartitions. Hence, our present study related to coupled microwave cavity magnomechanical configuration will open new perspectives in coherent control of various quantum correlations including quantum state transfer among macroscopic quantum systems
翻訳日:2023-07-19 13:45:41 公開日:2023-07-18
# NetHackにおける模倣学習のスケーリング法則

Scaling Laws for Imitation Learning in NetHack ( http://arxiv.org/abs/2307.09423v1 )

ライセンス: Link先を確認
Jens Tuyls, Dhruv Madeka, Kari Torkkola, Dean Foster, Karthik Narasimhan, Sham Kakade(参考訳) 模倣学習(il)は、機械学習で最も広く使われている方法の1つである。 しかし、強力だが、多くの研究は、基礎となる専門家の振る舞いを完全に回復できないことが多い。 しかしながら、これらの研究はモデルとデータサイズをスケールアップする役割を深く調査するものではない。 自然言語処理 (NLP) における最近の研究から着想を得て, モデルとデータサイズを慎重にスケールアップすることで, 模倣学習環境において同様の改善がもたらされるかどうかを検討する。 本研究は,手続き生成,確率性,長期依存性,部分的可観測性を備えた挑戦的な環境であるNetHackのゲームに焦点を当てた。 il損失と平均リターンスケールは計算予算とスムーズに一致し,強い相関関係にあり,モデルサイズとサンプル数に関して計算最適ilエージェントを訓練するための電力則が成立する。 我々は、いくつかのNetHackエージェントをILで予測し、トレーニングし、すべての設定で2倍以上の精度で先行技術より優れています。 我々の研究はどちらも、挑戦的な領域における模倣学習のスケーリングの挙動と、現在のAIシステムにとって明らかに難しいゲームであるNetHackにおける、ますます有能なエージェントに対する現在のアプローチのスケールアップの可能性を実証しています。

Imitation Learning (IL) is one of the most widely used methods in machine learning. Yet, while powerful, many works find it is often not able to fully recover the underlying expert behavior. However, none of these works deeply investigate the role of scaling up the model and data size. Inspired by recent work in Natural Language Processing (NLP) where "scaling up" has resulted in increasingly more capable LLMs, we investigate whether carefully scaling up model and data size can bring similar improvements in the imitation learning setting. To demonstrate our findings, we focus on the game of NetHack, a challenging environment featuring procedural generation, stochasticity, long-term dependencies, and partial observability. We find IL loss and mean return scale smoothly with the compute budget and are strongly correlated, resulting in power laws for training compute-optimal IL agents with respect to model size and number of samples. We forecast and train several NetHack agents with IL and find they outperform prior state-of-the-art by at least 2x in all settings. Our work both demonstrates the scaling behavior of imitation learning in a challenging domain, as well as the viability of scaling up current approaches for increasingly capable agents in NetHack, a game that remains elusively hard for current AI systems.
翻訳日:2023-07-19 13:45:23 公開日:2023-07-18
# 行動ヒストグラムを用いた学生行動エンゲージメントの測定

Measuring Student Behavioral Engagement using Histogram of Actions ( http://arxiv.org/abs/2307.09420v1 )

ライセンス: Link先を確認
Ahmed Abdelkawy, Islam Alkabbany, Asem Ali and Aly Farag(参考訳) 本稿では,学生の行動認識を通じて行動の関与度を測定する新しい手法を提案する。 提案手法は学生行動を認識し,学生の行動エンゲージメントレベルを予測する。 学生の行動認識には人間の骨格を用いて姿勢や上半身の動きをモデル化する。 生徒の上半身の力学を学習するために3D-CNNモデルを用いる。 トレーニングされた3d-cnnモデルは、2分間のビデオセグメントごとにアクションを認識するために使用され、これらのアクションは学生のアクションとその頻度をエンコードするアクションのヒストグラムを構築するために使用される。 このヒストグラムはSVM分類器への入力として利用され、学生のエンゲージメントの有無を分類する。 提案手法を評価するために,13のアクションを付加した1414の2分間のビデオセグメントと2つのエンゲージメントレベルを付加した112の動画セグメントからなるデータセットを構築した。 実験の結果、生徒の行動はトップ1の精度83.63%で認識でき、提案フレームワークはクラスの平均エンゲージメントを捉えることができる。

In this paper, we propose a novel technique for measuring behavioral engagement through students' actions recognition. The proposed approach recognizes student actions then predicts the student behavioral engagement level. For student action recognition, we use human skeletons to model student postures and upper body movements. To learn the dynamics of student upper body, a 3D-CNN model is used. The trained 3D-CNN model is used to recognize actions within every 2minute video segment then these actions are used to build a histogram of actions which encodes the student actions and their frequencies. This histogram is utilized as an input to SVM classifier to classify whether the student is engaged or disengaged. To evaluate the proposed framework, we build a dataset consisting of 1414 2-minute video segments annotated with 13 actions and 112 video segments annotated with two engagement levels. Experimental results indicate that student actions can be recognized with top 1 accuracy 83.63% and the proposed framework can capture the average engagement of the class.
翻訳日:2023-07-19 13:45:00 公開日:2023-07-18
# バイス! 画像生成評価における人間の認知行動の模倣

Let's ViCE! Mimicking Human Cognitive Behavior in Image Generation Evaluation ( http://arxiv.org/abs/2307.09416v1 )

ライセンス: Link先を確認
Federico Betti, Jacopo Staiano, Lorenzo Baraldi, Lorenzo Baraldi, Rita Cucchiara, Nicu Sebe(参考訳) 画像生成の研究は、特にテキスト入力に基づいて高品質な視覚コンテンツを生成できるビジョンランゲージモデルの導入により、近年大きな進歩を遂げている。 世代品質とリアリズムの進歩にもかかわらず、生成したコンテンツの品質と要求の順守を定量的に測定する方法論的な枠組みはまだ定義されておらず、今のところ、品質満足度と異なる生成方法の比較のために人間による評価のみが採用されている。 本稿では,人間の認知行動に触発されたプロセスを用いて,生成/編集画像と対応するプロンプト/インストラクションとの一貫性を評価する新しい視覚概念評価手法(vice)を提案する。 ViCEは、Large Language Models(LLM)とVisual Question Answering(VQA)の強みを統合パイプラインに統合し、品質評価において人間の認知プロセスを再現することを目指している。 本手法は,視覚概念を概説し,画像固有の検証質問を定式化し,Q&Aシステムを用いて画像を調査し,組み合わせた結果を評価する。 画像評価過程における人間を模倣するこの勇敢な新たな仮説は、その予備評価段階にあるが、画像生成や画像ターゲット編集タスクがますます洗練されていくにつれ、大きな影響を与える可能性のある新しい形式の自動評価への道を開くことができる。

Research in Image Generation has recently made significant progress, particularly boosted by the introduction of Vision-Language models which are able to produce high-quality visual content based on textual inputs. Despite ongoing advancements in terms of generation quality and realism, no methodical frameworks have been defined yet to quantitatively measure the quality of the generated content and the adherence with the prompted requests: so far, only human-based evaluations have been adopted for quality satisfaction and for comparing different generative methods. We introduce a novel automated method for Visual Concept Evaluation (ViCE), i.e. to assess consistency between a generated/edited image and the corresponding prompt/instructions, with a process inspired by the human cognitive behaviour. ViCE combines the strengths of Large Language Models (LLMs) and Visual Question Answering (VQA) into a unified pipeline, aiming to replicate the human cognitive process in quality assessment. This method outlines visual concepts, formulates image-specific verification questions, utilizes the Q&A system to investigate the image, and scores the combined outcome. Although this brave new hypothesis of mimicking humans in the image evaluation process is in its preliminary assessment stage, results are promising and open the door to a new form of automatic evaluation which could have significant impact as the image generation or the image target editing tasks become more and more sophisticated.
翻訳日:2023-07-19 13:44:42 公開日:2023-07-18
# エッジ状態における相互作用と相関の非局所熱電検出

Nonlocal thermoelectric detection of interaction and correlations in edge states ( http://arxiv.org/abs/2307.09410v1 )

ライセンス: Link先を確認
Alessandro Braggio, Matteo Carrega, Bj\"orn Sothmann, Rafael S\'anchez(参考訳) 量子導体中の相互作用電子の輸送における非平衡効果を調べ、相互作用の存在、非熱状態、相関効果の直接の指標として非局所熱電応答を提案する。 これは、電子-電子相互作用がチャネル間の熱交換を媒介するときにのみ熱電応答が期待されるように、2つのチャネル(異なる温度で貯水池に接続された)が有限距離で共役する量子ホールの設定を仮定することによって行われる。 このように、非局所ゼーベック反応は相互作用強度を測定する。 ゼロレンジ相互作用を考慮すると、非平衡可積分相互作用系の電荷とエネルギー電流とノイズを解き、エネルギー平衡の普遍的相互作用依存長スケールを決定する。 さらに、2つの制御可能な量子点接触を持つセットアップにより、熱電性は相互作用する系の熱化を監視し、中間長スケールでの熱交換における相互相関の基本的な役割も持つ。

We investigate nonequilibrium effects in the transport of interacting electrons in quantum conductors, proposing the nonlocal thermoelectric response as a direct indicator of the presence of interactions, nonthermal states and the effect of correlations. This is done by assuming a quantum Hall setup where two channels (connected to reservoirs at different temperatures) co-propagate for a finite distance, such that a thermoelectrical response is only expected if the electron-electron interaction mediates heat exchange between the channels. This way, the nonlocal Seebeck response measures the interaction strength. Considering zero-range interactions, we solve the charge and energy currents and noises of a non-equilibrium integrable interacting system, determining the universal interaction-dependent length scale of energy equilibration. Further, a setup with two controllable quantum point contacts allows thermoelectricity to monitor the interacting system thermalisation as well as the fundamental role of cross-correlations in the heat exchange at intermediate length scales.
翻訳日:2023-07-19 13:44:19 公開日:2023-07-18
# (2+1)d su(2)yang-mills格子ゲージ理論のテンソルネットワークによる有限密度

(2+1)D SU(2) Yang-Mills Lattice Gauge Theory at finite density via tensor networks ( http://arxiv.org/abs/2307.09396v1 )

ライセンス: Link先を確認
Giovanni Cataldi, Giuseppe Magnifico, Pietro Silvi, and Simone Montangero(参考訳) 動的物質を含むハミルトニアン定式化におけるSU(2)ヤン・ミルズモデルに着目し、非アベル格子ゲージ理論の2次元でのテンソルネットワークシミュレーションの実現可能性を示す。 符号プロブレムのないアプローチにより、ゼロバリオン数および有限バリオン数におけるモデルの位相図を、クォークの素質量と色電荷の関数として特徴づける。 すでに中間系の大きさでは、クォークペア境界状態準粒子(バリオン)の液相をはっきりと検出し、その質量は連続体極限に向かって有限である。 低クォーク質量では潜在的な崩壊の痕跡が見られ、高クォーク質量では可能な位相秩序のシグネチャが観察される。

We demonstrate the feasibility of Tensor Network simulations of non-Abelian lattice gauge theories in two spatial dimensions, by focusing on a (minimally truncated) SU(2) Yang-Mills model in Hamiltonian formulation, including dynamical matter. Thanks to our sign-problem-free approach, we characterize the phase diagram of the model at zero and finite baryon number, as a function of the bare mass and color charge of the quarks. Already at intermediate system sizes, we distinctly detect a liquid phase of quark-pair bound-state quasi-particles (baryons), whose mass is finite towards the continuum limit. Interesting phenomena arise at the transition boundary where color-electric and color-magnetic terms are maximally frustrated: for low quark masses, we see traces of potential deconfinement, while for high quark masses, we observe signatures of a possible topological order.
翻訳日:2023-07-19 13:43:39 公開日:2023-07-18
# 非定常環境における費用対効果を用いたオンライン学習

Online Learning with Costly Features in Non-stationary Environments ( http://arxiv.org/abs/2307.09388v1 )

ライセンス: Link先を確認
Saeed Ghoorchian, Evgenii Kortukov, Setareh Maghsudi(参考訳) 長期報酬の最大化は、逐次的な意思決定問題の第一目標である。 既存の手法の多くは、サイド情報が自由に利用可能であると仮定し、学習エージェントが決定する前にすべての特徴の状態を監視することができる。 しかし、現実世界の問題では、有益な情報を集めることはしばしばコストがかかる。 これは、個々の武器の報酬に加えて、特徴状態の観察を学ぶことが意思決定戦略を改善するために不可欠であることを意味する。 問題は、報酬とコスト分布が時間とともに突然変化する非定常環境において悪化する。 上記のデュアルラーニング問題に対処するために,コンテキストバンディット設定を拡張し,エージェントが特徴のサブセットを観察できるようにする。 目的は長期平均利得を最大化することであり、これは蓄積された報酬と平均的な有償コストの差である。 これにより、情報取得コストの最小化と、得られた情報を用いた意思決定プロセスの改善とのトレードオフに直面する。 この目的のために、時間内にサブ線形後悔を保証するアルゴリズムを開発する。 実世界のシナリオにおいて提案した政策の優位性を示す。

Maximizing long-term rewards is the primary goal in sequential decision-making problems. The majority of existing methods assume that side information is freely available, enabling the learning agent to observe all features' states before making a decision. In real-world problems, however, collecting beneficial information is often costly. That implies that, besides individual arms' reward, learning the observations of the features' states is essential to improve the decision-making strategy. The problem is aggravated in a non-stationary environment where reward and cost distributions undergo abrupt changes over time. To address the aforementioned dual learning problem, we extend the contextual bandit setting and allow the agent to observe subsets of features' states. The objective is to maximize the long-term average gain, which is the difference between the accumulated rewards and the paid costs on average. Therefore, the agent faces a trade-off between minimizing the cost of information acquisition and possibly improving the decision-making process using the obtained information. To this end, we develop an algorithm that guarantees a sublinear regret in time. Numerical results demonstrate the superiority of our proposed policy in a real-world scenario.
翻訳日:2023-07-19 13:43:02 公開日:2023-07-18
# 会話検索のためのゼロショットクエリ再構成

Zero-shot Query Reformulation for Conversational Search ( http://arxiv.org/abs/2307.09384v1 )

ライセンス: Link先を確認
Dayu Yang, Yue Zhang, Hui Fang(参考訳) 音声アシスタントの人気が高まるにつれ、会話型検索は情報検索において注目を集めている。 しかし、会話検索におけるデータのスパーシティ問題は、教師付き会話検索手法の進展を著しく妨げている。 その結果、研究者はゼロショット会話検索のアプローチに注力している。 しかしながら、既存のゼロショット法は、すべてのレトリバーに普遍的に適用できないこと、その有効性には十分な説明性がなく、欠落によって引き起こされる一般的な会話の曖昧さを解決するのに苦労していること、の3つの主要な制限に直面している。 これらの制約に対処するために,会話検索データからの監視を必要とせず,従来の会話コンテキストに基づいてクエリを再構成するZeQR(Zero-shot Query Reformulation)フレームワークを導入する。 具体的には,マシンリーディング理解タスク用に設計された言語モデルを用いて,生のクエリにおけるコレファレンスと省略という2つの共通曖昧さを明示的に解決する。 既存のゼロショット法と比較して,本手法は適応やインデックス付けを伴わずに任意のレトリバーに適用可能である。 さらに、曖昧さが明確かつ積極的に解決されているため、説明可能性も向上し、クエリ意図の理解を効果的に強化する。 4つのTREC会話データセットに関する広範な実験を通して、我々の手法の有効性を実証する。

As the popularity of voice assistants continues to surge, conversational search has gained increased attention in Information Retrieval. However, data sparsity issues in conversational search significantly hinder the progress of supervised conversational search methods. Consequently, researchers are focusing more on zero-shot conversational search approaches. Nevertheless, existing zero-shot methods face three primary limitations: they are not universally applicable to all retrievers, their effectiveness lacks sufficient explainability, and they struggle to resolve common conversational ambiguities caused by omission. To address these limitations, we introduce a novel Zero-shot Query Reformulation (ZeQR) framework that reformulates queries based on previous dialogue contexts without requiring supervision from conversational search data. Specifically, our framework utilizes language models designed for machine reading comprehension tasks to explicitly resolve two common ambiguities: coreference and omission, in raw queries. In comparison to existing zero-shot methods, our approach is universally applicable to any retriever without additional adaptation or indexing. It also provides greater explainability and effectively enhances query intent understanding because ambiguities are explicitly and proactively resolved. Through extensive experiments on four TREC conversational datasets, we demonstrate the effectiveness of our method, which consistently outperforms state-of-the-art baselines.
翻訳日:2023-07-19 13:42:46 公開日:2023-07-18
# 回路解析は解釈可能性尺度か? チンチラにおける複数選択能力の証拠

Does Circuit Analysis Interpretability Scale? Evidence from Multiple Choice Capabilities in Chinchilla ( http://arxiv.org/abs/2307.09458v1 )

ライセンス: Link先を確認
Tom Lieberum, Matthew Rahtz, J\'anos Kram\'ar, Geoffrey Irving, Rohin Shah, Vladimir Mikulik(参考訳) \emph{Circuit analysis} は言語モデルの内部メカニズムを理解するための有望な手法である。 しかし、既存の分析は芸術の状況から遠く離れた小さなモデルで行われている。 そこで本研究では,70Bチンチラモデルにおける回路解析のケーススタディを提案し,回路解析のスケーラビリティを検証した。 特に,複数選択質問応答について検討し,正解 \emph{label} の知識を与えられた正解 \emph{text} を特定するチンチラの能力について検討する。 従来のロジット属性,アテンションパターンの可視化,アクティベーションパッチといった手法は,自然にチンチラにスケールし,少数の'アウトプットノード'(アテンションヘッドとMPP)を識別・分類できることがわかった。 さらに,特徴のセマンティクスを理解することを目的とした注意ヘッドの「正しい文字」カテゴリーについて,混合結果を用いて検討する。 通常の複数項目問合せでは,複数項目問合せに対する回答ラベルを操作した場合,頭部の問合せ,キー,値のサブスペースは性能を損なうことなく著しく圧縮し,問合せとキーのサブスペースが少なくともある程度の「列挙」機能において「n番目の項目」を表すことを示す。 しかし、この説明を用いて、ランダム化された回答ラベルを含むより一般的な分布における頭部の振る舞いを理解すると、それは部分的な説明にすぎないことが分かり、複数の選択質問応答における「正しい手紙」ヘッドの操作について学ぶべきことが増えることを示唆する。

\emph{Circuit analysis} is a promising technique for understanding the internal mechanisms of language models. However, existing analyses are done in small models far from the state of the art. To address this, we present a case study of circuit analysis in the 70B Chinchilla model, aiming to test the scalability of circuit analysis. In particular, we study multiple-choice question answering, and investigate Chinchilla's capability to identify the correct answer \emph{label} given knowledge of the correct answer \emph{text}. We find that the existing techniques of logit attribution, attention pattern visualization, and activation patching naturally scale to Chinchilla, allowing us to identify and categorize a small set of `output nodes' (attention heads and MLPs). We further study the `correct letter' category of attention heads aiming to understand the semantics of their features, with mixed results. For normal multiple-choice question answers, we significantly compress the query, key and value subspaces of the head without loss of performance when operating on the answer labels for multiple-choice questions, and we show that the query and key subspaces represent an `Nth item in an enumeration' feature to at least some extent. However, when we attempt to use this explanation to understand the heads' behaviour on a more general distribution including randomized answer labels, we find that it is only a partial explanation, suggesting there is more to learn about the operation of `correct letter' heads on multiple choice question answering.
翻訳日:2023-07-19 13:38:02 公開日:2023-07-18
# 深層学習におけるスムーズな注意:CT頭蓋内出血検出への応用

Smooth Attention for Deep Multiple Instance Learning: Application to CT Intracranial Hemorrhage Detection ( http://arxiv.org/abs/2307.09457v1 )

ライセンス: Link先を確認
Yunan Wu, Francisco M. Castro-Mac\'ias, Pablo Morales-\'Alvarez, Rafael Molina, Aggelos K. Katsaggelos(参考訳) マルチインスタンスラーニング(MIL)は、バッグラベルが知られ、バッグ内のインスタンスラベルが不明な医療画像診断に広く応用されている。 従来のMILでは、各バッグのインスタンスは所定の分布から独立したサンプルであると仮定している。 しかし、インスタンスは、しばしば空間的または順序的に順序付けされ、近隣のインスタンスも同様の診断の重要性を期待する。 そこで本研究では,smoous attention deep mil (sa-dmil)モデルを提案する。 バッグ内の各インスタンスに支払われる注意をエンコードする潜在関数に対して、第1および第2次制約を導入することにより、滑らか性が実現される。 頭部CTにおける頭蓋内出血(ICH)の検出に本法を適用した。 その結果,この小説のSA-DMILが示唆された。 a)スキャン(バッグ)レベルとスライス(インスタンス)レベルの両方において、非スムースアテンションMILよりも優れたパフォーマンスを達成する。 b)スライス間の空間的依存関係を学習し, c) は同じ ich テストセットで現在の mil メソッドよりも優れています。

Multiple Instance Learning (MIL) has been widely applied to medical imaging diagnosis, where bag labels are known and instance labels inside bags are unknown. Traditional MIL assumes that instances in each bag are independent samples from a given distribution. However, instances are often spatially or sequentially ordered, and one would expect similar diagnostic importance for neighboring instances. To address this, in this study, we propose a smooth attention deep MIL (SA-DMIL) model. Smoothness is achieved by the introduction of first and second order constraints on the latent function encoding the attention paid to each instance in a bag. The method is applied to the detection of intracranial hemorrhage (ICH) on head CT scans. The results show that this novel SA-DMIL: (a) achieves better performance than the non-smooth attention MIL at both scan (bag) and slice (instance) levels; (b) learns spatial dependencies between slices; and (c) outperforms current state-of-the-art MIL methods on the same ICH test set.
翻訳日:2023-07-19 13:37:15 公開日:2023-07-18
# SR-GANモデルの比較解析

A comparative analysis of SR-GAN models ( http://arxiv.org/abs/2307.09456v1 )

ライセンス: Link先を確認
Fatemeh Rezapoor Nikroo, Ajinkya Deshmukh, Anantha Sharma, Adrian Tam, Kaarthik Kumar, Cleo Noris(参考訳) 本研究では,パイプラインを用いて劣化する実画像のベンチマークデータセットを用いて,複数の最先端SR GAN(Super Resolution Generative Adversarial Network, ESRGAN, Real-ESRGAN, EDSR)モデルの性能を評価する。 その結果,視覚品質を維持しつつ入力画像の解像度を著しく向上させるモデルがみられ,tesseract ocrエンジンを用いて評価した。 EDSR-BASEモデルは,最小の計算オーバーヘッドを伴って,定量的指標と主観的視覚的品質評価の両方の観点から,残りの候補モデルよりも優れている。 具体的には、EDSRは、高いピーク信号対雑音比(PSNR)と構造類似度指数(SSIM)の画像を生成し、Tesseract OCRエンジンで高品質なOCR結果を返す。 これらの結果から,EDSRは単一画像の超解像に対する堅牢かつ効果的なアプローチであり,高品質な視覚的忠実度が重要かつ最適化された計算手法に特に適している可能性が示唆された。

In this study, we evaluate the performance of multiple state-of-the-art SR GAN (Super Resolution Generative Adversarial Network) models, ESRGAN, Real-ESRGAN and EDSR, on a benchmark dataset of real-world images which undergo degradation using a pipeline. Our results show that some models seem to significantly increase the resolution of the input images while preserving their visual quality, this is assessed using Tesseract OCR engine. We observe that EDSR-BASE model from huggingface outperforms the remaining candidate models in terms of both quantitative metrics and subjective visual quality assessments with least compute overhead. Specifically, EDSR generates images with higher peak signal-to-noise ratio (PSNR) and structural similarity index (SSIM) values and are seen to return high quality OCR results with Tesseract OCR engine. These findings suggest that EDSR is a robust and effective approach for single-image super-resolution and may be particularly well-suited for applications where high-quality visual fidelity is critical and optimized compute.
翻訳日:2023-07-19 13:36:39 公開日:2023-07-18
# 予習変圧器を用いた外分布検出のための擬似外乱露光

Pseudo Outlier Exposure for Out-of-Distribution Detection using Pretrained Transformers ( http://arxiv.org/abs/2307.09455v1 )

ライセンス: Link先を確認
Jaeyoung Kim (1), Kyuheon Jung (2), Dongbin Na (3), Sion Jang (4), Eunbin Park (2), Sungchul Choi (2) ((1) Gachon University, (2) Pukyong National University, (3) VUNO Inc, (4) Alchera Inc)(参考訳) 現実世界の言語アプリケーションでは、out-of-distribution(ood)サンプルの検出は、ユーザに警告したり、そのような信頼できないサンプルを拒否するのに役立つ。 しかし、現代の過剰パラメータ言語モデルは、しばしば、in-distribution (id) と ood のサンプルの両方に対して自信過剰な予測を生成する。 特に、言語モデルは、これらのOODサンプルがID多様体の近くにあるため、IDサンプルに類似した意味表現を持つOODサンプルに悩まされる。 テストOODサンプルを検出するために、IDと多様な外れ値サンプルでリジェクションネットワークをトレーニングすることができるが、補助的なOODデータセットを明示的に収集することは、データ収集にさらなる負担をもたらす。 本稿では,idクラスに関連するトークンを順次マスキングすることにより,サブロゲートなoodデータセットを構築するための,簡易かつ効果的な手法であるpseudo outlier exposure (poe)を提案する。 POE が導入したシュロゲート OOD サンプルは ID データに類似した表現を示しており,拒否ネットワークのトレーニングに最も有効である。 本手法は外部OODデータを一切必要とせず,既製のトランスフォーマーで容易に実装できる。 最先端アルゴリズムとの包括的な比較は、いくつかのテキスト分類ベンチマークにおけるPOEの競争力を示している。

For real-world language applications, detecting an out-of-distribution (OOD) sample is helpful to alert users or reject such unreliable samples. However, modern over-parameterized language models often produce overconfident predictions for both in-distribution (ID) and OOD samples. In particular, language models suffer from OOD samples with a similar semantic representation to ID samples since these OOD samples lie near the ID manifold. A rejection network can be trained with ID and diverse outlier samples to detect test OOD samples, but explicitly collecting auxiliary OOD datasets brings an additional burden for data collection. In this paper, we propose a simple but effective method called Pseudo Outlier Exposure (POE) that constructs a surrogate OOD dataset by sequentially masking tokens related to ID classes. The surrogate OOD sample introduced by POE shows a similar representation to ID data, which is most effective in training a rejection network. Our method does not require any external OOD data and can be easily implemented within off-the-shelf Transformers. A comprehensive comparison with state-of-the-art algorithms demonstrates POE's competitiveness on several text classification benchmarks.
翻訳日:2023-07-19 13:35:55 公開日:2023-07-18
# 電流バイアスのジョセフソン接合装置の実験的証拠は、マクロスコピックな「ボソン」や「フェルミオン」として機能しうる。

Experimental evidences of a current-biased Josephson junction device can be worked as a macroscopic "Boson" or "Fermion" and the combination ( http://arxiv.org/abs/2307.09452v1 )

ライセンス: Link先を確認
P. H. Ouyang, S. R. He, Y. Z. Wang, Y. Q. Chai, J. X. He, H. Chang, and L. F. Wei(参考訳) 統計分布則によれば、実3+1次元の世界における全ての素粒子は例外なくボソンまたはフェルミオンとして選択されなければならない。 そこで, 量子化電流バイアスドジョセフソン接合(cbjj)を人工巨視的"粒子"として, そのバイアスド直流電流に応じてボソンまたはフェルミオンとして機能させることを実験的に検証した。 高真空2角電子ビーム蒸着法を用いてCBJJ装置を作製し,低周波信号駆動による物理パラメータの校正を行った。 製造したCBJJ装置のマイクロ波透過特性を入力出力理論を用いて解析し,50mKの低温環境下で測定した。 実験結果は、バイアス電流がジャンクションの臨界値よりも著しく低い場合、デバイスはよく線形な状態にあり、「ボソン」と呼ばれる調和振動子として機能し、バイアス電流が十分に大きい場合(特に臨界電流へのアプローチ)、デバイスは非線形な状態において顕著に機能し、2レベル人工原子、すなわち「フェルミオン」として機能する。 したがって、バイアスdc電流を調整することにより、CBJJ装置をボソン型マクロ粒子からフェルミオン型粒子に効果的に切り替えることができ、超伝導量子デバイスアプリケーションの新しいアプローチを開拓することができる。

According to the statistical distribution laws, all the elementary particles in the real 3+1-dimensional world must and only be chosen as either bosons or fermions, without exception and not both. Here, we experimentally verified that a quantized current-biased Josephson junction (CBJJ), as an artificial macroscopic "particle", can be served as either boson or fermion, depending on its biased dc-current. By using the high vacuum two-angle electron beam evaporations, we fabricated the CBJJ devices and calibrated their physical parameters by applying low-frequency signal drivings. The microwave transmission characteristics of the fabricated CBJJ devices are analyzed by using the input-output theory and measured at 50mK temperature environment under low power limit. The experimental results verify the theoretical predictions, i.e., when the bias current is significantly lower than the critical one of the junction, the device works in a well linear regime and thus works as a harmonic oscillator, i.e., a "boson"; while if the biased current is sufficiently large (especially approaches to its critical current), the device works manifestly in the nonlinear regime and thus can be served as a two-level artificial atom, i.e., a "fermion". Therefore, by adjusting the biased dc-current, the CBJJ device can be effectively switched from the boson-type macroscopic particle to the fermion-type one, and thus may open the new approach of the superconducting quantum device application.
翻訳日:2023-07-19 13:35:37 公開日:2023-07-18
# 単位円グラフ上の最大独立集合問題の硬さと量子スピードアップの展望

Hardness of the Maximum Independent Set Problem on Unit-Disk Graphs and Prospects for Quantum Speedups ( http://arxiv.org/abs/2307.09442v1 )

ライセンス: Link先を確認
Ruben S. Andrist, Martin J. A. Schuetz, Pierre Minssen, Romina Yalovetzky, Shouvanik Chakrabarti, Dylan Herman, Niraj Kumar, Grant Salton, Ruslan Shaydulin, Yue Sun, Marco Pistoia, Helmut G. Katzgraber(参考訳) rydbergの原子配列は、量子スピードアップのデモンストレーションの有力候補の1つだ。 最大289 qubits (Ebadi et al., Science 376, 1209 (2022)) を用いた最近の実験により、原論文の範囲を超えて幅広い古典的解法を持つ単位ディスクグラフ上の最大独立集合問題について研究した。 我々は,厳密かつヒューリスティックなアルゴリズムを用いて,広範囲な数値研究を行い,問題の難易度を評価する。 共用ジャックのような接続性を持つ準平面インスタンスは、インスタンス固有の微調整をすることなく、コモディティハードウェア上でカスタムとジェネリックの両方の商用解法を用いて、数分で最大数千のノードで最適に解くことができる。 また,ebadiらによって検討された古典的なシミュレーションアニーリングアルゴリズムの制約を緩和することで,量子アルゴリズムとの競合性を示した。 逆に、より大きな接続性または少ない構造を持つインスタンスは、潜在的に桁違いに大きい時間から解法を示す。 これらの結果に基づき,従来より数桁難易度(確立された古典的解法)のインスタンス上で,rydberg原子配列を用いた実験をモチベーションとして,問題硬度を体系的に調整するプロトコルを提案する。

Rydberg atom arrays are among the leading contenders for the demonstration of quantum speedups. Motivated by recent experiments with up to 289 qubits [Ebadi et al., Science 376, 1209 (2022)] we study the maximum independent set problem on unit-disk graphs with a broader range of classical solvers beyond the scope of the original paper. We carry out extensive numerical studies and assess problem hardness, using both exact and heuristic algorithms. We find that quasi-planar instances with Union-Jack-like connectivity can be solved to optimality for up to thousands of nodes within minutes, with both custom and generic commercial solvers on commodity hardware, without any instance-specific fine-tuning. We also perform a scaling analysis, showing that by relaxing the constraints on the classical simulated annealing algorithms considered in Ebadi et al., our implementation is competitive with the quantum algorithms. Conversely, instances with larger connectivity or less structure are shown to display a time-to-solution potentially orders of magnitudes larger. Based on these results we propose protocols to systematically tune problem hardness, motivating experiments with Rydberg atom arrays on instances orders of magnitude harder (for established classical solvers) than previously studied.
翻訳日:2023-07-19 13:35:07 公開日:2023-07-18
# 逆問題における収束正則化と線形プラグアンドプレイデノイザ

Convergent regularization in inverse problems and linear plug-and-play denoisers ( http://arxiv.org/abs/2307.09441v1 )

ライセンス: Link先を確認
Andreas Hauptmann and Subhadip Mukherjee and Carola-Bibiane Sch\"onlieb and Ferdia Sherry(参考訳) PnP(Plug-and-play denoising)は、オフザシェルフ画像デノイザを用いて、逆画像問題を解決するための一般的な反復的フレームワークである。 彼らの経験的成功は、pnpの反復的な収束をデノイザーの様々な仮定の下で理解しようとする一連の研究の動機となった。 ドノイザー上の異なる正則性条件に対するPnP反復の収束を確立するためにかなりの量の研究がなされているが、測定におけるノイズレベルがゼロになる傾向があるため、収束した解の漸近的性質についてはあまり知られていない。 本稿では,まず,逆問題における古典正規化理論の概要と,有意収束正則化スキームである最近のデータ駆動手法について概説する。 次にpnpアルゴリズムとその確立した収束保証について論じる。 その後,線形デノイザを用いたPnPアルゴリズムを提案し,デノイザから生じる正規化の強度を制御する新しいスペクトルフィルタリング手法を提案する。 さらに,denoiser の暗黙的正則化を明示的正則化汎関数に関連付けることで,pnp の線形正則化が収束正則化スキームにつながることを厳密に示す。 より具体的には、ノイズが消えるときの極限において、PnP再構成は、ノイズレス作用素方程式を満たす解の正則化ポテンシャルの最小化に収束する。 理論的解析は、トモグラフィ画像再構成の古典的逆問題に対する数値実験によって裏付けられる。

Plug-and-play (PnP) denoising is a popular iterative framework for solving imaging inverse problems using off-the-shelf image denoisers. Their empirical success has motivated a line of research that seeks to understand the convergence of PnP iterates under various assumptions on the denoiser. While a significant amount of research has gone into establishing the convergence of the PnP iteration for different regularity conditions on the denoisers, not much is known about the asymptotic properties of the converged solution as the noise level in the measurement tends to zero, i.e., whether PnP methods are provably convergent regularization schemes under reasonable assumptions on the denoiser. This paper serves two purposes: first, we provide an overview of the classical regularization theory in inverse problems and survey a few notable recent data-driven methods that are provably convergent regularization schemes. We then continue to discuss PnP algorithms and their established convergence guarantees. Subsequently, we consider PnP algorithms with linear denoisers and propose a novel spectral filtering technique to control the strength of regularization arising from the denoiser. Further, by relating the implicit regularization of the denoiser to an explicit regularization functional, we rigorously show that PnP with linear denoisers leads to a convergent regularization scheme. More specifically, we prove that in the limit as the noise vanishes, the PnP reconstruction converges to the minimizer of a regularization potential subject to the solution satisfying the noiseless operator equation. The theoretical analysis is corroborated by numerical experiments for the classical inverse problem of tomographic image reconstruction.
翻訳日:2023-07-19 13:34:40 公開日:2023-07-18
# オブジェクト中心学習のための教師なし条件付きスロット注意

Unsupervised Conditional Slot Attention for Object Centric Learning ( http://arxiv.org/abs/2307.09437v1 )

ライセンス: Link先を確認
Avinash Kori, Francesco Locatello, Francesca Toni, Ben Glocker(参考訳) ダウンストリーム推論タスクのためのオブジェクトレベルの表現の抽出は、aiの新たな領域だ。 教師なし設定でオブジェクト中心の表現を学ぶことは、複数の課題を示し、鍵となるのは、任意の数のオブジェクトインスタンスを特別なオブジェクトスロットにバインドすることである。 Slot Attentionのような最近のオブジェクト中心表現法は、動的推論レベルバインディングで構成可能な表現を学ぶために反復的注意を利用するが、特別なスロットレベルバインディングを達成できない。 そこで本稿では,新しい確率スロット辞書(PSD)を用いた教師なし条件スロット注意を提案する。 psdの定義は (i)キーとしての抽象オブジェクトレベルのプロパティベクトル (ii)パラメトリックガウス分布を対応する値とする。 本稿では,複数の下流タスク,すなわち,オブジェクト発見,構成シーン生成,構成的視覚的推論における学習対象レベルのコンディショニング分布の利点を示す。 提案手法は,オブジェクト発見タスクにおいてスロットアテンションよりもよく,あるいは良い動作をしながら,構成的視覚的推論のいくつかのショット適応性タスクにおいて,シーン構成能力と大幅な向上をもたらすことを示す。

Extracting object-level representations for downstream reasoning tasks is an emerging area in AI. Learning object-centric representations in an unsupervised setting presents multiple challenges, a key one being binding an arbitrary number of object instances to a specialized object slot. Recent object-centric representation methods like Slot Attention utilize iterative attention to learn composable representations with dynamic inference level binding but fail to achieve specialized slot level binding. To address this, in this paper we propose Unsupervised Conditional Slot Attention using a novel Probabilistic Slot Dictionary (PSD). We define PSD with (i) abstract object-level property vectors as key and (ii) parametric Gaussian distribution as its corresponding value. We demonstrate the benefits of the learnt specific object-level conditioning distributions in multiple downstream tasks, namely object discovery, compositional scene generation, and compositional visual reasoning. We show that our method provides scene composition capabilities and a significant boost in a few shot adaptability tasks of compositional visual reasoning, while performing similarly or better than slot attention in object discovery tasks
翻訳日:2023-07-19 13:34:12 公開日:2023-07-18
# SLMGAN: GANにおける教師なしゼロショット音声変換のための音声言語モデルの爆発的表現

SLMGAN: Exploiting Speech Language Model Representations for Unsupervised Zero-Shot Voice Conversion in GANs ( http://arxiv.org/abs/2307.09435v1 )

ライセンス: Link先を確認
Yinghao Aaron Li, Cong Han, Nima Mesgarani(参考訳) 近年,テキスト音声合成,音声変換,音声強調など,様々な生成音声モデリング応用において,大規模事前学習言語モデル(SLM)が顕著に進歩している。 これらのアプリケーションは通常、テキストや音声入力を事前訓練されたSLM表現にマッピングする。 本稿では,音声変換のためのGAN(Generative Adversarial Network)フレームワークにおいて,SLM表現を識別タスクに活用するための新しいアプローチであるSLMGANを提案する。 StarGANv2-VCをベースとした新しいSLMベースのWavLM識別器と、新たに設計されたSLM特徴マッチング損失関数を併用することにより、トレーニング中にテキストラベルを必要としない教師なしゼロショット音声変換システムを実現する。 主観評価の結果,SLMGANは既存のゼロショット音声変換モデルよりも自然性において優れており,関連アプリケーションに対するSLMベースの判別器の可能性を強調した。

In recent years, large-scale pre-trained speech language models (SLMs) have demonstrated remarkable advancements in various generative speech modeling applications, such as text-to-speech synthesis, voice conversion, and speech enhancement. These applications typically involve mapping text or speech inputs to pre-trained SLM representations, from which target speech is decoded. This paper introduces a new approach, SLMGAN, to leverage SLM representations for discriminative tasks within the generative adversarial network (GAN) framework, specifically for voice conversion. Building upon StarGANv2-VC, we add our novel SLM-based WavLM discriminators on top of the mel-based discriminators along with our newly designed SLM feature matching loss function, resulting in an unsupervised zero-shot voice conversion system that does not require text labels during training. Subjective evaluation results show that SLMGAN outperforms existing state-of-the-art zero-shot voice conversion models in terms of naturalness and achieves comparable similarity, highlighting the potential of SLM-based discriminators for related applications.
翻訳日:2023-07-19 13:33:54 公開日:2023-07-18
# 人工知能のプライバシと進歩のバランス:生物医学研究・教育の病理学における匿名化

Balancing Privacy and Progress in Artificial Intelligence: Anonymization in Histopathology for Biomedical Research and Education ( http://arxiv.org/abs/2307.09426v1 )

ライセンス: Link先を確認
Neel Kanwal, Emiel A.M. Janssen, Kjersti Engan(参考訳) 生物医学研究の進展は、大量の医療データへのアクセスに大きく依存している。 病理組織学の場合,全スライド画像(WSI)と臨床病理学的情報は,Digital Pathology(DP)のための人工知能(AI)アルゴリズムの開発に有用である。 医療データの転送は、二次的な目的のためにデータの使用性を高めるが、患者のプライバシにリスクをもたらす。 同時に、既存の規制は、再識別リスクを避けるため、医療データを「必要に応じてクローズド」し続けるよう推進している。 一般に、これらの法的規制は機密データを削除する必要があるが、現代の画像マッチングアルゴリズムによるデータ連鎖攻撃の可能性を考慮していない。 さらに、DPにおける標準化の欠如により、WSIのすべてのフォーマットに対して単一のソリューションを確立するのが難しくなる。 これらの課題は、AIアルゴリズムを開発しながらプライバシーと進捗のバランスをとるバイオインフォマティクス研究者の問題を提起する。 本稿では,医療データ共有の法的規制と用語について検討する。 我々は既存のアプローチをレビューし、病理学的観点から課題を強調する。 また,多分野の研究・教育を促進するために,組織データのためのデータ共有ガイドラインも提示する。

The advancement of biomedical research heavily relies on access to large amounts of medical data. In the case of histopathology, Whole Slide Images (WSI) and clinicopathological information are valuable for developing Artificial Intelligence (AI) algorithms for Digital Pathology (DP). Transferring medical data "as open as possible" enhances the usability of the data for secondary purposes but poses a risk to patient privacy. At the same time, existing regulations push towards keeping medical data "as closed as necessary" to avoid re-identification risks. Generally, these legal regulations require the removal of sensitive data but do not consider the possibility of data linkage attacks due to modern image-matching algorithms. In addition, the lack of standardization in DP makes it harder to establish a single solution for all formats of WSIs. These challenges raise problems for bio-informatics researchers in balancing privacy and progress while developing AI algorithms. This paper explores the legal regulations and terminologies for medical data-sharing. We review existing approaches and highlight challenges from the histopathological perspective. We also present a data-sharing guideline for histological data to foster multidisciplinary research and education.
翻訳日:2023-07-19 13:33:33 公開日:2023-07-18
# 並列ハイブリッドネットワークを用いた発電所における蒸気質量流予測

Forecasting the steam mass flow in a powerplant using the parallel hybrid network ( http://arxiv.org/abs/2307.09483v1 )

ライセンス: Link先を確認
Andrii Kurkin, Jonas Hegemann, Mo Kordzanganeh, Alexey Melnikov(参考訳) エネルギー部門では効率的で持続可能な発電が重要な課題である。 特に火力発電所は蒸気の質量流を正確に予測し、運用効率とコスト削減に不可欠である。 本研究では, 産業環境での時系列予測に特化して設計された, パラメトリック量子回路と従来のフィードフォワードニューラルネットワークを組み合わせた並列ハイブリッドニューラルネットワークアーキテクチャを用いて, 15分後の蒸気質量流の予測を強化する。 実験の結果, 並列ハイブリッドモデルは, 単独の古典的および量子的モデルよりも優れており, 学習後の平均二乗誤差(MSE)の5.7倍, および4.9倍の損失を, 純粋古典的および純粋量子的ネットワークと比較した。 さらに、ハイブリッドモデルでは、基礎的真理とテスト集合上のモデル予測との間の相対誤差が、純粋な古典的モデルよりも最大2倍小さいことが示される。 これらの知見は、量子と古典的な機械学習技術の統合が、エネルギーセクターが直面している現実的な課題にどのように適用できるかという、より広い科学的理解に寄与する。

Efficient and sustainable power generation is a crucial concern in the energy sector. In particular, thermal power plants grapple with accurately predicting steam mass flow, which is crucial for operational efficiency and cost reduction. In this study, we use a parallel hybrid neural network architecture that combines a parametrized quantum circuit and a conventional feed-forward neural network specifically designed for time-series prediction in industrial settings to enhance predictions of steam mass flow 15 minutes into the future. Our results show that the parallel hybrid model outperforms standalone classical and quantum models, achieving more than 5.7 and 4.9 times lower mean squared error (MSE) loss on the test set after training compared to pure classical and pure quantum networks, respectively. Furthermore, the hybrid model demonstrates smaller relative errors between the ground truth and the model predictions on the test set, up to 2 times better than the pure classical model. These findings contribute to the broader scientific understanding of how integrating quantum and classical machine learning techniques can be applied to real-world challenges faced by the energy sector, ultimately leading to optimized power plant operations.
翻訳日:2023-07-19 13:25:58 公開日:2023-07-18
# 境界駆動型二重スピンチェーンと資源効率の良い遠隔絡み合い安定化の精密結果

Exact results for a boundary-driven double spin chain and resource-efficient remote entanglement stabilization ( http://arxiv.org/abs/2307.09482v1 )

ライセンス: Link先を確認
Andrew Lingenfelter, Mingxing Yao, Andrew Pocklington, Yu-Xin Wang, Abdullah Irfan, Wolfgang Pfaff, Aashish A. Clerk(参考訳) 2つの$XX$結合された$N$-qubitスピンチェイン(おそらくは非一様結合)が境界 Rabi ドライブおよび導波路(双方向または一方向)によって生じる共通境界損失を受けるようなセットアップの定常状態に対する正確な解を導出する。 幅広いパラメータに対して、このシステムは純粋に絡み合った定常状態を持ち、圧縮光を使わずに遠隔マルチキュービットの絡み合いを安定化する手段を提供する。 我々の解はまた、相互作用するフェルミオンモデルに写像する1つの境界駆動散逸$XX$スピン鎖に関する洞察を与える。 非平衡定常状態は、動的に拘束されたホッピングから生じるホール励起の創発的なペアリングを含む驚くべき相関効果を示す。 我々のシステムは、回路QEDを含む多くの実験プラットフォームで実装できる。

We derive an exact solution for the steady state of a setup where two $XX$-coupled $N$-qubit spin chains (with possibly non-uniform couplings) are subject to boundary Rabi drives, and common boundary loss generated by a waveguide (either bidirectional or unidirectional). For a wide range of parameters, this system has a pure entangled steady state, providing a means for stabilizing remote multi-qubit entanglement without the use of squeezed light. Our solution also provides insights into a single boundary-driven dissipative $XX$ spin chain that maps to an interacting fermionic model. The non-equilibrium steady state exhibits surprising correlation effects, including an emergent pairing of hole excitations that arises from dynamically constrained hopping. Our system could be implemented in a number of experimental platforms, including circuit QED.
翻訳日:2023-07-19 13:25:37 公開日:2023-07-18
# AnyDoor: ゼロショットオブジェクトレベルのイメージカスタマイズ

AnyDoor: Zero-shot Object-level Image Customization ( http://arxiv.org/abs/2307.09481v1 )

ライセンス: Link先を確認
Xi Chen, Lianghua Huang, Yu Liu, Yujun Shen, Deli Zhao, Hengshuang Zhao(参考訳) これは拡散ベースのイメージジェネレータで、ターゲットオブジェクトをユーザ特定場所の新しいシーンに、調和のとれた方法でテレポートする能力を持つ。 各オブジェクトのパラメータをチューニングする代わりに、我々のモデルは1回だけ訓練され、推論段階で様々なオブジェクトとシーンの組み合わせに強制的に一般化されます。 このような挑戦的なゼロショット設定は、ある対象を適切に特徴づける必要がある。 この目的のために、テクスチャの詳細を維持しつつ、多彩な局所変化(例えば、照明、方向、姿勢など)を許容できるよう慎重に設計され、異なる環境に好適にブレンドされたオブジェクトをサポートする、詳細な特徴でよく使われるアイデンティティ機能を補完する。 さらに、単一の物体の様々な形態(すなわち時間軸に沿って)を観察できるビデオデータセットから知識を借りることを提案し、より強力なモデル一般化性とロバスト性をもたらす。 広範な実験によって、既存の代替品よりも優れたアプローチと、仮想トライオンやオブジェクト移動といった現実世界のアプリケーションにおける大きな可能性を示しています。 プロジェクトページはhttps://damo-vilab.github.io/AnyDoor-Page/。

This work presents AnyDoor, a diffusion-based image generator with the power to teleport target objects to new scenes at user-specified locations in a harmonious way. Instead of tuning parameters for each object, our model is trained only once and effortlessly generalizes to diverse object-scene combinations at the inference stage. Such a challenging zero-shot setting requires an adequate characterization of a certain object. To this end, we complement the commonly used identity feature with detail features, which are carefully designed to maintain texture details yet allow versatile local variations (e.g., lighting, orientation, posture, etc.), supporting the object in favorably blending with different surroundings. We further propose to borrow knowledge from video datasets, where we can observe various forms (i.e., along the time axis) of a single object, leading to stronger model generalizability and robustness. Extensive experiments demonstrate the superiority of our approach over existing alternatives as well as its great potential in real-world applications, such as virtual try-on and object moving. Project page is https://damo-vilab.github.io/AnyDoor-Page/.
翻訳日:2023-07-19 13:25:21 公開日:2023-07-18
# FACTS:スタイルの移動を用いた顔アニメーション作成

FACTS: Facial Animation Creation using the Transfer of Styles ( http://arxiv.org/abs/2307.09480v1 )

ライセンス: Link先を確認
Jack Saunders, Steven Caulkin, Vinay Namboodiri(参考訳) 感情を正確に捉えて表現する能力は、ビデオゲームやその他のエンターテイメントで信じられないキャラクターを作る重要な側面である。 伝統的に、このアニメーションは芸術的努力やパフォーマンス・キャプチャによって達成され、時間と労力の両方でコストがかかる。 最近では、音声駆動モデルが成功を収めているが、音声信号と相関しない領域では表現力に欠けることが多い。 本稿では,既存のアニメーションを取り入れ,スタイル特性の変更を可能にすることによって,顔のアニメーションに新たなアプローチを提案する。 具体的には,3次元顔のアニメーションを異なる感情や個人固有のスタイルに変換するために,StarGANの使用について検討する。 この方法でアニメーションのリップシンクを維持できるのは、新しいビセメ保存損失を用いることによって実現されている。

The ability to accurately capture and express emotions is a critical aspect of creating believable characters in video games and other forms of entertainment. Traditionally, this animation has been achieved with artistic effort or performance capture, both requiring costs in time and labor. More recently, audio-driven models have seen success, however, these often lack expressiveness in areas not correlated to the audio signal. In this paper, we present a novel approach to facial animation by taking existing animations and allowing for the modification of style characteristics. Specifically, we explore the use of a StarGAN to enable the conversion of 3D facial animations into different emotions and person-specific styles. We are able to maintain the lip-sync of the animations with this method thanks to the use of a novel viseme-preserving loss.
翻訳日:2023-07-19 13:25:02 公開日:2023-07-18
# 真実を再考する: 言語モデルがどのように偽のデモを処理するかを理解する

Overthinking the Truth: Understanding how Language Models Process False Demonstrations ( http://arxiv.org/abs/2307.09476v1 )

ライセンス: Link先を確認
Danny Halawi, Jean-Stanislas Denain, Jacob Steinhardt(参考訳) 現代の言語モデルは、わずかな学習を通じて複雑なパターンを模倣することができ、微調整することなく挑戦的なタスクを完了できる。 しかし、模倣によってモデルが不正確さや有害なコンテンツの再現に繋がることもある。 モデルの内部表現のレンズを通して有害な模倣を研究し、その2つの関連する現象を同定する。 中間層から予測をデコードするときに現れる最初の現象は、不正確な数発のデモに対して正しいものである。 初期の層では、両方のデモが類似したモデルの振る舞いを誘導するが、その振る舞いは、ある「クリティカルな層」で鋭く発散し、その後、間違ったデモの精度が徐々に低下する。 第2の現象である偽誘導頭部は、過度に考え直される可能性があり、これらは、過去の実証から偽の情報を受け取り、コピーする後期層の頭であり、アブレーションによって過度に考え直される。 科学的理解以外にも,中間モデル計算の研究は,有害なモデル行動に対する理解と保護に有望な手段である可能性が示唆された。

Modern language models can imitate complex patterns through few-shot learning, enabling them to complete challenging tasks without fine-tuning. However, imitation can also lead models to reproduce inaccuracies or harmful content if present in the context. We study harmful imitation through the lens of a model's internal representations, and identify two related phenomena: overthinking and false induction heads. The first phenomenon, overthinking, appears when we decode predictions from intermediate layers, given correct vs. incorrect few-shot demonstrations. At early layers, both demonstrations induce similar model behavior, but the behavior diverges sharply at some "critical layer", after which the accuracy given incorrect demonstrations progressively decreases. The second phenomenon, false induction heads, are a possible mechanistic cause of overthinking: these are heads in late layers that attend to and copy false information from previous demonstrations, and whose ablation reduces overthinking. Beyond scientific understanding, our results suggest that studying intermediate model computations could be a promising avenue for understanding and guarding against harmful model behaviors.
翻訳日:2023-07-19 13:24:35 公開日:2023-07-18
# chatspot: 正確な参照命令チューニングによるマルチモーダルllmのブートストラップ

ChatSpot: Bootstrapping Multimodal LLMs via Precise Referring Instruction Tuning ( http://arxiv.org/abs/2307.09474v1 )

ライセンス: Link先を確認
Liang Zhao, En Yu, Zheng Ge, Jinrong Yang, Haoran Wei, Hongyu Zhou, Jianjian Sun, Yuang Peng, Runpei Dong, Chunrui Han, Xiangyu Zhang(参考訳) 人間-AIの対話性は、マルチモーダル大言語モデル(MLLM)のユーザビリティを反映する重要な側面である。 しかし、既存のエンド・ツー・エンドのMLLMでは、ユーザーが言語命令で操作することしかできず、対話的な精度と効率が制限される。 本研究では,特定領域を参照するための指示として,ポイントやボックスなどの多様な参照表現を用いた正確な参照指示を提案する。 これによりMLLMは関心領域に集中し、よりきめ細かい相互作用を実現することができる。 マウスクリック,ドラッグ・アンド・ドロップ,ドローイングボックスなどさまざまなインタラクション形式をサポートし,より柔軟でシームレスなインタラクティブなエクスペリエンスを提供する,統合されたエンドツーエンドのマルチモーダル大言語モデルであるchatspotを提案する。 また,既存のデータセットとGPT-4生成に基づく多粒度視覚言語命令追跡データセットを構築した。 さらに,地域認識とインタラクションの有効性を評価するための一連の評価タスクを設計する。 実験結果はChatSpotの有望なパフォーマンスを示している。

Human-AI interactivity is a critical aspect that reflects the usability of multimodal large language models (MLLMs). However, existing end-to-end MLLMs only allow users to interact with them through language instructions, leading to the limitation of the interactive accuracy and efficiency. In this study, we present precise referring instructions that utilize diverse reference representations such as points and boxes as referring prompts to refer to the special region. This enables MLLMs to focus on the region of interest and achieve finer-grained interaction. Based on precise referring instruction, we propose ChatSpot, a unified end-to-end multimodal large language model that supports diverse forms of interactivity including mouse clicks, drag-and-drop, and drawing boxes, which provides a more flexible and seamless interactive experience. We also construct a multi-grained vision-language instruction-following dataset based on existing datasets and GPT-4 generating. Furthermore, we design a series of evaluation tasks to assess the effectiveness of region recognition and interaction. Experimental results showcase ChatSpot's promising performance.
翻訳日:2023-07-19 13:24:14 公開日:2023-07-18
# GroupLane:チャンネルワイドグルーピングによるエンドツーエンド3Dレーン検出

GroupLane: End-to-End 3D Lane Detection with Channel-wise Grouping ( http://arxiv.org/abs/2307.09472v1 )

ライセンス: Link先を確認
Zhuoling Li, Chunrui Han, Zheng Ge, Jinrong Yang, En Yu, Haoqian Wang, Hengshuang Zhao, Xiangyu Zhang(参考訳) 3dレーン検出における効率性は,実用的なデプロイメント要求のために極めて重要である。 本研究では,高い検出精度を維持できる簡易かつ高速でエンドツーエンドな検出器を提案する。 具体的には、行毎の分類に基づいて、完全畳み込み型ヘッドのセットを考案する。 従来とは対照的に,垂直線と水平線の両方の認識を支援する。 また,本手法は鳥眼ビューで行の分類を行う最初の方法である。 頭の中で、私たちは特徴を複数のグループに分割し、全ての特徴群はレーンインスタンスに対応する。 トレーニング中、予測は、計算損失に一致した1対1のシングルウィンマッチングを用いてレーンラベルに関連付けられ、推論には後処理操作が要求されない。 このようにして提案する完全畳み込み検出器grouplaneはdetrのようなエンドツーエンド検出を実現する。 OpenLane、One-3DLanes、OpenLane-Huaweiの3つの実世界の3Dレーンベンチマークで評価され、GroupLaneはConvNext-Baseをバックボーンとして採用し、OpenLane検証セットの13.6%のF1スコアで発行されたPersFormerを上回った。 さらに、ResNet18のGroupLaneはPersFormerを4.9%上回っているが、推論速度は7倍近く速く、FLOPsはわずか13.3%である。

Efficiency is quite important for 3D lane detection due to practical deployment demand. In this work, we propose a simple, fast, and end-to-end detector that still maintains high detection precision. Specifically, we devise a set of fully convolutional heads based on row-wise classification. In contrast to previous counterparts, ours supports recognizing both vertical and horizontal lanes. Besides, our method is the first one to perform row-wise classification in bird-eye-view. In the heads, we split feature into multiple groups and every group of feature corresponds to a lane instance. During training, the predictions are associated with lane labels using the proposed single-win one-to-one matching to compute loss, and no post-processing operation is demanded for inference. In this way, our proposed fully convolutional detector, GroupLane, realizes end-to-end detection like DETR. Evaluated on 3 real world 3D lane benchmarks, OpenLane, Once-3DLanes, and OpenLane-Huawei, GroupLane adopting ConvNext-Base as the backbone outperforms the published state-of-the-art PersFormer by 13.6% F1 score in the OpenLane validation set. Besides, GroupLane with ResNet18 still surpasses PersFormer by 4.9% F1 score, while the inference speed is nearly 7x faster and the FLOPs is only 13.3% of it.
翻訳日:2023-07-19 13:23:57 公開日:2023-07-18
# 顔行動単位検出に基づく咬合認知学生の感情認識

Occlusion Aware Student Emotion Recognition based on Facial Action Unit Detection ( http://arxiv.org/abs/2307.09465v1 )

ライセンス: Link先を確認
Shrouk Wally, Ahmed Elsayed, Islam Alkabbany, Asem Ali, Aly Farag(参考訳) 米国立大学・大学における理科・技術・工学・数学(stem)学生の約半数が初年度末までに退学していることを踏まえると,教室環境の質を向上させることが重要である。 本研究は,教室における生徒の感情のモニタリングに焦点をあて,この問題に対処するためのアプローチを提案する。 感情認識モデルの性能に及ぼす異なる顔部位の影響を実験により評価した。 部分閉塞下のモデルをテストするために,人工閉塞データセットを導入した。 この研究の斬新さは、注意機構と適応的特徴学習を用いた顔行動単位(AUs)抽出のためのオクルージョン対応アーキテクチャの提案にある。 AUは後で、教室の設定で表情を分類するために使用することができる。 本研究は,情緒的エンゲージメント分析のための顔画像解析における隠蔽処理に関する貴重な知見を提供する。 提案実験は, 教室環境における顔分析モデルの排除と信頼性を高めることの重要性を実証するものである。 これらの発見は、オクルージョンが一般的である他の設定にも拡張できる。

Given that approximately half of science, technology, engineering, and mathematics (STEM) undergraduate students in U.S. colleges and universities leave by the end of the first year [15], it is crucial to improve the quality of classroom environments. This study focuses on monitoring students' emotions in the classroom as an indicator of their engagement and proposes an approach to address this issue. The impact of different facial parts on the performance of an emotional recognition model is evaluated through experimentation. To test the proposed model under partial occlusion, an artificially occluded dataset is introduced. The novelty of this work lies in the proposal of an occlusion-aware architecture for facial action units (AUs) extraction, which employs attention mechanism and adaptive feature learning. The AUs can be used later to classify facial expressions in classroom settings. This research paper's findings provide valuable insights into handling occlusion in analyzing facial images for emotional engagement analysis. The proposed experiments demonstrate the significance of considering occlusion and enhancing the reliability of facial analysis models in classroom environments. These findings can also be extended to other settings where occlusions are prevalent.
翻訳日:2023-07-19 13:23:31 公開日:2023-07-18
# フォールトトレラント量子誤差補正のための極低温memriニューラルデコーダ

A Cryogenic Memristive Neural Decoder for Fault-tolerant Quantum Error Correction ( http://arxiv.org/abs/2307.09463v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Marcotte, Pierre-Antoine Mouny, Victor Yon, Gebremedhin A. Dagnew, Bohdan Kulchytskyy, Sophie Rochette, Yann Beilliard, Dominique Drouin and Pooya Ronagh(参考訳) 量子エラー訂正(QEC)のためのニューラルネットワークデコーダは、エラー訂正符号から抽出されたシンドロームを分類し、論理情報をエラーから保護するための適切な回復演算子を見つけるためにニューラルネットワークに依存している。 ニューラルデコーダの優れた性能にもかかわらず、繰り返しエラー補正スキームにおけるシンドローム生成の典型率を満たすデコード時間を最小化し、コード距離が増加するにつれてデコードアプローチのスケーラビリティを確保するなど、重要な実用要件が達成される。 量子プロセッサと協調してデコード処理を行う専用集積回路の設計は、外部で処理される極低温環境内外へのルーティング信号が不要な遅延と最終的な配線ボトルネックにつながるため、これらのデコード時間とスケーラビリティ要件を達成するために必要と思われる。 本研究では、インメモリ・コンピューティング(IMC)アーキテクチャに基づくニューラルデコーダ推論アクセラレータの設計と性能解析を行い、抵抗型メモリデバイスのクロスバーアレイを用いてデコーダニューラルネットワークのシナプス重みを記憶し、推論中にアナログ行列-ベクトル乗算を行う。 実験による概念実証実験において,tio$_\textrm{x}$-based memristive devicesの非理想性が復号精度に与える影響について検討した。 精度の低下を緩和するためにハードウェアアウェアトレーニング法が開発され、memristive neural decoderは距離3の表面コードに対して9.23\times 10^{-4}$の擬似スレッショルドを達成できるが、同等のdigital neural decoderは擬似スレッショルドを1.01\times 10^{-3}$で達成する。 この研究は、QECを統合するためのスケーラブルで高速で低消費電力のMCCハードウェアへの経路を提供する。

Neural decoders for quantum error correction (QEC) rely on neural networks to classify syndromes extracted from error correction codes and find appropriate recovery operators to protect logical information against errors. Despite the good performance of neural decoders, important practical requirements remain to be achieved, such as minimizing the decoding time to meet typical rates of syndrome generation in repeated error correction schemes, and ensuring the scalability of the decoding approach as the code distance increases. Designing a dedicated integrated circuit to perform the decoding task in co-integration with a quantum processor appears necessary to reach these decoding time and scalability requirements, as routing signals in and out of a cryogenic environment to be processed externally leads to unnecessary delays and an eventual wiring bottleneck. In this work, we report the design and performance analysis of a neural decoder inference accelerator based on an in-memory computing (IMC) architecture, where crossbar arrays of resistive memory devices are employed to both store the synaptic weights of the decoder neural network and perform analog matrix-vector multiplications during inference. In proof-of-concept numerical experiments supported by experimental measurements, we investigate the impact of TiO$_\textrm{x}$-based memristive devices' non-idealities on decoding accuracy. Hardware-aware training methods are developed to mitigate the loss in accuracy, allowing the memristive neural decoders to achieve a pseudo-threshold of $9.23\times 10^{-4}$ for the distance-three surface code, whereas the equivalent digital neural decoder achieves a pseudo-threshold of $1.01\times 10^{-3}$. This work provides a pathway to scalable, fast, and low-power cryogenic IMC hardware for integrated QEC.
翻訳日:2023-07-19 13:23:15 公開日:2023-07-18
# 逆2重機械学習による因果パラメータ推定による敵意脆弱性の軽減

Mitigating Adversarial Vulnerability through Causal Parameter Estimation by Adversarial Double Machine Learning ( http://arxiv.org/abs/2307.07250v2 )

ライセンス: Link先を確認
Byung-Kwan Lee, Junho Kim, Yong Man Ro(参考訳) 視覚入力に対する意図的な摂動から導かれる逆例は、ディープニューラルネットワークの決定プロセスに容易に害を与える可能性がある。 潜在的な脅威を防ぐため、様々な対向訓練ベースの防御手法が急速に成長し、堅牢性のデファクトスタンダードアプローチとなった。 近年の競争的成果にもかかわらず、敵意の脆弱性はターゲットによって異なり、特定の脆弱性は依然として一般的である。 興味深いことに、このような特異な現象は、より深いアーキテクチャと高度な防御方法によっても緩和できない。 この問題に対処するため,我々はadversarial Double Machine Learning (ADML) と呼ばれる因果的アプローチを導入し,ネットワーク予測に対する敵の脆弱性の程度を定量化し,治療の効果が利害関係に与える影響を捉える。 ADMLは、逆境の摂動の因果パラメータを直接推定し、強靭性を損なう可能性のある負の効果を緩和し、逆境の脆弱性への因果的視点をブリッジすることができる。 各種CNNおよびTransformerアーキテクチャの広範な実験を通じて,ADMLは対向ロバスト性を大きく向上し,経験的観察を緩和することを示す。

Adversarial examples derived from deliberately crafted perturbations on visual inputs can easily harm decision process of deep neural networks. To prevent potential threats, various adversarial training-based defense methods have grown rapidly and become a de facto standard approach for robustness. Despite recent competitive achievements, we observe that adversarial vulnerability varies across targets and certain vulnerabilities remain prevalent. Intriguingly, such peculiar phenomenon cannot be relieved even with deeper architectures and advanced defense methods. To address this issue, in this paper, we introduce a causal approach called Adversarial Double Machine Learning (ADML), which allows us to quantify the degree of adversarial vulnerability for network predictions and capture the effect of treatments on outcome of interests. ADML can directly estimate causal parameter of adversarial perturbations per se and mitigate negative effects that can potentially damage robustness, bridging a causal perspective into the adversarial vulnerability. Through extensive experiments on various CNN and Transformer architectures, we corroborate that ADML improves adversarial robustness with large margins and relieve the empirical observation.
翻訳日:2023-07-19 11:38:46 公開日:2023-07-18
# k-テンソル:正の半定義行列のクラスタリング

K-Tensors: Clustering Positive Semi-Definite Matrices ( http://arxiv.org/abs/2306.06534v3 )

ライセンス: Link先を確認
Hanchao Zhang, Thaddeus Tarpey(参考訳) 本稿では,その固有構造に基づく正半定義行列の分布を分割するために設計された,新しい自己一貫性クラスタリングアルゴリズム(k$-tensors)を提案する。 正の半定義行列は$\mathbb r^p$, $p \ge 2$ で楕円体として表現できるので、効果的なクラスタリングを行うために構造情報を維持することが重要である。 しかし、従来のクラスタリングアルゴリズム(行列に適用)は、しばしば行列のインボルブベクトル化(involve vectorization)を行い、本質的な構造情報を失う。 この問題に対処するため,正の半定値行列の構造情報に基づいて,クラスタリングのための距離メートル法を提案する。 この距離計量により、クラスタリングアルゴリズムは正の半定行列と、正の半定行列の集合から定義される \thadJulyTen{orthonormal vectors で表される {a} 共通空間への射影の違いを考えることができる。 正の半定義行列をクラスタリングするこの革新的なアプローチは、機能的接続データの解析など、金融および生物医学研究を含むいくつかの分野に広く応用されている。 提案アルゴリズムは,正半定値行列の構造情報を維持することにより,正半定値行列をより有意義な方法でクラスタリングし,基礎となるデータに対する深い洞察を促進する。

This paper introduces a novel self-consistency clustering algorithm ($K$-Tensors) designed for {partitioning a distribution of} positive-semidefinite matrices based on their eigenstructures. As positive semi-definite matrices can be represented as ellipsoids in $\mathbb R^p$, $p \ge 2$, it is critical to maintain their structural information to perform effective clustering. However, traditional clustering algorithms {applied to matrices} often {involve vectorization of} the matrices, resulting in a loss of essential structural information. To address this issue, we propose a distance metric {for clustering} that is specifically based on the structural information of positive semi-definite matrices. This distance metric enables the clustering algorithm to consider the differences between positive semi-definite matrices and their projections onto {a} common space spanned by \thadJulyTen{orthonormal vectors defined from a set of} positive semi-definite matrices. This innovative approach to clustering positive semi-definite matrices has broad applications in several domains including financial and biomedical research, such as analyzing functional connectivity data. By maintaining the structural information of positive semi-definite matrices, our proposed algorithm promises to cluster the positive semi-definite matrices in a more meaningful way, thereby facilitating deeper insights into the underlying data in various applications.
翻訳日:2023-07-19 11:38:25 公開日:2023-07-18
# LLMを用いたRCTレポートからの介入, 成果, 発見の同時抽出

Jointly Extracting Interventions, Outcomes, and Findings from RCT Reports with LLMs ( http://arxiv.org/abs/2305.03642v3 )

ライセンス: Link先を確認
Somin Wadhwa and Jay DeYoung and Benjamin Nye and Silvio Amir and Byron C. Wallace(参考訳) ランダム化対照試験(rcts)の結果は、介入の比較効果を確立し、証拠に基づくケアにおいて重要なインプットとなる。 しかし、rctsの結果は、試験の設計、実行、結果を記述する(しばしば非構造化)自然言語記事に提示され、臨床医は、そのような記事から興味のある介入や結果に関する知見を手作業で抽出しなければならない。 この面倒な手作業は、裁判報告から構造化された証拠の抽出(半自動抽出)を動機付けている。 本研究は, 臨床抽象概念から介入, 結果, 比較者(ico要素)を共同抽出し, 関連する結果を推測するために, 命令調整型大規模言語モデル(llms)に基づいて構築したテキスト対テキストモデルを提案し, 評価する。 手動(専門家)と自動評価は、フレーミングエビデンス抽出を条件生成タスクとし、この目的のための微調整LDMは、以前のSOTAよりも相当な(\sim$20point absolute F1 score)ゲインを実現することを示している。 我々は、モデル性能に寄与する側面を評価するためにアブレーションとエラー解析を行い、さらなる改善のための潜在的な方向性を強調する。 2022年中頃まで、我々のモデルを公開RCTのコレクションに適用し、構造化された結果の検索可能なデータベースをリリースする。

Results from Randomized Controlled Trials (RCTs) establish the comparative effectiveness of interventions, and are in turn critical inputs for evidence-based care. However, results from RCTs are presented in (often unstructured) natural language articles describing the design, execution, and outcomes of trials; clinicians must manually extract findings pertaining to interventions and outcomes of interest from such articles. This onerous manual process has motivated work on (semi-)automating extraction of structured evidence from trial reports. In this work we propose and evaluate a text-to-text model built on instruction-tuned Large Language Models (LLMs) to jointly extract Interventions, Outcomes, and Comparators (ICO elements) from clinical abstracts, and infer the associated results reported. Manual (expert) and automated evaluations indicate that framing evidence extraction as a conditional generation task and fine-tuning LLMs for this purpose realizes considerable ($\sim$20 point absolute F1 score) gains over the previous SOTA. We perform ablations and error analyses to assess aspects that contribute to model performance, and to highlight potential directions for further improvements. We apply our model to a collection of published RCTs through mid-2022, and release a searchable database of structured findings: http://ico-relations.ebm-nlp.com
翻訳日:2023-07-19 11:37:58 公開日:2023-07-18
# 3次元点雲における開ボキャブラリーアフォーアンス検出

Open-Vocabulary Affordance Detection in 3D Point Clouds ( http://arxiv.org/abs/2303.02401v4 )

ライセンス: Link先を確認
Toan Nguyen, Minh Nhat Vu, An Vuong, Dzung Nguyen, Thieu Vo, Ngan Le, Anh Nguyen(参考訳) 加速度検出は様々なロボット応用において難しい問題である。 従来のアフォーアンス検出手法は、予め定義されたアフォーアンスラベルに制限されており、複雑な動的環境でのインテリジェントロボットの適応性を制限する可能性がある。 そこで,本稿では,3次元点雲内の無拘束数を検出できるopen-vocabulary affordance detection (openad)法を提案する。 OpenADは、手当テキストとポイント特徴を同時に学習することで、手当間の意味的関係をうまく活用する。 したがって,提案手法はゼロショット検出が可能であり,単一アノテーションの例を使わずに,事前の認識不能を検出できる。 集中的な実験結果から,OpenADは幅広いアベイランス検出装置で効果的に機能し,他のベースラインよりも大きなマージンで優れていた。 さらに,高速な推論速度(約100ms)を持つ実世界のロボットアプリケーションにおいて,提案するOpenADの実用性を示す。 私たちのプロジェクトはhttps://openad2023.github.ioで利用可能です。

Affordance detection is a challenging problem with a wide variety of robotic applications. Traditional affordance detection methods are limited to a predefined set of affordance labels, hence potentially restricting the adaptability of intelligent robots in complex and dynamic environments. In this paper, we present the Open-Vocabulary Affordance Detection (OpenAD) method, which is capable of detecting an unbounded number of affordances in 3D point clouds. By simultaneously learning the affordance text and the point feature, OpenAD successfully exploits the semantic relationships between affordances. Therefore, our proposed method enables zero-shot detection and can be able to detect previously unseen affordances without a single annotation example. Intensive experimental results show that OpenAD works effectively on a wide range of affordance detection setups and outperforms other baselines by a large margin. Additionally, we demonstrate the practicality of the proposed OpenAD in real-world robotic applications with a fast inference speed (~100ms). Our project is available at https://openad2023.github.io.
翻訳日:2023-07-19 11:37:33 公開日:2023-07-18
# 停止不能攻撃:条件付き拡散モデルによるラベルオンリーモデルインバージョン

Unstoppable Attack: Label-Only Model Inversion via Conditional Diffusion Model ( http://arxiv.org/abs/2307.08424v2 )

ライセンス: Link先を確認
Rongke Liu(参考訳) モデル反転攻撃(MIA)は、ターゲットモデルのトレーニングセットからプライベートデータを復元することを目的としており、ディープラーニングモデルのプライバシを脅かす。 MIAは主に、攻撃者がターゲットモデルの構造とパラメータに完全にアクセスできるホワイトボックスシナリオに焦点を当てている。 しかし、実際の応用はブラックボックスであり、敵がモデル関連パラメータを得るのは容易ではなく、様々なモデルが予測ラベルを出力するのみである。 既存のブラックボックスMIAは主に最適化戦略の設計に重点を置いており、生成モデルはホワイトボックスMIAで使用されるGANからのみ移行されている。 当社の研究は,ラベルのみのブラックボックスシナリオにおける攻撃モデルの実現可能性に関する先駆的な研究である。 本稿では,条件付き拡散モデルを用いたMIAの新しい手法を開発し,目標モデルがラベルを出力する限り,追加の最適化なしにターゲットの正確なサンプルを復元する。 攻撃の実行には2つの主要なテクニックが導入された。 まず、対象モデルタスクに関連する補助データセットを選択し、対象モデルによって予測されたラベルをトレーニングプロセスを導くための条件として使用する。 次に、訓練条件拡散モデルに目標ラベルとランダム分布雑音を入力し、予め定義された誘導強度を有する目標サンプルを生成する。 そして、最も堅牢で代表的なサンプルをフィルターアウトします。 さらに,MIAの評価指標としてLearned Perceptual Image Patch similarity(LPIPS)を初めて用いて,攻撃精度,リアリズム,類似性の観点から,定量的かつ質的な評価を体系的に行うことを提案する。 実験結果から, ラベルのみのシナリオにおいて, 最適化を伴わずに類似かつ正確なデータを生成することができ, 従来の手法のジェネレータよりも優れていることがわかった。

Model inversion attacks (MIAs) are aimed at recovering private data from a target model's training set, which poses a threat to the privacy of deep learning models. MIAs primarily focus on the white-box scenario where the attacker has full access to the structure and parameters of the target model. However, practical applications are black-box, it is not easy for adversaries to obtain model-related parameters, and various models only output predicted labels. Existing black-box MIAs primarily focused on designing the optimization strategy, and the generative model is only migrated from the GAN used in white-box MIA. Our research is the pioneering study of feasible attack models in label-only black-box scenarios, to the best of our knowledge. In this paper, we develop a novel method of MIA using the conditional diffusion model to recover the precise sample of the target without any extra optimization, as long as the target model outputs the label. Two primary techniques are introduced to execute the attack. Firstly, select an auxiliary dataset that is relevant to the target model task, and the labels predicted by the target model are used as conditions to guide the training process. Secondly, target labels and random standard normally distributed noise are input into the trained conditional diffusion model, generating target samples with pre-defined guidance strength. We then filter out the most robust and representative samples. Furthermore, we propose for the first time to use Learned Perceptual Image Patch Similarity (LPIPS) as one of the evaluation metrics for MIA, with systematic quantitative and qualitative evaluation in terms of attack accuracy, realism, and similarity. Experimental results show that this method can generate similar and accurate data to the target without optimization and outperforms generators of previous approaches in the label-only scenario.
翻訳日:2023-07-19 11:33:15 公開日:2023-07-18
# テキスト駆動実画像編集のためのクリップガイドスタイルガンインバージョン

CLIP-Guided StyleGAN Inversion for Text-Driven Real Image Editing ( http://arxiv.org/abs/2307.08397v2 )

ライセンス: Link先を確認
Ahmet Canberk Baykal, Abdul Basit Anees, Duygu Ceylan, Erkut Erdem, Aykut Erdem, Deniz Yuret(参考訳) 研究者は最近、リアルな画像編集にStyleGANベースのモデルを使い始めた。 特に興味深いアプリケーションは、自然言語記述を使って編集プロセスをガイドすることです。 既存の言語を用いた画像編集のアプローチでは、インスタンスレベルの潜在コード最適化か、定義済みのテキストプロンプトを潜在空間の編集方向にマップする。 しかし、これらのアプローチには固有の制限がある。 前者は効率が良くないが、後者は多属性変更を効果的に扱うのに苦労することが多い。 そこで本研究では,複数の属性の変更を効率的に確実に行うことができるテキスト駆動画像編集手法であるclipinverterを提案する。 提案手法の中核は,ganインバージョンネットワークに統合された新しい軽量テキストコンディショニングアダプタ層の利用である。 対象記述のCLIP埋め込みの初期反転ステップを条件付けすることで、より良好な編集方向を得ることができることを示す。 さらに、CLIP誘導による修正ステップを使用して、結果として生じる遅延コードを修正することにより、テキストプロンプトとのアライメントをさらに改善する。 本手法は, 人間の顔, 猫, 鳥など様々な領域における操作精度とフォトリアリズムの点で, 質的, 定量的な結果から, 競合するアプローチよりも優れている。

Researchers have recently begun exploring the use of StyleGAN-based models for real image editing. One particularly interesting application is using natural language descriptions to guide the editing process. Existing approaches for editing images using language either resort to instance-level latent code optimization or map predefined text prompts to some editing directions in the latent space. However, these approaches have inherent limitations. The former is not very efficient, while the latter often struggles to effectively handle multi-attribute changes. To address these weaknesses, we present CLIPInverter, a new text-driven image editing approach that is able to efficiently and reliably perform multi-attribute changes. The core of our method is the use of novel, lightweight text-conditioned adapter layers integrated into pretrained GAN-inversion networks. We demonstrate that by conditioning the initial inversion step on the CLIP embedding of the target description, we are able to obtain more successful edit directions. Additionally, we use a CLIP-guided refinement step to make corrections in the resulting residual latent codes, which further improves the alignment with the text prompt. Our method outperforms competing approaches in terms of manipulation accuracy and photo-realism on various domains including human faces, cats, and birds, as shown by our qualitative and quantitative results.
翻訳日:2023-07-19 11:32:44 公開日:2023-07-18
# 空間知覚データからの意味的形式概念生成のための再帰的batesonインスパイアモデル

A Recursive Bateson-Inspired Model for the Generation of Semantic Formal Concepts from Spatial Sensory Data ( http://arxiv.org/abs/2307.08087v2 )

ライセンス: Link先を確認
Jaime de Miguel-Rodriguez, Fernando Sancho-Caparrini(参考訳) 機械学習へのニューラルシンボリックアプローチは、コネクショニストとシンボリックメソッドの両方の利点を取り入れている。 通常、これらのモデルは、複雑なデータから特徴を抽出するために、ニューラルネットワークアーキテクチャに基づく最初のモジュールを使用する。 次に、これらの特徴は推論、概念構造、構成可能性、より良い一般化、分散学習などの可能性を提供する記号エンジンによってシンボルとして処理される。 しかし、知覚データにおけるシンボルの接地に対する神経的アプローチは、強力ではあるが、ほとんどの部分において重いトレーニングと退屈なラベル付けを必要としている。 本稿では,複雑な空間知覚データから階層的概念構造を生成するための新しいシンボリックオンリー手法を提案する。 このアプローチは、概念や概念の創始の鍵としてのバテソンの差異の概念に基づいている。 彼の提案に続いて、モデルは多変量数値ストリームにおける要素の逐次比較を計算し、生データから原子の特徴を抽出する。 より高レベルな構造は、再帰的なプロセスでさらなる比較を行うことによってこれらの特徴から構築される。 再帰のどの段階でも、形式的概念分析によってこれらの構成と特徴から概念構造を得ることができる。 結果は、モデルは訓練なしでかなりリッチだが人間に読まれる概念表現を生成できることを示している。 さらに、モデルを通して得られた概念構造 (i)現在高い構成性があり、「見えない」概念を創出できる可能性がある。 (ii)正式な推論を許可し、 (iii)一般化と分散学習に固有の能力を有する。 したがって、この手法は現在のニューラルシンボリック研究に興味深い角度を与える可能性がある。 モデルがより大きなデータセットに対してテストできるようにトレーニング方法論を開発するためには、今後の作業が必要である。

Neural-symbolic approaches to machine learning incorporate the advantages from both connectionist and symbolic methods. Typically, these models employ a first module based on a neural architecture to extract features from complex data. Then, these features are processed as symbols by a symbolic engine that provides reasoning, concept structures, composability, better generalization and out-of-distribution learning among other possibilities. However, neural approaches to the grounding of symbols in sensory data, albeit powerful, still require heavy training and tedious labeling for the most part. This paper presents a new symbolic-only method for the generation of hierarchical concept structures from complex spatial sensory data. The approach is based on Bateson's notion of difference as the key to the genesis of an idea or a concept. Following his suggestion, the model extracts atomic features from raw data by computing elemental sequential comparisons in a stream of multivariate numerical values. Higher-level constructs are built from these features by subjecting them to further comparisons in a recursive process. At any stage in the recursion, a concept structure may be obtained from these constructs and features by means of Formal Concept Analysis. Results show that the model is able to produce fairly rich yet human-readable conceptual representations without training. Additionally, the concept structures obtained through the model (i) present high composability, which potentially enables the generation of 'unseen' concepts, (ii) allow formal reasoning, and (iii) have inherent abilities for generalization and out-of-distribution learning. Consequently, this method may offer an interesting angle to current neural-symbolic research. Future work is required to develop a training methodology so that the model can be tested against a larger dataset.
翻訳日:2023-07-19 11:32:23 公開日:2023-07-18
# ソフトウェア開発のためのコミュニケーションエージェント

Communicative Agents for Software Development ( http://arxiv.org/abs/2307.07924v2 )

ライセンス: Link先を確認
Chen Qian and Xin Cong and Cheng Yang and Weize Chen and Yusheng Su and Juyuan Xu and Zhiyuan Liu and Maosong Sun(参考訳) ソフトウェア工学は複雑な意思決定プロセスによって特徴づけられる領域であり、しばしば微妙な直観とコンサルティングに依存している。 ディープラーニングの最近の進歩は、ソフトウェア開発のさまざまなステージで実装された精巧な設計を通じて、ソフトウェアエンジニアリングプラクティスを革新し始めている。 本稿では,ソフトウェア開発プロセス全体を通じて大規模言語モデル(LLM)を活用し,自然言語通信によるキープロセスの合理化と統一を実現し,各フェーズにおける特化モデルの必要性を解消する,革新的なパラダイムを提案する。 このパラダイムの中核であるChatDevは、確立したウォーターフォールモデルを模倣し、開発プロセスを慎重に4つの異なる時系列ステージ(設計、コーディング、テスト、ドキュメント)に分割する仮想チャットベースのソフトウェア開発会社です。 各ステージはプログラマ、コードレビュアー、テストエンジニアといったエージェントのチームが参加し、共同対話を促進し、シームレスなワークフローを促進する。 チャットチェーンはファシリテーターとして働き、各ステージをアトミックなサブタスクに分解する。 これによりデュアルロールが可能になり、コンテキスト認識通信によるソリューションの提案と検証が可能になり、特定のサブタスクの効率的な解決につながる。 ChatDevのインストゥルメンタル分析は、ソフトウェア生成における顕著な効果を強調し、1ドル以下のコストで、ソフトウェア開発プロセス全体の完了を7分以内で可能にする。 潜在的な脆弱性を特定し、緩和するだけでなく、満足できる効率とコスト効率を維持しながら、潜在的な幻覚を是正する。 ChatDevのポテンシャルは、LLMをソフトウェア開発領域に統合する新たな可能性を明らかにしている。

Software engineering is a domain characterized by intricate decision-making processes, often relying on nuanced intuition and consultation. Recent advancements in deep learning have started to revolutionize software engineering practices through elaborate designs implemented at various stages of software development. In this paper, we present an innovative paradigm that leverages large language models (LLMs) throughout the entire software development process, streamlining and unifying key processes through natural language communication, thereby eliminating the need for specialized models at each phase. At the core of this paradigm lies ChatDev, a virtual chat-powered software development company that mirrors the established waterfall model, meticulously dividing the development process into four distinct chronological stages: designing, coding, testing, and documenting. Each stage engages a team of agents, such as programmers, code reviewers, and test engineers, fostering collaborative dialogue and facilitating a seamless workflow. The chat chain acts as a facilitator, breaking down each stage into atomic subtasks. This enables dual roles, allowing for proposing and validating solutions through context-aware communication, leading to efficient resolution of specific subtasks. The instrumental analysis of ChatDev highlights its remarkable efficacy in software generation, enabling the completion of the entire software development process in under seven minutes at a cost of less than one dollar. It not only identifies and alleviates potential vulnerabilities but also rectifies potential hallucinations while maintaining commendable efficiency and cost-effectiveness. The potential of ChatDev unveils fresh possibilities for integrating LLMs into the realm of software development.
翻訳日:2023-07-19 11:32:01 公開日:2023-07-18
# 対人攻撃に対する分割学習のロバスト性について

On the Robustness of Split Learning against Adversarial Attacks ( http://arxiv.org/abs/2307.07916v2 )

ライセンス: Link先を確認
Mingyuan Fan, Cen Chen, Chengyu Wang, Wenmeng Zhou, Jun Huang(参考訳) 分割学習は、生データとモデルの詳細を直接共有することを避けることによって、データのプライバシとモデルのセキュリティを保ちながら、協調的なディープラーニングモデルトレーニングを可能にする。 しかし、既存の研究は主にプライバシー保護の信頼性に重点を置いており、モデルセキュリティについてはほとんど調査していない。 Specifically, by exploring full models, attackers can launch adversarial attacks, and split learning can mitigate this severe threat by only disclosing part of models to untrusted servers.This paper aims to evaluate the robustness of split learning against adversarial attacks, particularly in the most challenging setting where untrusted servers only have access to the intermediate layers of the model.Existing adversarial attacks mostly focus on the centralized setting instead of the collaborative setting, thus, to better evaluate the robustness of split learning, we develop a tailored attack called SPADV, which comprises two stages: 1)モデルの一部欠如問題に対処するシャドーモデルトレーニング 2) 2段階目は非IIDデータのみを必要とするが, 2段階目ではSPADVは自然試料の中間出力を摂動させ, 敵試料を製作する。 提案する攻撃プロセス全体のコストは比較的低いが,経験的な攻撃効果は著しく高く,敵の攻撃に対するスプリットラーニングの驚くべき脆弱性を示している。

Split learning enables collaborative deep learning model training while preserving data privacy and model security by avoiding direct sharing of raw data and model details (i.e., sever and clients only hold partial sub-networks and exchange intermediate computations). However, existing research has mainly focused on examining its reliability for privacy protection, with little investigation into model security. Specifically, by exploring full models, attackers can launch adversarial attacks, and split learning can mitigate this severe threat by only disclosing part of models to untrusted servers.This paper aims to evaluate the robustness of split learning against adversarial attacks, particularly in the most challenging setting where untrusted servers only have access to the intermediate layers of the model.Existing adversarial attacks mostly focus on the centralized setting instead of the collaborative setting, thus, to better evaluate the robustness of split learning, we develop a tailored attack called SPADV, which comprises two stages: 1) shadow model training that addresses the issue of lacking part of the model and 2) local adversarial attack that produces adversarial examples to evaluate.The first stage only requires a few unlabeled non-IID data, and, in the second stage, SPADV perturbs the intermediate output of natural samples to craft the adversarial ones. The overall cost of the proposed attack process is relatively low, yet the empirical attack effectiveness is significantly high, demonstrating the surprising vulnerability of split learning to adversarial attacks.
翻訳日:2023-07-19 11:31:35 公開日:2023-07-18
# イミテーションは必要か? デュアルフェーズトレーニングによる一般化意思決定

Is Imitation All You Need? Generalized Decision-Making with Dual-Phase Training ( http://arxiv.org/abs/2307.07909v2 )

ライセンス: Link先を確認
Yao Wei and Yanchao Sun and Ruijie Zheng and Sai Vemprala and Rogerio Bonatti and Shuhang Chen and Ratnesh Madaan and Zhongjie Ba and Ashish Kapoor and Shuang Ma(参考訳) 本稿では,現在の手法が抱える課題,例えば過剰適合行動やタスク固有の微調整に依存する問題に対処する,さまざまな意思決定タスクに取り組むためのジェネラリストエージェントであるdualmindを紹介する。 DualMindは、人間が世界でどのように行動するかをエミュレートする新しい「デュアルフェーズ」トレーニング戦略を使用している。 モデルはまず、制御タスク用に調整された自己教師付き目標を通じて基本的な共通知識を学び、その後、与えられたプロンプトに基づいて条件づけされた行動を模倣して、異なるコンテキストに基づいて意思決定を行う方法を学ぶ。 DualMindは1セットのモデル重みだけで、ドメイン、シーン、実施状況のタスクを処理でき、タスク固有の微調整を必要とせずにゼロショットプロンプトを実行することができる。 我々は,MetaWorld と Habitat の DualMind を広範囲な実験により評価し,従来の手法に比べて優れた一般化性を示し,Habitat と MetaWorld の 70$\% 以上のジェネラリストエージェントをそれぞれ50$\% 以上上回った。 MetaWorldの45のタスクでは、DualMindは90$\%の成功率で30以上のタスクを達成している。

We introduce DualMind, a generalist agent designed to tackle various decision-making tasks that addresses challenges posed by current methods, such as overfitting behaviors and dependence on task-specific fine-tuning. DualMind uses a novel "Dual-phase" training strategy that emulates how humans learn to act in the world. The model first learns fundamental common knowledge through a self-supervised objective tailored for control tasks and then learns how to make decisions based on different contexts through imitating behaviors conditioned on given prompts. DualMind can handle tasks across domains, scenes, and embodiments using just a single set of model weights and can execute zero-shot prompting without requiring task-specific fine-tuning. We evaluate DualMind on MetaWorld and Habitat through extensive experiments and demonstrate its superior generalizability compared to previous techniques, outperforming other generalist agents by over 50$\%$ and 70$\%$ on Habitat and MetaWorld, respectively. On the 45 tasks in MetaWorld, DualMind achieves over 30 tasks at a 90$\%$ success rate.
翻訳日:2023-07-19 11:31:12 公開日:2023-07-18
# 視線推定のための超高速・超低消費電力エッジビジョン

Ultra-Fast and Ultra-Low-Power In-Sensor Edge Vision for Gaze Estimation ( http://arxiv.org/abs/2307.07813v2 )

ライセンス: Link先を確認
Pietro Bonazzi, Thomas Ruegg, Sizhen Bian, Yawei Li, Michele Magno(参考訳) インテリジェントエッジビジョンタスクは、エッジプラットフォームに課される計算負荷が通常重いため、電力とレイテンシの効率を確保するという重要な課題に直面する。この作業は、Sonyによる最初の"センサー内のAI"ビジョンプラットフォームであるIMX500を活用して、超高速で超低消費電力のエッジビジョンアプリケーションを実現する。 imx500を評価し、google coral dev microやsony spresenseといった他のエッジプラットフォームと比較し、視線の推定をケーススタディとして検討した。 本研究では,エッジビジョンシステムの性能を最大化するために設計された2次元視線推定のための高効率,完全量子化モデルであるtinytrackerを提案する。 tinytracker は itracker [1] と比較して41倍のサイズ削減 (600kb) を達成し、視線推定精度(全量子化時最大 0.16 cm)を損なうことはない。 TinyTrackerのSony IMX500ビジョンセンサーへの展開により、エンドツーエンドのレイテンシは約19ミリ秒になる。 カメラは17.9ミリ秒で読み出し、処理し、加速器に送信する。 ネットワークの推論時間は 0.86ms で、センサから結果を取得するのに 0.24 ms を追加する。 エンド・ツー・エンドのシステム全体のエネルギー消費は4.9 mJであり、推論は0.06 mJである。 エンドツーエンドの調査では、IMX500はCoralMicro(19ms vs 34.4ms)より1.7倍高速で、電力効率は7倍(4.9mJ VS 34.2mJ)である。

Intelligent edge vision tasks encounter the critical challenge of ensuring power and latency efficiency due to the typically heavy computational load they impose on edge platforms.This work leverages one of the first "AI in sensor" vision platforms, IMX500 by Sony, to achieve ultra-fast and ultra-low-power end-to-end edge vision applications. We evaluate the IMX500 and compare it to other edge platforms, such as the Google Coral Dev Micro and Sony Spresense, by exploring gaze estimation as a case study. We propose TinyTracker, a highly efficient, fully quantized model for 2D gaze estimation designed to maximize the performance of the edge vision systems considered in this study. TinyTracker achieves a 41x size reduction (600Kb) compared to iTracker [1] without significant loss in gaze estimation accuracy (maximum of 0.16 cm when fully quantized). TinyTracker's deployment on the Sony IMX500 vision sensor results in end-to-end latency of around 19ms. The camera takes around 17.9ms to read, process and transmit the pixels to the accelerator. The inference time of the network is 0.86ms with an additional 0.24 ms for retrieving the results from the sensor. The overall energy consumption of the end-to-end system is 4.9 mJ, including 0.06 mJ for inference. The end-to-end study shows that IMX500 is 1.7x faster than CoralMicro (19ms vs 34.4ms) and 7x more power efficient (4.9mJ VS 34.2mJ)
翻訳日:2023-07-19 11:30:50 公開日:2023-07-18
# ビデオベースのポーズ伝達のための双方向変形可能な運動変調

Bidirectionally Deformable Motion Modulation For Video-based Human Pose Transfer ( http://arxiv.org/abs/2307.07754v2 )

ライセンス: Link先を確認
Wing-Yin Yu, Lai-Man Po, Ray C.C. Cheung, Yuzhi Zhao, Yu Xue, Kun Li(参考訳) ビデオベースの人間のポーズ転送は、一連のターゲットの人間のポーズに基づいて、普通の人間の画像をアニメーション化するビデオ対ビデオ生成タスクである。 衣服の高構造な模様や不連続なポーズの伝達が困難であることを考慮すると、既存の方法はしばしば歪んだテクスチャやフリックなアーティファクトといった不十分な結果を生み出す。 これらの問題に対処するために,幾何学的カーネルオフセットと適応重み変調を用いたDMM(Deformable Motion Modulation)を提案し,特徴アライメントとスタイル転送を同時に行う。 スタイル転送に使用される通常のスタイル変調とは異なり、提案された変調機構は、不規則な受容視野を通して、オブジェクト形状に応じたスタイルコードから滑らかなフレームを適応的に再構成する。 時空間整合性を高めるために,両方向の伝搬を利用してノイズポーズによって生成された歪んだ画像列から隠れた動き情報を抽出する。 提案する特徴伝達は前方および後方伝播による運動予測能力を大幅に向上させる。 定量的および定性的な実験結果は、画像の忠実さと視覚的連続性の観点から、最先端技術よりも優れていることを示す。 ソースコードはgithub.com/rocketappslab/bdmmで公開されている。

Video-based human pose transfer is a video-to-video generation task that animates a plain source human image based on a series of target human poses. Considering the difficulties in transferring highly structural patterns on the garments and discontinuous poses, existing methods often generate unsatisfactory results such as distorted textures and flickering artifacts. To address these issues, we propose a novel Deformable Motion Modulation (DMM) that utilizes geometric kernel offset with adaptive weight modulation to simultaneously perform feature alignment and style transfer. Different from normal style modulation used in style transfer, the proposed modulation mechanism adaptively reconstructs smoothed frames from style codes according to the object shape through an irregular receptive field of view. To enhance the spatio-temporal consistency, we leverage bidirectional propagation to extract the hidden motion information from a warped image sequence generated by noisy poses. The proposed feature propagation significantly enhances the motion prediction ability by forward and backward propagation. Both quantitative and qualitative experimental results demonstrate superiority over the state-of-the-arts in terms of image fidelity and visual continuity. The source code is publicly available at github.com/rocketappslab/bdmm.
翻訳日:2023-07-19 11:30:22 公開日:2023-07-18
# gflownetsにおける再生バッファを用いたモード発見の有効性に関する実証的研究

An Empirical Study of the Effectiveness of Using a Replay Buffer on Mode Discovery in GFlowNets ( http://arxiv.org/abs/2307.07674v2 )

ライセンス: Link先を確認
Nikhil Vemgal, Elaine Lau, Doina Precup(参考訳) 強化学習 (Reinforcement Learning, RL) アルゴリズムは, アクションを反復的にサンプリングし, 期待したリターンを最大化する方法を学習し, 最適なポリシーを学習することを目的としている。 GFlowNetsは、R(x)$の比例サンプリングを近似したポリシーを学ぶことによって、離散集合から様々な候補を$x$で生成するように設計されたアルゴリズムの特別なクラスである。 GFlowNetsは従来のRLアルゴリズムよりも改良されたモード発見を示しており、薬物発見や組合せ探索などの応用に非常に有用である。 しかし、GFlowNetsは比較的最近のアルゴリズムのクラスであるため、RLで有用なテクニックの多くは、まだそれらと関連付けられていない。 本稿では,GFlowNetの再生バッファの利用について検討する。 実験的に様々なリプレイバッファサンプリング手法を探索し、モード発見の速度と検出モードの品質に与える影響を評価する。 ハイパーグリッドトイドメインと分子合成環境における実験結果は,リプレイバッファを用いたトレーニング時のモード発見において,オンポリシー生成の軌道のみを用いたトレーニングに比べて有意な改善を示した。

Reinforcement Learning (RL) algorithms aim to learn an optimal policy by iteratively sampling actions to learn how to maximize the total expected return, $R(x)$. GFlowNets are a special class of algorithms designed to generate diverse candidates, $x$, from a discrete set, by learning a policy that approximates the proportional sampling of $R(x)$. GFlowNets exhibit improved mode discovery compared to conventional RL algorithms, which is very useful for applications such as drug discovery and combinatorial search. However, since GFlowNets are a relatively recent class of algorithms, many techniques which are useful in RL have not yet been associated with them. In this paper, we study the utilization of a replay buffer for GFlowNets. We explore empirically various replay buffer sampling techniques and assess the impact on the speed of mode discovery and the quality of the modes discovered. Our experimental results in the Hypergrid toy domain and a molecule synthesis environment demonstrate significant improvements in mode discovery when training with a replay buffer, compared to training only with trajectories generated on-policy.
翻訳日:2023-07-19 11:30:01 公開日:2023-07-18
# エゴセントリックな行動認識のためのマルチモーダル蒸留

Multimodal Distillation for Egocentric Action Recognition ( http://arxiv.org/abs/2307.07483v2 )

ライセンス: Link先を確認
Gorjan Radevski, Dusan Grujicic, Marie-Francine Moens, Matthew Blaschko, Tinne Tuytelaars(参考訳) エゴセントリックビデオ理解の焦点は、手とオブジェクトの相互作用のモデリングである。 CNNやVision Transformersなどの標準モデルは、入力としてRGBフレームを受信する。 しかし、オブジェクト検出、光フロー、オーディオなど、補完的なヒントを提供する追加の入力モードを使用することで、パフォーマンスはさらに向上する。 一方、モダリティ固有のモジュールの複雑さが増すことで、これらのモデルはデプロイに非現実的になる。 この研究の目的は、RGBフレームのみを推論時に入力として使用しながら、そのようなマルチモーダルアプローチの性能を維持することである。 我々は,epic-kitchens と something-something データセットにおける自己中心的行動認識において,マルチモーダル教師が指導する学生は,単モーダルあるいはマルチモーダルの手法で基底真理ラベルで訓練されたアーキテクチャ的に等価なモデルよりも正確かつより校正される傾向があることを実証する。 我々はさらに,マルチモーダル知識蒸留をナイーブな方法で適用する際に生じる問題に対処するための,原則付きマルチモーダル知識蒸留フレームワークも採用している。 最後に,計算複雑性の低減を実証し,本手法が入力ビューの削減とともに高い性能を維持していることを示す。 コードはhttps://github.com/gorjanradevski/multimodal-distillationでリリースします。

The focal point of egocentric video understanding is modelling hand-object interactions. Standard models, e.g. CNNs or Vision Transformers, which receive RGB frames as input perform well. However, their performance improves further by employing additional input modalities that provide complementary cues, such as object detections, optical flow, audio, etc. The added complexity of the modality-specific modules, on the other hand, makes these models impractical for deployment. The goal of this work is to retain the performance of such a multimodal approach, while using only the RGB frames as input at inference time. We demonstrate that for egocentric action recognition on the Epic-Kitchens and the Something-Something datasets, students which are taught by multimodal teachers tend to be more accurate and better calibrated than architecturally equivalent models trained on ground truth labels in a unimodal or multimodal fashion. We further adopt a principled multimodal knowledge distillation framework, allowing us to deal with issues which occur when applying multimodal knowledge distillation in a naive manner. Lastly, we demonstrate the achieved reduction in computational complexity, and show that our approach maintains higher performance with the reduction of the number of input views. We release our code at https://github.com/gorjanradevski/multimodal-distillation.
翻訳日:2023-07-19 11:29:42 公開日:2023-07-18
# 因果効果のパラメトリック推定のためのRパッケージ

An R package for parametric estimation of causal effects ( http://arxiv.org/abs/2307.08686v2 )

ライセンス: Link先を確認
Joshua Wolff Anderson and Cyril Rakovski(参考訳) この記事では、Comprehensive R Archive Networkで公開されているRパッケージCausalModelsの使用について説明する。 因果効果を十分に推定するためにパッケージが利用できるが、hernan and robins (2020) が開発した従来の統計的アプローチを用いた構造モデルの集合を提供するパッケージが欠けている。 CausalModelsは、詳細な統計知識を必要とせず、観測データのバイアスを考慮に入れた手法のツールを提供することで、因果推論に関するRのソフトウェア不足に対処する。 これらのメソッドは無視すべきではなく、特定の問題を解決するのに適切または効率的である。 これらの統計モデルの実装はいくつかの因果パッケージに分散しているが、CausalModelsは単一Rパッケージにおける因果効果を推定する様々な統計手法の中で、一貫したモデリングパイプラインのためのシンプルでアクセスしやすいフレームワークを導入している。 標準化、IP重み付け、G推定、結果回帰、インストゥルメンタル変数、確率マッチングを含む一般的な方法で構成されている。

This article explains the usage of R package CausalModels, which is publicly available on the Comprehensive R Archive Network. While packages are available for sufficiently estimating causal effects, there lacks a package that provides a collection of structural models using the conventional statistical approach developed by Hernan and Robins (2020). CausalModels addresses this deficiency of software in R concerning causal inference by offering tools for methods that account for biases in observational data without requiring extensive statistical knowledge. These methods should not be ignored and may be more appropriate or efficient in solving particular problems. While implementations of these statistical models are distributed among a number of causal packages, CausalModels introduces a simple and accessible framework for a consistent modeling pipeline among a variety of statistical methods for estimating causal effects in a single R package. It consists of common methods including standardization, IP weighting, G-estimation, outcome regression, instrumental variables and propensity matching.
翻訳日:2023-07-19 11:23:43 公開日:2023-07-18
# TableGPT:テーブル,自然言語,コマンドをひとつのGPTに統合する

TableGPT: Towards Unifying Tables, Nature Language and Commands into One GPT ( http://arxiv.org/abs/2307.08674v2 )

ライセンス: Link先を確認
Liangyu Zha, Junlin Zhou, Liyao Li, Rui Wang, Qingyi Huang, Saisai Yang, Jing Yuan, Changbao Su, Xiang Li, Aofeng Su, Tao Zhang, Chen Zhou, Kaizhe Shou, Miao Wang, Wufang Zhu, Guoshan Lu, Chao Ye, Yali Ye, Wentao Ye, Yiming Zhang, Xinglong Deng, Jie Xu, Haobo Wang, Gang Chen, Junbo Zhao(参考訳) テーブルは現実世界のデータベースで広く使われており、人間が分析し操作するのにかなりの時間と労力を要する。 大規模言語モデル(llm)の進歩により、自然言語入力を使用してテーブルとの対話が可能になり、この機能を現実に近いものにした。 本稿では,外部関数コマンドを用いたテーブル上でのLLMの理解と操作を可能にする,統合された微調整フレームワークTableGPTを提案する。 テーブルとシームレスに対話する機能を導入し、質問応答、データ操作(例えば、挿入、削除、クエリ、操作の変更)、データの可視化、分析レポート生成、自動予測など、幅広い機能を実現する。 TableGPTは、ユーザに対して、テーブルデータを活用することによって、利便性とアクセシビリティを提供することを目指している。 TableGPTの中核には、グローバルな表表表現という新しい概念があり、これはLLMがメタ情報以外のテーブル全体を包括的に理解できるようにするものである。 表とテキストの両モードでLLMを共同で訓練することで、テーブルGPTは表データの深い理解とテーブル上の複雑な操作を、チェーン・オブ・コマンドで行うことができる。 重要なのは、TableGPTは外部APIインターフェースに頼るのではなく、自己完結型のシステムという利点を提供します。 さらに、効率的なデータプロセスフロー、クエリ拒否(適切な場合)、プライベートデプロイメントをサポートし、ドメインデータの微調整とデータのプライバシの確保を可能にし、フレームワークの特定のユースケースへの適応性を高める。

Tables are prevalent in real-world databases, requiring significant time and effort for humans to analyze and manipulate. The advancements in large language models (LLMs) have made it possible to interact with tables using natural language input, bringing this capability closer to reality. In this paper, we present TableGPT, a unified fine-tuned framework that enables LLMs to understand and operate on tables using external functional commands. It introduces the capability to seamlessly interact with tables, enabling a wide range of functionalities such as question answering, data manipulation (e.g., insert, delete, query, and modify operations), data visualization, analysis report generation, and automated prediction. TableGPT aims to provide convenience and accessibility to users by empowering them to effortlessly leverage tabular data. At the core of TableGPT lies the novel concept of global tabular representations, which empowers LLMs to gain a comprehensive understanding of the entire table beyond meta-information. By jointly training LLMs on both table and text modalities, TableGPT achieves a deep understanding of tabular data and the ability to perform complex operations on tables through chain-of-command instructions. Importantly, TableGPT offers the advantage of being a self-contained system rather than relying on external API interfaces. Moreover, it supports efficient data process flow, query rejection (when appropriate) and private deployment, enabling faster domain data fine-tuning and ensuring data privacy, which enhances the framework's adaptability to specific use cases.
翻訳日:2023-07-19 11:23:24 公開日:2023-07-18
# ピアプロダクションプラットフォームにおけるコンテンツギャップ低減のためのレコメンダシステムの利用

Leveraging Recommender Systems to Reduce Content Gaps on Peer Production Platforms ( http://arxiv.org/abs/2307.08669v2 )

ライセンス: Link先を確認
Mo Houtti, Isaac Johnson, Loren Terveen(参考訳) wikipediaのようなピアプロダクションプラットフォームは、コンテンツのギャップに苦しむことが多い。 以前の研究によると、レコメンダシステムは、エディターを過度なトピックへと導くことで、この問題を解決するのに役立ちます。 しかし、このアプローチがより関連性の低いレコメンデーションをもたらすかどうかは不明であり、推奨項目への全体的な関与が減少する。 そこで我々はまず,WikipediaのタスクルーティングレコメンデーションシステムであるSuggestBotのオフライン分析(Study 1)を行い,その後3ヶ月の制御実験を行った(Study2)。 以上の結果から,記事のレコメンデーション率を著しく低下させることなく,その記事に対する作業の割合を増加させることができた。 論文発見プロセスの無視がいかに人為的に推奨を狭めるかなど、結果の意味について論じる。 我々は、この現象と「フィルターバブル」の一般的な問題との類似性を示し、レコメンダシステムを採用したプラットフォームがどのようにその影響を受けやすいかを示す。

Peer production platforms like Wikipedia commonly suffer from content gaps. Prior research suggests recommender systems can help solve this problem, by guiding editors towards underrepresented topics. However, it remains unclear whether this approach would result in less relevant recommendations, leading to reduced overall engagement with recommended items. To answer this question, we first conducted offline analyses (Study 1) on SuggestBot, a task-routing recommender system for Wikipedia, then did a three-month controlled experiment (Study 2). Our results show that presenting users with articles from underrepresented topics increased the proportion of work done on those articles without significantly reducing overall recommendation uptake. We discuss the implications of our results, including how ignoring the article discovery process can artificially narrow recommendations. We draw parallels between this phenomenon and the common issue of "filter bubbles" to show how any platform that employs recommender systems is susceptible to it.
翻訳日:2023-07-19 11:23:00 公開日:2023-07-18
# 最小誤差エントロピー基準のロバスト性を再考する:転帰学習事例の検討

Revisiting the Robustness of the Minimum Error Entropy Criterion: A Transfer Learning Case Study ( http://arxiv.org/abs/2307.08572v2 )

ライセンス: Link先を確認
Luis Pedro Silvestrin, Shujian Yu, Mark Hoogendoorn(参考訳) 分散シフトに対処することは、実際のタスクでうまく機能するために、転送学習手法の重要な部分である。 しかし、この分野の既存のアプローチのほとんどは、データがノイズを含まない理想的なシナリオに焦点を当てたり、複雑なトレーニングパラダイムやモデル設計を使って分散シフトに対処する。 本稿では,非ガウス雑音に対処する統計信号処理の目的である最小誤差エントロピー(MEE)基準の頑健性を再検討し,分散シフトが一般的である実生活伝達学習回帰タスクにおけるその実現可能性と有用性について検討する。 具体的には,共変量シフトに対するMEEの堅牢性を示す新たな理論的結果を示した。 また, 最小二乗誤差(MSE)損失を, 微調整や線形探索などの基礎的伝達学習アルゴリズムでMEEに置き換えることによって, 最先端の伝達学習アルゴリズムに対する競合性能を実現できることを示す。 合成データと実世界の時系列データの両方に関する議論を正当化する。

Coping with distributional shifts is an important part of transfer learning methods in order to perform well in real-life tasks. However, most of the existing approaches in this area either focus on an ideal scenario in which the data does not contain noises or employ a complicated training paradigm or model design to deal with distributional shifts. In this paper, we revisit the robustness of the minimum error entropy (MEE) criterion, a widely used objective in statistical signal processing to deal with non-Gaussian noises, and investigate its feasibility and usefulness in real-life transfer learning regression tasks, where distributional shifts are common. Specifically, we put forward a new theoretical result showing the robustness of MEE against covariate shift. We also show that by simply replacing the mean squared error (MSE) loss with the MEE on basic transfer learning algorithms such as fine-tuning and linear probing, we can achieve competitive performance with respect to state-of-the-art transfer learning algorithms. We justify our arguments on both synthetic data and 5 real-world time-series data.
翻訳日:2023-07-19 11:22:41 公開日:2023-07-18
# 受動非線形マッピングを用いた深層学習

Deep Learning with Passive Optical Nonlinear Mapping ( http://arxiv.org/abs/2307.08558v2 )

ライセンス: Link先を確認
Fei Xia, Kyungduk Kim, Yaniv Eliezer, Liam Shaughnessy, Sylvain Gigan, Hui Cao(参考訳) ディープラーニングは人工知能を根本的に変えてきたが、ディープラーニングモデルの複雑さはますます高まっている。 光加速器は、性能、スケーラビリティ、エネルギー効率が向上する可能性がある。 しかし、ニューラルネットワークの重要な構成要素である非線形マッピングの実現は、光学的に困難なままである。 本稿では, 残響キャビティ内の多重散乱を利用して, レーザーパワーを増すことなく, 受動的に非線形ランダムマッピングを誘導する設計を提案する。 我々の研究から生じる重要な利点は、キャビティ内の多重散乱によって促進される光データ圧縮を行い、データ次元を減少させながら、重要な情報を効率よく圧縮・保持できることである。 これにより、高速光情報処理と高非線形特徴の低次元混合を生成することができる。 これらはエッジコンピューティングデバイスのような高速解析や応答を必要とするアプリケーションに特に有用である。 高速な光情報処理機能を利用することで、我々の光学プラットフォームはより効率的でリアルタイムな処理ソリューションを幅広い用途に提供できる可能性がある。 ディジタルデコーダを併用した光データ圧縮により, 分類, 画像再構成, キーポイント検出, オブジェクト検出など, タスク全体の計算性能を向上させるための設計の有効性を実証した。 特に, リアルタイム歩行者検出において, 極めて高い圧縮率で高い性能を観察した。 我々の発見は、光コンピューティングのための新しいアルゴリズムとアーキテクチャ設計の道を開いた。

Deep learning has fundamentally transformed artificial intelligence, but the ever-increasing complexity in deep learning models calls for specialized hardware accelerators. Optical accelerators can potentially offer enhanced performance, scalability, and energy efficiency. However, achieving nonlinear mapping, a critical component of neural networks, remains challenging optically. Here, we introduce a design that leverages multiple scattering in a reverberating cavity to passively induce optical nonlinear random mapping, without the need for additional laser power. A key advantage emerging from our work is that we show we can perform optical data compression, facilitated by multiple scattering in the cavity, to efficiently compress and retain vital information while also decreasing data dimensionality. This allows rapid optical information processing and generation of low dimensional mixtures of highly nonlinear features. These are particularly useful for applications demanding high-speed analysis and responses such as in edge computing devices. Utilizing rapid optical information processing capabilities, our optical platforms could potentially offer more efficient and real-time processing solutions for a broad range of applications. We demonstrate the efficacy of our design in improving computational performance across tasks, including classification, image reconstruction, key-point detection, and object detection, all achieved through optical data compression combined with a digital decoder. Notably, we observed high performance, at an extreme compression ratio, for real-time pedestrian detection. Our findings pave the way for novel algorithms and architectural designs for optical computing.
翻訳日:2023-07-19 11:22:19 公開日:2023-07-18
# 磁気共鳴画像を用いた3次元心臓解剖再構成のためのマルチクラスポイントクラウド補完ネットワーク

Multi-class point cloud completion networks for 3D cardiac anatomy reconstruction from cine magnetic resonance images ( http://arxiv.org/abs/2307.08535v2 )

ライセンス: Link先を確認
Marcel Beetz, Abhirup Banerjee, Julius Ossenberg-Engels, Vicente Grau(参考訳) 心臓の解剖と機能を評価するための現在の金の基準は、シン磁気共鳴イメージング(MRI)である。 しかし、通常は心臓の三次元(3d)解剖学の2次元(2d)スライスのセットのみを取得し、健康的および病理学的な心臓形態と生理学の理解と分析を制限している。 本稿では, 原位置MRIによるマルチクラス心筋解剖学的メッシュの再構築が可能な, 完全自動表面再構成パイプラインを提案する。 その鍵となるコンポーネントは、統一されたモデルで3D再構成タスクの疎度と不整合の問題を修正できるマルチクラスポイントクラウド補完ネットワーク(PCCN)である。 両心室解剖の大規模合成データセットを用いてPCCNをまず評価し, 複数レベルのスライスミスアライメントに対する画像分解能と類似した下層および金標準解剖とのチャムファー距離を観察した。 さらに, ベンチマーク3d u-netと比較して, ハウスドルフ距離と平均表面距離において, 再構成誤差が32%, 24%減少した。 次に, 英国バイオバンク研究から得られた1000名の被験者に対して, pccnを自動再建パイプラインの一部として適用し, 従来の文献に匹敵する臨床指標を用いて, 正確に, 位相的に有望な両室型心臓メッシュを再構築する能力を示す。 最後に,提案手法のロバスト性を調査し,複数の共通異常条件をうまく処理する能力を観察した。

Cine magnetic resonance imaging (MRI) is the current gold standard for the assessment of cardiac anatomy and function. However, it typically only acquires a set of two-dimensional (2D) slices of the underlying three-dimensional (3D) anatomy of the heart, thus limiting the understanding and analysis of both healthy and pathological cardiac morphology and physiology. In this paper, we propose a novel fully automatic surface reconstruction pipeline capable of reconstructing multi-class 3D cardiac anatomy meshes from raw cine MRI acquisitions. Its key component is a multi-class point cloud completion network (PCCN) capable of correcting both the sparsity and misalignment issues of the 3D reconstruction task in a unified model. We first evaluate the PCCN on a large synthetic dataset of biventricular anatomies and observe Chamfer distances between reconstructed and gold standard anatomies below or similar to the underlying image resolution for multiple levels of slice misalignment. Furthermore, we find a reduction in reconstruction error compared to a benchmark 3D U-Net by 32% and 24% in terms of Hausdorff distance and mean surface distance, respectively. We then apply the PCCN as part of our automated reconstruction pipeline to 1000 subjects from the UK Biobank study in a cross-domain transfer setting and demonstrate its ability to reconstruct accurate and topologically plausible biventricular heart meshes with clinical metrics comparable to the previous literature. Finally, we investigate the robustness of our proposed approach and observe its capacity to successfully handle multiple common outlier conditions.
翻訳日:2023-07-19 11:21:58 公開日:2023-07-18
# リニア光学による非線形処理

Nonlinear Processing with Linear Optics ( http://arxiv.org/abs/2307.08533v2 )

ライセンス: Link先を確認
Mustafa Yildirim, Niyazi Ulas Dinc, Ilker Oguz, Demetri Psaltis and Christophe Moser(参考訳) ディープニューラルネットワークは、巨大な電子コンピューティングのコストにもかかわらず、複数のデータ処理層を利用して隠れた表現を抽出することで、目覚ましいブレークスルーを達成した。 エネルギー効率と速度を向上させるため、ニューラルネットワークの光実装は、光帯域と光配線のエネルギー効率の利点を活用することを目的としている。 低出力光非線形性がない場合、多層光ネットワークの実装における課題は、電子部品に頼らずに複数の光層を実現することである。 本研究では,データで表される散乱ポテンシャルと散乱場との非線形関係を利用して,プログラム可能な線形および非線形変換を低光出力で同時に合成することのできる,多重散乱を用いた新しいフレームワークを提案する。 理論的および実験的研究により、多重散乱によるデータの繰り返しは、低出力連続波光における非線形光学計算を可能にすることが示されている。

Deep neural networks have achieved remarkable breakthroughs by leveraging multiple layers of data processing to extract hidden representations, albeit at the cost of large electronic computing power. To enhance energy efficiency and speed, the optical implementation of neural networks aims to harness the advantages of optical bandwidth and the energy efficiency of optical interconnections. In the absence of low-power optical nonlinearities, the challenge in the implementation of multilayer optical networks lies in realizing multiple optical layers without resorting to electronic components. In this study, we present a novel framework that uses multiple scattering that is capable of synthesizing programmable linear and nonlinear transformations concurrently at low optical power by leveraging the nonlinear relationship between the scattering potential, represented by data, and the scattered field. Theoretical and experimental investigations show that repeating the data by multiple scattering enables non-linear optical computing at low power continuous wave light.
翻訳日:2023-07-19 11:21:29 公開日:2023-07-18
# 決定可能存在規則集合の導出グラフに基づくキャラクタリゼーション

Derivation-Graph-Based Characterizations of Decidable Existential Rule Sets ( http://arxiv.org/abs/2307.08481v2 )

ライセンス: Link先を確認
Tim S. Lyon and Sebastian Rudolph(参考訳) 本稿では,決定可能な問合せを伴う存在規則集合の表現的クラスに対する代替的特徴付けについて述べる。 我々は、グリーディ有界木幅集合 (gbts) の顕著なクラスと、弱 gbts (wgbts) と呼ばれる新しい一般化された変種を考える。 導出グラフの概念を再検討して構築し、(弱)サイクル自由導出グラフ集合 ((w)cdgs) を定義し、gbts と cdgs が一致することを示すための精巧な証明理論の議論を wgbts と wcdgs と同様に求める。 これらの新しい特徴付けは,実存規則の分析的証明論的理解を前進させ,実際に有用である可能性が高い。

This paper establishes alternative characterizations of very expressive classes of existential rule sets with decidable query entailment. We consider the notable class of greedy bounded-treewidth sets (gbts) and a new, generalized variant, called weakly gbts (wgbts). Revisiting and building on the notion of derivation graphs, we define (weakly) cycle-free derivation graph sets ((w)cdgs) and employ elaborate proof-theoretic arguments to obtain that gbts and cdgs coincide, as do wgbts and wcdgs. These novel characterizations advance our analytic proof-theoretic understanding of existential rules and will likely be instrumental in practice.
翻訳日:2023-07-19 11:21:14 公開日:2023-07-18
# ニューラルネットワークを用いたガス絶縁HVDC系におけるUHF部分放電信号の一般化

Generalizable Classification of UHF Partial Discharge Signals in Gas-Insulated HVDC Systems Using Neural Networks ( http://arxiv.org/abs/2307.08466v2 )

ライセンス: Link先を確認
Steffen Seitz and Thomas G\"otz and Christopher Lindenberg and Ronald Tetzlaff and Stephan Schlegel(参考訳) 非検出部分放電(PDs)は、高電圧(HV)ガス絶縁システム(GIS)の安全性に重要な問題である。 交流電圧下でのPDの診断は良好であるが、直流電圧下でのPDの解析は依然として活発な研究分野である。 これらの研究の重要な焦点は、その後の高度な分析を可能にするために異なるPDソースの分類である。 本稿では,HVDC GISの絶縁体上での金属突起や導電性粒子によるPD信号の分類をパルスシーケンス解析に頼らずにニューラルネットワークで行う手法を提案する。 従来の手法とは対照的に,提案モデルでは負の電位と正の電位で得られたPD信号を識別すると同時に,動作電圧の多重化を一般化する。 さらに、時間領域と周波数領域の入力信号の性能を比較し、異なる正規化方式の影響を調べ、センサと欠陥位置間の自由空間経路損失の影響を緩和する。

Undetected partial discharges (PDs) are a safety critical issue in high voltage (HV) gas insulated systems (GIS). While the diagnosis of PDs under AC voltage is well-established, the analysis of PDs under DC voltage remains an active research field. A key focus of these investigations is the classification of different PD sources to enable subsequent sophisticated analysis. In this paper, we propose and analyze a neural network-based approach for classifying PD signals caused by metallic protrusions and conductive particles on the insulator of HVDC GIS, without relying on pulse sequence analysis features. In contrast to previous approaches, our proposed model can discriminate the studied PD signals obtained at negative and positive potentials, while also generalizing to unseen operating voltage multiples. Additionally, we compare the performance of time- and frequency-domain input signals and explore the impact of different normalization schemes to mitigate the influence of free-space path loss between the sensor and defect location.
翻訳日:2023-07-19 11:20:59 公開日:2023-07-18
# ランダムウォークからグラフスプリントへ:連続時間動的グラフ上の低遅延ノード埋め込みフレームワーク

From random-walks to graph-sprints: a low-latency node embedding framework on continuous-time dynamic graphs ( http://arxiv.org/abs/2307.08433v2 )

ライセンス: Link先を確認
Ahmad Naser Eddin, Jacopo Bono, David Apar\'icio, Hugo Ferreira, Jo\~ao Ascens\~ao, Pedro Ribeiro, Pedro Bizarro(参考訳) 多くの現実世界のデータセットは基盤となる動的グラフ構造を持ち、エンティティとその相互作用は時間とともに進化する。 機械学習モデルは、下流タスクにおける潜在能力を最大限活用するために、これらのダイナミクスを考慮すべきである。 グラフ表現学習における従来のアプローチは、幅優先探索のようなkホップ近傍のサンプリングや、深さ優先探索のようなランダムウォークに重点を置いていた。 しかし、これらの手法は計算コストが高く、動的グラフ上のリアルタイム低レイテンシ推論には適さない。 これらの制限を克服するため,我々は連続時間動的グラフ(CTDG)のための汎用的特徴抽出フレームワークとしてグラフプリントを提案し,レイテンシが低く,最先端の高レイテンシモデルと競合する。 これを実現するために,ランダムウォークに基づく特徴量に対する低レイテンシのストリーミング近似を提案する。 本フレームワークでは,マルチホップ情報を要約した時間認識ノード埋め込みを,入ってくるエッジ上のシングルホップ操作のみを用いて計算する。 提案手法を3つのオープンソースデータセットと2つの社内データセットで評価し、3つの最先端アルゴリズム(TGN-attn,TGN-ID,Jodie)と比較した。 グラフプリント機能と機械学習分類器が組み合わさって、競合性能(ノード分類タスクのベースラインを5つのデータセットで上回る)を達成することを実証した。 同時に、グラフプリントは推論遅延を著しく減少させ、実験環境では桁違いのスピードアップを達成する。

Many real-world datasets have an underlying dynamic graph structure, where entities and their interactions evolve over time. Machine learning models should consider these dynamics in order to harness their full potential in downstream tasks. Previous approaches for graph representation learning have focused on either sampling k-hop neighborhoods, akin to breadth-first search, or random walks, akin to depth-first search. However, these methods are computationally expensive and unsuitable for real-time, low-latency inference on dynamic graphs. To overcome these limitations, we propose graph-sprints a general purpose feature extraction framework for continuous-time-dynamic-graphs (CTDGs) that has low latency and is competitive with state-of-the-art, higher latency models. To achieve this, a streaming, low latency approximation to the random-walk based features is proposed. In our framework, time-aware node embeddings summarizing multi-hop information are computed using only single-hop operations on the incoming edges. We evaluate our proposed approach on three open-source datasets and two in-house datasets, and compare with three state-of-the-art algorithms (TGN-attn, TGN-ID, Jodie). We demonstrate that our graph-sprints features, combined with a machine learning classifier, achieve competitive performance (outperforming all baselines for the node classification tasks in five datasets). Simultaneously, graph-sprints significantly reduce inference latencies, achieving close to an order of magnitude speed-up in our experimental setting.
翻訳日:2023-07-19 11:20:42 公開日:2023-07-18