このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230713となっている論文です。

PDF登録状況(公開日: 20230713)

TitleAuthorsAbstract論文公表日・翻訳日
# Timed I/O Automata: タイムド仕様理論を完成させるのは遅すぎません。

Timed I/O Automata: It is never too late to complete your timed specification theory ( http://arxiv.org/abs/2302.04529v2 )

ライセンス: Link先を確認
Martijn A. Goorden, Kim G. Larsen, Axel Legay, Florian Lorber, Ulrik Nyman, Andrzej Wasowski(参考訳) 仕様理論は、仕様と実装の概念を満足度関係、精細度関係、ステップワイズ設計をサポートする演算子の集合と結合する。 我々は,timed i/o automataを仕様形式として用いたリアルタイムシステムのための完全な仕様フレームワークを開発し,その意味をtimed i/oトランジッションシステムで表現した。 私たちは、洗練、一貫性チェック、論理的および構造的構成、および仕様の引用のための構成要素を提供しています。 この理論は厳密な証明によって裏付けられており、オープンソースのツール ECDAR で実装されている。

A specification theory combines notions of specifications and implementations with a satisfaction relation, a refinement relation and a set of operators supporting stepwise design. We develop a complete specification framework for real-time systems using Timed I/O Automata as the specification formalism, with the semantics expressed in terms of Timed I/O Transition Systems. We provide constructs for refinement, consistency checking, logical and structural composition, and quotient of specifications -- all indispensable ingredients of a compositional design methodology. The theory is backed by rigorous proofs and is being implemented in the open-source tool ECDAR.
翻訳日:2023-10-24 13:28:53 公開日:2023-07-13
# ソフトウェア品質向上への学生の関与における静的解析の利用について--pmdの経験から

On the Use of Static Analysis to Engage Students with Software Quality Improvement: An Experience with PMD ( http://arxiv.org/abs/2302.05554v2 )

ライセンス: Link先を確認
Eman Abdullah AlOmar, Salma Abdullah AlOmar, Mohamed Wiem Mkaouer(参考訳) 静的解析ツールは、しばしばソースコードをスキャンし、プロジェクトのコーディングガイドラインから逸脱を検出するために使われる。 その重要性から、リンターは学生にこれらのコードアンチパターンの検出と回避方法を教育するためにしばしば教室に紹介される。 しかし、これらのリンターが多数の偽陽性を引き起こす傾向にあるため、学生の意識を高める効果についてはほとんど分かっていない。 コーディング基準に違反する潜在的なコーディング問題に対する認識を高めるため,本研究は,静的解析を用いた教育における我々の経験を反映し,その効果を評価し,ソフトウェア品質の向上を支援することを目的としている。 本論文は,pmdを用いた690ルールのコードレビュー活動を行う65の投稿を含む,3学期にわたる授業における実験結果について述べる。 定量的・質的分析の結果, PMDの品質問題の存在は, 解決に要する時間を要する問題, 設計, ベストプラクティス関連カテゴリの受容や拒絶に影響を及ぼし, 学生はコードレビュー中に静的解析ツールを使用することの可能性を認めている。 この実験を通じて、コードレビューは教育コンピューティング計画の重要な部分になる可能性がある。 我々は,静的解析ツールに対する生徒の意識を高め,コーディングスキルを足場化するためのコードレビュー戦略を,教育者が学生に提供できることを示す。

Static analysis tools are frequently used to scan the source code and detect deviations from the project coding guidelines. Given their importance, linters are often introduced to classrooms to educate students on how to detect and potentially avoid these code anti-patterns. However, little is known about their effectiveness in raising students awareness, given that these linters tend to generate a large number of false positives. To increase the awareness of potential coding issues that violate coding standards, in this paper, we aim to reflect on our experience with teaching the use of static analysis for the purpose of evaluating its effectiveness in helping students with respect to improving software quality. This paper discusses the results of an experiment in the classroom over a period of 3 academic semesters, involving 65 submissions that carried out code review activity of 690 rules using PMD. The results of the quantitative and qualitative analysis shows that the presence of a set of PMD quality issues influence the acceptance or rejection of the issues, design, and best practices-related categories that take a longer time to be resolved, and students acknowledge the potential of using static analysis tools during code review. Through this experiment, code review can turn into a vital part of the educational computing plan. We envision our findings enabling educators to support students with code review strategies to raise students awareness about static analysis tools and scaffolding their coding skills.
翻訳日:2023-10-24 13:14:11 公開日:2023-07-13
# crucible: 合金モデルのグラフィカルなテストケース

Crucible: Graphical Test Cases for Alloy Models ( http://arxiv.org/abs/2307.06922v1 )

ライセンス: Link先を確認
Adam G. Emerson, Allison Sullivan(参考訳) alloyは宣言型モデリング言語であり、システム設計の検証に適している。 アロイモデルはアナライザを使用して自動的に分析される。アナライザは、ユーザが自身の特性の結果を表示し、行方不明または不正な特性を特定し、それらの特性に対する変更の影響を探求することで、システムを理解するのに役立つツールセットである。 これを達成するために、アナライザは既成のsatソルバを起動して、すべての実行された公式が保持するモデルの集合と関係への割り当てであるシナリオを探索する。 より正確なソフトウェアモデルを書くのを助けるために、 alloyにはユニットテストフレームワークaunitがあり、ユーザーは特定のシナリオを概説し、そのシナリオがモデルによって正しく生成されているか、または防止されているかをチェックすることができる。 残念ながら、現在AUnitはシナリオのテキスト仕様のみをサポートしている。 本稿では、ユーザがaunitのテストケースをグラフィカルに作成できるcrucibleを紹介する。 さらにCrucibleは,十分に構造化された,価値のあるテストケースの作成を確実にするための,ユーザに自動ガイダンスを提供する。 結果として、CrucibleはAUnitの採用の負担を軽減し、AUnitテストケースの作成を、Aoyのシナリオが一般的に相互作用する方法と一致させる。

Alloy is a declarative modeling language that is well suited for verifying system designs. Alloy models are automatically analyzed using the Analyzer, a toolset that helps the user understand their system by displaying the consequences of their properties, helping identify any missing or incorrect properties, and exploring the impact of modifications to those properties. To achieve this, the Analyzer invokes off-the-shelf SAT solvers to search for scenarios, which are assignments to the sets and relations of the model such that all executed formulas hold. To help write more accurate software models, Alloy has a unit testing framework, AUnit, which allows users to outline specific scenarios and check if those scenarios are correctly generated or prevented by their model. Unfortunately, AUnit currently only supports textual specifications of scenarios. This paper introduces Crucible, which allows users to graphically create AUnit test cases. In addition, Crucible provides automated guidance to users to ensure they are creating well structured, valuable test cases. As a result, Crucible eases the burden of adopting AUnit and brings AUnit test case creation more in line with how Alloy scenarios are commonly interacted with, which is graphically.
翻訳日:2023-10-23 17:33:05 公開日:2023-07-13
# プログラミング問題解決におけるメンタルセット効果の克服

Overcoming the Mental Set Effect in Programming Problem Solving ( http://arxiv.org/abs/2307.06673v1 )

ライセンス: Link先を確認
Agnia Sergeyuk, Sergey Titov, Yaroslav Golubev, Timofey Bryksin(参考訳) 本稿では,認知心理学的な視点を用いて,メンタルセット(einstellung)効果によるコードの繰り返し誤りを調査する。 エインステラング効果(英: einstellung effect)は、前もって考えられた考え方で問題解決にアプローチする傾向であり、しばしば利用可能なより良い解決策を見下ろす。 この効果は創造的思考に大きく影響し、思考のパターンの発展は、新しい創造的思考の出現を阻害する可能性がある。 本研究の目的は,プログラミング分野におけるEinstellung効果と,その克服の2つのメカニズムをテストすることである。 最初の介入は、コードエディタのカラースキームを、あまり習慣のないものに変更することだった。 第2の介入は、"以前のソリューションとタスクを忘れる"ための命令と、カラースキームの変更の組み合わせであった。 実験中、参加者は4つのプログラミングタスクの2セットを与えられた。 各タスクには2つの可能なソリューションがあった。ひとつはメンタルセットによって指示される副最適化コード、もうひとつはより親しみやすいがより効率的で推奨される方法だ。 セット間では、参加者は治療を受けられなかったり、メンタルセットを克服するための2つの介入のうちの1つを受け取っていた。 実験の結果,テスト手法は,プログラム領域の特異性に起因するメンタルセットの克服を支援するには不十分であることが示唆された。 この研究は、ソフトウェア開発における問題解決における創造性支援の洞察を提供し、この分野の実験研究のためのフレームワークを提供することで、既存の文献に寄与している。

This paper adopts a cognitive psychology perspective to investigate the recurring mistakes in code resulting from the mental set (Einstellung) effect. The Einstellung effect is the tendency to approach problem-solving with a preconceived mindset, often overlooking better solutions that may be available. This effect can significantly impact creative thinking, as the development of patterns of thought can hinder the emergence of novel and creative ideas. Our study aims to test the Einstellung effect and the two mechanisms of its overcoming in the field of programming. The first intervention was the change of the color scheme of the code editor to the less habitual one. The second intervention was a combination of instruction to "forget the previous solutions and tasks" and the change in the color scheme. During the experiment, participants were given two sets of four programming tasks. Each task had two possible solutions: one using suboptimal code dictated by the mental set, and the other using a less familiar but more efficient and recommended methodology. Between the sets, participants either received no treatment or one of two interventions aimed at helping them overcome the mental set. The results of our experiment suggest that the tested techniques were insufficient to support overcoming the mental set, which we attribute to the specificity of the programming domain. The study contributes to the existing literature by providing insights into creativity support during problem-solving in software development and offering a framework for experimental research in this field.
翻訳日:2023-10-23 17:32:44 公開日:2023-07-13
# ハイブリッド作業で実践されるペアプログラミング

Pair Programming Practiced in Hybrid Work ( http://arxiv.org/abs/2307.06658v1 )

ライセンス: Link先を確認
Anastasiia Tkalich, Nils Brede Moe, Nina Haugland Andersen, Viktoria Stray, Astri Moksnes Barbala(参考訳) ペアプログラミング(PP)は数十年にわたって広く普及し、知識交換の促進とソフトウェアの品質向上で知られている。 多くのアジャイリストは、ペアリング時に共有ワークスペースに組み込まれたコロケーション、対面相互作用、物理的アーティファクトの重要性を主張した。 長期にわたる在宅勤務の後、多くの知識労働者は週に2~3日、PPのような実践に影響を及ぼす遠隔勤務を好む。 本研究の目的は、チームメンバーが現場の日と在宅勤務の間で交互に働くとき、ハイブリッドワークでPPがどのように実践されているかを理解することである。 11の半構造化面接,観察,フィードバックセッション,自己報告調査を通じて質的・定量的データを収集した。 インタビュアーはノルウェーのフィンテック企業におけるアジャイルソフトウェア開発チームのメンバーでした。 本報告の結果から, PPは, 遠隔, 遠隔, 混合セッションを通じて実施可能であり, 混合モードが最も有利であると考えられる。 PPに関しては,作業環境を個別の作業モードに適応させることの重要性を強調した。 将来的には,これらの調査結果に基づいて,ハイブリッド作業を行う他のチームや組織でppを探求する予定です。

Pair programming (PP) has been a widespread practice for decades and is known for facilitating knowledge exchange and improving the quality of software. Many agilists advocated the importance of collocation, face-to-face interaction, and physical artifacts incorporated in the shared workspace when pairing. After a long period of forced work-from-home, many knowledge workers prefer to work remotely two or three days per week, which is affecting practices such as PP. In this revelatory single-case study, we aimed to understand how PP is practiced during hybrid work when team members alternate between on-site days and working from home. We collected qualitative and quantitative data through 11 semi-structured interviews, observations, feedback sessions, and self-reported surveys. The interviewees were members of an agile software development team in a Norwegian fintech company. The results presented in this paper indicate that PP can be practiced through on-site, remote, and mixed sessions, where the mixed mode seems to be the least advantageous. The findings highlight the importance of adapting the work environment to suit individual work mode preferences when it comes to PP. In the future, we will build on these findings to explore PP in other teams and organizations practicing hybrid work.
翻訳日:2023-10-23 17:32:21 公開日:2023-07-13
# グラフニューラルネットワークを用いた表面メッシュからの体脂肪推定

Body Fat Estimation from Surface Meshes using Graph Neural Networks ( http://arxiv.org/abs/2308.02493v1 )

ライセンス: Link先を確認
Tamara T. Mueller, Siyu Zhou, Sophie Starck, Friederike Jungmann, Alexander Ziller, Orhun Aksoy, Danylo Movchan, Rickmer Braren, Georgios Kaissis, Daniel Rueckert(参考訳) 体脂肪の量と分布は、患者の健康状態および2型糖尿病や心血管疾患などの疾患の発症リスクの強い兆候である。 脂肪推定によく用いられる指標は、BMI(Body mass index)、腰周囲、腰ヒップ比である。 しかし、これらはむしろ不正確な手段であり、異なる種類の脂肪と脂肪と筋肉組織の区別を許さない。 腹腔内(vat)および腹部皮下(asat)脂肪組織量の推定は,より正確な危険因子の指標であることが示された。 本研究では, グラフニューラルネットワークを用いて, VATおよびASATボリュームを正確に予測するために, 三角体表面メッシュを使用できることを示す。 本手法は,この領域の最先端畳み込みニューラルネットワークと比較して,トレーニング時間と必要なリソースを削減しつつ高い性能を実現する。 さらに,この手法は高価な医用画像ではなく,安価で手軽にアクセスできる医用表面スキャンに適用できると考えられる。

Body fat volume and distribution can be a strong indication for a person's overall health and the risk for developing diseases like type 2 diabetes and cardiovascular diseases. Frequently used measures for fat estimation are the body mass index (BMI), waist circumference, or the waist-hip-ratio. However, those are rather imprecise measures that do not allow for a discrimination between different types of fat or between fat and muscle tissue. The estimation of visceral (VAT) and abdominal subcutaneous (ASAT) adipose tissue volume has shown to be a more accurate measure for named risk factors. In this work, we show that triangulated body surface meshes can be used to accurately predict VAT and ASAT volumes using graph neural networks. Our methods achieve high performance while reducing training time and required resources compared to state-of-the-art convolutional neural networks in this area. We furthermore envision this method to be applicable to cheaper and easily accessible medical surface scans instead of expensive medical images.
翻訳日:2023-08-14 01:28:32 公開日:2023-07-13
# ユーザの意思決定過程におけるアルゴリズムの信頼性と透明性の影響

Influence of the algorithm's reliability and transparency in the user's decision-making process ( http://arxiv.org/abs/2308.02492v1 )

ライセンス: Link先を確認
Sourabh Zanwar(参考訳) アルゴリズムは、刑事司法制度、ジョブ・アプリケーション・フィルタリング、医療、医療といった分野における意思決定支援システムや意思決定システムという形態の様々な意思決定プロセスにおいて、ますます重要になっている。 これらのアルゴリズムが公平であり、ユーザーがこれらの決定に自信を持つことは、特に上記の文脈において、社会に大きな影響を与えるため重要である。 我々は61人の参加者とともにオンライン実験を行い、メラノーマである病変の可能性を判断するアルゴリズムの透明性と信頼性の変化が、ユーザの意思決定プロセスにどのように影響するか、そしてアルゴリズムによる決定に対する自信を確かめる。 その結果,信頼性が悪くても,アルゴリズムの判断にある程度の信頼感が示されることがわかった。 しかし、アルゴリズムの間違った判断に盲目的に従わない。

Algorithms have been becoming increasingly relevant for various decision-making processes in the forms of Decision Support Systems or Decision-making systems in areas such as Criminal-Justice systems, Job Application Filtering, Medicine, and Healthcare to name a few. It is crucial for these algorithms to be fair and for the users to have confidence in these decisions, especially in the above contexts, because they have a high impact on society. We conduct an online empirical study with 61 participants to find out how the change in transparency and reliability of an algorithm which determines the probability of lesions being melanoma could impact users' decision-making process, as well as the confidence in the decisions made by the algorithm. The results indicate that people show at least moderate confidence in the decisions of the algorithm even when the reliability is bad. However, they would not blindly follow the algorithm's wrong decisions.
翻訳日:2023-08-14 01:28:15 公開日:2023-07-13
# EFL学生のループ内活動システムにおける態度と矛盾

EFL Students' Attitudes and Contradictions in a Machine-in-the-loop Activity System ( http://arxiv.org/abs/2307.13699v1 )

ライセンス: Link先を確認
David James Woo, Hengky Susanto and Kai Guo(参考訳) 本研究は, 活動理論を適用し, 香港の4つの中等学校(中等学校)の67人の英語学生が, 機械・イン・ザ・ループの文章を書くことに対する態度と矛盾について考察する。 学生はAIで書くことに対する感情についてオープンな質問に答えた。 結果, ポジティブな態度が強く, 否定的あるいは混合的な感情がみられた。 数学的な分析から、学生とAIの間の矛盾や緊張点は、AIの不備、学生の好みへの熱意のバランス、言語自立への努力などに起因する。 この研究は、EFLの教室でマシン・イン・ザ・ループを書くことの利点と課題を強調し、教育者は学生の行動システムを強化するために活動目標を学生の価値観、言語能力、AI能力と整合させることを示唆している。

This study applies Activity Theory and investigates the attitudes and contradictions of 67 English as a foreign language (EFL) students from four Hong Kong secondary schools towards machine-in-the-loop writing, where artificial intelligence (AI) suggests ideas during composition. Students answered an open-ended question about their feelings on writing with AI. Results revealed mostly positive attitudes, with some negative or mixed feelings. From a thematic analysis, contradictions or points of tension between students and AI stemmed from AI inadequacies, students' balancing enthusiasm with preference, and their striving for language autonomy. The research highlights the benefits and challenges of implementing machine-in-the-loop writing in EFL classrooms, suggesting educators align activity goals with students' values, language abilities, and AI capabilities to enhance students' activity systems.
翻訳日:2023-07-30 04:07:48 公開日:2023-07-13
# 分極問題に対するchatgptとbard応答

ChatGPT and Bard Responses to Polarizing Questions ( http://arxiv.org/abs/2307.12402v1 )

ライセンス: Link先を確認
Abhay Goyal, Muhammad Siddique, Nimay Parekh, Zach Schwitzky, Clara Broekaert, Connor Michelotti, Allie Wong, Lam Yin Cheung, Robin O Hanlon, Lam Yin Cheung, Munmun De Choudhury, Roy Ka-Wei Lee, Navin Kumar(参考訳) 自然言語処理の最近の進歩は、幅広い教育や学習結果を改善するための大規模言語モデル(LLM)の可能性を示している。 llms、chatgpt、およびbardに基づく最近のチャットボットのうち、人工知能(ai)技術が情報獲得と検索の方法に大きな影響を与えることを明らかにしている。 しかし、これらのツールはしばしば説得力があるが、しばしば不正確である幻覚として知られるテキストを生成する。 そのため、科学的事実を歪め、誤報を広めることができる。 これらのツールに対する反応の分極化に対抗するために、利害関係者がどのトピックがより議論の的になるかを決定するために、そのような反応の概要を提供することが重要です。 さらに、上述の目的の中心となる、分極する可能性のあるトピックに関する、chatgptとbard応答の注釈付きデータセットは存在しない。 米国における高度に分極化したトピックに注目して、chatgptとbard応答のデータセットを作成し、記述しました。 広義には,chatgptとbardでは左寄りのバイアスがみられ,bardは分極化トピックに関する回答を提供する傾向が強かった。 bardは議論の的となっている話題に対するガードレールが少なく、より包括的で、やや人間的な反応を提供したいようだ。 したがって、悪質な俳優に虐待される可能性が高い。 LLMからの誤変形および/または偏光反応を緩和するために、ステークホルダーは我々の知見を利用するかもしれない

Recent developments in natural language processing have demonstrated the potential of large language models (LLMs) to improve a range of educational and learning outcomes. Of recent chatbots based on LLMs, ChatGPT and Bard have made it clear that artificial intelligence (AI) technology will have significant implications on the way we obtain and search for information. However, these tools sometimes produce text that is convincing, but often incorrect, known as hallucinations. As such, their use can distort scientific facts and spread misinformation. To counter polarizing responses on these tools, it is critical to provide an overview of such responses so stakeholders can determine which topics tend to produce more contentious responses -- key to developing targeted regulatory policy and interventions. In addition, there currently exists no annotated dataset of ChatGPT and Bard responses around possibly polarizing topics, central to the above aims. We address the indicated issues through the following contribution: Focusing on highly polarizing topics in the US, we created and described a dataset of ChatGPT and Bard responses. Broadly, our results indicated a left-leaning bias for both ChatGPT and Bard, with Bard more likely to provide responses around polarizing topics. Bard seemed to have fewer guardrails around controversial topics, and appeared more willing to provide comprehensive, and somewhat human-like responses. Bard may thus be more likely abused by malicious actors. Stakeholders may utilize our findings to mitigate misinformative and/or polarizing responses from LLMs
翻訳日:2023-07-30 04:05:54 公開日:2023-07-13
# 構文誘導合成のための強化学習

Reinforcement Learning for Syntax-Guided Synthesis ( http://arxiv.org/abs/2307.09564v1 )

ライセンス: Link先を確認
Julian Parsert and Elizabeth Polgreen(参考訳) プログラム合成は、仕様に基づいてコードを自動的に生成するタスクである。 syn-guided synthesis(sygus)では、この仕様は構文テンプレートと論理式の組み合わせであり、生成されたコードは両方を満たすことが証明されている。 SyGuSのような技術は正しい合成結果を保証するために重要である。 他のタイプのプログラム合成における機械学習の普及にもかかわらず、SyGuSの最先端技術は依然として自動推論ツールと単純な列挙によって駆動されている。 これは2つの理由から仮説を立てる: まず検索問題の複雑さ、そして2つ目が比較的小さなデータセットである。 本研究では,木探索として一般的なシグス問題を取り上げ,モンテカルロ木探索(mcts)に基づくシグスに対する強化学習誘導合成アルゴリズムを提案する。 本アルゴリズムは,学習方針と価値関数と,探索と搾取のバランスをとる木に対する高い信頼度を組み合わせたものである。 我々は,この検索手順を強化学習環境に組み込んで,ブーストツリーモデルに基づくポリシーと価値評価子を反復的に改善する。 トレーニングデータの不足に対処するため,既存の1次満足度問題の「emph{anti-unification}」に基づいて,SyGuSのトレーニングデータを自動的に生成する手法を提案する。 この設定を実装して評価し、学習方針と価値がベースライン列挙器上での合成性能をトレーニングおよびテストセットの26ドル以上のポイントで向上することを示した。 これらの結果から,CVC5などの最先端ツールをトレーニングセットで上回り,テストセットで互換性のあるパフォーマンスを実現した。 データセットを公開し、SyGuS問題への機械学習手法のさらなる適用を可能にします。

Program synthesis is the task of automatically generating code based on a specification. In Syntax-Guided Synthesis(SyGuS) this specification is a combination of a syntactic template and a logical formula, and any generated code is proven to satisfy both. Techniques like SyGuS are critical to guaranteeing correct synthesis results. Despite the proliferation of machine learning in other types of program synthesis, state-of-the-art techniques in SyGuS are still driven by automated reasoning tools and simple enumeration. We hypothesize this is for two reasons: first the complexity of the search problem, and second the relatively small data sets available. In this work, we tackle these challenges by framing general SyGuS problems as a tree-search, and present a reinforcement learning guided synthesis algorithm for SyGuS based on Monte-Carlo Tree Search (MCTS). Our algorithm incorporates learned policy and value functions combined with the upper confidence bound for trees to balance exploration and exploitation. We incorporate this search procedure in a reinforcement learning setup in order to iteratively improve our policy and value estimators which are based on boosted tree models. To address the scarcity of training data, we present a method for automatically generating training data for SyGuS based on \emph{anti-unification} of existing first-order satisfiability problems, which we use to train our MCTS policy. We implement and evaluate this setup and demonstrate that learned policy and value improve the synthesis performance over a baseline enumerator by over $26$ percentage points in the training and testing sets. With these results our tool outperforms state-of-the-art-tools such as CVC5 on the training set and performs comparably on the testing set. We make our data set publicly available, enabling further application of machine learning methods to the SyGuS problem.
翻訳日:2023-07-23 12:09:19 公開日:2023-07-13
# qdoor: 量子ニューラルネットワークにおけるバックドア攻撃に対する近似合成の活用

QDoor: Exploiting Approximate Synthesis for Backdoor Attacks in Quantum Neural Networks ( http://arxiv.org/abs/2307.09529v1 )

ライセンス: Link先を確認
Cheng Chu and Fan Chen and Philip Richerme and Lei Jiang(参考訳) 量子ニューラルネットワーク(QNN)は、オブジェクト認識、自然言語処理、財務分析に成功している。 ノイズ中間スケール量子(NISQ)コンピュータ上でのQNNの精度を最大化するために、近似合成は、エラーを起こしやすい2ビット量子ゲートを低減してQNN回路を変更する。 QNNの成功は、敵がバックドアを介してQNNを攻撃する動機となっている。 しかし、古典的なニューラルネットワーク用に設計されたバックドアをqnnに移植すると、ノイズとnisqコンピュータの近似合成のため、攻撃成功率は低くなる。 以前の量子回路ベースのバックドアは、いくつかの入力を選択的に攻撃したり、QNN回路のあらゆるタイプの符号化レイヤで動作できない。 さらに、QNNにおいて、移植されたバックドアと回路ベースのバックドアの両方を検出することも容易である。 本稿では,未コンパイルQNNと合成QNNの統一的差異を武器として,ほぼ合成QNN回路において高い攻撃成功率を達成するための,新規でステルスなバックドア攻撃であるQDoorを提案する。 QDoorは、通常、トリガーなしで全ての入力に対してQNNの振る舞いを訓練する。 しかし、近似合成後、QNN回路は常に事前定義されたクラスへのトリガーを持つ任意の入力を予測し、通常、良性入力に対して作用する。 以前のバックドア攻撃と比較して、qdoorは攻撃成功率を13\times$、クリーンデータ精度を平均で65\%$改善している。 さらに,未コンパイルQNN回路におけるQDoor攻撃は検出できない。

Quantum neural networks (QNNs) succeed in object recognition, natural language processing, and financial analysis. To maximize the accuracy of a QNN on a Noisy Intermediate Scale Quantum (NISQ) computer, approximate synthesis modifies the QNN circuit by reducing error-prone 2-qubit quantum gates. The success of QNNs motivates adversaries to attack QNNs via backdoors. However, na\"ively transplanting backdoors designed for classical neural networks to QNNs yields only low attack success rate, due to the noises and approximate synthesis on NISQ computers. Prior quantum circuit-based backdoors cannot selectively attack some inputs or work with all types of encoding layers of a QNN circuit. Moreover, it is easy to detect both transplanted and circuit-based backdoors in a QNN. In this paper, we propose a novel and stealthy backdoor attack, QDoor, to achieve high attack success rate in approximately-synthesized QNN circuits by weaponizing unitary differences between uncompiled QNNs and their synthesized counterparts. QDoor trains a QNN behaving normally for all inputs with and without a trigger. However, after approximate synthesis, the QNN circuit always predicts any inputs with a trigger to a predefined class while still acts normally for benign inputs. Compared to prior backdoor attacks, QDoor improves the attack success rate by $13\times$ and the clean data accuracy by $65\%$ on average. Furthermore, prior backdoor detection techniques cannot find QDoor attacks in uncompiled QNN circuits.
翻訳日:2023-07-23 12:08:24 公開日:2023-07-13
# 順序データ科学へ向けて

Towards Ordinal Data Science ( http://arxiv.org/abs/2307.09477v1 )

ライセンス: Link先を確認
Gerd Stumme, Dominik D\"urrschnabel, Tom Hanika(参考訳) 順序は、(経験的な)データ内のオブジェクト間の関係を測定する主要な手段の1つである。 しかし, 対象物の数値特性を利用する手法に比べ, 開発された順序法は比較的少ない。 この理由の1つは、順序計算に必要とされる計算資源が前世紀に限られていたことである。 この研究で特に重要な理由は、秩序に基づく手法は実世界のデータに適用するには数学的に厳密すぎるとしばしば見なされるためである。 そこで本論文では,順序構造 -- 有向グラフの特定のクラス -- の計測と「計算」の異なる方法について議論し,それらから知識を推測する方法を示す。 私たちの目標は、順序データ科学を根本的に新しい研究課題として確立することです。 他の基盤となる機械学習や知識表現手法との交配に加えて、心理学、社会学、経済学、ウェブサイエンス、知識工学、サイエントメトリックスなど、幅広い分野がこの取り組みの恩恵を受ける。

Order is one of the main instruments to measure the relationship between objects in (empirical) data. However, compared to methods that use numerical properties of objects, the amount of ordinal methods developed is rather small. One reason for this is the limited availability of computational resources in the last century that would have been required for ordinal computations. Another reason -- particularly important for this line of research -- is that order-based methods are often seen as too mathematically rigorous for applying them to real-world data. In this paper, we will therefore discuss different means for measuring and 'calculating' with ordinal structures -- a specific class of directed graphs -- and show how to infer knowledge from them. Our aim is to establish Ordinal Data Science as a fundamentally new research agenda. Besides cross-fertilization with other cornerstone machine learning and knowledge representation methods, a broad range of disciplines will benefit from this endeavor, including, psychology, sociology, economics, web science, knowledge engineering, scientometrics.
翻訳日:2023-07-23 12:07:59 公開日:2023-07-13
# ネットワーク分離可能な相互作用を持つマルチプレイヤーゼロサムマルコフゲーム

Multi-Player Zero-Sum Markov Games with Networked Separable Interactions ( http://arxiv.org/abs/2307.09470v1 )

ライセンス: Link先を確認
Chanwoo Park, Kaiqing Zhang, Asuman Ozdaglar(参考訳) 我々は,非協調的マルチエージェントシーケンシャル意思決定における局所的相互作用構造をモデル化するために,新たな種類のマルコフゲーム (MG) と {\it Networked Separable Interaction} (MZNMG) について検討する。 我々は、MZNMGを、各状態に関連する補助ゲームのペイオフがゼロサムであり、ある相互作用ネットワーク上で隣り合う分離可能な(つまりポリマトリクス)構造を持つモデルとして定義する。 まず、MGをMZNMGとして提示できる必要十分条件を特定し、マルコフ粗相関平衡(CCE)の集合がこれらのゲームにおいてマルコフ・ナッシュ平衡(NE)の集合に崩壊することを示す。 さらに、無限水平割引MZNMGsにおける近似Markov \emph{stationary} CCEの発見は、基礎となるネットワークが '‘star topology''' を持たない限り、‘texttt{PPAD}-hardであることを示す。 そこで我々は,MZNMGの正規形式ゲームにおける古典的な学習力学である架空のプレイ型力学を提案し,星型ネットワーク構造の下でマルコフ定常NEへの収束保証を確立する。 最後に、その硬さを考慮し、Markov \emph{non-stationary} NE の計算に集中し、一連の値イテレーションに基づくアルゴリズムに対する有限イテレーション保証を提供する。 また,理論結果と相関する数値実験も実施する。

We study a new class of Markov games (MGs), \textit{Multi-player Zero-sum Markov Games} with {\it Networked separable interactions} (MZNMGs), to model the local interaction structure in non-cooperative multi-agent sequential decision-making. We define an MZNMG as a model where {the payoffs of the auxiliary games associated with each state are zero-sum and} have some separable (i.e., polymatrix) structure across the neighbors over some interaction network. We first identify the necessary and sufficient conditions under which an MG can be presented as an MZNMG, and show that the set of Markov coarse correlated equilibrium (CCE) collapses to the set of Markov Nash equilibrium (NE) in these games, in that the {product of} per-state marginalization of the former for all players yields the latter. Furthermore, we show that finding approximate Markov \emph{stationary} CCE in infinite-horizon discounted MZNMGs is \texttt{PPAD}-hard, unless the underlying network has a ``star topology''. Then, we propose fictitious-play-type dynamics, the classical learning dynamics in normal-form games, for MZNMGs, and establish convergence guarantees to Markov stationary NE under a star-shaped network structure. Finally, in light of the hardness result, we focus on computing a Markov \emph{non-stationary} NE and provide finite-iteration guarantees for a series of value-iteration-based algorithms. We also provide numerical experiments to corroborate our theoretical results.
翻訳日:2023-07-23 12:07:42 公開日:2023-07-13
# 音声言語評価のためのASR基礎モデルの適用

Adapting an ASR Foundation Model for Spoken Language Assessment ( http://arxiv.org/abs/2307.09378v1 )

ライセンス: Link先を確認
Rao Ma, Mengjie Qian, Mark J. F. Gales, Kate M. Knill(参考訳) 正確で信頼性の高い音声言語評価システムの重要な部分は、基礎となるASRモデルである。 近年、Whisperのような大規模な事前訓練されたASR基盤モデルが利用可能になっている。 これらのモデルの出力は、人間が読めるように設計されているため、句読点が追加され、数字はアラビア数字形式で示され、省略形が含まれる。 さらに、これらのモデルは出力の反響やためらう傾向にある。 可読性には有用だが、これらの属性は候補の能力を評価しフィードバックを提供するのに役に立たない。 ここでは、候補者が言ったことを正確に書き起こす必要がある。 本稿では,whisper出力の詳細な解析を行い,微調整とソフトプロンプトチューニングの2つの解を提案する。 公開音声コーパスと英語学習者データセットの両方で実験を行う。 その結果,whisperの復号動作を効果的に変化させ,応答中の正確な単語を生成できることがわかった。

A crucial part of an accurate and reliable spoken language assessment system is the underlying ASR model. Recently, large-scale pre-trained ASR foundation models such as Whisper have been made available. As the output of these models is designed to be human readable, punctuation is added, numbers are presented in Arabic numeric form and abbreviations are included. Additionally, these models have a tendency to skip disfluencies and hesitations in the output. Though useful for readability, these attributes are not helpful for assessing the ability of a candidate and providing feedback. Here a precise transcription of what a candidate said is needed. In this paper, we give a detailed analysis of Whisper outputs and propose two solutions: fine-tuning and soft prompt tuning. Experiments are conducted on both public speech corpora and an English learner dataset. Results show that we can effectively alter the decoding behaviour of Whisper to generate the exact words spoken in the response.
翻訳日:2023-07-23 12:06:57 公開日:2023-07-13
# Nested Elimination: 選択に基づくフィードバックからのベスト項目識別のための簡易アルゴリズム

Nested Elimination: A Simple Algorithm for Best-Item Identification from Choice-Based Feedback ( http://arxiv.org/abs/2307.09295v1 )

ライセンス: Link先を確認
Junwen Yang, Yifan Feng(参考訳) 選択に基づくフィードバックから最良項目識別の問題を検討する。 この問題において、企業は顧客集団に表示セットを順次かつ適応的に表示し、選択を収集する。 その目的は、最少のサンプル数と高い信頼度で、最も好ましいアイテムを特定することである。 本稿では,情報理論下界に暗示されるネスト構造に触発された除去に基づくアルゴリズムであるネスト除去(ne)を提案する。 NEは構造がシンプルで実装が容易で、サンプルの複雑さに対する理論的な保証が強い。 具体的には、NEは革新的な除去基準を利用し、複雑な組合せ最適化問題の解決を回避している。 ne のサンプル複雑性に対するインスタンス固有かつ非漸近的境界を提供する。 また、NEは高次最悪の漸近的最適性を達成することを示す。 最後に、合成データと実データの両方による数値実験は、我々の理論的知見を裏付けるものである。

We study the problem of best-item identification from choice-based feedback. In this problem, a company sequentially and adaptively shows display sets to a population of customers and collects their choices. The objective is to identify the most preferred item with the least number of samples and at a high confidence level. We propose an elimination-based algorithm, namely Nested Elimination (NE), which is inspired by the nested structure implied by the information-theoretic lower bound. NE is simple in structure, easy to implement, and has a strong theoretical guarantee for sample complexity. Specifically, NE utilizes an innovative elimination criterion and circumvents the need to solve any complex combinatorial optimization problem. We provide an instance-specific and non-asymptotic bound on the expected sample complexity of NE. We also show NE achieves high-order worst-case asymptotic optimality. Finally, numerical experiments from both synthetic and real data corroborate our theoretical findings.
翻訳日:2023-07-23 12:06:44 公開日:2023-07-13
# 分布特性の教師なし学習は、異常検出における人間のラベル付けを補完し、アクティブラーニング効率を向上させる

Unsupervised Learning of Distributional Properties can Supplement Human Labeling and Increase Active Learning Efficiency in Anomaly Detection ( http://arxiv.org/abs/2307.08782v1 )

ライセンス: Link先を確認
Jaturong Kongmanee, Mark Chignell, Khilan Jerath, Abhay Raman(参考訳) メールによるデータの流出は多くの組織にとって深刻なサイバーセキュリティの脅威だ。 データ消去(異常)パターンを検出するには、たいていは人間のアノテータによって行われるラベル付けが必要となる。 アクティブラーニング(AL)はデータのラベル付けを効果的に行う上で有望なアプローチであるが,特に稀な関心事を検出する場合において,ラベル付けを優先するためにどのような採点手順を用いるべきかについては不透明である。 本研究では,事前データ分布とモデル不確実性を利用した適応的alサンプリング戦略を提案し,稀な異常のインスタンスを含むラベル付きケースのバッチを生成する。 1) 分類器は, 正規例と異常例の両方の代表例と情報的例から恩恵を受けており, 2) 教師なし異常検出は, 比較的少ないラベル付けを行う場合の訓練の初期段階において, 分類器を構築する上で有用な役割を担っている。 異常検出のためのalアプローチは,高度にバランスの取れない3つのuciベンチマークと,1つの実世界のreacted emailデータセットにおいて,既存のalアプローチを上回った。

Exfiltration of data via email is a serious cybersecurity threat for many organizations. Detecting data exfiltration (anomaly) patterns typically requires labeling, most often done by a human annotator, to reduce the high number of false alarms. Active Learning (AL) is a promising approach for labeling data efficiently, but it needs to choose an efficient order in which cases are to be labeled, and there are uncertainties as to what scoring procedure should be used to prioritize cases for labeling, especially when detecting rare cases of interest is crucial. We propose an adaptive AL sampling strategy that leverages the underlying prior data distribution, as well as model uncertainty, to produce batches of cases to be labeled that contain instances of rare anomalies. We show that (1) the classifier benefits from a batch of representative and informative instances of both normal and anomalous examples, (2) unsupervised anomaly detection plays a useful role in building the classifier in the early stages of training when relatively little labeling has been done thus far. Our approach to AL for anomaly detection outperformed existing AL approaches on three highly unbalanced UCI benchmarks and on one real-world redacted email data set.
翻訳日:2023-07-23 12:06:32 公開日:2023-07-13
# 学習可能なハッシュを用いたニューラルテンポラリポイントプロセスを用いた連続時間イベントシーケンスの検索

Retrieving Continuous Time Event Sequences using Neural Temporal Point Processes with Learnable Hashing ( http://arxiv.org/abs/2307.09613v1 )

ライセンス: Link先を確認
Vinayak Gupta and Srikanta Bedathur and Abir De(参考訳) 時間系列は、様々な実世界の応用において広く普及している。 その結果、過去数年間で連続時間イベントシーケンスやCTES(s)の形式で生成されたデータの量は指数関数的に増加した。 したがって、cteデータセットに関する現在進行中の研究のかなりの割合は、次のイベント予測、長期予測、シーケンス分類などの下流タスクに対処するモデルを設計することである。 marked temporal point process (mtpp) を用いた予測モデリングの最近の進歩により、ctessを含むいくつかの実世界のアプリケーションを正確にキャラクタリゼーションできるようになった。 しかし,これらのCTESデータセットの複雑な性質から,時間的シーケンスの大規模検索作業は過去の文献では見過ごされている。 詳細はCTES検索によって、入力クエリシーケンスに対して、検索システムは巨大なコーパスから関連するシーケンスのランクリストを返さなければならないことを意味する。 そこで我々は,エンドツーエンドCTES検索に特化して設計された一級フレームワークであるNeuroSeqRetを提案する。 具体的には、NeuroSeqRetは、標準的な検索フレームワークに対する複数の拡張を導入し、まずクエリシーケンスにトレーニング可能なアンウォープ関数を適用し、特に関連するクエリ-コーパスペアが個々の属性を持つ場合、コーパスシーケンスに匹敵する。 次に、未処理のクエリシーケンスとコーパスシーケンスをMTPP誘導神経関連モデルに供給する。 我々は,精度と効率のトレードオフに基づいて,異なる種類のアプリケーションに対する妥当性モデルの4つの変種を開発する。 また,局所性に敏感なハッシュ処理に適した相関スコアからバイナリシーケンス埋め込みを学習するための最適化フレームワークを提案する。 本研究では,NeuroSeqRetの精度向上とハッシュ機構の有効性について検討した。

Temporal sequences have become pervasive in various real-world applications. Consequently, the volume of data generated in the form of continuous time-event sequence(s) or CTES(s) has increased exponentially in the past few years. Thus, a significant fraction of the ongoing research on CTES datasets involves designing models to address downstream tasks such as next-event prediction, long-term forecasting, sequence classification etc. The recent developments in predictive modeling using marked temporal point processes (MTPP) have enabled an accurate characterization of several real-world applications involving the CTESs. However, due to the complex nature of these CTES datasets, the task of large-scale retrieval of temporal sequences has been overlooked by the past literature. In detail, by CTES retrieval we mean that for an input query sequence, a retrieval system must return a ranked list of relevant sequences from a large corpus. To tackle this, we propose NeuroSeqRet, a first-of-its-kind framework designed specifically for end-to-end CTES retrieval. Specifically, NeuroSeqRet introduces multiple enhancements over standard retrieval frameworks and first applies a trainable unwarping function on the query sequence which makes it comparable with corpus sequences, especially when a relevant query-corpus pair has individually different attributes. Next, it feeds the unwarped query sequence and the corpus sequence into MTPP-guided neural relevance models. We develop four variants of the relevance model for different kinds of applications based on the trade-off between accuracy and efficiency. We also propose an optimization framework to learn binary sequence embeddings from the relevance scores, suitable for the locality-sensitive hashing. Our experiments show the significant accuracy boost of NeuroSeqRet as well as the efficacy of our hashing mechanism.
翻訳日:2023-07-23 11:58:20 公開日:2023-07-13
# 時系列構造探索のための連続モンテカルロ学習

Sequential Monte Carlo Learning for Time Series Structure Discovery ( http://arxiv.org/abs/2307.09607v1 )

ライセンス: Link先を確認
Feras A. Saad, Brian J. Patton, Matthew D. Hoffman, Rif A. Saurous, Vikash K. Mansinghka(参考訳) 本稿では,複雑な時系列データの正確なモデルを自動的に発見する新しい手法を提案する。 ガウス過程時系列モデルのシンボリック空間上のベイズ非パラメトリックな事前処理において,逐次モンテカルロ(smc)とインボリューティブmc(mcmc)を統合した新しい構造学習アルゴリズムを提案する。 本手法は,新しいデータを時系列的に組み込む"オンライン"設定と,履歴データのネストサブセットを使用して後方をアニールすることにより"オフライン"設定の両方に使用することができる。 実世界の時系列の実証実験により,本手法は,従来のMCMCおよびgreedy-search構造学習アルゴリズムよりも10倍-100倍のランタイム高速化を実現することができることが示された。 我々は,1,428個のエコノメトリデータセットの顕著なベンチマークを用いて,ガウス過程時系列構造学習の大規模評価を行う。 以上の結果から,本手法は複数の地平線にわたってより正確な点予測と区間予測をもたらす有理モデルを見出した。

This paper presents a new approach to automatically discovering accurate models of complex time series data. Working within a Bayesian nonparametric prior over a symbolic space of Gaussian process time series models, we present a novel structure learning algorithm that integrates sequential Monte Carlo (SMC) and involutive MCMC for highly effective posterior inference. Our method can be used both in "online" settings, where new data is incorporated sequentially in time, and in "offline" settings, by using nested subsets of historical data to anneal the posterior. Empirical measurements on real-world time series show that our method can deliver 10x--100x runtime speedups over previous MCMC and greedy-search structure learning algorithms targeting the same model family. We use our method to perform the first large-scale evaluation of Gaussian process time series structure learning on a prominent benchmark of 1,428 econometric datasets. The results show that our method discovers sensible models that deliver more accurate point forecasts and interval forecasts over multiple horizons as compared to widely used statistical and neural baselines that struggle on this challenging data.
翻訳日:2023-07-23 11:57:53 公開日:2023-07-13
# DenseMP:少人数の医用画像セグメンテーションのための教師なしDense事前トレーニング

DenseMP: Unsupervised Dense Pre-training for Few-shot Medical Image Segmentation ( http://arxiv.org/abs/2307.09604v1 )

ライセンス: Link先を確認
Zhaoxin Fan, Puquan Pan, Zeren Zhang, Ce Chen, Tianyang Wang, Siyang Zheng, Min Xu(参考訳) 医療画像解析の分野では, 医療画像セマンティクスセグメンテーションが重要視されている。 しかし、既存の手法はトレーニング段階でデータの不足という課題に対処し、過剰フィッティングに繋がる。 この問題を軽減するために,教師なし高密度プレトレーニングを生かした,教師なし高密度画像分割モデルトレーニングパイプライン(DenseMP)を紹介する。 densempは,(1)セグメンテーション・アウェア・コントラスト・プレトレーニング,(2)マイナショット・アウェア・スーパーピクセル誘導型プレトレーニングの2つの異なるステージから構成される。 これらのステージは、数ショットの医療画像セグメンテーション用に特別に設計されたトレーニング済みの初期モデルを生成する。 提案するパイプラインは,Abd-CTおよびAbd-MRIデータセット上での最先端結果を達成し,広く認識されている小ショットセグメンテーションモデルPA-Netの性能を著しく向上させる。 コードは受理後にリリースされます。

Few-shot medical image semantic segmentation is of paramount importance in the domain of medical image analysis. However, existing methodologies grapple with the challenge of data scarcity during the training phase, leading to over-fitting. To mitigate this issue, we introduce a novel Unsupervised Dense Few-shot Medical Image Segmentation Model Training Pipeline (DenseMP) that capitalizes on unsupervised dense pre-training. DenseMP is composed of two distinct stages: (1) segmentation-aware dense contrastive pre-training, and (2) few-shot-aware superpixel guided dense pre-training. These stages collaboratively yield a pre-trained initial model specifically designed for few-shot medical image segmentation, which can subsequently be fine-tuned on the target dataset. Our proposed pipeline significantly enhances the performance of the widely recognized few-shot segmentation model, PA-Net, achieving state-of-the-art results on the Abd-CT and Abd-MRI datasets. Code will be released after acceptance.
翻訳日:2023-07-23 11:57:33 公開日:2023-07-13
# 乱流・カオス系を解く量子アルゴリズムの限界

Limitations for Quantum Algorithms to Solve Turbulent and Chaotic Systems ( http://arxiv.org/abs/2307.09593v1 )

ライセンス: Link先を確認
Dylan Lewis, Stephan Eidenbenz, Balasubramanya Nadiga, Yi\u{g}it Suba\c{s}{\i}(参考訳) 非線形力学系を解くための量子コンピュータの限界について検討する。 特に、量子カールマン線形化 (qcl) アルゴリズム [liu et al., pnas 118, 2021] の最悪のケース境界を厳格にし、それらの解の1つに答える。 我々は、正規化解ベクトルに近似する量子状態を出力することを目的とした量子アルゴリズムに対して、さらに大きな制限を与える。 1つ以上の正のリアプノフ指数と亜指数的に成長する解を持つ力学系の座標の自然な選択が与えられたとき、そのようなアルゴリズムは少なくとも積分時間において指数関数的にスケーリングする複雑さを持つことを証明できる。 したがって、カオスシステムやレシエーションをシミュレートする効率的な量子アルゴリズムは不可能である。

We investigate the limitations of quantum computers for solving nonlinear dynamical systems. In particular, we tighten the worst-case bounds of the quantum Carleman linearisation (QCL) algorithm [Liu et al., PNAS 118, 2021] answering one of their open questions. We provide a further significant limitation for any quantum algorithm that aims to output a quantum state that approximates the normalized solution vector. Given a natural choice of coordinates for a dynamical system with one or more positive Lyapunov exponents and solutions that grow sub-exponentially, we prove that any such algorithm has complexity scaling at least exponentially in the integration time. As such, an efficient quantum algorithm for simulating chaotic systems or regimes is likely not possible.
翻訳日:2023-07-23 11:57:12 公開日:2023-07-13
# コボット導入前のmsd評価--心理社会的側面と従業員の主観的経験

Assessing MSDs before Introduction of a Cobot: Psychosocial Aspects and Employee's Subjective Experience ( http://arxiv.org/abs/2307.09583v1 )

ライセンス: Link先を確認
Emma Cippelletti, Soufian Azouaghe, Damien Pellier and Aur\'elie Landry(参考訳) 筋骨格障害(英: Musculoskeletal disorders, MSDs)は、労働障害の主な原因の一つである(EU-OSHA, 2019; WHO, 2019)。 コボティックシステム(EUROGIP, 2017)を含むいくつかのソリューションは、不健康な労働環境を改善し、MSDを防ぐために前進している。 我々は,コボット導入前のスクリーン印刷ガラス製造ラインにおける作業者のMSDリスク要因の同定を試みた。 我々は、ビデオ観察と専門家エルゴノミストによるMSDリスクファクターの評価と、6つの生産ラインオペレーターとの自己理解インタビューと、リスクファクターの主観的認識を用いた。 2種類の評価(専門家とオペレーターによる)は、最も要求されるリスク要因は身体的(例えば、仕事の姿勢)と精神社会的(例えば、精神労働負荷)であることを示した。 特定のリスク要因は専門家とオペレーターによって異なる視点で見なされた。 cobotはいかにしてオペレーターにとって有意義な仕事をするのか?

Musculoskeletal disorders (MSDs) are one of the main causes of work disability (EU-OSHA, 2019; WHO, 2019). Several solutions, including the cobotic system (EUROGIP, 2017), have been put forward to improve unhealthy working conditions and prevent MSDs. We sought to identify the MSD risk factors of workers on a screen-printed glass production line prior to introduction of a cobot. We used a mixed data collection technique: video observations and assessment of MSD risk factors by expert ergonomists, and then self-confrontation interviews with six production-line operators and subjective perception of risk factors. The two types of assessment (by experts and by operators) showed that the most demanding risk factors were physical (e.g., work posture) and psychosocial (e.g., mental workload). Certain risk factors were viewed differently by the experts and the operators. One question remains: How can a cobot make work more meaningful for operators?
翻訳日:2023-07-23 11:56:58 公開日:2023-07-13
# 誘導線形アップサンプリング

Guided Linear Upsampling ( http://arxiv.org/abs/2307.09582v1 )

ライセンス: Link先を確認
Shuangbing Song, Fan Zhong, Tianju Wang, Xueying Qin, Changhe Tu(参考訳) 誘導アップサンプリングは高分解能画像処理を加速する効果的な手法である。 本稿では,シンプルながら効果的なガイドアップサンプリング手法を提案する。 高解像度画像の各画素は、2つの低解像度画素の線形補間として表現され、その指数と重みはアップサンプリング誤差を最小限にするために最適化される。 ダウンサンプリングは、小さな孤立した領域の欠如を防ぐために、共同で最適化することができる。 本手法は,カラーラインモデルと局所色変換から導出することができる。 従来の方法と比較して,出血やぼやけなどのアーティファクトを抑制しつつ,ディテール効果を保存できる。 効率的で、実装が容易で、感度の高いパラメータがない。 提案手法を幅広い画像演算子を用いて評価し,定量的および定性解析によりその利点を示す。 対話型画像編集とリアルタイム高解像度映像処理の両面において,本手法の利点を示す。 特にインタラクティブな編集では、ジョイント最適化を事前に計算することができ、ハードウェアアクセラレーションなしで即座にフィードバックできる。

Guided upsampling is an effective approach for accelerating high-resolution image processing. In this paper, we propose a simple yet effective guided upsampling method. Each pixel in the high-resolution image is represented as a linear interpolation of two low-resolution pixels, whose indices and weights are optimized to minimize the upsampling error. The downsampling can be jointly optimized in order to prevent missing small isolated regions. Our method can be derived from the color line model and local color transformations. Compared to previous methods, our method can better preserve detail effects while suppressing artifacts such as bleeding and blurring. It is efficient, easy to implement, and free of sensitive parameters. We evaluate the proposed method with a wide range of image operators, and show its advantages through quantitative and qualitative analysis. We demonstrate the advantages of our method for both interactive image editing and real-time high-resolution video processing. In particular, for interactive editing, the joint optimization can be precomputed, thus allowing for instant feedback without hardware acceleration.
翻訳日:2023-07-23 11:56:40 公開日:2023-07-13
# ソーシャルラーニングネットワークにおける因果関係の影響

Causal Influences over Social Learning Networks ( http://arxiv.org/abs/2307.09575v1 )

ライセンス: Link先を確認
Mert Kayaalp and Ali H. Sayed(参考訳) 本稿では,ソーシャルグラフでリンクされたエージェントと時間とともに相互作用するエージェント間の因果的影響について検討する。 特に、社会学習モデルと分散意思決定プロトコルのダイナミクスを考察し、エージェントのペア間の因果関係を明らかにし、ネットワークへの影響の流れを説明する表現を導出する。 その結果は、グラフトポロジと、各エージェントが解決しようとしている推論問題に関する情報のレベルに依存していることがわかった。 本論文は,これらの結論を用いて,エージェント間の影響をランク付けし,より影響力の高いエージェントを発見するアルゴリズムを提案する。 また、生の観測データから必要なモデルパラメータを学習する方法を提供する。 結果と提案アルゴリズムは,合成データと実Twitterデータの両方を考慮し,考察を行った。

This paper investigates causal influences between agents linked by a social graph and interacting over time. In particular, the work examines the dynamics of social learning models and distributed decision-making protocols, and derives expressions that reveal the causal relations between pairs of agents and explain the flow of influence over the network. The results turn out to be dependent on the graph topology and the level of information that each agent has about the inference problem they are trying to solve. Using these conclusions, the paper proposes an algorithm to rank the overall influence between agents to discover highly influential agents. It also provides a method to learn the necessary model parameters from raw observational data. The results and the proposed algorithm are illustrated by considering both synthetic data and real Twitter data.
翻訳日:2023-07-23 11:56:02 公開日:2023-07-13
# グラフニューラルネットワークのための拡張グラフ評価指標

Extended Graph Assessment Metrics for Graph Neural Networks ( http://arxiv.org/abs/2307.10112v1 )

ライセンス: Link先を確認
Tamara T. Mueller, Sophie Starck, Leonhard F. Feiner, Kyriaki-Margarita Bintsi, Daniel Rueckert, Georgios Kaissis(参考訳) 患者コホートをいわゆる人口グラフに再構成する場合、最初に独立したデータポイントを1つの相互接続グラフ構造に組み込むことができる。 この人口グラフは、グラフニューラルネットワーク(gnns)を使用して医療下流タスクに使用できる。 適切なグラフ構造の構築は、モデルパフォーマンスに深刻な影響を与える可能性のある学習パイプラインの難しいステップである。 この目的のために、グラフ構造を評価するために異なるグラフアセスメント指標が導入された。 しかし、これらのメトリクスは分類タスクと離散隣接行列に限定され、実世界のアプリケーションの小さなサブセットのみをカバーする。 本稿では,回帰タスクと連続隣接行列に対する拡張グラフアセスメント指標(GAM)を紹介する。 我々は2つのGAMに特化して焦点を当てる: \textit{homophily} と \textit{cross-class neighborhoodhood similarity} (CCNS)。 我々は、GAMの概念を1つ以上のホップに拡張し、回帰タスクと連続隣接行列をホモフィリーに定義し、離散および連続隣接行列に対する軽量CCNS距離を提案する。 これらの測定値とモデルパフォーマンスの関係を,異なる医療人口グラフと異なる学習環境において示す。

When re-structuring patient cohorts into so-called population graphs, initially independent data points can be incorporated into one interconnected graph structure. This population graph can then be used for medical downstream tasks using graph neural networks (GNNs). The construction of a suitable graph structure is a challenging step in the learning pipeline that can have severe impact on model performance. To this end, different graph assessment metrics have been introduced to evaluate graph structures. However, these metrics are limited to classification tasks and discrete adjacency matrices, only covering a small subset of real-world applications. In this work, we introduce extended graph assessment metrics (GAMs) for regression tasks and continuous adjacency matrices. We focus on two GAMs in specific: \textit{homophily} and \textit{cross-class neighbourhood similarity} (CCNS). We extend the notion of GAMs to more than one hop, define homophily for regression tasks, as well as continuous adjacency matrices, and propose a light-weight CCNS distance for discrete and continuous adjacency matrices. We show the correlation of these metrics with model performance on different medical population graphs and under different learning settings.
翻訳日:2023-07-23 11:35:21 公開日:2023-07-13
# 拡張現実音楽機器における視覚とEMGによる手追跡の併用

Combining Vision and EMG-Based Hand Tracking for Extended Reality Musical Instruments ( http://arxiv.org/abs/2307.10203v1 )

ライセンス: Link先を確認
Max Graf, Mathieu Barthet(参考訳) ハンドトラッキングは、拡張現実(XRMIs)を含む拡張現実(XR)環境での自然なユーザインタラクションの重要なコンポーネントである。 しかし、自己排除は視覚に基づく手の動き追跡システムにとって重要な課題であり、不正確な結果と劣化したユーザー体験をもたらす。 本稿では,指関節角度推定のための視覚ベースハンドトラッキングと表面筋電図(SEMG)データを組み合わせたマルチモーダルハンドトラッキングシステムを提案する。 本システムの有効性は,多岐にわたるジェスチャーをカバーした一連のポーズタスクを通じて検証する。 マルチモーダルシステムの性能をベースラインビジョンベーストラッキング法と比較することにより,複数指関節の追従精度が大幅に向上し,自閉し易いことを示す。 これらの結果から,本システムは自己閉塞の存在下においても,より正確で堅牢な手の動き追跡を提供することにより,XR体験を向上させる可能性が示唆された。

Hand tracking is a critical component of natural user interactions in extended reality (XR) environments, including extended reality musical instruments (XRMIs). However, self-occlusion remains a significant challenge for vision-based hand tracking systems, leading to inaccurate results and degraded user experiences. In this paper, we propose a multimodal hand tracking system that combines vision-based hand tracking with surface electromyography (sEMG) data for finger joint angle estimation. We validate the effectiveness of our system through a series of hand pose tasks designed to cover a wide range of gestures, including those prone to self-occlusion. By comparing the performance of our multimodal system to a baseline vision-based tracking method, we demonstrate that our multimodal approach significantly improves tracking accuracy for several finger joints prone to self-occlusion. These findings suggest that our system has the potential to enhance XR experiences by providing more accurate and robust hand tracking, even in the presence of self-occlusion.
翻訳日:2023-07-23 11:27:51 公開日:2023-07-13
# NFT評価の力学--AI倫理とソーシャルメディア

On the Mechanics of NFT Valuation: AI Ethics and Social Media ( http://arxiv.org/abs/2307.10201v1 )

ライセンス: Link先を確認
Luyao Zhang, Yutong Sun, Yutong Quan, Jiaxun Cao, Xin Tong(参考訳) CryptoPunksはAIとアートにおけるNFT(Non-fungible tokens)の革新の先駆けとして、NFTのバリュエーションメカニズムがトレンドとなっている。 以前の研究では、倫理と社会がCryptoPunksの価格予測に与える影響を明らかにしていた。 2021年のNFT市場のブーム以来、CryptoPunksの議論はソーシャルメディアで広まった。 それでも、既存の文献は、NFTの評価の歴史的転換点以降、社会的感情要因を考慮していない。 本稿では,ソーシャルメディア,ブロックチェーン,暗号取引データの実証分析により,ソーシャルメディアの感情とジェンダーとスキントーンがNFT評価にどのように貢献するかを検討する。 われわれは、ソーシャルな感情がcryptopunkの価格予測に大きく貢献していることを証明している。 さらに,2021年以降における評価力学の構造変化について報告する。 クリプトパンクに対する人々の態度は概ね肯定的であるが、この結果は性別や肌色に基づく取引活動や価格の不均衡を反映している。 本研究の結果は, 性別や肌の色など, 可読性のある属性のセットに基づいて, NFTの希少性を制御し, 一貫性と堅牢性を実現した。 私たちの研究は、分散AIやブロックチェーンのエコシステムに焦点を当てた、AI、倫理、社会の交差点における学際的な研究に貢献しています。 GitHubのオープンアクセスとして、複製性のためのデータとコードを提供しています。

As CryptoPunks pioneers the innovation of non-fungible tokens (NFTs) in AI and art, the valuation mechanics of NFTs has become a trending topic. Earlier research identifies the impact of ethics and society on the price prediction of CryptoPunks. Since the booming year of the NFT market in 2021, the discussion of CryptoPunks has propagated on social media. Still, existing literature hasn't considered the social sentiment factors after the historical turning point on NFT valuation. In this paper, we study how sentiments in social media, together with gender and skin tone, contribute to NFT valuations by an empirical analysis of social media, blockchain, and crypto exchange data. We evidence social sentiments as a significant contributor to the price prediction of CryptoPunks. Furthermore, we document structure changes in the valuation mechanics before and after 2021. Although people's attitudes towards Cryptopunks are primarily positive, our findings reflect imbalances in transaction activities and pricing based on gender and skin tone. Our result is consistent and robust, controlling for the rarity of an NFT based on the set of human-readable attributes, including gender and skin tone. Our research contributes to the interdisciplinary study at the intersection of AI, Ethics, and Society, focusing on the ecosystem of decentralized AI or blockchain. We provide our data and code for replicability as open access on GitHub.
翻訳日:2023-07-23 11:27:34 公開日:2023-07-13
# 時間と行動のタペストリー:時間的ポイントプロセスフローを用いた人間の活動系列のモデル化

Tapestry of Time and Actions: Modeling Human Activity Sequences using Temporal Point Process Flows ( http://arxiv.org/abs/2307.10305v1 )

ライセンス: Link先を確認
Vinayak Gupta and Srikanta Bedathur(参考訳) 人間は常に、さまざまなシナリオに適応する能力を示す、幅広い活動やタスクに従事します。 人間の活動は、ある目標を達成するために行われた行動の時間的シーケンスとして表すことができる。 電子機器や機械から抽出された時系列データセットとは異なり、これらのアクションシーケンスはその性質において非常に異なる。 したがって、これらのシーケンスのダイナミクスを理解することは、アクティビティ長予測、目標予測、次のアクション推奨など、多くの下流タスクにとって不可欠である。 連続時間活動シーケンス(CTAS)を学習する既存のニューラルネットワークベースのアプローチは、視覚データのみの存在に制限されるか、特定のタスク、すなわち次のアクションやゴール予測に制限されるように設計されている。 本稿では、次のアクション予測、シーケンスゴール予測、エンドツーエンドのシーケンス生成という3つの高インパクト問題に同時に対処しながら、アクティビティシーケンス内のアクションの連続的な時間分布をモデル化する、ニューラルネットワークマーク時間点プロセス(MTPP)フレームワークであるProActiveを提案する。 具体的には、時間的正規化フローを持つ自己注意モジュールを用いて、シーケンス内のアクション間の影響と時間間隔をモデル化する。 さらに,アクションの順序の変動,すなわち,与えられた目標を達成するための異なる手法を処理可能な,ProActiveモデルに対する新たな追加を提案する。 我々は、この変種が、その人物や俳優が自分の行動をすることを好む順序を学習できることを実証する。 3つのアクティビティ認識データセットから得られたシーケンスに関する広範囲な実験は、アクションとゴール予測の観点からの最先端技術に対するProActiveの大幅な精度向上と、エンドツーエンドのアクションシーケンス生成の最初の応用を示している。

Human beings always engage in a vast range of activities and tasks that demonstrate their ability to adapt to different scenarios. Any human activity can be represented as a temporal sequence of actions performed to achieve a certain goal. Unlike the time series datasets extracted from electronics or machines, these action sequences are highly disparate in their nature -- the time to finish a sequence of actions can vary between different persons. Therefore, understanding the dynamics of these sequences is essential for many downstream tasks such as activity length prediction, goal prediction, next action recommendation, etc. Existing neural network-based approaches that learn a continuous-time activity sequence (or CTAS) are limited to the presence of only visual data or are designed specifically for a particular task, i.e., limited to next action or goal prediction. In this paper, we present ProActive, a neural marked temporal point process (MTPP) framework for modeling the continuous-time distribution of actions in an activity sequence while simultaneously addressing three high-impact problems -- next action prediction, sequence-goal prediction, and end-to-end sequence generation. Specifically, we utilize a self-attention module with temporal normalizing flows to model the influence and the inter-arrival times between actions in a sequence. In addition, we propose a novel addition over the ProActive model that can handle variations in the order of actions, i.e., different methods of achieving a given goal. We demonstrate that this variant can learn the order in which the person or actor prefers to do their actions. Extensive experiments on sequences derived from three activity recognition datasets show the significant accuracy boost of ProActive over the state-of-the-art in terms of action and goal prediction, and the first-ever application of end-to-end action sequence generation.
翻訳日:2023-07-23 11:08:04 公開日:2023-07-13
# パターンマイニングとクラスタリングによるサイバーセキュリティトレーニングの学生評価

Student Assessment in Cybersecurity Training Automated by Pattern Mining and Clustering ( http://arxiv.org/abs/2307.10260v1 )

ライセンス: Link先を確認
Valdemar \v{S}v\'abensk\'y, Jan Vykopal, Pavel \v{C}eleda, Kristi\'an Tk\'a\v{c}ik, Daniel Popovi\v{c}(参考訳) 学生や専門家がさまざまなツールを実践し、技術スキルを向上させることができる。 トレーニングはインタラクティブな学習環境で行われ、本格的なオペレーティングシステム、ネットワーク、アプリケーションで高度なタスクを完了することができる。 トレーニング中、学習環境は、コマンドラインツールの使用など、トレーニング担当者と環境とのインタラクションに関するデータ収集を可能にする。 これらのデータには、学習者の学習プロセスを示すパターンが含まれており、学習者の評価とフィードバックの提供を可能にしている。 しかし、これらのデータの自動分析は困難である。 トレーニングタスクには複雑な問題解決機能があり、さまざまなソリューションアプローチが可能だ。 さらに、研修生は大量のインタラクションデータを生成する。 本稿では,データマイニングと機械学習技術を用いた18のサイバーセキュリティトレーニングセッションのデータセットについて検討する。 パターンマイニングとクラスタリングを使用して,113名の研修生から収集した8834のコマンドを分析し,その典型的な行動,ミス,ソリューション戦略,困難なトレーニングステージを明らかにした。 パターンマイニングはタイミング情報とツール使用頻度を収集するのに適していた。 クラスタリングは、多くのトレーナーが同じ問題に直面していることを示しており、ターゲットとなる足場によって対処できる。 その結果,サイバーセキュリティトレーニングデータの解析にはデータマイニング手法が適していることがわかった。 教育研究者や実践者は、これらの手法を文脈に応用して、研修生を評価し、支援し、訓練設計を改善することができる。 この研究に関連するアーティファクトが公開されている。

Hands-on cybersecurity training allows students and professionals to practice various tools and improve their technical skills. The training occurs in an interactive learning environment that enables completing sophisticated tasks in full-fledged operating systems, networks, and applications. During the training, the learning environment allows collecting data about trainees' interactions with the environment, such as their usage of command-line tools. These data contain patterns indicative of trainees' learning processes, and revealing them allows to assess the trainees and provide feedback to help them learn. However, automated analysis of these data is challenging. The training tasks feature complex problem-solving, and many different solution approaches are possible. Moreover, the trainees generate vast amounts of interaction data. This paper explores a dataset from 18 cybersecurity training sessions using data mining and machine learning techniques. We employed pattern mining and clustering to analyze 8834 commands collected from 113 trainees, revealing their typical behavior, mistakes, solution strategies, and difficult training stages. Pattern mining proved suitable in capturing timing information and tool usage frequency. Clustering underlined that many trainees often face the same issues, which can be addressed by targeted scaffolding. Our results show that data mining methods are suitable for analyzing cybersecurity training data. Educational researchers and practitioners can apply these methods in their contexts to assess trainees, support them, and improve the training design. Artifacts associated with this research are publicly available.
翻訳日:2023-07-23 11:07:31 公開日:2023-07-13
# ストリームグラフにおけるスケッチに基づく異常検出

Sketch-Based Anomaly Detection in Streaming Graphs ( http://arxiv.org/abs/2106.04486v3 )

ライセンス: Link先を確認
Siddharth Bhatia, Mohit Wadhwa, Kenji Kawaguchi, Neil Shah, Philip S. Yu, Bryan Hooi(参考訳) 動的グラフからグラフエッジのストリームを与えられた場合、一定時間とメモリを用いて異常な振る舞いを検出するために、どのようにして異常スコアをエッジやサブグラフにオンライン的に割り当てるか。 例えば、侵入検知では、既存の研究は異常なエッジまたは異常なサブグラフを検知しようとするが、どちらも検出しない。 本稿では,まず,カウントミンスケッチデータ構造を高次スケッチに拡張する。 この高次スケッチは、高密度な部分グラフ構造を保存するのに有用な性質を持つ(入力の高密度な部分グラフはデータ構造の高密度な部分行列となる)。 次に,この拡張データ構造を利用した4つのオンラインアルゴリズムを提案する。 a) エッジとグラフの両方の異常を検出する。 b) 各エッジとグラフを一定メモリで処理し,新たに到着したエッジ毎の更新時間を一定にする。 c) 4つの実世界のデータセットで最先端のベースラインを上回る。 本手法は,高密度部分グラフ探索を取り入れた最初のストリーミング手法であり,一定時間におけるグラフ異常を検出する。

Given a stream of graph edges from a dynamic graph, how can we assign anomaly scores to edges and subgraphs in an online manner, for the purpose of detecting unusual behavior, using constant time and memory? For example, in intrusion detection, existing work seeks to detect either anomalous edges or anomalous subgraphs, but not both. In this paper, we first extend the count-min sketch data structure to a higher-order sketch. This higher-order sketch has the useful property of preserving the dense subgraph structure (dense subgraphs in the input turn into dense submatrices in the data structure). We then propose 4 online algorithms that utilize this enhanced data structure, which (a) detect both edge and graph anomalies; (b) process each edge and graph in constant memory and constant update time per newly arriving edge, and; (c) outperform state-of-the-art baselines on 4 real-world datasets. Our method is the first streaming approach that incorporates dense subgraph search to detect graph anomalies in constant memory and time.
翻訳日:2023-07-19 01:07:03 公開日:2023-07-13
# プロキシフリーフェデレーション蒸留における分散知識の一致の探索

Exploring the Distributed Knowledge Congruence in Proxy-data-free Federated Distillation ( http://arxiv.org/abs/2204.07028v4 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Quyang Pan, Junbo Zhang, Zeju Li, Qingxiang Liu(参考訳) Federated Learning(FL)は、サーバがプライベートデータを組み立てることなく、クライアントからのローカルモデルパラメータを定期的に集約する、プライバシー保護機械学習パラダイムである。 制約のあるコミュニケーションとパーソナライズ要件はFLに深刻な課題をもたらす。 サーバとクライアント間で知識を交換し、異種局所モデルをサポートし、通信オーバーヘッドを大幅に低減するフェデレート蒸留(FD)を提案している。 しかし、既存のFDメソッドのほとんどはプロキシデータセットを必要としており、現実には利用できないことが多い。 最近のプロキシデータフリーなFDアプローチでは、追加の公開データの必要性を排除できるが、クライアント側モデルの不均一性によるローカル知識の相違により、サーバ上で曖昧な表現が行われ、必然的に精度が低下する。 この問題に対処するため,分散知識合同(FedDKC)に基づくプロキシフリーFDアルゴリズムを提案する。 FedDKCは、よく設計された洗練戦略を利用して、局所的な知識の違いを許容できる上限に絞り込み、知識の不一致の負の効果を軽減する。 具体的には、局所知識のピーク確率とシャノンエントロピーの観点から、カーネルベースの知識精錬(KKR)と探索ベースの知識精錬(SKR)をそれぞれ設計し、局所知識がほぼ同種の分布を満たすことを理論的に保証し、同種と見なす。 3つの共通データセットで行った大規模な実験により,提案したFedDKCは,様々な異種環境における最先端性を著しく向上しつつ,収束速度を著しく向上させることが示された。

Federated learning (FL) is a privacy-preserving machine learning paradigm in which the server periodically aggregates local model parameters from clients without assembling their private data. Constrained communication and personalization requirements pose severe challenges to FL. Federated distillation (FD) is proposed to simultaneously address the above two problems, which exchanges knowledge between the server and clients, supporting heterogeneous local models while significantly reducing communication overhead. However, most existing FD methods require a proxy dataset, which is often unavailable in reality. A few recent proxy-data-free FD approaches can eliminate the need for additional public data, but suffer from remarkable discrepancy among local knowledge due to client-side model heterogeneity, leading to ambiguous representation on the server and inevitable accuracy degradation. To tackle this issue, we propose a proxy-data-free FD algorithm based on distributed knowledge congruence (FedDKC). FedDKC leverages well-designed refinement strategies to narrow local knowledge differences into an acceptable upper bound, so as to mitigate the negative effects of knowledge incongruence. Specifically, from perspectives of peak probability and Shannon entropy of local knowledge, we design kernel-based knowledge refinement (KKR) and searching-based knowledge refinement (SKR) respectively, and theoretically guarantee that the refined-local knowledge can satisfy an approximately-similar distribution and be regarded as congruent. Extensive experiments conducted on three common datasets demonstrate that our proposed FedDKC significantly outperforms the state-of-the-art on various heterogeneous settings while evidently improving the convergence speed.
翻訳日:2023-07-19 00:47:31 公開日:2023-07-13
# 視覚トランスフォーマのパラメータ効率モデル適応

Parameter-efficient Model Adaptation for Vision Transformers ( http://arxiv.org/abs/2203.16329v3 )

ライセンス: Link先を確認
Xuehai He, Chunyuan Li, Pengchuan Zhang, Jianwei Yang, Xin Eric Wang(参考訳) コンピュータビジョンでは、大規模な事前学習された視覚モデル(例えば、ビジョントランスフォーマー)を下流タスクに適応させることで、大きな伝達学習性能を達成した。 モデル適応のための一般的なアプローチは、全てのモデルパラメータを更新するか、線形プローブを利用する。 本稿では,画像分類タスクにおける視覚変換器のパラメータ効率を考慮したモデル適応手法を提案する。 我々は,サブスペース学習問題として効率的なモデル適応を定式化し,異なる効率的な適応法に対して包括的なベンチマークを行う。 パラメータコストと並行して,各効率的なモデル適応法について実証研究を行う。 さらに,局所的な内在次元を計測して部分加群を選択し,それを部分空間に投影し,新たなクロネッカー適応(kadaptation)法によりさらに分解するパラメータ効率の高いモデル適応フレームワークを提案する。 本手法を様々なベースラインモデル適応法(事前学習した言語モデルのための最先端手法を含む)と比較した。 本手法は,20個の画像分類データセットと7つの画像分類データセットを全ショット設定で比較し,精度とパラメータ効率のトレードオフを最善に評価する。

In computer vision, it has achieved great transfer learning performance via adapting large-scale pretrained vision models (e.g., vision transformers) to downstream tasks. Common approaches for model adaptation either update all model parameters or leverage linear probes. In this paper, we aim to study parameter-efficient model adaptation strategies for vision transformers on the image classification task. We formulate efficient model adaptation as a subspace training problem and perform a comprehensive benchmarking over different efficient adaptation methods. We conduct an empirical study on each efficient model adaptation method focusing on its performance alongside parameter cost. Furthermore, we propose a parameter-efficient model adaptation framework, which first selects submodules by measuring local intrinsic dimensions and then projects them into subspace for further decomposition via a novel Kronecker Adaptation (KAdaptation) method. We analyze and compare our method with a diverse set of baseline model adaptation methods (including state-of-the-art methods for pretrained language models). Our method performs the best in terms of the tradeoff between accuracy and parameter efficiency across 20 image classification datasets under the few-shot setting and 7 image classification datasets under the full-shot setting.
翻訳日:2023-07-19 00:47:00 公開日:2023-07-13
# 信頼政策への道を開く: 批判的ケアに対する多目的深いQ-Learningアプローチ

Pruning the Way to Reliable Policies: A Multi-Objective Deep Q-Learning Approach to Critical Care ( http://arxiv.org/abs/2306.08044v2 )

ライセンス: Link先を確認
Ali Shirali, Alexander Schubert, Ahmed Alaa(参考訳) ほとんどの医療上の決定は自然界で順次行われる。 したがって、強化学習によって正確なデータ駆動治療計画を定式化できるという大きな期待がある。 しかし、この分野のほとんどのアプリケーションにとって重要な課題は、主に死亡率に基づく報酬関数の欠如であり、オフライン推定の安定性が低下する。 本研究では,より信頼性の高いクリティカルケアポリシを実現するためのQ-ラーニングアプローチを提案する。 この方法は、関心の主な結果(例えば、患者生存)の最適化を損なうことなく、関連するがノイズの多い中間バイオマーカー信号を報酬仕様に統合する。 まず、利用可能なすべての報酬に基づいてアクションセットを抽出し、次に、スパース主報酬に基づいて最終モデルを訓練し、制限されたアクションセットで達成する。 アクションプルーニングによる正確で近似的な報酬を解消することにより、学習プロセスを導くことのできる中間信号から貴重な情報を抽出することができるとともに、主目的の潜在的な歪みを最小化する。 本手法は,集中治療室の患者をシミュレーションした環境と実際の健康記録を用いて,オフラインとオフラインの両方で評価する。 実験の結果,プルーニングは医師の行動とほぼ一致しながら,動作空間を著しく縮小し,現在最先端のオフライン強化学習法である保守的Q-ラーニングよりも優れていた。 私たちの仕事は、データ集約的クリティカルケア環境で利用可能な情報の豊富な活用によって、信頼できるポリシーを開発するための一歩です。

Most medical treatment decisions are sequential in nature. Hence, there is substantial hope that reinforcement learning may make it possible to formulate precise data-driven treatment plans. However, a key challenge for most applications in this field is the sparse nature of primarily mortality-based reward functions, leading to decreased stability of offline estimates. In this work, we introduce a deep Q-learning approach able to obtain more reliable critical care policies. This method integrates relevant but noisy intermediate biomarker signals into the reward specification, without compromising the optimization of the main outcome of interest (e.g. patient survival). We achieve this by first pruning the action set based on all available rewards, and second training a final model based on the sparse main reward but with a restricted action set. By disentangling accurate and approximated rewards through action pruning, potential distortions of the main objective are minimized, all while enabling the extraction of valuable information from intermediate signals that can guide the learning process. We evaluate our method in both off-policy and offline settings using simulated environments and real health records of patients in intensive care units. Our empirical results indicate that pruning significantly reduces the size of the action space while staying mostly consistent with the actions taken by physicians, outperforming the current state-of-the-art offline reinforcement learning method conservative Q-learning. Our work is a step towards developing reliable policies by effectively harnessing the wealth of available information in data-intensive critical care environments.
翻訳日:2023-07-18 21:50:38 公開日:2023-07-13
# 有向非巡回グラフ制約下での複数協調エージェントの学習

Learning Multiple Coordinated Agents under Directed Acyclic Graph Constraints ( http://arxiv.org/abs/2307.07529v1 )

ライセンス: Link先を確認
Jaeyeon Jang, Diego Klabjan, Han Liu, Nital S. Patel, Xiuqi Li, Balakrishnan Ananthanarayanan, Husam Dauod, Tzung-Han Juang(参考訳) 本稿では,有向非巡回グラフ(DAG)制約下で複数の協調エージェントを学習するための,新しいマルチエージェント強化学習法を提案する。 既存のMARL手法とは異なり,本手法はエージェント間のDAG構造を利用してより効果的な学習性能を実現する。 理論上,合成報酬(marlm-sr)を持つmarlモデルに基づく新しいサーロゲート値関数を提案し,最適値関数の下限として有効であることを証明した。 本稿では,DAG制約のある環境におけるパラメータ空間をよりよく探索するために,リーダエージェントと報酬生成エージェントとディストリビュータエージェントという新たな概念を活用する実践的トレーニングアルゴリズムを提案する。 実証的に、我々は、Intelの高容量パッケージングおよびテストファクトリの1つに対する実世界のスケジューリングを含む4つのDAG環境を利用して、我々のメソッドをベンチマークし、他のDAGアプローチよりも優れた性能を示す。

This paper proposes a novel multi-agent reinforcement learning (MARL) method to learn multiple coordinated agents under directed acyclic graph (DAG) constraints. Unlike existing MARL approaches, our method explicitly exploits the DAG structure between agents to achieve more effective learning performance. Theoretically, we propose a novel surrogate value function based on a MARL model with synthetic rewards (MARLM-SR) and prove that it serves as a lower bound of the optimal value function. Computationally, we propose a practical training algorithm that exploits new notion of leader agent and reward generator and distributor agent to guide the decomposed follower agents to better explore the parameter space in environments with DAG constraints. Empirically, we exploit four DAG environments including a real-world scheduling for one of Intel's high volume packaging and test factory to benchmark our methods and show it outperforms the other non-DAG approaches.
翻訳日:2023-07-18 19:26:32 公開日:2023-07-13
# patchsorter: オブジェクトラベリングのための高スループットなディープラーニングデジタル病理ツール

PatchSorter: A High Throughput Deep Learning Digital Pathology Tool for Object Labeling ( http://arxiv.org/abs/2307.07528v1 )

ライセンス: Link先を確認
Cedric Walker, Tasneem Talawalla, Robert Toth, Akhil Ambekar, Kien Rea, Oswin Chamian, Fan Fan, Sabina Berezowska, Sven Rottenberg, Anant Madabhushi, Marie Maillard, Laura Barisoni, Hugo Mark Horlings, Andrew Janowczyk(参考訳) デジタル病理画像における診断・予後・治療反応に関連するパターンの発見は、しばしば大量の組織学的対象の難解なラベル付けを必要とする。 ここでは、ディープラーニングと直感的なWebインターフェースを統合するオープンソースのラベリングツールであるPatchSorterをリリースする。 100,000オブジェクトを使用すると、未知のラベルよりも1秒あたりのラベルが7倍改善され、ラベルの精度が最小限に抑えられるため、大規模なデータセットの高スループットラベル付けが可能になる。

The discovery of patterns associated with diagnosis, prognosis, and therapy response in digital pathology images often requires intractable labeling of large quantities of histological objects. Here we release an open-source labeling tool, PatchSorter, which integrates deep learning with an intuitive web interface. Using >100,000 objects, we demonstrate a >7x improvement in labels per second over unaided labeling, with minimal impact on labeling accuracy, thus enabling high-throughput labeling of large datasets.
翻訳日:2023-07-18 19:26:14 公開日:2023-07-13
# ランダム分類雑音をもつガウス半空間学習のための近似最適境界

Near-Optimal Bounds for Learning Gaussian Halfspaces with Random Classification Noise ( http://arxiv.org/abs/2307.08438v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Jelena Diakonikolas, Daniel M. Kane, Puqian Wang, Nikos Zarifis(参考訳) ガウス分布下でのランダム分類雑音を伴う学習一般(すなわち、必ずしも均質ではない)半空間の問題を考察する。 アルゴリズムと統計的クエリー(SQ)の低いバウンド結果を確立し、この基本的な問題に対する驚くべき情報計算のギャップを明らかにする。 具体的には、この学習問題のサンプル複雑性は$\widetilde{\Theta}(d/\epsilon)$であり、$d$は次元、$\epsilon$は過剰エラーである。 正の結果は、サンプル複雑性の$\tilde{o}(d/\epsilon + d/(\max\{p, \epsilon\})^2)$を持つ計算効率の良い学習アルゴリズムである。 下界側では、この問題に対する効率的なSQアルゴリズム(または低次検定)は、少なくとも$\Omega(d^{1/2}/(\max\{p, \epsilon\})^2)$のサンプル複雑性を必要とする。 我々の下限は、この1/\epsilon$に対する二次的依存が効率的なアルゴリズムに固有のことを示唆している。

We study the problem of learning general (i.e., not necessarily homogeneous) halfspaces with Random Classification Noise under the Gaussian distribution. We establish nearly-matching algorithmic and Statistical Query (SQ) lower bound results revealing a surprising information-computation gap for this basic problem. Specifically, the sample complexity of this learning problem is $\widetilde{\Theta}(d/\epsilon)$, where $d$ is the dimension and $\epsilon$ is the excess error. Our positive result is a computationally efficient learning algorithm with sample complexity $\tilde{O}(d/\epsilon + d/(\max\{p, \epsilon\})^2)$, where $p$ quantifies the bias of the target halfspace. On the lower bound side, we show that any efficient SQ algorithm (or low-degree test) for the problem requires sample complexity at least $\Omega(d^{1/2}/(\max\{p, \epsilon\})^2)$. Our lower bound suggests that this quadratic dependence on $1/\epsilon$ is inherent for efficient algorithms.
翻訳日:2023-07-18 13:24:33 公開日:2023-07-13
# 脳波を用いた低遅延聴覚検出のためのコルチコモルフィックハイブリッドCNN-SNNアーキテクチャ

Corticomorphic Hybrid CNN-SNN Architecture for EEG-based Low-footprint Low-latency Auditory Attention Detection ( http://arxiv.org/abs/2307.08501v1 )

ライセンス: Link先を確認
Richard Gall, Deniz Kocanaogullari, Murat Akcakaya, Deniz Erdogmus, Rajkumar Kubendran(参考訳) マルチスピーカーの「カクテルパーティ」シナリオでは、聞き手は興味のある話者に選択的に出席することができる。 ヒト聴覚注意ネットワークの研究は、脳波(EEG)を高度に相関させた結果、音声エンベロープへの皮質刺激を示す。 人工ニューラルネットワーク(ANN)を用いた脳波による聴覚注意検出(AAD)の最近の傾向は、複数のEEGチャネルを用いたより長い意思決定ウィンドウによるエッジコンピューティングプラットフォームでは実用的ではない。 皮質組織が複雑で層状であるため、ANNは脳のトップダウン注意ネットワークを正確にモデル化することができない。 本稿では,脳波データとマルチスピーカ音声エンベロープを用いて,聴覚野近傍に戦略的に配置された8個のEEG電極のみを用いて,低レイテンシで聴覚注意を1秒以下に復号する,聴覚野に触発されたハイブリッド畳み込みニューラルネットワーク(CNN-SNN)のコルチコモルフィックアーキテクチャを提案する。 同時に、従来のcnn参照モデルと比較すると、より低いビット精度で15%少ないパラメータを使用し、メモリフットプリントが約57%削減される。 その結果、スマート補聴器など、脳に埋め込まれたデバイスではエッジコンピューティングが大いに期待できることがわかった。

In a multi-speaker "cocktail party" scenario, a listener can selectively attend to a speaker of interest. Studies into the human auditory attention network demonstrate cortical entrainment to speech envelopes resulting in highly correlated Electroencephalography (EEG) measurements. Current trends in EEG-based auditory attention detection (AAD) using artificial neural networks (ANN) are not practical for edge-computing platforms due to longer decision windows using several EEG channels, with higher power consumption and larger memory footprint requirements. Nor are ANNs capable of accurately modeling the brain's top-down attention network since the cortical organization is complex and layer. In this paper, we propose a hybrid convolutional neural network-spiking neural network (CNN-SNN) corticomorphic architecture, inspired by the auditory cortex, which uses EEG data along with multi-speaker speech envelopes to successfully decode auditory attention with low latency down to 1 second, using only 8 EEG electrodes strategically placed close to the auditory cortex, at a significantly higher accuracy of 91.03%, compared to the state-of-the-art. Simultaneously, when compared to a traditional CNN reference model, our model uses ~15% fewer parameters at a lower bit precision resulting in ~57% memory footprint reduction. The results show great promise for edge-computing in brain-embedded devices, like smart hearing aids.
翻訳日:2023-07-18 13:07:56 公開日:2023-07-13
# サイバーセキュリティトレーニングデータに対する教育データマイニングと学習分析の応用

Applications of Educational Data Mining and Learning Analytics on Data From Cybersecurity Training ( http://arxiv.org/abs/2307.08582v1 )

ライセンス: Link先を確認
Valdemar \v{S}v\'abensk\'y, Jan Vykopal, Pavel \v{C}eleda, Lydia Kraus(参考訳) サイバーセキュリティの専門家は、現在の高度なサイバー脅威を管理するために、ハンズオントレーニングが必要です。 サイバーセキュリティスキルを実践するために、トレーニング参加者はコンピュータ支援のインタラクティブな学習環境において、多数のソフトウェアツールを使用して攻撃的または防御的な行動を実行する。 対話には、コマンドの入力、ネットワーク上の通信、トレーニング環境への関与が含まれる。 トレーニングアーティファクト(この相互作用から得られるデータ)は、教育研究において非常に有益である。 例えば、サイバーセキュリティ教育では、研修生の学習プロセスに関する洞察を提供し、効果的な学習介入を支援する。 しかし、この研究領域はまだよく理解されていない。 そこで本稿では,対話型学習環境から学習者生成データを活用することにより,サイバーセキュリティ教育を強化する出版物を調査する。 我々は3021件の論文を特定し検討し、最終的に詳細なレビューのために35項目を選択した。 まず、サイバーセキュリティトレーニングのどの領域で、どのように、なぜ、どのようなデータが使われているかを調査した。 第2に,本分野における研究の適用と影響について検討し,第3に研究者コミュニティについて検討した。 本研究の貢献は,収集したデータ,分析方法,アプリケーションコンテキストに応じた関連論文とその分類に関する体系的文献レビューである。 これらの結果は、研究者、開発者、教育者に対して、この新興トピックに関する独自の視点を提供する。 さらなる研究を動機付けるために、トレンドとギャップを特定し、将来の作業のためのアイデアを提案し、実践的な推奨事項を提示します。 本稿は,セキュリティ状況におけるハンズオントレーニングからのデータ収集と分析に関する最近の研究について,詳細な知見を提供する。

Cybersecurity professionals need hands-on training to prepare for managing the current advanced cyber threats. To practice cybersecurity skills, training participants use numerous software tools in computer-supported interactive learning environments to perform offensive or defensive actions. The interaction involves typing commands, communicating over the network, and engaging with the training environment. The training artifacts (data resulting from this interaction) can be highly beneficial in educational research. For example, in cybersecurity education, they provide insights into the trainees' learning processes and support effective learning interventions. However, this research area is not yet well-understood. Therefore, this paper surveys publications that enhance cybersecurity education by leveraging trainee-generated data from interactive learning environments. We identified and examined 3021 papers, ultimately selecting 35 articles for a detailed review. First, we investigated which data are employed in which areas of cybersecurity training, how, and why. Second, we examined the applications and impact of research in this area, and third, we explored the community of researchers. Our contribution is a systematic literature review of relevant papers and their categorization according to the collected data, analysis methods, and application contexts. These results provide researchers, developers, and educators with an original perspective on this emerging topic. To motivate further research, we identify trends and gaps, propose ideas for future work, and present practical recommendations. Overall, this paper provides in-depth insight into the recently growing research on collecting and analyzing data from hands-on training in security contexts.
翻訳日:2023-07-18 12:25:25 公開日:2023-07-13
# CART:マルチエージェントシステムの学習型運動計画における衝突回避とロバスト追跡強化

CART: Collision Avoidance and Robust Tracking Augmentation in Learning-based Motion Planning for Multi-Agent Systems ( http://arxiv.org/abs/2307.08602v1 )

ライセンス: Link先を確認
Hiroyasu Tsukamoto and Benjamin Rivi\`ere and Changrak Choi and Amir Rahmani and Soon-Jo Chung(参考訳) 本稿では,実時間衝突回避とロバスト追跡保証を備えた非線形マルチエージェントシステムの学習ベース分散動作計画ポリシを学習エラーとは無関係に拡張する解析手法であるcartを提案する。 まず,ラグランジアン系における最適安全フィルタの解析形式を導出し,乱れのない環境におけるマルチエージェント環境での衝突のない動作を公式に保証し,学習方針からのずれを最小限に抑えた分散実装を実現する。 そこで本研究では,ラグランジアン系に対する最適ロバストフィルタの解析形式を提案する。ラグランジアン系は無衝突目標軌道を階層的に使用し,決定論的かつ確率的外乱の存在下においても安全のための軌道追尾誤差の指数的有界性を保証する。 これらの結果は、収縮理論を用いて一般制御-アフィン非線形系にさらに拡張されることが示されている。 我々の重要な貢献は、衝突回避と追跡に基づく堅牢性を保証することで、機械学習における近似誤差や後悔境界といった本来の性能とは無関係に、学習された動き計画ポリシーの性能を向上させることである。 本研究では, 宇宙船形成飛行やローター故障型UAV群などの非線形システムの動作計画と制御におけるCARTの有効性を示す。

This paper presents CART, an analytical method to augment a learning-based, distributed motion planning policy of a nonlinear multi-agent system with real-time collision avoidance and robust tracking guarantees, independently of learning errors. We first derive an analytical form of an optimal safety filter for Lagrangian systems, which formally ensures a collision-free operation in a multi-agent setting in a disturbance-free environment, while allowing for its distributed implementation with minimal deviation from the learned policy. We then propose an analytical form of an optimal robust filter for Lagrangian systems to be used hierarchically with the learned collision-free target trajectory, which also enables distributed implementation and guarantees exponential boundedness of the trajectory tracking error for safety, even under the presence of deterministic and stochastic disturbance. These results are shown to extend further to general control-affine nonlinear systems using contraction theory. Our key contribution is to enhance the performance of the learned motion planning policy with collision avoidance and tracking-based robustness guarantees, independently of its original performance such as approximation errors and regret bounds in machine learning. We demonstrate the effectiveness of CART in motion planning and control of several examples of nonlinear systems, including spacecraft formation flying and rotor-failed UAV swarms.
翻訳日:2023-07-18 12:16:13 公開日:2023-07-13
# ディープラーニングを利用した自動検索における国家原産地識別

National Origin Discrimination in Deep-learning-powered Automated Resume Screening ( http://arxiv.org/abs/2307.08624v1 )

ライセンス: Link先を確認
Sihang Li, Kuangzheng Li, Haibing Lu(参考訳) 多くの企業や組織は、採用プロセス、例えば履歴書のスクリーニング、カンディデートへのインタビュー、パフォーマンス評価を支援するために、AI対応のオートマットツールの使用を開始している。 これらのAIツールは、人間のオープンソース運用の効率を大幅に改善し、求職者にも利便性を提供してきたが、AIシステムの根底にあるバイアスに起因する候補に対する不公平な扱いに関する懸念が高まっている。 GDPRやCCPAのような平等な機会と公正に関する法律は、AIを規制するために導入または開発中である。 しかし、技術は常に進歩しており、アプリケーションに従属するリスクを認識できないため、実際にはAI規制を実装するのは難しい。 本研究では,近年の技術革新である深層学習手法について検討し,自動再開検診への応用に焦点をあてた。 深層学習手法の顕著な性能の1つは、単語埋め込みと呼ばれる低次元の数値ベクトルとしての個々の単語の再認識であり、これは、ウィキペディアやGoogleニュースのようなコーパスから集約されたグローバルワード共起統計から学習される。 その結果得られる単語表現は、単語ベクトル空間の線形部分構造に関心を持ち、履歴スクリーニングのようなダウンストリームタスクで広く使われている。 しかし、ディープラーニングモデルが基本的に単語の確率分布とそれらの関係を履歴データから学習するため、単語埋め込みはトレーニングコーパスからステレオタイプを継承し強化する。 我々の研究は、もし我々がこのような深層学習を利用した自動再開スクリーニングツールに頼れば、特定の人口集団を好ましくも好ましくない決定を導き、倫理的、法的にも関心を喚起する可能性があることを突き止めた。 この問題に対処するため,偏差緩和法を開発した。 実候補者履歴書の総合的な実験を行い,本研究の検証を行った。

Many companies and organizations have started to use some form of AIenabled auto mated tools to assist in their hiring process, e.g. screening resumes, interviewing candi dates, performance evaluation. While those AI tools have greatly improved human re source operations efficiency and provided conveniences to job seekers as well, there are increasing concerns on unfair treatment to candidates, caused by underlying bias in AI systems. Laws around equal opportunity and fairness, like GDPR, CCPA, are introduced or under development, in attempt to regulate AI. However, it is difficult to implement AI regulations in practice, as technologies are constantly advancing and the risk perti nent to their applications can fail to be recognized. This study examined deep learning methods, a recent technology breakthrough, with focus on their application to automated resume screening. One impressive performance of deep learning methods is the represen tation of individual words as lowdimensional numerical vectors, called word embedding, which are learned from aggregated global wordword cooccurrence statistics from a cor pus, like Wikipedia or Google news. The resulting word representations possess interest ing linear substructures of the word vector space and have been widely used in down stream tasks, like resume screening. However, word embedding inherits and reinforces the stereotyping from the training corpus, as deep learning models essentially learn a probability distribution of words and their relations from history data. Our study finds out that if we rely on such deeplearningpowered automated resume screening tools, it may lead to decisions favoring or disfavoring certain demographic groups and raise eth ical, even legal, concerns. To address the issue, we developed bias mitigation method. Extensive experiments on real candidate resumes are conducted to validate our study
翻訳日:2023-07-18 12:05:50 公開日:2023-07-13
# 線形モデルを用いたストリームベース能動学習

Stream-based active learning with linear models ( http://arxiv.org/abs/2207.09874v5 )

ライセンス: Link先を確認
Davide Cacciarelli, Murat Kulahci, John S{\o}lve Tyssedal(参考訳) 自動データ収集スキームの普及と、センサー技術の進歩により、リアルタイムで監視できるデータの量が増えています。 しかし、高いアノテーションコストと品質検査に必要な時間を考えると、データはラベルのない形で利用できることが多い。 これは、ソフトセンサーと予測モデルの開発におけるアクティブラーニングの利用を促進する。 生産時には、製品情報を得るためにランダムな検査を行う代わりに、ラベルなしデータの情報内容を評価することによりラベルを収集する。 レグレッションのためのいくつかのクエリ戦略フレームワークが文献で提案されているが、ほとんどが静的プールベースのシナリオに焦点が当てられている。 そこで本研究では,学習者にインスタンスを順次提供し,品質チェックを実行してラベルを取得するか,あるいはインスタンスを破棄するかを即時に判断する,ストリームベースのシナリオのための新しい戦略を提案する。 このアプローチは最適実験設計理論に触発され、ラベルのないデータポイントの情報性にしきい値を設定することで意思決定プロセスの反復的な側面に取り組む。 提案手法は、数値シミュレーションとテネシー・イーストマン・プロセスシミュレータを用いて評価する。 その結果,提案アルゴリズムが提案する例を選択することにより,予測誤差の高速化が図られた。

The proliferation of automated data collection schemes and the advances in sensorics are increasing the amount of data we are able to monitor in real-time. However, given the high annotation costs and the time required by quality inspections, data is often available in an unlabeled form. This is fostering the use of active learning for the development of soft sensors and predictive models. In production, instead of performing random inspections to obtain product information, labels are collected by evaluating the information content of the unlabeled data. Several query strategy frameworks for regression have been proposed in the literature but most of the focus has been dedicated to the static pool-based scenario. In this work, we propose a new strategy for the stream-based scenario, where instances are sequentially offered to the learner, which must instantaneously decide whether to perform the quality check to obtain the label or discard the instance. The approach is inspired by the optimal experimental design theory and the iterative aspect of the decision-making process is tackled by setting a threshold on the informativeness of the unlabeled data points. The proposed approach is evaluated using numerical simulations and the Tennessee Eastman Process simulator. The results confirm that selecting the examples suggested by the proposed algorithm allows for a faster reduction in the prediction error.
翻訳日:2023-07-17 17:37:57 公開日:2023-07-13
# 言語にまたがるダイアログ

Dialogs Re-enacted Across Languages ( http://arxiv.org/abs/2211.11584v2 )

ライセンス: Link先を確認
Nigel G. Ward, Jonathan E. Avila, Emilia Rivas, Divette Marco(参考訳) 言語間の韻律マッピングなどの言語間翻訳改善のための機械学習を支援するため,言語間で密に一致した発話のペアを収集するためのプロトコル,得られたデータ収集とその公開に関する記述,およびいくつかの観察と歌を提示する。 この報告の目的は、このコーパスを使用する人々、このコーパスを拡張する人々、および類似のバイリンガルダイアログデータを設計することである。

To support machine learning of cross-language prosodic mappings and other ways to improve speech-to-speech translation, we present a protocol for collecting closely matched pairs of utterances across languages, a description of the resulting data collection and its public release, and some observations and musings. This report is intended for: people using this corpus, people extending this corpus, and people designing similar collections of bilingual dialog data.
翻訳日:2023-07-17 17:30:22 公開日:2023-07-13
# ストロボスコピック駆動冷却原子における多体量子カオス

Many-body quantum chaos in stroboscopically-driven cold atoms ( http://arxiv.org/abs/2210.03840v2 )

ライセンス: Link先を確認
Ceren B. Dag, Simeon I. Mistakidis, Amos Chan, H. R. Sadeghpour(参考訳) 量子カオス系では、2段階のスペクトル相関関数のフーリエ変換として定義されるスペクトル形式因子(sff)は、乱数行列理論(rmt)、すなわち「ランプ」、そして十分遅い時間で「プラトー」に従うことが知られている。 近年, ランダム量子回路やスピンチェーンにおいて, 多体量子カオス系の玩具モデルとして, バンプと呼ばれるRTT挙動からの一般の早期偏差が見られた。 ここでは,sffにおける'bump-ramp-plateau'挙動の存在を,様々なパラダイムモデルおよびストロボスコピック駆動型1次元コールドアトムモデルで実証する。 (i)Bose-Hubbardモデル (ii)スピン$-1/2のボース=ハバード模型、及び (iii)非可積分スピン-$1$凝縮と接触または双極子相互作用 多体thouless time $t_{\textrm{th}}$ -- rmtの開始 -- のスケーリングとバンプ振幅は、超微細構造、対称性クラス、あるいは駆動プロトコルの選択に関わらず、格子サイズよりも原子数の変化に敏感である。 さらに, 1次元光学格子内の相互作用ボソンよりも,$t_{\textrm{th}}$のスケーリングと原子数のバンプ振幅の増加は,スピノールガスにおいて著しく遅く,局所性の役割が示される。 量子カオスコールド原子系におけるバンプレジームのパワーロー挙動を示唆するsffの普遍的スケーリング関数を求め、干渉測定プロトコルを提案する。

In quantum chaotic systems, the spectral form factor (SFF), defined as the Fourier transform of the two-level spectral correlation function, is known to follow random matrix theory (RMT), namely a 'ramp' followed by a 'plateau' in sufficiently late times. Recently, a generic early-time deviation from the RMT behavior, which we call the 'bump', was shown to exist in random quantum circuits and spin chains as toy models for many-body quantum chaotic systems. Here we demonstrate the existence of the 'bump-ramp-plateau' behavior in the SFF for a number of paradigmatic and stroboscopically-driven 1D cold atom models: (i) Bose-Hubbard model, (ii) spin$-1/2$ Bose-Hubbard model, and (iii) nonintegrable spin-$1$ condensate with contact or dipolar interactions. We find that the scaling of the many-body Thouless time $t_{\textrm{Th}}$ -- the onset of RMT -- , and the bump amplitude are more sensitive to variations in atom number than the lattice size regardless of the hyperfine structure, the symmetry classes, or the choice of driving protocol. Moreover, $t_{\textrm{Th}}$ scaling and the increase of the bump amplitude in atom number are significantly slower in spinor gases than interacting bosons in 1D optical lattices, demonstrating the role of locality. We obtain universal scaling functions of SFF which suggest power-law behavior for the bump regime in quantum chaotic cold-atom systems, and propose an interference measurement protocol.
翻訳日:2023-07-17 17:28:42 公開日:2023-07-13
# CLIPood: CLIPをアウト・オブ・ディストリビューションに一般化する

CLIPood: Generalizing CLIP to Out-of-Distributions ( http://arxiv.org/abs/2302.00864v2 )

ライセンス: Link先を確認
Yang Shu, Xingzhuo Guo, Jialong Wu, Ximei Wang, Jianmin Wang, Mingsheng Long(参考訳) トレーニングから分散シフトを扱うモデルであるアウト・オブ・ディストリビューション(OOD)の一般化は、機械学習の大きな課題である。 コントラスト型言語イメージプリトレーニング(clip)モデルは印象的なゼロショット能力を示しているが、下流タスクへのクリップのさらなる適応はoodのパフォーマンスを望ましくないほど低下させる。 本稿では,CLIPを下流タスクにおける分散テストデータに一般化することを目的とする。 ドメインシフトとオープンクラスの両方が見えないテストデータに発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。 テキストモダリティからクラス間のセマンティックな関係を利用するために、CLIPoodは新しいトレーニング目標であるマージンメトリック・ソフトマックス(MMS)を導入し、クラス適応マージンを微調整する。 事前訓練されたゼロショットモデルと微調整されたタスク適応モデルの両方を統合するために、CLIPoodは新しい最適化戦略であるベータ移動平均(BMA)を活用し、ベータ分布によって重み付けられた時間アンサンブルを維持する。 さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。

Out-of-distribution (OOD) generalization, where the model needs to handle distribution shifts from training, is a major challenge of machine learning. Contrastive language-image pre-training (CLIP) models have shown impressive zero-shot ability, but the further adaptation of CLIP on downstream tasks undesirably degrades OOD performances. This paper aims at generalizing CLIP to out-of-distribution test data on downstream tasks. We propose CLIPood, a fine-tuning method that can adapt CLIP models to OOD situations where both domain shifts and open classes may occur on the unseen test data. To exploit the semantic relations between classes from the text modality, CLIPood introduces a new training objective, margin metric softmax (MMS), with class adaptive margins for fine-tuning. To incorporate both pre-trained zero-shot model and fine-tuned task-adaptive model, CLIPood leverages a new optimization strategy, Beta moving average (BMA), to maintain a temporal ensemble weighted by Beta distribution. Experiments on diverse datasets with different OOD scenarios show that CLIPood consistently outperforms existing generalization techniques.
翻訳日:2023-07-17 17:20:49 公開日:2023-07-13
# DoCoFL: クロスデバイスフェデレーション学習のためのダウンリンク圧縮

DoCoFL: Downlink Compression for Cross-Device Federated Learning ( http://arxiv.org/abs/2302.00543v2 )

ライセンス: Link先を確認
Ron Dorfman, Shay Vargaftik, Yaniv Ben-Itzhak, Kfir Y. Levy(参考訳) フェデレートラーニング訓練の通信オーバーヘッドを軽減するため,多くの圧縮技術が提案されている。 しかし、これらは典型的にはモデル更新の圧縮のために設計されており、トレーニング中に減衰することが期待されている。 結果として、このようなメソッドは、トレーニング中に$\textit{mayが1回だけ現れるので、モデルパラメータをダウンロードしなければならないクロスデバイス設定におけるダウンリンク(パラメータサーバからクライアントへの圧縮)には適用できない。 したがって、デバイス間設定でダウンリンク圧縮を行う新しいフレームワークである$\textsf{DoCoFL}$を提案する。 重要なことに、$\textsf{docofl}$は多くのアップリンク圧縮スキームとシームレスに組み合わせることができ、双方向圧縮に適している。 広範囲な評価を通じて、$\textsf{docofl}$ は、圧縮なしでベースラインと競合する精度を保ちながら、双方向帯域幅を大幅に削減できることを示した。

Many compression techniques have been proposed to reduce the communication overhead of Federated Learning training procedures. However, these are typically designed for compressing model updates, which are expected to decay throughout training. As a result, such methods are inapplicable to downlink (i.e., from the parameter server to clients) compression in the cross-device setting, where heterogeneous clients $\textit{may appear only once}$ during training and thus must download the model parameters. Accordingly, we propose $\textsf{DoCoFL}$ -- a new framework for downlink compression in the cross-device setting. Importantly, $\textsf{DoCoFL}$ can be seamlessly combined with many uplink compression schemes, rendering it suitable for bi-directional compression. Through extensive evaluation, we show that $\textsf{DoCoFL}$ offers significant bi-directional bandwidth reduction while achieving competitive accuracy to that of a baseline without any compression.
翻訳日:2023-07-17 17:20:13 公開日:2023-07-13
# 確率的制約によるオンライン凸最適化:ゼロ制約違反とバンディットフィードバック

Online Convex Optimization with Stochastic Constraints: Zero Constraint Violation and Bandit Feedback ( http://arxiv.org/abs/2301.11267v2 )

ライセンス: Link先を確認
Yeongjong Kim, Dabeen Lee(参考訳) 本稿では,オンライン凸最適化と確率的制約について検討する。 本研究では,一定の回数の反復を繰り返すと,o(\sqrt{t})$制約違反を保証し,o(\sqrt{t})$制約違反でバニラドリフトプラスペナルティ法を改善するドリフトプラスペナルティアルゴリズムの変種を提案する。 我々のアルゴリズムは、バニラドリフトプラスペナルティ法とは対照的に、時間軸$t$の長さに従わない。 これは、仮想キュードリフトの時間変化バウンダリを提供し、その結果、期待される仮想キュー長の時間変化バウンダリをもたらす、我々の新しいドリフトレンマに基づいている。 さらに,このフレームワークを2点の帯域フィードバックの下で,確率制約付きオンライン凸最適化に拡張する。 アルゴリズムフレームワークを帯域フィードバック設定に適応させることで、同じ制約関数の場合の以前の作業を改善して、期待された後悔とゼロ制約違反を達成できることが示される。 数値結果は理論的な結果を示している。

This paper studies online convex optimization with stochastic constraints. We propose a variant of the drift-plus-penalty algorithm that guarantees $O(\sqrt{T})$ expected regret and zero constraint violation, after a fixed number of iterations, which improves the vanilla drift-plus-penalty method with $O(\sqrt{T})$ constraint violation. Our algorithm is oblivious to the length of the time horizon $T$, in contrast to the vanilla drift-plus-penalty method. This is based on our novel drift lemma that provides time-varying bounds on the virtual queue drift and, as a result, leads to time-varying bounds on the expected virtual queue length. Moreover, we extend our framework to stochastic-constrained online convex optimization under two-point bandit feedback. We show that by adapting our algorithmic framework to the bandit feedback setting, we may still achieve $O(\sqrt{T})$ expected regret and zero constraint violation, improving upon the previous work for the case of identical constraint functions. Numerical results demonstrate our theoretical results.
翻訳日:2023-07-17 17:19:35 公開日:2023-07-13
# グローバル位相追跡のない量子通信実験によるレートロス限界の克服

Experimental Quantum Communication Overcomes the Rate-loss Limit without Global Phase Tracking ( http://arxiv.org/abs/2212.14190v2 )

ライセンス: Link先を確認
Lai Zhou, Jinping Lin, Yuan-Mei Xie, Yu-Shuo Lu, Yumang Jing, Hua-Lei Yin, and Zhiliang Yuan(参考訳) 点点量子鍵分布(QKD)のセキュア鍵レート(SKR)は、基本的に速度損失制限によって拘束される。 ツインフィールド(TF) QKDの最近のブレークスルーは、この限界を克服し、長距離量子通信を可能にするが、その実装は複雑な大域的な位相追跡を必要とし、ノイズを付加するだけでなく、量子伝送の義務サイクルを減少させる強力な位相参照を必要とする。 本稿では,これらの欠点を解消し,非同期一致ペアリングによるリピータライクな通信を実現する,革新的かつ簡易な測定デバイス非依存qkdの実装により,tf-qkdよりもさらに高いskrを実現する。 413 km および 508 km 以上の光ファイバーにおいて、それぞれの絶対レート限界の 1.80 倍および 4.08 倍の 590.61 および 42.64 ビット/秒の有限サイズskr を達成する。 重要なことに、306kmのSKRは5kbit/sを超え、音声通信の1時間パッドのライブ暗号化に必要なビットレートを満たす。 我々の研究は、経済的かつ効率的な都市間量子セキュリティネットワークを前進させます。

Secure key rate (SKR) of point-point quantum key distribution (QKD) is fundamentally bounded by the rate-loss limit. Recent breakthrough of twin-field (TF) QKD can overcome this limit and enables long distance quantum communication, but its implementation necessitates complex global phase tracking and requires strong phase references which not only add to noise but also reduce the duty cycle for quantum transmission. Here, we resolve these shortcomings, and importantly achieve even higher SKRs than TF-QKD, via implementing an innovative but simpler measurement-device-independent QKD which realizes repeater-like communication through asynchronous coincidence pairing. Over 413 and 508 km optical fibers, we achieve finite-size SKRs of 590.61 and 42.64 bit/s, which are respectively 1.80 and 4.08 times of their corresponding absolute rate limits. Significantly, the SKR at 306 km exceeds 5 kbit/s and meets the bitrate requirement for live one-time-pad encryption of voice communication. Our work will bring forward economical and efficient intercity quantum-secure networks.
翻訳日:2023-07-17 17:18:16 公開日:2023-07-13
# 常識を破る: なんてこった! 合成画像と合成画像の視覚言語ベンチマーク

Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images ( http://arxiv.org/abs/2303.07274v3 )

ライセンス: Link先を確認
Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz(参考訳) 弱く、異常で、不気味なイメージは、観察者の好奇心を喚起する。 例えば、2022年のワールドカップ中に公開された画像は、有名なサッカースターのライオネル・メッシとクリスティアーノ・ロナルドがチェスをしている様子を描いている。 人間はこれらの非伝統的なイメージを容易に認識し解釈できますが、AIモデルも同じことができますか? 私たちは、visual commonsenseの新しいデータセットとベンチマークであるwhoops!を紹介します。 データセットは、midjourneyのような一般公開された画像生成ツールを使用して設計者が作成した、意図的に常識に準拠したイメージで構成されている。 データセット上のいくつかのタスクについて検討する。 画像キャプション, クロスモーダルマッチング, 視覚的質問応答に加えて, モデルが与えられた画像がなぜ異常であるかを識別し, 説明しなければならない, 困難な説明生成タスクを導入する。 GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。 . われわれのデータセットは、より強力なビジュアルコモンセンス推論能力を持つAIモデルの開発を促すことを願っている。 データ、モデル、コードはプロジェクトのwebサイト:whoops-benchmark.github.ioで入手できる。

Weird, unusual, and uncanny images pique the curiosity of observers because they challenge commonsense. For example, an image released during the 2022 world cup depicts the famous soccer stars Lionel Messi and Cristiano Ronaldo playing chess, which playfully violates our expectation that their competition should occur on the football field. Humans can easily recognize and interpret these unconventional images, but can AI models do the same? We introduce WHOOPS!, a new dataset and benchmark for visual commonsense. The dataset is comprised of purposefully commonsense-defying images created by designers using publicly-available image generation tools like Midjourney. We consider several tasks posed over the dataset. In addition to image captioning, cross-modal matching, and visual question answering, we introduce a difficult explanation generation task, where models must identify and explain why a given image is unusual. Our results show that state-of-the-art models such as GPT3 and BLIP2 still lag behind human performance on WHOOPS!. We hope our dataset will inspire the development of AI models with stronger visual commonsense reasoning abilities. Data, models and code are available at the project website: whoops-benchmark.github.io
翻訳日:2023-07-17 17:10:36 公開日:2023-07-13
# バイオメディカルテキスト要約に関するサーベイ:事前学習から大規模言語モデルへ

A Survey for Biomedical Text Summarization: From Pre-trained to Large Language Models ( http://arxiv.org/abs/2304.08763v2 )

ライセンス: Link先を確認
Qianqian Xie and Zheheng Luo and Benyou Wang and Sophia Ananiadou(参考訳) 生物医学文献や電子健康記録(EHR)などの生物医学テキストの指数的な成長は、臨床医や研究者が臨床情報に効率的にアクセスする上で重要な課題となっている。 この課題に対処するため,臨床情報検索と管理を支援するソリューションとして,バイオメディカルテキスト要約(BTS)が提案されている。 BTSは、単一または複数のバイオメディカル文書から鍵情報を抽出する簡潔な要約を生成することを目的としている。 近年,プレトレーニング言語モデル (PLM) から大規模言語モデル (LLM) まで,基本自然言語処理技術 (NLP) の急速な進歩が,BTSの進歩を大いに促進している。 この成長により、多数の要約方法、データセット、評価メトリクスが提案され、btsの包括的な最新調査の必要性が高まった。 本稿では,最新の進歩,課題,今後の方向性を理解するために,PLMからLPMへの最先端NLP技術を活用したBTSの最近の進歩を体系的に検討する。 まず、BTS, PLM, LLMの基本概念を導入し、その後、利用可能なデータセット、最近のアプローチ、BTSの評価指標の詳細なレビューを行った。 最後に,llm時代の課題と今後の方向性について論じる。 研究コミュニティを促進するために、利用可能なデータセット、最近のアプローチ、コード、評価メトリクス、および公開プロジェクトにおけるリーダーボードを含むオープンリソースをラインアップします。 我々は,本調査が研究者にとって有用な資源であり,最近の進歩を素早く追跡し,今後のBTS研究のガイドラインを研究コミュニティ内で提供できると考えている。

The exponential growth of biomedical texts such as biomedical literature and electronic health records (EHRs), poses a significant challenge for clinicians and researchers to access clinical information efficiently. To tackle this challenge, biomedical text summarization (BTS) has been proposed as a solution to support clinical information retrieval and management. BTS aims at generating concise summaries that distill key information from single or multiple biomedical documents. In recent years, the rapid advancement of fundamental natural language processing (NLP) techniques, from pre-trained language models (PLMs) to large language models (LLMs), has greatly facilitated the progress of BTS. This growth has led to numerous proposed summarization methods, datasets, and evaluation metrics, raising the need for a comprehensive and up-to-date survey for BTS. In this paper, we present a systematic review of recent advancements in BTS, leveraging cutting-edge NLP techniques from PLMs to LLMs, to help understand the latest progress, challenges, and future directions. We begin by introducing the foundational concepts of BTS, PLMs and LLMs, followed by an in-depth review of available datasets, recent approaches, and evaluation metrics in BTS. We finally discuss existing challenges and promising future directions in the era of LLMs. To facilitate the research community, we line up open resources including available datasets, recent approaches, codes, evaluation metrics, and the leaderboard in a public project: https://github.com/KenZLuo/Biomedical-Text-Summarization-Survey/tree/master. We believe that this survey will be a useful resource to researchers, allowing them to quickly track recent advancements and provide guidelines for future BTS research within the research community.
翻訳日:2023-07-17 17:00:36 公開日:2023-07-13
# cyclegan: 画像対画像変換のためのganの品質向上

Rethinking CycleGAN: Improving Quality of GANs for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2303.16280v2 )

ライセンス: Link先を確認
Dmitrii Torbunov, Yi Huang, Huan-Hsin Tseng, Haiwang Yu, Jin Huang, Shinjae Yoo, Meifeng Lin, Brett Viren, Yihui Ren(参考訳) unpaired image-to-image (i2i) 変換技術は、2つのドメイン間のマッピングを完全に教師なしで探す。 I2I問題に対する最初の解決策はGAN(Generative Adversarial Neural Network)によって提供されたが、現在は拡散モデル(DM)がFIDの観点からI2I翻訳ベンチマークの最先端を保っている。 しかし、トレーニング中にソースドメインのデータを使用しない、あるいは単純なピクセル単位のエラーによってのみソースと変換画像の一貫性を維持する、といった制限がある。 この研究は、古典的なCycleGANモデルを再検討し、モデルアーキテクチャとモデルトレーニング手順の最近の進歩を取り入れている。 改訂されたモデルは、様々なベンチマークで他の先進的なGANやDMベースの競合より大幅に優れている。 CelebA の Male2Female 翻訳の場合、このモデルは最先端の結果と比較して FID スコアが40%以上改善されている。 この研究は、ピクセル単位のi2i翻訳の忠実性指標の非効率性を示し、その修正を提案する。 コードとトレーニングされたモデルはhttps://github.com/ls4gan/uvcgan2で入手できる。

An unpaired image-to-image (I2I) translation technique seeks to find a mapping between two domains of data in a fully unsupervised manner. While the initial solutions to the I2I problem were provided by the generative adversarial neural networks (GANs), currently, diffusion models (DM) hold the state-of-the-art status on the I2I translation benchmarks in terms of FID. Yet, they suffer from some limitations, such as not using data from the source domain during the training, or maintaining consistency of the source and translated images only via simple pixel-wise errors. This work revisits the classic CycleGAN model and equips it with recent advancements in model architectures and model training procedures. The revised model is shown to significantly outperform other advanced GAN- and DM-based competitors on a variety of benchmarks. In the case of Male2Female translation of CelebA, the model achieves over 40% improvement in FID score compared to the state-of-the-art results. This work also demonstrates the ineffectiveness of the pixel-wise I2I translation faithfulness metrics and suggests their revision. The code and trained models are available at https://github.com/LS4GAN/uvcgan2
翻訳日:2023-07-17 16:58:51 公開日:2023-07-13
# 核上に発生したRobust Macroscopic Schr\"odinger's cat

Robust Macroscopic Schr\"odinger's Cat on a Nucleus ( http://arxiv.org/abs/2304.13813v2 )

ライセンス: Link先を確認
Pragati Gupta, Arjen Vaartjes, Xi Yu, Andrea Morello, Barry C. Sanders(参考訳) 固体系に埋め込まれたドナー原子の高スピン核上に大きなschr\"odinger cat状態を作るための実験的に実現可能なスキームを提案する。 結果として生じる猫の状態はデコヒーレンスに対して頑健であり、その大きさは核スピンと線形にスケールし、フェムトメータスケールでは小さいため、巨視的である。 量子制御方式では、非線形四重極相互作用と位相変調多重音波パルスによる一軸ねじれを利用して高次元回転を実現する。 我々は、ロバストな猫の状態を作り出すための迅速な生成と検出を達成し、急速な崩壊と再生を観察する。

We propose an experimentally feasible scheme to create large Schr\"odinger cat states on a high-spin nucleus of a donor atom embedded in a solid-state system. The resulting cat state is robust against decoherence, macroscopic because its size scales linearly with nuclear spin, and tiny -- at the femtometer scale. Our quantum-control scheme utilizes one-axis twisting caused by a non-linear quadrupole interaction and phase-modulated multi-tone radio-frequency pulses for universal high-dimensional rotations. We achieve fast generation and detection for yielding robust cat states and observing rapid collapse-and-revivals -- two orders of magnitude faster than the dephasing timescale.
翻訳日:2023-07-17 16:49:24 公開日:2023-07-13
# 言語間クロスタイム要約:データセット、モデル、評価

Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation ( http://arxiv.org/abs/2306.12916v2 )

ライセンス: Link先を確認
Ran Zhang, Jihed Ouni, Steffen Eger(参考訳) 要約は自然言語処理(NLP)において広範囲に研究されているが、言語間相互要約(CLCTS)は、文化的アクセシビリティと理解を改善する可能性を持つ、ほとんど探索されていない領域である。 本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。 我々は,最初のclctsコーパスを構築し,英語とドイツ語の歴史的記述テキストとwikipedia要約を活用し,中間的微調整タスクの異なるポピュラートランスフォーマティブ・エンドツーエンドモデルの有効性を検討する。 さらに,CLCTS における ChatGPT の可能性について,要約器および評価器として検討する。 全体として、人間、ChatGPT、および最近のいくつかの自動評価指標から、中間タスクの微調整されたエンドツーエンドモデルは、中程度から中程度の品質の要約を生成し、(微調整なしで)要約器としてのChatGPTは、適度から良質な出力を提供し、評価器は、人的評価と中程度に相関するが、低いスコアを与える傾向にある。 ChatGPTは歴史的テキストの正規化にも優れており、Normaのような文脈に依存しないスペル正規化ツールよりも優れている。 最終的にChatGPTを攻撃的かつ見当たらないソース文書のシナリオでテストし、ChatGPTが先行知識からある程度利益を上げ、事前知識に対する否定よりも省略やエンティティスワップのパフォーマンスが向上することを確認した。 この利点は、ChatGPTが未確認のソース文書に対して、見ないドキュメントに対してわずかに悪化するので、評価された品質を膨らませる。 さらに、より長く、より古い、より複雑なソーステキスト(いずれも歴史言語に特徴がある)が全てのモデルに対して要約するのが難しく、clctsタスクの難しさを示すために、モデルのパフォーマンスを内省します。

While summarization has been extensively researched in natural language processing (NLP), cross-lingual cross-temporal summarization (CLCTS) is a largely unexplored area that has the potential to improve cross-cultural accessibility and understanding. This paper comprehensively addresses the CLCTS task, including dataset creation, modeling, and evaluation. We build the first CLCTS corpus, leveraging historical fictive texts and Wikipedia summaries in English and German, and examine the effectiveness of popular transformer end-to-end models with different intermediate finetuning tasks. Additionally, we explore the potential of ChatGPT for CLCTS as a summarizer and an evaluator. Overall, we report evaluations from humans, ChatGPT, and several recent automatic evaluation metrics where we find that our intermediate task finetuned end-to-end models generate bad to moderate quality summaries; ChatGPT as a summarizer (without any finetuning) provides moderate to good quality outputs and as an evaluator correlates moderately with human evaluations but is prone to giving lower scores. ChatGPT also seems very adept at normalizing historical text and outperforms context-unaware spelling normalization tools such as Norma. We finally test ChatGPT in a scenario with adversarially attacked and unseen source documents and find that ChatGPT profits from its prior knowledge to a certain degree, with better performances for omission and entity swap than negation against its prior knowledge. This benefit inflates its assessed quality as ChatGPT performs slightly worse for unseen source documents compared to seen documents. We additionally introspect our models' performances to find that longer, older and more complex source texts (all of which are more characteristic for historical language variants) are harder to summarize for all models, indicating the difficulty of the CLCTS task.
翻訳日:2023-07-17 16:41:52 公開日:2023-07-13
# 量子相関の空間構造再構成

Reconstructing the spatial structure of quantum correlations ( http://arxiv.org/abs/2306.11723v2 )

ライセンス: Link先を確認
Allen Scheie and Pontus Laurell and Elbio Dagotto and D. Alan Tennant and Tommaso Roscilde(参考訳) 量子相関は、量子多体状態の基本特性である。 しかし、それらは実験的に解明され続け、特に量子材料における真の量子挙動の証明を妨げる。 そこで,非弾性中性子散乱による運動量依存性の動的感受性は,任意の距離における2つのスピンの揺らぎにおける量子コヒーレンス度を表す量子相関関数の体系的再構成を可能にすることを示す。 KCuF$_3$$\unicode{x2014}$ 弱結合な$S=1/2$ハイゼンベルク鎖の系と数値的に正確な量子モンテカルロデータを用いて、量子相関が従来の相関関係に関して根本的に異なる空間構造を持つことを示す。 実際、彼らは新しい量子力学起源の創発的長さ $\unicode{x2014}$ 量子コヒーレンス長 $\unicode{x2014}$ を示し、これは任意の有限温度において有限である。 さらに理論上、結合したハイゼンベルクスピン鎖は量子一夫一夫一婦制の形を示し、量子相関とスピン鎖への変換の間のトレードオフを示す。 これらの結果は、実空間量子相関子を、実量子物質の基礎となる量子状態を調べるための情報的、モデルに依存しない手段として強調する。

Quantum correlations are a fundamental property of quantum many-body states. Yet they remain experimentally elusive, hindering certification of genuine quantum behavior, especially in quantum materials. Here we show that the momentum-dependent dynamical susceptibility measured via inelastic neutron scattering enables the systematic reconstruction of quantum correlation functions, which express the degree of quantum coherence in the fluctuations of two spins at arbitrary mutual distance. Using neutron scattering data on the compound KCuF$_3$ $\unicode{x2014}$ a system of weakly coupled $S=1/2$ Heisenberg chains $\unicode{x2014}$ and of numerically exact quantum Monte Carlo data, we show that quantum correlations possess a radically different spatial structure with respect to conventional correlations. Indeed, they exhibit a new emergent length of quantum-mechanical origin $\unicode{x2014}$ the quantum coherence length $\unicode{x2014}$ which is finite at any finite temperature (including when long-range magnetic order develops). Moreover, we show theoretically that coupled Heisenberg spin chains exhibit a form of quantum monogamy, with a trade-off between quantum correlations along and transverse to the spin chains. These results highlight real-space quantum correlators as an informative, model-independent means of probing the underlying quantum state of real quantum materials.
翻訳日:2023-07-17 16:41:18 公開日:2023-07-13
# bhl-bclクロスオーバー:非線形から線形量子増幅へ

The BHL-BCL crossover: from nonlinear to linear quantum amplification ( http://arxiv.org/abs/2306.05458v2 )

ライセンス: Link先を確認
Juan Ram\'on Mu\~noz de Nova and Fernando Sols(参考訳) ブラックホールレーザー(bhl)効果は、共鳴キャビティとして働く一対の水平線の存在下でのホーキング放射の自己増幅である。 流動性原子凝縮体では、BHL効果は、ボゴリューボフ・チェレンコフ・ランダウ(BCL)放射が静摂動によって共鳴的に励起される有限超音速領域で生じる。 したがって、bhlを生成する実験は、強いbcl背景の存在を不可避に扱おうとしており、bhl効果の観測はアナログ重力場において依然として大きな課題となっている。 ここでは,両現象をあいまいに分離できる理想モデルを用いて,BHL-BCLクロスオーバーの理論的研究を行う。 不安定な振り子にアナロジーを描くことで、量子揺らぎと古典的刺激の相互作用(量子bhl、古典bhl、bcl)に応じて3つの主要なレジームを区別する。 非常に一般的なスケーリングの議論に基づいて、飽和まで量子揺らぎの非線形増幅は、量子bhlの最も頑健な特性として同定される。 古典的なbhlは代わりに線形量子増幅器として振る舞うが、出力は入力に比例する。 BCLは線形量子増幅器としても機能するが、その利得は古典的なBHLに比べて指数関数的に小さい。 さらに, 背景パラメータに対する成長速度の非単調な依存は, ブラックホールの発散のもう一つの特徴であることがわかった。 また、ホーキング刺激ホワイトホール放射や量子BCL刺激ホーキング放射などの興味深い類似現象も同定した。 この研究の結果は、それぞれの現象を区別し、BHL効果をはっきりと観察するための実験的なスキームを設計するのに役立つアナログ重力に対する興味だけでなく、量子技術におけるアナログ概念の応用を見出す可能性も開けている。

The black-hole laser (BHL) effect is the self-amplification of Hawking radiation in the presence of a pair of horizons which act as a resonant cavity. In a flowing atomic condensate, the BHL effect arises in a finite supersonic region, where Bogoliubov-Cherenkov-Landau (BCL) radiation is resonantly excited by any static perturbation. Thus, experimental attempts to produce a BHL unavoidably deal with the presence of a strong BCL background, making the observation of the BHL effect still a major challenge in the analogue gravity field. Here, we perform a theoretical study of the BHL-BCL crossover using an idealized model where both phenomena can be unambiguously isolated. By drawing an analogy with an unstable pendulum, we distinguish three main regimes according to the interplay between quantum fluctuations and classical stimulation: quantum BHL, classical BHL, and BCL. Based on quite general scaling arguments, the nonlinear amplification of quantum fluctuations until saturation is identified as the most robust trait of a quantum BHL. A classical BHL behaves instead as a linear quantum amplifier, where the output is proportional to the input. The BCL regime also acts as a linear quantum amplifier, but its gain is exponentially smaller as compared to a classical BHL. In addition, we find that a nonmonotonic dependence of the growth rate with respect to the background parameters is another signature of black-hole lasing. We also identify interesting analogue phenomena such as Hawking-stimulated white-hole radiation or quantum BCL-stimulated Hawking radiation. The results of this work not only are of interest for analogue gravity, where they help to distinguish each phenomenon and to design experimental schemes for a clear observation of the BHL effect, but they also open the prospect of finding applications of analogue concepts in quantum technologies.
翻訳日:2023-07-17 16:40:30 公開日:2023-07-13
# ラベル効率3d-to2dセグメンテーションのためのモード間再構成と特徴投影ネットワークによる自己教師あり学習

Self-supervised learning via inter-modal reconstruction and feature projection networks for label-efficient 3D-to-2D segmentation ( http://arxiv.org/abs/2307.03008v3 )

ライセンス: Link先を確認
Jos\'e Morano, Guilherme Aresta, Dmitrii Lachinov, Julia Mai, Ursula Schmidt-Erfurth, Hrvoje Bogunovi\'c(参考訳) 深層学習は、特定の医用画像セグメンテーションタスクを自動化し、医療専門家の作業量を大幅に軽減する貴重なツールとなっている。 これらのタスクのいくつかは、入力次元のサブセットでセグメンテーションを行う必要があり、最も一般的なケースは3D-to-2Dである。 しかし、既存の手法の性能は、現在これらのタスクで検証されている転送学習のようなデータ効率のよい手法がないため、ラベル付きデータの量によって強く条件付けられている。 本研究では,ラベル効率のよい3D-to-2Dセグメンテーションのための新しい畳み込みニューラルネットワーク(CNN)と自己教師付き学習(SSL)手法を提案する。 cnnは、3dエンコーダと、2dデコーダからなり、新しい3d-to2dブロックで接続される。 SSL法は次元の異なるモダリティのイメージペアを再構成する。 光コヒーレンス・トモグラフィーにおける地理的萎縮の面分画と直交性偽ドライセンの2つの臨床的関連性について検討した。 異なるデータセット上の結果から,提案するcnnは,diceスコアの最大8%の制限付きデータを用いて,シナリオにおけるアートの状態を著しく改善することが示された。 さらに,提案手法により,最大23%の性能向上が可能となり,ネットワークアーキテクチャに関係なくSSLが有効であることを示す。

Deep learning has become a valuable tool for the automation of certain medical image segmentation tasks, significantly relieving the workload of medical specialists. Some of these tasks require segmentation to be performed on a subset of the input dimensions, the most common case being 3D-to-2D. However, the performance of existing methods is strongly conditioned by the amount of labeled data available, as there is currently no data efficient method, e.g. transfer learning, that has been validated on these tasks. In this work, we propose a novel convolutional neural network (CNN) and self-supervised learning (SSL) method for label-efficient 3D-to-2D segmentation. The CNN is composed of a 3D encoder and a 2D decoder connected by novel 3D-to-2D blocks. The SSL method consists of reconstructing image pairs of modalities with different dimensionality. The approach has been validated in two tasks with clinical relevance: the en-face segmentation of geographic atrophy and reticular pseudodrusen in optical coherence tomography. Results on different datasets demonstrate that the proposed CNN significantly improves the state of the art in scenarios with limited labeled data by up to 8% in Dice score. Moreover, the proposed SSL method allows further improvement of this performance by up to 23%, and we show that the SSL is beneficial regardless of the network architecture.
翻訳日:2023-07-17 16:32:07 公開日:2023-07-13
# メタベイズ学習を用いたモデル支援確率的安全適応制御

Model-Assisted Probabilistic Safe Adaptive Control With Meta-Bayesian Learning ( http://arxiv.org/abs/2307.00828v2 )

ライセンス: Link先を確認
Shengbo Wang, Ke Li, Yin Yang, Yuting Cao, Tingwen Huang and Shiping Wen(参考訳) 制御システムの安全性の制約を壊すと潜在的なリスクが生じ、予期せぬコストや壊滅的な損傷を引き起こす。 それでも、同様のタスクでも不確実性は至るところにある。 本稿では,メタ学習,ベイズモデル,制御バリア関数(CBF)メソッドを統合した新しい適応型安全制御フレームワークを開発する。 具体的には、CBF法を用いて、前向きニューラルネットワーク(NN)とベイズ出力層からなる統一適応ベイズ線形回帰(ABLR)モデルにより、固有および外部の不確かさを学習する。 メタ学習技術は、歴史的に類似したタスクから収集されたデータを用いて、ABLRモデルのNN重みと事前訓練に活用される。 新しい制御タスクのために,いくつかのサンプルを用いてメタ学習モデルを洗練し,安全制御を確保するためにCBF制約に悲観的信頼境界を導入する。 さらに,制御過程における確率的安全性を保証するための理論的基準を提案する。 このアプローチを検証するために,様々な障害物回避シナリオで比較実験を行った。 その結果,提案アルゴリズムはベイズモデルに基づくCBF法を大幅に改善し,複数の不確実な制約を伴っても効率的な安全な探索が可能であった。

Breaking safety constraints in control systems can lead to potential risks, resulting in unexpected costs or catastrophic damage. Nevertheless, uncertainty is ubiquitous, even among similar tasks. In this paper, we develop a novel adaptive safe control framework that integrates meta learning, Bayesian models, and control barrier function (CBF) method. Specifically, with the help of CBF method, we learn the inherent and external uncertainties by a unified adaptive Bayesian linear regression (ABLR) model, which consists of a forward neural network (NN) and a Bayesian output layer. Meta learning techniques are leveraged to pre-train the NN weights and priors of the ABLR model using data collected from historical similar tasks. For a new control task, we refine the meta-learned models using a few samples, and introduce pessimistic confidence bounds into CBF constraints to ensure safe control. Moreover, we provide theoretical criteria to guarantee probabilistic safety during the control processes. To validate our approach, we conduct comparative experiments in various obstacle avoidance scenarios. The results demonstrate that our algorithm significantly improves the Bayesian model-based CBF method, and is capable for efficient safe exploration even with multiple uncertain constraints.
翻訳日:2023-07-17 16:31:17 公開日:2023-07-13
# 逆推論のためのDeep Computational Modelを用いた心筋梗塞心電図双極子の実現に向けて

Towards Enabling Cardiac Digital Twins of Myocardial Infarction Using Deep Computational Models for Inverse Inference ( http://arxiv.org/abs/2307.04421v2 )

ライセンス: Link先を確認
Lei Li, Julia Camps, Zhinuo (Jenny) Wang, Abhirup Banerjee, Marcel Beetz, Blanca Rodriguez, and Vicente Grau(参考訳) 心筋梗塞 (MI) の診断は正確で迅速である。 心臓デジタル双生児(CDT)は、非侵襲的に心臓機能の個別評価を提供する可能性があり、MIのパーソナライズされた診断と治療計画のための有望なアプローチである。 正確な心筋組織特性の推測は、信頼性の高いCDTプラットフォーム、特にMI研究の文脈において重要である。 本研究では、心電図(ECG)から心筋組織特性を推定できる可能性について検討し、MIに特化した総合CDTプラットフォームの開発に焦点をあてる。 このプラットフォームは、心MRIや心電図などのマルチモーダルデータを統合し、推測された組織特性の精度と信頼性を高める。 計算機シミュレーションに基づく感度解析を行い,心電図のqrs複合体に対する梗塞位置,大きさ,経常性,電気的活動変化の影響を体系的に探究し,アプローチの限界を確立する。 その後,シミュレーションされたqrsから梗塞の位置と分布を推定する深部計算モデルを提案する。 in silico実験の結果,本モデルはqrs信号とそれに対応する梗塞領域の複雑な関係を効果的に捉えることができ,将来的な臨床応用の可能性も示唆された。 原稿が出版されたら、コードは公開される予定だ。

Myocardial infarction (MI) demands precise and swift diagnosis. Cardiac digital twins (CDTs) have the potential to offer individualized evaluation of cardiac function in a non-invasive manner, making them a promising approach for personalized diagnosis and treatment planning of MI. The inference of accurate myocardial tissue properties is crucial in creating a reliable CDT platform, and particularly in the context of studying MI. In this work, we investigate the feasibility of inferring myocardial tissue properties from the electrocardiogram (ECG), focusing on the development of a comprehensive CDT platform specifically designed for MI. The platform integrates multi-modal data, such as cardiac MRI and ECG, to enhance the accuracy and reliability of the inferred tissue properties. We perform a sensitivity analysis based on computer simulations, systematically exploring the effects of infarct location, size, degree of transmurality, and electrical activity alteration on the simulated QRS complex of ECG, to establish the limits of the approach. We subsequently propose a deep computational model to infer infarct location and distribution from the simulated QRS. The in silico experimental results show that our model can effectively capture the complex relationships between the QRS signals and the corresponding infarct regions, with promising potential for clinical application in the future. The code will be released publicly once the manuscript is accepted for publication.
翻訳日:2023-07-17 16:21:13 公開日:2023-07-13
# 再サンプリングを伴う拡散入射モデルに基づく地震データ補間

Seismic Data Interpolation based on Denoising Diffusion Implicit Models with Resampling ( http://arxiv.org/abs/2307.04226v2 )

ライセンス: Link先を確認
Xiaoli Wei, Chunxia Zhang, Hongtao Wang, Chengli Tan, Deng Xiong, Baisong Jiang, Jiangshe Zhang, Sang-Woon Kim(参考訳) 空間拡張に伴う痕跡の欠如に起因する地震データの不完全性は,地下地質構造の撮像品質を著しく損なう障害や経済的な制約が存在するため,地震探査において一般的な問題である。 近年, 深層学習に基づく補間法が有望な進歩を遂げているが, 生成型逆ネットワークの安定な訓練は容易ではなく, 試験・訓練の欠落パターンが一致しない場合, 性能劣化が顕著である。 そこで本稿では,再サンプリングによる暗黙的拡散モデルを提案する。 モデルトレーニングは、U-Netが各ステップのノイズにマッチするマルチヘッド自己アテンションを備えているデノナイジング拡散確率モデルに基づいて行われる。 グローバルノイズ構成としてのコサインノイズスケジュールは、過大なノイズステージの通過を加速することにより、既知のトレース情報の高利用を促進する。 モデル推論は、既知のトレースの条件付けである拡散暗黙モデルを利用して、拡散ステップの少ない高品質な補間を可能にする。 各逆ステップにおける既知のトレースと不足トレースとの一貫性を高めるために、推論プロセスは、再サンプリング戦略を統合し、以前の補間されたトレースに記録された情報を取得する。 合成およびフィールド地震探査データによる広範囲な実験により, モデルの優位性と, 各種の欠落パターンに対する頑健性について検証した。 また不確かさの定量化とアブレーションの研究も行われている。

The incompleteness of the seismic data caused by missing traces along the spatial extension is a common issue in seismic acquisition due to the existence of obstacles and economic constraints, which severely impairs the imaging quality of subsurface geological structures. Recently, deep learningbased seismic interpolation methods have attained promising progress, while achieving stable training of generative adversarial networks is not easy, and performance degradation is usually notable if the missing patterns in the testing and training do not match. In this paper, we propose a novel seismic denoising diffusion implicit model with resampling. The model training is established on the denoising diffusion probabilistic model, where U-Net is equipped with the multi-head self-attention to match the noise in each step. The cosine noise schedule, serving as the global noise configuration, promotes the high utilization of known trace information by accelerating the passage of the excessive noise stages. The model inference utilizes the denoising diffusion implicit model, conditioning on the known traces, to enable high-quality interpolation with fewer diffusion steps. To enhance the coherency between the known traces and the missing traces within each reverse step, the inference process integrates a resampling strategy to achieve an information recap on the former interpolated traces. Extensive experiments conducted on synthetic and field seismic data validate the superiority of our model and its robustness to various missing patterns. In addition, uncertainty quantification and ablation studies are also investigated.
翻訳日:2023-07-17 16:20:17 公開日:2023-07-13
# DEFT: スケーラブルなGradient Sparsificationのためのモデル層間のグラディエントノルムの爆発的違い

DEFT: Exploiting Gradient Norm Difference between Model Layers for Scalable Gradient Sparsification ( http://arxiv.org/abs/2307.03500v3 )

ライセンス: Link先を確認
Daegun Yoon, Sangyoon Oh(参考訳) 分散深層学習における過剰な通信トラフィックを減らすため、勾配スペーシフィケーションが広く採用されている。 しかしながら、既存の勾配分離器の多くは、勾配選択のかなりの計算コストと勾配構築による通信トラフィックの増加のため、スケーラビリティが比較的低い。 これらの課題に対処するため,我々は,勾配選択タスクをサブタスクに分割し,それらをワーカーに分散する,新しい勾配スパーシフィケーションスキームdeftを提案する。 DEFTは既存のスパシファイアと異なり、すべてのワーカーがすべての勾配の中から勾配を選択する。 これにより、作業者数の増加に伴って計算コストを低減できる。 さらに、DEFTでは、非交差(ワーカー間)のパーティションの勾配を選択することができるため、グラデーションのビルドを排除できる。 したがって、労働者数が増えても、通信トラフィックをユーザ要求に応じて維持することができる。 勾配選択の重要さの喪失を避けるため、DEFTは他の層よりも大きな勾配ノルムを持つ層の勾配を選択する。 すべての層が異なる計算負荷を持つため、DEFTは、労働者間の勾配選択のバランスの取れた負荷を維持するために、bin-packingアルゴリズムを使用して、労働者にレイヤを割り当てる。 我々の経験的評価では、DFTは、既存のスパリファイアよりも勾配選択の速度において、高い収束性能を達成しつつ、トレーニング性能が大幅に向上したことを示す。

Gradient sparsification is a widely adopted solution for reducing the excessive communication traffic in distributed deep learning. However, most existing gradient sparsifiers have relatively poor scalability because of considerable computational cost of gradient selection and/or increased communication traffic owing to gradient build-up. To address these challenges, we propose a novel gradient sparsification scheme, DEFT, that partitions the gradient selection task into sub tasks and distributes them to workers. DEFT differs from existing sparsifiers, wherein every worker selects gradients among all gradients. Consequently, the computational cost can be reduced as the number of workers increases. Moreover, gradient build-up can be eliminated because DEFT allows workers to select gradients in partitions that are non-intersecting (between workers). Therefore, even if the number of workers increases, the communication traffic can be maintained as per user requirement. To avoid the loss of significance of gradient selection, DEFT selects more gradients in the layers that have a larger gradient norm than the other layers. Because every layer has a different computational load, DEFT allocates layers to workers using a bin-packing algorithm to maintain a balanced load of gradient selection between workers. In our empirical evaluation, DEFT shows a significant improvement in training performance in terms of speed in gradient selection over existing sparsifiers while achieving high convergence performance.
翻訳日:2023-07-17 16:18:58 公開日:2023-07-13
# コピーは必要なだけ

Copy Is All You Need ( http://arxiv.org/abs/2307.06962v1 )

ライセンス: Link先を確認
Tian Lan, Deng Cai, Yan Wang, Heyan Huang, Xian-Ling Mao(参考訳) 支配的なテキスト生成モデルは、固定語彙から順次選択して出力を構成する。 本稿では、既存のテキストコレクションからテキストセグメント(例えば、単語やフレーズ)を段階的にコピーするテキスト生成を定式化する。 意味のあるテキストセグメントの文脈化表現を計算し,効率的なベクトル探索ツールキットを用いてインデックス化する。 テキスト生成のタスクは一連のコピー&ペースト操作に分解されます: 各ステップでは、独立した語彙から選択するのではなく、テキストコレクションから適切なテキストスパンを求めます。 標準言語モデリングベンチマーク(WikiText-103)の実験結果から,本手法は自動評価と人的評価の両方で,より優れた生成品質を実現することが示された。 さらに、その推論効率はデコードステップの削減によってトークンレベルの自己回帰モデルに匹敵する。 また,本手法は,余分なトレーニングを伴わずに,ドメイン固有のテキストコレクションに切り替えることによって,効果的なドメイン適応を可能にすることを示す。 最後に、我々のアプローチが、さらなるトレーニングなしで、単により大きなテキストコレクションにスケールアップすることで、さらなるパフォーマンス向上を達成することを確認しました。 ソースコードは \url{https://github.com/gmftbyGMFTBY/Copyisallyouneed} で公開されている。 }

The dominant text generation models compose the output by sequentially selecting words from a fixed vocabulary. In this paper, we formulate text generation as progressively copying text segments (e.g., words or phrases) from an existing text collection. We compute the contextualized representations of meaningful text segments and index them using efficient vector search toolkits. The task of text generation is then decomposed into a series of copy-and-paste operations: at each time step, we seek suitable text spans from the text collection rather than selecting from a standalone vocabulary. Experiments on the standard language modeling benchmark (WikiText-103) show that our approach achieves better generation quality according to both automatic and human evaluations. Besides, its inference efficiency is comparable to token-level autoregressive models thanks to the reduction of decoding steps. We also show that our approach allows for effective domain adaptation by simply switching to domain-specific text collection without extra training. Finally, we observe that our approach attains additional performance gains by simply scaling up to larger text collections, again without further training.\footnote{Our source codes are publicly available at \url{https://github.com/gmftbyGMFTBY/Copyisallyouneed}.}
翻訳日:2023-07-17 16:12:17 公開日:2023-07-13
# ビューの袋:3次元再構築のための次回のベストビュー計画への外観ベースアプローチ

Bag of Views: An Appearance-based Approach to Next-Best-View Planning for 3D Reconstruction ( http://arxiv.org/abs/2307.05832v2 )

ライセンス: Link先を確認
Sara Hatami Gazani, Matthew Tucsok, Iraj Mantegh, Homayoun Najjaran(参考訳) インフラストラクチャの3次元再構築とモニタリングのためのUAVベースのインテリジェントなデータ取得は、画像処理とディープラーニングベースの技術が最近進歩しているために、関心が高まっている。 ビュー計画(view planning)は、情報収集戦略を決定し、取得したデータから生成された3dモデルの品質に大きく影響する、このタスクの重要な部分である。 近年の手法では、目標の事前知識や部分的な再構築を用いて、アクティブな再構築のためのビュープランニングを実現している。 本稿では,オフラインデータセットの改良とオンライン次善ビュー(nbv)計画アプリケーションの3次元再構築を目標とした,キャプチャしたビューにユーティリティを割り当てるための,完全な外観ベースモデルであるbag-of-views(bov)を提案する。 この貢献により、機械学習ベースのビュープランニングフレームワークのトレーニングとテストのための軽量パッケージであるview planning toolbox(vpt)、任意の3dシーンのカスタムビューデータセット生成、および3d再構成も開発しました。 本稿では,BVベースの強化学習モデルとVPTを組み合わせた実験により,データセットの洗練とNBV計画における高品質な再構築に必要なビュー数を削減できることを示す。

UAV-based intelligent data acquisition for 3D reconstruction and monitoring of infrastructure has been experiencing an increasing surge of interest due to the recent advancements in image processing and deep learning-based techniques. View planning is an essential part of this task that dictates the information capture strategy and heavily impacts the quality of the 3D model generated from the captured data. Recent methods have used prior knowledge or partial reconstruction of the target to accomplish view planning for active reconstruction; the former approach poses a challenge for complex or newly identified targets while the latter is computationally expensive. In this work, we present Bag-of-Views (BoV), a fully appearance-based model used to assign utility to the captured views for both offline dataset refinement and online next-best-view (NBV) planning applications targeting the task of 3D reconstruction. With this contribution, we also developed the View Planning Toolbox (VPT), a lightweight package for training and testing machine learning-based view planning frameworks, custom view dataset generation of arbitrary 3D scenes, and 3D reconstruction. Through experiments which pair a BoV-based reinforcement learning model with VPT, we demonstrate the efficacy of our model in reducing the number of required views for high-quality reconstructions in dataset refinement and NBV planning.
翻訳日:2023-07-17 16:11:15 公開日:2023-07-13
# Stack More Layers:低ランク更新によるハイランクトレーニング

Stack More Layers Differently: High-Rank Training Through Low-Rank Updates ( http://arxiv.org/abs/2307.05695v2 )

ライセンス: Link先を確認
Vladislav Lialin, Namrata Shivagunde, Sherin Muckatira, Anna Rumshisky(参考訳) スケールの優位性と有効性にもかかわらず、数十億のパラメータを持つ大規模なネットワークは、過度にパラメータ化されたモデルをトレーニングする必要性を十分に理解しておらず、代替アプローチは必ずしも高性能モデルのトレーニングを安くするとは限らない。 本稿では,大規模ニューラルネットワークのトレーニングのための代替手法として,低ランクトレーニング手法を検討する。 高速ネットワークのトレーニングに低ランク更新を利用するReLoRAという新しい手法を提案する。 最大350mのパラメータを持つプレトレーニングトランス言語モデルにreloraを適用し,通常のニューラルネットワークトレーニングと同等の性能を示す。 さらに,ReLoRAの効率はモデルサイズとともに向上し,マルチビリオンパラメータネットワークを効率的にトレーニングする上で有望なアプローチとなる。 その結果,低ランクトレーニング技術の可能性と,その拡張法への影響が明らかになった。

Despite the dominance and effectiveness of scaling, resulting in large networks with hundreds of billions of parameters, the necessity to train overparametrized models remains poorly understood, and alternative approaches do not necessarily make it cheaper to train high-performance models. In this paper, we explore low-rank training techniques as an alternative approach to training large neural networks. We introduce a novel method called ReLoRA, which utilizes low-rank updates to train high-rank networks. We apply ReLoRA to pre-training transformer language models with up to 350M parameters and demonstrate comparable performance to regular neural network training. Furthermore, we observe that the efficiency of ReLoRA increases with model size, making it a promising approach for training multi-billion-parameter networks efficiently. Our findings shed light on the potential of low-rank training techniques and their implications for scaling laws.
翻訳日:2023-07-17 16:10:50 公開日:2023-07-13
# 人間好奇心のネットワーク理論を用いた本質的動機付けグラフ探索

Intrinsically motivated graph exploration using network theories of human curiosity ( http://arxiv.org/abs/2307.04962v2 )

ライセンス: Link先を確認
Shubhankar P. Patankar, Mathieu Ouellet, Juan Cervino, Alejandro Ribeiro, Kieran A. Murphy and Dani S. Bassett(参考訳) 本質的に動機づけられた探索は、追加の外部報酬なしでも強化学習に役立つことが証明されている。 環境が自然にグラフとして表現される場合、探索を導く最善の方法は未解決の問題だ。 本研究では,情報ギャップ理論と圧縮進行理論という,人間の好奇心の2つの理論によるグラフ構造データ探索手法を提案する。 これらの理論は、好奇心を、環境の訪問ノードによって引き起こされるサブグラフの位相的特徴を最適化する本質的な動機であると考えている。 これらの特徴をグラフニューラルネットワークに基づく強化学習の報奨として利用する。 複数の合成グラフのクラスにおいて、訓練されたエージェントは、トレーニング中に見られるよりも広い環境と長い探索ウォークに一般化する。 本手法は, トポロジ特性のグリーディ評価よりも効率的に計算する。 提案される本質的動機は、レコメンダシステムに対して特に関連がある。 好奇心に基づくリコメンデーションは、MovieLens、Amazon Books、Wikispeediaなど、いくつかの実世界のグラフデータセットにおいて、PageRank中心性よりも人間の行動を予測することが実証された。

Intrinsically motivated exploration has proven useful for reinforcement learning, even without additional extrinsic rewards. When the environment is naturally represented as a graph, how to guide exploration best remains an open question. In this work, we propose a novel approach for exploring graph-structured data motivated by two theories of human curiosity: the information gap theory and the compression progress theory. The theories view curiosity as an intrinsic motivation to optimize for topological features of subgraphs induced by the visited nodes in the environment. We use these proposed features as rewards for graph neural-network-based reinforcement learning. On multiple classes of synthetically generated graphs, we find that trained agents generalize to larger environments and to longer exploratory walks than are seen during training. Our method computes more efficiently than the greedy evaluation of the relevant topological properties. The proposed intrinsic motivations bear particular relevance for recommender systems. We demonstrate that curiosity-based recommendations are more predictive of human behavior than PageRank centrality for several real-world graph datasets, including MovieLens, Amazon Books, and Wikispeedia.
翻訳日:2023-07-17 16:09:30 公開日:2023-07-13
# 会話分析を用いたDARPA通信データの再検討

Revisiting the DARPA Communicator Data using Conversation Analysis ( http://arxiv.org/abs/2307.06982v1 )

ライセンス: Link先を確認
Peter Wallis(参考訳) 人間のコンピュータ会話における芸術の状況は、望ましいものを残している。 本稿では,これらのシステムにおける「改善のための機会」を,誓文の形で乱用を探すことによって識別するアプローチについて述べる。 その前提は、人間がコンピュータに対して制裁として誓うことであり、したがって、言葉を誓うことは、システムが本来あるべきように振る舞わない点を表す。 問題のある場所を特定できたら、書き起こしを遡って作業し、会話分析(CA)を使って、どのように問題が発生したかを調べることができます。 会話分析は定性的な方法論であり、定量的な背景から私たちにとって非常に異質な、実際非科学的に見える可能性がある。 この論文は、現在の形式での会話分析の説明から始まり、その後DARPAのコミュニケータープロジェクトにおける不満とイライラしたユーザの書き起こしにこの方法論を適用します。 結論として、コミュニケータシステムでは、談話構造レベルで混成イニシアチブを扱うことができないため、少なくとも1つの障害種が存在する。 その過程で、より大きなテキストコーパスに依存しない計算言語学の別の未来があることを証明したいと思います。

The state of the art in human computer conversation leaves something to be desired and, indeed, talking to a computer can be down-right annoying. This paper describes an approach to identifying ``opportunities for improvement'' in these systems by looking for abuse in the form of swear words. The premise is that humans swear at computers as a sanction and, as such, swear words represent a point of failure where the system did not behave as it should. Having identified where things went wrong, we can work backward through the transcripts and, using conversation analysis (CA) work out how things went wrong. Conversation analysis is a qualitative methodology and can appear quite alien - indeed unscientific - to those of us from a quantitative background. The paper starts with a description of Conversation analysis in its modern form, and then goes on to apply the methodology to transcripts of frustrated and annoyed users in the DARPA Communicator project. The conclusion is that there is at least one species of failure caused by the inability of the Communicator systems to handle mixed initiative at the discourse structure level. Along the way, I hope to demonstrate that there is an alternative future for computational linguistics that does not rely on larger and larger text corpora.
翻訳日:2023-07-17 16:01:49 公開日:2023-07-13
# ソーシャルメディアにおける左翼過激派のデータ駆動理解

A Data-driven Understanding of Left-Wing Extremists on Social Media ( http://arxiv.org/abs/2307.06981v1 )

ライセンス: Link先を確認
Utkucan Balc{\i}, Michael Sirivianos, Jeremy Blackburn(参考訳) 過激主義の拡散と進化におけるソーシャルメディアの役割は、激しい研究の焦点となっている。 オンライン過激派は、オンライン憎悪、誤報、現実世界の暴力の拡散に関与している。 しかし、既存の作品の圧倒的多数は右翼過激主義に焦点を合わせている。 本稿では,左翼過激主義を探求する大規模データ駆動型研究の第1弾を実行する。 我々は、1950年代に初めてソ連の強硬な行動を支持して誕生した左翼社会である「タンキース」に焦点をあて、彼らが「実際に既存の社会主義国」と呼ぶもの、例えば中国、ソ連、旧ソ連、北朝鮮を支援すべく進化してきた。 tankies subredditの53万の著者から130万の投稿を集め、redditのより広い左派コミュニティにおけるタンキーの位置を調査します。 なかでも、タンキーは明らかに大きな左派コミュニティの周囲にあることが分かっています。 ポストの内容を調べると、理論的研究におけるタンクの記述を裏付ける誤りや概念的準同型が見つかる。 また、タンカーは他の左派コミュニティと比べて、社会問題よりも国家レベルの政治イベントに重点を置いていることも分かりました。 最後に,タンカーは,相対的に高い毒性や脱プラットフォーム化イベントに対する組織的反応など,右翼の過激派と同じような懸念行動を示すことを示した。

Social media's role in the spread and evolution of extremism is a focus of intense study. Online extremists have been involved in the spread of online hate, mis/disinformation, and real-world violence. However, the overwhelming majority of existing work has focused on right-wing extremism. In this paper, we perform a first of its kind large-scale, data-driven study exploring left-wing extremism. We focus on "tankies," a left-wing community that first arose in the 1950s in support of hardline actions of the USSR and has evolved to support what they call "actually existing socialist countries," e.g., CCP run China, the USSR, former soviet countries, and North Korea. We collect 1.3M posts from 53K authors from tankies subreddits, and explore the position of tankies within the broader far-left community on Reddit. Among other things, we find that tankies are clearly on the periphery of the larger far-left community. When examining the contents of posts, we find misalignments and conceptual homomorphisms that confirm the description of tankies in the theoretical work. We also discover that tankies focus more on state-level political events rather than social issues in comparison to other far-left communities. Finally, we show that tankies exhibit some of the same worrying behaviors as right-wing extremists, e.g., relatively high toxicity and an organized response to deplatforming events.
翻訳日:2023-07-17 16:01:07 公開日:2023-07-13
# ベンガル語で偽ニュースに取り組む - 要約と拡張が事前学習した言語モデルに与える影響を解き放つ

Tackling Fake News in Bengali: Unraveling the Impact of Summarization vs. Augmentation on Pre-trained Language Models ( http://arxiv.org/abs/2307.06979v1 )

ライセンス: Link先を確認
Arman Sakif Chowdhury, G. M. Shahariar, Ahammed Tarik Aziz, Syed Mohibul Alam, Md. Azad Sheikh, Tanveer Ahmed Belal(参考訳) ソーシャルメディアやオンラインニュースソースの台頭により、フェイクニュースは世界中で大きな問題となっている。 しかし、ベンガルのような低リソース言語における偽ニュースの検出は、研究において限られた注目を集めている。 本稿では,ベンガル語における偽ニュース記事の分類方法として,5つの事前学習言語モデルを用いた要約と拡張手法を提案する。 弊社のアプローチは、英語ニュース記事の翻訳や、偽ニュース記事の欠陥を抑えるための強化技術の利用を含む。 我々の研究は、BERTベースのモデルのトークン長制限に対処するため、ニュースの要約にも重点を置いている。 広範な実験と厳密な評価を通じて,ベンガルの偽ニュース検出における要約と補足の有効性を示す。 モデルを3つのテストデータセットで評価しました。 BanglaBERTベースモデルは、拡張テクニックと組み合わせて、最初のテストデータセットで96%の精度を達成した。 第2のテストデータセットでは、要約されたニュース記事でトレーニングされたBanglaBERTモデルが97%の精度を達成した。 最後に、mBERTベースモデルは、一般化性能評価のために予約された第3のテストデータセットで86%の精度を達成した。 データセットと実装はhttps://github.com/arman-sakif/Bengali-Fake-News-Detectionで公開されている。

With the rise of social media and online news sources, fake news has become a significant issue globally. However, the detection of fake news in low resource languages like Bengali has received limited attention in research. In this paper, we propose a methodology consisting of four distinct approaches to classify fake news articles in Bengali using summarization and augmentation techniques with five pre-trained language models. Our approach includes translating English news articles and using augmentation techniques to curb the deficit of fake news articles. Our research also focused on summarizing the news to tackle the token length limitation of BERT based models. Through extensive experimentation and rigorous evaluation, we show the effectiveness of summarization and augmentation in the case of Bengali fake news detection. We evaluated our models using three separate test datasets. The BanglaBERT Base model, when combined with augmentation techniques, achieved an impressive accuracy of 96% on the first test dataset. On the second test dataset, the BanglaBERT model, trained with summarized augmented news articles achieved 97% accuracy. Lastly, the mBERT Base model achieved an accuracy of 86% on the third test dataset which was reserved for generalization performance evaluation. The datasets and implementations are available at https://github.com/arman-sakif/Bengali-Fake-News-Detection
翻訳日:2023-07-17 16:00:30 公開日:2023-07-13
# 集団型SHMにおける情報伝達戦略選択のための決定枠組み

A decision framework for selecting information-transfer strategies in population-based SHM ( http://arxiv.org/abs/2307.06978v1 )

ライセンス: Link先を確認
Aidan J. Hughes, Jack Poole, Nikolaos Dervilis, Paul Gardner, Keith Worden(参考訳) 構造物の運用と維持の意思決定支援は、構造健康モニタリング(SHM)システムの開発と実施に重要な動機となっている。 残念ながら、ラベル付きトレーニングデータの限られた可用性は、これらの決定支援システムが依存する統計モデルの開発を妨げる。 人口ベースのSHMは、トランスファーラーニング技術を用いて、人口内の個々の構造間で情報を共有することにより、データ不足の影響を軽減することを目指している。 本稿では,新しい概念 - 情報伝達の期待値 - に基づいて,負の伝達を回避した伝達戦略を選択するための決定枠組みを提案する。 負の転送を回避し、転送決定フレームワークを用いて情報転送戦略を最適化することにより、運用・維持に伴うコストを削減し、安全性を向上させることができる。

Decision-support for the operation and maintenance of structures provides significant motivation for the development and implementation of structural health monitoring (SHM) systems. Unfortunately, the limited availability of labelled training data hinders the development of the statistical models on which these decision-support systems rely. Population-based SHM seeks to mitigate the impact of data scarcity by using transfer learning techniques to share information between individual structures within a population. The current paper proposes a decision framework for selecting transfer strategies based upon a novel concept -- the expected value of information transfer -- such that negative transfer is avoided. By avoiding negative transfer, and by optimising information transfer strategies using the transfer-decision framework, one can reduce the costs associated with operating and maintaining structures, and improve safety.
翻訳日:2023-07-17 16:00:13 公開日:2023-07-13
# 産業4.0における実時間異常検出のためのニューロシンボリックエンパワードノイズ拡散確率モデル

Neuro-symbolic Empowered Denoising Diffusion Probabilistic Models for Real-time Anomaly Detection in Industry 4.0 ( http://arxiv.org/abs/2307.06975v1 )

ライセンス: Link先を確認
Luigi Capogrosso, Alessio Mascolini, Federico Girella, Geri Skenderi, Sebastiano Gaiardelli, Nicola Dall'Ora, Francesco Ponzio, Enrico Fraccaroli, Santa Di Cataldo, Sara Vinco, Enrico Macii, Franco Fummi, Marco Cristani(参考訳) 産業 4.0は、IoT、ビッグデータ、AIといったデジタル技術が製造プロセスと産業プロセスに統合され、効率と生産性が向上する。 これらの技術が相互接続され相互依存的になるにつれて、業界 4.0システムはより複雑になり、製造プロセスに障害を引き起こす可能性のある異常を特定し、停止することが難しくなる。 本稿では,産業4.0プロセスにおけるリアルタイム異常予測のための拡散モデルを提案する。 ニューロシンボリックアプローチを用いて,産業オントロジーをモデルに統合し,スマートマニュファクチャリングに関する形式的知識を付加する。 最後に, 製造プロセスへの直接統合のための組込みシステムへの展開のために, ランダムフーリエ機能を通して拡散モデルを蒸留する方法を提案する。 私たちの知る限りでは、このアプローチはこれまでに検討されたことがない。

Industry 4.0 involves the integration of digital technologies, such as IoT, Big Data, and AI, into manufacturing and industrial processes to increase efficiency and productivity. As these technologies become more interconnected and interdependent, Industry 4.0 systems become more complex, which brings the difficulty of identifying and stopping anomalies that may cause disturbances in the manufacturing process. This paper aims to propose a diffusion-based model for real-time anomaly prediction in Industry 4.0 processes. Using a neuro-symbolic approach, we integrate industrial ontologies in the model, thereby adding formal knowledge on smart manufacturing. Finally, we propose a simple yet effective way of distilling diffusion models through Random Fourier Features for deployment on an embedded system for direct integration into the manufacturing process. To the best of our knowledge, this approach has never been explored before.
翻訳日:2023-07-17 16:00:01 公開日:2023-07-13
# 実際の説明としての短いブール公式

Short Boolean Formulas as Explanations in Practice ( http://arxiv.org/abs/2307.06971v1 )

ライセンス: Link先を確認
Reijo Jaakkola, Tomi Janhunen, Antti Kuusisto, Masood Feyzbakhsh Rankooh, Miikka Vilander(参考訳) 単項関係に基づくデータモデルにおける短いブール式による説明可能性について検討する。 長さ k の説明として、説明すべき対象属性に関して誤差を最小限にする長さ k のブール公式を取る。 このシナリオで期待される誤差に対して、まず新しい定量的境界を提供する。 さらに,具体的データセットを3つ検討することで,実際に設定がどのように機能するかを実証する。 いずれの場合も、アンサーセットプログラミングの符号化を用いて、異なる長さの説明公式を計算する。 得られた最も正確な公式は、同じデータセット上の他の方法と同様の誤差が得られる。 しかし、過度な適合のため、これらの公式は必ずしも理想的な説明ではないため、クロス検証を用いて説明に適する長さを特定する。 最短式に限定することで、過剰に適合しないが合理的に正確かつ重要な解釈可能な説明を得る。

We investigate explainability via short Boolean formulas in the data model based on unary relations. As an explanation of length k, we take a Boolean formula of length k that minimizes the error with respect to the target attribute to be explained. We first provide novel quantitative bounds for the expected error in this scenario. We then also demonstrate how the setting works in practice by studying three concrete data sets. In each case, we calculate explanation formulas of different lengths using an encoding in Answer Set Programming. The most accurate formulas we obtain achieve errors similar to other methods on the same data sets. However, due to overfitting, these formulas are not necessarily ideal explanations, so we use cross validation to identify a suitable length for explanations. By limiting to shorter formulas, we obtain explanations that avoid overfitting but are still reasonably accurate and also, importantly, human interpretable.
翻訳日:2023-07-17 15:59:46 公開日:2023-07-13
# 溶融沈着モデルポリ乳酸試料の最大引張強度推定のための機械学習支援パターン認識アルゴリズム

Machine Learning-Assisted Pattern Recognition Algorithms for Estimating Ultimate Tensile Strength in Fused Deposition Modeled Polylactic Acid Specimens ( http://arxiv.org/abs/2307.06970v1 )

ライセンス: Link先を確認
Akshansh Mishra, Vijaykumar S Jatti(参考訳) 本研究では,FDM法を用いて作製したポリ乳酸(PLA)試料の最大引張強度(UTS)を推定するための教師付き機械学習アルゴリズムの適用について検討した。 入力パラメータとして,Infill Percentage, Layer Height, Print Speed, extrusion Temperatureの計31種が調製された。 主な目的は,標本のUTS予測において,ロジスティック分類,グラディエントブースティング分類,決定木,K-Nearest Neighborの4つの異なる分類アルゴリズムの精度と有効性を評価することであった。 その結果、決定木とk-nearest近傍のアルゴリズムはどちらも0.71のf1スコアを達成したが、knアルゴリズムは他のアルゴリズムを上回り、曲線(auc)スコアの0.79よりも高い領域を示した。 このことは、データセット内の究極の引張強度の2つのクラスを区別するKNNアルゴリズムの優れた能力を示し、この研究の文脈において最も好ましい選択であることを示している。 本研究は,機械学習に基づく分類アルゴリズムを用いてpla標本のutsを推定する最初の試みであり,これらの手法が添加物製造の分野における予測モデルの性能と精度を向上させる上で有用であることを示す。

In this study, we investigate the application of supervised machine learning algorithms for estimating the Ultimate Tensile Strength (UTS) of Polylactic Acid (PLA) specimens fabricated using the Fused Deposition Modeling (FDM) process. A total of 31 PLA specimens were prepared, with Infill Percentage, Layer Height, Print Speed, and Extrusion Temperature serving as input parameters. The primary objective was to assess the accuracy and effectiveness of four distinct supervised classification algorithms, namely Logistic Classification, Gradient Boosting Classification, Decision Tree, and K-Nearest Neighbor, in predicting the UTS of the specimens. The results revealed that while the Decision Tree and K-Nearest Neighbor algorithms both achieved an F1 score of 0.71, the KNN algorithm exhibited a higher Area Under the Curve (AUC) score of 0.79, outperforming the other algorithms. This demonstrates the superior ability of the KNN algorithm in differentiating between the two classes of ultimate tensile strength within the dataset, rendering it the most favorable choice for classification in the context of this research. This study represents the first attempt to estimate the UTS of PLA specimens using machine learning-based classification algorithms, and the findings offer valuable insights into the potential of these techniques in improving the performance and accuracy of predictive models in the domain of additive manufacturing.
翻訳日:2023-07-17 15:59:34 公開日:2023-07-13
# 層状線形モード接続性

Layerwise Linear Mode Connectivity ( http://arxiv.org/abs/2307.06966v1 )

ライセンス: Link先を確認
Linara Adilova, Asja Fischer, Martin Jaggi(参考訳) フェデレートされたセットアップでは、より強力なグローバルモデルを得るために、トレーニング中に複数の異なるローカルモデルのアグリゲーションを実行する。 平均化がfederated deep learningのような非凸的なセットアップで機能する理由を理解することは、高度にパフォーマンスの高いグローバルモデルを得るのを妨げる、オープンな課題である。 i.d.~データセットは、頻繁な平均化を伴う深層学習が成功している。 しかし、一般的な理解では、独立したトレーニングモデルの間は互いに離れていき、多くのローカルパラメータが更新された後、平均値がもはや機能しない可能性がある。 この問題は損失面の観点から見ることができる:非凸面上の点の場合、平均は任意に悪くなる。 平均平均化の成功を説明するためにしばしば用いられる局所凸性の仮定は、同じデータでトレーニングしても、学習の初期段階からモデルの間に高い損失障壁が存在することを示す経験的証拠と矛盾する。 学習プロセスが異なる層で異なる進化を遂げているという観察に基づいて,モデル間の障壁を階層的に検討する。 我々の予想では、フェデレーショントレーニングの成功を妨げる障壁は、特定の層または層のグループによって引き起こされる。

In the federated setup one performs an aggregation of separate local models multiple times during training in order to obtain a stronger global model; most often aggregation is a simple averaging of the parameters. Understanding when and why averaging works in a non-convex setup, such as federated deep learning, is an open challenge that hinders obtaining highly performant global models. On i.i.d.~datasets federated deep learning with frequent averaging is successful. The common understanding, however, is that during the independent training models are drifting away from each other and thus averaging may not work anymore after many local parameter updates. The problem can be seen from the perspective of the loss surface: for points on a non-convex surface the average can become arbitrarily bad. The assumption of local convexity, often used to explain the success of federated averaging, contradicts to the empirical evidence showing that high loss barriers exist between models from the very beginning of the learning, even when training on the same data. Based on the observation that the learning process evolves differently in different layers, we investigate the barrier between models in a layerwise fashion. Our conjecture is that barriers preventing from successful federated training are caused by a particular layer or group of layers.
翻訳日:2023-07-17 15:59:07 公開日:2023-07-13
# 確率的光量子回路シミュレータ(soqcs)の実装

Implementation of a Stochastic Optical Quantum Circuit Simulator ( SOQCS ) ( http://arxiv.org/abs/2307.06965v1 )

ライセンス: Link先を確認
Javier Osca and Jiri Vala(参考訳) 本稿では,量子光学回路シミュレーションのための確率光学量子回路シミュレータ(SOQCS)C++/Pythonライブラリについて述べる。 SOQCSは、様々な欠陥の存在下で量子線形光回路を定義し、シミュレーションし、研究するためのフレームワークを提供する。 これらは光子の部分的な識別性、損失のある伝搬媒体、不平衡ビームスプリッター、非理想のエミッタ、検出器などに由来する。 SOQCSは、量子回路、異なるシミュレーターコアおよび出力を分析するツールを提供する一連の異なるモジュールとして開発されている。 量子回路は、エミッタ、線形光学素子、遅延、検出器を含む基本成分から定義することができる。 ポストセレクションは検出器定義の一部として簡単に設定できる。 SOQCSの重要な属性は、将来さらなる開発を可能にするモジュール性である。

We present Stochastic Optical Quantum Circuit Simulator (SOQCS) C++/Python library for the simulation of quantum optical circuits, and we provide its implementation details. SOQCS offers a framework to define, simulate and study quantum linear optical circuits in the presence of various imperfections. These come from partial distinguishability of photons, lossy propagation media, unbalanced beamsplitters and non-ideal emitters and detectors for example. SOQCS is developed as a series of different modules which provide quantum circuits, different simulator cores and tools to analyze the output. Quantum circuits can be defined from basic components, including emitters, linear optical elements, delays and detectors. Post-selection can be configured straightforwardly as part of detector definitions. An important attribute of SOQCS is its modularity which allows for its further development in the future.
翻訳日:2023-07-17 15:58:45 公開日:2023-07-13
# タスク非依存のAIは神話か?

Is Task-Agnostic Explainable AI a Myth? ( http://arxiv.org/abs/2307.06963v1 )

ライセンス: Link先を確認
Alicja Chaszczewicz(参考訳) 私たちの仕事は、現代の説明可能なAI(XAI)の課題を統一するためのフレームワークとして機能します。 我々は、XAI手法が機械学習モデルに補助的かつ潜在的に有用な出力を提供する一方で、研究者や意思決定者は、その概念的および技術的な制限に留意する必要があることを実証した。 本研究では,画像,テキスト,グラフデータにまたがる3つのxai研究道について検討した。 上記のケースのさまざまなコンテキストと時間枠にもかかわらず、同じ永続的な障害が出現し、XAIメソッドとアプリケーションタスク間の互換性の課題に対処するために、この分野における概念的なブレークスルーの必要性を強調します。

Our work serves as a framework for unifying the challenges of contemporary explainable AI (XAI). We demonstrate that while XAI methods provide supplementary and potentially useful output for machine learning models, researchers and decision-makers should be mindful of their conceptual and technical limitations, which frequently result in these methods themselves becoming black boxes. We examine three XAI research avenues spanning image, textual, and graph data, covering saliency, attention, and graph-type explainers. Despite the varying contexts and timeframes of the mentioned cases, the same persistent roadblocks emerge, highlighting the need for a conceptual breakthrough in the field to address the challenge of compatibility between XAI methods and application tasks.
翻訳日:2023-07-17 15:58:33 公開日:2023-07-13
# CryptoQFL: 暗号化データによる量子フェデレーション学習

CryptoQFL: Quantum Federated Learning on Encrypted Data ( http://arxiv.org/abs/2307.07012v1 )

ライセンス: Link先を確認
Cheng Chu and Lei Jiang and Fan Chen(参考訳) 量子ニューラルネットワーク(qnn)の最近の進歩は、様々な応用において、従来のものよりも理論的、実験的に優れた性能を示している。 しかし、既存の集中型QNNは、一般的な公開サイトに大量のトレーニングデータを集めるのに時間がかかり、さらに重要なのはデータのプライバシーを侵害するため、現実世界の多くの問題を解決することができない。 Federated Learning(FL)は、分散機械学習フレームワークで、データプライバシを侵害することなく、複数のデバイスにまたがる分散データのコラボレーティブモデルトレーニングを可能にする。 QFL(Quantum Federated Learning)の最初の試みは、QFLのパフォーマンスの改善のみに焦点を当てるか、データのプライバシの保持に失敗する信頼できる量子サーバに依存している。 本研究では,暗号化データに対する分散QNNトレーニングを可能にするQFLフレームワークであるCryptoQFLを提案する。 CryptoQFL is (1) secure, because it allows each edge to train a QNN with local private data, and encrypt its updates using quantum \homo~encryption before sending them to the central quantum server; (2) communication-efficient, as CryptoQFL quantize local gradient updates to ternary values, and only communicate non-zero values to the server for aggregation; and (3) computation-efficient, as CryptoQFL presents an efficient quantum aggregation circuit with significantly reduced latency compared to state-of-the-art approaches.

Recent advancements in Quantum Neural Networks (QNNs) have demonstrated theoretical and experimental performance superior to their classical counterparts in a wide range of applications. However, existing centralized QNNs cannot solve many real-world problems because collecting large amounts of training data to a common public site is time-consuming and, more importantly, violates data privacy. Federated Learning (FL) is an emerging distributed machine learning framework that allows collaborative model training on decentralized data residing on multiple devices without breaching data privacy. Some initial attempts at Quantum Federated Learning (QFL) either only focus on improving the QFL performance or rely on a trusted quantum server that fails to preserve data privacy. In this work, we propose CryptoQFL, a QFL framework that allows distributed QNN training on encrypted data. CryptoQFL is (1) secure, because it allows each edge to train a QNN with local private data, and encrypt its updates using quantum \homo~encryption before sending them to the central quantum server; (2) communication-efficient, as CryptoQFL quantize local gradient updates to ternary values, and only communicate non-zero values to the server for aggregation; and (3) computation-efficient, as CryptoQFL presents an efficient quantum aggregation circuit with significantly reduced latency compared to state-of-the-art approaches.
翻訳日:2023-07-17 15:52:08 公開日:2023-07-13
# シリコンマイクロリング型貯留層計算における自由キャリア非線形性の影響

Impact of Free-carrier Nonlinearities on Silicon Microring-based Reservoir Computing ( http://arxiv.org/abs/2307.07011v1 )

ライセンス: Link先を確認
Bernard J. Giron Castro, Christophe Peucheret, Darko Zibar and Francesco Da Ros(参考訳) シリコンマイクロリング共振器を用いた時間遅延貯水池計算における熱光学効果と自由キャリア効果の影響を定量化する。 NARMA-10 タスクにおいて NMSE 0.05 未満のポンプパワーと周波数減衰範囲を, 2 つの効果の時間定数に応じて同定する。

We quantify the impact of thermo-optic and free-carrier effects on time-delay reservoir computing using a silicon microring resonator. We identify pump power and frequency detuning ranges with NMSE less than 0.05 for the NARMA-10 task depending on the time constants of the two considered effects.
翻訳日:2023-07-17 15:51:48 公開日:2023-07-13
# 選挙人扇動データセット:ポーランド選挙のユースケース

Electoral Agitation Data Set: The Use Case of the Polish Election ( http://arxiv.org/abs/2307.07007v1 )

ライセンス: Link先を確認
Mateusz Baran, Mateusz W\'ojcik, Piotr Kolebski, Micha{\l} Bernaczyk, Krzysztof Rajda, {\L}ukasz Augustyniak, Tomasz Kajdanowicz(参考訳) ソーシャルメディアの人気は政治家を政治広告に利用させる。 それゆえ、ソーシャルメディアは選挙運動の間、特に選挙の扇動(選挙参加)に満ちている。 選挙行政は、選挙法の下で扇動として数えられるメッセージの拡散と量を追跡できない。 これは重要な問題に対処すると同時に、これまで効果的にターゲットにされていないニッチも明らかにする。 そこで,ポーランド語における選挙行動を検出するための最初の公開データセットを提案する。 6,112件の人間注釈付ツイートに4つの法的条件付きカテゴリーがタグ付けされている。 我々は0.66のアノテーション間合意(コーエンのkappaスコア)を達成した。 追加のアノテータは、アノテーションプロセスの一貫性と複雑さを改善する最初の2つの間のミスマッチを解決した。 新たに作成されたデータセットは、HerBERT(F1スコア68%)と呼ばれるポーランド語モデルの微調整に使用された。 また,このようなデータセットやモデルのユースケースを数多く紹介するとともに,2020年ポーランド大統領選挙のtwitter上での分析を通じて,論文を充実させた。

The popularity of social media makes politicians use it for political advertisement. Therefore, social media is full of electoral agitation (electioneering), especially during the election campaigns. The election administration cannot track the spread and quantity of messages that count as agitation under the election code. It addresses a crucial problem, while also uncovering a niche that has not been effectively targeted so far. Hence, we present the first publicly open data set for detecting electoral agitation in the Polish language. It contains 6,112 human-annotated tweets tagged with four legally conditioned categories. We achieved a 0.66 inter-annotator agreement (Cohen's kappa score). An additional annotator resolved the mismatches between the first two improving the consistency and complexity of the annotation process. The newly created data set was used to fine-tune a Polish Language Model called HerBERT (achieving a 68% F1 score). We also present a number of potential use cases for such data sets and models, enriching the paper with an analysis of the Polish 2020 Presidential Election on Twitter.
翻訳日:2023-07-17 15:51:44 公開日:2023-07-13
# フロッケ非ユニタリ回路における反ユニタリ対称性の破れと精製遷移の階層

Antiunitary symmetry breaking and a hierarchy of purification transitions in Floquet non-unitary circuits ( http://arxiv.org/abs/2307.07003v1 )

ライセンス: Link先を確認
Carolyn Zhang, Etienne Granet(参考訳) 我々は、最大混合状態が(1+1)d$ floquet非ユニタリ回路の下でどのように発展し、単位に二乗する反ユニタリ対称性を持ち、一般化された $\mathcal{pt}$ 対称性として機能するかを考える。 パラメータをチューニングすると、フロッケ作用素の有効ハミルトニアンは対称性の破れ遷移を示す。 この対称性の破断遷移は、異なる種類の精製遷移と一致することを示す。 対称性破断遷移の両側にガウス非ユニタリ回路を混合(純化しない)し、対称側には相互作用するが可積分な非ユニタリ回路を混合し、対称性破断側では「弱純化」する。 弱浄化相では、初期混合状態はシステムサイズに比例した時間スケールで浄化される。 我々は, モデルパラメータに連続して依存する浄化時間変化に伴う臨界指数を数値的に取得する。 可積分性を損なう対称摂動を加えると、弱い清浄相が強く浄化され、システムサイズに依存しない時間に浄化され、十分に大きなシステムサイズとなる。 我々のモデルは、ヒルベルト空間を異なる磁化セクターに分割する余分な$U(1)$対称性を持ち、そのいくつかは弱精製相における絡み合いの対数的スケーリングを示す。

We consider how a maximally mixed state evolves under $(1+1)D$ Floquet non-unitary circuits with an antiunitary symmetry that squares to identity, that serves as a generalized $\mathcal{PT}$ symmetry. Upon tuning a parameter, the effective Hamiltonian of the Floquet operator demonstrates a symmetry breaking transition. We show that this symmetry breaking transition coincides with different kinds of purification transitions. Gaussian non-unitary circuits are mixed (not purifying) on both sides of the symmetry breaking transition, while interacting but integrable non-unitary circuits are mixed on the symmetric side and ``weakly purifying" on the symmetry breaking side. In the weakly purifying phase, the initial mixed state purifies on a time scale proportional to the system size. We obtain numerically the critical exponents associated with the divergence of the purification time at the purification transition, which depend continuously on the parameters of the model. Upon adding a symmetric perturbation that breaks integrability, the weakly purifying phase becomes strongly purifying, purifying in a time independent of the system size, for sufficiently large system size. Our models have an extra $U(1)$ symmetry that divides the Hilbert space into different magnetization sectors, some of which demonstrate logarithmic scaling of entanglement in the weakly purifying phase.
翻訳日:2023-07-17 15:51:29 公開日:2023-07-13
# テキスト分類タスクにおける古典的分散検出手法ベンチマーク

Classical Out-of-Distribution Detection Methods Benchmark in Text Classification Tasks ( http://arxiv.org/abs/2307.07002v1 )

ライセンス: Link先を確認
Mateusz Baran, Joanna Baran, Mateusz W\'ojcik, Maciej Zi\k{e}ba, Adam Gonczarek(参考訳) State-of-the-artモデルは制御された環境でうまく機能するが、OOD検出をNLPシステムの重要なコンポーネントとするために、アウト・オブ・ディストリビューション(OOD)の例を提示すると、しばしば苦労する。 本稿では,NLPにおけるOOD検出に対する既存のアプローチの限界を強調することに焦点を当てる。 具体的には、既存のNLPシステムに容易に統合でき、追加のOODデータやモデル修正を必要としない8つのOOD検出手法を評価した。 私たちの貢献の1つは、結果の完全な再現性を可能にする、十分に構造化された研究環境を提供することです。 さらに,NLPタスクに対する既存のOOD検出手法は,様々な種類の分散シフトを特徴とする全サンプルを抽出するのに十分な感度が得られていない。 特に難しいテストシナリオは、ドメインテキスト内のバックグラウンドシフトとランダムにシャッフルされた単語順序の場合に発生する。 このことは、NLP問題に対してより効果的なOOD検出アプローチを開発するための今後の研究の必要性を強調し、我々の研究は、この分野におけるさらなる研究のための、しっかりとした基盤を提供する。

State-of-the-art models can perform well in controlled environments, but they often struggle when presented with out-of-distribution (OOD) examples, making OOD detection a critical component of NLP systems. In this paper, we focus on highlighting the limitations of existing approaches to OOD detection in NLP. Specifically, we evaluated eight OOD detection methods that are easily integrable into existing NLP systems and require no additional OOD data or model modifications. One of our contributions is providing a well-structured research environment that allows for full reproducibility of the results. Additionally, our analysis shows that existing OOD detection methods for NLP tasks are not yet sufficiently sensitive to capture all samples characterized by various types of distributional shifts. Particularly challenging testing scenarios arise in cases of background shift and randomly shuffled word order within in domain texts. This highlights the need for future work to develop more effective OOD detection approaches for the NLP problems, and our work provides a well-defined foundation for further research in this area.
翻訳日:2023-07-17 15:51:05 公開日:2023-07-13
# 双極子-双極子相互作用による物質波干渉計のデコヒーレンス

Decoherence of a matter-wave interferometer due to dipole-dipole interactions ( http://arxiv.org/abs/2307.07001v1 )

ライセンス: Link先を確認
Paolo Fragolino, Martine Schut, Marko Toro\v{s}, Sougato Bose and Anupam Mazumdar(参考訳) ナノ粒子を用いた物質波干渉法は、素粒子物理学への前例のない応用で超弱磁場を探索できる量子センサの開発を可能にする。 しかし、そのような装置の感度が高いため、多くのノイズやデコヒーレンス源に影響を受けやすく、環境からの十分な隔離が達成された場合にのみ動作する。 したがって、ナノ粒子と環境との相互作用をモデル化し特徴付けし、その有害な効果を推定することが不可欠である。 本研究の目的は,中性マイクロ結晶でも脱コヒーレンスの避けられないチャネルの一つである双極子-双極子相互作用による物質波干渉計の脱コヒーレンスを研究することである。 qedの解析を開始し、微分断面積によって特徴づけられる散乱モデルに還元されることを示す。 次に,コヒーレンス時間の推定に容易に適用可能な短波長および長波長領域におけるデコヒーレンス率の簡易表現を求める。 qgem(quantum gravity-induced entanglement of mass)プロトコルの双極子-双極子デコヒーレンス率を推定するために得られた式を適用し、効果を緩和すべきかどうかを議論する。

Matter-wave interferometry with nanoparticles will enable the development of quantum sensors capable of probing ultraweak fields with unprecedented applications for fundamental physics. The high sensitivity of such devices however makes them susceptible to a number of noise and decoherence sources and as such can only operate when sufficient isolation from the environment is achieved. It is thus imperative to model and characterize the interaction of nanoparticles with the environment and to estimate its deleterious effects. The aim of this paper will be to study the decoherence of the matter-wave interferometer due to dipole-dipole interactions which is one of the unavoidable channels for decoherence even for a neutral micro-crystal. We will start the analysis from QED and show that it reduces to the scattering model characterized by the differential cross-section. We will then obtain simple expressions for the decoherence rate in the short and long wavelength limits that can be readily applied to estimate the available coherence time. We will conclude by applying the obtained formulae to estimate the dipole-dipole decoherence rate for the Quantum Gravity-induced Entanglement of Masses (QGEM) protocol and discuss if the effects should be mitigated.
翻訳日:2023-07-17 15:50:45 公開日:2023-07-13
# iso結合基数とジョイント測定

Iso-entangled bases and joint measurements ( http://arxiv.org/abs/2307.06998v1 )

ライセンス: Link先を確認
Flavio Del Santo, Jakub Czartowski, Karol \.Zyczkowski, and Nicolas Gisin(参考訳) 遠方間の絡み合いは広く研究されているが、非局所性や量子計算やネットワークにおける中心的な役割を理解することの重要性にもかかわらず、絡み合いの測定はあまり注目されていない。 本稿では,2量子ビット上の射影関節計測のための等角基底のすべての同値類を完全分類する,絡み合い測定の体系的研究について述べる。 三角ネットワークへのこの分類の適用により、ホワイトノイズとともにエレガントなジョイント測定が、ノードがヴェルナー状態によって接続された場合に出力置換不変確率分布をもたらす唯一の測定であることが明らかとなった。 論文は、より高次元の部分的な結果に関する議論で締めくくっている。

While entanglement between distant parties has been extensively studied, entangled measurements have received relatively little attention despite their significance in understanding non-locality and their central role in quantum computation and networks. We present a systematic study of entangled measurements, providing a complete classification of all equivalence classes of iso-entangled bases for projective joint measurements on 2 qubits. The application of this classification to the triangular network reveals that the Elegant Joint Measurement, along with white noise, is the only measurement resulting in output permutation invariant probability distributions when the nodes are connected by Werner states. The paper concludes with a discussion of partial results in higher dimensions.
翻訳日:2023-07-17 15:50:21 公開日:2023-07-13
# 汎用化工学設計知識の育成に向けて

Towards Populating Generalizable Engineering Design Knowledge ( http://arxiv.org/abs/2307.06985v1 )

ライセンス: Link先を確認
L Siddharth, Jianxi Luo(参考訳) 汎用的な工学的設計知識の蓄積を目指して, 特許書類にみられた文から「関係 : テールエンティティ」という形容詞の事実を抽出する手法を提案する。 これらの事実は特許文書の内外で組み合わせて知識グラフを形成し、設計知識を表現し保存するためのスキームとして機能する。 工学設計文学における既存の手法は、事実ではなく統計的近似である三重項をポップアップさせるために予め定義された関係を利用することが多い。 提案手法では,文からエンティティと関係を識別するためにタガーを訓練する。 このように識別されたエンティティのペアが与えられると、ペア間の関係を具体的に示す関係トークンを識別するために別のタグを訓練します。 これらのタガーをトレーニングするために、44,227文のデータセットとそれに対応する事実を手作業で構築する。 また,提案手法の性能を従来の推奨手法と比較し,トークン間のエッジをグラフの一部として独立にペアリングすることで予測する。 本手法は,ファンシステムに関連する特許に含まれる文に応用し,ドメイン知識ベースを構築する。 知識ベースの概要を提供することで,ファンシステムにおける重要な問題に関連するソリューションを探索する。 回答を知識グラフに整理し,ChatGPTの意見に対する比較討論を行う。

Aiming to populate generalizable engineering design knowledge, we propose a method to extract facts of the form head entity :: relationship :: tail entity from sentences found in patent documents. These facts could be combined within and across patent documents to form knowledge graphs that serve as schemes for representing as well as storing design knowledge. Existing methods in engineering design literature often utilise a set of predefined relationships to populate triples that are statistical approximations rather than facts. In our method, we train a tagger to identify both entities and relationships from a sentence. Given a pair of entities thus identified, we train another tagger to identify the relationship tokens that specifically denote the relationship between the pair. For training these taggers, we manually construct a dataset of 44,227 sentences and corresponding facts. We also compare the performance of the method against typically recommended approaches, wherein, we predict the edges among tokens by pairing the tokens independently and as part of a graph. We apply our method to sentences found in patents related to fan systems and build a domain knowledge base. Upon providing an overview of the knowledge base, we search for solutions relevant to some key issues prevailing in fan systems. We organize the responses into knowledge graphs and hold a comparative discussion against the opinions from ChatGPT.
翻訳日:2023-07-17 15:50:09 公開日:2023-07-13
# 数学的対象のためのデータ拡張

Data Augmentation for Mathematical Objects ( http://arxiv.org/abs/2307.06984v1 )

ライセンス: Link先を確認
Tereso del Rio and Matthew England(参考訳) 本稿では,数学的対象の文脈におけるデータバランシングとデータ拡張の考え方を論じ,評価する: ツールの最適化に機械学習技術を利用する場合,シンボリック計算と満足度チェックコミュニティの両方にとって重要なトピックである。 本研究では,非線形多項式問題のデータセットと,円柱代数分解の変数順序選択問題について考察する。 すでにラベル付けされた問題に変数名を入れ替えることで、選択を分類問題と見なす際に、それ以上のラベル付けを必要としない新しい問題インスタンスを生成する。 この拡張により,MLモデルの精度は平均63%向上する。 この改善のどの部分はデータセットのバランスが取れていることと、データセットのサイズがさらに大きくなることによって達成されるものなのかを調査する。 我々は、このアイデアが数学における他の機械学習の用途にどのように適用できるかを振り返って、論文を締めくくった。

This paper discusses and evaluates ideas of data balancing and data augmentation in the context of mathematical objects: an important topic for both the symbolic computation and satisfiability checking communities, when they are making use of machine learning techniques to optimise their tools. We consider a dataset of non-linear polynomial problems and the problem of selecting a variable ordering for cylindrical algebraic decomposition to tackle these with. By swapping the variable names in already labelled problems, we generate new problem instances that do not require any further labelling when viewing the selection as a classification problem. We find this augmentation increases the accuracy of ML models by 63% on average. We study what part of this improvement is due to the balancing of the dataset and what is achieved thanks to further increasing the size of the dataset, concluding that both have a very significant effect. We finish the paper by reflecting on how this idea could be applied in other uses of machine learning in mathematics.
翻訳日:2023-07-17 15:49:50 公開日:2023-07-13
# 応用特化自然言語のためのIR設計:交通データに関する事例研究

IR Design for Application-Specific Natural Language: A Case Study on Traffic Data ( http://arxiv.org/abs/2307.06983v1 )

ライセンス: Link先を確認
Wei Hu, Xuhong Wang, Ding Wang, Shengyue Yao, Zuqiu Mao, Li Li, Fei-Yue Wang, Yilun Lin(参考訳) 輸送産業におけるソフトウェアアプリケーションの分野では、ドメイン固有言語(dsl)は使いやすさと様々な利点のために広く採用されている。 コンピュータ性能の絶え間ない進歩と大規模モデルの急速な発展により、特定のアプリケーション(ASNL(Application-Specific Natural Language)と呼ばれる)で自然言語を使ったプログラミングが可能になった。 ASNLは柔軟性と自由度が向上し、解析の計算複雑性が増大し、処理性能が低下する。 この問題に対処するため,本論文では,データ処理性能を向上し,データ転送データをグラフデータ形式に均一に処理できる中間表現(IR)の設計を進めた。 実験の結果,標準データクエリ操作では,提案したIR設計は標準XMLフォーマットデータを直接使用した場合と比較して40倍以上の速度向上が達成できることがわかった。

In the realm of software applications in the transportation industry, Domain-Specific Languages (DSLs) have enjoyed widespread adoption due to their ease of use and various other benefits. With the ceaseless progress in computer performance and the rapid development of large-scale models, the possibility of programming using natural language in specified applications - referred to as Application-Specific Natural Language (ASNL) - has emerged. ASNL exhibits greater flexibility and freedom, which, in turn, leads to an increase in computational complexity for parsing and a decrease in processing performance. To tackle this issue, our paper advances a design for an intermediate representation (IR) that caters to ASNL and can uniformly process transportation data into graph data format, improving data processing performance. Experimental comparisons reveal that in standard data query operations, our proposed IR design can achieve a speed improvement of over forty times compared to direct usage of standard XML format data.
翻訳日:2023-07-17 15:49:34 公開日:2023-07-13
# MegaWika:50の言語にまたがる数百万のレポートとその情報源

MegaWika: Millions of reports and their sources across 50 diverse languages ( http://arxiv.org/abs/2307.07049v1 )

ライセンス: Link先を確認
Samuel Barham and Orion Weller and Michelle Yuan and Kenton Murray and Mahsa Yarmohammadi and Zhengping Jiang and Siddharth Vashishtha and Alexander Martin and Anqi Liu and Aaron Steven White and Jordan Boyd-Graber and Benjamin Van Durme(参考訳) 協力的なAI支援レポート生成のための新しいモデルの開発を促進するため、50の言語で1300万のWikipedia記事と7100万の参考資料からなるMegaWikaを紹介した。 我々は、このデータセットを、ウィキペディアの最初の引用抽出とコンテンツのウェブスクレイピングを超えて、多言語アプリケーションのための非英語記事の翻訳や、自動意味分析のためのFrameNetパースなど、無数のアプリケーションのために処理する。 MegaWikaは、文レベルレポート生成のための最大のリソースであり、多言語である唯一のレポート生成データセットである。 我々はこのリソースの質を意味的に階層化されたサンプルを通して手動で分析する。 最後に,自動レポート生成における重要なステップである言語間質問応答と引用検索のためのベースライン結果とトレーニングモデルを提供する。

To foster the development of new models for collaborative AI-assisted report generation, we introduce MegaWika, consisting of 13 million Wikipedia articles in 50 diverse languages, along with their 71 million referenced source materials. We process this dataset for a myriad of applications, going beyond the initial Wikipedia citation extraction and web scraping of content, including translating non-English articles for cross-lingual applications and providing FrameNet parses for automated semantic analysis. MegaWika is the largest resource for sentence-level report generation and the only report generation dataset that is multilingual. We manually analyze the quality of this resource through a semantically stratified sample. Finally, we provide baseline results and trained models for crucial steps in automated report generation: cross-lingual question answering and citation retrieval.
翻訳日:2023-07-17 15:42:01 公開日:2023-07-13
# DIALGEN:人間と人間との会話の理解を深める共同対話

DIALGEN: Collaborative Human-LM Generated Dialogues for Improved Understanding of Human-Human Conversations ( http://arxiv.org/abs/2307.07047v1 )

ライセンス: Link先を確認
Bo-Ru Lu, Nikita Haduong, Chia-Hsuan Lee, Zeqiu Wu, Hao Cheng, Paul Koester, Jean Utke, Tao Yu, Noah A. Smith, Mari Ostendorf(参考訳) 人間と人間の会話を自動的に理解することの恩恵を受けるアプリケーションは、コールセンターや臨床会話のような現実世界のデータにおけるプライベート情報に関連する課題を伴うことが多い。 保護されたデータを扱うことでアノテーションのコストが増大し、技術開発が制限される。 これらの課題に対処するため,我々は,ループ内半自動対話生成フレームワークである dialgen を提案する。 dialgenは、スキーマやスタイル仕様に従う言語モデル(chatgpt)を使用して、流麗な会話テキストを生成し、サブダイアログを反復的に生成し、ヒューマンフィードバックを使用して不一致を修正したり、フローをリダイレクトしたりすることで、複雑な会話を生成する。 対話状態追跡として構成されたエージェント-クライアント情報収集コールの構造化要約実験において,ダイアルゲンデータによってモデル性能が大幅に向上することを示す。

Applications that could benefit from automatic understanding of human-human conversations often come with challenges associated with private information in real-world data such as call center or clinical conversations. Working with protected data also increases costs of annotation, which limits technology development. To address these challenges, we propose DIALGEN, a human-in-the-loop semi-automated dialogue generation framework. DIALGEN uses a language model (ChatGPT) that can follow schema and style specifications to produce fluent conversational text, generating a complex conversation through iteratively generating subdialogues and using human feedback to correct inconsistencies or redirect the flow. In experiments on structured summarization of agent-client information gathering calls, framed as dialogue state tracking, we show that DIALGEN data enables significant improvement in model performance.
翻訳日:2023-07-17 15:41:47 公開日:2023-07-13
# 内視鏡的腎臓結石同定のための計量学習法

A metric learning approach for endoscopic kidney stone identification ( http://arxiv.org/abs/2307.07046v1 )

ライセンス: Link先を確認
Jorge Gonzalez-Zapata and Francisco Lopez-Tiro and Elias Villalvazo-Avila and Daniel Flores-Araiza and Jacques Hubert and Andres Mendez-Vazquez and Gilberto Ochoa-Ruiz and Christian Daul(参考訳) 近年, 尿管鏡検査中に腎臓結石を自動同定し, 迅速な治療決定を可能にする方法として, 深層学習法が提案されている。 これらのDLアプローチが有望な結果をもたらしたとしても、多くのラベル付きデータが利用できる腎臓結石タイプに主に適している。 しかし、まれな腎臓結石のタイプでは、ラベル付き画像はごくわずかである。 この貢献はDeep Metric Learning(DML)メソッドを活用する i) サンプルが少ないクラスを扱うこと。 二 分布サンプルの外部によく一般化すること、及び 三 データベースに追加される新しいクラスをよりよく扱うこと。 提案したガイド付き深度学習アプローチは、データ表現を改良された方法で学習するように設計された新しいアーキテクチャに基づいている。 このソリューションはFew-Shot Learning (FSL)にインスパイアされ、教師と学生のアプローチを利用している。 教師モデル(gemini)は、ラベル付きデータから事前知識に基づいて縮小仮説空間を生成し、知識蒸留スキームを通じて学生モデル(resnet50)へのガイドとして使用する。 この認識のために別々に使用される2つのデータセット、すなわち腎臓石片の表面に取得された画像セットと断片片のイメージセットで、広範囲なテストが最初に行われた。 DML-approachはDL-methodsおよび他のDML-approachesと比較して識別精度を10%および12%改善した。 さらに,2種類のデータセットからのモデル埋め込みをマルチビュー方式で統合し,表面および断面断片の情報を同時に活用した。 その結果得られた混合モデルによるテストは、dlモデルと浅層機械学習法に対して、識別精度を少なくとも3%、最大30%向上させる。

Several Deep Learning (DL) methods have recently been proposed for an automated identification of kidney stones during an ureteroscopy to enable rapid therapeutic decisions. Even if these DL approaches led to promising results, they are mainly appropriate for kidney stone types for which numerous labelled data are available. However, only few labelled images are available for some rare kidney stone types. This contribution exploits Deep Metric Learning (DML) methods i) to handle such classes with few samples, ii) to generalize well to out of distribution samples, and iii) to cope better with new classes which are added to the database. The proposed Guided Deep Metric Learning approach is based on a novel architecture which was designed to learn data representations in an improved way. The solution was inspired by Few-Shot Learning (FSL) and makes use of a teacher-student approach. The teacher model (GEMINI) generates a reduced hypothesis space based on prior knowledge from the labeled data, and is used it as a guide to a student model (i.e., ResNet50) through a Knowledge Distillation scheme. Extensive tests were first performed on two datasets separately used for the recognition, namely a set of images acquired for the surfaces of the kidney stone fragments, and a set of images of the fragment sections. The proposed DML-approach improved the identification accuracy by 10% and 12% in comparison to DL-methods and other DML-approaches, respectively. Moreover, model embeddings from the two dataset types were merged in an organized way through a multi-view scheme to simultaneously exploit the information of surface and section fragments. Test with the resulting mixed model improves the identification accuracy by at least 3% and up to 30% with respect to DL-models and shallow machine learning methods, respectively.
翻訳日:2023-07-17 15:41:33 公開日:2023-07-13
# AnyStar: ドメインランダム化されたユニバーサルスターコンベックス3Dインスタンスセグメンテーション

AnyStar: Domain randomized universal star-convex 3D instance segmentation ( http://arxiv.org/abs/2307.07044v1 )

ライセンス: Link先を確認
Neel Dey, S. Mazdak Abulnaga, Benjamin Billot, Esra Abaci Turk, P. Ellen Grant, Adrian V. Dalca, Polina Golland(参考訳) 星凸形状は、核、結節、転移、その他の単位の形で、生体顕微鏡および放射線学にまたがって生じる。 このような構造のための既存のインスタンスセグメンテーションネットワークは、データセットごとに密にラベル付けされたインスタンスでトレーニングされる。 さらに、コントラスト、形状、方向、解像度、密度の変化により、新しいデータセットや画像モダリティが提示される場合、重要な再設計や微調整が必要となる。 anystarは、ランダムな外観、環境、画像物理学を持つblobのようなオブジェクトの合成トレーニングデータをシミュレートし、汎用のstar-convexインスタンスセグメンテーションネットワークを訓練するドメインランダム生成モデルである。 その結果、生成モデルを用いてトレーニングされたネットワークは、目に見えないデータセットからの注釈付き画像を必要としない。 蛍光顕微鏡におけるC. elegans, P. dumerilii核, 微小CTにおけるマウス皮質核, EMにおけるゼブラフィッシュ脳核, ヒト胎児MRIにおける胎盤子葉核は, すべて再構成, 微調整, 転写学習, ドメイン適応を伴わない。 コードはhttps://github.com/neel-dey/anystarで入手できる。

Star-convex shapes arise across bio-microscopy and radiology in the form of nuclei, nodules, metastases, and other units. Existing instance segmentation networks for such structures train on densely labeled instances for each dataset, which requires substantial and often impractical manual annotation effort. Further, significant reengineering or finetuning is needed when presented with new datasets and imaging modalities due to changes in contrast, shape, orientation, resolution, and density. We present AnyStar, a domain-randomized generative model that simulates synthetic training data of blob-like objects with randomized appearance, environments, and imaging physics to train general-purpose star-convex instance segmentation networks. As a result, networks trained using our generative model do not require annotated images from unseen datasets. A single network trained on our synthesized data accurately 3D segments C. elegans and P. dumerilii nuclei in fluorescence microscopy, mouse cortical nuclei in micro-CT, zebrafish brain nuclei in EM, and placental cotyledons in human fetal MRI, all without any retraining, finetuning, transfer learning, or domain adaptation. Code is available at https://github.com/neel-dey/AnyStar.
翻訳日:2023-07-17 15:41:06 公開日:2023-07-13
# 生成畳み込み視覚変換器を用いたディープフェイク映像検出

Deepfake Video Detection Using Generative Convolutional Vision Transformer ( http://arxiv.org/abs/2307.07036v1 )

ライセンス: Link先を確認
Deressa Wodajo, Solomon Atnafu, Zahid Akhtar(参考訳) ディープフェイクは偽情報を拡散し、デジタルメディアの整合性を損なう可能性を懸念している。 本研究では,深度映像検出のためのGenConViT(Generative Convolutional Vision Transformer)を提案する。 本モデルでは,convnext と swin トランスフォーマモデルを組み合わせて特徴抽出を行い,オートエンコーダと変分オートエンコーダを用いて潜在データ分布から学習する。 GenConViTは、視覚的アーティファクトと潜在データ分布から学習することにより、幅広いディープフェイクビデオを検出するパフォーマンスを向上させる。 このモデルはDFDC、FF++、DeepfakeTIMIT、Celeb-DF v2データセットでトレーニングおよび評価を行い、高い分類精度、F1スコア、AUC値を達成する。 提案したGenConViTモデルは、ディープフェイクビデオ検出における堅牢なパフォーマンスを示し、平均精度は95.8%、AUC値は99.3%である。 提案モデルでは,メディアの整合性を保ちながら,視覚的特徴と潜時的特徴を活かし,幅広い偽動画を識別する有効なソリューションを提供することにより,ディープフェイク検出における一般化可能性の課題に対処する。 GenConViTのコードはhttps://github.com/erprogs/GenConViTで入手できる。

Deepfakes have raised significant concerns due to their potential to spread false information and compromise digital media integrity. In this work, we propose a Generative Convolutional Vision Transformer (GenConViT) for deepfake video detection. Our model combines ConvNeXt and Swin Transformer models for feature extraction, and it utilizes Autoencoder and Variational Autoencoder to learn from the latent data distribution. By learning from the visual artifacts and latent data distribution, GenConViT achieves improved performance in detecting a wide range of deepfake videos. The model is trained and evaluated on DFDC, FF++, DeepfakeTIMIT, and Celeb-DF v2 datasets, achieving high classification accuracy, F1 scores, and AUC values. The proposed GenConViT model demonstrates robust performance in deepfake video detection, with an average accuracy of 95.8% and an AUC value of 99.3% across the tested datasets. Our proposed model addresses the challenge of generalizability in deepfake detection by leveraging visual and latent features and providing an effective solution for identifying a wide range of fake videos while preserving media integrity. The code for GenConViT is available at https://github.com/erprogs/GenConViT.
翻訳日:2023-07-17 15:40:42 公開日:2023-07-13
# ギャップのブリッジ:条件適応型インスタンス変調による異種顔認識

Bridging the Gap: Heterogeneous Face Recognition with Conditional Adaptive Instance Modulation ( http://arxiv.org/abs/2307.07032v1 )

ライセンス: Link先を確認
Anjith George and Sebastien Marcel(参考訳) Heterogeneous Face Recognition (HFR) は、熱スペクトルや可視スペクトルなど、さまざまな領域にわたる顔画像のマッチングを目的としており、顔認識(FR)システムの適用性を挑戦的なシナリオに拡張している。 しかし、ターゲット領域における大規模データセットのドメインギャップと限られた可用性は、トレーニングをスクラッチから堅牢で不変なHFRモデルを困難にしている。 本研究では,異なるモダリティを異なるスタイルとして扱うとともに,特徴マップを適応させ,ドメインギャップを埋める枠組みを提案する。 本稿では,事前学習されたfrネットワークに統合してhfrネットワークに変換可能な,新しい条件付き適応インスタンス変調(caim)モジュールを提案する。 CAIMブロックは中間特徴写像を変調し、対象モダリティのスタイルに適応して領域ギャップを効果的にブリッジする。 提案手法は,最小限のペアサンプルでエンドツーエンドのトレーニングを可能にする。 我々は、複数の挑戦的ベンチマークに対するアプローチを広く評価し、最先端の手法と比較して優れた性能を示した。 調査結果を再現するためのソースコードとプロトコルが公開される予定だ。

Heterogeneous Face Recognition (HFR) aims to match face images across different domains, such as thermal and visible spectra, expanding the applicability of Face Recognition (FR) systems to challenging scenarios. However, the domain gap and limited availability of large-scale datasets in the target domain make training robust and invariant HFR models from scratch difficult. In this work, we treat different modalities as distinct styles and propose a framework to adapt feature maps, bridging the domain gap. We introduce a novel Conditional Adaptive Instance Modulation (CAIM) module that can be integrated into pre-trained FR networks, transforming them into HFR networks. The CAIM block modulates intermediate feature maps, to adapt the style of the target modality effectively bridging the domain gap. Our proposed method allows for end-to-end training with a minimal number of paired samples. We extensively evaluate our approach on multiple challenging benchmarks, demonstrating superior performance compared to state-of-the-art methods. The source code and protocols for reproducing the findings will be made publicly available.
翻訳日:2023-07-17 15:40:17 公開日:2023-07-13
# 非凸最適化のための加速勾配法:厳密な鞍点からの脱出軌道と局所ミニマへの収束

Accelerated gradient methods for nonconvex optimization: Escape trajectories from strict saddle points and convergence to local minima ( http://arxiv.org/abs/2307.07030v1 )

ライセンス: Link先を確認
Rishabh Dixit, Mert Gurbuzbalaban, and Waheed U. Bajwa(参考訳) 本稿では,滑らかな非凸関数に対する加速度勾配法の一般クラスの挙動を理解する問題を考える。 ポリアックの重ボール法とネステロフ加速勾配法に基づいて、局所最小の非凸関数への収束を実現するためのアルゴリズムを提案する最近の研究により、この研究は、ネステロフ型加速関数の幅広いクラスを提案し、これらの手法について、サドルポイントからの脱出と局所ミニマへの収束を漸近的および非漸近的解析によって包含する厳密な研究を行った。 漸近的手法では,可変運動量パラメータを持つネステロフ加速度勾配法(nag)が厳密な鞍点をほぼ確実に回避できるかどうかという疑問に答える。 この研究は、漸近的な収束率と発散率の2つの指標も開発し、これらの指標をNAGやNesterovの一定の運動量(NCM)を厳密なサドル点付近で加速するいくつかの一般的な加速法に対して評価する。 地域体制において、本研究は、これらの加速された手法の軌跡およびそのような軌跡が存在するために必要な条件のために厳密なサドル地区からの「線形」出口時間推定を導く分析を提供する。 最後に,非凸関数の凸近傍に局所最小値に最も近い速度で収束できる加速的手法のサブクラスについて検討し,同時に,このサブクラスはNAGよりも優れたサドル・エスケープ挙動を提供する。

This paper considers the problem of understanding the behavior of a general class of accelerated gradient methods on smooth nonconvex functions. Motivated by some recent works that have proposed effective algorithms, based on Polyak's heavy ball method and the Nesterov accelerated gradient method, to achieve convergence to a local minimum of nonconvex functions, this work proposes a broad class of Nesterov-type accelerated methods and puts forth a rigorous study of these methods encompassing the escape from saddle-points and convergence to local minima through a both asymptotic and a non-asymptotic analysis. In the asymptotic regime, this paper answers an open question of whether Nesterov's accelerated gradient method (NAG) with variable momentum parameter avoids strict saddle points almost surely. This work also develops two metrics of asymptotic rate of convergence and divergence, and evaluates these two metrics for several popular standard accelerated methods such as the NAG, and Nesterov's accelerated gradient with constant momentum (NCM) near strict saddle points. In the local regime, this work provides an analysis that leads to the "linear" exit time estimates from strict saddle neighborhoods for trajectories of these accelerated methods as well the necessary conditions for the existence of such trajectories. Finally, this work studies a sub-class of accelerated methods that can converge in convex neighborhoods of nonconvex functions with a near optimal rate to a local minima and at the same time this sub-class offers superior saddle-escape behavior compared to that of NAG.
翻訳日:2023-07-17 15:39:58 公開日:2023-07-13
# 捕捉イオン試験場における誤差緩和・最適化・補間

Error mitigation, optimization, and extrapolation on a trapped ion testbed ( http://arxiv.org/abs/2307.07027v1 )

ライセンス: Link先を確認
Oliver G. Maupin, Ashlyn D. Burch, Christopher G. Yale, Brandon Ruzic, Antonio Russo, Daniel S. Lobser, Melissa C. Revelle, Matthew N. Chow, Susan M. Clark, Andrew J. Landahl, Peter J. Love(参考訳) 現在のノイズの多い中間スケール量子(NISQ)トラップイオンデバイスは、2量子ゲートに対して1ゲートあたり1%の誤差を受ける。 これらの誤りは、未確認の場合の計算精度に大きな影響を及ぼす。 リチャードソン外挿法(Richardson extrapolation)と呼ばれる誤差軽減の形式は、クォービットオーバーヘッドを発生させずにこれらのエラーを減らすことができる。 本稿では,電子構造問題を解くために,量子科学計算オープンユーザテストベッド(QSCOUT)でこの手法を実証し,最適化する。 0.8アングストロームにおけるHeH+分子の基底状態を計算するための変分量子固有解法(VQE)最適化アルゴリズムに、この誤差軽減手法を統合するための様々な方法を検討する。 本研究では、2ビットゲートの時間拡張と2ビットゲートの同一性操作をアンザッツ回路に挿入する2つの外挿法について検討する。 前者は特定のハードウェアのノイズをスケールするのに失敗している。 大域ゲートID挿入によるノイズのスケーリングと変分最適化ルーチンの後にのみ外挿を行い、HeH+の真の基底状態エネルギーと比較して0.363%+-1.06の絶対相対誤差を達成する。 これは絶対誤差 0.01 +- 0.02 hartree に相当するが、化学的な精度は低いが、誤差の軽減された推定よりも大幅に改善されている。 最終的に、このエラー緩和手法の有効性は、所定のデバイスアーキテクチャの適切な実装の選択とサンプリング予算に依存することが分かりました。

Current noisy intermediate-scale quantum (NISQ) trapped-ion devices are subject to errors around 1% per gate for two-qubit gates. These errors significantly impact the accuracy of calculations if left unchecked. A form of error mitigation called Richardson extrapolation can reduce these errors without incurring a qubit overhead. We demonstrate and optimize this method on the Quantum Scientific Computing Open User Testbed (QSCOUT) trapped-ion device to solve an electronic structure problem. We explore different methods for integrating this error mitigation technique into the Variational Quantum Eigensolver (VQE) optimization algorithm for calculating the ground state of the HeH+ molecule at 0.8 Angstrom. We test two methods of scaling noise for extrapolation: time-stretching the two-qubit gates and inserting two-qubit gate identity operations into the ansatz circuit. We find the former fails to scale the noise on our particular hardware. Scaling our noise with global gate identity insertions and extrapolating only after a variational optimization routine, we achieve an absolute relative error of 0.363% +- 1.06 compared to the true ground state energy of HeH+. This corresponds to an absolute error of 0.01 +- 0.02 Hartree; outside chemical accuracy, but greatly improved over our non error mitigated estimate. We ultimately find that the efficacy of this error mitigation technique depends on choosing the right implementation for a given device architecture and sampling budget.
翻訳日:2023-07-17 15:39:26 公開日:2023-07-13
# 依存サブツリースワッピングによる機械翻訳のためのデータ拡張

Data Augmentation for Machine Translation via Dependency Subtree Swapping ( http://arxiv.org/abs/2307.07025v1 )

ライセンス: Link先を確認
Attila Nagy, Dorina Petra Lakatos, Botond Barta, Patrick Nanys, Judit \'Acs(参考訳) 本稿では,マシン翻訳に適用可能な依存サブツリースワップによるデータ拡張のための汎用フレームワークを提案する。 ソースとターゲット文の依存関係解析木から対応するサブツリーを抽出し、ビセントスに置換して拡張サンプルを作成する。 グラフに基づく依存木の類似性に基づく徹底的なフィルタリングを行い、抽出したサブツリーが同じ意味に一致することを保証する。 IWSLTテキスト翻訳データセットとHunglish2コーパスを用いて,両方向の4つの言語対に関する資源制約実験を行った。 その結果、4つの言語ペアのうち3つでベースラインモデルよりもBLEUスコアが一貫した改善を示した。 コードはgithubから入手できます。

We present a generic framework for data augmentation via dependency subtree swapping that is applicable to machine translation. We extract corresponding subtrees from the dependency parse trees of the source and target sentences and swap these across bisentences to create augmented samples. We perform thorough filtering based on graphbased similarities of the dependency trees and additional heuristics to ensure that extracted subtrees correspond to the same meaning. We conduct resource-constrained experiments on 4 language pairs in both directions using the IWSLT text translation datasets and the Hunglish2 corpus. The results demonstrate consistent improvements in BLEU score over our baseline models in 3 out of 4 language pairs. Our code is available on GitHub.
翻訳日:2023-07-17 15:39:02 公開日:2023-07-13
# オフ・ポリティ・アセスメントのための要因的行動空間の活用

Leveraging Factored Action Spaces for Off-Policy Evaluation ( http://arxiv.org/abs/2307.07014v1 )

ライセンス: Link先を確認
Aaman Rebello (1), Shengpu Tang (2), Jenna Wiens (2), Sonali Parbhoo (1) ((1) Department of Engineering, Imperial College London, (2) Division of Computer Science & Engineering, University of Michigan)(参考訳) オフ・ポリティ・アセスメント(OPE)は、実行されたシーケンスから収集されたデータに対して、反実的なアクション列に従う利点を推定することを目的としている。 しかしながら、既存のope推定器は、大きな組合せ作用空間を含む問題において高いバイアスと高い分散を示すことが多い。 より小さなアクション空間からの独立なサブアクションの組み合わせとして各アクションを表現して、この問題を緩和する方法を検討する。 このアプローチは、アクションの効果がどのように異なるかのよりきめ細かい分析を促進する。 本研究では,因子付き行動空間に基づく「分解」重要度サンプリング(is)推定器の新たなファミリーを提案する。 基礎となる問題構造に関する仮定を考えると、分解されたIS推定器は、ゼロバイアスの特性を保ちながら、元の非分解バージョンよりも分散が小さいことが証明される。 シミュレーションによって理論結果を実証し,様々な仮定の有効性を検証した。 与えられた問題に対する作用空間因子化を導出できる手法が与えられ、本研究は本質的な問題構造を利用してopeを「無償で」改善できることを示す。

Off-policy evaluation (OPE) aims to estimate the benefit of following a counterfactual sequence of actions, given data collected from executed sequences. However, existing OPE estimators often exhibit high bias and high variance in problems involving large, combinatorial action spaces. We investigate how to mitigate this issue using factored action spaces i.e. expressing each action as a combination of independent sub-actions from smaller action spaces. This approach facilitates a finer-grained analysis of how actions differ in their effects. In this work, we propose a new family of "decomposed" importance sampling (IS) estimators based on factored action spaces. Given certain assumptions on the underlying problem structure, we prove that the decomposed IS estimators have less variance than their original non-decomposed versions, while preserving the property of zero bias. Through simulations, we empirically verify our theoretical results, probing the validity of various assumptions. Provided with a technique that can derive the action space factorisation for a given problem, our work shows that OPE can be improved "for free" by utilising this inherent problem structure.
翻訳日:2023-07-17 15:38:51 公開日:2023-07-13
# 自己教師型深層学習を用いた定量的MRIにおけるリッチ度損失の検討

Rician likelihood loss for quantitative MRI using self-supervised deep learning ( http://arxiv.org/abs/2307.07072v1 )

ライセンス: Link先を確認
Christopher S. Parker, Anna Schroder, Sean C. Epstein, James Cole, Daniel C. Alexander, Hui Zhang(参考訳) 目的: 自己教師型ディープラーニングを用いた従来の定量的MR画像解析では, 低SNRでの偏差パラメータ推定が報告されている。 このような系統的誤りは、ネットワークトレーニングにおける平均二乗誤差(MSE)損失関数の選択から生じる。 この問題に対処するために,負のログリキアン度 (nlr) 損失を導入する。 方法: NLR損失の数値的, 高精度な実装は, 見かけ拡散係数(ADC)モデルとVIM(Intra-voxel incoherent Motion)モデルの定量的パラメータを推定するために開発された。 バイアス,分散,根平均二乗誤差の観点からパラメータ推定精度,精度,総誤差を評価し,snr(5~30)の範囲でのmse損失と比較した。 結果: NLR損失をトレーニングしたネットワークは,SNRが減少するにつれて, ADC および IVIM 拡散係数の MSE よりも高い推定精度を示し,精度の低下や総誤差が最小となる。 高効率SNR(高SNR, 拡散係数)では, 両モデルの全てのパラメータに対して, 両者の損失は同等の精度と精度を示す。 結論: 提案したNLR損失は, 試験されたSNRの全範囲にわたって数値的に安定かつ正確であり, 自己教師付き深層学習を用いて拡散係数のパラメータ推定精度を向上させる。 我々は,ノイズデータからより正確なパラメータ推定を可能にする定量的MRイメージング技術の普及を期待する。

Purpose: Previous quantitative MR imaging studies using self-supervised deep learning have reported biased parameter estimates at low SNR. Such systematic errors arise from the choice of Mean Squared Error (MSE) loss function for network training, which is incompatible with Rician-distributed MR magnitude signals. To address this issue, we introduce the negative log Rician likelihood (NLR) loss. Methods: A numerically stable and accurate implementation of the NLR loss was developed to estimate quantitative parameters of the apparent diffusion coefficient (ADC) model and intra-voxel incoherent motion (IVIM) model. Parameter estimation accuracy, precision and overall error were evaluated in terms of bias, variance and root mean squared error and compared against the MSE loss over a range of SNRs (5 - 30). Results: Networks trained with NLR loss show higher estimation accuracy than MSE for the ADC and IVIM diffusion coefficients as SNR decreases, with minimal loss of precision or total error. At high effective SNR (high SNR and small diffusion coefficients), both losses show comparable accuracy and precision for all parameters of both models. Conclusion: The proposed NLR loss is numerically stable and accurate across the full range of tested SNRs and improves parameter estimation accuracy of diffusion coefficients using self-supervised deep learning. We expect the development to benefit quantitative MR imaging techniques broadly, enabling more accurate parameter estimation from noisy data.
翻訳日:2023-07-17 15:32:36 公開日:2023-07-13
# 原子数に関する線形スケーリングを用いた量子コンピュータにおける密度汎関数理論の実装

Implementation of the Density-functional Theory on Quantum Computers with Linear Scaling with respect to the Number of Atoms ( http://arxiv.org/abs/2307.07067v1 )

ライセンス: Link先を確認
Taehee Ko and Xiantao Li and Chunhao Wang(参考訳) 密度汎関数理論(DFT)は化学と物質科学の計算機シミュレーションに革命をもたらした。 理論の忠実な実装には自己整合性計算が必要である。 しかし、この取り組みはハミルトニアンを繰り返し対角化することを含み、古典的アルゴリズムは通常電子の数に対して立方的にスケールする計算複雑性を必要とする。 これにより、複雑な化学環境やミクロ構造を持つ大規模問題へのDFTの適用性が制限される。 本稿では、電子の数よりもはるかに小さい原子数に対して線形スケーリングを持つ量子アルゴリズムを提案する。 我々のアルゴリズムは量子特異値変換(QSVT)を利用して密度行列を符号化する量子回路と出力電子密度を計算するための推定方法を生成する。 さらに, 計算に必要な電子密度の成分数を減少させることにより, 自己整合場計算を高速化するランダム化ブロック座標固定点法を提案する。 提案するフレームワークには,関数近似誤差,統計ゆらぎ,反復複雑性を定量化する厳密な誤差解析が伴っている。 特に、我々の自己整合反復の解析は、量子回路からの測定ノイズを考慮している。 これらの進歩は、大規模なDFT問題に取り組むための有望な道を提供し、以前は計算不可能だった複雑なシステムのシミュレーションを可能にする。

Density-functional theory (DFT) has revolutionized computer simulations in chemistry and material science. A faithful implementation of the theory requires self-consistent calculations. However, this effort involves repeatedly diagonalizing the Hamiltonian, for which a classical algorithm typically requires a computational complexity that scales cubically with respect to the number of electrons. This limits DFT's applicability to large-scale problems with complex chemical environments and microstructures. This article presents a quantum algorithm that has a linear scaling with respect to the number of atoms, which is much smaller than the number of electrons. Our algorithm leverages the quantum singular value transformation (QSVT) to generate a quantum circuit to encode the density-matrix, and an estimation method for computing the output electron density. In addition, we present a randomized block coordinate fixed-point method to accelerate the self-consistent field calculations by reducing the number of components of the electron density that needs to be estimated. The proposed framework is accompanied by a rigorous error analysis that quantifies the function approximation error, the statistical fluctuation, and the iteration complexity. In particular, the analysis of our self-consistent iterations takes into account the measurement noise from the quantum circuit. These advancements offer a promising avenue for tackling large-scale DFT problems, enabling simulations of complex systems that were previously computationally infeasible.
翻訳日:2023-07-17 15:32:09 公開日:2023-07-13
# トレーニングの証明(PoT):分散AIトレーニングのための暗号マイニングパワーのハーネス化

Proof of Training (PoT): Harnessing Crypto Mining Power for Distributed AI Training ( http://arxiv.org/abs/2307.07066v1 )

ライセンス: Link先を確認
Peihao Li(参考訳) 人工知能(AI)と暗号マイニングを統合する新たなトレンドの中で、これらの2つの分野の間にギャップを生じさせる3つの大きな課題を特定します。 このギャップを埋めるために、私たちは、AIとブロックチェーン技術の長所を組み合わせたアプローチである、トレーニング実証(PoT)プロトコルを導入しました。 PoTプロトコルは、実効的ビザンチンフォールトトレランス(PBFT)コンセンサス機構を利用して、グローバルステートを同期する。 プロトコル設計の性能を評価するため,PoTプロトコルを採用した分散トレーニングネットワーク(DTN)の実装を提案する。 以上の結果から,このプロトコルはタスクスループット,システムロバスト性,ネットワークセキュリティの面で大きな可能性を秘めている。

In the midst of the emerging trend of integrating artificial intelligence (AI) with crypto mining, we identify three major challenges that create a gap between these two fields. To bridge this gap, we introduce the proof-of-training (PoT) protocol, an approach that combines the strengths of both AI and blockchain technology. The PoT protocol utilizes the practical Byzantine fault tolerance (PBFT) consensus mechanism to synchronize global states. To evaluate the performance of the protocol design, we present an implementation of a decentralized training network (DTN) that adopts the PoT protocol. Our results indicate that the protocol exhibits considerable potential in terms of task throughput, system robustness, and network security.
翻訳日:2023-07-17 15:31:49 公開日:2023-07-13
# 分離言語事前学習によるブートストラップ型ビジョンランゲージ学習

Bootstrapping Vision-Language Learning with Decoupled Language Pre-training ( http://arxiv.org/abs/2307.07063v1 )

ライセンス: Link先を確認
Yiren Jian, Chongyang Gao, Soroush Vosoughi(参考訳) 本稿では,凍結型大言語モデル(llms)のリソース集約型視覚言語(vl)事前学習への応用を最適化する新しい手法を提案する。 現在のパラダイムでは、言語モデルをガイドするプロンプトとして視覚的特徴を使用し、対応するテキストに対して最も関連性の高い視覚的特徴を決定することに重点を置いている。 私たちのアプローチは、言語コンポーネントに集中することで、視覚的な特徴に合わせるのに最適なプロンプトを特定することで多様化します。 Prompt-Transformer (P-Former) は,これらの理想的なプロンプトを予測し,画像とテキストのペアリングの必要性を回避し,言語データのみを訓練するモデルである。 この戦略は、エンドツーエンドのVLトレーニングプロセスを、別段のステージに微妙に分岐させる。 実験の結果,本フレームワークはロバストな画像からテキストへのベースライン(blip-2)の性能を大幅に向上させ,4mまたは129mのイメージテキストペアでトレーニングされたモデル間のパフォーマンスギャップを効果的に狭めていることが明らかとなった。 重要な点として,本フレームワークはアーキテクチャ設計の観点からはモダリティ非依存かつ柔軟であり,多様なベースモジュールを用いたビデオ学習タスクにおいて,その成功例によって検証されている。 コードはhttps://github.com/yiren-jian/BLITextで入手できる。

We present a novel methodology aimed at optimizing the application of frozen large language models (LLMs) for resource-intensive vision-language (VL) pre-training. The current paradigm uses visual features as prompts to guide language models, with a focus on determining the most relevant visual features for corresponding text. Our approach diverges by concentrating on the language component, specifically identifying the optimal prompts to align with visual features. We introduce the Prompt-Transformer (P-Former), a model that predicts these ideal prompts, which is trained exclusively on linguistic data, bypassing the need for image-text pairings. This strategy subtly bifurcates the end-to-end VL training process into an additional, separate stage. Our experiments reveal that our framework significantly enhances the performance of a robust image-to-text baseline (BLIP-2), and effectively narrows the performance gap between models trained with either 4M or 129M image-text pairs. Importantly, our framework is modality-agnostic and flexible in terms of architectural design, as validated by its successful application in a video learning task using varied base modules. The code is available at https://github.com/yiren-jian/BLIText
翻訳日:2023-07-17 15:31:35 公開日:2023-07-13
# テキスト対音声のためのゼロデータによる制御可能な強調

Controllable Emphasis with zero data for text-to-speech ( http://arxiv.org/abs/2307.07062v1 )

ライセンス: Link先を確認
Arnaud Joly, Marco Nicolis, Ekaterina Peterova, Alessandro Lombardi, Ammar Abbas, Arent van Korlaar, Aman Hussain, Parul Sharma, Alexis Moinet, Mateusz Lajszczak, Penny Karanasou, Antonio Bonafonte, Thomas Drugman, Elena Sokolova(参考訳) 録音やアノテーションを必要としないテキスト音声(TTS)の高品質な強調表示を実現するためのスケーラブルな手法を提案する。 多くのTSモデルは音素持続時間モデルを含む。 強調音声を簡易かつ効果的に処理する方法は、強調単語の予測持続時間を増加させることである。 これは、自然性を改善するスペクトログラム修正技術よりも著しく優れていることを示し、また、強調された文の強調された単語の識別を、参照する女性音声に対して40\%$で訂正する。 この手法は明示的な記録を必要とする手法とのギャップを著しく埋めることを示す。 この方法はスケーラブルで、4つの言語(英語、スペイン語、イタリア語、ドイツ語)で異なる声と複数の話し方でテストされた。

We present a scalable method to produce high quality emphasis for text-to-speech (TTS) that does not require recordings or annotations. Many TTS models include a phoneme duration model. A simple but effective method to achieve emphasized speech consists in increasing the predicted duration of the emphasised word. We show that this is significantly better than spectrogram modification techniques improving naturalness by $7.3\%$ and correct testers' identification of the emphasized word in a sentence by $40\%$ on a reference female en-US voice. We show that this technique significantly closes the gap to methods that require explicit recordings. The method proved to be scalable and preferred in all four languages tested (English, Spanish, Italian, German), for different voices and multiple speaking styles.
翻訳日:2023-07-17 15:31:13 公開日:2023-07-13
# 非可換対象位相空間における開フェルミオン弦理論

Open fermionic string theory in a non commutative target phase-space ( http://arxiv.org/abs/2307.07060v1 )

ライセンス: Link先を確認
Mohamed Adib Abdelmoumene, Nadir BIelaloui(参考訳) 非可換な対象位相空間における開フェルミオン弦理論と、空間部分と運動量部分について検討する。 振動モードによる変換可換関係が導出される。 修正された超ビラソロ代数は、新しい異常項が現れるラモンド・シュワルツセクターとノイヴェウ・シュワルツセクターで得られる。 非可換性はローレンツ共分散に影響し、質量作用素は通常のフォック空間ではもはや対角的ではない。 フォック空間の再定義により、非可換パラメータ行列を対角化して対角化質量作用素を得る。 非可換性パラメータのいくつかの制限は、非可換性によるヴィラソロ・アルジャーブラ異常項を除去するために課せられ、同時に通常の質量スペクトルが得られる。 GSO射影は、時空超対称性が得られれば可能である。 非可換パラメータのゼロモードに対するさらなる制限が課され、ローレンツ共分散が復元される。

We investigate an open fermionic string theory in a non-commutative target phase space as well as for the space part and the momentum part. The modified commutation relations in terms of oscillating modes are derived. Modified super-Virasoro algebras are obtained in the Ramond and Neuveu-Schwarz sectors where new anomaly terms appears. The non-commutativity affect the Lorentz covariance and the mass operator is no more diagonal in the usual Fock space. A redefinition of the Fock space is proposed to diagonalize the non-commutativity parameters matrices to obtain a diagonalized mass operator. Some restrictions on the non commutativity parameters are imposed to eliminate the Virasoro algerbra anomaly terms due to the non-commutativity, where at the same time the usual mass spectrum is obtained. The GSO projection is now possible where a space time supersymmetry is obtained. More restrictions on the non-commutativity parameters zero modes are imposed and the Lorentz covariance is restored.
翻訳日:2023-07-17 15:31:00 公開日:2023-07-13
# 経路計画アルゴリズムを高速化する頂点ネットワーク

Vertex-based Networks to Accelerate Path Planning Algorithms ( http://arxiv.org/abs/2307.07059v1 )

ライセンス: Link先を確認
Yuanhang Zhang and Jundong Liu(参考訳) パスプランニングは、様々な自律アプリケーションにおいて重要な役割を担い、RT*はこの分野における主要なソリューションの1つです。 本稿では,RT*のサンプリングプロセスを強化するために,頂点ベースのネットワークの利用を提案し,より効率的な経路計画手法を提案する。 提案手法は最適経路に沿った批判的頂点に焦点をあて,経路の重要な抽象概念を提供する。 我々は、関連するデータ不均衡問題に対処するために焦点損失を採用し、システム性能の実際のトレードオフを決定するために異なるマスキング構成を探索する。 ランダムに生成したフロアマップで行った実験により,提案手法は,ベースラインモデルと比較して400%以上の高速化を実現した。

Path planning plays a crucial role in various autonomy applications, and RRT* is one of the leading solutions in this field. In this paper, we propose the utilization of vertex-based networks to enhance the sampling process of RRT*, leading to more efficient path planning. Our approach focuses on critical vertices along the optimal paths, which provide essential yet sparser abstractions of the paths. We employ focal loss to address the associated data imbalance issue, and explore different masking configurations to determine practical tradeoffs in system performance. Through experiments conducted on randomly generated floor maps, our solutions demonstrate significant speed improvements, achieving over a 400% enhancement compared to the baseline model.
翻訳日:2023-07-17 15:30:46 公開日:2023-07-13
# asrエンコーダを効果的かつ効率的な音声インテント分類とスロット充填に活用する

Leveraging Pretrained ASR Encoders for Effective and Efficient End-to-End Speech Intent Classification and Slot Filling ( http://arxiv.org/abs/2307.07057v1 )

ライセンス: Link先を確認
He Huang, Jagadeesh Balam and Boris Ginsburg(参考訳) 本研究では、音声認識(ASR)で事前訓練されたエンコーダを用いて、SLURPデータセット上の新しい最先端結果と82.27%のSLURP-F1を初期化することにより、音声意図分類とスロットフィリング(SICSF)について検討する。 我々は、自己教師付き学習(SSL)で事前訓練されたエンコーダと比較し、SICSFのSSLよりもASR事前学習の方がはるかに効果的であることを示す。 パラメータ効率を探索するためには、エンコーダを凍結し、Adapterモジュールを追加し、パラメータ効率がASR-pretrained encoderでのみ達成可能である一方、SSLエンコーダは同等の結果を得るために完全な微調整が必要であることを示す。 さらに, エンド・ツー・エンドモデルとカスケードモデル (ASR+NLU) を比較し, オラクルASRモデルを提供しない限り, E2Eモデルはカスケードモデルよりも優れていることを示す。 最後に、我々のモデルは、オラクルASRを用いたカスケーディングモデルと同じ性能を達成する最初のE2Eモデルである。 コード、チェックポイント、設定が利用可能だ。

We study speech intent classification and slot filling (SICSF) by proposing to use an encoder pretrained on speech recognition (ASR) to initialize an end-to-end (E2E) Conformer-Transformer model, which achieves the new state-of-the-art results on the SLURP dataset, with 90.14% intent accuracy and 82.27% SLURP-F1. We compare our model with encoders pretrained on self-supervised learning (SSL), and show that ASR pretraining is much more effective than SSL for SICSF. To explore parameter efficiency, we freeze the encoder and add Adapter modules, and show that parameter efficiency is only achievable with an ASR-pretrained encoder, while the SSL encoder needs full finetuning to achieve comparable results. In addition, we provide an in-depth comparison on end-to-end models versus cascading models (ASR+NLU), and show that E2E models are better than cascaded models unless an oracle ASR model is provided. Last but not least, our model is the first E2E model that achieves the same performance as cascading models with oracle ASR. Code, checkpoints and configs are available.
翻訳日:2023-07-17 15:30:34 公開日:2023-07-13
# 報酬指向条件拡散:提供可能な分布推定と報酬改善

Reward-Directed Conditional Diffusion: Provable Distribution Estimation and Reward Improvement ( http://arxiv.org/abs/2307.07055v1 )

ライセンス: Link先を確認
Hui Yuan, Kaixuan Huang, Chengzhuo Ni, Minshuo Chen, Mengdi Wang(参考訳) 条件拡散モデルを用いて報酬指向生成の方法論と理論を考察する。 Directed Generationは、生成AI、強化学習、計算生物学に広く応用されている報酬関数によって測定された望ましい特性を持つサンプルを生成することを目的としている。 我々は、データセットがラベルのないデータと、ノイズの多い報酬ラベルを持つ小さなデータセットから構成される一般的な学習シナリオを考察する。 提案手法では,学習した報酬関数を擬似ラベルとして小さいデータセットに活用する。 理論的な観点からは、この有向発電機は報奨条件データ分布から効果的に学習・サンプルできることを示す。 さらに、我々のモデルはデータの潜在部分空間表現を復元することができる。 さらに,提案モデルでは,目標報酬値に近づき,最適性ギャップが特徴部分空間におけるオフポリティ・バンディットの後悔と整合する新たな集団を生成することを確立する。 得られる報酬の改善は、報酬信号の強度と分布シフトとオフサポート補間コストとの相互作用に影響される。 我々は,我々の理論を検証し,外挿強度と生成試料の品質の関係を明らかにする実験結果を提供する。

We explore the methodology and theory of reward-directed generation via conditional diffusion models. Directed generation aims to generate samples with desired properties as measured by a reward function, which has broad applications in generative AI, reinforcement learning, and computational biology. We consider the common learning scenario where the data set consists of unlabeled data along with a smaller set of data with noisy reward labels. Our approach leverages a learned reward function on the smaller data set as a pseudolabeler. From a theoretical standpoint, we show that this directed generator can effectively learn and sample from the reward-conditioned data distribution. Additionally, our model is capable of recovering the latent subspace representation of data. Moreover, we establish that the model generates a new population that moves closer to a user-specified target reward value, where the optimality gap aligns with the off-policy bandit regret in the feature subspace. The improvement in rewards obtained is influenced by the interplay between the strength of the reward signal, the distribution shift, and the cost of off-support extrapolation. We provide empirical results to validate our theory and highlight the relationship between the strength of extrapolation and the quality of generated samples.
翻訳日:2023-07-17 15:30:07 公開日:2023-07-13
# 限られた文脈長を最大限に活用する:臨床ノートタイプとノートセクションによる予測的パワーバリア

Making the Most Out of the Limited Context Length: Predictive Power Varies with Clinical Note Type and Note Section ( http://arxiv.org/abs/2307.07051v1 )

ライセンス: Link先を確認
Hongyi Zheng, Yixin Zhu, Lavender Yao Jiang, Kyunghyun Cho, Eric Karl Oermann(参考訳) 最近の大規模言語モデルの進歩は、臨床ノートのフリーテキストを使用して、医療における自然言語処理への関心を再び高めている。 臨床ノートの特徴の1つは、複数の長い文書にまたがる長い期間である。 言語モデル予測器の文脈長が制限されている場合、臨床ノートのどの部分が入力として選択されるべきか? 既存の研究では、入力をドメイン知識で選択するか、単に切り捨てる。 予測力の高い区間を解析するための枠組みを提案する。 MIMIC-III を用いて、次のように示す。 1)看護ノートと退院ノートとでは予測電力分布が異なる。 2)異なるタイプのノートを組み合わせることで,コンテキスト長が大きい場合のパフォーマンスが向上する。 本研究は,慎重に選択したサンプリング機能により,臨床ノートからより効率的な情報抽出が可能であることが示唆された。

Recent advances in large language models have led to renewed interest in natural language processing in healthcare using the free text of clinical notes. One distinguishing characteristic of clinical notes is their long time span over multiple long documents. The unique structure of clinical notes creates a new design choice: when the context length for a language model predictor is limited, which part of clinical notes should we choose as the input? Existing studies either choose the inputs with domain knowledge or simply truncate them. We propose a framework to analyze the sections with high predictive power. Using MIMIC-III, we show that: 1) predictive power distribution is different between nursing notes and discharge notes and 2) combining different types of notes could improve performance when the context length is large. Our findings suggest that a carefully selected sampling function could enable more efficient information extraction from clinical notes.
翻訳日:2023-07-17 15:29:47 公開日:2023-07-13
# MaxCorrMGNN: アウトカム予測のための一般マルチモーダル医療データの融合のためのマルチグラフニューラルネットワークフレームワーク

MaxCorrMGNN: A Multi-Graph Neural Network Framework for Generalized Multimodal Fusion of Medical Data for Outcome Prediction ( http://arxiv.org/abs/2307.07093v1 )

ライセンス: Link先を確認
Niharika S. D'Souza, Hongzhi Wang, Andrea Giovannini, Antonio Foncubierta-Rodriguez, Kristen L. Beck, Orest Boyko, Tanveer Syeda-Mahmood(参考訳) マルチモーダル電子健康記録の出現により、結果の証拠は、臨床から画像、ゲノムデータまで、複数のモダリティにわたって捉えられる可能性がある。 結果を効果的に予測するには、患者内外のモダリティ特徴間の細粒度および多面的な複雑な相互作用をモデル化できる融合フレームワークが必要となる。 hirschfeld-gebelein-renyi maximal correlation (maxcorr) 埋め込みによる患者内および患者間の非線形モダリティ相関をモデル化するmaxcorr mgnnと呼ばれる革新的な融合手法を開発した。 次に,多層グラフにおけるタスクインフォームド推論のための汎用多層グラフニューラルネットワーク(mgnn)を初めて設計し,患者-モダリティグラフ接続とメッセージパッシングを定義するパラメータをエンドツーエンドで学習した。 我々は,結核(TB)データセットにおける結果予測タスクを,最先端のニューラルネットワーク,グラフベース,従来型の融合技術より一貫して優れていると評価した。

With the emergence of multimodal electronic health records, the evidence for an outcome may be captured across multiple modalities ranging from clinical to imaging and genomic data. Predicting outcomes effectively requires fusion frameworks capable of modeling fine-grained and multi-faceted complex interactions between modality features within and across patients. We develop an innovative fusion approach called MaxCorr MGNN that models non-linear modality correlations within and across patients through Hirschfeld-Gebelein-Renyi maximal correlation (MaxCorr) embeddings, resulting in a multi-layered graph that preserves the identities of the modalities and patients. We then design, for the first time, a generalized multi-layered graph neural network (MGNN) for task-informed reasoning in multi-layered graphs, that learns the parameters defining patient-modality graph connectivity and message passing in an end-to-end fashion. We evaluate our model an outcome prediction task on a Tuberculosis (TB) dataset consistently outperforming several state-of-the-art neural, graph-based and traditional fusion techniques.
翻訳日:2023-07-17 15:22:11 公開日:2023-07-13
# オフライン構成強化学習のためのロボットマニピュレーションデータセット

Robotic Manipulation Datasets for Offline Compositional Reinforcement Learning ( http://arxiv.org/abs/2307.07091v1 )

ライセンス: Link先を確認
Marcel Hussing, Jorge A. Mendez, Anisha Singrodia, Cassandra Kent, Eric Eaton(参考訳) オフライン強化学習(RL)は、RLエージェントが大規模なデータセットで事前トレーニングが可能で、高価なデータ収集の再発を避けるための有望な方向である。 この分野を進めるためには、大規模なデータセットを生成することが不可欠である。 合成RLはこのような大きなデータセットを生成するのに特に魅力的です。 1)少数のコンポーネントから多くのタスクを作成できる。 2 訓練員は、関連する学習要素を組み合わせることにより、新たな課題を解決することができる。 3) 構成次元はタスク関連性の概念を提供する。 本論文は,CompoSuite [Mendez et al., 2022a] の256タスクを用いたロボット操作シミュレーションのための4つのオフラインRLデータセットを提供する。 各データセットは、異なるレベルのパフォーマンスを持つエージェントから収集され、256万のトランジションで構成される。 エージェントが構成的タスクポリシーを学習する能力を評価するためのトレーニングおよび評価設定を提供する。 各設定におけるベンチマーク実験では,現在のオフラインrlメソッドがある程度のトレーニングタスクを学習でき,合成メソッドが非コンポジションメソッドを大幅に上回っていることが示された。 しかし、現在の手法では、未知のタスクに一般化するためにタスクの構成構造を抽出できないため、オフライン構成rlのさらなる研究が必要である。

Offline reinforcement learning (RL) is a promising direction that allows RL agents to pre-train on large datasets, avoiding the recurrence of expensive data collection. To advance the field, it is crucial to generate large-scale datasets. Compositional RL is particularly appealing for generating such large datasets, since 1) it permits creating many tasks from few components, 2) the task structure may enable trained agents to solve new tasks by combining relevant learned components, and 3) the compositional dimensions provide a notion of task relatedness. This paper provides four offline RL datasets for simulated robotic manipulation created using the 256 tasks from CompoSuite [Mendez et al., 2022a]. Each dataset is collected from an agent with a different degree of performance, and consists of 256 million transitions. We provide training and evaluation settings for assessing an agent's ability to learn compositional task policies. Our benchmarking experiments on each setting show that current offline RL methods can learn the training tasks to some extent and that compositional methods significantly outperform non-compositional methods. However, current methods are still unable to extract the tasks' compositional structure to generalize to unseen tasks, showing a need for further research in offline compositional RL.
翻訳日:2023-07-17 15:21:48 公開日:2023-07-13
# 選択モデルと置換不変性

Choice Models and Permutation Invariance ( http://arxiv.org/abs/2307.07090v1 )

ライセンス: Link先を確認
Amandeep Singh, Ye Liu, and Hema Yoganarasimhan(参考訳) 選択モデリングは、多くの経済学、オペレーション、マーケティング問題の核心にある。 本稿では,多種多様な選択モデルを包含する選択関数の基本的特徴付けを提案する。 ニューラルネットのような非パラメトリック推定器がそのような関数を容易に近似し、選択関数の非パラメトリック推定に内在する次元の呪いを克服できることを実証する。 提案する関数は、完全にデータ駆動方式で消費者の振る舞いを柔軟に捉え、従来のパラメトリックモデルより優れていることを示す。 需要設定はしばしば内在的特徴を示すので、内在的特徴に推定を組み込むようフレームワークを拡張します。 さらに,価格弾性などの興味のある対象に対して,信頼区間を妥当に構築するための形式的推論手順についても述べる。 最後に,S. Berry, Levinsohn, Pakes (1995) による実世界のデータセットを用いて, 推定器の実用性を評価する。 実験分析により,既存の文献で報告された観測結果と一致した,現実的かつ同等な自己および相互価格の弾性を推定できることを確認した。

Choice Modeling is at the core of many economics, operations, and marketing problems. In this paper, we propose a fundamental characterization of choice functions that encompasses a wide variety of extant choice models. We demonstrate how nonparametric estimators like neural nets can easily approximate such functionals and overcome the curse of dimensionality that is inherent in the non-parametric estimation of choice functions. We demonstrate through extensive simulations that our proposed functionals can flexibly capture underlying consumer behavior in a completely data-driven fashion and outperform traditional parametric models. As demand settings often exhibit endogenous features, we extend our framework to incorporate estimation under endogenous features. Further, we also describe a formal inference procedure to construct valid confidence intervals on objects of interest like price elasticity. Finally, to assess the practical applicability of our estimator, we utilize a real-world dataset from S. Berry, Levinsohn, and Pakes (1995). Our empirical analysis confirms that the estimator generates realistic and comparable own- and cross-price elasticities that are consistent with the observations reported in the existing literature.
翻訳日:2023-07-17 15:21:29 公開日:2023-07-13
# 収縮量子固有溶媒を用いたボソンの量子シミュレーション

Quantum Simulation of Bosons with the Contracted Quantum Eigensolver ( http://arxiv.org/abs/2307.07088v1 )

ライセンス: Link先を確認
Yuchen Wang, LeeAnn M. Sager-Smith and David A. Mazziotti(参考訳) 量子コンピュータは、古典的コンピュータよりもスケーリングの利点があるため、多体量子システムをシミュレートするための有望なツールである。 多数のフェルミオン系に多大な労力が費やされているが、ここでは縮約された量子固有解法(CQE)で絡み合った多ボソン系をシミュレートする。 量子ビット上のボゾン波動関数を符号化することにより、CQEを多ボソン系に一般化する。 CQEは、収縮したシュリンガー方程式の残差に比例するボソニック波動関数に対してコンパクトなアンザッツを提供する。 我々は、CQEをボソニック系に適用し、量子調和振動子を2対2次反発によって結合する。 このモデルは量子デバイス上の分子系の結合振動の研究に関係している。 その結果,分子振動などのボソニック過程のシミュレーションにおけるcqeのポテンシャル効率は,ノイズの存在下においても高い精度と収束性を示した。

Quantum computers are promising tools for simulating many-body quantum systems due to their potential scaling advantage over classical computers. While significant effort has been expended on many-fermion systems, here we simulate a model entangled many-boson system with the contracted quantum eigensolver (CQE). We generalize the CQE to many-boson systems by encoding the bosonic wavefunction on qubits. The CQE provides a compact ansatz for the bosonic wave function whose gradient is proportional to the residual of a contracted Schr\"odinger equation. We apply the CQE to a bosonic system, where $N$ quantum harmonic oscillators are coupled through a pairwise quadratic repulsion. The model is relevant to the study of coupled vibrations in molecular systems on quantum devices. Results demonstrate the potential efficiency of the CQE in simulating bosonic processes such as molecular vibrations with good accuracy and convergence even in the presence of noise.
翻訳日:2023-07-17 15:21:10 公開日:2023-07-13
# espaloma-0.3.0: タンパク質リガンド系のシミュレーションのための機械駆動分子力学力場

Espaloma-0.3.0: Machine-learned molecular mechanics force field for the simulation of protein-ligand systems and beyond ( http://arxiv.org/abs/2307.07085v1 )

ライセンス: Link先を確認
Kenichiro Takaba, Iv\'an Pulido, Mike Henry, Hugo MacDermott-Opeskin, John D. Chodera, Yuanqing Wang(参考訳) 分子力学(MM)力場 -- 単純な対数項と多項式項によって分子系のエネルギー景観を特徴づけるモデル -- は、伝統的に、人間の専門家による計算、柔軟性、拡張性の低い離散化学パラメータ割り当て規則、すなわち原子や原子価型に依存してきた。 近年、このプロセスを置き換えるためにグラフニューラルネットワークを使うことに大きな関心が寄せられ、量子化学計算や凝縮相データから直接、エンドツーエンドの微分可能な方法でパラメトリゼーションスキームを学習できるようになった。 本稿では, 量子化学データに直接適合するエネルギーと力の両方を訓練プロセスに組み込むことにより, エンドツーエンドの微分可能力場構築手法を拡張する。 OpenMM SPICEデータセットに基づいて、生体分子モデリングの幅広い関心と関連する化学空間を含むデータセットをキュレートし、小さな分子、タンパク質、RNAを網羅する。 結果として生じる力場 espaloma 0.3.0 は、これらの多様な生体分子種を自己持続的にパラメトリゼーションし、正確に量子化学エネルギーと力を予測する。 驚くべきことに、この単純なアプローチは、タンパク質とリガンドを自己持続的にパラメトリゼーションする際に、高度に正確なタンパク質-リガンド結合自由エネルギーを生み出す。 このアプローチは、新しい力場を1つのGPUデイで大きな量子化学データセットに適合させることができるが、新しい化学領域に容易に拡張可能な、体系的により正確な力場を構築するための道のりとして、非常に有望である。

Molecular mechanics (MM) force fields -- the models that characterize the energy landscape of molecular systems via simple pairwise and polynomial terms -- have traditionally relied on human expert-curated, inflexible, and poorly extensible discrete chemical parameter assignment rules, namely atom or valence types. Recently, there has been significant interest in using graph neural networks to replace this process, while enabling the parametrization scheme to be learned in an end-to-end differentiable manner directly from quantum chemical calculations or condensed-phase data. In this paper, we extend the Espaloma end-to-end differentiable force field construction approach by incorporating both energy and force fitting directly to quantum chemical data into the training process. Building on the OpenMM SPICE dataset, we curate a dataset containing chemical spaces highly relevant to the broad interest of biomolecular modeling, covering small molecules, proteins, and RNA. The resulting force field, espaloma 0.3.0, self-consistently parametrizes these diverse biomolecular species, accurately predicts quantum chemical energies and forces, and maintains stable quantum chemical energy-minimized geometries. Surprisingly, this simple approach produces highly accurate protein-ligand binding free energies when self-consistently parametrizing protein and ligand. This approach -- capable of fitting new force fields to large quantum chemical datasets in one GPU-day -- shows significant promise as a path forward for building systematically more accurate force fields that can be easily extended to new chemical domains of interest.
翻訳日:2023-07-17 15:20:52 公開日:2023-07-13
# Wasserstein変分推論としての安全な強化学習:解釈可能性のための形式的手法

Safe Reinforcement Learning as Wasserstein Variational Inference: Formal Methods for Interpretability ( http://arxiv.org/abs/2307.07084v1 )

ライセンス: Link先を確認
Yanran Wang, David Boyle(参考訳) 強化学習や最適制御は、可変ダイナミクスを伴う逐次的意思決定問題に対して効果的な推論を提供する。 しかし、実際の実施におけるこのような推論は、報酬機能と対応する最適方針を解釈する上で、永続的な課題となる。 したがって、逐次決定問題を推論として定式化することは、確率的推論が確率的力学を推論し、報酬設計と政策収束の確率論的解釈を示唆しながら、多種多様な強力な数学的ツールを提供するため、かなりの価値がある。 本研究では,逐次意思決定においてこれらの課題に取り組むための適応的ワッサースタイン変分最適化(awavo)を提案する。 本手法は,報酬設計の解釈,訓練収束の透明性,逐次決定の確率的解釈に形式的手法を用いる。 実用性を示すため,シミュレーションだけでなく,実際のロボットタスクにおいても,グローバル収束率を保証する収束訓練を行い,高い性能と保守的解釈性の間の合理的なトレードオフを実証的に検証した。

Reinforcement Learning or optimal control can provide effective reasoning for sequential decision-making problems with variable dynamics. Such reasoning in practical implementation, however, poses a persistent challenge in interpreting the reward function and corresponding optimal policy. Consequently, formalizing the sequential decision-making problems as inference has a considerable value, as probabilistic inference in principle offers diverse and powerful mathematical tools to infer the stochastic dynamics whilst suggesting a probabilistic interpretation of the reward design and policy convergence. In this study, we propose a novel Adaptive Wasserstein Variational Optimization (AWaVO) to tackle these challenges in sequential decision-making. Our approach utilizes formal methods to provide interpretations of reward design, transparency of training convergence, and probabilistic interpretation of sequential decisions. To demonstrate practicality, we show convergent training with guaranteed global convergence rates not only in simulation but also in real robot tasks, and empirically verify a reasonable tradeoff between high performance and conservative interpretability.
翻訳日:2023-07-17 15:20:19 公開日:2023-07-13
# DNN性能向上のためのシナリオベース機能テストアプローチ

A Scenario-Based Functional Testing Approach to Improving DNN Performance ( http://arxiv.org/abs/2307.07083v1 )

ライセンス: Link先を確認
Hong Zhu, Thi Minh Tam Tran, Aduen Benjumea and Andrew Bradley(参考訳) 本稿では,機械学習(ML)アプリケーションの性能向上のためのシナリオベース機能テスト手法を提案する。 提案手法は,さまざまなシナリオでmlモデルをテストして弱点領域を識別することから始まる反復的プロセスである。 続いて、疑わしいシナリオのさらなるテストを行い、診断を確認するためにシナリオのモデルの性能を統計的に評価する。 テスト結果により弱シナリオの診断が確認されると、元のモデルをベースとするトランスファー学習技術を用いてモデルの再トレーニングを行い、処理されたシナリオを対象とするトレーニングデータセットと、元の列車データセットからランダムに選択されたトレーニングデータのサブセットを適用して、いわゆる破滅的な忘れ防止を図る。 最後に、治療後、その治療が有効か、副作用が起こらないかを確認するための他のシナリオと同様に、治療シナリオのテストによってモデルを評価し、再度評価する。 本稿では,自律走行車の認識システムである実MLディープニューラルネットワーク(DNN)モデルを用いたケーススタディを報告する。 本手法は,dnnモデルの性能が向上できるという意味で有効であることを示す。 これは、スクラッチから再トレーニングするよりもずっと少ない人間と計算リソースでmlモデルのパフォーマンスを向上させる効率的な方法を提供する。

This paper proposes a scenario-based functional testing approach for enhancing the performance of machine learning (ML) applications. The proposed method is an iterative process that starts with testing the ML model on various scenarios to identify areas of weakness. It follows by a further testing on the suspected weak scenarios and statistically evaluate the model's performance on the scenarios to confirm the diagnosis. Once the diagnosis of weak scenarios is confirmed by test results, the treatment of the model is performed by retraining the model using a transfer learning technique with the original model as the base and applying a set of training data specifically targeting the treated scenarios plus a subset of training data selected at random from the original train dataset to prevent the so-call catastrophic forgetting effect. Finally, after the treatment, the model is assessed and evaluated again by testing on the treated scenarios as well as other scenarios to check if the treatment is effective and no side effect caused. The paper reports a case study with a real ML deep neural network (DNN) model, which is the perception system of an autonomous racing car. It is demonstrated that the method is effective in the sense that DNN model's performance can be improved. It provides an efficient method of enhancing ML model's performance with much less human and compute resource than retrain from scratch.
翻訳日:2023-07-17 15:20:00 公開日:2023-07-13
# カーネルt分散確率的隣接埋め込み

Kernel t-distributed stochastic neighbor embedding ( http://arxiv.org/abs/2307.07081v1 )

ライセンス: Link先を確認
Denis C. Ilie-Ablachim, Bogdan Dumitrescu, Cristian Rusu(参考訳) 本稿では,高次元データを低次元空間にマッピングし,非ユークリッド計量におけるデータポイント間の対距離を保ちながら,T-SNEアルゴリズムのカーネル化バージョンを提案する。 これは、高次元空間または両方の空間でのみカーネルトリックを使用して達成でき、エンドツーエンドのカーネル化バージョンに繋がる。 提案したカーネルバージョンのt-SNEアルゴリズムは、カーネルメソッドを含む分類問題など、特定のアプリケーションの性能と精度を向上させるため、データポイント間の関係に関する新たなビューを提供することができる。 t-SNEとカーネル化されたバージョンの違いは、いくつかのデータセットで示され、異なるクラスに属するポイントのより正確なクラスタリングを示している。

This paper presents a kernelized version of the t-SNE algorithm, capable of mapping high-dimensional data to a low-dimensional space while preserving the pairwise distances between the data points in a non-Euclidean metric. This can be achieved using a kernel trick only in the high dimensional space or in both spaces, leading to an end-to-end kernelized version. The proposed kernelized version of the t-SNE algorithm can offer new views on the relationships between data points, which can improve performance and accuracy in particular applications, such as classification problems involving kernel methods. The differences between t-SNE and its kernelized version are illustrated for several datasets, showing a neater clustering of points belonging to different classes.
翻訳日:2023-07-17 15:19:36 公開日:2023-07-13
# 仮想音声アシスタントにおける対話修復の分析

An Analysis of Dialogue Repair in Virtual Voice Assistants ( http://arxiv.org/abs/2307.07076v1 )

ライセンス: Link先を確認
Matthew Carson Galbraith and Mireia G\'omez i Mart\'inez(参考訳) 言語話者は、言葉によるコミュニケーションの間に生じる基本的な切断を和らげるために、修理開始者として知られるものを使うことが多い。 この分野でのこれまでの研究は、主に修理開始者の人間と人間の使用に焦点を当ててきた。 我々は,対話開始者が人間であり,修復に反応する相手が仮想アシスタントである対話修復構造の検討を提案した。 本研究は、英語とスペイン語の両方で、google assistantとappleのsiriという2つの人気のあるアシスタントによる修理開始器の使用を調査した。 本研究の目的は,人間の対話に対する音声アシスタントの反応と,補修が必要な対話との差異を体系化することであった。 最終的には、人間と人間の対話の修復戦略には違いがあるだけでなく、アシスタントと研究対象言語の間にも同様に違いがあることが示されている。

Language speakers often use what are known as repair initiators to mend fundamental disconnects that occur between them during verbal communication. Previous research in this field has mainly focused on the human-to-human use of repair initiator. We proposed an examination of dialogue repair structure wherein the dialogue initiator is human and the party that initiates or responds to the repair is a virtual assistant. This study examined the use of repair initiators in both English and Spanish with two popular assistants, Google Assistant and Apple's Siri. Our aim was to codify the differences, if any, in responses by voice assistants to dialogues in need of repair as compared to human-human dialogues also in need of repair. Ultimately the data demonstrated that not only were there differences between human-assistant and human-human dialogue repair strategies, but that there were likewise differences among the assistants and the languages studied.
翻訳日:2023-07-17 15:19:22 公開日:2023-07-13
# インクリメンタルスパンプログラムに基づくアルゴリズムと量子トポロジカルデータ解析のファインプリント

An Incremental Span-Program-Based Algorithm and the Fine Print of Quantum Topological Data Analysis ( http://arxiv.org/abs/2307.07073v1 )

ライセンス: Link先を確認
Mitchell Black and William Maxwell and Amir Nayyeri(参考訳) 単純複素数のベッチ数を計算するための新しい量子アルゴリズムを提案する。 組合せラプラシアンの固有値を推定して動作する従来の量子アルゴリズムとは対照的に、我々のアルゴリズムは、単純複素数に漸進的に単純化を加えてサイクルを生成するベッチ数に対する一般的なインクリメンタルアルゴリズムの例である。 ベッチ数を計算する既存の量子アルゴリズムとは対照的に、コンプレックスが単純数の最大値に近い場合、このアルゴリズムはスパースコンプレックスに対して最適に働く。 シンプレックスがサイクルを生成するかどうかをテストするため、量子スパンプログラムアルゴリズムを導入する。 その結果,spanプログラムのクエリの複雑さは, simplex の境界の有効抵抗と有効容量と呼ばれる量によってパラメータ化されることがわかった。 残念なことに、有効抵抗と容量の上限は上限と下限であり、どちらの量も複素数の大きさに対して指数関数的に大きいことが示され、我々のアルゴリズムはベッティ数を正確に計算するために指数関数的に時間を要することを意味する。 しかし、これらの境界の系として、組合せラプラシアンのスペクトルギャップが指数関数的に小さくなることを示す。 ベッチ数を計算するための全ての以前の量子アルゴリズムのランタイムはスペクトルギャップの逆によってパラメータ化されるので、我々の境界はベッチ数を計算するすべての量子アルゴリズムは、ベッチ数を正確に計算するために指数関数的に長く走らなければならないことを示している。 最後に,これらの量に対して直観を与えるための有効抵抗と有効容量のための新しい式をいくつか証明する。

We introduce a new quantum algorithm for computing the Betti numbers of a simplicial complex. In contrast to previous quantum algorithms that work by estimating the eigenvalues of the combinatorial Laplacian, our algorithm is an instance of the generic Incremental Algorithm for computing Betti numbers that incrementally adds simplices to the simplicial complex and tests whether or not they create a cycle. In contrast to existing quantum algorithms for computing Betti numbers that work best when the complex has close to the maximal number of simplices, our algorithm works best for sparse complexes. To test whether a simplex creates a cycle, we introduce a quantum span-program algorithm. We show that the query complexity of our span program is parameterized by quantities called the effective resistance and effective capacitance of the boundary of the simplex. Unfortunately, we also prove upper and lower bounds on the effective resistance and capacitance, showing both quantities can be exponentially large with respect to the size of the complex, implying that our algorithm would have to run for exponential time to exactly compute Betti numbers. However, as a corollary to these bounds, we show that the spectral gap of the combinatorial Laplacian can be exponentially small. As the runtime of all previous quantum algorithms for computing Betti numbers are parameterized by the inverse of the spectral gap, our bounds show that all quantum algorithms for computing Betti numbers must run for exponentially long to exactly compute Betti numbers. Finally, we prove some novel formulas for effective resistance and effective capacitance to give intuition for these quantities.
翻訳日:2023-07-17 15:19:09 公開日:2023-07-13
# AIにおける命令正則化は最適化における近似の一般化された硬度を満たす -- 対角線ネットワークに対するシャープ結果

Implicit regularization in AI meets generalized hardness of approximation in optimization -- Sharp results for diagonal linear networks ( http://arxiv.org/abs/2307.07410v1 )

ライセンス: Link先を確認
Johan S. Wind, Vegard Antun, Anders C. Hansen(参考訳) ニューラルネットワークアーキテクチャと勾配に基づく最適化手法によって課される暗黙の規則化を理解することは、ディープラーニングとAIの重要な課題である。 本研究は, 直交線形ネットワーク(DLN)の過パラメータ回帰設定における勾配流による暗黙的正則化について, 急激な結果を与えるとともに, 近似の一般化硬度(GHA)における位相遷移現象と関連付ける。 GHAは、コンピュータ科学から連続的かつ堅牢な最適化まで、近似の硬さの現象を一般化する。 小さな初期化を持つDLNの勾配流の$\ell^1$-normが基底探索の目的関数に収束することが知られている。 これらの結果から,初期化が小さいdlnの勾配流は基底追従最適化問題(目的関数のみとは対照的に)の最小化を近似し,初期化サイズを新たに鋭い収束境界 w.r.t. を得る。 我々の結果の非シャープ性は、基礎探索最適化問題(矛盾である)に対してGHA現象が起こらないことを示唆し、鋭さを示唆する。 さらに、基本追従問題の最小値である$\textit{who}$$\ell_1$ minimumr を、最小値が一意でないときは常に勾配フローによって選択する。 興味深いことに、これはDLNの深さに依存する。

Understanding the implicit regularization imposed by neural network architectures and gradient based optimization methods is a key challenge in deep learning and AI. In this work we provide sharp results for the implicit regularization imposed by the gradient flow of Diagonal Linear Networks (DLNs) in the over-parameterized regression setting and, potentially surprisingly, link this to the phenomenon of phase transitions in generalized hardness of approximation (GHA). GHA generalizes the phenomenon of hardness of approximation from computer science to, among others, continuous and robust optimization. It is well-known that the $\ell^1$-norm of the gradient flow of DLNs with tiny initialization converges to the objective function of basis pursuit. We improve upon these results by showing that the gradient flow of DLNs with tiny initialization approximates minimizers of the basis pursuit optimization problem (as opposed to just the objective function), and we obtain new and sharp convergence bounds w.r.t.\ the initialization size. Non-sharpness of our results would imply that the GHA phenomenon would not occur for the basis pursuit optimization problem -- which is a contradiction -- thus implying sharpness. Moreover, we characterize $\textit{which}$ $\ell_1$ minimizer of the basis pursuit problem is chosen by the gradient flow whenever the minimizer is not unique. Interestingly, this depends on the depth of the DLN.
翻訳日:2023-07-17 13:35:33 公開日:2023-07-13
# 音響ギターにおける実時間パーカッシブ技術認識と埋め込み学習

Real-time Percussive Technique Recognition and Embedding Learning for the Acoustic Guitar ( http://arxiv.org/abs/2307.07426v1 )

ライセンス: Link先を確認
Andrea Martelloni, Andrew P McPherson, Mathieu Barthet(参考訳) リアルタイム音楽情報検索(RT-MIR)は,従来の音響機器の能力を高める可能性が大きい。 我々は,アコースティックギターとギターボディパーカッションをブレンドしたパーカッシブフィンガースタイル強化を目的としたrt-mir技術を開発した。 拡張楽器演奏のためのRT-MIRシステムの設計目的を定式化する。 (i)因果制約、 (ii)知覚的に無視可能な動作音遅延 (iii)親密性支援の取締り (4)合成制御支援 本稿では,畳み込みニューラルネットワーク(CNN)とCNNを併用し,変動オートエンコーダ(VAE)を併用したリアルタイムギターボディパーカッション認識および埋め込み学習手法を提案する。 手の部分と位置に基づくギターボディパーカッションの分類について紹介する。 我々は,分類に従ってラベルづけされた3つのデータセットを収集し,データセット間評価手法に従う。 モデルの埋め込み品質は、異なる分類クラスに対応する分布にわたるKL-Divergenceを用いて評価される。 その結果, ネットワークは, 単純化された2クラス認識タスクにおいて強い分類器であることが示唆され, VAEは分布間のKL-Divergenceの増加によって証明されるように, CNNに比べてクラス分離が改善された。 VAEの埋め込み品質は、潜在空間のパラメータを用いて外部合成エンジンを制御する場合、制御親和性とリッチな相互作用を支援することができる。 異なるデータセットへの一般化に関するさらなる設計上の課題が特定されている。

Real-time music information retrieval (RT-MIR) has much potential to augment the capabilities of traditional acoustic instruments. We develop RT-MIR techniques aimed at augmenting percussive fingerstyle, which blends acoustic guitar playing with guitar body percussion. We formulate several design objectives for RT-MIR systems for augmented instrument performance: (i) causal constraint, (ii) perceptually negligible action-to-sound latency, (iii) control intimacy support, (iv) synthesis control support. We present and evaluate real-time guitar body percussion recognition and embedding learning techniques based on convolutional neural networks (CNNs) and CNNs jointly trained with variational autoencoders (VAEs). We introduce a taxonomy of guitar body percussion based on hand part and location. We follow a cross-dataset evaluation approach by collecting three datasets labelled according to the taxonomy. The embedding quality of the models is assessed using KL-Divergence across distributions corresponding to different taxonomic classes. Results indicate that the networks are strong classifiers especially in a simplified 2-class recognition task, and the VAEs yield improved class separation compared to CNNs as evidenced by increased KL-Divergence across distributions. We argue that the VAE embedding quality could support control intimacy and rich interaction when the latent space's parameters are used to control an external synthesis engine. Further design challenges around generalisation to different datasets have been identified.
翻訳日:2023-07-17 13:22:22 公開日:2023-07-13
# AutoHint: Hint生成による自動プロンプト最適化

AutoHint: Automatic Prompt Optimization with Hint Generation ( http://arxiv.org/abs/2307.07415v1 )

ライセンス: Link先を確認
Hong Sun, Xue Li, Yinchuan Xu, Youkow Homma, Qi Cao, Min Wu, Jian Jiao, Denis Charles(参考訳) 本稿では,大規模言語モデル(LLM)の自動プロンプトエンジニアリングと最適化のための新しいフレームワークであるAutoHintを提案する。 llmは、様々なタスクで高品質なアノテーションを実現する素晴らしい能力を示しているが、特定のタスクにこの能力を適用する鍵は、高品質なプロンプトを開発することである。 そこで本研究では,インプット・アウトプット・デモから得られた拡張した指示を組み込むことで,文脈内学習とゼロショット学習の両方のメリットを継承し,プロンプトを最適化する枠組みを提案する。 我々は、エンリッチメントをヒントとして参照し、ラベル付きデータから自動的にヒントを生成するフレームワークを提案する。 より具体的には、最初のプロンプトから始めて、提案手法はまず、不正な予測から選択したサンプルに対する新しいヒントを導出するようにLCMに指示し、次にサンプルごとのヒントから要約し、その結果を初期プロンプトに付加して、新しいリッチな命令を生成する。 提案手法は, ゼロショットプロンプトと少数ショートプロンプトの両方に対して, BIG-Benchインストラクション・インストラクション・インジェクション・インジェクション・データセットを用いて評価し, 実験により複数のタスクの精度を大幅に向上させることができることを示した。

This paper presents AutoHint, a novel framework for automatic prompt engineering and optimization for Large Language Models (LLM). While LLMs have demonstrated remarkable ability in achieving high-quality annotation in various tasks, the key to applying this ability to specific tasks lies in developing high-quality prompts. Thus we propose a framework to inherit the merits of both in-context learning and zero-shot learning by incorporating enriched instructions derived from input-output demonstrations to optimize original prompt. We refer to the enrichment as the hint and propose a framework to automatically generate the hint from labeled data. More concretely, starting from an initial prompt, our method first instructs a LLM to deduce new hints for selected samples from incorrect predictions, and then summarizes from per-sample hints and adds the results back to the initial prompt to form a new, enriched instruction. The proposed method is evaluated on the BIG-Bench Instruction Induction dataset for both zero-shot and few-short prompts, where experiments demonstrate our method is able to significantly boost accuracy for multiple tasks.
翻訳日:2023-07-17 13:21:18 公開日:2023-07-13
# 動的車両派遣問題に対する深部強化学習:イベントベースアプローチ

Deep reinforcement learning for the dynamic vehicle dispatching problem: An event-based approach ( http://arxiv.org/abs/2307.07508v1 )

ライセンス: Link先を確認
Edyvalberty Alenquer Cordeiro, Anselmo Ramalho Pitombeira-Neto(参考訳) 動的車両派遣問題は、時間と空間とともに確率的に発生する要求にどの車両を割り当てるかを決定することに対応する。 輸送用トラックの積み荷の割り当て、緊急システム、配車サービスなど、様々な地域で出現する。 本稿では,この問題を半マルコフ決定プロセスとしてモデル化し,連続的な時間処理を可能にする。 この設定では、決定エポックは時間間隔がランダムである離散イベントと一致する。 イベントベースのアプローチは、決定空間の組合せ複雑性を大幅に減らし、文献でしばしば提案される離散時間モデルの他の制限を克服する。 このアプローチをテストするために,我々は新しい離散イベントシミュレータを開発し,ダブルディープq学習を用いて決定エージェントを訓練する。 ニューヨーク市のデータを用いて現実的なシナリオで数値実験を行う。 我々のアプローチで得られた政策と、実際によく使われるヒューリスティックな政策を比較します。 その結果, 平均待ち時間, キャンセル率, サービス時間の合計は, 他のテスト済みヒューリスティック・ポリシーと比較して50%程度減少していることがわかった。

The dynamic vehicle dispatching problem corresponds to deciding which vehicles to assign to requests that arise stochastically over time and space. It emerges in diverse areas, such as in the assignment of trucks to loads to be transported; in emergency systems; and in ride-hailing services. In this paper, we model the problem as a semi-Markov decision process, which allows us to treat time as continuous. In this setting, decision epochs coincide with discrete events whose time intervals are random. We argue that an event-based approach substantially reduces the combinatorial complexity of the decision space and overcomes other limitations of discrete-time models often proposed in the literature. In order to test our approach, we develop a new discrete-event simulator and use double deep q-learning to train our decision agents. Numerical experiments are carried out in realistic scenarios using data from New York City. We compare the policies obtained through our approach with heuristic policies often used in practice. Results show that our policies exhibit better average waiting times, cancellation rates and total service times, with reduction in average waiting times of up to 50% relative to the other tested heuristic policies.
翻訳日:2023-07-17 13:04:21 公開日:2023-07-13
# ソフトインターベンションからの因果解離に対する識別可能性保証

Identifiability Guarantees for Causal Disentanglement from Soft Interventions ( http://arxiv.org/abs/2307.06250v2 )

ライセンス: Link先を確認
Jiaqi Zhang, Chandler Squires, Kristjan Greenewald, Akash Srivastava, Karthikeyan Shanmugam, Caroline Uhler(参考訳) 因果解離は因果モデルを通して相互に関係する潜伏変数を用いてデータの表現を明らかにすることを目的としている。 このような表現は、データを説明する潜在モデルが一意であれば識別できる。 本稿では,各介入が潜在変数のメカニズムを変化させることにより,非ペア型観察データや介入データが得られるシナリオに焦点を当てる。 因果変数が完全に観測されると、忠実性の仮定の下で因果モデルを特定するために統計的に一貫したアルゴリズムが開発された。 ここでは、信頼という一般化された概念を考えると、未観測の因果変数で識別性は依然として達成可能であることを示す。 この結果から,潜在因果関係モデルを等価クラスまで復元し,無限データに制限された干渉の見当たらない組み合わせの効果を予測できることを確認した。 本研究では,自動符号化変分ベイズアルゴリズムを開発し,ゲノム学における組合せ摂動効果の予測問題に適用する。

Causal disentanglement aims to uncover a representation of data using latent variables that are interrelated through a causal model. Such a representation is identifiable if the latent model that explains the data is unique. In this paper, we focus on the scenario where unpaired observational and interventional data are available, with each intervention changing the mechanism of a latent variable. When the causal variables are fully observed, statistically consistent algorithms have been developed to identify the causal model under faithfulness assumptions. We here show that identifiability can still be achieved with unobserved causal variables, given a generalized notion of faithfulness. Our results guarantee that we can recover the latent causal model up to an equivalence class and predict the effect of unseen combinations of interventions, in the limit of infinite data. We implement our causal disentanglement framework by developing an autoencoding variational Bayes algorithm and apply it to the problem of predicting combinatorial perturbation effects in genomics.
翻訳日:2023-07-17 11:19:34 公開日:2023-07-13
# グラフの局所固有次元度測定とグラフ埋め込みへの応用

Local Intrinsic Dimensionality Measures for Graphs, with Applications to Graph Embeddings ( http://arxiv.org/abs/2208.11986v2 )

ライセンス: Link先を確認
Milo\v{s} Savi\'c, Vladimir Kurbalija, Milo\v{s} Radovanovi\'c(参考訳) 局所内在的次元性(LID)の概念は、データマイニング、機械学習、類似性探索問題に応用されたデータ次元解析における重要な進歩である。 既存の距離に基づくLID推定器はユークリッド空間のベクトルとして表されるデータポイントを含む表付きデータセットのために設計された。 グラフ埋め込みとグラフ距離を考慮したグラフ構造データに対する限界を議論した後,ノードの自然群落に対する最短経路距離の識別力の定量化のための新しいlid法であるnc-lidを提案する。 NC-LID値に応じて調整されたパーソナライズされたハイパーパラメータを持つノード2ベックの2つのLID弾性変種を定式化することにより、LID対応グラフ埋め込みアルゴリズムを設計するのにこの手法をどのように利用できるかを示す。 実世界の多数のグラフ上でのNC-LIDの実証分析により,ノード中心性測定値よりも優れたノード2vec埋め込みにおいて,高いリンク再構成誤差を持つノードを指し示すことができることを示した。 また,提案したLID-elastic node2vec拡張は,生成した埋め込みにおけるグラフ構造をよりよく保存することによりノード2vecを改善することを示す。

The notion of local intrinsic dimensionality (LID) is an important advancement in data dimensionality analysis, with applications in data mining, machine learning and similarity search problems. Existing distance-based LID estimators were designed for tabular datasets encompassing data points represented as vectors in a Euclidean space. After discussing their limitations for graph-structured data considering graph embeddings and graph distances, we propose NC-LID, a novel LID-related measure for quantifying the discriminatory power of the shortest-path distance with respect to natural communities of nodes as their intrinsic localities. It is shown how this measure can be used to design LID-aware graph embedding algorithms by formulating two LID-elastic variants of node2vec with personalized hyperparameters that are adjusted according to NC-LID values. Our empirical analysis of NC-LID on a large number of real-world graphs shows that this measure is able to point to nodes with high link reconstruction errors in node2vec embeddings better than node centrality metrics. The experimental evaluation also shows that the proposed LID-elastic node2vec extensions improve node2vec by better preserving graph structure in generated embeddings.
翻訳日:2023-07-14 20:07:24 公開日:2023-07-13
# 最も平等な投票規則

Most Equitable Voting Rules ( http://arxiv.org/abs/2205.14838v3 )

ライセンス: Link先を確認
Lirong Xia(参考訳) 社会的選択理論では、匿名性(全てのエージェントが平等に扱われる)と中立性(全ての選択肢が平等に扱われる)は「最小限の要求」と「非論争的」の公理として広く見なされている。 しかし、ANRの不合理性 -- 匿名性、中立性、解決可能性(常に1つの勝者を選ぶ)を満たす投票規則は存在しない -- は、2つの選択肢と2つのエージェントの単純な設定でさえ維持されている。 匿名性、中立性、解決可能性を最適に満たす投票規則をどう設計するかは、未解決の問題である。 我々は、ランキングや委員会を含む幅広い選好や決定に対して最適な設計問題に対処する。 我々の概念的貢献は、二つの公理を満たすいかなる不完全規則に対しても匿名性と中立性を最適に保持する最も公平な改良の、新で強い概念である。 私たちの技術貢献は2倍です。 まず, エージェント数が多い場合には, 一般的な設定で保持できないという条件を特徴付ける。 第2に, エージェントの選好が完全ランキングである場合に, 多項式時間アルゴリズムを設計し, 最適精細度を求めるMFPマッチングを提案する。

In social choice theory, anonymity (all agents being treated equally) and neutrality (all alternatives being treated equally) are widely regarded as ``minimal demands'' and ``uncontroversial'' axioms of equity and fairness. However, the ANR impossibility -- there is no voting rule that satisfies anonymity, neutrality, and resolvability (always choosing one winner) -- holds even in the simple setting of two alternatives and two agents. How to design voting rules that optimally satisfy anonymity, neutrality, and resolvability remains an open question. We address the optimal design question for a wide range of preferences and decisions that include ranked lists and committees. Our conceptual contribution is a novel and strong notion of most equitable refinements that optimally preserves anonymity and neutrality for any irresolute rule that satisfies the two axioms. Our technical contributions are twofold. First, we characterize the conditions for the ANR impossibility to hold under general settings, especially when the number of agents is large. Second, we propose the most-favorable-permutation (MFP) tie-breaking to compute a most equitable refinement and design a polynomial-time algorithm to compute MFP when agents' preferences are full rankings.
翻訳日:2023-07-14 20:07:04 公開日:2023-07-13
# 高度制約環境下での不動二足歩行ロボットの自律走行

Autonomous Navigation of Underactuated Bipedal Robots in Height-Constrained Environments ( http://arxiv.org/abs/2109.05714v4 )

ライセンス: Link先を確認
Zhongyu Li, Jun Zeng, Shuxiao Chen, Koushil Sreenath(参考訳) 大型ロボットを未知の高さ制限された環境で移動させることは困難である。 障害物を回避するための高速で信頼性の高い計画アルゴリズムであるだけでなく、ロボットは高度制約のある地域を移動するためにしゃがみ込んで本質的な寸法を変えることもできる。 このような課題を処理できる移動ロボットはごくわずかであり、二足歩行ロボットは解決策を提供する。 しかし、二足歩行ロボットは非線形・ハイブリッドのダイナミクスを持つため、ダイナミックな実現性と安全性を確保しつつ軌道計画を行うのは難しい。 本稿では,2足歩行ロボットが高度に制約のある環境を安全に探索できるように,3層のプランナーと可変歩行高さコントローラを活用したエンドツーエンド自律ナビゲーションフレームワークを提案する。 ロボットの平面歩行と垂直歩行高の結合ダイナミクスを捉えるために,垂直動作バネ装荷逆振り子(vslip)モデルを導入した。 この縮小順序モデルは、長期および短期の安全な軌道計画の最適化に利用される。 可変歩行高さ制御装置を利用して、2足歩行ロボットは、計画された軌道に沿って安定した周期歩行歩行を維持できる。 フレームワーク全体をテストし、二足歩行ロボットCassieを使って実験的に検証する。 これは、様々な高さ制約された環境でゴール位置まで歩きながら障害物を安全に回避するためにロボットを駆動する信頼できる自律性を示す。

Navigating a large-scaled robot in unknown and cluttered height-constrained environments is challenging. Not only is a fast and reliable planning algorithm required to go around obstacles, the robot should also be able to change its intrinsic dimension by crouching in order to travel underneath height-constrained regions. There are few mobile robots that are capable of handling such a challenge, and bipedal robots provide a solution. However, as bipedal robots have nonlinear and hybrid dynamics, trajectory planning while ensuring dynamic feasibility and safety on these robots is challenging. This paper presents an end-to-end autonomous navigation framework which leverages three layers of planners and a variable walking height controller to enable bipedal robots to safely explore height-constrained environments. A vertically-actuated Spring-Loaded Inverted Pendulum (vSLIP) model is introduced to capture the robot's coupled dynamics of planar walking and vertical walking height. This reduced-order model is utilized to optimize for long-term and short-term safe trajectory plans. A variable walking height controller is leveraged to enable the bipedal robot to maintain stable periodic walking gaits while following the planned trajectory. The entire framework is tested and experimentally validated using a bipedal robot Cassie. This demonstrates reliable autonomy to drive the robot to safely avoid obstacles while walking to the goal location in various kinds of height-constrained cluttered environments.
翻訳日:2023-07-14 20:06:26 公開日:2023-07-13
# 磁気ポテンシャルと境界条件によるグラフ状多様体上の量子制御性

Quantum controllability on graph-like manifolds through magnetic potentials and boundary conditions ( http://arxiv.org/abs/2108.00495v4 )

ライセンス: Link先を確認
Aitor Balmaseda, Davide Lonigro, Juan Manuel P\'erez-Pardo(参考訳) 無限次元量子系の可制御性について検討する: 厚み量子グラフに閉じ込められた量子粒子、エッジが準=$\delta$境界条件を持つ任意の次元の多様体であることが許される量子グラフの一般化。 これはグラフ構造と互換性のある特別な自己随伴境界条件である。 我々は, 境界条件を制御として使用するか, 時間依存磁場を用いて, 物理的に異なる2つのプロトコルを用いて大域的近似制御が可能であることを証明した。 どちらの場合もハミルトニアンの時間依存領域を持つ。

We investigate the controllability of an infinite-dimensional quantum system: a quantum particle confined on a Thick Quantum Graph, a generalisation of Quantum Graphs whose edges are allowed to be manifolds of arbitrary dimension with quasi-$\delta$ boundary conditions. This is a particular class of self-adjoint boundary conditions compatible with the graph structure. We prove that global approximate controllability can be achieved using two physically distinct protocols: either using the boundary conditions as controls, or using time-dependent magnetic fields. Both cases have time-dependent domains for the Hamiltonians.
翻訳日:2023-07-14 20:06:04 公開日:2023-07-13
# 2次元ディラック結晶の高次電子-フォノン相互作用と熱的性質への影響

Higher-order electron-phonon interactions and their effect on the thermal properties of 2D Dirac crystals ( http://arxiv.org/abs/2305.18369v2 )

ライセンス: Link先を確認
Sina Kazemian, Giovanni Fanchini(参考訳) 熱伝導率などのディラック結晶の本質的性質を理解するためには、ディラック電子と分散音響フォノンとの相互作用を考えるモデルが必要である。 2dディラック結晶の熱伝導率は非常に高いが、望ましくない制限は電子-フォノン(e-ph)相互作用であり、熱伝導率を数ミクロンまで抑えることが示されている。 e-ph熱伝導率はフォノン散乱率に直接関連している。 従来の計算では短波長のフォノンを見落とし、2次元ディラック結晶を解析するには不十分である。 フォノン散乱速度は、電子とフォノン(EP-E*)の崩壊を含む3つの粒子相互作用を考慮すると、通常1階の大きさまで計算される。 しかし、電子の崩壊と新しい電子とフォノン(E-E*P*)の生成を含む過程は無視される。 本研究では,2次元ディラック結晶におけるフォノン散乱速度とe-ph熱伝導率について,短波長フォノンを考慮した正確な式を示す。 特に1次e-ph相互作用におけるフォノン散乱速度とe-ph熱伝導率の計算において、室温でもe-e*p*過程の意義を示す。 さらに,電子とフォノンの崩壊と新しい電子フォノン対の生成を伴うep-e*p*相互作用の2次e-ph相互作用を組み込むことの重要性を強調し,高温・低フェルミエネルギーにおけるフォノン散乱速度とe-ph熱伝導率を正確に決定する。 この4粒子相互作用プロセスは、これらの特性を効果的に特徴づける上で重要な役割を果たす。

To understand the essential properties of Dirac crystals, such as their thermal conductivity, we require models that consider the interaction between Dirac electrons and dispersive acoustic phonons. The exceptionally high thermal conductivity in 2D Dirac crystals is attributed to near-ideal phonon quantum gases, while undesired limitations arise from electron-phonon (e-ph) interactions which have been shown to limit the thermal conductivity up to several microns away. The e-ph thermal conductivity is directly linked to the phonon scattering rate. Conventional calculations overlook phonons with short-dispersive wavelengths, rendering them inadequate for analyzing 2D Dirac crystals. The phonon scattering rate is typically calculated up to the first-order magnitude, considering 3-particle interactions involving the decay of an electron and phonon (EP-E*) to create a new electron. However, processes involving the decay of an electron and the creation of a new electron and phonon (E-E*P*) are neglected. In this study, we present an accurate expression for the phonon scattering rate and e-ph thermal conductivity in 2D Dirac crystals, accounting for short-dispersive wavelength phonons. We demonstrate the significance of the E-E*P* process even at room temperature in calculating the phonon scattering rate and e-ph thermal conductivity, particularly for first-order e-ph interactions. Furthermore, we emphasize the importance of incorporating second-order e-ph interactions, specifically the EP-E*P* interaction involving the decay of an electron and phonon and the creation of a new electron-phonon pair, to accurately determine the phonon scattering rate and e-ph thermal conductivity at high temperatures and low Fermi energies. This 4-particle interaction process plays a crucial role in characterizing these properties effectively.
翻訳日:2023-07-14 20:03:26 公開日:2023-07-13
# 並列ブートストラップに基づく連続流制御用オンライン深部強化学習

Parallel bootstrap-based on-policy deep reinforcement learning for continuous flow control applications ( http://arxiv.org/abs/2304.12330v3 )

ライセンス: Link先を確認
J. Viquerat and E. Hachem(参考訳) 近年, 深部強化学習と数値流制御問題との結合が注目され, 画期的な結果が得られ, ドメインに対する新たな視点が開かれた。 流体力学ソルバの計算コストが通常高いため、学習過程における並列環境の使用は、合理的な時間で効率的な制御を実現するための重要な要素である。 しかし、フロー制御のための深層強化学習文献のほとんどは、超並列トランジッションコレクションが理論上の前提を破り、サブ最適制御モデルに繋がるオンポリシーアルゴリズムに依存している。 この問題を克服するため,我々は,戻りブートストラップステップで終了する部分トラックバッファに依存する並列化パターンを提案し,更新のオンポリシティを維持しつつ,並列環境を柔軟に利用できるようにする。 このアプローチは、文献からのCPU集約型連続フロー制御問題に説明される。

The coupling of deep reinforcement learning to numerical flow control problems has recently received a considerable attention, leading to groundbreaking results and opening new perspectives for the domain. Due to the usually high computational cost of fluid dynamics solvers, the use of parallel environments during the learning process represents an essential ingredient to attain efficient control in a reasonable time. Yet, most of the deep reinforcement learning literature for flow control relies on on-policy algorithms, for which the massively parallel transition collection may break theoretical assumptions and lead to suboptimal control models. To overcome this issue, we propose a parallelism pattern relying on partial-trajectory buffers terminated by a return bootstrapping step, allowing a flexible use of parallel environments while preserving the on-policiness of the updates. This approach is illustrated on a CPU-intensive continuous flow control problem from the literature.
翻訳日:2023-07-14 20:02:52 公開日:2023-07-13
# 16量子ビット量子コンピュータ上でのカゴメ格子に対するハイゼンベルクスピン1/2ハミルトニアンの高忠実性雑音耐性状態

High Fidelity Noise-Tolerant State Preparation of a Heisenberg spin-1/2 Hamiltonian for the Kagome Lattice on a 16 Qubit Quantum Computer ( http://arxiv.org/abs/2304.04516v2 )

ライセンス: Link先を確認
Wladimir Silva(参考訳) 本研究は、古典固有解法を用いて計算された基底状態の1%未満の忠実度を持つibm 16量子ビット量子コンピュータにおいて、カゴメ格子のハイゼンベルクスピン1/2ハミルトニアンの量子状態を作成する方法を示す。 さらに、このソリューションは非常に高いノイズ耐性(または全体の成功率98%以上)を持つ。 現在の量子コンピュータに固有の永続的なノイズに対処するために、勤勉な注意を払って、我々は、実行時に、非常に高い成功率と高い忠実性を達成することを示します。 この作業は、効率的なスケーラビリティや、任意のキュービットサイズの量子コンピュータ上で動作する能力を含むことで、さらに一歩進める。 この実験で使用されるプラットフォームはIBMの16キュービットのGudalupeプロセッサで、可変量子固有解器(VQE)を使用している。

This work describes a method to prepare the quantum state of the Heisenberg spin-1/2 Hamiltonian for the Kagome Lattice in an IBM 16 qubit quantum computer with a fidelity below 1% of the ground state computed via a classical Eigen-solver. Furthermore, this solution has a very high noise tolerance (or overall success rate above 98%). With industrious care taken to deal with the persistent noise inherent to current quantum computers; we show that our solution, when run, multiple times achieves a very high probability of success and high fidelity. We take this work a step further by including efficient scalability or the ability to run on any qubit size quantum computer. The platform used in this experiment is IBM's 16 qubit Gudalupe processor using the Variational Quantum Eigensolver (VQE).
翻訳日:2023-07-14 20:02:37 公開日:2023-07-13
# 時間非依存変動密度関数計算によるダイヤモンド中の荷電窒素空孔中心の電子励起

Electronic excitations of the charged nitrogen-vacancy center in diamond obtained using time-independent variational density functional calculations ( http://arxiv.org/abs/2303.03838v3 )

ライセンス: Link先を確認
Aleksei V. Ivanov, Yorick L. A. Schmerwitz, Gianluca Levi, Hannes J\'onsson(参考訳) 量子応用における固体中の点欠陥の光スピン初期化機構の解明には、関連する励起電子状態の正確な記述が必要である。 変分密度関数計算は様々なシステムの基底状態を記述することに成功しているが、そのような計算が点欠陥の電子的励起を記述する能力について、文献で疑問が呈されている。 ここで直接軌道最適化法を用いて、ダイヤモンド中の負の荷電窒素空隙中心である原型欠陥の時間に依存しない変分密度汎関数計算を行う。 計算は周期境界条件下で最大511個の原子を含み、励起状態計算は基底状態計算と同様の計算作業を必要とする。 以前の報告とは対照的に、局所的および半局所的な密度汎関数の使用は、低次の三重項状態と一重項状態、すなわち${}^{3}A_2 < {}^{1}E < {}^{1}A_1 < {}^{3}E$の正しい順序を与える。 さらに、より高度なメタ一般化勾配近似関数は、高レベルな多体計算と驚くほどよく一致した結果を与えるだけでなく、しばしばマルチ参照特性を持つような励起一重項状態に対しても利用可能な実験推定値を与える。 原子座標が解析力に応じて最適化されるときの三重項励起状態におけるエネルギーの低下も実験的な見積もりに近く、結果として生じるゼロフォノン線三重項励起エネルギーはわずか0.15eVで過小評価される。 ここで用いられるアプローチは、例えば量子技術に関連するシステムにおける点欠陥の電子的励起を研究するための有望なツールである。

Elucidation of the mechanism for optical spin initialization of point defects in solids in the context of quantum applications requires an accurate description of the excited electronic states involved. While variational density functional calculations have been successful in describing the ground state of a great variety of systems, doubts have been expressed in the literature regarding the ability of such calculations to describe electronic excitations of point defects. A direct orbital optimization method is used here to perform time-independent, variational density functional calculations of a prototypical defect, the negatively charged nitrogen-vacancy center in diamond. The calculations include up to 511 atoms subject to periodic boundary conditions and the excited state calculations require similar computational effort as ground state calculations. Contrary to some previous reports, the use of local and semilocal density functionals gives the correct ordering of the low-lying triplet and singlet states, namely ${}^{3}A_2 < {}^{1}E < {}^{1}A_1 < {}^{3}E$. Furthermore, the more advanced meta generalized gradient approximation functionals give results that are in remarkably good agreement with high-level, many-body calculations as well as available experimental estimates, even for the excited singlet state which is often referred to as having multireference character. The lowering of the energy in the triplet excited state as the atom coordinates are optimized in accordance with analytical forces is also close to the experimental estimate and the resulting zero-phonon line triplet excitation energy is underestimated by only 0.15 eV. The approach used here is found to be a promising tool for studying electronic excitations of point defects in, for example, systems relevant for quantum technologies.
翻訳日:2023-07-14 20:02:21 公開日:2023-07-13
# 不確かさを持つマルコフジャンプ線形系の形式制御器合成

Formal Controller Synthesis for Markov Jump Linear Systems with Uncertain Dynamics ( http://arxiv.org/abs/2212.00679v3 )

ライセンス: Link先を確認
Luke Rickard, Thom Badings, Licio Romao, Alessandro Abate(参考訳) サイバーフィジカルシステムのための確実に正しい制御器の自動合成は、安全クリティカルなシナリオの展開に不可欠である。 しかし、ハイブリッド機能や確率的あるいは未知の振る舞いは、この問題を難しくする。 サイバーフィジカルシステムのための離散時間モデルのクラスであるマルコフジャンプ線形システム(mjlss)の制御器を合成する方法を提案する。 MJLSは有限集合の確率線型力学と、マルコフ決定過程(MDP)によって支配されるこれらの力学の間の離散ジャンプからなる。 本研究は, このMPPの遷移確率が一定間隔で知られているか, 完全に未知であるかを考察する。 我々のアプローチは、MJLSの離散(モードジャンプ)と連続(確率線形)の両方の挙動を捉える有限状態抽象化に基づいている。 我々は、この抽象概念を、いわゆる「scenario approach」のサンプリング手法を用いて遷移確率の間隔を計算する区間 MDP (iMDP) として定式化し、確率論的に近似を与える。 本手法を複数の現実的なベンチマーク問題,特に温度制御と航空機の配送問題に適用する。

Automated synthesis of provably correct controllers for cyber-physical systems is crucial for deployment in safety-critical scenarios. However, hybrid features and stochastic or unknown behaviours make this problem challenging. We propose a method for synthesising controllers for Markov jump linear systems (MJLSs), a class of discrete-time models for cyber-physical systems, so that they certifiably satisfy probabilistic computation tree logic (PCTL) formulae. An MJLS consists of a finite set of stochastic linear dynamics and discrete jumps between these dynamics that are governed by a Markov decision process (MDP). We consider the cases where the transition probabilities of this MDP are either known up to an interval or completely unknown. Our approach is based on a finite-state abstraction that captures both the discrete (mode-jumping) and continuous (stochastic linear) behaviour of the MJLS. We formalise this abstraction as an interval MDP (iMDP) for which we compute intervals of transition probabilities using sampling techniques from the so-called 'scenario approach', resulting in a probabilistically sound approximation. We apply our method to multiple realistic benchmark problems, in particular, a temperature control and an aerial vehicle delivery problem.
翻訳日:2023-07-14 20:01:11 公開日:2023-07-13
# ネットワークウェイトとしてのヒト生理学:動的シミュレーションのための条件付き生成モデル

Human Biophysics as Network Weights: Conditional Generative Models for Dynamic Simulation ( http://arxiv.org/abs/2211.01856v3 )

ライセンス: Link先を確認
Shihan Ma, Alexander Kenneth Clarke, Kostiantyn Maksymenko, Samuel Deslauriers-Gauthier, Xinjun Sheng, Xiangyang Zhu, Dario Farina(参考訳) 生体物理システムのシミュレーションは、生理機構の研究と人間のマシンインタフェースの開発に不可欠である。 有限要素モデルのような先進的な数値法はこの課題に優れているが、多くのシミュレーションを生成する場合や、連続的に変化する構造パラメータで動的事象をシミュレートする場合には非常に計算コストがかかる。 本研究では,条件付き生成モデルを用いて数値モデル状態間の補間を行い,高い生成精度を維持しつつモデリング時間を劇的に短縮するアーキテクチャを提案する。 この概念の実証として,生体物理系の動的変化時の高精度,超高速,任意高い時間分解能シミュレーションを実現するハイブリッド構造生成モデルであるbiomimeを提案する。 この手法は、生理学や臨床研究に広く応用され、信号分析のためのデータ拡張戦略をサポートし、生物物理学シミュレーションのための計算効率と高精度のモデルを表している。

Simulations of biophysical systems are fundamental for studying physiological mechanisms and developing human machine interfaces. Whilst advanced numerical methods, such as finite element models, can excel in this task, they are extremely computationally expensive to use when generating a large number of simulations or simulating dynamic events with continuously changing structural parameters. We propose an architecture that uses a conditional generative model to interpolate between the numerical model states, dramatically lowering the modeling time while maintaining a high generation accuracy. As a demonstration of this concept, we present BioMime, a hybrid-structured generative model that enables an accurate, ultra-fast, and arbitrarily high temporal-resolution simulation of a specific biophysical system during dynamic changes. This methodology has wide applications in physiological and clinical research as well as in supporting data augmentation strategies for signal analysis, representing a computationally efficient and highly accurate model for biophysical simulations.
翻訳日:2023-07-14 20:00:51 公開日:2023-07-13
# Antention-based BiLSTM Network を用いた無許可NOMAのユーザ・データ同時検出

Joint User and Data Detection in Grant-Free NOMA with Attention-based BiLSTM Network ( http://arxiv.org/abs/2209.06392v2 )

ライセンス: Link先を確認
Saud Khan, Salman Durrani, Muhammad Basit Shahab, Sarah J. Johnson, Seyit Camtepe(参考訳) マルチユーザ検出(MUD)問題は、アクセスポイントがアクティブなモノのインターネット(IoT)デバイスの総数と正当性を識別し、送信されたデータをデコードする必要がある、アップリンク許可のない非直交多重アクセス(NOMA)において考慮する。 我々は、IoTデバイスが複雑な拡散シーケンスを使用し、バーストスパーシティモデルに従ってランダムに情報を送信すると仮定する。 MUD問題を解くために,時間的相関を突破し,注目に基づく双方向長短期メモリ(BiLSTM)ネットワークを提案する。 BiLSTMネットワークは、フォワードとリバースパスLSTMを使用してデバイスアクティベーション履歴のパターンを生成するが、アテンションメカニズムはデバイスアクティベーションポイントに必須のコンテキストを提供する。 これにより、許可のないシナリオでアクティブデバイスを検出するために階層的な経路が続く。 そして、複雑な拡散シーケンスを利用して、推定されたアクティブデバイスに対するブラインドデータ検出を行う。 提案するフレームワークは、MUDを実行するためのデバイス間隔レベルやチャネルの事前知識を必要としない。 その結果,提案するネットワークは,既存のベンチマーク方式に比べて性能がよいことがわかった。

We consider the multi-user detection (MUD) problem in uplink grant-free non-orthogonal multiple access (NOMA), where the access point has to identify the total number and correct identity of the active Internet of Things (IoT) devices and decode their transmitted data. We assume that IoT devices use complex spreading sequences and transmit information in a random-access manner following the burst-sparsity model, where some IoT devices transmit their data in multiple adjacent time slots with a high probability, while others transmit only once during a frame. Exploiting the temporal correlation, we propose an attention-based bidirectional long short-term memory (BiLSTM) network to solve the MUD problem. The BiLSTM network creates a pattern of the device activation history using forward and reverse pass LSTMs, whereas the attention mechanism provides essential context to the device activation points. By doing so, a hierarchical pathway is followed for detecting active devices in a grant-free scenario. Then, by utilising the complex spreading sequences, blind data detection for the estimated active devices is performed. The proposed framework does not require prior knowledge of device sparsity levels and channels for performing MUD. The results show that the proposed network achieves better performance compared to existing benchmark schemes.
翻訳日:2023-07-14 20:00:07 公開日:2023-07-13
# NMRジャイロスコープのバイアス安定性向上のための一般手法

A general approach to improve the bias stability of NMR gyroscope ( http://arxiv.org/abs/2307.04756v2 )

ライセンス: Link先を確認
Haifeng Dong, Min Hu(参考訳) 近年,nmrジャイロスコープのバイアス安定性向上の進展が妨げられている。 ストラップダウン慣性航法システムにおける回転変調の核となる考え方から着想を得て,実際の物理源を考慮せずにnmrジャイロスコープのバイアス安定性を高めるための一般的なアプローチを提案する。 この方法は、バイアスの符号がnmrジャイロスコープの感知方向の符号に従わないという事実に基づいており、これは他の種類のジャイロスコープよりも変調が容易である。 提案手法の有効性を検証するためにシミュレーションを行った。

In recent years, progress in improving the bias stability of NMR gyroscopes has been hindered. Taking inspiration from the core idea of rotation modulation in the strapdown inertial navigation system, we propose a general approach to enhancing the bias stability of NMR gyroscopes that does not require consideration of the actual physical sources. The method operates on the fact that the sign of the bias does not follow that of the sensing direction of the NMR gyroscope, which is much easier to modulate than with other types of gyroscopes. We conducted simulations to validate the method's feasibility.
翻訳日:2023-07-14 19:51:57 公開日:2023-07-13
# 光格子中のフロッケ位相絶縁体のバスエンジニアリングによる散逸合成

Dissipative preparation of a Floquet topological insulator in an optical lattice via bath engineering ( http://arxiv.org/abs/2307.03739v2 )

ライセンス: Link先を確認
Alexander Schnell, Christof Weitenberg, Andr\'e Eckardt(参考訳) フロケット工学は、光学格子中の電荷中性原子のトポロジカルに非自明なバンド構造を実現するための重要なツールである。 しかし, 非自明な準エネルギー帯を完全充填したフェルミオンのトポロジカルバンド絶縁体型状態の調製は, 駆動加熱と不完全な断熱状態(トポロジカル遷移が通過する際の不可避ギャップ閉鎖によって引き起こされる)により困難である。 提案された別の手順は、システムと貯水池を結合する際に生じる定常状態として、そのような状態を散逸的に準備することである。 本稿では,第2原子種が熱浴として作用する弱相互作用したボース凝縮物と系を結合する具体的手法について述べる。 我々の戦略は, 2次元系に垂直な弱結合管を占有するため, 浴槽粒子のポテンシャルの工学的考察に依存している。 Floquet-Born-Markov理論を用いて、駆動散逸系の結果として生じる非平衡定常状態がトポロジカル絶縁体に近似することを示す。 また,不均質なフロッケ位相絶縁体の近似安定化の兆しも見いだし,平衡状態では実現不可能である。

Floquet engineering is an important tool for realizing topologically nontrivial band structures for charge-neutral atoms in optical lattices. However, the preparation of a topological-band-insulator-type state of fermions, with one nontrivial quasi-energy band filled completely and the others empty, is challenging as a result of both driving induced heating as well as imperfect adiabatic state preparation (with the latter induced by the unavoidable gap closing when passing the topological transition). An alternative procedure that has been proposed is to prepare such states dissipatively, i.e. as a steady state that emerges when coupling the system to reservoirs. Here we discuss a concrete scheme that couples the system to a weakly interacting Bose-condensate given by second atomic species acting as a heat bath. Our strategy relies on the engineering of the potential for the bath particles, so that they occupy weakly coupled tubes perpendicular to the two-dimensional system. Using Floquet-Born-Markov theory, we show that the resulting nonequilibrium steady state of the driven-dissipative system approximates a topological insulator. We even find indications for the approximate stabilization of an anomalous Floquet topological insulator, a state that is impossible to realize in equilibrium.
翻訳日:2023-07-14 19:51:48 公開日:2023-07-13
# ナノ粒子のレーザー冷蔵強化用不活性シェルコーティング:浮揚光学系への応用

Inert shell coating for enhanced laser refrigeration of nanoparticles: application in levitated optomechanics ( http://arxiv.org/abs/2307.02240v2 )

ライセンス: Link先を確認
Cyril Laplane, Peng Ren, Reece P. Roberts, Yiqing Lu, and Thomas Volz(参考訳) 本報告では, ナノ粒子のレーザー冷却効率を向上し, 浮遊光力学への応用について検討する。 特にランタニドドープナノ結晶を不活性殻コーティングで開発し,その性能を素ナノ結晶と比較した。 両ナノ粒子の冷却について, 圧力を変化させながら検討した。 コア殻の4分の1のナノ粒子は、裸のナノ粒子のほとんどと比較して、かなりの冷却量を示した。 さらに, コア殻のナノ粒子を26mbarの温度で147Kまで冷却した。 本研究は, 絶対冷却(質量中心, 内部温度)を達成するのに適したナノ粒子工学への第一歩であり, 力覚の新たな道を開き, マクロな量子重ね合わせの実現を目指す。

We report on a study exploring the design of nanoparticles that can enhance their laser refrigeration efficiency for applications in levitated optomechanics. In particular, we developed lanthanide-doped nanocrystals with an inert shell coating and compared their performance with bare nanocrystals. While optically levitated, we studied the refrigeration of both types of nanoparticles while varying the pressure. We found that the core-shell design shows an improvement in the minimum final temperature: a fourth of the core-shell nanoparticles showed a significant cooling compared to almost none of the bare nanoparticles. Furthermore, we measured a core-shell nanoparticle cooling down to a temperature of 147 K at 26 mbar in the underdamped regime. Our study is a first step towards engineering nanoparticles that are suitable for achieving absolute (centre-of-mass and internal temperature) cooling in levitation, opening new avenues for force sensing and the realization of macroscopic quantum superpositions.
翻訳日:2023-07-14 19:51:24 公開日:2023-07-13
# 置換対称フェルミオン量子ウォークにおける無秩序局所化

Disorder-free localisation in permutation symmetric fermionic quantum walks ( http://arxiv.org/abs/2307.01963v2 )

ライセンス: Link先を確認
A. P. Balachandran, Anjali Kundalpady, Pramod Padmanabhan, Akash Sinha(参考訳) 本研究では,大域的置換対称性を持つ量子系における無秩序局在現象と同一粒子の交換対称性について検討する。 我々は、置換群 $s_n$ の共役クラスを用いて大域的な置換対称性を持つ多元フェルミオンハミルトンの体系的構成から始め、n$ はフェルミオンの総数である。 その結果得られたハミルトニアンは、区別できないフェルミオンの連続時間量子ウォークの生成元として解釈される。 この設定では、最も単純な例を解析的に解き、大きな$n$ の場合、すべての状態が障害係数を導入することなく局所化されることを示す。 局所化は時間非依存であり、創発性障害の結果ではない。 これは、障害のない局所化の他のメカニズムと重要な区別のようである。 さらに、局所化はグローバルな$S_N$対称性を保持する相互作用に対して安定であり、量子メモリの候補となる可能性があることを示す。 サイトをマークし、$S_N$ の部分群に対称性を還元することにより、ハミルトニアンの対称性還元パラメータをチューニングすることで、任意の$N$に対して局所化が得られる。 最後に、同様の局所化は$s_n$-symmetric heisenbergチェーンによって制御されるスピン系にも起こることを示し、$s_n$-symmetric bosonicシステムについていくつかコメントする。 提案するモデルは全接続性を備えており、超伝導量子回路やトラップイオンシステムで実現可能である。

We investigate the phenomenon of disorder-free localisation in a quantum system with a global permutation symmetry and the exchange symmetry for identical particles. We start with a systematic construction of many-fermion Hamiltonians with a global permutation symmetry using the conjugacy classes of the permutation group $S_N$, with $N$ being the total number of fermions. The resulting Hamiltonians are interpreted as generators of continuous-time quantum walk of indistinguishable fermions. In this setup we analytically solve the simplest example and show that for large $N$ all the states are localised without the introduction of any disorder coefficients. The localisation is also time-independent and is not the result of any emergent disorder. This seems to be an important distinction from other mechanisms of disorder-free localisation. Furthermore, we show that the localisation is stable to interactions that preserve the global $S_N$ symmetry making these systems potential candidates for a quantum memory. By marking sites and reducing the symmetry to subgroups of $S_N$, the localisation can be obtained for any $N$ by tuning the symmetry-reducing parameters in the Hamiltonian. Finally we show that similar localisation also occurs for spin systems governed by a $S_N$-symmetric Heisenberg chain and we make a few comments about $S_N$-symmetric bosonic systems. The models we propose feature all-to-all connectivity and can be realised on superconducting quantum circuits and trapped ion systems.
翻訳日:2023-07-14 19:51:09 公開日:2023-07-13
# 有限ハイゼンベルク群の $\mathbb z_n$ 上の中心保存自己同型

Center Preserving Automorphisms of Finite Heisenberg Group over $\mathbb Z_N$ ( http://arxiv.org/abs/2307.00874v2 )

ライセンス: Link先を確認
T.Hashimoto, M.Horibe, A.Hayashi(参考訳) 離散位相空間上の有限次元量子力学において生じる、$\mathbb Z_N$ と $U(1)$ 上の有限ハイゼンベルク群の中心保存自己同型の群構造について検討する。 明示的な分割を構成すると、$N=2(2k+1)$ に対して、群は $Sp_N$ と $\mathbb Z_N^2$ の半直積に同型である。 さらに、N が 2l (l \ge 2)$ で割り切れるとき、群は非自明な 2-サイクルを持ち、その明示的な形式が提供される。 この分割を利用して対応する射影ヴェイユ表現を線型表現へ持ち上げることができることを示す。

We investigate the group structure of center-preserving automorphisms of the finite Heisenberg group over $\mathbb Z_N$ with $U(1)$ extension, which arises in finite-dimensional quantum mechanics on a discrete phase space. Constructing an explicit splitting, it is shown that, for $N=2(2k+1)$, the group is isomorphic to the semidirect product of $Sp_N$ and $\mathbb Z_N^2$. Moreover, when N is divisible by $2l (l \ge 2)$, the group has a non-trivial 2-cocycle, and its explicit form is provided. By utilizing the splitting, it is demonstrated that the corresponding projective Weil representation can be lifted to linear representation.
翻訳日:2023-07-14 19:50:42 公開日:2023-07-13
# スナップショットを超えて:縦型脳機能コネクトーム埋め込みのための脳トークン化グラフトランスフォーマー

Beyond the Snapshot: Brain Tokenized Graph Transformer for Longitudinal Brain Functional Connectome Embedding ( http://arxiv.org/abs/2307.00858v2 )

ライセンス: Link先を確認
Zijian Dong, Yilei Wu, Yu Xiao, Joanna Su Xian Chong, Yueming Jin, Juan Helen Zhou(参考訳) ネットワークベースの神経変性の枠組みの下では、アルツハイマー病(AD)などの神経変性疾患の診断と予後のための貴重なツールとして、脳機能コネクトーム(FC)ベースのグラフニューラルネットワーク(GNN)が出現している。 しかし、これらのモデルは、FC軌跡を特徴付けるのではなく、単一の時点における脳内FC用に調整されている。 特にアミロイド沈着を伴う認知正常者や軽度認知障害(mci)を持つ個人のようなプレデメンティア段階において、fcが疾患の進行と共にどのように進化するかを理解することは、疾患の拡散パターンを線引きし、疾患の進行を遅くしたり、停止したりする効果的な戦略を開発する上で非常に重要である。 本研究では,神経変性疾患の診断と予後,すなわちBrain Tokenized Graph Transformer (Brain TokenGT) に応用した,脳内FC軌道埋め込みのための最初の解釈可能なフレームワークを提案する。 2つのモジュールから構成される。 1) 下流処理用にトークン化されたノードおよび時空間エッジの埋め込み生成のためのグラフ不変および可変埋め込み(GIVE) 2) Brain Informed Graph Transformer Readout (BIGTR)は、トレーニング可能な型識別子と非トレーニング可能なノード識別子で以前のトークンを拡張し、それらを標準トランスフォーマーエンコーダに入力して読み出す。 我々は,MCIとコントロールの区別,MCIの認知症転換の予測,アミロイド陽性あるいは負の認知正常者の分類を含む3つのタスクにおいて,AD連続体の2つの公開縦断的fMRIデータセットについて広範な実験を行った。 脳のFC軌道に基づいて、提案されたBrain TokenGTアプローチは、他のすべてのベンチマークモデルよりも優れ、同時に優れた解釈性を提供した。 コードはhttps://github.com/zijiand/brain-tokengt.gitで入手できる。

Under the framework of network-based neurodegeneration, brain functional connectome (FC)-based Graph Neural Networks (GNN) have emerged as a valuable tool for the diagnosis and prognosis of neurodegenerative diseases such as Alzheimer's disease (AD). However, these models are tailored for brain FC at a single time point instead of characterizing FC trajectory. Discerning how FC evolves with disease progression, particularly at the predementia stages such as cognitively normal individuals with amyloid deposition or individuals with mild cognitive impairment (MCI), is crucial for delineating disease spreading patterns and developing effective strategies to slow down or even halt disease advancement. In this work, we proposed the first interpretable framework for brain FC trajectory embedding with application to neurodegenerative disease diagnosis and prognosis, namely Brain Tokenized Graph Transformer (Brain TokenGT). It consists of two modules: 1) Graph Invariant and Variant Embedding (GIVE) for generation of node and spatio-temporal edge embeddings, which were tokenized for downstream processing; 2) Brain Informed Graph Transformer Readout (BIGTR) which augments previous tokens with trainable type identifiers and non-trainable node identifiers and feeds them into a standard transformer encoder to readout. We conducted extensive experiments on two public longitudinal fMRI datasets of the AD continuum for three tasks, including differentiating MCI from controls, predicting dementia conversion in MCI, and classification of amyloid positive or negative cognitively normal individuals. Based on brain FC trajectory, the proposed Brain TokenGT approach outperformed all the other benchmark models and at the same time provided excellent interpretability. The code is available at https://github.com/ZijianD/Brain-TokenGT.git
翻訳日:2023-07-14 19:50:24 公開日:2023-07-13
# 曖昧な視野に隠れる:多エージェント強化学習における回避回復型局所中毒攻撃に対する差分プライバシーノイズのエクスプロイジョン

Hiding in Plain Sight: Differential Privacy Noise Exploitation for Evasion-resilient Localized Poisoning Attacks in Multiagent Reinforcement Learning ( http://arxiv.org/abs/2307.00268v2 )

ライセンス: Link先を確認
Md Tamjid Hossain, Hung La(参考訳) 近年,協調型マルチエージェント強化学習(CMARL)において,知識共有における対立的推論に対するエージェントのプライバシ保護のために,差分プライバシー(DP)が導入されている。 とはいえ,DP機構がもたらす騒音は,特にCMARLにおける個人知識共有の文脈において,新たな毒殺の脅威を必然的に引き起こす可能性があると論じる。 そこで本研究では,dpノイズを回避し,異常検出システムを回避し,cmarlモデルの最適収束を阻害する適応型,プライバシエクスロイト型,回避型局所中毒攻撃(pelpa)を提案する。 提案するペルパ攻撃を様々な環境において厳密に評価し,非敵と複数敵のコンテキストを包含する。 その結果,中規模環境では攻撃者の比率が20%,攻撃者の比率が40%のPeLPA攻撃が50.69%,目標の64.41%の増加につながることがわかった。 さらに、同様の条件下では、pelpaは最適報酬達成率の1.4倍と1.6倍の計算時間増加と、攻撃者比率の20%と40%の収束率の1.18倍と1.38倍の低下をもたらす。

Lately, differential privacy (DP) has been introduced in cooperative multiagent reinforcement learning (CMARL) to safeguard the agents' privacy against adversarial inference during knowledge sharing. Nevertheless, we argue that the noise introduced by DP mechanisms may inadvertently give rise to a novel poisoning threat, specifically in the context of private knowledge sharing during CMARL, which remains unexplored in the literature. To address this shortcoming, we present an adaptive, privacy-exploiting, and evasion-resilient localized poisoning attack (PeLPA) that capitalizes on the inherent DP-noise to circumvent anomaly detection systems and hinder the optimal convergence of the CMARL model. We rigorously evaluate our proposed PeLPA attack in diverse environments, encompassing both non-adversarial and multiple-adversarial contexts. Our findings reveal that, in a medium-scale environment, the PeLPA attack with attacker ratios of 20% and 40% can lead to an increase in average steps to goal by 50.69% and 64.41%, respectively. Furthermore, under similar conditions, PeLPA can result in a 1.4x and 1.6x computational time increase in optimal reward attainment and a 1.18x and 1.38x slower convergence for attacker ratios of 20% and 40%, respectively.
翻訳日:2023-07-14 19:49:50 公開日:2023-07-13
# 雑音中規模量子コンピュータ上のグリーディ勾配なし適応変分量子アルゴリズム

Greedy Gradient-free Adaptive Variational Quantum Algorithms on a Noisy Intermediate Scale Quantum Computer ( http://arxiv.org/abs/2306.17159v3 )

ライセンス: Link先を確認
C\'esar Feniou, Baptiste Claudon, Muhammad Hassan, Axel Courtat, Olivier Adjoua, Yvon Maday, Jean-Philip Piquemal(参考訳) ハイブリッド量子古典アルゴリズムは、量子多体系をシミュレートする古典的な計算方法よりも優れた可能性を持っている。 特に適応変分量子固有解器(VQE)は、コンパクトな量子回路を用いて高精度なアンザッツ波動関数を生成する能力を示した。 しかし、これらの手法の現在の量子処理ユニット(QPU)への実践的な実装は、高次元のノイズの多いコスト関数を最適化するために、演算子選択ステップ中に可観測物の多項式スケーリング数を計測する必要があるという大きな課題に直面している。 本研究では,これらの困難を克服する新しい手法を導入し,高速GPU加速量子シミュレータと組み合わされた25量子ビットの誤差緩和量子ハードウェア上でハイブリッド適応アルゴリズムを実行する。 物理応用として, キュービット数や演算子プールの大きさに関わらず, 繰り返し毎に5つの回路計測しか必要としない, グリーディ勾配のない適応型VQEを用いて25体アイシングモデルの基底状態を計算する。 化学応用として, 分子系の基底状態の近似のために, この欲張りで勾配のないアプローチとオーバーラップ適応vqeアルゴリズムを組み合わせる。 これらのハイブリッドQPU/シミュレータ計算の実装は、QPUへの適応型VQEの適用性を高め、量子コンピューティングの短期的優位性に関してさらなる楽観性を与える。

Hybrid quantum-classical algorithms hold the potential to outperform classical computing methods for simulating quantum many-body systems. Adaptive Variational Quantum Eigensolvers (VQE) in particular have demonstrated an ability to generate highly accurate ansatz wave-functions using compact quantum circuits. However, the practical implementation of these methods on current quantum processing units (QPUs) faces a significant challenge: the need to measure a polynomially scaling number of observables during the operator selection step so as to optimise a high-dimensional, noisy cost function. In this study, we introduce new techniques to overcome these difficulties and execute hybrid adaptive algorithms on a 25-qubit error-mitigated quantum hardware coupled to a high performance GPU-accelerated quantum simulator. As a physics application, we compute the ground state of a 25-body Ising model using a greedy gradient-free adaptive VQE that requires only five circuit measurements for each iteration, regardless of the number of qubits and the size of the operator pool. As a chemistry application, we combine this greedy, gradient-free approach with the Overlap-ADAPT-VQE algorithm to approximate the ground state of a molecular system. The successful implementation of these hybrid QPU/simulator computations enhances the applicability of adaptive VQEs on QPUs and instills further optimism regarding the near-term advantages of quantum computing.
翻訳日:2023-07-14 19:49:23 公開日:2023-07-13
# LLMが物質科学と化学を変換する14の例:大規模言語モデルハッカソンのリフレクション

14 Examples of How LLMs Can Transform Materials Science and Chemistry: A Reflection on a Large Language Model Hackathon ( http://arxiv.org/abs/2306.06283v3 )

ライセンス: Link先を確認
Kevin Maik Jablonka, Qianxiang Ai, Alexander Al-Feghali, Shruti Badhwar, Joshua D. Bocarsly, Andres M Bran, Stefan Bringuier, L. Catherine Brinson, Kamal Choudhary, Defne Circi, Sam Cox, Wibe A. de Jong, Matthew L. Evans, Nicolas Gastellu, Jerome Genzling, Mar\'ia Victoria Gil, Ankur K. Gupta, Zhi Hong, Alishba Imran, Sabine Kruschwitz, Anne Labarre, Jakub L\'ala, Tao Liu, Steven Ma, Sauradeep Majumdar, Garrett W. Merz, Nicolas Moitessier, Elias Moubarak, Beatriz Mouri\~no, Brenden Pelkie, Michael Pieler, Mayk Caldas Ramos, Bojana Rankovi\'c, Samuel G. Rodriques, Jacob N. Sanders, Philippe Schwaller, Marcus Schwarting, Jiale Shi, Berend Smit, Ben E. Smith, Joren Van Herck, Christoph V\"olker, Logan Ward, Sean Warren, Benjamin Weiser, Sylvester Zhang, Xiaoqi Zhang, Ghezal Ahmad Zia, Aristana Scourtas, KJ Schmidt, Ian Foster, Andrew D. White, Ben Blaiszik(参考訳) GPT-4のような大規模言語モデル(LLM)は多くの科学者の関心を集めた。 最近の研究では、これらのモデルが化学と材料科学に有用であることが示唆されている。 これらの可能性を探るため、ハッカソンを組織した。 この記事では、このハッカソンで構築されたプロジェクトについて紹介する。 参加者は、分子や材料の特性の予測、ツールの新しいインターフェースの設計、構造化されていないデータからの知識の抽出、新しい教育アプリケーションの開発など、様々な用途にLLMを使用した。 多様なトピックや作業プロトタイプが2日以内で生成されるという事実は、LLMが私たちの分野の将来に大きな影響を与えることを浮き彫りにします。 アイデアとプロジェクトの豊富な収集は、LLMの応用は物質科学や化学に限らず、幅広い科学分野に潜在的利益をもたらすことを示している。

Large-language models (LLMs) such as GPT-4 caught the interest of many scientists. Recent studies suggested that these models could be useful in chemistry and materials science. To explore these possibilities, we organized a hackathon. This article chronicles the projects built as part of this hackathon. Participants employed LLMs for various applications, including predicting properties of molecules and materials, designing novel interfaces for tools, extracting knowledge from unstructured data, and developing new educational applications. The diverse topics and the fact that working prototypes could be generated in less than two days highlight that LLMs will profoundly impact the future of our fields. The rich collection of ideas and projects also indicates that the applications of LLMs are not limited to materials science and chemistry but offer potential benefits to a wide range of scientific disciplines.
翻訳日:2023-07-14 19:48:40 公開日:2023-07-13
# ネットワークにおける低位潜時メソスケール構造の学習

Learning low-rank latent mesoscale structures in networks ( http://arxiv.org/abs/2102.06984v5 )

ライセンス: Link先を確認
Hanbaek Lyu, Yacoub H. Kureh, Joshua Vendrow, Mason A. Porter(参考訳) ネットワークを用いて、物理的、生物学的、社会的、情報科学の複雑なシステムにおけるエンティティ間の相互作用のアーキテクチャを符号化することが一般的である。 複雑なシステムの大規模挙動を研究するためには、ネットワークのメソスケール構造をそのような振る舞いに影響を与えるビルディングブロックとして検討することが有用である。 本稿では,ネットワークの低位メソスケール構造を記述する新しい手法を提案し,いくつかのネットワークモデルと経験的フレンドシップ,コラボレーション,タンパク質-タンパク質間相互作用(ppi)ネットワークを用いたアプローチについて述べる。 これらのネットワークは比較的少数の 'latent motifs' を有しており,固定メソスケールでのネットワークのほとんどの部分グラフの近似に成功している。 我々は,ネットワークサンプリング法と非負行列分解法を組み合わせたネットワーク辞書学習(NDL)のアルゴリズムを用いて,与えられたネットワークの潜在モチーフを学習する。 潜在モチーフの集合を用いてネットワークをエンコードする能力は、比較、デノイング、エッジ推論などのネットワーク分析タスクに幅広い応用がある。 さらに,新しいネットワークデノナイズと再構成(NDR)アルゴリズムを用いて,破損したネットワークから直接学習する潜在モチーフのみを用いることで,破損したネットワークをデノナイズする方法を実証する。

It is common to use networks to encode the architecture of interactions between entities in complex systems in the physical, biological, social, and information sciences. To study the large-scale behavior of complex systems, it is useful to examine mesoscale structures in networks as building blocks that influence such behavior. We present a new approach for describing low-rank mesoscale structures in networks, and we illustrate our approach using several synthetic network models and empirical friendship, collaboration, and protein--protein interaction (PPI) networks. We find that these networks possess a relatively small number of `latent motifs' that together can successfully approximate most subgraphs of a network at a fixed mesoscale. We use an algorithm for `network dictionary learning' (NDL), which combines a network-sampling method and nonnegative matrix factorization, to learn the latent motifs of a given network. The ability to encode a network using a set of latent motifs has a wide variety of applications to network-analysis tasks, such as comparison, denoising, and edge inference. Additionally, using a new network denoising and reconstruction (NDR) algorithm, we demonstrate how to denoise a corrupted network by using only the latent motifs that one learns directly from the corrupted network.
翻訳日:2023-07-14 18:04:29 公開日:2023-07-13
# ハイゼンベルク・ワイル作用素を用いた四重項のブロッホ球アナログ

Bloch sphere analog of qudits using Heisenberg-Weyl Operators ( http://arxiv.org/abs/2101.06408v3 )

ライセンス: Link先を確認
Gautam Sharma and Sibasish Ghosh and Sk Sazim(参考訳) ハイゼンベルク・ワイル作用素基底を用いた高レベル量子系のブロッホ球面表現の研究を行った。 任意の密度演算子に対して実値のブロッホベクトルを同定するパラメトリゼーション法を提案する。 任意の$d$-level (d\geq 3$) 量子システム (qudits) に入る前に、3つのレベルシステム (qutrits) で分析を開始します。 任意の3レベル量子システム (qutrits) を記述するためにブロッホベクトルに少なくとも8つの実パラメータが必要であることはよく知られている。 しかし,本手法では,これらのパラメータを4つの重みと4つの角パラメータに分割し,重みパラメータが4次元の単位球面を誘導していることを見いだせる。 そして、4つの角パラメータはブロッホベクトルが物理的かどうかを決定する。 したがって、その立方体と異なり、立方体ブロッホ球面は固体構造を持たない。 重要なことに、この構成によりブロッホベクトル成分の観点から、クトリットの異なる性質を定義できる。 また、球面の2次元および3次元の断面についても検討し、非凸で閉かつ物理的四重項状態の構造を明らかにする。 さらに、我々の表現を適用して、相互に偏りのない基底(MUB)を導出し、クォートリットのユニタリマップを特徴づけ、ヒルベルト・シュミットとビューズの測定値を用いてアンサンブルを評価する。 さらに,この構成をquditsにまで拡張し,qutritのシナリオを超えて適用可能性を示す。

We study an analogous Bloch sphere representation of higher-level quantum systems using the Heisenberg-Weyl operator basis. We introduce a parametrization method that will allow us to identify a real-valued Bloch vector for an arbitrary density operator. Before going into arbitrary $d$-level ($d\geq 3$) quantum systems (qudits), we start our analysis with three-level ones (qutrits). It is well known that we need at least eight real parameters in the Bloch vector to describe arbitrary three-level quantum systems (qutrits). However, using our method we can divide these parameters into four weight, and four angular parameters, and find that the weight parameters are inducing a unit sphere in four-dimension. And, the four angular parameters determine whether a Bloch vector is physical. Therefore, unlike its qubit counterpart, the qutrit Bloch sphere does not exhibit a solid structure. Importantly, this construction allows us to define different properties of qutrits in terms of Bloch vector components. We also examine the two and three-dimensional sections of the sphere, which reveal a non-convex yet closed structure for physical qutrit states. Further, we apply our representation to derive mutually unbiased bases (MUBs), characterize unital maps for qutrits, and assess ensembles using the Hilbert-Schmidt and Bures metrics. Moreover, we extend this construction to qudits, showcasing its potential applicability beyond the qutrit scenario.
翻訳日:2023-07-14 18:04:05 公開日:2023-07-13
# human in events: 複雑なイベントにおける人間中心のビデオ分析のための大規模ベンチマーク

Human in Events: A Large-Scale Benchmark for Human-centric Video Analysis in Complex Events ( http://arxiv.org/abs/2005.04490v6 )

ライセンス: Link先を確認
Weiyao Lin, Huabin Liu, Shizhan Liu, Yuxi Li, Rui Qian, Tao Wang, Ning Xu, Hongkai Xiong, Guo-Jun Qi, Nicu Sebe(参考訳) 現代のスマートシティの発展とともに、人間中心のビデオ分析は、現実の場面で多様な複雑なイベントを分析するという課題に直面している。 複雑な出来事は、密集した群衆、異常な個人、集団的行動に関連する。 しかしながら、既存のビデオデータセットの規模とカバレッジによって制限されるため、このような複雑なイベントに対するパフォーマンスを報告している人的分析アプローチはほとんどない。 この目的のために,特に群集や複合イベントにおいて,人の動き,ポーズ,行動を理解するために,Human-in-Events(Human-centric video analysis in complex Events)と呼ばれる包括的なアノテーションを備えた大規模データセットを提案する。 複雑なイベントにおけるアクションインスタンスの最大数 (>56k) であるポーズ数 (>1M) と、長い時間(平均軌道長は >480 フレーム)続くトラジェクトリの最大数 (the most number of trajectories) を含む。 多様なアノテーションに基づいて,行動認識とポーズ推定のための2つの単純なベースラインを提案する。 トレーニング中のクロスラベル情報を活用して、対応する視覚タスクにおける特徴学習を強化する。 実験により、既存のアクション認識とポーズ推定パイプラインのパフォーマンスが向上することが示された。 さらに重要なことに、hieveの幅広いアノテーションが様々なビデオタスクを改善することを証明している。 さらに,最近のビデオ解析手法をベースライン手法とともにベンチマークするために広範囲な実験を行い,HiEveは人間中心のビデオ解析の挑戦的なデータセットであることを示した。 データセットは、人間中心の分析と複雑な事象の理解における最先端技術の開発を前進させることを期待している。 データセットはhttp://humaninevents.orgで利用可能である。

Along with the development of modern smart cities, human-centric video analysis has been encountering the challenge of analyzing diverse and complex events in real scenes. A complex event relates to dense crowds, anomalous individuals, or collective behaviors. However, limited by the scale and coverage of existing video datasets, few human analysis approaches have reported their performances on such complex events. To this end, we present a new large-scale dataset with comprehensive annotations, named Human-in-Events or HiEve (Human-centric video analysis in complex Events), for the understanding of human motions, poses, and actions in a variety of realistic events, especially in crowd & complex events. It contains a record number of poses (>1M), the largest number of action instances (>56k) under complex events, as well as one of the largest numbers of trajectories lasting for longer time (with an average trajectory length of >480 frames). Based on its diverse annotation, we present two simple baselines for action recognition and pose estimation, respectively. They leverage cross-label information during training to enhance the feature learning in corresponding visual tasks. Experiments show that they could boost the performance of existing action recognition and pose estimation pipelines. More importantly, they prove the widely ranged annotations in HiEve can improve various video tasks. Furthermore, we conduct extensive experiments to benchmark recent video analysis approaches together with our baseline methods, demonstrating HiEve is a challenging dataset for human-centric video analysis. We expect that the dataset will advance the development of cutting-edge techniques in human-centric analysis and the understanding of complex events. The dataset is available at http://humaninevents.org
翻訳日:2023-07-14 18:03:37 公開日:2023-07-13
# 宣言機構設計

Declarative Mechanism Design ( http://arxiv.org/abs/1912.13122v4 )

ライセンス: Link先を確認
Andr\'es Garc\'ia-Camino(参考訳) マルチエージェントシステム(mas)と宣言型電子機関(deis)の規制は、(物理的およびソフトウェア)エージェントと法に関する過去10年間の多分野にわたる研究テーマであったが、最近は2016年以来、ニュースを流用するロボット弁護士へと進化した。 ソフトウェアエージェントの行動を制限する最初の提案の1つは、電子的な機関である。しかしながら、最近のディープラーニング(dl)としての人工ニューラルネットワーク(anns)の改革により、dlの使用に関するセキュリティ、プライバシ、倫理、法的な問題により、人工知能(ai)コミュニティの懸念が高まっている。 現在、MASの規制はほぼ正しく対処されているため、我々はInstitutional Neural Network (INN)と呼ぶ特殊なタイプの制御ニューラルネットワークのエージェントベーストレーニングとして、ニューラルネットワークの規制を提案する。 本研究の目的は,人工学習(AT)に注意を向けることであり,Regulated Deep Learning(RDL)の概念実証実装を示す仮の回答を与えることである。 本稿では,これまで宣言的モデルや電子施設の拡張に用いられてきたsIを,ニューラルネットワークの実行と人工教師(AT)とのインタラクションを規制する手段として紹介する。

Regulation of Multi-Agent Systems (MAS) and Declarative Electronic Institutions (DEIs) was a multidisciplinary research topic of the past decade involving (Physical and Software) Agents and Law since the beginning, but recently evolved towards News-claimed Robot Lawyer since 2016. One of these first proposals of restricting the behaviour of Software Agentswas Electronic Institutions.However, with the recent reformulation of Artificial Neural Networks (ANNs) as Deep Learning (DL), Security, Privacy,Ethical and Legal issues regarding the use of DL has raised concerns in the Artificial Intelligence (AI) Community. Now that the Regulation of MAS is almost correctly addressed, we propose the Regulation of Artificial Neural Networks as Agent-based Training of a special type of regulated Artificial Neural Network that we call Institutional Neural Network (INN).The main purpose of this paper is to bring attention to Artificial Teaching (AT) and to give a tentative answer showing a proof-of-concept implementation of Regulated Deep Learning (RDL). This paper introduces the former concept and provide sI, a language previously used to model declaratively and extend Electronic Institutions, as a means to regulate the execution of Artificial Neural Networks and their interactions with Artificial Teachers (ATs)
翻訳日:2023-07-14 18:03:08 公開日:2023-07-13
# 深部圧縮を用いたコルテックスM型マイクロコントローラを用いたディープラーニングアプリケーションのエネルギー効率向上

Energy-efficient Deployment of Deep Learning Applications on Cortex-M based Microcontrollers using Deep Compression ( http://arxiv.org/abs/2205.10369v2 )

ライセンス: Link先を確認
Mark Deutel and Philipp Woller and Christopher Mutschler and J\"urgen Teich(参考訳) 大きなディープニューラルネットワーク(DNN)は、巨大なデータセットでトレーニングされたときに正確な予測を行う能力のため、今日の人工知能のバックボーンである。 モノのインターネットのような先進的な技術によって、センサーが生成する大量のデータを解釈することが、ますます重要なタスクになりつつある。 しかし、多くのアプリケーションにおいて、予測性能だけでなく、ディープラーニングモデルのエネルギー消費も大きな関心を集めている。 本稿では,資源制約されたマイクロコントローラアーキテクチャ上での深層学習モデルのネットワーク圧縮による効率的な展開について検討する。 本稿では,ARM Cortex-Mをベースとした低消費電力システムを対象とした,異なるDNNプルーニング,量子化,展開戦略の体系的探索手法を提案する。 この調査では、正確性、メモリ消費、実行時間、電力消費といった重要なメトリクス間のトレードオフを分析することができる。 3種類のdnnアーキテクチャの実験結果について検討し, 予測品質が低下する前に, 元のパラメータ数を10\%以下に圧縮できることを示した。 また、cortex-mベースのマイクロコントローラにデプロイし、評価することも可能です。

Large Deep Neural Networks (DNNs) are the backbone of today's artificial intelligence due to their ability to make accurate predictions when being trained on huge datasets. With advancing technologies, such as the Internet of Things, interpreting large quantities of data generated by sensors is becoming an increasingly important task. However, in many applications not only the predictive performance but also the energy consumption of deep learning models is of major interest. This paper investigates the efficient deployment of deep learning models on resource-constrained microcontroller architectures via network compression. We present a methodology for the systematic exploration of different DNN pruning, quantization, and deployment strategies, targeting different ARM Cortex-M based low-power systems. The exploration allows to analyze trade-offs between key metrics such as accuracy, memory consumption, execution time, and power consumption. We discuss experimental results on three different DNN architectures and show that we can compress them to below 10\% of their original parameter count before their predictive quality decreases. This also allows us to deploy and evaluate them on Cortex-M based microcontrollers.
翻訳日:2023-07-14 17:57:09 公開日:2023-07-13
# 深層強化学習におけるスケーラブルな観測モデルを用いた効率よいベイズ政策再利用

Efficient Bayesian Policy Reuse with a Scalable Observation Model in Deep Reinforcement Learning ( http://arxiv.org/abs/2204.07729v3 )

ライセンス: Link先を確認
Jinmei Liu, Zhi Wang, Chunlin Chen, Daoyi Dong(参考訳) ベイジアンポリシー再利用(bpr)は、いくつかの観測信号と訓練された観測モデルに基づいてタスク信念を推論することにより、オフラインライブラリからソースポリシーを選択するための一般的なポリシー転送フレームワークである。 本稿では,深部強化学習(DRL)におけるより効率的な政策伝達を実現するための改良されたBPR手法を提案する。 第一に、ほとんどのBPRアルゴリズムは、限られた情報を含む観察信号として、エピソードの終わりまで取得できないエピソードリターンを使用する。 代わりに、より高速で正確なタスク推論のための観測信号として、情報的かつ瞬時的な状態遷移サンプルを用いる。 第二に、BPRアルゴリズムは、特に状態遷移サンプルを信号として使用する場合、高コストで、学習や維持が不可能なグラフベースの観測モデルの確率分布を推定するために、多くのサンプルを必要とする。 そこで本研究では,対象タスクで観測される信号に一般化可能な,少数のサンプルのみからのソースタスクの状態遷移関数を適合させたスケーラブルな観測モデルを提案する。 さらに,スケーラブルな観察モデルをプラグ・アンド・プレイ方式で拡張することで,新たな未知のタスクに直面する場合の負の転送を回避し,オフラインモードbprを連続学習環境に拡張する。 実験の結果,提案手法はより高速かつ効率的な政策伝達を継続的に促進できることが判明した。

Bayesian policy reuse (BPR) is a general policy transfer framework for selecting a source policy from an offline library by inferring the task belief based on some observation signals and a trained observation model. In this paper, we propose an improved BPR method to achieve more efficient policy transfer in deep reinforcement learning (DRL). First, most BPR algorithms use the episodic return as the observation signal that contains limited information and cannot be obtained until the end of an episode. Instead, we employ the state transition sample, which is informative and instantaneous, as the observation signal for faster and more accurate task inference. Second, BPR algorithms usually require numerous samples to estimate the probability distribution of the tabular-based observation model, which may be expensive and even infeasible to learn and maintain, especially when using the state transition sample as the signal. Hence, we propose a scalable observation model based on fitting state transition functions of source tasks from only a small number of samples, which can generalize to any signals observed in the target task. Moreover, we extend the offline-mode BPR to the continual learning setting by expanding the scalable observation model in a plug-and-play fashion, which can avoid negative transfer when faced with new unknown tasks. Experimental results show that our method can consistently facilitate faster and more efficient policy transfer.
翻訳日:2023-07-14 17:56:52 公開日:2023-07-13
# pegg-net:複雑なシーンにおけるピクセル単位で効率的な把持生成

PEGG-Net: Pixel-Wise Efficient Grasp Generation in Complex Scenes ( http://arxiv.org/abs/2203.16301v3 )

ライセンス: Link先を確認
Haozhe Wang, Zhiyang Liu, Lei Zhou, Huan Yin, and Marcelo H Ang Jr(参考訳) 視覚に基づく把持推定は、現実世界におけるロボット操作タスクの重要な部分である。 既存の平面把握推定アルゴリズムは、比較的単純なシーンでうまく機能することが示されている。 しかし、乱雑な背景や動く物体が散らかっているような複雑なシーンの場合、以前の作品のアルゴリズムは不正確で不安定な接触点を生成する傾向があります。 本研究では,既存の平面把握推定アルゴリズムについて検討し,複雑な場面における課題を解析する。 第2に,複雑なシーンの把握の問題に対処するため,Pixel-wise Efficient Grasp Generation Network (PEGG-Net) を設計する。 PEGG-Netはコーネルデータセット(98.9%)の最先端性能とジャカードデータセット(93.8%)の2番目に高いパフォーマンスを達成でき、複雑な構造を導入することなく既存のアルゴリズムよりも優れている。 第三に、PEGG-Netは位置ベースビジュアルサーボ(PBVS)を使用して動的環境にロバスト性を加えるためにクローズドループで動作することができた。 最後に,異なる複雑な場面において,静的,動的,乱雑な物体について実世界実験を行う。 その結果,提案ネットワークは不規則な物や家庭用物,ワークショップツールの把握において,高い成功率を達成した。 コミュニティに利益をもたらすため、トレーニングされたモデルと補助資料はhttps://github.com/HZWang96/PEGG-Net.comで入手できる。

Vision-based grasp estimation is an essential part of robotic manipulation tasks in the real world. Existing planar grasp estimation algorithms have been demonstrated to work well in relatively simple scenes. But when it comes to complex scenes, such as cluttered scenes with messy backgrounds and moving objects, the algorithms from previous works are prone to generate inaccurate and unstable grasping contact points. In this work, we first study the existing planar grasp estimation algorithms and analyze the related challenges in complex scenes. Secondly, we design a Pixel-wise Efficient Grasp Generation Network (PEGG-Net) to tackle the problem of grasping in complex scenes. PEGG-Net can achieve improved state-of-the-art performance on the Cornell dataset (98.9%) and second-best performance on the Jacquard dataset (93.8%), outperforming other existing algorithms without the introduction of complex structures. Thirdly, PEGG-Net could operate in a closed-loop manner for added robustness in dynamic environments using position-based visual servoing (PBVS). Finally, we conduct real-world experiments on static, dynamic, and cluttered objects in different complex scenes. The results show that our proposed network achieves a high success rate in grasping irregular objects, household objects, and workshop tools. To benefit the community, our trained model and supplementary materials are available at https://github.com/HZWang96/PEGG-Net.
翻訳日:2023-07-14 17:56:26 公開日:2023-07-13
# マルコフデータを用いた確率最適化における混合時間適応

Adapting to Mixing Time in Stochastic Optimization with Markovian Data ( http://arxiv.org/abs/2202.04428v3 )

ライセンス: Link先を確認
Ron Dorfman, Kfir Y. Levy(参考訳) 我々は、データがマルコフ連鎖から引き出される確率的最適化問題を考える。 この設定の既存の方法は、実世界のアプリケーションでは通常未知の連鎖の混合時間を知ることに依存している。 混合時間に関する知識を必要としない最初の最適化手法を提案するが、凸問題に適用した場合に最適な漸近収束率が得られる。 さらに、我々のアプローチは次のように拡張できることを示す。 (i)マルコフデータを用いた非凸最適化における定常点の探索 (II) 時間差学習における混合時間への依存性が向上し, いずれの場合も, 混合時間には全く依存しない。 本手法は,適応学習法とともに,マルチレベルモンテカルロ勾配推定(MLMC)の新たな組み合わせに依存する。

We consider stochastic optimization problems where data is drawn from a Markov chain. Existing methods for this setting crucially rely on knowing the mixing time of the chain, which in real-world applications is usually unknown. We propose the first optimization method that does not require the knowledge of the mixing time, yet obtains the optimal asymptotic convergence rate when applied to convex problems. We further show that our approach can be extended to: (i) finding stationary points in non-convex optimization with Markovian data, and (ii) obtaining better dependence on the mixing time in temporal difference (TD) learning; in both cases, our method is completely oblivious to the mixing time. Our method relies on a novel combination of multi-level Monte Carlo (MLMC) gradient estimation together with an adaptive learning method.
翻訳日:2023-07-14 17:56:01 公開日:2023-07-13
# ディープフェイク検出のためのブロックシャッフル学習

Block shuffling learning for Deepfake Detection ( http://arxiv.org/abs/2202.02819v2 )

ライセンス: Link先を確認
Sitong Liu, Zhichao Lian, Siqi Gu, Liang Xiao(参考訳) 畳み込みニューラルネットワーク(CNN)に基づくディープフェイク検出手法は精度が高いことを示した。 しかし、これらのメソッドは、未知の偽造メソッドや、再サイズやぼやけなどの一般的な変換に直面してパフォーマンスが低下し、トレーニングとテストドメインのずれが発生することが多い。 オーバーフィッティング(overfitting)として知られるこの現象は、大きな課題を引き起こします。 そこで本研究では,新しいブロックシャッフル正規化法を提案する。 まず,画像のブロック分割を行い,ブロック内シャッフル法とブロック間シャッフル法を併用する。 このプロセスは間接的に異なる次元にわたる重み共有を実現する。 第2に,シャッフルノイズによるオーバーフィッティング問題を軽減するための逆損失アルゴリズムを提案する。 最後に,ブロックの空間的レイアウトを復元し,それらの意味的関連を捉える。 大規模な実験により,偽顔検出における既存手法を超越した提案手法の有効性が検証された。 特に,この手法は汎用性に優れ,データセット間評価や共通画像変換に対する頑健性を示す。 特に本手法は様々なCNNモデルと容易に統合できる。 ソースコードは \href{https://github.com/nowindbutrain/blockshufflelearning}{github}で入手できる。

Deepfake detection methods based on convolutional neural networks (CNN) have demonstrated high accuracy. \textcolor{black}{However, these methods often suffer from decreased performance when faced with unknown forgery methods and common transformations such as resizing and blurring, resulting in deviations between training and testing domains.} This phenomenon, known as overfitting, poses a significant challenge. To address this issue, we propose a novel block shuffling regularization method. Firstly, our approach involves dividing the images into blocks and applying both intra-block and inter-block shuffling techniques. This process indirectly achieves weight-sharing across different dimensions. Secondly, we introduce an adversarial loss algorithm to mitigate the overfitting problem induced by the shuffling noise. Finally, we restore the spatial layout of the blocks to capture the semantic associations among them. Extensive experiments validate the effectiveness of our proposed method, which surpasses existing approaches in forgery face detection. Notably, our method exhibits excellent generalization capabilities, demonstrating robustness against cross-dataset evaluations and common image transformations. Especially our method can be easily integrated with various CNN models. Source code is available at \href{https://github.com/NoWindButRain/BlockShuffleLearning}{Github}.
翻訳日:2023-07-14 17:55:49 公開日:2023-07-13
# 先進的な学習: 原理的外挿から未来へ

Prospective Learning: Principled Extrapolation to the Future ( http://arxiv.org/abs/2201.07372v2 )

ライセンス: Link先を確認
Ashwin De Silva, Rahul Ramesh, Lyle Ungar, Marshall Hussain Shuler, Noah J. Cowan, Michael Platt, Chen Li, Leyla Isik, Seung-Eon Roh, Adam Charles, Archana Venkataraman, Brian Caffo, Javier J. How, Justus M Kebschull, John W. Krakauer, Maxim Bichuch, Kaleab Alemayehu Kinfu, Eva Yezerets, Dinesh Jayaraman, Jong M. Shin, Soledad Villar, Ian Phillips, Carey E. Priebe, Thomas Hartung, Michael I. Miller, Jayanta Dey, Ningyuan (Teresa) Huang, Eric Eaton, Ralph Etienne-Cummings, Elizabeth L. Ogburn, Randal Burns, Onyema Osuagwu, Brett Mensh, Alysson R. Muotri, Julia Brown, Chris White, Weiwei Yang, Andrei A. Rusu, Timothy Verstynen, Konrad P. Kording, Pratik Chaudhari, Joshua T. Vogelstein(参考訳) 学習は、過去の経験に基づいて意思決定ルールを更新できるプロセスであり、将来のパフォーマンスが向上する。 伝統的に、機械学習はしばしば、未来は分布や変化において過去と同一であると仮定して評価される。 しかし、これらの仮定は現実の多くの問題に対して楽観的すぎるか悲観的すぎる可能性がある。 実世界のシナリオは、部分的に予測可能なダイナミクスを持つ複数の時空間スケールで進化する。 ここでは、部分的に学習可能な動的未来の概念を中心に学習問題を再構成する。 タスクの特定のシーケンスは、振り返りで学習可能ではなく(データ分布が固定されている場合)、確率的に学習可能であり(分布が動的である場合)、振り返り学習よりも予測学習が難しいことを示唆する。 予測学習は,(1)現在存在する人工知能ソリューションを汚し,(2)自然知能の解決方法に関する十分な説明を欠いている現実の問題を,より正確に特徴づけるものである,と我々は主張する。 したがって、先進的な学習を研究することは、自然と人工知能の両方で現在困っている課題に対する深い洞察と解決策をもたらすだろう。

Learning is a process which can update decision rules, based on past experience, such that future performance improves. Traditionally, machine learning is often evaluated under the assumption that the future will be identical to the past in distribution or change adversarially. But these assumptions can be either too optimistic or pessimistic for many problems in the real world. Real world scenarios evolve over multiple spatiotemporal scales with partially predictable dynamics. Here we reformulate the learning problem to one that centers around this idea of dynamic futures that are partially learnable. We conjecture that certain sequences of tasks are not retrospectively learnable (in which the data distribution is fixed), but are prospectively learnable (in which distributions may be dynamic), suggesting that prospective learning is more difficult in kind than retrospective learning. We argue that prospective learning more accurately characterizes many real world problems that (1) currently stymie existing artificial intelligence solutions and/or (2) lack adequate explanations for how natural intelligences solve them. Thus, studying prospective learning will lead to deeper insights and solutions to currently vexing challenges in both natural and artificial intelligences.
翻訳日:2023-07-14 17:55:01 公開日:2023-07-13
# 遺伝的指数家族のブレグマン偏差

Bregman Deviations of Generic Exponential Families ( http://arxiv.org/abs/2201.07306v4 )

ライセンス: Link先を確認
Sayak Ray Chowdhury, Patrick Saux, Odalric-Ambrym Maillard, Aditya Gopalan(参考訳) ラプラス法(Laplace method)とも呼ばれる混合手法の手法を再検討し、一般指数族における濃度現象について検討する。 家系の対数分割関数に付随するブレグマン分岐の性質とスーパーマーチンガーの混合法を組み合わせることで、家族のパラメータとパラメータの有限サンプル推定値との間のブレグマン分岐を制御するジェネリック境界を確立する。 我々の境界は時間的一様であり、古典的な情報ゲインを指数関数族に拡張する量として現れ、ブレグマン情報ゲインと呼ぶ。 実践者にとって、この小説はガウス家、ベルヌーイ家、指数家、ワイブル家、パレート家、ポアソン家、チ・クォーター家といった古典的な家族に縛られ、信頼セットとブレグマンの情報ゲインの明示的な形式をもたらす。 さらに,結果の信頼度境界を時間一様濃度に対する最先端の代替案と比較し,この新手法が競合結果をもたらすことを示す。 最後に、いくつかの説明的応用における濃度境界の利点を強調する。

We revisit the method of mixture technique, also known as the Laplace method, to study the concentration phenomenon in generic exponential families. Combining the properties of Bregman divergence associated with log-partition function of the family with the method of mixtures for super-martingales, we establish a generic bound controlling the Bregman divergence between the parameter of the family and a finite sample estimate of the parameter. Our bound is time-uniform and makes appear a quantity extending the classical information gain to exponential families, which we call the Bregman information gain. For the practitioner, we instantiate this novel bound to several classical families, e.g., Gaussian, Bernoulli, Exponential, Weibull, Pareto, Poisson and Chi-square yielding explicit forms of the confidence sets and the Bregman information gain. We further numerically compare the resulting confidence bounds to state-of-the-art alternatives for time-uniform concentration and show that this novel method yields competitive results. Finally, we highlight the benefit of our concentration bounds on some illustrative applications.
翻訳日:2023-07-14 17:54:41 公開日:2023-07-13
# 新規方向の物体への一般化のための創発的ニューラルネットワーク機構

Emergent Neural Network Mechanisms for Generalization to Objects in Novel Orientations ( http://arxiv.org/abs/2109.13445v2 )

ライセンス: Link先を確認
Avi Cooper, Xavier Boix, Daniel Harari, Spandan Madan, Hanspeter Pfister, Tomotake Sasaki, Pawan Sinha(参考訳) トレーニングデータの分布外の方向のオブジェクトを認識するディープニューラルネットワーク(DNN)の能力は、よく理解されていない。 我々は,DNNが,多くの視点から見れば親しみのある対象から得られる配向不変性を分散させることにより,新しい向きのオブジェクトに一般化できることを示す。 この能力は、DNNを慣れ親しんだ物体の数が増加するにつれて強化されるが、慣れ親しんだ向きの2次元回転を含む方向のみに限られる。 この伝播は,慣れ親しんだ物体と未知の物体の共通した特徴に合わせて調節されたニューロンによって達成される。 これらの結果は、一般化のための脳のような神経機構を暗示する。

The capability of Deep Neural Networks (DNNs) to recognize objects in orientations outside the distribution of the training data is not well understood. We present evidence that DNNs are capable of generalizing to objects in novel orientations by disseminating orientation-invariance obtained from familiar objects seen from many viewpoints. This capability strengthens when training the DNN with an increasing number of familiar objects, but only in orientations that involve 2D rotations of familiar orientations. We show that this dissemination is achieved via neurons tuned to common features between familiar and unfamiliar objects. These results implicate brain-like neural mechanisms for generalization.
翻訳日:2023-07-14 17:54:19 公開日:2023-07-13
# wassersteinの不一致によるマルチレベルハイパーグラフ分割のためのバランスのとれた粗さ処理

Balanced Coarsening for Multilevel Hypergraph Partitioning via Wasserstein Discrepancy ( http://arxiv.org/abs/2106.07501v2 )

ライセンス: Link先を確認
Zhicheng Guo, Jiaxuan Zhao, Licheng Jiao, Xu Liu(参考訳) マルチレベルハイパーグラフ分割のためのバランスの取れた粗大化方式を提案する。 さらに,k方向ハイパーグラフ分割の品質向上のために,初期分割アルゴリズムが設計された。 LPTアルゴリズムにより頂点重みを割り当てることで、緩和バランス制約の下で先行ハイパーグラフを生成する。 先行ハイパーグラフを用いて,粗粒化過程の最適移動をコーディネートするために,wassersteinの不一致を定義した。 そして、最適輸送行列をシンクホーンアルゴリズムにより解く。 我々の粗面化スキームは接続距離(目的関数)の最小化を十分に考慮している。 最初の分割の段階では、フィドラーベクトルによって誘導される正規化カット関数を定義し、理論的には凹関数であることが証明される。 これにより、バランス制約の下で最適なカットを見つけるための3点アルゴリズムが設計される。

We propose a balanced coarsening scheme for multilevel hypergraph partitioning. In addition, an initial partitioning algorithm is designed to improve the quality of k-way hypergraph partitioning. By assigning vertex weights through the LPT algorithm, we generate a prior hypergraph under a relaxed balance constraint. With the prior hypergraph, we have defined the Wasserstein discrepancy to coordinate the optimal transport of coarsening process. And the optimal transport matrix is solved by Sinkhorn algorithm. Our coarsening scheme fully takes into account the minimization of connectivity metric (objective function). For the initial partitioning stage, we define a normalized cut function induced by Fiedler vector, which is theoretically proved to be a concave function. Thereby, a three-point algorithm is designed to find the best cut under the balance constraint.
翻訳日:2023-07-14 17:54:07 公開日:2023-07-13
# 一般化ラプラシア正規化フレームレットグラフニューラルネットワーク

Generalized Laplacian Regularized Framelet Graph Neural Networks ( http://arxiv.org/abs/2210.15092v2 )

ライセンス: Link先を確認
Zhiqi Shao, Andi Han, Dai Shi, Andrey Vasnev and Junbin Gao(参考訳) 本稿では,p-Laplacian GNNに基づく新しいフレームレットグラフ手法を提案する。 提案した2つのモデル、p-Laplacian undecimated framelet graph convolution (pL-UFG) と一般化されたp-Laplacian undecimated framelet graph convolution (pL-fUFG) は、グラフ信号の多重分解の表現力でp-Laplacianの性質を継承する。 実験では,ノード分類や信号の復調を含むグラフ学習タスクにおいて,pL-UFGとpL-fUFGの優れた性能を強調した。

This paper introduces a novel Framelet Graph approach based on p-Laplacian GNN. The proposed two models, named p-Laplacian undecimated framelet graph convolution (pL-UFG) and generalized p-Laplacian undecimated framelet graph convolution (pL-fUFG) inherit the nature of p-Laplacian with the expressive power of multi-resolution decomposition of graph signals. The empirical study highlights the excellent performance of the pL-UFG and pL-fUFG in different graph learning tasks including node classification and signal denoising.
翻訳日:2023-07-14 17:48:37 公開日:2023-07-13
# ルール:ルール埋め込みによるニューラルシンボリック知識グラフ推論

RulE: Neural-Symbolic Knowledge Graph Reasoning with Rule Embedding ( http://arxiv.org/abs/2210.14905v2 )

ライセンス: Link先を確認
Xiaojuan Tang, Song-Chun Zhu, Yitao Liang, Muhan Zhang(参考訳) 知識グラフ推論(KG)は知識グラフにとって重要な問題である。 本稿では,論理的ルールを効果的に活用し,KG推論を強化するために,‘textbf{RulE}({Rul}e {E}mbedding)’という新奇で原則化されたフレームワークを提案する。 知識グラフ埋め込み (KGE) 法とは異なり、RulE は既存の三重項と一階述語 {rules} から規則埋め込みを学習し、統合埋め込み空間において \textbf{entities}, \textbf{relations}, \textbf{logical rules} を共同で表現する。 学習したルールの埋め込みに基づいて、各ルールに対する信頼スコアを計算し、観察された三重項との整合性を反映する。 これにより、論理規則推論をソフトな方法で実行し、論理の脆さを軽減することができる。 一方、RulEは事前の論理ルール情報を埋め込み空間に注入し、エンティティ/リレーショナル埋め込みを豊かにし、規則化する。 これによりKGEのみのパフォーマンスも向上する。 RulEは概念的にはシンプルで、経験的に有効です。 我々はRulEの各成分を検証するために広範な実験を行う。 複数のベンチマークの結果、我々のモデルは既存の埋め込みベースのアプローチやルールベースのアプローチよりも優れています。

Knowledge graph (KG) reasoning is an important problem for knowledge graphs. In this paper, we propose a novel and principled framework called \textbf{RulE} (stands for {Rul}e {E}mbedding) to effectively leverage logical rules to enhance KG reasoning. Unlike knowledge graph embedding (KGE) methods, RulE learns rule embeddings from existing triplets and first-order {rules} by jointly representing \textbf{entities}, \textbf{relations} and \textbf{logical rules} in a unified embedding space. Based on the learned rule embeddings, a confidence score can be calculated for each rule, reflecting its consistency with the observed triplets. This allows us to perform logical rule inference in a soft way, thus alleviating the brittleness of logic. On the other hand, RulE injects prior logical rule information into the embedding space, enriching and regularizing the entity/relation embeddings. This makes KGE alone perform better too. RulE is conceptually simple and empirically effective. We conduct extensive experiments to verify each component of RulE. Results on multiple benchmarks reveal that our model outperforms the majority of existing embedding-based and rule-based approaches.
翻訳日:2023-07-14 17:48:23 公開日:2023-07-13
# 逐次モデルに対する適合の良さに関するカーネルスタイン検定

A kernel Stein test of goodness of fit for sequential models ( http://arxiv.org/abs/2210.10741v3 )

ライセンス: Link先を確認
Jerome Baum and Heishiro Kanagawa and Arthur Gretton(参考訳) 本稿では,長さの異なるテキスト文書や可変長列など,次元の異なる確率密度モデリング観測のための適合度尺度を提案する。 提案手法はkernel stein discrepancy(ksd)の例であり、非正規化密度に対する適合性テストの構築に用いられている。 KSD はシュタイン作用素によって定義される: テストで使用される現在の作用素は固定次元空間に適用される。 我々の主な貢献として、適切なスタイン作用素を同定して ksd を可変次元に拡張し、新しい ksd goodness-of-fit test を提案する。 以前の変種と同様に、提案されたksdは密度を正規化する必要がなく、大きなモデルのクラスを評価することができる。 我々のテストは、離散的なシーケンシャルなデータベンチマークで実際によく機能することが示されている。

We propose a goodness-of-fit measure for probability densities modeling observations with varying dimensionality, such as text documents of differing lengths or variable-length sequences. The proposed measure is an instance of the kernel Stein discrepancy (KSD), which has been used to construct goodness-of-fit tests for unnormalized densities. The KSD is defined by its Stein operator: current operators used in testing apply to fixed-dimensional spaces. As our main contribution, we extend the KSD to the variable-dimension setting by identifying appropriate Stein operators, and propose a novel KSD goodness-of-fit test. As with the previous variants, the proposed KSD does not require the density to be normalized, allowing the evaluation of a large class of models. Our test is shown to perform well in practice on discrete sequential data benchmarks.
翻訳日:2023-07-14 17:47:58 公開日:2023-07-13
# ゼロショット学習の再バランス

Rebalanced Zero-shot Learning ( http://arxiv.org/abs/2210.07031v2 )

ライセンス: Link先を確認
Zihan Ye, Guanyu Yang, Xiaobo Jin, Youfa Liu, Kaizhu Huang(参考訳) Zero-shot Learning (ZSL)は、トレーニング中にサンプルがゼロの未確認クラスを特定することを目的としている。 一般的に言えば、現在のzslメソッドは通常クラスレベルのセマンティクスラベルを採用し、インスタンスレベルのセマンティクス予測と比較して、見当たらないクラスを推測する。 しかし、これらの既存モデルは、主に不均衡なセマンティック予測を生成すること、すなわち、これらのモデルは、いくつかのセマンティクスに対して正確に機能するが、他のセマンティクスでは機能しない可能性があることを発見した。 この欠点に対処するために、ZSLに不均衡学習フレームワークを導入することを目的とする。 しかし,不均衡なZSLには,(1)不均衡な予測と従来の不均衡な学習におけるサンプル数ではなく意味的ラベルの値との相関が強く,(2)異なる意味論はクラス間のエラー分布に大きく従う。 これらの問題を緩和するために、まずZSLを不均衡回帰問題として定式化し、セマンティックラベルが不均衡なセマンティック予測にどのように寄与するかを実証的な証拠を提供する。 そこで本研究では,誤差分布の平均とばらつきを追跡し,クラス間での再バランス学習を保証する再重み付け型平均二乗誤差(remse)を提案する。 主な貢献として、理論上ReMSEが確立されていることを示す一連の分析を行う。 広範な実験により,提案手法は意味予測の不均衡を効果的に緩和し,最先端zsl法を上回った。 私たちのコードはhttps://github.com/FouriYe/ReZSL-TIP23.comで利用可能です。

Zero-shot learning (ZSL) aims to identify unseen classes with zero samples during training. Broadly speaking, present ZSL methods usually adopt class-level semantic labels and compare them with instance-level semantic predictions to infer unseen classes. However, we find that such existing models mostly produce imbalanced semantic predictions, i.e. these models could perform precisely for some semantics, but may not for others. To address the drawback, we aim to introduce an imbalanced learning framework into ZSL. However, we find that imbalanced ZSL has two unique challenges: (1) Its imbalanced predictions are highly correlated with the value of semantic labels rather than the number of samples as typically considered in the traditional imbalanced learning; (2) Different semantics follow quite different error distributions between classes. To mitigate these issues, we first formalize ZSL as an imbalanced regression problem which offers empirical evidences to interpret how semantic labels lead to imbalanced semantic predictions. We then propose a re-weighted loss termed Re-balanced Mean-Squared Error (ReMSE), which tracks the mean and variance of error distributions, thus ensuring rebalanced learning across classes. As a major contribution, we conduct a series of analyses showing that ReMSE is theoretically well established. Extensive experiments demonstrate that the proposed method effectively alleviates the imbalance in semantic prediction and outperforms many state-of-the-art ZSL methods. Our code is available at https://github.com/FouriYe/ReZSL-TIP23.
翻訳日:2023-07-14 17:47:35 公開日:2023-07-13
# 離散的アクター批判の再考

Revisiting Discrete Soft Actor-Critic ( http://arxiv.org/abs/2209.10081v3 )

ライセンス: Link先を確認
Haibin Zhou, Zichuan Lin, Junyou Li, Qiang Fu, Wei Yang, Deheng Ye(参考訳) 本研究では,ソフトアクター・クリティック(SAC)の連続的な行動空間から離散的な行動空間への適応について検討する。 我々はバニラSACを再検討し、個別設定に適用した場合のQ値の過小評価と性能不安定問題を詳細に理解する。 そこで本研究では,エントロピーペナルティとq-clipを用いた二重平均q-learningを提案する。 アタリゲームや大規模なMOBAゲームなど、離散的なアクション空間を持つ典型的なベンチマーク実験により、提案手法の有効性が示された。 私たちのコードは:https://github.com/coldsummerday/Revisiting-Discrete-SACです。

We study the adaption of soft actor-critic (SAC) from continuous action space to discrete action space. We revisit vanilla SAC and provide an in-depth understanding of its Q value underestimation and performance instability issues when applied to discrete settings. We thereby propose entropy-penalty and double average Q-learning with Q-clip to address these issues. Extensive experiments on typical benchmarks with discrete action space, including Atari games and a large-scale MOBA game, show the efficacy of our proposed method. Our code is at:https://github.com/coldsummerday/Revisiting-Discrete-SAC.
翻訳日:2023-07-14 17:47:07 公開日:2023-07-13
# データ拡張はハイパーパラメータである:チェリーピックによる教師なし異常検出のためのセルフスーパービジョンは成功の錯覚を生み出す

Data Augmentation is a Hyperparameter: Cherry-picked Self-Supervision for Unsupervised Anomaly Detection is Creating the Illusion of Success ( http://arxiv.org/abs/2208.07734v5 )

ライセンス: Link先を確認
Jaemin Yoo, Tiancheng Zhao, and Leman Akoglu(参考訳) 自己教師付き学習(SSL)は、手動ラベリングの大幅なコストを回避し、現実の問題に対する監督的な信号を作成するための有望な代替手段として登場した。 SSLは、ラベル付き異常が稀で、しばしば存在しない、異常検出(AD)のような教師なしのタスクには特に魅力的である。 画像データに対するsslベースの広告(ssad)には、拡張機能の大規模なカタログが使われており、最近の研究では、拡張のタイプが精度に大きな影響を与えていると報告されている。 この研究の動機は、画像ベースのssadをより大きなレンズの下に置き、ssadにおけるデータ拡張の役割を調べることだ。 3つの異なる検出器モデルと420のADタスクに関する広範な実験を通じて、データの増大と異常発生機構の整合がSSADの成功の鍵であり、その欠如によりSSLが精度を損なう可能性があるという包括的な数値的および視覚的証拠を提供する。 我々の知る限りでは、SSADにおけるデータ拡張の役割に関する最初のメタ分析である。

Self-supervised learning (SSL) has emerged as a promising alternative to create supervisory signals to real-world problems, avoiding the extensive cost of manual labeling. SSL is particularly attractive for unsupervised tasks such as anomaly detection (AD), where labeled anomalies are rare or often nonexistent. A large catalog of augmentation functions has been used for SSL-based AD (SSAD) on image data, and recent works have reported that the type of augmentation has a significant impact on accuracy. Motivated by those, this work sets out to put image-based SSAD under a larger lens and investigate the role of data augmentation in SSAD. Through extensive experiments on 3 different detector models and across 420 AD tasks, we provide comprehensive numerical and visual evidences that the alignment between data augmentation and anomaly-generating mechanism is the key to the success of SSAD, and in the lack thereof, SSL may even impair accuracy. To the best of our knowledge, this is the first meta-analysis on the role of data augmentation in SSAD.
翻訳日:2023-07-14 17:46:59 公開日:2023-07-13
# 連想記憶モデルを用いた実世界のデータの分類と生成

Classification and Generation of real-world data with an Associative Memory Model ( http://arxiv.org/abs/2207.04827v4 )

ライセンス: Link先を確認
Rodrigo Simas, Luis Sa-Couto, and Andreas Wichert(参考訳) 記憶から何年にもわたって見たことのない友人の顔を描くのは難しい仕事です。 しかし、もしパスを越えた場合、容易にお互いを認識することができます。 生体記憶には、本質を記憶し、その詳細を推測して知覚と一致させることができる印象的な圧縮アルゴリズムが備わっている。 ウィルショーメモリは、生体記憶のメカニズムを実装する皮質計算のための単純な抽象モデルである。 このモデルでは,最近提案したスパース符号化法を用いて,実世界の膨大なデータをフォールトトレラントな方法で保存し,検索することができる。 本稿では,マルチモーダル・フレームワークを用いて,基本的な連想記憶モデルの能力を拡張する。 この設定では、メモリは、各パターンのいくつかのモダリティ(例えば、ビジュアルまたはテキスト)を同時に格納する。 トレーニング後、メモリは、サブセットが認識されたときに欠落したモダリティを推測するために使用できる。 単純なエンコーダメモリデコーダアーキテクチャと、新しく提案されたwillshawモデルの反復検索アルゴリズムを用いて、mnistデータセットについて実験を行った。 イメージとラベルの両方をモダリティとして格納することで、単一のメモリをパターンの検索と完了だけでなく、新しいメモリの分類と生成にも使用できる。 さらに,このモデルが他の学習タスクにどのように使われるのかを議論し,生物学的にインスパイアされた学習フレームワークとして機能する。

Drawing from memory the face of a friend you have not seen in years is a difficult task. However, if you happen to cross paths, you would easily recognize each other. The biological memory is equipped with an impressive compression algorithm that can store the essential, and then infer the details to match perception. The Willshaw Memory is a simple abstract model for cortical computations which implements mechanisms of biological memories. Using our recently proposed sparse coding prescription for visual patterns, this model can store and retrieve an impressive amount of real-world data in a fault-tolerant manner. In this paper, we extend the capabilities of the basic Associative Memory Model by using a Multiple-Modality framework. In this setting, the memory stores several modalities (e.g., visual, or textual) of each pattern simultaneously. After training, the memory can be used to infer missing modalities when just a subset is perceived. Using a simple encoder-memory-decoder architecture, and a newly proposed iterative retrieval algorithm for the Willshaw Model, we perform experiments on the MNIST dataset. By storing both the images and labels as modalities, a single Memory can be used not only to retrieve and complete patterns but also to classify and generate new ones. We further discuss how this model could be used for other learning tasks, thus serving as a biologically-inspired framework for learning.
翻訳日:2023-07-14 17:45:34 公開日:2023-07-13
# SAN: 分別正規化線形層によるGANの誘電性誘導

SAN: Inducing Metrizability of GAN with Discriminative Normalized Linear Layer ( http://arxiv.org/abs/2301.12811v2 )

ライセンス: Link先を確認
Yuhta Takida, Masaaki Imaizumi, Takashi Shibuya, Chieh-Hsin Lai, Toshimitsu Uesaka, Naoki Murata, Yuki Mitsufuji(参考訳) generative adversarial networks(gans)は、ミニマックス目的のジェネレータと判別器を最適化することにより、ターゲット確率分布を学習する。 本稿では,そのような最適化が,その分布を目標分布に近づける勾配を生成器に実際に与えるかどうかという問題に対処する。 我々は、GAN定式化とスライスされた最適輸送の概念を結合することにより、判別器が分布間の距離として機能する十分な条件を導出する。 さらに,これらの理論結果を活用して,slicing adversarial network (san) と呼ばれる新しいganトレーニング手法を提案する。 単純な修正だけで、既存のGANの幅広いクラスをSANに変換することができる。 合成および画像データセットの実験は、通常のGANと比較して、我々の理論結果とSANの有効性を支持する。 さらに、SANをStyleGAN-XLに適用し、ImageNet 256$\times$256のクラス条件生成のために、GAN間で最先端のFIDスコアを得る。

Generative adversarial networks (GANs) learn a target probability distribution by optimizing a generator and a discriminator with minimax objectives. This paper addresses the question of whether such optimization actually provides the generator with gradients that make its distribution close to the target distribution. We derive metrizable conditions, sufficient conditions for the discriminator to serve as the distance between the distributions by connecting the GAN formulation with the concept of sliced optimal transport. Furthermore, by leveraging these theoretical results, we propose a novel GAN training scheme, called slicing adversarial network (SAN). With only simple modifications, a broad class of existing GANs can be converted to SANs. Experiments on synthetic and image datasets support our theoretical results and the SAN's effectiveness as compared to usual GANs. Furthermore, we also apply SAN to StyleGAN-XL, which leads to state-of-the-art FID score amongst GANs for class conditional generation on ImageNet 256$\times$256.
翻訳日:2023-07-14 17:37:18 公開日:2023-07-13
# 強化学習における変圧器の検討

A Survey on Transformers in Reinforcement Learning ( http://arxiv.org/abs/2301.03044v2 )

ライセンス: Link先を確認
Wenzhe Li, Hao Luo, Zichuan Lin, Chongjie Zhang, Zongqing Lu, Deheng Ye(参考訳) Transformer は NLP と CV において支配的なニューラルネットワークアーキテクチャと見なされている。 近年、強化学習(RL)分野においてトランスフォーマーの使用が急増しているが、RLの性質によってもたらされるユニークな設計選択と課題に直面している。 しかし、RLにおけるトランスフォーマーの進化は、まだよく分かっていない。 本稿では,RLにおけるトランスフォーマーの利用のモチベーションと進歩を体系的に検証し,既存の作業の分類を提供し,各サブフィールドについて議論し,今後の展望を要約する。

Transformer has been considered the dominating neural architecture in NLP and CV, mostly under supervised settings. Recently, a similar surge of using Transformers has appeared in the domain of reinforcement learning (RL), but it is faced with unique design choices and challenges brought by the nature of RL. However, the evolution of Transformers in RL has not yet been well unraveled. In this paper, we seek to systematically review motivations and progress on using Transformers in RL, provide a taxonomy on existing works, discuss each sub-field, and summarize future prospects.
翻訳日:2023-07-14 17:37:02 公開日:2023-07-13
# 再帰的MWPM復号による表面符号の性能向上

Performance enhancement of surface codes via recursive MWPM decoding ( http://arxiv.org/abs/2212.11632v3 )

ライセンス: Link先を確認
Antonio deMarti iOlius, Josu Etxezarreta Martinez, Patricio Fuentes and Pedro M. Crespo(参考訳) 最小重み完全マッチング(MWPM decoder)は、量子曲面符号の標準的な復号法である。 しかし、バイアスまたは非同一の量子ノイズを受けると、性能が著しく低下する。 本研究では,従来のMWPMデコーダを改良し,与えられた曲面符号の構成量子ビットのバイアス,非均一性,および$X$,$Y$および$Z$の関係を考察する。 再帰的MWPMデコーダ(recursive MWPM decoder)と呼ぶ我々の修正手法は、偏極雑音下での確率閾値$p_{th}$の18 %$の改善が得られる。 また、偏りのあるノイズや、最先端の量子プロセッサで実施した測定結果から導かれた独立な非同定分散(ni.d.)誤差モデルを考えると、性能が大幅に向上する。 事実 i.ni.d.の対象となると ノイズ、再帰的なMWPMデコーダは従来のMWPM戦略よりも105.5\%の性能向上をもたらし、場合によってはよく知られた脱分極チャネルよりも性能を上回っている。

The minimum weight perfect matching (MWPM) decoder is the standard decoding strategy for quantum surface codes. However, it suffers a harsh decrease in performance when subjected to biased or non-identical quantum noise. In this work, we modify the conventional MWPM decoder so that it considers the biases, the non-uniformities and the relationship between $X$, $Y$ and $Z$ errors of the constituent qubits of a given surface code. Our modified approach, which we refer to as the recursive MWPM decoder, obtains an $18\%$ improvement in the probability threshold $p_{th}$ under depolarizing noise. We also obtain significant performance improvements when considering biased noise and independent non-identically distributed (i.ni.d.) error models derived from measurements performed on state-of-the-art quantum processors. In fact, when subjected to i.ni.d. noise, the recursive MWPM decoder yields a performance improvement of $105.5\%$ over the conventional MWPM strategy and, in some cases, it even surpasses the performance obtained over the well-known depolarizing channel.
翻訳日:2023-07-14 17:36:51 公開日:2023-07-13
# 量子画像の多光子相関

Multiphoton Correlations between Quantum Images ( http://arxiv.org/abs/2211.08674v3 )

ライセンス: Link先を確認
Serge Massar, Fabrice Devaux, Eric Lantz(参考訳) パラメトリックダウンコンバージョンによって生じる絡み合った量子画像の実験は、これまで2つの光子相関の研究に限られてきた。 ここでは,量子画像間の多重光子相関を実験的に把握し,bi-光子波動関数の位相に敏感ななど,多くの新機能を示す。 具体例として,CCDカメラを焦点から遠ざけるような既存の量子イメージング実験の修正を検討し,その結果の4光子干渉の詳細な解析予測を行い,数値シミュレーションによる支援を行う。 ボブの光子は最初は絡み合っていないが、アリスの光子の合同検出はボブの光子を絡み合う状態に投影する。 ここで提案される一般的なアプローチは、高次元の絡み合いを含む他の量子光学実験に拡張することができる。

Experimental demonstrations of entangled quantum images produced through parametric downconversion have so far been confined to studying two photon correlations. Here we show that multiphoton correlations between quantum images are accessible experimentally and exhibit many new features including being sensitive to the phase of the bi-photon wavefunction. As a concrete example, we consider a modification of existing quantum imaging experiments in which the CCD cameras are moved out of focus, provide detailed analytical predictions for the resulting 4 photon intereferences, and support these by numerical simulations. The proposed experiment can also be interpreted as entanglement swapping: Bob's photons are initially unentangled, but the joint detection of Alice's photons projects Bob's photons onto an entangled state. The general approach proposed here can be extended to other quantum optics experiments involving high dimensional entanglement.
翻訳日:2023-07-14 17:36:00 公開日:2023-07-13
# 制御トランスフォーマー:prm誘導戻り条件系列モデリングによる未知環境におけるロボットナビゲーション

Control Transformer: Robot Navigation in Unknown Environments through PRM-Guided Return-Conditioned Sequence Modeling ( http://arxiv.org/abs/2211.06407v3 )

ライセンス: Link先を確認
Daniel Lawson, Ahmed H. Qureshi(参考訳) ナビゲーションなどの長距離タスクの学習は,ロボット工学に強化学習を適用する上で困難な課題となっている。 別の観点からは、既知の環境下では、サンプリングベースのプランニングは学習せずに、衝突のない環境の経路を堅牢に見つけることができる。 本研究では,サンプルベース確率的ロードマップ(PRM)プランナによって導かれる低レベルポリシーから返却条件付きシーケンスをモデル化する制御変換器を提案する。 提案手法は,ローカル情報のみを用いて,長方形ナビゲーションタスクを解決できることを実証する。 我々は,Ant,Point,Humanoidを含むMuJoCoロボットを用いた部分的に観察された迷路ナビゲーションのアプローチを評価する。 制御トランスフォーマーは迷路を通り抜けて未知の環境に移動できることを実証する。 さらに,本手法をディファレンシャルドライブロボット(Turtlebot3)に適用し,ノイズ下でのゼロショットシミュレートを示す。

Learning long-horizon tasks such as navigation has presented difficult challenges for successfully applying reinforcement learning to robotics. From another perspective, under known environments, sampling-based planning can robustly find collision-free paths in environments without learning. In this work, we propose Control Transformer that models return-conditioned sequences from low-level policies guided by a sampling-based Probabilistic Roadmap (PRM) planner. We demonstrate that our framework can solve long-horizon navigation tasks using only local information. We evaluate our approach on partially-observed maze navigation with MuJoCo robots, including Ant, Point, and Humanoid. We show that Control Transformer can successfully navigate through mazes and transfer to unknown environments. Additionally, we apply our method to a differential drive robot (Turtlebot3) and show zero-shot sim2real transfer under noisy observations.
翻訳日:2023-07-14 17:35:35 公開日:2023-07-13
# 入力制御のない量子過程の学習

Learning quantum processes without input control ( http://arxiv.org/abs/2211.05005v2 )

ライセンス: Link先を確認
Marco Fanizza, Yihui Quek, Matteo Rosati(参考訳) 古典確率変数を入力とし、量子状態を出力するプロセスに対して、一般的な統計学習理論を導入する。 この設定は、天文過程の学習、不規則系の研究、観察者が制御しない生物学的過程などにおいて、自身の制御外にある古典的パラメータが支配する量子過程を学習したいという実践的状況に動機づけられている。 概念クラスが無限であっても、この設定において有限個のサンプルで高い確率で学習するアルゴリズムを提供する。 そこで本研究では,既存アルゴリズムのシャドウトモグラフィと仮説選択の見直しと適応を行い,それらの保証と興味のある損失関数のデータへの統一収束を組み合わせる。 副産物として、古典量子状態のシャドウトモグラフィーを行うための十分な条件が得られ、多くのコピーが量子レジスタの次元に依存するが、古典的状態の次元には依存しない。 量子回路や、ランダムな摂動やデータ依存の位相シフトを持つハミルトニアンのシステムのような物理的に動機付けられたシナリオに基づいて、この方法で学習できるプロセスの具体的な例を示す。

We introduce a general statistical learning theory for processes that take as input a classical random variable and output a quantum state. Our setting is motivated by the practical situation in which one desires to learn a quantum process governed by classical parameters that are out of one's control, e.g., in learning astronomical processes, studying disordered systems and biological processes not controlled by the observer. We provide an algorithm for learning with high probability in this setting with a finite amount of samples, even if the concept class is infinite. To do this, we review and adapt existing algorithms for shadow tomography and hypothesis selection, and combine their guarantees with the uniform convergence on the data of the loss functions of interest. As a by-product we obtain sufficient conditions for performing shadow tomography of classical-quantum states with a number of copies which depend on the dimension of the quantum register, but not on the dimension of the classical one. We give concrete examples of processes that can be learned in this manner, based on quantum circuits or physically motivated scenarios like systems subject to Hamiltonians with random perturbations or data-dependent phase-shifts.
翻訳日:2023-07-14 17:35:11 公開日:2023-07-13
# 物理的世界における視覚的な敵対的攻撃と防御--調査から

Visually Adversarial Attacks and Defenses in the Physical World: A Survey ( http://arxiv.org/abs/2211.01671v5 )

ライセンス: Link先を確認
Xingxing Wei, Bangzheng Pu, Jiefan Lu, and Baoyuan Wu(参考訳) ディープニューラルネットワーク(DNN)は様々な現実世界のシナリオで広く応用されているが、敵の例には弱い。 コンピュータビジョンにおける現在の敵攻撃は、それぞれの攻撃形態に応じてデジタル攻撃と物理的攻撃に分けられる。 デジタルピクセルの摂動を発生させるデジタルアタックと比較して、物理的なアタックは現実の世界でより実用的である。 物理的に敵対的な事例によって引き起こされる深刻なセキュリティ問題により、過去数年間のDNNの物理的敵対的堅牢性を評価するために多くの研究が提案されている。 本稿では,コンピュータビジョンにおける現在の物理的敵攻撃と物理的敵防御に対する調査を要約する。 分類の確立のために,攻撃タスク,攻撃形態,攻撃方法から,現在行われている物理的攻撃を整理する。 したがって、読者は異なる側面からこのトピックについて体系的な知識を得ることができる。 物理的防衛については,DNNモデルに対する前処理,内処理,後処理による分類を確立し,敵防衛を全面的に網羅する。 本稿では,本研究の課題と今後の展望について考察する。

Although Deep Neural Networks (DNNs) have been widely applied in various real-world scenarios, they are vulnerable to adversarial examples. The current adversarial attacks in computer vision can be divided into digital attacks and physical attacks according to their different attack forms. Compared with digital attacks, which generate perturbations in the digital pixels, physical attacks are more practical in the real world. Owing to the serious security problem caused by physically adversarial examples, many works have been proposed to evaluate the physically adversarial robustness of DNNs in the past years. In this paper, we summarize a survey versus the current physically adversarial attacks and physically adversarial defenses in computer vision. To establish a taxonomy, we organize the current physical attacks from attack tasks, attack forms, and attack methods, respectively. Thus, readers can have a systematic knowledge of this topic from different aspects. For the physical defenses, we establish the taxonomy from pre-processing, in-processing, and post-processing for the DNN models to achieve full coverage of the adversarial defenses. Based on the above survey, we finally discuss the challenges of this research field and further outlook on the future direction.
翻訳日:2023-07-14 17:34:49 公開日:2023-07-13
# 逆境政策が超人go aisを破る

Adversarial Policies Beat Superhuman Go AIs ( http://arxiv.org/abs/2211.00241v4 )

ライセンス: Link先を確認
Tony T. Wang, Adam Gleave, Tom Tseng, Kellin Pelrine, Nora Belrose, Joseph Miller, Michael D. Dennis, Yawen Duan, Viktor Pogrebniak, Sergey Levine, Stuart Russell(参考訳) 我々は,現在最先端の囲碁AIシステムであるKataGoを,敵の政策を訓練することで攻撃し,超人的環境でのKataGoに対する97%の勝利率を達成した。 私たちの敵はうまくプレーすることで勝てない。 代わりに、KataGoを騙して真剣な失敗を犯す。 我々の攻撃はゼロショットを他のスーパーヒューマンgoプレイングaiに転送し、スーパーヒューマンaiを一貫して打ち負かすアルゴリズムの助けなしに、人間の専門家がそれを実装できる程度に理解できます。 攻撃によって発見された中核的な脆弱性は、攻撃から守るために敵に訓練されたKataGoエージェントでも存続する。 我々の結果は、超人的AIシステムでさえ、驚くほどの障害モードを持っていることを示している。 サンプルゲームはhttps://goattack.far.ai/。

We attack the state-of-the-art Go-playing AI system KataGo by training adversarial policies against it, achieving a >97% win rate against KataGo running at superhuman settings. Our adversaries do not win by playing Go well. Instead, they trick KataGo into making serious blunders. Our attack transfers zero-shot to other superhuman Go-playing AIs, and is comprehensible to the extent that human experts can implement it without algorithmic assistance to consistently beat superhuman AIs. The core vulnerability uncovered by our attack persists even in KataGo agents adversarially trained to defend against our attack. Our results demonstrate that even superhuman AI systems may harbor surprising failure modes. Example games are available https://goattack.far.ai/.
翻訳日:2023-07-14 17:34:30 公開日:2023-07-13
# 2体視点によるフェルミオン多体系の断熱的基底状態形成

Adiabatic ground state preparation of fermionic many-body systems from a two-body perspective ( http://arxiv.org/abs/2305.01284v4 )

ライセンス: Link先を確認
Dyon van Vreumingen, Kareljan Schoutens(参考訳) フェルミオン多体ハミルトニアンの基底状態を作成するためのよく知られた方法は、特定の時間依存ハミルトニアンの下の近似基底状態に向かって、容易に準備できる状態が時間発展する断熱状態準備である。 しかし、進化においてどの経路を取るかは不明であり、最も一般的な方法である直接線形補間は最適ではないかもしれない。 本研究では,残差ハミルトニアンの2体射影のスペクトル分解(最終ハミルトニアンと初期ハミルトニアンの違い)に基づいて,新しいタイプの断熱経路を探索する。 この分解は、断片的または複合的な方法で断熱的に補間されるハミルトニアン項の集合を定義する。 フェルミ・ハバードモデルを用いた部分的部分的補間の有用性を実証し,対称性により直接的(完全に結合された)補間においてレベル交差が発生する。 直接経路からのこの特定の偏差が関連する対称性を適切に破り、水平交差を回避し、断熱的通過を可能にすることを示す。 一方、すべてのハミルトニアン項を別々に補間する完全区分スキームは、直接補間のために$o(l^4/\delta^3)$ に対して、経路に沿った単体モード $l$ と最小ギャップ $\delta$ に対して、最悪の場合には$o(l^6/\delta^3)$ となる。 この準最適性の結果は、必要な対称性を破る用語のみが部分的な補間を考慮すべきであり、残りは直接補間として扱われるべきであることを示唆している。

A well-known method to prepare ground states of fermionic many-body hamiltonians is adiabatic state preparation, in which an easy to prepare state is time-evolved towards an approximate ground state under a specific time-dependent hamiltonian. However, which path to take in the evolution is often unclear, and a direct linear interpolation, which is the most common method, may not be optimal. In this work, we explore new types of adiabatic paths based on the spectral decomposition of the two-body projection of the residual hamiltonian (the difference between the final and initial hamiltonian). The decomposition defines a set of hamiltonian terms which may be adiabatically interpolated in a piecewise or combined fashion. We demonstrate the usefulness of partially piecewise interpolation through examples involving Fermi-Hubbard models where, due to symmetries, level crossings occur in direct (fully combined) interpolation. We show that this specific deviation from a direct path appropriately breaks the relevant symmetries, thus avoiding level crossings and enabling an adiabatic passage. On the other hand, we show that a fully piecewise scheme, which interpolates every hamiltonian term separately, exhibits a worst-case complexity of $O(L^6/\Delta^3)$ as compared to $O(L^4/\Delta^3)$ for direct interpolation, in terms of the number of one-body modes $L$ and the minimal gap $\Delta$ along the path. This suboptimality result suggests that only those terms which break necessary symmetries should be taken into account for piecewise interpolation, while the rest is treated with direct interpolation.
翻訳日:2023-07-14 17:28:17 公開日:2023-07-13
# lipschitz-regularized variational autoencoderを用いた微分プライベートな合成データ生成

Differentially Private Synthetic Data Generation via Lipschitz-Regularised Variational Autoencoders ( http://arxiv.org/abs/2304.11336v2 )

ライセンス: Link先を確認
Benedikt Gro{\ss}, Gerhard Wunder(参考訳) 合成データは、プライバシー保護データ分析のための銀の弾丸として称賛されている。 もしレコードが本物でなければ、どうやって人のプライバシーを侵害するのか? さらに、深層学習に基づく生成モデルを用いて、データから複雑な高次元分布を近似し、この学習分布から現実的なサンプルを描画する。 しかし、生成モデルは個々のトレーニング記録の多くの詳細を記憶する傾向があり、基礎となる機密的なトレーニングデータに近づきすぎる合成データを生成するため、例えば医療で遭遇したような強力なプライバシー規制に違反することが多い。 differential privacy(ディファレンシャルプライバシ、ディファレンシャルプライバシ)は、機密性の高い個人のデータの保護を保証するための、よく知られている最先端フレームワークである。 しかしながら、トレーニングメカニズムはトレーニングプロセス中に多くのノイズを発生させることが多く、これらのプライベートモデルの有用性を著しく損なう。 さらに悪いことに、厳格なプライバシー予算は、モデル品質を実際に適切に制御できないように、多くのトレーニングエポックを許さない。 本稿では, 変動オートエンコーダなどの生成モデルにおいて, 固有確率を直接利用したデータを生成する方法について検討する。 主なアイデアは、その上に別のノイズ機構を追加するのではなく、深層モデルの連続性モジュラーを適切に制約することである。 このアプローチでは,数学的に厳密なプライバシ保証を導出し,その有効性を実用実験で示す。

Synthetic data has been hailed as the silver bullet for privacy preserving data analysis. If a record is not real, then how could it violate a person's privacy? In addition, deep-learning based generative models are employed successfully to approximate complex high-dimensional distributions from data and draw realistic samples from this learned distribution. It is often overlooked though that generative models are prone to memorising many details of individual training records and often generate synthetic data that too closely resembles the underlying sensitive training data, hence violating strong privacy regulations as, e.g., encountered in health care. Differential privacy is the well-known state-of-the-art framework for guaranteeing protection of sensitive individuals' data, allowing aggregate statistics and even machine learning models to be released publicly without compromising privacy. The training mechanisms however often add too much noise during the training process, and thus severely compromise the utility of these private models. Even worse, the tight privacy budgets do not allow for many training epochs so that model quality cannot be properly controlled in practice. In this paper we explore an alternative approach for privately generating data that makes direct use of the inherent stochasticity in generative models, e.g., variational autoencoders. The main idea is to appropriately constrain the continuity modulus of the deep models instead of adding another noise mechanism on top. For this approach, we derive mathematically rigorous privacy guarantees and illustrate its effectiveness with practical experiments.
翻訳日:2023-07-14 17:27:45 公開日:2023-07-13
# 大規模ランダムグラフ上のジェネリックアグリゲーションを用いたメッセージパッシンググラフニューラルネットワークの収束性

Convergence of Message Passing Graph Neural Networks with Generic Aggregation On Large Random Graphs ( http://arxiv.org/abs/2304.11140v2 )

ライセンス: Link先を確認
Matthieu Cordonnier, Nicolas Keriven, Nicolas Tremblay, Samuel Vaiter(参考訳) 本研究では,ランダムグラフモデル上でのメッセージパッシンググラフニューラルネットワークの収束について,ノード数が無限になりがちであることを示す。 それまで、この収束は、正規化された手段の形で集約関数を持つアーキテクチャ、あるいはそれと同値に、隣接行列やグラフラプラシアンのような古典作用素の応用でのみ知られていた。 このような結果を,注目に基づくメッセージパッシング,最大畳み込みメッセージパッシング,あるいは(次数正規化)畳み込みメッセージパッシングなど,古典的に使用されているすべてのメッセージパッシンググラフニューラルネットワークを含む,大規模な集約関数に拡張する。 軽度の仮定では、この収束を定量化する確率の高い非漸近境界を与える。 主な結果はmcdiarmid不等式に基づいている。 興味深いことに、この結果はアグリゲーションが座標ワイドの最大値である場合に当てはまらない。 我々はこのケースを別々に扱い、異なる収束率を得る。

We study the convergence of message passing graph neural networks on random graph models to their continuous counterpart as the number of nodes tends to infinity. Until now, this convergence was only known for architectures with aggregation functions in the form of normalized means, or, equivalently, of an application of classical operators like the adjacency matrix or the graph Laplacian. We extend such results to a large class of aggregation functions, that encompasses all classically used message passing graph neural networks, such as attention-based message passing, max convolutional message passing or (degree-normalized) convolutional message passing. Under mild assumptions, we give non-asymptotic bounds with high probability to quantify this convergence. Our main result is based on the McDiarmid inequality. Interestingly, this result does not apply to the case where the aggregation is a coordinate-wise maximum. We treat this case separately and obtain a different convergence rate.
翻訳日:2023-07-14 17:27:20 公開日:2023-07-13
# 異なる種類のがんの分類のための efficientnet アルゴリズム

EfficientNet Algorithm for Classification of Different Types of Cancer ( http://arxiv.org/abs/2304.08715v3 )

ライセンス: Link先を確認
Romario Sameh Samir(参考訳) 早期発見と効果的な治療には, がんの分類の正確かつ効率的な分類が不可欠である。 本稿では,脳腫瘍,乳癌,乳癌,皮膚がんの分類のためのEfficientNetアルゴリズムを用いた実験結果について述べる。 公開データセットを使用して、一貫性と互換性を確保するために、イメージを前処理しました。 実験の結果,EfficientNetアルゴリズムは各がんデータセットの精度,精度,リコール,F1スコアを達成し,他の最先端アルゴリズムよりも優れていることがわかった。 また, efficientnetアルゴリズムの長所と短所,臨床応用の可能性についても考察した。 以上の結果から, efficientnetアルゴリズムはがんの分類に適しており,がん診断の正確性と効率を向上させるのに有用であることが示唆された。

Accurate and efficient classification of different types of cancer is critical for early detection and effective treatment. In this paper, we present the results of our experiments using the EfficientNet algorithm for classification of brain tumor, breast cancer mammography, chest cancer, and skin cancer. We used publicly available datasets and preprocessed the images to ensure consistency and comparability. Our experiments show that the EfficientNet algorithm achieved high accuracy, precision, recall, and F1 scores on each of the cancer datasets, outperforming other state-of-the-art algorithms in the literature. We also discuss the strengths and weaknesses of the EfficientNet algorithm and its potential applications in clinical practice. Our results suggest that the EfficientNet algorithm is well-suited for classification of different types of cancer and can be used to improve the accuracy and efficiency of cancer diagnosis.
翻訳日:2023-07-14 17:26:47 公開日:2023-07-13
# 任意スケール画像超解像に対する局所帰納正規化流れ

Local Implicit Normalizing Flow for Arbitrary-Scale Image Super-Resolution ( http://arxiv.org/abs/2303.05156v3 )

ライセンス: Link先を確認
Jie-En Yao, Li-Yuan Tsao, Yi-Chen Lo, Roy Tseng, Chia-Che Chang, Chun-Yi Lee(参考訳) フローベース手法は,高分解能(HR)画像の正規化フローによる分布を学習することにより,超解像(SR)の誤った性質に対処する上で有望な結果を示した。 しかし、これらの手法は予め定義された固定スケールのSRしか実行できず、現実の応用においてその可能性を制限する。 一方、任意のスケールのSRが注目され、大きな進歩を遂げた。 それでも、以前の任意のスケールのSR手法は不適切な問題を無視し、ピクセル当たりのL1損失でモデルを訓練し、曖昧なSR出力をもたらす。 そこで本研究では,これらの問題に対する統一解として,LINF(Local Implicit Normalizing Flow)を提案する。 LINFは、流れの正規化を伴う異なるスケーリング要因の下でテクスチャの詳細な分布をモデル化する。 したがって、LINFは任意のスケールの要素でテクスチャの詳細がリッチなフォトリアリスティックHR画像を生成することができる。 我々は、LINFを広範囲な実験により評価し、従来の任意スケールSR法と比較して、LINFが最先端の知覚品質を達成することを示す。

Flow-based methods have demonstrated promising results in addressing the ill-posed nature of super-resolution (SR) by learning the distribution of high-resolution (HR) images with the normalizing flow. However, these methods can only perform a predefined fixed-scale SR, limiting their potential in real-world applications. Meanwhile, arbitrary-scale SR has gained more attention and achieved great progress. Nonetheless, previous arbitrary-scale SR methods ignore the ill-posed problem and train the model with per-pixel L1 loss, leading to blurry SR outputs. In this work, we propose "Local Implicit Normalizing Flow" (LINF) as a unified solution to the above problems. LINF models the distribution of texture details under different scaling factors with normalizing flow. Thus, LINF can generate photo-realistic HR images with rich texture details in arbitrary scale factors. We evaluate LINF with extensive experiments and show that LINF achieves the state-of-the-art perceptual quality compared with prior arbitrary-scale SR methods.
翻訳日:2023-07-14 17:26:33 公開日:2023-07-13
# 時系列スペクトルを用いたグラフARMAプロセスの学習

Learning Graph ARMA Processes from Time-Vertex Spectra ( http://arxiv.org/abs/2302.06887v2 )

ライセンス: Link先を確認
Eylem Tugce Guneyi, Berkay Yaldiz, Abdullah Canbolat, Elif Vural(参考訳) 静止時間頂点確率過程としての時間変化グラフ信号のモデリングにより、異なるグラフノードと時刻瞬間間のプロセスの相関パターンを効率的に利用することにより、行方不明信号値の推測が可能となる。 本研究では,信号補間処理の不完全な実現から,プロセスの結合時間-頂点パワースペクトル密度を学習したグラフ自己回帰移動平均(グラフARMA)プロセスの計算アルゴリズムを提案する。 我々の解は、まず部分的に観測された実現からプロセスのジョイントスペクトルを大まかに推定し、凸緩和を通じてグラフARMAプロセスのスペクトル多様体に投影することでこの推定を精算する。 当初欠けていた信号値は学習モデルに基づいて推定される。 実験の結果,提案手法は時間-頂点信号推定問題において高い精度が得られることがわかった。

The modeling of time-varying graph signals as stationary time-vertex stochastic processes permits the inference of missing signal values by efficiently employing the correlation patterns of the process across different graph nodes and time instants. In this study, we propose an algorithm for computing graph autoregressive moving average (graph ARMA) processes based on learning the joint time-vertex power spectral density of the process from its incomplete realizations for the task of signal interpolation. Our solution relies on first roughly estimating the joint spectrum of the process from partially observed realizations and then refining this estimate by projecting it onto the spectrum manifold of the graph ARMA process through convex relaxations. The initially missing signal values are then estimated based on the learnt model. Experimental results show that the proposed approach achieves high accuracy in time-vertex signal estimation problems.
翻訳日:2023-07-14 17:26:17 公開日:2023-07-13
# ロバストなオンラインアクティブラーニング

Robust online active learning ( http://arxiv.org/abs/2302.00422v5 )

ライセンス: Link先を確認
Davide Cacciarelli, Murat Kulahci, John S{\o}lve Tyssedal(参考訳) 多くの産業アプリケーションでは、人間の専門家の介入や高価なテスト機器の使用を必要とするため、ラベル付き観測を得ることは容易ではない。 このような状況下では、モデルに合わせる際に最も有用なデータポイントを提案する上で、アクティブな学習は極めて有益である。 モデル開発に必要な観測回数を減らすことで、トレーニングに必要な計算負担とラベリングに関連する運用コストが軽減される。 特にオンラインアクティブラーニングは、データポイントに対するラベルの取得に関する決定が極めて短い時間枠内で行われなければならない、大量生産プロセスにおいて有用である。 しかし,近年のオンラインアクティブラーニング戦略の展開にも拘わらず,アウトレーヤの存在下でのこれらの手法の行動は十分に検討されていない。 本研究では,汚染データストリームにおけるオンラインアクティブ線形回帰の性能について検討する。 我々の研究は、現在利用可能なクエリ戦略が外れやすいことを示し、トレーニングセットに含めると、最終的にモデルの予測性能が低下することを示している。 この問題に対処するため,条件付きD-最適アルゴリズムの探索領域を限定し,ロバストな推定器を用いた解を提案する。 我々の手法は、入力空間の見えない領域を探索することと、外れ値から保護することのバランスをとる。 数値シミュレーションにより,提案手法は,アウトレーヤの存在下でのオンライン能動学習の性能向上に有効であることを示す。

In many industrial applications, obtaining labeled observations is not straightforward as it often requires the intervention of human experts or the use of expensive testing equipment. In these circumstances, active learning can be highly beneficial in suggesting the most informative data points to be used when fitting a model. Reducing the number of observations needed for model development alleviates both the computational burden required for training and the operational expenses related to labeling. Online active learning, in particular, is useful in high-volume production processes where the decision about the acquisition of the label for a data point needs to be taken within an extremely short time frame. However, despite the recent efforts to develop online active learning strategies, the behavior of these methods in the presence of outliers has not been thoroughly examined. In this work, we investigate the performance of online active linear regression in contaminated data streams. Our study shows that the currently available query strategies are prone to sample outliers, whose inclusion in the training set eventually degrades the predictive performance of the models. To address this issue, we propose a solution that bounds the search area of a conditional D-optimal algorithm and uses a robust estimator. Our approach strikes a balance between exploring unseen regions of the input space and protecting against outliers. Through numerical simulations, we show that the proposed method is effective in improving the performance of online active learning in the presence of outliers, thus expanding the potential applications of this powerful tool.
翻訳日:2023-07-14 17:25:43 公開日:2023-07-13
# kosmos-2: マルチモーダル大規模言語モデルの世界への接地

Kosmos-2: Grounding Multimodal Large Language Models to the World ( http://arxiv.org/abs/2306.14824v3 )

ライセンス: Link先を確認
Zhiliang Peng, Wenhui Wang, Li Dong, Yaru Hao, Shaohan Huang, Shuming Ma, Furu Wei(参考訳) マルチモーダル大言語モデル(MLLM)であるKosmos-2を導入し,オブジェクト記述(バウンディングボックスなど)の認識と,視覚の世界へのテキストの接地を可能にする。 具体的には、オブジェクト記述が位置トークンのシーケンスである``[text span](bounding box)''のリンクとして参照表現を表現する。 マルチモーダルコーパスとともに、グラウンドドイメージテキストペア(GrIT)の大規模データを構築し、モデルを訓練する。 MLLMの既存の機能(例えば、一般的なモダリティの知覚、命令の追従、テキスト内学習の実行など)に加えて、Kosmos-2はダウンストリームアプリケーションにグラウンド機能を統合する。 我々はKosmos-2を幅広いタスクで評価する。 (i)表現の理解や句の接頭辞など多様接頭辞 (ii)表現生成の参照等の多元的参照 (iii)知覚言語課題、及び (4)言語理解と生成。 本研究は、具体化aiの開発の基礎を整理し、人工知能への重要な一歩である言語、マルチモーダル知覚、行動、世界モデリングの大規模な収束に光を当てる。 コードと事前トレーニングされたモデルはhttps://aka.ms/kosmos-2で利用可能である。

We introduce Kosmos-2, a Multimodal Large Language Model (MLLM), enabling new capabilities of perceiving object descriptions (e.g., bounding boxes) and grounding text to the visual world. Specifically, we represent refer expressions as links in Markdown, i.e., ``[text span](bounding boxes)'', where object descriptions are sequences of location tokens. Together with multimodal corpora, we construct large-scale data of grounded image-text pairs (called GrIT) to train the model. In addition to the existing capabilities of MLLMs (e.g., perceiving general modalities, following instructions, and performing in-context learning), Kosmos-2 integrates the grounding capability into downstream applications. We evaluate Kosmos-2 on a wide range of tasks, including (i) multimodal grounding, such as referring expression comprehension, and phrase grounding, (ii) multimodal referring, such as referring expression generation, (iii) perception-language tasks, and (iv) language understanding and generation. This work lays out the foundation for the development of Embodiment AI and sheds light on the big convergence of language, multimodal perception, action, and world modeling, which is a key step toward artificial general intelligence. Code and pretrained models are available at https://aka.ms/kosmos-2.
翻訳日:2023-07-14 17:18:07 公開日:2023-07-13
# TrustGuard: 動的サポートを備えたGNNベースのロバストと説明可能な信頼評価

TrustGuard: GNN-based Robust and Explainable Trust Evaluation with Dynamicity Support ( http://arxiv.org/abs/2306.13339v2 )

ライセンス: Link先を確認
Jie Wang, Zheng Yan, Jiahe Lan, Elisa Bertino, Witold Pedrycz(参考訳) 信頼評価は、エンティティ間の信頼関係を評価し、意思決定を促進する。 機械学習(ML)は、その学習能力による信頼評価の大きな可能性を示している。 近年、新しいMLパラダイムであるグラフニューラルネットワーク(GNN)は、グラフデータを扱う上で優位性を示している。 これにより,信頼関係をグラフとしてモデル化できるため,信頼評価の活用を研究者が検討する動機となった。 しかし、GNNを用いた現在の信頼評価手法は、信頼のダイナミックな性質を完全に満たすことができず、信頼評価に対する攻撃の悪影響を見落とし、評価結果に説得力のある説明を与えることができない。 これらの問題に対処するために,信頼の動的性を支援するgnnベースの正確な信頼評価モデルであるtrustguardを提案する。 具体的には、TrustGuardは、スナップショット入力層、空間集約層、時間集約層、予測層を含む階層構造で設計されている。 このうち、空間集約層は局所信頼を強固に集約する防御機構を採用し、時間集約層は時間パターンを効果的に学習するための注意機構を適用している。 2つの実世界のデータセットに対する大規模な実験によると、TrustGuardは、攻撃があっても、シングルタイムスロットとマルチタイムスロットの信頼予測に関して、最先端のGNNベースの信頼評価モデルより優れている。 さらに、TrustGuardは、空間ビューと時間ビューの両方を可視化することで、評価結果を説明することができる。

Trust evaluation assesses trust relationships between entities and facilitates decision-making. Machine Learning (ML) shows great potential for trust evaluation owing to its learning capabilities. In recent years, Graph Neural Networks (GNNs), as a new ML paradigm, have demonstrated superiority in dealing with graph data. This has motivated researchers to explore their use in trust evaluation, as trust relationships among entities can be modeled as a graph. However, current trust evaluation methods that employ GNNs fail to fully satisfy the dynamic nature of trust, overlook the adverse effects of attacks on trust evaluation, and cannot provide convincing explanations on evaluation results. To address these problems, we propose TrustGuard, a GNN-based accurate trust evaluation model that supports trust dynamicity, is robust against typical attacks, and provides explanations through visualization. Specifically, TrustGuard is designed with a layered architecture that contains a snapshot input layer, a spatial aggregation layer, a temporal aggregation layer, and a prediction layer. Among them, the spatial aggregation layer adopts a defense mechanism to robustly aggregate local trust, and the temporal aggregation layer applies an attention mechanism for effective learning of temporal patterns. Extensive experiments on two real-world datasets show that TrustGuard outperforms state-of-the-art GNN-based trust evaluation models with respect to trust prediction across single-timeslot and multi-timeslot, even in the presence of attacks. In addition, TrustGuard can explain its evaluation results by visualizing both spatial and temporal views.
翻訳日:2023-07-14 17:17:45 公開日:2023-07-13
# 自律運転システムにおけるデータ統合のためのディープラーニング手法の検討

A survey on deep learning approaches for data integration in autonomous driving system ( http://arxiv.org/abs/2306.11740v2 )

ライセンス: Link先を確認
Xi Zhu, Likang Wang, Caifa Zhou, Xiya Cao, Yue Gong, Lei Chen(参考訳) 自動運転車の知覚モジュールは、環境を理解するためにマルチセンサーシステムに依存している。 近年のディープラーニングの進歩は、知覚能力を高めるためにマルチセンサー計測を統合するアプローチの急速な発展につながった。 本稿では,自律走行システムにおける認識モジュールに適用される最新のディープラーニング統合技術を調査し,「何,どのように,いつ,一体化すべきか」に基づいて,統合アプローチを分類する。 統合の新たな分類法が提案され、マルチビュー、マルチモダリティ、マルチフレームの3つの次元に基づいている。 統合操作とその長所と短所は要約され、既存のメソッドの制限を緩和できる"理想的な"データ統合アプローチの特性に関する新たな洞察を提供する。 何百もの関連論文をレビューした後、この調査は最適なデータ統合アプローチの重要な特徴に関する議論で締めくくります。

The perception module of self-driving vehicles relies on a multi-sensor system to understand its environment. Recent advancements in deep learning have led to the rapid development of approaches that integrate multi-sensory measurements to enhance perception capabilities. This paper surveys the latest deep learning integration techniques applied to the perception module in autonomous driving systems, categorizing integration approaches based on "what, how, and when to integrate". A new taxonomy of integration is proposed, based on three dimensions: multi-view, multi-modality, and multi-frame. The integration operations and their pros and cons are summarized, providing new insights into the properties of an "ideal" data integration approach that can alleviate the limitations of existing methods. After reviewing hundreds of relevant papers, this survey concludes with a discussion of the key features of an optimal data integration approach.
翻訳日:2023-07-14 17:17:17 公開日:2023-07-13
# 非均一サンプリングによるネットワークデータの等角予測の有効性について

On the Validity of Conformal Prediction for Network Data Under Non-Uniform Sampling ( http://arxiv.org/abs/2306.07252v4 )

ライセンス: Link先を確認
Robert Lunde(参考訳) 実例ではよく見られるが,ノードの非表現的なサンプルとなる様々なサンプリングメカニズムの下で,ネットワークデータの共形予測の特性について検討する。 これらのサンプリング機構を,過集団に適用する選択規則として解釈し,適切な選択イベントにおける共形予測条件の有効性について検討する。 選択規則が置換不変性を満たす場合、サンプルされたサブアレイは選択イベント上で交換可能条件であり、その超集団に対して共有交換可能条件が成立することを示す。 以上の結果から,エゴネットワークや雪玉サンプリングに関連する特定の選択事象に対する共形予測の有限サンプルの有効性が示唆された。 また,グラフ上のランダムなウォークでデータをサンプリングすると,重み付き共形予測の変種が個体群から選択したノードに対して漸近的に妥当な予測集合を生成することを示した。

We study the properties of conformal prediction for network data under various sampling mechanisms that commonly arise in practice but often result in a non-representative sample of nodes. We interpret these sampling mechanisms as selection rules applied to a superpopulation and study the validity of conformal prediction conditional on an appropriate selection event. We show that the sampled subarray is exchangeable conditional on the selection event if the selection rule satisfies a permutation invariance property and a joint exchangeability condition holds for the superpopulation. Our result implies the finite-sample validity of conformal prediction for certain selection events related to ego networks and snowball sampling. We also show that when data are sampled via a random walk on a graph, a variant of weighted conformal prediction yields asymptotically valid prediction sets for an independently selected node from the population.
翻訳日:2023-07-14 17:17:04 公開日:2023-07-13
# フェデレーション学習におけるパーソナライズ・ディスタングルメント:説明可能な視点

Personalization Disentanglement for Federated Learning: An explainable perspective ( http://arxiv.org/abs/2306.03570v2 )

ライセンス: Link先を確認
Peng Yan, Guodong Long(参考訳) パーソナライズドフェデレーション学習(pfl)は、クライアント間の知識共有とクライアント毎のモデルパーソナライゼーションのバランスを通じて、さまざまなローカルモデルを共同でトレーニングする。 本稿では,PFLを2つの部分に分割することで,共有知識とクライアント固有のパーソナライゼーションを抽出し,より信頼性と効果的なPFLを実現する。 2種類の表現を推論するために2つのエンコーダを使用するFedDVA(Federated Dual Variational Autoencoder)によって実現されている。 FedDVAは、グローバル知識共有とPFLにおけるローカルパーソナライゼーションのトレードオフをよりよく理解することができる。 さらに、既存のflメソッドと統合して、ヘテロジニアスなダウンストリームタスク用にパーソナライズされたモデルにすることができる。 広汎な実験は、非絡み合いによる利点を検証し、非絡み合い表現で訓練されたモデルがそれらのバニラ法を大幅に上回っていることを示す。

Personalized federated learning (PFL) jointly trains a variety of local models through balancing between knowledge sharing across clients and model personalization per client. This paper addresses PFL via explicit disentangling latent representations into two parts to capture the shared knowledge and client-specific personalization, which leads to more reliable and effective PFL. The disentanglement is achieved by a novel Federated Dual Variational Autoencoder (FedDVA), which employs two encoders to infer the two types of representations. FedDVA can produce a better understanding of the trade-off between global knowledge sharing and local personalization in PFL. Moreover, it can be integrated with existing FL methods and turn them into personalized models for heterogeneous downstream tasks. Extensive experiments validate the advantages caused by disentanglement and show that models trained with disentangled representations substantially outperform those vanilla methods.
翻訳日:2023-07-14 17:16:49 公開日:2023-07-13
# マスク画像モデリングを用いた自己教師型学習に基づく新しいドライバ抽出行動検出法

A Novel Driver Distraction Behavior Detection Method Based on Self-supervised Learning with Masked Image Modeling ( http://arxiv.org/abs/2306.00543v4 )

ライセンス: Link先を確認
Yingzhi Zhang, Taiguo Li, Chao Li and Xinghong Zhou(参考訳) ドライバーの気晴らしは毎年かなりの数の交通事故を引き起こし、経済的な損失と損失をもたらす。 現在、商用車両の自動化のレベルは完全に無人ではなく、ドライバーは依然として車両の操作と制御において重要な役割を担っている。 そのため,道路安全には運転者の注意散らし行動検出が不可欠である。 現在、ドライバーの注意散逸検出は主に従来の畳み込みニューラルネットワーク(cnn)と教師付き学習方法に依存している。 しかし、ラベル付きデータセットの高コスト、高レベルのセマンティック情報をキャプチャする能力の制限、一般化性能の低下など、依然として課題がある。 そこで本研究では,ドライバの注意散逸行動検出のためのマスク画像モデルに基づく自己教師付き学習手法を提案する。 まず,マスク付き画像モデリング(MIM)のための自己教師型学習フレームワークを導入し,データセットのラベル付けによる人的・物質的消費の問題を解決する。 次に、Swin Transformerがエンコーダとして使用される。 Swin Transformerブロックを再構成し、ウィンドウマルチヘッド自己アテンション(W-MSA)とシフトウィンドウマルチヘッド自己アテンション(SW-MSA)検出ヘッドの分布を全ステージにわたって調整することで、より軽量化を実現する。 最後に、モデルの認識と一般化能力を強化するために、様々なデータ拡張戦略と最適なランダムマスキング戦略が使用される。 大規模運転注意散逸行動データセットの試験結果から,本論文で提案した自己教師学習法は99.60%の精度で,高度な教師付き学習法の優れた性能を近似する。 私たちのコードはgithub.com/Rocky1salady-killer/SL-DDBDで公開されています。

Driver distraction causes a significant number of traffic accidents every year, resulting in economic losses and casualties. Currently, the level of automation in commercial vehicles is far from completely unmanned, and drivers still play an important role in operating and controlling the vehicle. Therefore, driver distraction behavior detection is crucial for road safety. At present, driver distraction detection primarily relies on traditional convolutional neural networks (CNN) and supervised learning methods. However, there are still challenges such as the high cost of labeled datasets, limited ability to capture high-level semantic information, and weak generalization performance. In order to solve these problems, this paper proposes a new self-supervised learning method based on masked image modeling for driver distraction behavior detection. Firstly, a self-supervised learning framework for masked image modeling (MIM) is introduced to solve the serious human and material consumption issues caused by dataset labeling. Secondly, the Swin Transformer is employed as an encoder. Performance is enhanced by reconfiguring the Swin Transformer block and adjusting the distribution of the number of window multi-head self-attention (W-MSA) and shifted window multi-head self-attention (SW-MSA) detection heads across all stages, which leads to model more lightening. Finally, various data augmentation strategies are used along with the best random masking strategy to strengthen the model's recognition and generalization ability. Test results on a large-scale driver distraction behavior dataset show that the self-supervised learning method proposed in this paper achieves an accuracy of 99.60%, approximating the excellent performance of advanced supervised learning methods. Our code is publicly available at github.com/Rocky1salady-killer/SL-DDBD.
翻訳日:2023-07-14 17:16:30 公開日:2023-07-13
# 一般化p-ラプラシアン正則フレームレットgcnsの再検討:収束、エネルギー動的および非線形拡散によるトレーニング

Revisiting Generalized p-Laplacian Regularized Framelet GCNs: Convergence, Energy Dynamic and Training with Non-Linear Diffusion ( http://arxiv.org/abs/2305.15639v3 )

ライセンス: Link先を確認
Dai Shi, Zhiqi Shao, Yi Guo, Qibin Zhao, Junbin Gao(参考訳) 本稿では,グラフp-laplacian regularized framelet network (pl-ufg) の包括的理論的解析を行い,その特性の理解を深める。 pL-UFGの収束解析を行い、その漸近的挙動の理解のギャップに対処する。 さらに、pL-UFGの一般化されたディリクレエネルギーについて調べることで、収束を通してディリクレエネルギーがゼロではないことを示す。 さらに,pl-ufgにおける暗黙的層とグラフフレームレットの相乗的関係に着目し,エネルギー動的観点を明らかにする。 このシナジーは、ホモフィルデータとヘテロフィルデータの両方に対するモデルの適合性を高める。 特に, pL-UFG を一般化された非線形拡散過程として解釈し, pL-UFG とグラフ上の微分方程式とのギャップを埋めることを明らかにする。 これらの多面的分析は、pL-UFGの理解と実装のための新しい洞察を提供する統一的な結論と、他のグラフニューラルネットワーク(GNN)モデルをもたらす。 最後に、我々の動的解析に基づいて、手動制御エネルギー力学を用いた2つの新しいpL-UFGモデルを提案する。 提案モデルがpl-ufgの利点を継承するだけでなく,大規模グラフデータセットのトレーニングに要する計算コストを大幅に削減できることを示す。

This paper presents a comprehensive theoretical analysis of the graph p-Laplacian regularized framelet network (pL-UFG) to establish a solid understanding of its properties. We conduct a convergence analysis on pL-UFG, addressing the gap in the understanding of its asymptotic behaviors. Further by investigating the generalized Dirichlet energy of pL-UFG, we demonstrate that the Dirichlet energy remains non-zero throughout convergence, ensuring the avoidance of over-smoothing issues. Additionally, we elucidate the energy dynamic perspective, highlighting the synergistic relationship between the implicit layer in pL-UFG and graph framelets. This synergy enhances the model's adaptability to both homophilic and heterophilic data. Notably, we reveal that pL-UFG can be interpreted as a generalized non-linear diffusion process, thereby bridging the gap between pL-UFG and differential equations on the graph. Importantly, these multifaceted analyses lead to unified conclusions that offer novel insights for understanding and implementing pL-UFG, as well as other graph neural network (GNN) models. Finally, based on our dynamic analysis, we propose two novel pL-UFG models with manually controlled energy dynamics. We demonstrate empirically and theoretically that our proposed models not only inherit the advantages of pL-UFG but also significantly reduce computational costs for training on large-scale graph datasets.
翻訳日:2023-07-14 17:15:59 公開日:2023-07-13
# 何を見るか、何を読むか? テキスト画像アライメント評価の改善

What You See is What You Read? Improving Text-Image Alignment Evaluation ( http://arxiv.org/abs/2305.10400v3 )

ライセンス: Link先を確認
Michal Yarom, Yonatan Bitton, Soravit Changpinyo, Roee Aharoni, Jonathan Herzig, Oran Lang, Eran Ofek, Idan Szpektor(参考訳) テキストと対応する画像が意味的に一致しているかを自動的に判断することは、視覚言語モデルにとって大きな課題であり、画像から画像への生成や画像からテキストへのタスクに応用されている。 本研究では,テキスト画像アライメントの自動評価手法について検討する。 テキスト・ツー・イメージと画像・ツー・テキストの生成タスクから複数のデータセットにまたがる総合的な評価セットである SeeTRUE をまず紹介する。 次に、アライメントを決定するための2つの自動手法について説明する。まず、質問生成モデルと視覚的質問応答モデルに基づくパイプラインと、マルチモーダル事前学習モデルの微調整によるエンドツーエンド分類手法を用いる。 どちらの手法も、複雑な合成や不自然な画像を含む難解なケースにおいて、様々なテキストイメージアライメントタスクにおいて、従来のアプローチを超越している。 最後に、画像とテキスト間の特定の不一致をローカライズする方法と、テキスト・ツー・イメージ・ジェネレーションにおける候補を自動的にランク付けする方法を示す。

Automatically determining whether a text and a corresponding image are semantically aligned is a significant challenge for vision-language models, with applications in generative text-to-image and image-to-text tasks. In this work, we study methods for automatic text-image alignment evaluation. We first introduce SeeTRUE: a comprehensive evaluation set, spanning multiple datasets from both text-to-image and image-to-text generation tasks, with human judgements for whether a given text-image pair is semantically aligned. We then describe two automatic methods to determine alignment: the first involving a pipeline based on question generation and visual question answering models, and the second employing an end-to-end classification approach by finetuning multimodal pretrained models. Both methods surpass prior approaches in various text-image alignment tasks, with significant improvements in challenging cases that involve complex composition or unnatural images. Finally, we demonstrate how our approaches can localize specific misalignments between an image and a given text, and how they can be used to automatically re-rank candidates in text-to-image generation.
翻訳日:2023-07-14 17:15:32 公開日:2023-07-13
# 摂動に基づくQE:ブラックボックス機械翻訳のための説明不可能な単語レベル品質推定手法

Perturbation-based QE: An Explainable, Unsupervised Word-level Quality Estimation Method for Blackbox Machine Translation ( http://arxiv.org/abs/2305.07457v2 )

ライセンス: Link先を確認
Tu Anh Dinh, Jan Niehues(参考訳) QE(Quality Estimation)は、機械翻訳(MT)システム出力の品質をゴールドスタンダードの翻訳基準を使わずに予測するタスクである。 最新のQEモデルは、トレーニングのためにいくつかのデータセットで出力されるMTシステムの品質を人間にラベル付けする必要があるため、ドメインに依存し、MTシステムに依存している。 MTシステムへのガラスボックスアクセスや、QEモデルをトレーニングするための合成誤差を生成するための並列MTデータを必要とする教師なしQEの研究がある。 本稿では,摂動に基づく品質評価手法である摂動に基づくQEを提案する。 我々のアプローチは教師なし、説明可能であり、現在目立った大型言語モデル(llms)を含むあらゆる種類のブラックボックスmtシステムを不透明な内部プロセスで評価することができる。 ラベル付きQEデータを持たない言語方向については、WMT21共有タスクにおけるゼロショット教師付きアプローチと同等か、あるいは優れている。 我々のアプローチは、教師付きQEよりも、翻訳における性別バイアスや単語センスの曖昧さの誤りを検知し、ドメイン外使用に対する堅牢性を示す。 提案手法は, MT方式の異なるシステムに対してより一般化可能であることを示すため, 従来の翻訳プロンプティング LLM の誤差を検出する場合には, 性能ギャップが大きくなる。 提案手法では,特定のmt出力語に対してどの入力源語が影響を与えるかを示す。

Quality Estimation (QE) is the task of predicting the quality of Machine Translation (MT) system output, without using any gold-standard translation references. State-of-the-art QE models are supervised: they require human-labeled quality of some MT system output on some datasets for training, making them domain-dependent and MT-system-dependent. There has been research on unsupervised QE, which requires glass-box access to the MT systems, or parallel MT data to generate synthetic errors for training QE models. In this paper, we present Perturbation-based QE - a word-level Quality Estimation approach that works simply by analyzing MT system output on perturbed input source sentences. Our approach is unsupervised, explainable, and can evaluate any type of blackbox MT systems, including the currently prominent large language models (LLMs) with opaque internal processes. For language directions with no labeled QE data, our approach has similar or better performance than the zero-shot supervised approach on the WMT21 shared task. Our approach is better at detecting gender bias and word-sense-disambiguation errors in translation than supervised QE, indicating its robustness to out-of-domain usage. The performance gap is larger when detecting errors on a nontraditional translation-prompting LLM, indicating that our approach is more generalizable to different MT systems. We give examples demonstrating our approach's explainability power, where it shows which input source words have influence on a certain MT output word.
翻訳日:2023-07-14 17:14:53 公開日:2023-07-13
# intformer:コネクテッドカーデータを用いた交差点衝突確率予測のための時間埋め込み注意型変圧器

inTformer: A Time-Embedded Attention-Based Transformer for Crash Likelihood Prediction at Intersections Using Connected Vehicle Data ( http://arxiv.org/abs/2307.03854v2 )

ライセンス: Link先を確認
B.M. Tazbiul Hassan Anik, Zubayer Islam, Mohamed Abdel-Aty(参考訳) リアルタイム衝突確率予測モデルは、積極的な交通安全管理システムの重要な構成要素である。 長年にわたり、交通の安全性を高めるために衝突可能性予測モデルを構築しようと試みてきたが、ほとんどが高速道路である。 既存の研究の大半で、研究者は主にクラッシュの可能性を特定するためにディープラーニングベースのフレームワークを使用してきた。 最近のtransformerは、注意に基づくメカニズムを基本とするディープニューラルネットワークの可能性として浮上している。 Transformerは、Long Short-Term Memory(LSTM)やConvolution Neural Network(CNN)など、既存のディープラーニングモデルに対して、いくつかの機能的なメリットがある。 まず、Transformerはデータシーケンスの長期依存関係を簡単に処理できる。 第二に、トランスフォーマーはトレーニング中にデータシーケンス内のすべての要素を並列に処理できる。 最後に、Transformerには消滅する勾配の問題がない。 InTersection-Transformer(inTformer)モデルを提案する。これは,リアルタイムに交差点衝突確率を効果的に予測できる,時間組込みアテンションベースのTransformerモデルである。 提案モデルは,INRIX と Center for Advanced Transportation Technology (CATT) Lab のSignal Analytics Platform から抽出した連結車両データを用いて評価した。 データは並列にフォーマットされ、異なるタイミングで積み重ねられ、9つのinTformerモデルが開発された。 最良のinTformerモデルは73%の感度を達成した。 このモデルは、交差点での衝突確率予測に関する以前の研究や、同じ連結車両データセットでトレーニングされたいくつかの確立されたディープラーニングモデルと比較された。 あらゆるシナリオにおいて、このinTformerは、提案されたinTformerアーキテクチャの生存可能性を確認するベンチマークモデルを上回った。

The real-time crash likelihood prediction model is an essential component of the proactive traffic safety management system. Over the years, numerous studies have attempted to construct a crash likelihood prediction model in order to enhance traffic safety, but mostly on freeways. In the majority of the existing studies, researchers have primarily employed a deep learning-based framework to identify crash potential. Lately, Transformer has emerged as a potential deep neural network that fundamentally operates through attention-based mechanisms. Transformer has several functional benefits over extant deep learning models such as Long Short-Term Memory (LSTM), Convolution Neural Network (CNN), etc. Firstly, Transformer can readily handle long-term dependencies in a data sequence. Secondly, Transformers can parallelly process all elements in a data sequence during training. Finally, a Transformer does not have the vanishing gradient issue. Realizing the immense possibility of Transformers, this paper proposes inTersection-Transformer (inTformer), a time-embedded attention-based Transformer model that can effectively predict intersection crash likelihood in real-time. The proposed model was evaluated using connected vehicle data extracted from INRIX and Center for Advanced Transportation Technology (CATT) Lab's Signal Analytics Platform. The data was parallelly formatted and stacked at different timesteps to develop nine inTformer models. The best inTformer model achieved a sensitivity of 73%. This model was also compared to earlier studies on crash likelihood prediction at intersections and with several established deep learning models trained on the same connected vehicle dataset. In every scenario, this inTformer outperformed the benchmark models confirming the viability of the proposed inTformer architecture.
翻訳日:2023-07-14 17:09:07 公開日:2023-07-13
# Blocks2World: 編集可能なプリミティブでリアルなシーンを制御する

Blocks2World: Controlling Realistic Scenes with Editable Primitives ( http://arxiv.org/abs/2307.03847v2 )

ライセンス: Link先を確認
Vaibhav Vavilala, Seemandhar Jain, Rahul Vasanth, Anand Bhattad, David Forsyth(参考訳) 画像の凸分解と条件付き合成という2段階のプロセスを活用する3次元シーンレンダリングと編集の新しい手法であるBlocks2Worldを提案する。 提案手法は,コンベックス分解を用いて各シーンの様々な物体から3次元並列入力を抽出し,シーンの原始表現を得る。 これらのプリミティブは、単純な線追跡深度マップを通してペアデータを生成するために使用される。 次のステージでは、2Dレンダリングされた凸プリミティブから画像を生成することを学ぶ条件付きモデルをトレーニングする。 このステップは、3Dモデルとその2D表現を直接マッピングし、3Dモデルから画像への遷移を効果的に学習する。 モデルが完全に訓練されると、新しいシーンと編集されたシーンの合成を著しく制御する。 これはテスト時にプリミティブを操作し、翻訳や追加を行い、高度にカスタマイズ可能なシーンレンダリングプロセスを可能にすることで実現される。 本手法は,3次元シーンのレンダリングと編集,制御と柔軟性を提供する。 この分野における研究と応用のための新たな道を開き、オーサリングやデータ拡張も行っている。

We present Blocks2World, a novel method for 3D scene rendering and editing that leverages a two-step process: convex decomposition of images and conditioned synthesis. Our technique begins by extracting 3D parallelepipeds from various objects in a given scene using convex decomposition, thus obtaining a primitive representation of the scene. These primitives are then utilized to generate paired data through simple ray-traced depth maps. The next stage involves training a conditioned model that learns to generate images from the 2D-rendered convex primitives. This step establishes a direct mapping between the 3D model and its 2D representation, effectively learning the transition from a 3D model to an image. Once the model is fully trained, it offers remarkable control over the synthesis of novel and edited scenes. This is achieved by manipulating the primitives at test time, including translating or adding them, thereby enabling a highly customizable scene rendering process. Our method provides a fresh perspective on 3D scene rendering and editing, offering control and flexibility. It opens up new avenues for research and applications in the field, including authoring and data augmentation.
翻訳日:2023-07-14 17:08:39 公開日:2023-07-13
# ジオローカライズを超えて:衛星画像と補足材料とのクロスビューマッチングによるストリートビュー画像の細粒度方向

Beyond Geo-localization: Fine-grained Orientation of Street-view Images by Cross-view Matching with Satellite Imagery with Supplementary Materials ( http://arxiv.org/abs/2307.03398v2 )

ライセンス: Link先を確認
Wenmiao Hu, Yichen Zhang, Yuxuan Liang, Yifang Yin, Andrei Georgescu, An Tran, Hannes Kruppa, See-Kiong Ng, Roger Zimmermann(参考訳) ストリートビュー画像は、異なる場所を遠隔で探索する新しい体験を提供します。 慎重に調整されたストリートビューイメージ(例えば、Googleストリートビュー)は、ナビゲーション、マップ機能抽出など、さまざまな下流タスクに使用できる。 個人の高品質なカメラがより安価でポータブルになるにつれて、大量のクラウドソースされたストリートビュー画像がインターネットにアップロードされる。 この「使い捨て」状態の隠された宝物を作成するためには、位置情報とカメラ向きの角度が等しく重要な2つのタスクである。 近年,地理参照衛星画像のプールとのクロスビューマッチングにより,ストリートビュー画像の地理的ローカライズ性能が向上している。 しかし、既存の作品の多くは、画像の向きを推定するよりも、地理的局所化に重点を置いている。 本研究では,ストリートビュー画像の微粒な方向を求めることの重要性を再記述し,問題を正式に定義し,方向推定の品質を評価するための評価指標のセットを提供する。 CVUSAおよびCVACTデータセットの2度以下で推定角度誤差が推定された画像に対して、方向推定の粒度を82.4%と72.3%の精度で改善する2つの方法を提案する。 トレーニングにおける細粒度方向推定の統合は、地理的局所化のパフォーマンスも改善し、トップ1のリコール 95.5%/85.5% と 86.8%/80.4% を、2つのデータセットにおけるオリエンテーションの既知の/未知のテストに与える。

Street-view imagery provides us with novel experiences to explore different places remotely. Carefully calibrated street-view images (e.g. Google Street View) can be used for different downstream tasks, e.g. navigation, map features extraction. As personal high-quality cameras have become much more affordable and portable, an enormous amount of crowdsourced street-view images are uploaded to the internet, but commonly with missing or noisy sensor information. To prepare this hidden treasure for "ready-to-use" status, determining missing location information and camera orientation angles are two equally important tasks. Recent methods have achieved high performance on geo-localization of street-view images by cross-view matching with a pool of geo-referenced satellite imagery. However, most of the existing works focus more on geo-localization than estimating the image orientation. In this work, we re-state the importance of finding fine-grained orientation for street-view images, formally define the problem and provide a set of evaluation metrics to assess the quality of the orientation estimation. We propose two methods to improve the granularity of the orientation estimation, achieving 82.4% and 72.3% accuracy for images with estimated angle errors below 2 degrees for CVUSA and CVACT datasets, corresponding to 34.9% and 28.2% absolute improvement compared to previous works. Integrating fine-grained orientation estimation in training also improves the performance on geo-localization, giving top 1 recall 95.5%/85.5% and 86.8%/80.4% for orientation known/unknown tests on the two datasets.
翻訳日:2023-07-14 17:08:20 公開日:2023-07-13
# AIガバナンスのためのマルチレベルフレームワーク

A multilevel framework for AI governance ( http://arxiv.org/abs/2307.03198v2 )

ライセンス: Link先を確認
Hyesun Choung, Prabu David, John S. Seberger(参考訳) AIの潜在的な利益を実現し、潜在的なリスクを軽減するためには、倫理や基本的人間の価値に従うガバナンスの枠組みを開発する必要がある。 いくつかの組織は信頼できるAIのためのガイドラインと倫理的枠組みを発行しているが、ガバナンス構造を仲介しない限り、これらの倫理的原則は実践に転換しない。 本稿では, 政府, 企業, 市民という, 相互依存型利害関係者の3つのグループを包含する多レベルガバナンスアプローチを提案する。 我々はその相互関係を信頼の次元(能力、完全性、善意など)を通して検証する。 ガバナンスのレベルとAIの信頼の次元が組み合わさって、ユーザエクスペリエンスをさらに強化し、AIに関連する公開ポリシーを通知するために使用できる実践的な洞察を提供する。

To realize the potential benefits and mitigate potential risks of AI, it is necessary to develop a framework of governance that conforms to ethics and fundamental human values. Although several organizations have issued guidelines and ethical frameworks for trustworthy AI, without a mediating governance structure, these ethical principles will not translate into practice. In this paper, we propose a multilevel governance approach that involves three groups of interdependent stakeholders: governments, corporations, and citizens. We examine their interrelationships through dimensions of trust, such as competence, integrity, and benevolence. The levels of governance combined with the dimensions of trust in AI provide practical insights that can be used to further enhance user experiences and inform public policy related to AI.
翻訳日:2023-07-14 17:07:49 公開日:2023-07-13
# 不確かさサンプリングを理解する

Understanding Uncertainty Sampling ( http://arxiv.org/abs/2307.02719v2 )

ライセンス: Link先を確認
Shang Liu, Xiaocheng Li(参考訳) 不確実性サンプリングは、現在の予測モデルが不確実であるデータサンプルの注釈を逐次クエリする、一般的なアクティブラーニングアルゴリズムである。 しかし、不確実性サンプリングの使用は概ねヒューリスティックである。 (i)特定の損失を受けた特定のタスクに対する「不確実性」の適切な定義についての合意がないこと。 (II)アルゴリズムを実装するための標準プロトコルを規定する理論的保証はない。例えば、確率勾配降下のような最適化アルゴリズムの枠組みの下で、逐次到着した注釈付きデータをどう扱うか。 本研究では,ストリームベースとプールベースの両方のアクティブラーニングの下で不確実性サンプリングアルゴリズムを体系的に検討する。 そこで本研究では, 不確実性尺度と元の損失関数に依存する等価損失の概念を提案し, 不確実性サンプリングアルゴリズムが等価損失に対して本質的に最適化することを示す。 この観点は、既存の不確実性対策の正当性を2つの側面から検証する。 さらに、不確実性測度を不確実性として設計するための新しい概念である \textit{loss as uncertainty} を提案する。 特徴を不確実性尺度として考慮すれば、条件付き期待損失を使用することが目的である。 このような不確実性測度は、分類問題と回帰問題の両方をカバーする優れた解析的性質と一般性を有しており、基礎となるモデルと問題の完全な一般性において、ストリームベースとプールベースの設定の両方において不確実性サンプリングアルゴリズムに束縛された最初の一般化を提供することができる。 最後に,リスクに敏感な目標と分布的ロバスト性を持つ不確実性サンプリングアルゴリズムのある種の変種間の接続を確立することにより,サンプルサイズが小さい場合の不確実性サンプリングアルゴリズムの利点を部分的に説明できる。

Uncertainty sampling is a prevalent active learning algorithm that queries sequentially the annotations of data samples which the current prediction model is uncertain about. However, the usage of uncertainty sampling has been largely heuristic: (i) There is no consensus on the proper definition of "uncertainty" for a specific task under a specific loss; (ii) There is no theoretical guarantee that prescribes a standard protocol to implement the algorithm, for example, how to handle the sequentially arrived annotated data under the framework of optimization algorithms such as stochastic gradient descent. In this work, we systematically examine uncertainty sampling algorithms under both stream-based and pool-based active learning. We propose a notion of equivalent loss which depends on the used uncertainty measure and the original loss function and establish that an uncertainty sampling algorithm essentially optimizes against such an equivalent loss. The perspective verifies the properness of existing uncertainty measures from two aspects: surrogate property and loss convexity. Furthermore, we propose a new notion for designing uncertainty measures called \textit{loss as uncertainty}. The idea is to use the conditional expected loss given the features as the uncertainty measure. Such an uncertainty measure has nice analytical properties and generality to cover both classification and regression problems, which enable us to provide the first generalization bound for uncertainty sampling algorithms under both stream-based and pool-based settings, in the full generality of the underlying model and problem. Lastly, we establish connections between certain variants of the uncertainty sampling algorithms with risk-sensitive objectives and distributional robustness, which can partly explain the advantage of uncertainty sampling algorithms when the sample size is small.
翻訳日:2023-07-14 17:07:18 公開日:2023-07-13
# 拡散モデルを用いた局所制御によるカラーパレットの適用

Applying a Color Palette with Local Control using Diffusion Models ( http://arxiv.org/abs/2307.02698v2 )

ライセンス: Link先を確認
Vaibhav Vavilala and David Forsyth(参考訳) ファンタジーカードアートの文脈における2つの新しい編集手順を実証する。 パレット転送は、指定された参照パレットを所定のカードに適用する。 ファンタジーアートにとって、パレットの望ましい変化は非常に大きく、芸術の「外観」に大きな変化をもたらす可能性がある。 ベクトル量子化のパイプライン、マッチング、および(拡散モデルを用いて)「ベクトル量子化」が極端なパレット転送を成功させることを示す。 セグメント制御により、アーティストは1つ以上の画像セグメントを移動でき、任意に結果の色を指定することができる。 これら2つのタイプの編集の組み合わせは、セグメントを移動し、再色し、再色し、一部のセグメントに所定の色を強制するといった、貴重なワークフローをもたらす。 我々は,Yu-Gi-Ohカードアートデータセットに挑戦する手法を実証する。

We demonstrate two novel editing procedures in the context of fantasy card art. Palette transfer applies a specified reference palette to a given card. For fantasy art, the desired change in palette can be very large, leading to huge changes in the "look" of the art. We demonstrate that a pipeline of vector quantization; matching; and "vector dequantization" (using a diffusion model) produces successful extreme palette transfers. Segment control allows an artist to move one or more image segments, and to optionally specify the desired color of the result. The combination of these two types of edit yields valuable workflows, including: move a segment, then recolor; recolor, then force some segments to take a prescribed color. We demonstrate our methods on the challenging Yu-Gi-Oh card art dataset.
翻訳日:2023-07-14 17:06:51 公開日:2023-07-13
# Infinite Tensor Network Contraction によるオープン量子システムダイナミクス

Open Quantum System Dynamics from Infinite Tensor Network Contraction ( http://arxiv.org/abs/2307.01802v2 )

ライセンス: Link先を確認
Valentin Link, Hong-Hao Tu, Walter T. Strunz(参考訳) 近年、強結合な非マルコフ開系の力学を計算するための手法が、行列積状態(MPS)形式に縮約できるテンソルネットワークの観点でいわゆるプロセステンソルの表現に基づいている。 ガウス環境においては, 浴槽応答の定常性を利用して, 無限MPS進化法を用いて, このMPSを構築することができることを示す。 この結果は、階層的あるいは擬態的手法のように、自由度を補助するオープンシステムの進化と構造的に類似している。 しかし、これらの自由度はMPS進化アルゴリズムによって自動的に生成される。 さらに, プロセステンソルネットワークを縮約するアルゴリズムは, 既存の提案よりも強い結合問題に対して大きな計算速度アップをもたらす。

Recently developed methods to compute dynamics of strongly coupled non-Markovian open systems are based on a representation of the so-called process tensor in terms of a tensor network, which can be contracted to matrix product state (MPS) form. We show that for Gaussian environments the stationarity of the bath response can be exploited in order to construct this MPS using infinite MPS evolution methods. The result structurally resembles open system evolution with auxiliary degrees of freedom, as in hierarchical or pseudomode methods. Here, however, these degrees of freedom are generated automatically by the MPS evolution algorithm. Furthermore, our algorithm for contracting the process tensor network leads to significant computational speed-ups for strong coupling problems over existing proposals.
翻訳日:2023-07-14 17:06:38 公開日:2023-07-13
# 状態依存雑音を伴う加速確率近似

Accelerated stochastic approximation with state-dependent noise ( http://arxiv.org/abs/2307.01497v2 )

ライセンス: Link先を確認
Sasila Ilandarideva, Anatoli Juditsky, Guanghui Lan, Tianjiao Li(参考訳) 確率勾配観測における雑音に対するより一般的な仮定の下で、確率的滑らかな凸最適化問題のクラスを考える。 ノイズの分散が一様有界であると仮定される古典的な問題設定とは対照的に、確率勾配の分散はアルゴリズムによって与えられる近似解の「準最適性」に関係していると仮定する。 このような問題は様々な応用、特に統計学におけるよく知られた一般化線形回帰問題において自然に発生する。 しかし、我々の知る限りでは、このような問題のクラスを解くための確率近似アルゴリズムは、精度、問題パラメータ、およびミニバッチサイズに依存するため、最適性を得ることができない。 本稿では,2つの非ユークリッド加速確率近似ルーチン,-確率加速度勾配勾配(SAGD)と確率勾配外挿(SGE)について論じる。 適切な条件下では,sagd と sge が最適収束率を達成し,最適な反復とサンプルの複雑度を同時に達成できることを示す。 しかし、SGEアルゴリズムの対応する仮定はより一般的なものであり、例えば、重いテールノイズや不連続スコア関数の下での統計的推定問題にSGEを効率的に適用することができる。 また,2次成長条件を満たす問題に対するSGEの適用について論じ,スパース溶液の回収にどのように使用できるかを示した。 最後に,提案アルゴリズムの高次元設定における数値的性能を示すシミュレーション実験について報告する。

We consider a class of stochastic smooth convex optimization problems under rather general assumptions on the noise in the stochastic gradient observation. As opposed to the classical problem setting in which the variance of noise is assumed to be uniformly bounded, herein we assume that the variance of stochastic gradients is related to the "sub-optimality" of the approximate solutions delivered by the algorithm. Such problems naturally arise in a variety of applications, in particular, in the well-known generalized linear regression problem in statistics. However, to the best of our knowledge, none of the existing stochastic approximation algorithms for solving this class of problems attain optimality in terms of the dependence on accuracy, problem parameters, and mini-batch size. We discuss two non-Euclidean accelerated stochastic approximation routines--stochastic accelerated gradient descent (SAGD) and stochastic gradient extrapolation (SGE)--which carry a particular duality relationship. We show that both SAGD and SGE, under appropriate conditions, achieve the optimal convergence rate, attaining the optimal iteration and sample complexities simultaneously. However, corresponding assumptions for the SGE algorithm are more general; they allow, for instance, for efficient application of the SGE to statistical estimation problems under heavy tail noises and discontinuous score functions. We also discuss the application of the SGE to problems satisfying quadratic growth conditions, and show how it can be used to recover sparse solutions. Finally, we report on some simulation experiments to illustrate numerical performance of our proposed algorithms in high-dimensional settings.
翻訳日:2023-07-14 17:06:26 公開日:2023-07-13
# ニューロシンボリックディープ強化学習アプローチによる安全な自動運転政策に向けて

Towards Safe Autonomous Driving Policies using a Neuro-Symbolic Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2307.01316v2 )

ライセンス: Link先を確認
Iman Sharifi, Mustafa Yildirim, Saber Fallah(参考訳) 運転環境のダイナミックな性質と多様な道路利用者の存在は、自動運転における意思決定に重大な課題をもたらす。 深層強化学習(DRL)は,この問題に対処するための一般的なアプローチである。 しかし、既存のDRLソリューションの適用は主に、安全性上の懸念からシミュレーション環境に限られており、現実世界への展開を妨げている。 この制限を克服するために,DRLとDRLSL(Symbolic Logics)と呼ばれる新しいニューロシンボリックモデルフリーDRLアプローチを導入し,DRLの強み(経験からの学習)と記号的一階述語論理(知識駆動推論)を組み合わせることにより,実環境における自律運転のリアルタイム対話における安全な学習を可能にする。 この革新的なアプローチは、安全を確保しつつ物理的環境に積極的に関与することで、自動運転ポリシーを学ぶ手段を提供する。 我々は,ハイDデータセットを用いた自律走行にDRLSLフレームワークを実装し,トレーニングとテストの両段階において,安全でない動作を回避できることを実証した。 さらに,drllは,従来のdrl法と比較して,学習時の収束が速く,新たな運転シナリオへの一般化性が向上することを示す。

The dynamic nature of driving environments and the presence of diverse road users pose significant challenges for decision-making in autonomous driving. Deep reinforcement learning (DRL) has emerged as a popular approach to tackle this problem. However, the application of existing DRL solutions is mainly confined to simulated environments due to safety concerns, impeding their deployment in real-world. To overcome this limitation, this paper introduces a novel neuro-symbolic model-free DRL approach, called DRL with Symbolic Logics (DRLSL) that combines the strengths of DRL (learning from experience) and symbolic first-order logics (knowledge-driven reasoning) to enable safe learning in real-time interactions of autonomous driving within real environments. This innovative approach provides a means to learn autonomous driving policies by actively engaging with the physical environment while ensuring safety. We have implemented the DRLSL framework in autonomous driving using the highD dataset and demonstrated that our method successfully avoids unsafe actions during both the training and testing phases. Furthermore, our results indicate that DRLSL achieves faster convergence during training and exhibits better generalizability to new driving scenarios compared to traditional DRL methods.
翻訳日:2023-07-14 17:05:59 公開日:2023-07-13
# サプライチェーン最適化のための大規模言語モデル

Large Language Models for Supply Chain Optimization ( http://arxiv.org/abs/2307.03875v2 )

ライセンス: Link先を確認
Beibin Li, Konstantina Mellou, Bo Zhang, Jeevan Pathuri, Ishai Menache(参考訳) サプライチェーンの運用は伝統的に様々な複雑な意思決定の問題を伴う。 過去数十年間、サプライチェーンは計算の進歩の大きな恩恵を受け、手動処理から自動化、コスト効率の最適化へと移行した。 それでも、ビジネスオペレータは、ステークホルダーへの最適化結果の説明と解釈に多大な労力を費やす必要がある。 近年のLarge Language Models (LLMs) の進歩に触発され,サプライチェーンの自動化と人間の理解,信頼のギャップを埋める上で,この破壊的技術がいかに役立つかを検討する。 我々はOptiGuideを設計し、平易なテキストで入力クエリとして受け付け、基礎となる最適化結果に関する洞察を出力する。 我々のフレームワークは、最先端の組合せ最適化技術を捨てるのではなく、それを利用して、何のシナリオ(例えば、ある需要に対してサプライヤーAの代わりにサプライヤーBを使用する場合、コストはどのように変化するのか? 重要なことは、当社の設計では、LLMにプロプライエタリなデータを送らなくてもよいということです。 当社のフレームワークがMicrosoftのクラウドサプライチェーン内の実際のサーバ配置シナリオに与える影響を実証する。 そこで我々は,他のシナリオにおけるllm出力の精度を評価するための汎用評価ベンチマークを開発した。

Supply chain operations traditionally involve a variety of complex decision making problems. Over the last few decades, supply chains greatly benefited from advances in computation, which allowed the transition from manual processing to automation and cost-effective optimization. Nonetheless, business operators still need to spend substantial efforts in explaining and interpreting the optimization outcomes to stakeholders. Motivated by the recent advances in Large Language Models (LLMs), we study how this disruptive technology can help bridge the gap between supply chain automation and human comprehension and trust thereof. We design OptiGuide -- a framework that accepts as input queries in plain text, and outputs insights about the underlying optimization outcomes. Our framework does not forgo the state-of-the-art combinatorial optimization technology, but rather leverages it to quantitatively answer what-if scenarios (e.g., how would the cost change if we used supplier B instead of supplier A for a given demand?). Importantly, our design does not require sending proprietary data over to LLMs, which can be a privacy concern in some circumstances. We demonstrate the effectiveness of our framework on a real server placement scenario within Microsoft's cloud supply chain. Along the way, we develop a general evaluation benchmark, which can be used to evaluate the accuracy of the LLM output in other scenarios.
翻訳日:2023-07-14 16:55:12 公開日:2023-07-13
# 変分量子固有解法におけるショット割り当ての最適化

Optimizing Shot Assignment in Variational Quantum Eigensolver Measurement ( http://arxiv.org/abs/2307.06504v1 )

ライセンス: Link先を確認
Linghua Zhu, Senwei Liang, Chao Yang and Xiaosong Li(参考訳) 量子コンピューティングの急速な進歩は、複雑な科学的問題に取り組む新しい可能性を開いた。 変分量子固有解法(VQE)は、量子化学問題を解く可能性を持ち、量子上の利点を達成する。 しかしながら、VQEフレームワークにおける測定ステップは課題を提示している。 限られた測定予算で目的関数を推定しながらノイズや誤差を導入することができる。 このようなエラーは、VQEの収束を遅らせたり、防止することができる。 測定誤差を低減するために、目的関数の雑音を平均化するために多くの繰り返し測定が必要である。 ハミルトン項をクランクにまとめることで、同時測定を行い、全体の計測ショット数を減らすことができる。 しかしながら、測定のノイズレベルなど、各クライクに対する事前知識の制限が課題となっている。 本研究は, 標準偏差推定に基づく2つのショット割当戦略を導入し, vqeの収束を改善し, 所要ショット数を削減する。 これらの戦略は、特に2つの異なるシナリオをターゲットとしている。 最適化ショット割当戦略の有効性は,h$_2$分子上で行った数値実験により実証された。 この研究は、量子化学問題を解決するための実用的なツールとしてvqeの進歩に貢献し、量子コンピュータ上の複雑な科学シミュレーションにおける将来の応用への道を開く。

The rapid progress in quantum computing has opened up new possibilities for tackling complex scientific problems. Variational quantum eigensolver (VQE) holds the potential to solve quantum chemistry problems and achieve quantum advantages. However, the measurement step within the VQE framework presents challenges. It can introduce noise and errors while estimating the objective function with a limited measurement budget. Such error can slow down or prevent the convergence of VQE. To reduce measurement error, many repeated measurements are needed to average out the noise in the objective function. By consolidating Hamiltonian terms into cliques, simultaneous measurements can be performed, reducing the overall measurement shot count. However, limited prior knowledge of each clique, such as noise level of measurement, poses a challenge. This work introduces two shot assignment strategies based on estimating the standard deviation of measurements to improve the convergence of VQE and reduce the required number of shots. These strategies specifically target two distinct scenarios: overallocated and underallocated shots. The efficacy of the optimized shot assignment strategy is demonstrated through numerical experiments conducted on a H$_2$ molecule. This research contributes to the advancement of VQE as a practical tool for solving quantum chemistry problems, paving the way for future applications in complex scientific simulations on quantum computers.
翻訳日:2023-07-14 16:19:34 公開日:2023-07-13
# 任意のスピン1/2ハミルトニアンに対する量子モンテカルロアルゴリズム

A quantum Monte Carlo algorithm for arbitrary spin-1/2 Hamiltonians ( http://arxiv.org/abs/2307.06503v1 )

ライセンス: Link先を確認
Lev Barash, Arman Babakhani, Itay Hen(参考訳) 任意のスピン-1/2$ハミルトニアンをシミュレートする汎用パラメータフリー量子モンテカルロ(qmc)アルゴリズムを提案する。 各ケースに対するマルコフ連鎖のエルゴディディティを保証するため、ハミルトン式を前提として、詳細なバランスを維持しつつ、エルゴディディティに必要なQMC更新を生成する明確でシンプルな自動プロトコルを考案する。 三角格子上の$XY$モデルのシミュレーションやランダムな$k$-ローカルハミルトニアンのシミュレーションなど,いくつかの例を考察して,本手法の適用性と汎用性を実証する。 私たちはプログラムコードをGitHubで自由にアクセスできるようにした。

We present a universal parameter-free quantum Monte Carlo (QMC) algorithm designed to simulate arbitrary spin-$1/2$ Hamiltonians. To ensure the ergodicity of the Markov chain for every conceivable case, we devise a clear and simple automated protocol that produces, given a Hamiltonian, the necessary QMC updates needed for ergodicity while also maintaining detailed balance. We demonstrate the applicability and versatility of our method by considering several illustrative examples, including the simulation of the $XY$ model on a triangular lattice as well as random $k$-local Hamiltonians. We have made our program code freely accessible on GitHub.
翻訳日:2023-07-14 16:19:11 公開日:2023-07-13
# アンサンブル深層強化学習による人工膵のハイブリッド制御

Hybrid Control Policy for Artificial Pancreas via Ensemble Deep Reinforcement Learning ( http://arxiv.org/abs/2307.06501v1 )

ライセンス: Link先を確認
Wenzhou Lv, Tianyu Wu, Luolin Xiong, Liang Wu, Jian Zhou, Yang Tang, Feng Qi(参考訳) 目的: 人工膵 (ap) は, 1型糖尿病 (t1dm) 患者に対する閉ループ血糖コントロールを実現する可能性を示した。 しかし, apの効果的な制御方針の設計は, 複雑な生理的プロセス, インスリン応答の遅延, グルコース測定の不正確なため, 依然として困難である。 モデル予測制御(MPC)は、動的モデルと安全制約を通じて安全性と安定性を提供するが、個別化が欠如し、未発表の食事に悪影響を及ぼす。 逆に、深層強化学習(DRL)はパーソナライズされた適応的な戦略を提供するが、分散シフトや実質的なデータ要求といった課題に直面している。 方法: 以上の課題に対処するため, 人工膵(HyCPAP)のハイブリッド制御ポリシーを提案する。 hycpapはmpcポリシーとdrlポリシーを組み合わせることで、それぞれの制限を補償しながら両方のポリシーの強みを活用する。 実環境におけるAPシステムの迅速な展開を容易にするため,HyCPAPにメタラーニング技術を取り入れ,既往の経験と患者が共有した知識を活用して,限られたデータを持つ新規患者への迅速な適応を可能にする。 結果: FDA が承認した UVA/Padova T1DM シミュレータを用いて, 広範囲にわたる実験を行った。 提案手法は, 所望のeuglycemic rangeにおける最多使用時間と低血糖発生率を達成する。 結論: t1dm患者においてクローズドループグルコース管理法が優れていることが明らかとなった。 意義:本研究は,効率的なクローズドループグルコース制御法の可能性を確認し,APシステムの新しい制御方針を示す。

Objective: The artificial pancreas (AP) has shown promising potential in achieving closed-loop glucose control for individuals with type 1 diabetes mellitus (T1DM). However, designing an effective control policy for the AP remains challenging due to the complex physiological processes, delayed insulin response, and inaccurate glucose measurements. While model predictive control (MPC) offers safety and stability through the dynamic model and safety constraints, it lacks individualization and is adversely affected by unannounced meals. Conversely, deep reinforcement learning (DRL) provides personalized and adaptive strategies but faces challenges with distribution shifts and substantial data requirements. Methods: We propose a hybrid control policy for the artificial pancreas (HyCPAP) to address the above challenges. HyCPAP combines an MPC policy with an ensemble DRL policy, leveraging the strengths of both policies while compensating for their respective limitations. To facilitate faster deployment of AP systems in real-world settings, we further incorporate meta-learning techniques into HyCPAP, leveraging previous experience and patient-shared knowledge to enable fast adaptation to new patients with limited available data. Results: We conduct extensive experiments using the FDA-accepted UVA/Padova T1DM simulator across three scenarios. Our approaches achieve the highest percentage of time spent in the desired euglycemic range and the lowest occurrences of hypoglycemia. Conclusion: The results clearly demonstrate the superiority of our methods for closed-loop glucose management in individuals with T1DM. Significance: The study presents novel control policies for AP systems, affirming the great potential of proposed methods for efficient closed-loop glucose control.
翻訳日:2023-07-14 16:18:47 公開日:2023-07-13
# 画像分類のための色不変強度に基づくcnnの抽出能力について

On the ability of CNNs to extract color invariant intensity based features for image classification ( http://arxiv.org/abs/2307.06500v1 )

ライセンス: Link先を確認
Pradyumna Elavarthi, James Lee and Anca Ralescu(参考訳) 畳み込みニューラルネットワーク(CNN)は視覚関連タスクにおいて顕著な成功を収めている。 しかし、入力がトレーニング分布から逸脱した場合の失敗に対する感受性は十分に文書化されている。 近年の研究では、cnnは画像分類タスクにおいて物体形状ではなくテクスチャに偏りを示しており、背景情報は予測に影響を与える可能性がある。 本稿では,CNNが文脈や背景を維持しつつ,画像内の異なる色分布に適応できる能力について検討する。 修正MNISTとFashionMNISTデータを用いた実験の結果,色の変化が分類精度に大きく影響を与えることが示された。 本稿では,データセット間の一般化誤差に対する様々な正規化手法の効果を考察し,色不変強度に基づく特徴のモデル依存度を高め,分類精度を向上させる新しい手法として,ドロップアウト正規化を用いたアーキテクチャ修正を提案する。 全体として、この研究は画像分類タスクにおけるCNNの限界と課題を理解するための継続的な取り組みに貢献し、そのパフォーマンスを高める潜在的なソリューションを提供する。

Convolutional neural networks (CNNs) have demonstrated remarkable success in vision-related tasks. However, their susceptibility to failing when inputs deviate from the training distribution is well-documented. Recent studies suggest that CNNs exhibit a bias toward texture instead of object shape in image classification tasks, and that background information may affect predictions. This paper investigates the ability of CNNs to adapt to different color distributions in an image while maintaining context and background. The results of our experiments on modified MNIST and FashionMNIST data demonstrate that changes in color can substantially affect classification accuracy. The paper explores the effects of various regularization techniques on generalization error across datasets and proposes a minor architectural modification utilizing the dropout regularization in a novel way that enhances model reliance on color-invariant intensity-based features for improved classification accuracy. Overall, this work contributes to ongoing efforts to understand the limitations and challenges of CNNs in image classification tasks and offers potential solutions to enhance their performance.
翻訳日:2023-07-14 16:18:21 公開日:2023-07-13
# 微生物遺伝的アルゴリズムによる解釈型ディープラーニングシステムに対するブラックボックス攻撃

Microbial Genetic Algorithm-based Black-box Attack against Interpretable Deep Learning Systems ( http://arxiv.org/abs/2307.06496v1 )

ライセンス: Link先を確認
Eldor Abdukhamidov, Mohammed Abuhamad, Simon S. Woo, Eric Chan-Tin, Tamer Abuhmed(参考訳) ディープラーニングモデルは、ホワイトボックスとブラックボックス環境の敵対的なサンプルに影響を受けやすい。 これまでの研究では攻撃成功率が高いことが示されているが、dnnモデルを解釈モデルと結合することは、人間の専門家が関与する場合、与えられたサンプルが良質か悪質かを識別できるセキュリティ感をもたらす可能性がある。 しかし、ホワイトボックス環境では、解釈可能なディープラーニングシステム(IDLS)は悪意のある操作に対して脆弱であることが示されている。 ブラックボックス設定では、IDLSのコンポーネントへのアクセスが制限されているため、敵がシステムを騙すことがより困難になる。 本稿では,対象モデルとその結合解釈モデルに関する知識を必要とせず,クエリ効率の高いスコアベースのブラックボックス攻撃であるquscoreを提案する。 QuScoreは、効果的な微生物遺伝アルゴリズムを用いて、転送ベースおよびスコアベースの手法に基づいている。 本手法は,攻撃を成功させるために必要なクエリ数を削減し,より効率的な処理を実現する。 提案手法は,IDLSからのフィードバックスコアに基づいて生成した敵のサンプルを連続的に精製することにより,探索空間を効果的にナビゲートし,システムを騙しかねない摂動を識別する。 Inception, ResNet, VGG, DenseNet)と2つの解釈モデル(CAM, Grad)において、ImageNetとCIFARの両方のデータセットを用いて攻撃の有効性を評価する。 提案手法は,画像NetとCIFARデータセットの平均成功率は69%で,95%から100%まで到達可能な攻撃成功率の高いクエリ効率と転送可能性を示す。 攻撃方法は,良質なサンプルに類似した帰属マップを用いた逆例を生成する。 また,本攻撃は各種前処理防御技術に対して耐性があり,異なるDNNモデルに容易に移行可能であることも実証した。

Deep learning models are susceptible to adversarial samples in white and black-box environments. Although previous studies have shown high attack success rates, coupling DNN models with interpretation models could offer a sense of security when a human expert is involved, who can identify whether a given sample is benign or malicious. However, in white-box environments, interpretable deep learning systems (IDLSes) have been shown to be vulnerable to malicious manipulations. In black-box settings, as access to the components of IDLSes is limited, it becomes more challenging for the adversary to fool the system. In this work, we propose a Query-efficient Score-based black-box attack against IDLSes, QuScore, which requires no knowledge of the target model and its coupled interpretation model. QuScore is based on transfer-based and score-based methods by employing an effective microbial genetic algorithm. Our method is designed to reduce the number of queries necessary to carry out successful attacks, resulting in a more efficient process. By continuously refining the adversarial samples created based on feedback scores from the IDLS, our approach effectively navigates the search space to identify perturbations that can fool the system. We evaluate the attack's effectiveness on four CNN models (Inception, ResNet, VGG, DenseNet) and two interpretation models (CAM, Grad), using both ImageNet and CIFAR datasets. Our results show that the proposed approach is query-efficient with a high attack success rate that can reach between 95% and 100% and transferability with an average success rate of 69% in the ImageNet and CIFAR datasets. Our attack method generates adversarial examples with attribution maps that resemble benign samples. We have also demonstrated that our attack is resilient against various preprocessing defense techniques and can easily be transferred to different DNN models.
翻訳日:2023-07-14 16:18:05 公開日:2023-07-13
# エゴセントリック行動認識のためのフリーフォーム合成ネットワーク

Free-Form Composition Networks for Egocentric Action Recognition ( http://arxiv.org/abs/2307.06527v1 )

ライセンス: Link先を確認
Haoran Wang, Qinghua Cheng, Baosheng Yu, Yibing Zhan, Dapeng Tao, Liang Ding, and Haibin Ling(参考訳) エゴセントリックな行動認識は、人間の行動認識の分野で大きな注目を集めている。 本稿では,合成一般化の観点から,自己中心型行動認識におけるデータ不足問題に対処する。 この問題に対処するために,不整形動詞,前置詞,名詞表現を同時に学習する自由形合成ネットワーク (FFCN) を提案し,これを用いて特徴空間に新たなサンプルを合成する。 まず、各アクションビデオにおける手/オブジェクトインスタンス間の空間的-時間的関係をグラフで捉える。 そこで我々は,各アクションを動詞の集合に分解し,グラフのエッジ特徴を用いた時空間表現を前置する。 時間分解は異なる映像フレームから動詞と前置表現を抽出し、空間分解は各フレームの動作関連インスタンスから動詞と前置表現を適応的に学習する。 これらの動詞と前置詞の時空間表現により、動詞と名詞の厳密な形式に制限されない、これらの稀なクラスに対する新しいサンプルを自由形式で作成することができる。 提案したFFCNは、レアクラスのトレーニングデータを直接生成できるため、動作認識性能が大幅に向上する。 提案手法は,3つの一般的なエゴセントリックな行動認識データセットであるSomething V2, H2O, EPIC-KITCHENS-100を用いて評価し, 提案手法の有効性を実証した。

Egocentric action recognition is gaining significant attention in the field of human action recognition. In this paper, we address data scarcity issue in egocentric action recognition from a compositional generalization perspective. To tackle this problem, we propose a free-form composition network (FFCN) that can simultaneously learn disentangled verb, preposition, and noun representations, and then use them to compose new samples in the feature space for rare classes of action videos. First, we use a graph to capture the spatial-temporal relations among different hand/object instances in each action video. We thus decompose each action into a set of verb and preposition spatial-temporal representations using the edge features in the graph. The temporal decomposition extracts verb and preposition representations from different video frames, while the spatial decomposition adaptively learns verb and preposition representations from action-related instances in each frame. With these spatial-temporal representations of verbs and prepositions, we can compose new samples for those rare classes in a free-form manner, which is not restricted to a rigid form of a verb and a noun. The proposed FFCN can directly generate new training data samples for rare classes, hence significantly improve action recognition performance. We evaluated our method on three popular egocentric action recognition datasets, Something-Something V2, H2O, and EPIC-KITCHENS-100, and the experimental results demonstrate the effectiveness of the proposed method for handling data scarcity problems, including long-tailed and few-shot egocentric action recognition.
翻訳日:2023-07-14 16:10:46 公開日:2023-07-13
# アバターフュージョン:2次元拡散を用いた衣服分離アバターのゼロショット生成

AvatarFusion: Zero-shot Generation of Clothing-Decoupled 3D Avatars Using 2D Diffusion ( http://arxiv.org/abs/2307.06526v1 )

ライセンス: Link先を確認
Shuo Huang, Zongxin Yang, Liangting Li, Yi Yang, Jia Jia(参考訳) 大規模な事前訓練された視覚言語モデルは、ゼロショットテキストベースの3Dアバターの生成を可能にする。 以前の最先端の手法では、人間の体メッシュを再構築した神経暗黙のモデルを監督するためにCLIPを使用していた。 しかし、このアプローチには2つの制限がある。 まず、アバター特有のモデルの欠如は、生成されたアバターに顔の歪みと非現実的な衣服を引き起こす可能性がある。 第二に、CLIPは全体的な外観に対する最適化の方向のみを提供しており、印象的な結果が少ない。 これらの制約に対処するため,我々は,アバターの体から衣服を同時に分割しながら,人間の現実的なアバターを生成するためのピクセルレベルのガイダンスを提供するために,潜伏拡散モデルを用いた最初のフレームワークであるAvatarFusionを提案する。 AvatarFusionには、新しいDual Volume Rendering戦略を採用して、デカップリングされた皮膚と衣服のサブモデルを1つの空間でレンダリングする最初の衣服分離型ニューラル暗黙アバターモデルが含まれている。 また,身体と衣服の生成を意味的に分離し,様々な衣料スタイルを生成する新たな最適化手法であるpixel-semantics difference-sampling (ps-ds)を提案する。 さらに,ゼロショットテキスト-アバター生成のための最初のベンチマークを確立する。 実験の結果,我々のフレームワークは従来のアプローチを上回っており,すべてのメトリクスで大幅な改善が見られた。 さらに,モデルが衣料品分離であるため,アバターの衣料を交換できる。 コードはgithubで入手できる。

Large-scale pre-trained vision-language models allow for the zero-shot text-based generation of 3D avatars. The previous state-of-the-art method utilized CLIP to supervise neural implicit models that reconstructed a human body mesh. However, this approach has two limitations. Firstly, the lack of avatar-specific models can cause facial distortion and unrealistic clothing in the generated avatars. Secondly, CLIP only provides optimization direction for the overall appearance, resulting in less impressive results. To address these limitations, we propose AvatarFusion, the first framework to use a latent diffusion model to provide pixel-level guidance for generating human-realistic avatars while simultaneously segmenting clothing from the avatar's body. AvatarFusion includes the first clothing-decoupled neural implicit avatar model that employs a novel Dual Volume Rendering strategy to render the decoupled skin and clothing sub-models in one space. We also introduce a novel optimization method, called Pixel-Semantics Difference-Sampling (PS-DS), which semantically separates the generation of body and clothes, and generates a variety of clothing styles. Moreover, we establish the first benchmark for zero-shot text-to-avatar generation. Our experimental results demonstrate that our framework outperforms previous approaches, with significant improvements observed in all metrics. Additionally, since our model is clothing-decoupled, we can exchange the clothes of avatars. Code will be available on Github.
翻訳日:2023-07-14 16:10:19 公開日:2023-07-13
# 多国間交渉対話における合意追跡

Agreement Tracking for Multi-Issue Negotiation Dialogues ( http://arxiv.org/abs/2307.06524v1 )

ライセンス: Link先を確認
Amogh Mannekote, Bonnie J. Dorr, Kristy Elizabeth Boyer(参考訳) 自動交渉支援システムは、多国間交渉(例えば、雇用主と候補者が給与、時間、求人前の昇進などについて交渉するなど)において、人間の交渉者がより良好な結果を得るのを助けることを目的としている。 成功させるためには、これらのシステムは参加者がリアルタイムに到達した合意を正確に追跡する必要がある。 既存のアプローチはタスク指向の対話にフォーカスするか、非構造化のアウトプットを生成するかのどちらかであり、この目的には適さない。 本研究は,構造化された国家空間における合意の継続的な監視を必要とする二国間交渉における合意追跡の新たなタスクを導入する。 注釈付きコーパスの欠如に対処するため,GPT-3を用いてGPT-Negochatを構築した。 我々は,multiwoz 2.4コーパスで学習したt5モデルを転送学習することで,タスクの初期ベースラインを強化する。 MultiWOZ 2.4 の DST タスクの事前トレーニング T5-small と T5-base は GPT-Negochat のみのトレーニングよりも 21% と 9% に向上する。 本手法のサンプル効率を,より小さな訓練サブセット実験により検証する。 我々は,GPT-Negochatとベースラインモデルをリリースすることによって,多国間対話契約追跡のさらなる研究を促進することを目的とする。

Automated negotiation support systems aim to help human negotiators reach more favorable outcomes in multi-issue negotiations (e.g., an employer and a candidate negotiating over issues such as salary, hours, and promotions before a job offer). To be successful, these systems must accurately track agreements reached by participants in real-time. Existing approaches either focus on task-oriented dialogues or produce unstructured outputs, rendering them unsuitable for this objective. Our work introduces the novel task of agreement tracking for two-party multi-issue negotiations, which requires continuous monitoring of agreements within a structured state space. To address the scarcity of annotated corpora with realistic multi-issue negotiation dialogues, we use GPT-3 to build GPT-Negochat, a synthesized dataset that we make publicly available. We present a strong initial baseline for our task by transfer-learning a T5 model trained on the MultiWOZ 2.4 corpus. Pre-training T5-small and T5-base on MultiWOZ 2.4's DST task enhances results by 21% and 9% respectively over training solely on GPT-Negochat. We validate our method's sample-efficiency via smaller training subset experiments. By releasing GPT-Negochat and our baseline models, we aim to encourage further research in multi-issue negotiation dialogue agreement tracking.
翻訳日:2023-07-14 16:09:52 公開日:2023-07-13
# 超高速磁気X線散乱による分子動力学におけるベリー曲率の追跡

Tracking Berry curvature effect in molecular dynamics by ultrafast magnetic x-ray scattering ( http://arxiv.org/abs/2307.06523v1 )

ライセンス: Link先を確認
Ming Zhang, Xiaoyu Mi, Linfeng Zhang, Chengyin Wu, Zheng Li(参考訳) スピン依存ベリー力は、分子動力学におけるベリー曲率の真の効果であり、空間的なスピン分離と反応経路の変化をもたらす。 しかしながら、反対のベリー力に必要な時間反転(TR)対称性は、効果を観測するために必要なTR対称性のスピンアライメントと矛盾し、分子波パケットに対してネット効果が過渡的であるため、ベリー力の効果を探索する方法は依然として困難である。 分子光解離では、ベリー力によりスピン方向が反対の分子では解離速度が異なることが示されている。 自由電子レーザーを用いた超高速非共鳴磁気x線散乱の円二色性(cd)から分子波パケットが円錐交差を通過するときにベリー力によって一過的に引き起こされる空間分離スピン密度を再構成できることを示す。

The spin-dependent Berry force is a genuine effect of Berry curvature in molecular dynamics, which can dramatically result in spatial spin separation and change of reaction pathways. However, the way to probe the effect of Berry force remains challenging, because the time-reversal (TR) symmetry required for opposite Berry forces conflicts with TR symmetry breaking spin alignment needed to observe the effect, and the net effect could be transient for a molecular wave packet. We demonstrate that in molecular photodissociation, the dissociation rates can be different for molecules with opposite initial spin directions due to Berry force. We showcase that the spatially separated spin density, which is transiently induced by Berry force as the molecular wave packet passes through conical intersection, can be reconstructed from the circular dichroism (CD) of ultrafast non-resonant magnetic x-ray scattering using free electron lasers.
翻訳日:2023-07-14 16:09:27 公開日:2023-07-13
# 薬物発見のための人工知能:まだあるのか?

Artificial Intelligence for Drug Discovery: Are We There Yet? ( http://arxiv.org/abs/2307.06521v1 )

ライセンス: Link先を確認
Catrin Hasselgren and Tudor I. Oprea(参考訳) データサイエンス、インフォマティクス、人工知能(ai)などの新しい技術を適用し、コストと動物実験を削減しながら効果的な治療開発を加速している。 AIは、投資家、産業科学者、学術科学者、立法者からの関心が高まる中で、薬物発見を変革している。 薬の発見に成功するには、薬物動態、薬物動態、臨床結果に関連する特性の最適化が必要である。 本稿では, 薬物発見の3つの柱である疾患, 標的, 治療的モダリティにおけるaiの利用について, 小分子薬を中心に論じる。 生成化学、機械学習、多属性最適化などのai技術により、いくつかの化合物が臨床試験に参入できるようになった。 科学的コミュニティは再現性危機に対処するために、既知の情報を慎重に検証しなければならない。 薬物発見におけるAIの潜在能力は、十分な基礎的真実と適切な人間の介入によってのみ実現される。

Drug discovery is adapting to novel technologies such as data science, informatics, and artificial intelligence (AI) to accelerate effective treatment development while reducing costs and animal experiments. AI is transforming drug discovery, as indicated by increasing interest from investors, industrial and academic scientists, and legislators. Successful drug discovery requires optimizing properties related to pharmacodynamics, pharmacokinetics, and clinical outcomes. This review discusses the use of AI in the three pillars of drug discovery: diseases, targets, and therapeutic modalities, with a focus on small molecule drugs. AI technologies, such as generative chemistry, machine learning, and multi-property optimization, have enabled several compounds to enter clinical trials. The scientific community must carefully vet known information to address the reproducibility crisis. The full potential of AI in drug discovery can only be realized with sufficient ground truth and appropriate human intervention at later pipeline stages.
翻訳日:2023-07-14 16:09:08 公開日:2023-07-13
# 機械学習のプラクティスとインフラストラクチャ

Machine Learning practices and infrastructures ( http://arxiv.org/abs/2307.06518v1 )

ライセンス: Link先を確認
Glen Berman(参考訳) 機械学習(ML)システムは、特に高い領域にデプロイされた場合、非常に適切である。 彼らは既存の不平等を悪化させ、新しい差別モードを作り、時代遅れの社会的構成を再構築することができる。 したがって、MLシステムを開発する社会的文脈(組織、チーム、文化)は、AI倫理分野の積極的な研究の場であり、政策立案者への介入である。 本稿では,実践者とそれに依存するツールとのインタラクションと,これらのインタラクションがmlプラクティスの形成とmlシステムの開発に果たす役割について,しばしば見過ごされている社会的コンテキストの1つの側面に焦点を当てる。 特にStack Exchangeフォーラムで質問された質問の実証的研究を通じて、MLプラクティスにおけるインタラクティブコンピューティングプラットフォーム(Jupyter NotebookやGoogle Colabなど)の使用について検討している。 インタラクティブなコンピューティングプラットフォームは、インタラクティブなコンピューティングプラットフォームとML実践者とのインフラ的関係を構成する、学習と調整の一連のプラクティスで使われています。 MLの実践がインタラクティブなコンピューティングプラットフォームの開発と共進化している様子を説明した上で、AI倫理研究者が示したMLのライフサイクルの目に見えない側面を生かすリスクが、デプロイされたMLシステムの社会的影響に対して特に有益であることを強調した。

Machine Learning (ML) systems, particularly when deployed in high-stakes domains, are deeply consequential. They can exacerbate existing inequities, create new modes of discrimination, and reify outdated social constructs. Accordingly, the social context (i.e. organisations, teams, cultures) in which ML systems are developed is a site of active research for the field of AI ethics, and intervention for policymakers. This paper focuses on one aspect of social context that is often overlooked: interactions between practitioners and the tools they rely on, and the role these interactions play in shaping ML practices and the development of ML systems. In particular, through an empirical study of questions asked on the Stack Exchange forums, the use of interactive computing platforms (e.g. Jupyter Notebook and Google Colab) in ML practices is explored. I find that interactive computing platforms are used in a host of learning and coordination practices, which constitutes an infrastructural relationship between interactive computing platforms and ML practitioners. I describe how ML practices are co-evolving alongside the development of interactive computing platforms, and highlight how this risks making invisible aspects of the ML life cycle that AI ethics researchers' have demonstrated to be particularly salient for the societal impact of deployed ML systems.
翻訳日:2023-07-14 16:08:53 公開日:2023-07-13
# 信念校正への文脈的反事実の活用

Leveraging Contextual Counterfactuals Toward Belief Calibration ( http://arxiv.org/abs/2307.06513v1 )

ライセンス: Link先を確認
Qiuyi (Richard) Zhang, Michael S. Lee, Sherol Chen(参考訳) データ収集の原則を慎重にキュレートしたり、トレーニングに使用する損失関数を正規化したりすることで、AIシステムに信念と価値が組み込まれています。 しかし、メタアレーメント問題は、これらの人間の信念が多様であり、集団間では一致していないことである。さらに、それぞれの信念の暗黙の強さは、人間の間でも、特に文脈をまたいで一般化しようとする場合には、うまく調整されないかもしれない。 具体的には,高い後悔状況において,意思決定者の信念やその信念が持つ強みを更新する上で,文脈的反事実とリコースコストが特に重要であることを観察する。 したがって,アライメント中の信念の正確なキャリブレーションには,反事実を含むことが重要であると考える。 まず,信念の多様性を主観性(集団内の個人を横断する)と認識的不確実性(異なる文脈にまたがる個人を含む)の2つのカテゴリに分類した。 認識の不確実性の概念を活用することにより、多目的最適化を用いて、文脈駆動の反事実推論による信念の多様性をより均質に校正する「信念校正サイクル」フレームワークを導入する。 我々は、さまざまな文脈で一般化するクラスタ化された最適な信念強度のパレートフロンティアを見つけるための枠組みを実証的に適用し、その効果を信用決定のためのおもちゃデータセット上で実証する。

Beliefs and values are increasingly being incorporated into our AI systems through alignment processes, such as carefully curating data collection principles or regularizing the loss function used for training. However, the meta-alignment problem is that these human beliefs are diverse and not aligned across populations; furthermore, the implicit strength of each belief may not be well calibrated even among humans, especially when trying to generalize across contexts. Specifically, in high regret situations, we observe that contextual counterfactuals and recourse costs are particularly important in updating a decision maker's beliefs and the strengths to which such beliefs are held. Therefore, we argue that including counterfactuals is key to an accurate calibration of beliefs during alignment. To do this, we first segment belief diversity into two categories: subjectivity (across individuals within a population) and epistemic uncertainty (within an individual across different contexts). By leveraging our notion of epistemic uncertainty, we introduce `the belief calibration cycle' framework to more holistically calibrate this diversity of beliefs with context-driven counterfactual reasoning by using a multi-objective optimization. We empirically apply our framework for finding a Pareto frontier of clustered optimal belief strengths that generalize across different contexts, demonstrating its efficacy on a toy dataset for credit decisions.
翻訳日:2023-07-14 16:08:31 公開日:2023-07-13
# 連続ループ経路積分分子動力学による量子熱平均の精密計算

Exact Calculation of Quantum Thermal Average from Continuous Loop Path Integral Molecular Dynamics ( http://arxiv.org/abs/2307.06510v1 )

ライセンス: Link先を確認
Xuda Ye, Zhennan Zhou(参考訳) 量子熱平均は、量子系の熱力学特性を記述する上で中心的な役割を果たす。 計算の観点からは、量子熱平均は経路積分分子動力学(PIMD)によって計算できるが、そのような近似の定量的収束に関する知識は不足している。 本研究では, 連続ループ経路積分分子動力学 (cl-pimd) という別の計算フレームワークを提案する。 正規モードの数を有限整数 $n\in\mathbb n$ に切り換えることで、真の量子温度平均から切り離された cl-pimd の統計平均の差を定量化し、切り離された cl-pimd が一様で$n$ の幾何学的エルゴード性を持つことを証明する。 これらの結果は、CL-PIMDが量子温度平均の正確な近似を提供し、PIMD方法論の数学的正当化に役立つことを示している。

The quantum thermal average plays a central role in describing the thermodynamic properties of a quantum system. From the computational perspective, the quantum thermal average can be computed by the path integral molecular dynamics (PIMD), but the knowledge on the quantitative convergence of such approximations is lacking. We propose an alternative computational framework named the continuous loop path integral molecular dynamics (CL-PIMD), which replaces the ring polymer beads by a continuous loop in the spirit of the Feynman--Kac formula. By truncating the number of normal modes to a finite integer $N\in\mathbb N$, we quantify the discrepancy of the statistical average of the truncated CL-PIMD from the true quantum thermal average, and prove that the truncated CL-PIMD has uniform-in-$N$ geometric ergodicity. These results show that the CL-PIMD provides an accurate approximation to the quantum thermal average, and serves as a mathematical justification of the PIMD methodology.
翻訳日:2023-07-14 16:08:07 公開日:2023-07-13
# 潜伏拡散モデルによる非アルコール性脂肪肝疾患分類性能の改善

Improving Nonalcoholic Fatty Liver Disease Classification Performance With Latent Diffusion Models ( http://arxiv.org/abs/2307.06507v1 )

ライセンス: Link先を確認
Romain Hardy, Cornelia Ilin, Joe Klepich, Ryan Mitchell, Steve Hall, Jericho Villareal(参考訳) 深層学習と臨床専門知識を統合することは、医療上の課題に対処し、診断ツールの改善によって医療専門家に力を与える大きな可能性を秘めている。 しかし、注釈付き医療画像の必要性は、機械学習モデルのフルパワーを活用する上での障害となることが多い。 本研究は, 拡散モデルを用いて生成した合成画像と実画像を組み合わせることで, 非アルコール性脂肪肝疾患(NAFLD)分類性能を向上させることができることを示した。 本研究では,拡散生成画像とgans(generative adversarial network)生成画像から算出したインセプションスコア (is) とfr\'{e}chetインセプション距離 (fid) の2つの指標を比較し,合成画像の品質を評価する。 その結果,拡散生成画像では最大ISスコアが1.90ドル,GANが1.67ドル,FIDスコアが69.45ドル,GANが99.53ドルであった。 部分凍結したCNNバックボーン(EfficientNet v1)を用いることで,NAFLD予測タスクで最大画像レベルOC AUCが0.904ドルに達する。

Integrating deep learning with clinical expertise holds great potential for addressing healthcare challenges and empowering medical professionals with improved diagnostic tools. However, the need for annotated medical images is often an obstacle to leveraging the full power of machine learning models. Our research demonstrates that by combining synthetic images, generated using diffusion models, with real images, we can enhance nonalcoholic fatty liver disease (NAFLD) classification performance. We evaluate the quality of the synthetic images by comparing two metrics: Inception Score (IS) and Fr\'{e}chet Inception Distance (FID), computed on diffusion-generated images and generative adversarial networks (GANs)-generated images. Our results show superior performance for the diffusion-generated images, with a maximum IS score of $1.90$ compared to $1.67$ for GANs, and a minimum FID score of $69.45$ compared to $99.53$ for GANs. Utilizing a partially frozen CNN backbone (EfficientNet v1), our synthetic augmentation method achieves a maximum image-level ROC AUC of $0.904$ on a NAFLD prediction task.
翻訳日:2023-07-14 16:07:47 公開日:2023-07-13
# waterscenes:マルチタスク4dレーダーカメラ融合データセットと水面自動運転ベンチマーク

WaterScenes: A Multi-Task 4D Radar-Camera Fusion Dataset and Benchmark for Autonomous Driving on Water Surfaces ( http://arxiv.org/abs/2307.06505v1 )

ライセンス: Link先を確認
Shanliang Yao, Runwei Guan, Zhaodong Wu, Yi Ni, Zixian Zhang, Zile Huang, Xiaohui Zhu, Yutao Yue, Yong Yue, Hyungjoon Seo, Ka Lok Man(参考訳) 水面での自律運転は、海上監視、生存者救助、環境モニタリング、水文マッピング、廃棄物浄化など、危険かつ時間のかかる任務を実行する上で重要な役割を担っている。 この研究は、水面での自律走行のための最初のマルチタスク4Dレーダーカメラ融合データセットであるWaterScenesを提示する。 4Dレーダーと単眼カメラを搭載して、我々の無人のSurface Vehicle(USV)は、色、形状、テクスチャ、範囲、速度、方位、高度など、オブジェクト関連の情報を識別するための全天候ソリューションを入手した。 水面上の典型的な静的オブジェクトと動的オブジェクトに焦点を当て、カメライメージとレーダーポイント雲をそれぞれピクセルレベルとポイントレベルにラベル付けした。 オブジェクト検出やインスタンスセグメンテーション,セマンティックセグメンテーションといった基本的な認識タスクに加えて,自由空間セグメンテーションやウォーターラインセグメンテーションのためのアノテーションも提供する。 マルチタスクおよびマルチモーダルデータを活用することで、レーダーとカメラの単一モーダル性および融合モーダル性に関する多数の実験を行う。 その結果,4次元レーダーとカメラの融合は水面の知覚のロバスト性が著しく向上し,特に照明や気象条件が悪くなることが判明した。 waterscenesデータセットはhttps://waterscenes.github.ioで公開されている。

Autonomous driving on water surfaces plays an essential role in executing hazardous and time-consuming missions, such as maritime surveillance, survivors rescue, environmental monitoring, hydrography mapping and waste cleaning. This work presents WaterScenes, the first multi-task 4D radar-camera fusion dataset for autonomous driving on water surfaces. Equipped with a 4D radar and a monocular camera, our Unmanned Surface Vehicle (USV) proffers all-weather solutions for discerning object-related information, including color, shape, texture, range, velocity, azimuth, and elevation. Focusing on typical static and dynamic objects on water surfaces, we label the camera images and radar point clouds at pixel-level and point-level, respectively. In addition to basic perception tasks, such as object detection, instance segmentation and semantic segmentation, we also provide annotations for free-space segmentation and waterline segmentation. Leveraging the multi-task and multi-modal data, we conduct numerous experiments on the single modality of radar and camera, as well as the fused modalities. Results demonstrate that 4D radar-camera fusion can considerably enhance the robustness of perception on water surfaces, especially in adverse lighting and weather conditions. WaterScenes dataset is public on https://waterscenes.github.io.
翻訳日:2023-07-14 16:07:24 公開日:2023-07-13
# 残留エンコーダデコーダネットワークを用いた胸部X線画像からの肺結節の完全分割

Full-resolution Lung Nodule Segmentation from Chest X-ray Images using Residual Encoder-Decoder Networks ( http://arxiv.org/abs/2307.06547v1 )

ライセンス: Link先を確認
Michael James Horry, Subrata Chakraborty, Biswajeet Pradhan, Manoranjan Paul, Jing Zhu, Prabal Datta Barua, U. Rajendra Acharya, Fang Chen, Jianlong Zhou(参考訳) 肺癌はがん死の主要な原因であり、早期診断は陽性の予後と関連している。 胸部X線(CXR)は、肺癌の診断に安価なイメージングモードを提供する。 突発性結節はCXRを用いた血管および骨構造と区別が難しい。 コンピュータビジョンは、これまで人間の放射線学者を支援するために提案されてきたが、ダウンサンプル画像と計算コストのかかる一般化手法を用いて研究が進められている。 そこで本研究では,全解像度画像を処理する効率的なエンコーダデコーダニューラルネットワークを用いて肺結節を局在させ,ダウンサンプリングによる信号損失を回避する。 エンコーダ-デコーダネットワークは、jsrt lung noduleデータセットを使用してトレーニングされ、テストされる。 これらのネットワークは、独立した外部CXRデータセットから肺結節をローカライズするために使用される。 感度と偽陽性率は、観察者の主観性を排除するための自動化された枠組みを用いて測定される。 これらの実験により、肺結節局在の最適なネットワーク深さ、画像分解能、前処理パイプラインの決定が可能となった。 結節ローカライゼーションは, より微妙な結節が早期の訓練期において検出され, 微妙な影響を受けていることが判明した。 そこで本研究では,検証の最適性に着目した3つの連続した自己感覚モデルを提案する。 このアンサンブルは10倍の内部テストで85%の感度を達成し、画像当たり8倍の偽陽性を示した。 形態学的偽陽性率低下後の偽陽性率6で81%の感度を達成する。 この結果は、線形および空間フィルタリングに基づくより計算量的に複雑なシステムと同等であるが、他の方法よりも速い秒以下の推論時間を持つ。 提案アルゴリズムは77%の感度の外部データセットに対して7.6の偽陽性率で優れた一般化結果を得た。

Lung cancer is the leading cause of cancer death and early diagnosis is associated with a positive prognosis. Chest X-ray (CXR) provides an inexpensive imaging mode for lung cancer diagnosis. Suspicious nodules are difficult to distinguish from vascular and bone structures using CXR. Computer vision has previously been proposed to assist human radiologists in this task, however, leading studies use down-sampled images and computationally expensive methods with unproven generalization. Instead, this study localizes lung nodules using efficient encoder-decoder neural networks that process full resolution images to avoid any signal loss resulting from down-sampling. Encoder-decoder networks are trained and tested using the JSRT lung nodule dataset. The networks are used to localize lung nodules from an independent external CXR dataset. Sensitivity and false positive rates are measured using an automated framework to eliminate any observer subjectivity. These experiments allow for the determination of the optimal network depth, image resolution and pre-processing pipeline for generalized lung nodule localization. We find that nodule localization is influenced by subtlety, with more subtle nodules being detected in earlier training epochs. Therefore, we propose a novel self-ensemble model from three consecutive epochs centered on the validation optimum. This ensemble achieved a sensitivity of 85% in 10-fold internal testing with false positives of 8 per image. A sensitivity of 81% is achieved at a false positive rate of 6 following morphological false positive reduction. This result is comparable to more computationally complex systems based on linear and spatial filtering, but with a sub-second inference time that is faster than other methods. The proposed algorithm achieved excellent generalization results against an external dataset with sensitivity of 77% at a false positive rate of 7.6.
翻訳日:2023-07-14 15:59:35 公開日:2023-07-13
# QUBOと制限ボルツマンマシンによる量子アニーリングのための画像認識フレームワーク

An Image-Denoising Framework Fit for Quantum Annealing via QUBO and Restricted Boltzmann Machines ( http://arxiv.org/abs/2307.06542v1 )

ライセンス: Link先を確認
Phillip Kerger and Ryoji Miyazaki(参考訳) 本稿では,二次的非拘束型二分最適化(qubo)形式におけるデノジング目標を導入する制限ボルツマンマシン(rbms)による二分画像デノジングの枠組みについて検討し,量子アニーリングによく適合する。 訓練されたRBMが学習した分布と、ノイズ画像から導出するペナルティ項とのバランスをとることにより、妄想目的を達成する。 対象分布が十分近似されていると仮定したペナルティパラメータの統計的最適選択を導出し、さらにその理想主義的な仮定にロバストな方法を実現するために経験的に支援された修正を提案する。 また,本手法により得られた復号化画像は,ノイズのない画像よりもノイズのない画像に近いことが期待される。 モデルをイメージ記述モデルとしてフレーム化するが、任意のバイナリデータに適用できる。 量子アニーラの実装にはQUBOの定式化が適しているため、D-Waveアドバンテージマシン上でモデルをテストし、古典的ヒューリスティックによりQUBOの解を近似することで、現在の量子アニーラには大きすぎるデータをテストする。

We investigate a framework for binary image denoising via restricted Boltzmann machines (RBMs) that introduces a denoising objective in quadratic unconstrained binary optimization (QUBO) form and is well-suited for quantum annealing. The denoising objective is attained by balancing the distribution learned by a trained RBM with a penalty term for derivations from the noisy image. We derive the statistically optimal choice of the penalty parameter assuming the target distribution has been well-approximated, and further suggest an empirically supported modification to make the method robust to that idealistic assumption. We also show under additional assumptions that the denoised images attained by our method are, in expectation, strictly closer to the noise-free images than the noisy images are. While we frame the model as an image denoising model, it can be applied to any binary data. As the QUBO formulation is well-suited for implementation on quantum annealers, we test the model on a D-Wave Advantage machine, and also test on data too large for current quantum annealers by approximating QUBO solutions through classical heuristics.
翻訳日:2023-07-14 15:59:10 公開日:2023-07-13
# 逆強化学習の有効性について

On the Effective Horizon of Inverse Reinforcement Learning ( http://arxiv.org/abs/2307.06541v1 )

ライセンス: Link先を確認
Yiqing Xu, Finale Doshi-Velez, David Hsu(参考訳) 逆強化学習 (inverse reinforcement learning, irl) アルゴリズムは、しばしば与えられた時間軸上の強化学習や計画に依存して、仮説的な報酬関数に対する近似的最適ポリシーを計算し、そのポリシーを専門家のデモンストレーションと一致させる。 時間軸は、報酬推定の精度とirlアルゴリズムの計算効率の両方を決定する上で重要な役割を果たす。 興味深いことに、実測値よりも短い有効時間軸は、しばしばより速い結果を生み出す。 この研究は、この現象を公式に分析し、説明を提供する: 時間地平線は、誘導されたポリシークラスの複雑さを制御し、限られたデータで過度に適合することを緩和する。 この分析は、IRLの有効地平線を原則的に選択する。 また、古典的なIRLの定式化を再検討し、与えられた地平線でのみ報酬を学ぶよりも、報酬と効果的な地平線を一緒に学ぶ方が自然である。 実験結果は理論解析を裏付ける。

Inverse reinforcement learning (IRL) algorithms often rely on (forward) reinforcement learning or planning over a given time horizon to compute an approximately optimal policy for a hypothesized reward function and then match this policy with expert demonstrations. The time horizon plays a critical role in determining both the accuracy of reward estimate and the computational efficiency of IRL algorithms. Interestingly, an effective time horizon shorter than the ground-truth value often produces better results faster. This work formally analyzes this phenomenon and provides an explanation: the time horizon controls the complexity of an induced policy class and mitigates overfitting with limited data. This analysis leads to a principled choice of the effective horizon for IRL. It also prompts us to reexamine the classic IRL formulation: it is more natural to learn jointly the reward and the effective horizon together rather than the reward alone with a given horizon. Our experimental results confirm the theoretical analysis.
翻訳日:2023-07-14 15:58:45 公開日:2023-07-13
# weiboデータを用いた感情分析のための畳み込みニューラルネットワーク:自然言語処理アプローチ

Convolutional Neural Networks for Sentiment Analysis on Weibo Data: A Natural Language Processing Approach ( http://arxiv.org/abs/2307.06540v1 )

ライセンス: Link先を確認
Yufei Xie and Rodolfo C. Raga Jr(参考訳) 本研究では,CNN(Convolutional Neural Network)を用いたWeiboのツイート119,988件のデータセットから,自然言語処理(NLP)への新たなアプローチを提案する。 BaiduのPaddlePaddle AIプラットフォームからソースされたデータは、慎重に事前処理され、トークン化され、感情ラベルに基づいて分類される。 CNNに基づくモデルを用いて,特徴抽出に単語埋め込みを活用し,感情分類を行う訓練を行った。 このモデルは、テストセットで平均約0.73のマクロ平均F1スコアを達成し、正、中、負の感情でバランスの取れた性能を示した。 本研究は,ソーシャルメディア分析,市場調査,政策研究における実践的応用に影響を及ぼすとともに,感情分析タスクにおけるcnnの有効性を強調する。 完全な実験的なコンテンツとコードは、さらなる研究と開発のためにkaggle data platformで公開されている。 将来的には、リカレントニューラルネットワーク(RNN)やトランスフォーマーなど、さまざまなアーキテクチャの探索や、BERTのようなより複雑な事前学習モデルの使用によって、言語的なニュアンスやコンテキストを理解するモデルの能力が向上する可能性がある。

This study addressed the complex task of sentiment analysis on a dataset of 119,988 original tweets from Weibo using a Convolutional Neural Network (CNN), offering a new approach to Natural Language Processing (NLP). The data, sourced from Baidu's PaddlePaddle AI platform, were meticulously preprocessed, tokenized, and categorized based on sentiment labels. A CNN-based model was utilized, leveraging word embeddings for feature extraction, and trained to perform sentiment classification. The model achieved a macro-average F1-score of approximately 0.73 on the test set, showing balanced performance across positive, neutral, and negative sentiments. The findings underscore the effectiveness of CNNs for sentiment analysis tasks, with implications for practical applications in social media analysis, market research, and policy studies. The complete experimental content and code have been made publicly available on the Kaggle data platform for further research and development. Future work may involve exploring different architectures, such as Recurrent Neural Networks (RNN) or transformers, or using more complex pre-trained models like BERT, to further improve the model's ability to understand linguistic nuances and context.
翻訳日:2023-07-14 15:58:28 公開日:2023-07-13
# 制御理論を満たしたテンソル分解:線形力学系の一般混合の学習

Tensor Decompositions Meet Control Theory: Learning General Mixtures of Linear Dynamical Systems ( http://arxiv.org/abs/2307.06538v1 )

ライセンス: Link先を確認
Ainesh Bakshi, Allen Liu, Ankur Moitra, Morris Yau(参考訳) 最近、チェンとプアーは線形力学系の混合学習の研究を始めた。 線形力学系はすでに時系列データのモデリングに広範囲の応用があるが、混合モデルを用いることで、データに表される下位のサブポピュレーションのよりリッチな理解につながる可能性がある。 本研究では、テンソル分解に基づく線形力学系の混合を学習するための新しいアプローチを提案する。 その結果,本アルゴリズムは,成分の分離条件が強くなければ成功し,軌道のベイズ最適クラスタリングと競合することができる。 さらにアルゴリズムは,部分的観測された設定でも動作する。 我々の出発点は、古典的ホカルマンアルゴリズムが潜在変数モデルを学習するための現代のテンソル分解法と密接な関係にあるという単純だが強力な観測である。 これにより、より複雑な生成モデルで動作するように拡張するためのプレイブックが提供されます。

Recently Chen and Poor initiated the study of learning mixtures of linear dynamical systems. While linear dynamical systems already have wide-ranging applications in modeling time-series data, using mixture models can lead to a better fit or even a richer understanding of underlying subpopulations represented in the data. In this work we give a new approach to learning mixtures of linear dynamical systems that is based on tensor decompositions. As a result, our algorithm succeeds without strong separation conditions on the components, and can be used to compete with the Bayes optimal clustering of the trajectories. Moreover our algorithm works in the challenging partially-observed setting. Our starting point is the simple but powerful observation that the classic Ho-Kalman algorithm is a close relative of modern tensor decomposition methods for learning latent variable models. This gives us a playbook for how to extend it to work with more complicated generative models.
翻訳日:2023-07-14 15:58:03 公開日:2023-07-13
# DSV: 自己教師型アウトリアモデル選択のためのアライメント検証損失

DSV: An Alignment Validation Loss for Self-supervised Outlier Model Selection ( http://arxiv.org/abs/2307.06534v1 )

ライセンス: Link先を確認
Jaemin Yoo, Yue Zhao, Lingxiao Zhao, and Leman Akoglu(参考訳) 自己教師付き学習(SSL)は、内部監視信号を生成することで様々な問題を解決するのに有効であることが証明されている。 真のラベルを取得するための高いコストに直面している教師なしの異常検出は、SSLの大きな恩恵を受けることができる領域である。 しかし、近年の文献では、データ拡張関数のハイパーパラメータ(HP)のチューニングがSSLベースの異常検出(SSAD)の成功に不可欠であることが示唆されている。 本稿では,有効拡張HPを用いた高性能検出モデルを選択するための教師なし検証損失であるDSV(Discordance and Separability Validation)を提案する。 DSVは、加算関数とサロゲート損失を伴う異常発生機構のアライメントをキャプチャし、それぞれテストデータの不一致と分離性を近似する。 その結果、DSVによる評価により、より優れたアライメントを示す効果的なSSADモデルが選択され、高い検出精度が得られる。 理論上、サロゲート損失による近似の程度を導出し、実世界の21のタスクにおいてdsvが幅広いベースラインを上回ることを実証的に示す。

Self-supervised learning (SSL) has proven effective in solving various problems by generating internal supervisory signals. Unsupervised anomaly detection, which faces the high cost of obtaining true labels, is an area that can greatly benefit from SSL. However, recent literature suggests that tuning the hyperparameters (HP) of data augmentation functions is crucial to the success of SSL-based anomaly detection (SSAD), yet a systematic method for doing so remains unknown. In this work, we propose DSV (Discordance and Separability Validation), an unsupervised validation loss to select high-performing detection models with effective augmentation HPs. DSV captures the alignment between an augmentation function and the anomaly-generating mechanism with surrogate losses, which approximate the discordance and separability of test data, respectively. As a result, the evaluation via DSV leads to selecting an effective SSAD model exhibiting better alignment, which results in high detection accuracy. We theoretically derive the degree of approximation conducted by the surrogate losses and empirically show that DSV outperforms a wide range of baselines on 21 real-world tasks.
翻訳日:2023-07-14 15:57:48 公開日:2023-07-13
# クロスカメラペアサンプルのないドメイン適応型人物再識別

Domain-adaptive Person Re-identification without Cross-camera Paired Samples ( http://arxiv.org/abs/2307.06533v1 )

ライセンス: Link先を確認
Huafeng Li, Yanmei Mao, Yafei Zhang, Guanqiu Qi, and Zhengtao Yu(参考訳) 既存の人物識別(re-ID)研究は主に隣接する地域のカメラ間での歩行者識別に焦点をあてている。 しかし、現実には、長距離シーン間の歩行者アイデンティティマッチングの問題に直面することは避けられない。 長距離シーンから収集されたクロスカメラ歩行者のサンプルには、ポジティブなサンプルがないことが多い。 クロスカメラの負のサンプルを用いて、地域間歩行者識別マッチングを実現することは極めて困難である。 そこで, クロスカメラによる一貫した識別特徴学習に着目したドメイン適応型人物再ID手法を提案する。 本手法は主に、カテゴリシナジーコプロモーションモジュール(CSCM)と、クロスカメラ一貫した特徴学習モジュール(CCFLM)を含む。 CSCMでは,タスク固有の機能組換え(FRT)機構が提案されている。 このメカニズムは、まず特定のタスクへの貢献に応じて特徴をグループ化する。 次に、特徴群間の対話型プロモーション学習(IPL)手法を開発し、特徴識別性を高めるためにこの機構に組み込む。 特定のタスクモデルの制御パラメータはタスクごとの分割後に減少するため、モデルの一般化能力が改善される。 CCFLMでは、インスタンスレベルの特徴分布アライメントと、カメラ間のアイデンティティ一貫した学習方法を構築している。 そのため、ソースドメインサンプルとターゲットドメインサンプルのスタイルを交換することにより、対象ドメインのスタイル監視の下で教師付きモデルトレーニングを行い、クロスカメラ類似サンプルを利用することで、クロスカメラペア化サンプルの欠如による課題を解決する。 実験では,3つの挑戦的データセットを対象領域として使用し,提案手法の有効性を4つの実験条件で示す。

Existing person re-identification (re-ID) research mainly focuses on pedestrian identity matching across cameras in adjacent areas. However, in reality, it is inevitable to face the problem of pedestrian identity matching across long-distance scenes. The cross-camera pedestrian samples collected from long-distance scenes often have no positive samples. It is extremely challenging to use cross-camera negative samples to achieve cross-region pedestrian identity matching. Therefore, a novel domain-adaptive person re-ID method that focuses on cross-camera consistent discriminative feature learning under the supervision of unpaired samples is proposed. This method mainly includes category synergy co-promotion module (CSCM) and cross-camera consistent feature learning module (CCFLM). In CSCM, a task-specific feature recombination (FRT) mechanism is proposed. This mechanism first groups features according to their contributions to specific tasks. Then an interactive promotion learning (IPL) scheme between feature groups is developed and embedded in this mechanism to enhance feature discriminability. Since the control parameters of the specific task model are reduced after division by task, the generalization ability of the model is improved. In CCFLM, instance-level feature distribution alignment and cross-camera identity consistent learning methods are constructed. Therefore, the supervised model training is achieved under the style supervision of the target domain by exchanging styles between source-domain samples and target-domain samples, and the challenges caused by the lack of cross-camera paired samples are solved by utilizing cross-camera similar samples. In experiments, three challenging datasets are used as target domains, and the effectiveness of the proposed method is demonstrated through four experimental settings.
翻訳日:2023-07-14 15:57:26 公開日:2023-07-13
# SVDエンタングルメントエントロピー

SVD Entanglement Entropy ( http://arxiv.org/abs/2307.06531v1 )

ライセンス: Link先を確認
Arthur J. Parzygnat, Tadashi Takayanagi, Yusuke Taki, Zixia Wei(参考訳) 本稿では,SVDエンタングルメントエントロピーと呼ばれる新しい量を導入する。 これは、前と後の選択過程のように2つの異なる状態に依存することによる絡み合いエントロピーの一般化である。 このSVD絡み合いエントロピーは非負の実値を取り、ヒルベルト空間次元の対数で有界である。 svdのエントロピーは、中間状態から蒸留可能なベル対の平均数として解釈できる。 逆場イジングモデルの明示的な例において、2つの状態が異なる量子相にあるとき、SVDエンタングルメントエントロピーが増大するのを観察する。 さらに,様々な場理論における R{\'e}nyi SVD エントロピーを計算し,AdS/CFT 対応を用いたホログラフィック計算について検討する。

In this paper, we introduce a new quantity called SVD entanglement entropy. This is a generalization of entanglement entropy in that it depends on two different states, as in pre- and post-selection processes. This SVD entanglement entropy takes non-negative real values and is bounded by the logarithm of the Hilbert space dimensions. The SVD entanglement entropy can be interpreted as the average number of Bell pairs distillable from intermediates states. We observe that the SVD entanglement entropy gets enhanced when the two states are in the different quantum phases in an explicit example of the transverse-field Ising model. Moreover, we calculate the R{\'e}nyi SVD entropy in various field theories and examine holographic calculations using the AdS/CFT correspondence.
翻訳日:2023-07-14 15:57:00 公開日:2023-07-13
# 大規模言語モデルの音声認識システムへの統合を探る:実証的研究

Exploring the Integration of Large Language Models into Automatic Speech Recognition Systems: An Empirical Study ( http://arxiv.org/abs/2307.06530v1 )

ライセンス: Link先を確認
Zeping Min, Jinbo Wang(参考訳) 本稿では,Large Language Models (LLM) と自動音声認識 (ASR) システムを統合することにより,転写精度の向上を図る。 自然言語処理(NLP)分野において,LLMの高度化,文脈内学習能力,命令追従行動等が注目されている。 我々は,環境騒音,話者アクセント,複雑な言語文脈といった課題に直面しているasrシステムの性能向上のために,llmの文脈内学習機能を利用する可能性を検討することを目的とする。 Aishell-1 と LibriSpeech のデータセットを用いて,ChatGPT と GPT-4 を LLM 機能のベンチマークとして設計した。 残念ながら、我々の最初の実験では有望な結果が得られず、LLMのコンテキスト内学習をASRアプリケーションに活用することの複雑さが示唆された。 様々な設定やモデルによるさらなる探索にもかかわらず、LLMの修正文は高い単語誤り率(WER)をもたらし、LLMの音声応用における限界を示した。 本稿では,これらの実験の概要,結果,意味について概説し,音声認識文字起こしにおける潜在的な誤りを訂正するためにLLMの文脈内学習機能を利用することは,現在なお困難な課題であることを示す。

This paper explores the integration of Large Language Models (LLMs) into Automatic Speech Recognition (ASR) systems to improve transcription accuracy. The increasing sophistication of LLMs, with their in-context learning capabilities and instruction-following behavior, has drawn significant attention in the field of Natural Language Processing (NLP). Our primary focus is to investigate the potential of using an LLM's in-context learning capabilities to enhance the performance of ASR systems, which currently face challenges such as ambient noise, speaker accents, and complex linguistic contexts. We designed a study using the Aishell-1 and LibriSpeech datasets, with ChatGPT and GPT-4 serving as benchmarks for LLM capabilities. Unfortunately, our initial experiments did not yield promising results, indicating the complexity of leveraging LLM's in-context learning for ASR applications. Despite further exploration with varied settings and models, the corrected sentences from the LLMs frequently resulted in higher Word Error Rates (WER), demonstrating the limitations of LLMs in speech applications. This paper provides a detailed overview of these experiments, their results, and implications, establishing that using LLMs' in-context learning capabilities to correct potential errors in speech recognition transcriptions is still a challenging task at the current stage.
翻訳日:2023-07-14 15:56:49 公開日:2023-07-13
# 高精度矩形フィッティングのための最適最小二乗法

Optimised Least Squares Approach for Accurate Rectangle Fitting ( http://arxiv.org/abs/2307.06528v1 )

ライセンス: Link先を確認
Yiming Quan, Shian Chen(参考訳) 本研究は, 単位正方形を正確に近似する連続的適合関数を用いて, 長方形フィッティングの新規かつ効率的な最小二乗法を提案する。 提案手法は,シミュレーションデータと実データの両方を用いて,文献中の既存手法と比較する。 実際のデータは、長方形の建物の空中測光点雲から導かれる。 シミュレーション実験により,提案手法は基準法よりも優れた性能を示し,クリーンなデータセットとノイズの多い点雲に対して,ルート平均二乗誤差を約93%,14%削減した。 提案手法は,実際のデータセットの適合度を約81%改善し,センチメートルレベルの精度を実現する。 さらに, 実験結果から, 提案手法は10回未満で収束することがわかった。

This study introduces a novel and efficient least squares based method for rectangle fitting, using a continuous fitness function that approximates a unit square accurately. The proposed method is compared with the existing method in the literature using both simulated data and real data. The real data is derived from aerial photogrammetry point clouds of a rectangular building. The simulated tests show that the proposed method performs better than the reference method, reducing the root-mean-square error by about 93% and 14% for clean datasets and noisy point clouds, respectively. The proposed method also improves the fitting of the real dataset by about 81%, achieving centimetre level accuracy. Furthermore, the test results show that the proposed method converges in fewer than 10 iterations.
翻訳日:2023-07-14 15:56:25 公開日:2023-07-13
# epic-kitchens-100における微分可能論理とllmに関する研究 : 2023年行動認識のための教師なしドメイン適応チャレンジ

A Study on Differentiable Logic and LLMs for EPIC-KITCHENS-100 Unsupervised Domain Adaptation Challenge for Action Recognition 2023 ( http://arxiv.org/abs/2307.06569v1 )

ライセンス: Link先を確認
Yi Cheng, Ziwei Xu, Fen Fang, Dongyun Lin, Hehe Fan, Yongkang Wong, Ying Sun, Mohan Kankanhalli(参考訳) 本報告では,EPIC-KITCHENS-100 Unsupervised Domain Adaptation Task for Action Recognitionについて報告する。 本研究は,動詞と名詞の共起関係を利用した学習における論理損失の革新的な適用と,未知の行動ラベルへの適応のための論理規則を生成するための事前学習された大規模言語モデル(LLM)に焦点を当てた。 特に、モデルの予測は、論理損失を計算するために共起論理式を真に割り当てるものとして扱われ、予測と論理制約の一貫性を測定する。 データセットから生成された動詞-名詞共起行列を用いて,ベースラインフレームワークと比較して,モデル性能の適度な改善を観察する。 新規なアクションラベルに対するモデルの適応性をさらに向上するため,GPT-3.5を用いて生成されたルールを実験し,性能をわずかに低下させた。 これらの知見は,行動認識のための教師なし領域適応における知識抽出のための微分論理とLLMの導入の可能性と課題を浮き彫りにした。 我々の最終提出書(「NS-LLM」)は、トップ1の行動認識精度で第一位を獲得した。

In this technical report, we present our findings from a study conducted on the EPIC-KITCHENS-100 Unsupervised Domain Adaptation task for Action Recognition. Our research focuses on the innovative application of a differentiable logic loss in the training to leverage the co-occurrence relations between verb and noun, as well as the pre-trained Large Language Models (LLMs) to generate the logic rules for the adaptation to unseen action labels. Specifically, the model's predictions are treated as the truth assignment of a co-occurrence logic formula to compute the logic loss, which measures the consistency between the predictions and the logic constraints. By using the verb-noun co-occurrence matrix generated from the dataset, we observe a moderate improvement in model performance compared to our baseline framework. To further enhance the model's adaptability to novel action labels, we experiment with rules generated using GPT-3.5, which leads to a slight decrease in performance. These findings shed light on the potential and challenges of incorporating differentiable logic and LLMs for knowledge extraction in unsupervised domain adaptation for action recognition. Our final submission (entitled `NS-LLM') achieved the first place in terms of top-1 action recognition accuracy.
翻訳日:2023-07-14 15:55:07 公開日:2023-07-13
# 光リモートセンシング画像を用いた軽量船舶方位角予測のための回帰型知識蒸留

Regression-Oriented Knowledge Distillation for Lightweight Ship Orientation Angle Prediction with Optical Remote Sensing Images ( http://arxiv.org/abs/2307.06566v1 )

ライセンス: Link先を確認
Zhan Shi, Xin Ding, Peng Ding, Chun Yang, Ru Huang, Xiaoxuan Song(参考訳) 光リモートセンシング画像を用いた船舶配向角予測(SOAP)は、しばしば正確な予測を行うために深層畳み込みニューラルネットワーク(CNN)に依存する重要な画像処理タスクである。 本稿では,予測精度を損なうことなく,SOAPモデルのモデルサイズと計算コストを削減する新しいフレームワークを提案する。 まず、Mobile-SOAPと呼ばれる新しいSOAPモデルはMobileNetV2に基づいて設計され、最先端の予測精度を達成する。 また、Mobile-SOAPの畳み込みブロックを4つの小さなネットワークに置き換えることで、4つの小さなSOAPモデルも作成されます。 そして,モバイルSOAPから4つの軽量モデルに知識を伝達するために,新しい特徴に基づくガイダンス損失と,最適化された合成サンプルベースの知識伝達機構からなる新しい知識蒸留(KD)フレームワークを提案する。 最後に、FGSC-23データセットの広範な実験により、既存のモデルよりもMobile-SOAPの方が優れていることが確認され、また、4つの特別に設計された小型モデルの予測性能を向上させるSOAP-KDの有効性が示された。 特に、SOAP-KDを使用すると、ShuffleNetV2x1.0ベースのモデルの絶対誤差はMobile-SOAPよりもわずか8%高いが、パラメータの数と乗算演算(MAC)はそれぞれ61.6%、60.8%少ない。

Ship orientation angle prediction (SOAP) with optical remote sensing images is an important image processing task, which often relies on deep convolutional neural networks (CNNs) to make accurate predictions. This paper proposes a novel framework to reduce the model sizes and computational costs of SOAP models without harming prediction accuracy. First, a new SOAP model called Mobile-SOAP is designed based on MobileNetV2, achieving state-of-the-art prediction accuracy. Four tiny SOAP models are also created by replacing the convolutional blocks in Mobile-SOAP with four small-scale networks, respectively. Then, to transfer knowledge from Mobile-SOAP to four lightweight models, we propose a novel knowledge distillation (KD) framework termed SOAP-KD consisting of a novel feature-based guidance loss and an optimized synthetic samples-based knowledge transfer mechanism. Lastly, extensive experiments on the FGSC-23 dataset confirm the superiority of Mobile-SOAP over existing models and also demonstrate the effectiveness of SOAP-KD in improving the prediction performance of four specially designed tiny models. Notably, by using SOAP-KD, the test mean absolute error of the ShuffleNetV2x1.0-based model is only 8% higher than that of Mobile-SOAP, but its number of parameters and multiply-accumulate operations (MACs) are respectively 61.6% and 60.8% less.
翻訳日:2023-07-14 15:54:27 公開日:2023-07-13
# サブリニア活性化ニューロン同定による効率的なSGDニューラルネットワークトレーニング

Efficient SGD Neural Network Training via Sublinear Activated Neuron Identification ( http://arxiv.org/abs/2307.06565v1 )

ライセンス: Link先を確認
Lianke Qin, Zhao Song, Yuanyuan Yang(参考訳) ディープラーニングは多くの分野で広く使われているが、モデルトレーニングプロセスは通常、膨大な計算資源と時間を消費する。 したがって、証明可能な収束保証を備えた効率的なニューラルネットワークトレーニング方法を設計することは、基礎的かつ重要な研究課題である。 本稿では,ReLU活性化のための2層ニューラルネットワークを完全接続した静的半空間レポートデータ構造を用いて,幾何学的探索によるサブ線形時間での活性化ニューロン同定を実現する。 また、我々のアルゴリズムは、係数ノルム上界$M$と誤差項$\epsilon$の2次ネットワークサイズで$O(M^2/\epsilon^2)$時間に収束できることを示す。

Deep learning has been widely used in many fields, but the model training process usually consumes massive computational resources and time. Therefore, designing an efficient neural network training method with a provable convergence guarantee is a fundamental and important research question. In this paper, we present a static half-space report data structure that consists of a fully connected two-layer neural network for shifted ReLU activation to enable activated neuron identification in sublinear time via geometric search. We also prove that our algorithm can converge in $O(M^2/\epsilon^2)$ time with network size quadratic in the coefficient norm upper bound $M$ and error term $\epsilon$.
翻訳日:2023-07-14 15:53:39 公開日:2023-07-13
# 資源制約下における規範的プロセスモニタリング:強化学習アプローチ

Prescriptive Process Monitoring Under Resource Constraints: A Reinforcement Learning Approach ( http://arxiv.org/abs/2307.06564v1 )

ライセンス: Link先を確認
Mahmoud Shoush and Marlon Dumas(参考訳) 定型的なプロセス監視手法は,実行時に介入をトリガーすることでビジネスプロセスのパフォーマンスを最適化し,前向きなケース結果の確率を高める。 これらの介入は介入政策に従って引き起こされる。 強化学習は試行錯誤を通じて介入政策を学ぶためのアプローチとして提案されている。 この領域における既存のアプローチは、プロセスの介入を行うのに利用可能なリソースの数は無制限であり、実際には非現実的な仮定である。 本稿では, 資源制約の存在下では, 規範的プロセス監視の分野における重要なジレンマは, その必要性, 時系列, 効果の予測だけでなく, それらの予測の不確実性と資源利用のレベルにも基いて介入を促すことである。 実際、この介入の必要性や効果が極めて不確実な場合、介入に少ないリソースをコミットすると、直感的に最適な介入効果をもたらす可能性がある。 そこで本稿では, 干渉決定に基づく予測の不確実性を検討するために, 整合予測技術を活用した規範的プロセス監視のための強化学習手法を提案する。 実生活データセットを用いた評価は、共形予測を用いた不確かさを明示的にモデル化することで、強化学習エージェントがネット介入率の高いポリシーに収束することを示す。

Prescriptive process monitoring methods seek to optimize the performance of business processes by triggering interventions at runtime, thereby increasing the probability of positive case outcomes. These interventions are triggered according to an intervention policy. Reinforcement learning has been put forward as an approach to learning intervention policies through trial and error. Existing approaches in this space assume that the number of resources available to perform interventions in a process is unlimited, an unrealistic assumption in practice. This paper argues that, in the presence of resource constraints, a key dilemma in the field of prescriptive process monitoring is to trigger interventions based not only on predictions of their necessity, timeliness, or effect but also on the uncertainty of these predictions and the level of resource utilization. Indeed, committing scarce resources to an intervention when the necessity or effects of this intervention are highly uncertain may intuitively lead to suboptimal intervention effects. Accordingly, the paper proposes a reinforcement learning approach for prescriptive process monitoring that leverages conformal prediction techniques to consider the uncertainty of the predictions upon which an intervention decision is based. An evaluation using real-life datasets demonstrates that explicitly modeling uncertainty using conformal predictions helps reinforcement learning agents converge towards policies with higher net intervention gain
翻訳日:2023-07-14 15:53:22 公開日:2023-07-13
# お金: もっとも価値中心の共通設計資料の利害関係を持つのは誰か?

Money: Who Has a Stake in the Most Value-Centric Common Design Material? ( http://arxiv.org/abs/2307.06563v1 )

ライセンス: Link先を確認
Ryan Bowler, Chris Speed, Geoffrey Goodell(参考訳) お金は単なる数値ではない。 信頼と道徳的な重力を具現化し、取引の柔軟な方法を提供する。 しかし、中央銀行デジタル通貨(CBDC)の出現は、貨幣の将来に大きな変化をもたらすものとされている。 本稿では, 材料形成と非物質的金融変革におけるデザイナーの役割について考察する。 この急速に変化する状況において、デザインは、異なる利害関係者にお金が持つ様々な価値を明らかにし、示すのに役立ちます。 これらの多様性を理解することで、現金のようなデジタル通貨の出現形態の中で、より公平で包括的な金融、社会的、世界的な展望を促進することができる。 このような考慮がなければ、私たちが知る特定の形態のお金は消滅し、人々の持つ価値も消滅するでしょう。 本稿では、中銀デジタル通貨(CBDC)の新興分野における現在の知識や関与を有する利害関係者に対する半構造化インタビューについて報告する。 我々の研究は、この新しい資金がデザイナーに挑戦と機会をもたらすことを示唆している。 具体的には、中央銀行デジタル通貨(cbdc)がその設計を通じて肯定的あるいは否定的に価値を改革する可能性を強調する。 時を考慮し、現在の価値を反映し、その展開への関与を促進することで、中央銀行デジタル通貨(CBDC)がユーザのニーズや視点を多様に表すように努力することができる。

Money is more than just a numeric value. It embodies trust and moral gravity, and it offers flexible ways to transact. However, the emergence of Central Bank Digital Currency (CBDC) is set to bring about a drastic change in the future of money. This paper invites designers to reflect on their role in shaping material and immaterial monetary change. In this rapidly changing landscape, design could be instrumental in uncovering and showcasing the diverse values that money holds for different stakeholders. Understanding these diversities could promote a more equitable and inclusive financial, social, and global landscape within emergent forms of cash-like digital currency. Without such consideration, certain forms of money we have come to know could disappear, along with the values people hold upon them. We report on semi-structured interviews with stakeholders who have current knowledge or involvement in the emerging field of Central Bank Digital Currency (CBDC). Our research indicates that this new form of money presents both challenges and opportunities for designers. Specifically, we emphasise the potential for Central Bank Digital Currency (CBDC) to either positively or negatively reform values through its design. By considering time, reflecting present values, and promoting inclusion in its deployment, we can strive to ensure that Central Bank Digital Currency (CBDC) represents the diverse needs and perspectives of its users.
翻訳日:2023-07-14 15:52:59 公開日:2023-07-13
# 基準点を用いた主観的進化的多目的最適化における正規化の検討

Investigating Normalization in Preference-based Evolutionary Multi-objective Optimization Using a Reference Point ( http://arxiv.org/abs/2307.06562v1 )

ライセンス: Link先を確認
Ryoji Tanabe(参考訳) 目的の正規化は、進化的多目的最適化(EMO)において、異なるスケールの目的関数を扱う上で重要な役割を果たす。 EMOアルゴリズムの性能に対する正規化法の影響は文献で研究されているが、好みに基づくEMO(PBEMO)アルゴリズムは理解されていない。 PBEMOは関心領域を近似することを目的としているため、その人口は一般に目的空間のパレートフロントをカバーしていない。 この性質は、PBEMOにおける目的の正規化を困難にする可能性がある。 本稿では,3種類のPBEMOアルゴリズムにおける正規化手法の有効性について検討する。 本稿では,nadir点を近似する有界アーカイブベース手法を提案する。 まず, PBEMO の正規化法は, 理想点, ナディア点, および PF の範囲を近似する点において, 従来の EMO の法則よりも著しく劣ることを示した。 そして, PBEMOは, 異なるスケールの目的を持つ問題に対して, 目的の正規化を必要とすることを示す。 以上の結果から, PBEMOには明確な「ベスト正規化法」は存在しないが, 外部アーカイブ方式は比較的良好である。

Normalization of objectives plays a crucial role in evolutionary multi-objective optimization (EMO) to handle objective functions with different scales, which can be found in real-world problems. Although the effect of normalization methods on the performance of EMO algorithms has been investigated in the literature, that of preference-based EMO (PBEMO) algorithms is poorly understood. Since PBEMO aims to approximate a region of interest, its population generally does not cover the Pareto front in the objective space. This property may make normalization of objectives in PBEMO difficult. This paper investigates the effectiveness of three normalization methods in three representative PBEMO algorithms. We present a bounded archive-based method for approximating the nadir point. First, we demonstrate that the normalization methods in PBEMO perform significantly worse than that in conventional EMO in terms of approximating the ideal point, nadir point, and range of the PF. Then, we show that PBEMO requires normalization of objectives on problems with differently scaled objectives. Our results show that there is no clear "best normalization method" in PBEMO, but an external archive-based method performs relatively well.
翻訳日:2023-07-14 15:52:35 公開日:2023-07-13
# オープン量子システムにおける幾何学的量子速度限界の実験的評価

Experimental assessment of geometric quantum speed limits in an open quantum system ( http://arxiv.org/abs/2307.06558v1 )

ライセンス: Link先を確認
Diego Paiva Pires, Eduardo R. deAzevedo, Diogo O. Soares-Pinto, Frederico Brito and Jefferson G. Filgueiras(参考訳) 量子速度の限界は、一般的な物理過程を行う量子系の進化時間に下限を設定する。 ここでは、クロロホルム分子のアンサンブルを用いて、デコヒーレンス対象のキュービットの進化速度について研究する。 この溶液では、炭素原子核スピンは2つの準位系を符号化し、水素スピンは後者の環境の役割を担う。 常磁性塩を添加することにより,水素スピン緩和速度が変化するにつれてシステム-貯留層相互作用を制御し,量子ビット進化の速度を探索する。 量子状態の2つの識別可能性尺度、量子フィッシャー情報(QFI)とウィグナー・ヤネーゼスキュー情報(WY)に基づく幾何学的QSLに対処する。 高濃度の塩に対して、システムはマルコフ力学を実行し、より厳密なQSLはWY計量によって設定される。 低濃度では、QFI と WY のメトリクスに関連する QSL 間の交叉を観測し、システムは非マルコフ力学を示す。 QSLは低濃度から高濃度のスピン磁化の小さな変動にも敏感である。 この結果は量子コンピューティングと最適制御に応用できる。

The quantum speed limit sets a lower bound on the evolution time for quantum systems undergoing general physical processes. Here, using an ensemble of chloroform molecules, we study the speed of evolution of a qubit subject to decoherence. In this solution, the carbon nuclear spin encodes the two-level system, while the hydrogen spin plays the role of an environment for the latter. By adding a paramagnetic salt, we control the system-reservoir interaction as the hydrogen spin relaxation rates change, and we probe the speed of qubit evolution. We address geometric QSLs based on two distinguishability measures of quantum states, quantum Fisher information (QFI) and Wigner-Yanase skew information (WY) metrics. For high concentrations of the salt, the system undergoes a Markovian dynamics, and the tighter QSL is set by the WY metric. For low concentrations, we observe crossovers between QSLs related to the QFI and WY metrics, while the system exhibits non-Markovian dynamics. The QSLs are sensitive to even small fluctuations in spin magnetization, from low to high concentrations. Our results find applications in quantum computing and optimal control.
翻訳日:2023-07-14 15:52:16 公開日:2023-07-13
# 機械学習を用いた複合混合物のvocs解析のための金属酸化物系ガスセンサアレイ

Metal Oxide-based Gas Sensor Array for the VOCs Analysis in Complex Mixtures using Machine Learning ( http://arxiv.org/abs/2307.06556v1 )

ライセンス: Link先を確認
Shivam Singh, Sajana S, Poornima, Gajje Sreelekha, Chandranath Adak, Rajendra P. Shukla and Vinayak Kamble(参考訳) 呼吸から揮発性有機化合物(voc)の検出は、非侵襲的に疾患を早期に発見するための有効な経路になりつつある。 本稿では, 混合液中の4つの異なるvocを機械学習により識別する3つの金属酸化物電極を用いたセンサアレイを提案する。 金属酸化物センサアレイはエタノール,アセトン,トルエン,クロロホルムなど様々なVOC濃度を呈していた。 個々のガスとその混合物から得られたデータセットをランダムフォレスト(rf)、k-ネアレスト近傍(knn)、決定木、線形回帰、ロジスティック回帰、ナイーブベイズ、線形判別分析、ニューラルネットワーク、サポートベクターマシンといった複数の機械学習アルゴリズムを用いて分析した。 KNNとRFはガス混合物中の様々な化学物質の分類において99%以上の精度を示した。 回帰分析において、knは、複素混合物中のアセトン、トルエン、エタノール、クロロホルムの濃度を予測するために、r2値が 0.99 以上、lodが 0.012, 0.015, 0.014, 0.025 ppm で最良の結果を得た。 そこで,本手法を応用したアレイは,疾患診断と治療監視のために4つのガスの濃度を同時に分類し,予測できることを実証した。

Detection of Volatile Organic Compounds (VOCs) from the breath is becoming a viable route for the early detection of diseases non-invasively. This paper presents a sensor array with three metal oxide electrodes that can use machine learning methods to identify four distinct VOCs in a mixture. The metal oxide sensor array was subjected to various VOC concentrations, including ethanol, acetone, toluene and chloroform. The dataset obtained from individual gases and their mixtures were analyzed using multiple machine learning algorithms, such as Random Forest (RF), K-Nearest Neighbor (KNN), Decision Tree, Linear Regression, Logistic Regression, Naive Bayes, Linear Discriminant Analysis, Artificial Neural Network, and Support Vector Machine. KNN and RF have shown more than 99% accuracy in classifying different varying chemicals in the gas mixtures. In regression analysis, KNN has delivered the best results with R2 value of more than 0.99 and LOD of 0.012, 0.015, 0.014 and 0.025 PPM for predicting the concentrations of varying chemicals Acetone, Toluene, Ethanol, and Chloroform, respectively in complex mixtures. Therefore, it is demonstrated that the array utilizing the provided algorithms can classify and predict the concentrations of the four gases simultaneously for disease diagnosis and treatment monitoring.
翻訳日:2023-07-14 15:51:55 公開日:2023-07-13
# Deep Network Approximation: ReLUを超えて、さまざまなアクティベーション関数

Deep Network Approximation: Beyond ReLU to Diverse Activation Functions ( http://arxiv.org/abs/2307.06555v1 )

ライセンス: Link先を確認
Shijun Zhang, Jianfeng Lu, Hongkai Zhao(参考訳) 本稿では,多様な活性化関数に対するディープニューラルネットワークの表現力について検討する。 $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\matht{ReLU}^2$, $\matht{ELU}$, $\matht{SELU}$, $\matht{Softplus}$, $\matht{GELU}$, $\matht{SiLU}$, $\matht{Swish}$, $\matht{Swish}$, $\matht{Mish}$, $\matht{Sigmoid}$, $\matht{ReLU}$, $\matht{Sigmoid}$, $\matht{ReLU}^2$, $\mathtt{SELU}$, $, $\mathtt{Softplus}$, $\mathtt{GELU}$, $, $\mathttt{Swish}$, $, $\mathtt{Swish}$, $\mathtt{Swish}$, $, $\mathtt{Swish}$, $\mathtt{Swish}$, $, $\mathttt{Sig}$\mathtt{Sig}$, $, $\mathttttt{Sig}$, $, $\mathttttt{Sig}$\matht{Sig}$, $, $\mathttttt{Sig}$}$, $\mathttt{Sig}$}$}$, $}$, $\matht{Swt{Swt{Sw}$, $, $\matht{Swt{Swt{Sw}$, $, $} 任意の活性化関数 $\varrho\in \mathscr{a}$ に対して、$\mathtt{relu}$ 幅$n$ と深さ$l$ のネットワークは、任意の有界集合上で$\varrho$-activated network of width $6n$ と depth $2l$ によって任意の精度に近似できる。 この発見により、$\mathtt{relu}$ネットワークで達成されたほとんどの近似結果が、より大きい定数のコストで、他の様々な活性化関数に拡張できる。

This paper explores the expressive power of deep neural networks for a diverse range of activation functions. An activation function set $\mathscr{A}$ is defined to encompass the majority of commonly used activation functions, such as $\mathtt{ReLU}$, $\mathtt{LeakyReLU}$, $\mathtt{ReLU}^2$, $\mathtt{ELU}$, $\mathtt{SELU}$, $\mathtt{Softplus}$, $\mathtt{GELU}$, $\mathtt{SiLU}$, $\mathtt{Swish}$, $\mathtt{Mish}$, $\mathtt{Sigmoid}$, $\mathtt{Tanh}$, $\mathtt{Arctan}$, $\mathtt{Softsign}$, $\mathtt{dSiLU}$, and $\mathtt{SRS}$. We demonstrate that for any activation function $\varrho\in \mathscr{A}$, a $\mathtt{ReLU}$ network of width $N$ and depth $L$ can be approximated to arbitrary precision by a $\varrho$-activated network of width $6N$ and depth $2L$ on any bounded set. This finding enables the extension of most approximation results achieved with $\mathtt{ReLU}$ networks to a wide variety of other activation functions, at the cost of slightly larger constants.
翻訳日:2023-07-14 15:51:32 公開日:2023-07-13
# 可変長複合意味摂動の多目的進化探索

Multi-objective Evolutionary Search of Variable-length Composite Semantic Perturbations ( http://arxiv.org/abs/2307.06548v1 )

ライセンス: Link先を確認
Jialiang Suna, Wen Yao, Tingsong Jianga, Xiaoqian Chena(参考訳) ディープニューラルネットワークは、画像に特定の摂動を加えて間違った出力をするという形で、敵の攻撃に弱いことが証明されている。 より強力な敵攻撃法を設計することで、DNNモデルの堅牢性をより確実に評価することができる。 港の負担を解放し、攻撃性能を向上させるため、オート機械学習(AutoML)は、近距離攻撃戦略の自動発見に成功している。 しかし、敵攻撃のためのAutoMLに関する既存の研究は、$L_{\infty}$-normベースの摂動のみに焦点を当てている。 実際、セマンティックな摂動は自然性や物理的実現可能性によって注目を集めている。 本稿では,オートMLとセマンティック・アタックのギャップを埋めるために,可変長合成意味摂動(MES-VCSP)の多目的進化探索法を提案する。 具体的には,5つの勾配に基づくセマンティックアタック法を提供する可変長合成セマンティック摂動の数学的モデルを構築した。 攻撃シーケンスにおける同じタイプの摂動を複数回行うことができる。 さらに、NSGA-IIと近隣探索からなる多目的進化探索を導入し、ほぼ最適な可変長攻撃シーケンスを求める。 CIFAR10とImageNetデータセットの実験結果から、MES-VCSPは既存の手法と比較して、より高い攻撃成功率、より自然性、より少ない時間コストで敵の例を得ることができることが示された。

Deep neural networks have proven to be vulnerable to adversarial attacks in the form of adding specific perturbations on images to make wrong outputs. Designing stronger adversarial attack methods can help more reliably evaluate the robustness of DNN models. To release the harbor burden and improve the attack performance, auto machine learning (AutoML) has recently emerged as one successful technique to help automatically find the near-optimal adversarial attack strategy. However, existing works about AutoML for adversarial attacks only focus on $L_{\infty}$-norm-based perturbations. In fact, semantic perturbations attract increasing attention due to their naturalnesses and physical realizability. To bridge the gap between AutoML and semantic adversarial attacks, we propose a novel method called multi-objective evolutionary search of variable-length composite semantic perturbations (MES-VCSP). Specifically, we construct the mathematical model of variable-length composite semantic perturbations, which provides five gradient-based semantic attack methods. The same type of perturbation in an attack sequence is allowed to be performed multiple times. Besides, we introduce the multi-objective evolutionary search consisting of NSGA-II and neighborhood search to find near-optimal variable-length attack sequences. Experimental results on CIFAR10 and ImageNet datasets show that compared with existing methods, MES-VCSP can obtain adversarial examples with a higher attack success rate, more naturalness, and less time cost.
翻訳日:2023-07-14 15:47:40 公開日:2023-07-13
# 3次元医療データのための説明可能な2次元視覚モデル

Explainable 2D Vision Models for 3D Medical Data ( http://arxiv.org/abs/2307.06614v1 )

ライセンス: Link先を確認
Alexander Ziller, Alp G\"uvenir, Ayhan Can Erdur, Tamara T. Mueller, Philip M\"uller, Friederike Jungmann, Johannes Brandt, Jan Peeken, Rickmer Braren, Daniel Rueckert, Georgios Kaissis(参考訳) 人工知能(ai)モデルを3次元画像データでトレーニングすることは、2次元の場合と比較してユニークな課題である: まず、計算資源は著しく高く、次に、大規模な事前学習データセットの可用性は、しばしば制限され、トレーニングの成功を妨げる。 本研究では,3次元ボリューム処理における中間特徴表現を用いた2次元ネットワークの適応手法を提案する。 本手法では,これらのネットワークを全方向から3次元ボリュームのスライスに順次適用する。 その後、特徴還元モジュールは抽出したスライス特徴を単一の表現に結合し、分類に使用される。 医療分類ベンチマークと実世界臨床データセットのアプローチを評価し,既存の手法に匹敵する結果を示した。 さらに,注意プーリングを特徴リダクションモジュールとして使用することにより,前方通過時の各スライスに対する重み付き重要度値を得る。 提案手法により重要と考えられるスライスにより,モデルの予測に基づく検査が可能であることを示す。

Training Artificial Intelligence (AI) models on three-dimensional image data presents unique challenges compared to the two-dimensional case: Firstly, the computational resources are significantly higher, and secondly, the availability of large pretraining datasets is often limited, impeding training success. In this study, we propose a simple approach of adapting 2D networks with an intermediate feature representation for processing 3D volumes. Our method involves sequentially applying these networks to slices of a 3D volume from all orientations. Subsequently, a feature reduction module combines the extracted slice features into a single representation, which is then used for classification. We evaluate our approach on medical classification benchmarks and a real-world clinical dataset, demonstrating comparable results to existing methods. Furthermore, by employing attention pooling as a feature reduction module we obtain weighted importance values for each slice during the forward pass. We show that slices deemed important by our approach allow the inspection of the basis of a model's prediction.
翻訳日:2023-07-14 15:39:51 公開日:2023-07-13
# 代理モデルとしてのファンデーションモデルの導入: より実践的な敵攻撃に向けて

Introducing Foundation Models as Surrogate Models: Advancing Towards More Practical Adversarial Attacks ( http://arxiv.org/abs/2307.06608v1 )

ライセンス: Link先を確認
Jiaming Zhang, Jitao Sang, Qi Yi(参考訳) 近年では、攻撃者がモデルのアーキテクチャ、重み、トレーニングデータにアクセスできない非ボックスの敵攻撃が、最も実用的で挑戦的な攻撃設定となっている。 しかしながら、no-box設定におけるサロゲートモデル選択プロセスに固有の可能性と柔軟性は認識できない。 下流の課題に対処するための基礎モデルを活用することへの関心の高まりにインスパイアされた本論文は、革新的なアイデアを取り入れた。 1)ダウンストリームタスクとして敵攻撃をリキャストする。 特に、新たなトレンドに対応するための画像ノイズ発生 2) 補助モデルとして基礎モデルを導入する。 非破壊的特徴の概念を補足し、モデル選択を補助する2つの原則を詳述し、なぜ基礎モデルがこの役割に最適な選択であるかを説明する。 しかし、パラドックス的な観察では、これらの基礎モデルは性能が劣っている。 特徴空間におけるこの予期せぬ振る舞いを分析し、基礎モデル(例えば、CLIP)の性能の欠如は、その重要な表現能力と、逆に識別能力の欠如に起因している。 この問題を軽減するために,対象画像における基礎モデルの微調整にマージンベース損失戦略を用いることを提案する。 実験の結果,FGSM(Fast Gradient Sign Method)アタックアルゴリズムを用いた本手法は,他のより複雑なアルゴリズムよりも優れていることがわかった。 我々は,研究コミュニティに対して,非ボックス環境での敵攻撃の有効性において,サロゲートモデルを決定要因として考えることを提唱する。 我々の研究の意義は、このような敵攻撃の有効性とAIシステムの全体的な堅牢性を改善することにある。

Recently, the no-box adversarial attack, in which the attacker lacks access to the model's architecture, weights, and training data, become the most practical and challenging attack setup. However, there is an unawareness of the potential and flexibility inherent in the surrogate model selection process on no-box setting. Inspired by the burgeoning interest in utilizing foundational models to address downstream tasks, this paper adopts an innovative idea that 1) recasting adversarial attack as a downstream task. Specifically, image noise generation to meet the emerging trend and 2) introducing foundational models as surrogate models. Harnessing the concept of non-robust features, we elaborate on two guiding principles for surrogate model selection to explain why the foundational model is an optimal choice for this role. However, paradoxically, we observe that these foundational models underperform. Analyzing this unexpected behavior within the feature space, we attribute the lackluster performance of foundational models (e.g., CLIP) to their significant representational capacity and, conversely, their lack of discriminative prowess. To mitigate this issue, we propose the use of a margin-based loss strategy for the fine-tuning of foundational models on target images. The experimental results verify that our approach, which employs the basic Fast Gradient Sign Method (FGSM) attack algorithm, outstrips the performance of other, more convoluted algorithms. We conclude by advocating for the research community to consider surrogate models as crucial determinants in the effectiveness of adversarial attacks in no-box settings. The implications of our work bear relevance for improving the efficacy of such adversarial attacks and the overall robustness of AI systems.
翻訳日:2023-07-14 15:39:37 公開日:2023-07-13
# 画像の雑音化と光子の生成的蓄積

Image Denoising and the Generative Accumulation of Photons ( http://arxiv.org/abs/2307.06607v1 )

ライセンス: Link先を確認
Alexander Krull, Hector Basevi, Benjamin Salmon, Andre Zeug, Franziska M\"uller, Samuel Tonks, Leela Muppala, Ales Leonardis(参考訳) ショットノイズ劣化画像とノイズ除去の新たな視点を提示する。 検出器格子上の光子の逐次蓄積として画像形成を見ることで、次の光子がどこに着くかを予測するために訓練されたネットワークが、実際は最小平均二乗誤差(MMSE)分解タスクを解決していることを示す。 この新たな視点は,3つのコントリビューションを可能にする。我々は,自己監督的認知のための新しい戦略を提示する。我々は,画像に少量の光子を反復サンプリングして,可能な解の後部からサンプリングする新しい方法を提案する。 この過程を空のキャンバスから始めることによって、完全な生成モデルを導出する。 本手法は4つの新しい蛍光顕微鏡データセットを定量的・定性的に評価し,コミュニティに公開する予定である。 教師付き,自己監督型,教師なしのベースラインを上回っているか,あるいはオンパーで実行する。

We present a fresh perspective on shot noise corrupted images and noise removal. By viewing image formation as the sequential accumulation of photons on a detector grid, we show that a network trained to predict where the next photon could arrive is in fact solving the minimum mean square error (MMSE) denoising task. This new perspective allows us to make three contributions: We present a new strategy for self-supervised denoising, We present a new method for sampling from the posterior of possible solutions by iteratively sampling and adding small numbers of photons to the image. We derive a full generative model by starting this process from an empty canvas. We evaluate our method quantitatively and qualitatively on 4 new fluorescence microscopy datasets, which will be made available to the community. We find that it outperforms supervised, self-supervised and unsupervised baselines or performs on-par.
翻訳日:2023-07-14 15:39:12 公開日:2023-07-13
# 不定環境における開量子系

Open quantum system in the indefinite environment ( http://arxiv.org/abs/2307.06601v1 )

ライセンス: Link先を確認
He Wang and Jin Wang(参考訳) 本稿では,干渉計や補助量子ビットの導入によって環境が無期限に構築されるオープン量子システムの干渉工学について検討する。 環境は、完全に接続されたキュービット浴でモデル化され、正確な解析ダイナミクスを持つ。 システムは干渉計を通過するか、補助量子ビットによって制御されるので、異なる経路またはそれらの重ね合わせに沿って伝播し、各経路の環境と異なる相互作用をもたらす。 これにより、経路に関する一貫性のある情報を保持する特定の測定によって検出できる環境の重ね合わせが生じる。 結果は,環境の不定性が量子相関を著しく高めることを示した。 しかし、経路コヒーレンスが破壊される場合、環境からの影響の統計的混合のみが保存される。 また,テレポーテーションと量子パラメータ推定のための資源としての不定値の利用可能性についても検討した。 さらに, 波動-粒子-絡み合い-無知の相補性の観点から, 不定値の定量化とシステムのダイナミクスへの影響について考察する。 全体的に、量子情報処理における無期限環境の潜在的な利点を強調し、その効果の基礎となる基本原理に光を当てる。

In this paper, we investigate the interference engineering of the open quantum system, where the environment is made indefinite either through the use of an interferometer or the introduction of auxiliary qubits. The environments are modeled by fully connected qubit baths with exact analytical dynamics. As the system passes through the interferometer or is controlled by auxiliary qubits, it is propagated along different paths or their superpositions, leading to distinct interactions with the environment in each path. This results in the superposition of the environments, which can be detected through specific measurements that retain certain coherent information about the paths. Our results demonstrate that the indefiniteness of the environment can significantly enhance the quantum correlations. However, only the statistical mixture of the influences from the environments preserves provided that the path coherence is destructed. We also examine the serviceability of the indefiniteness as a resource for teleportation and quantum parameter estimation. Additionally, we discuss how to quantify the indefiniteness and the ways in which it affects the system's dynamics from the perspective of wave-particle-entanglement-ignorance complementarity. Overall, our study highlights the potential benefits of an indefinite environment in quantum information processing and sheds light on the fundamental principles underlying its effects.
翻訳日:2023-07-14 15:38:57 公開日:2023-07-13
# 文脈性、コヒーレンス、量子チェシャー猫

Contextuality, Coherences, and Quantum Cheshire Cats ( http://arxiv.org/abs/2307.06583v1 )

ライセンス: Link先を確認
Jonte R. Hance, Ming Ji, Holger F. Hofmann(参考訳) 我々は、文脈性理論を用いて量子チェシャイア猫を分析し、このパラドックスを解釈する最善の方法が何かわかるかどうかを確かめる。 このシナリオは3つの異なる測定値の関係を用いて解析できることを示すが、これは論理的な矛盾をもたらすと考えられる。 この文脈的振る舞いが弱値とどのようにつながり、禁止状態間の一貫性を議論する。 量子チェシャー猫(quantum cheshire cat)は、粒子の性質を示すのではなく、これらのコヒーレンスの効果を示す。

We analyse the quantum Cheshire cat using contextuality theory, to see if this can tell us anything about how best to interpret this paradox. We show that this scenario can be analysed using the relation between three different measurements, which seem to result in a logical contradiction. We discuss how this contextual behaviour links to weak values, and coherences between prohibited states. Rather than showing a property of the particle is disembodied, the quantum Cheshire cat instead demonstrates the effects of these coherences, which are typically found in pre- and postselected systems.
翻訳日:2023-07-14 15:38:39 公開日:2023-07-13
# H-likelihoodによる半パラメトリック欠陥モデルのためのディープニューラルネットワーク

Deep Neural Networks for Semiparametric Frailty Models via H-likelihood ( http://arxiv.org/abs/2307.06581v1 )

ライセンス: Link先を確認
Hangbin Lee, IL DO HA, Youngjo Lee(参考訳) クラスタ化された時間対イベントデータの予測のために,新しいディープニューラルネットワークに基づくガンマフラリティモデル(DNN-FM)を提案する。 提案モデルの利点は、新しいh-likelihoodの結合最大化により、固定パラメータの最大確率推定器とランダム欠陥の最良の非バイアス予測器が提供されることである。 したがって、非パラメトリックなベースラインハザードをプロファイリングして構築した損失関数として負のプロファイルh-likelihoodを用いてdnn-fmを訓練する。 実験により,提案手法が既存手法の予測性能を向上させることを示した。 実データ解析により,DNNベースのCoxモデル(DNN-Cox)の予測精度の向上に寄与することが明らかとなった。

For prediction of clustered time-to-event data, we propose a new deep neural network based gamma frailty model (DNN-FM). An advantage of the proposed model is that the joint maximization of the new h-likelihood provides maximum likelihood estimators for fixed parameters and best unbiased predictors for random frailties. Thus, the proposed DNN-FM is trained by using a negative profiled h-likelihood as a loss function, constructed by profiling out the non-parametric baseline hazard. Experimental studies show that the proposed method enhances the prediction performance of the existing methods. A real data analysis shows that the inclusion of subject-specific frailties helps to improve prediction of the DNN based Cox model (DNN-Cox).
翻訳日:2023-07-14 15:38:29 公開日:2023-07-13
# ボソン関連ハミルトニアンの量子シミュレーション:手法,有効ハミルトニアン構成,誤差解析

Quantum Simulation of Boson-Related Hamiltonians: Techniques, Effective Hamiltonian Construction, and Error Analysis ( http://arxiv.org/abs/2307.06580v1 )

ライセンス: Link先を確認
Bo Peng, Yuan Su, Daniel Claudino, Karol Kowalski, Guang Hao Low, Martin Roetteler(参考訳) 基本量子力学は、閉じた物理系が常に可逆的に進化することを示唆する。 しかし、制御と読み出しは、量子系の外部環境への結合を必要とし、緩和と非一貫性を課す。 したがって、物理的に重要な理論をシミュレートするには、システム環境相互作用が不可欠である。 凝縮マッターおよび高エネルギー物理学、振動分光、回路およびキャビティqedにおける物理系の広いスペクトルは、フォノン、光子、グルーオンといったボソニック自由度を、近未来の量子シミュレーションのために最適化されたフェルミオンアルゴリズムに組み込む必要がある。 特に、量子系が外部環境に囲まれている場合、その基礎物理学は通常、ボソニックモードと相互作用するスピンまたはフェルミオン系に単純化することができる。 それでも、ボゾン級数のような厄介な要因は、一般的にこれらの相互作用するモデルの直接量子シミュレーションを複雑にし、包括的な計画を考える必要がある。 この戦略には、十分に大きくて管理可能なボソニックモードを符号化する適切なフェルミオン/ボソン・ツー・キュービットマッピングスキームと、厳密な誤差解析によって導かれる近似的かつ高精度なシミュレーションを実行するために、ハミルトンを定義部分空間に切り下ろす方法が含まれる。 本稿では,このような徹底的な戦略を提供することを目標とする。 具体的には、(1)これらの相互作用モデルに対する最近開発された量子アルゴリズムの議論と有効ハミルトニアンの構成、(2)ハミルトニアンと相互作用するフェルミオンボソンのクラスに対するボソニックモードをトラッピングするための厳密な誤差に関する詳細な分析の2点を強調する。

Elementary quantum mechanics proposes that a closed physical system consistently evolves in a reversible manner. However, control and readout necessitate the coupling of the quantum system to the external environment, subjecting it to relaxation and decoherence. Consequently, system-environment interactions are indispensable for simulating physically significant theories. A broad spectrum of physical systems in condensed-matter and high-energy physics, vibrational spectroscopy, and circuit and cavity QED necessitates the incorporation of bosonic degrees of freedom, such as phonons, photons, and gluons, into optimized fermion algorithms for near-future quantum simulations. In particular, when a quantum system is surrounded by an external environment, its basic physics can usually be simplified to a spin or fermionic system interacting with bosonic modes. Nevertheless, troublesome factors such as the magnitude of the bosonic degrees of freedom typically complicate the direct quantum simulation of these interacting models, necessitating the consideration of a comprehensive plan. This strategy should specifically include a suitable fermion/boson-to-qubit mapping scheme to encode sufficiently large yet manageable bosonic modes, and a method for truncating and/or downfolding the Hamiltonian to the defined subspace for performing an approximate but highly accurate simulation, guided by rigorous error analysis. In this paper, we aim to provide such an exhaustive strategy. Specifically, we emphasize two aspects: (1) the discussion of recently developed quantum algorithms for these interacting models and the construction of effective Hamiltonians, and (2) a detailed analysis regarding a tightened error bound for truncating the bosonic modes for a class of fermion-boson interacting Hamiltonians.
翻訳日:2023-07-14 15:38:17 公開日:2023-07-13
# rvd:網膜血管セグメンテーションのためのハンドヘルドデバイスベースの眼底ビデオデータセット

RVD: A Handheld Device-Based Fundus Video Dataset for Retinal Vessel Segmentation ( http://arxiv.org/abs/2307.06577v1 )

ライセンス: Link先を確認
MD Wahiduzzaman Khan, Hongwei Sheng, Hu Zhang, Heming Du, Sen Wang, Minas Theodore Coroneo, Farshid Hajati, Sahar Shariflou, Michael Kalloniatis, Jack Phu, Ashish Agar, Zi Huang, Mojtaba Golzan, Xin Yu(参考訳) 網膜血管のセグメンテーションは一般にベンチトップデバイスで収集された画像に基づくデータセットに基礎を置いている。 静的画像は自然に網膜ゆらぎのダイナミックな特性を失い、結果としてデータセットの豊かさが低下し、ベンチトップデバイスの使用はアクセシビリティの制限によりデータセットのスケーラビリティをさらに制限する。 これらの制約を考慮すると、ハンドヘルドデバイスを用いてデータを取得することで、最初のビデオベースの網膜データセットを導入する。 データセットは、50歳から75歳までの415人の患者を含む4つのクリニックから集められたスマートフォンベースのファンドスビデオ635本で構成されている。 網膜構造の包括的かつ正確な注釈を空間的および時間的次元の両方に提供し、血管分節の展望を前進させることを目的としている。 特に、このデータセットは3つの空間的アノテーションを提供する: 網膜全体構造をデライン化するためのバイナリ血管マスク、静脈と動脈を区別するための一般的な静脈動脈マスク、各動脈と静脈の粒度を更に特徴づけるための細粒血管マスク。 さらに、データセットは、血管脈動特性をキャプチャする一時的なアノテーションを提供し、血行力学的揺らぎの細かい認識を必要とする眼疾患の検出を支援する。 アプリケーションでは、ベンチトップデバイスが取得したデータに対して、我々のデータセットは大きなドメインシフトを示しており、既存の手法には大きな課題があります。 実験では,評価指標とベンチマーク結果をデータセット上で提供し,容器分割タスクに提供される可能性と課題を反映する。 この挑戦的なデータセットが眼疾患の診断と早期予防に大きく貢献することを期待している。

Retinal vessel segmentation is generally grounded in image-based datasets collected with bench-top devices. The static images naturally lose the dynamic characteristics of retina fluctuation, resulting in diminished dataset richness, and the usage of bench-top devices further restricts dataset scalability due to its limited accessibility. Considering these limitations, we introduce the first video-based retinal dataset by employing handheld devices for data acquisition. The dataset comprises 635 smartphone-based fundus videos collected from four different clinics, involving 415 patients from 50 to 75 years old. It delivers comprehensive and precise annotations of retinal structures in both spatial and temporal dimensions, aiming to advance the landscape of vasculature segmentation. Specifically, the dataset provides three levels of spatial annotations: binary vessel masks for overall retinal structure delineation, general vein-artery masks for distinguishing the vein and artery, and fine-grained vein-artery masks for further characterizing the granularities of each artery and vein. In addition, the dataset offers temporal annotations that capture the vessel pulsation characteristics, assisting in detecting ocular diseases that require fine-grained recognition of hemodynamic fluctuation. In application, our dataset exhibits a significant domain shift with respect to data captured by bench-top devices, thus posing great challenges to existing methods. In the experiments, we provide evaluation metrics and benchmark results on our dataset, reflecting both the potential and challenges it offers for vessel segmentation tasks. We hope this challenging dataset would significantly contribute to the development of eye disease diagnosis and early prevention.
翻訳日:2023-07-14 15:37:44 公開日:2023-07-13
# ローカルを超越:グローバルグラフによるパーソナライズされたニュースレコメンデーション

Going Beyond Local: Global Graph-Enhanced Personalized News Recommendations ( http://arxiv.org/abs/2307.06576v1 )

ライセンス: Link先を確認
Boming Yang, Dairui Liu, Toyotaro Suzumura, Ruihai Dong, Irene Li(参考訳) 候補ニュース記事をユーザに正確に推薦することは、パーソナライズされたニュースレコメンデーションシステムにとって、常に重要な課題だった。 最近の研究は主に、現地の歴史的ニュースから派生したコンテンツに基づく手法を用いて、リッチテキストデータから意味情報を抽出する高度な自然言語処理技術に焦点を当てている。 しかし、このアプローチはグローバルな視点に欠けており、セマンティック情報を超えたユーザの隠されたモチベーションや振る舞いを説明できない。 そこで本研究では,他のユーザから学習したグローバル表現とローカル表現を組み合わせることで,パーソナライズドレコメンデーションシステムを強化する,gloly(グローバルローカルニュースレコメンデーションシステム)という新しいモデルを提案する。 我々は,グローバルニュースグラフを含むグローバルな歴史ニュースエンコーダを構築し,ゲートグラフニューラルネットワークを用いてニュース表現を充実させ,歴史的ニュースアグリゲータによる歴史的ニュース表現を融合させることにより,これを実現する。 同様に、グローバルエンティティグラフと候補ニュースアグリゲータを利用して、このアプローチをグローバル候補ニュースエンコーダにも拡張し、候補ニュース表現を強化します。 2つの公開ニュースデータセットの評価結果は,提案手法が既存手法より優れていることを示す。 さらに,より多様なレコメンデーションを提供する。

Precisely recommending candidate news articles to users has always been a core challenge for personalized news recommendation systems. Most recent works primarily focus on using advanced natural language processing techniques to extract semantic information from rich textual data, employing content-based methods derived from local historical news. However, this approach lacks a global perspective, failing to account for users' hidden motivations and behaviors beyond semantic information. To address this challenge, we propose a novel model called GLORY (Global-LOcal news Recommendation sYstem), which combines global representations learned from other users with local representations to enhance personalized recommendation systems. We accomplish this by constructing a Global-aware Historical News Encoder, which includes a global news graph and employs gated graph neural networks to enrich news representations, thereby fusing historical news representations by a historical news aggregator. Similarly, we extend this approach to a Global Candidate News Encoder, utilizing a global entity graph and a candidate news aggregator to enhance candidate news representation. Evaluation results on two public news datasets demonstrate that our method outperforms existing approaches. Furthermore, our model offers more diverse recommendations.
翻訳日:2023-07-14 15:37:16 公開日:2023-07-13
# unpacking polarization: オンラインインタラクションの署名ネットワークにおける対立性とアライメント

Unpacking polarization: Antagonism and Alignment in Signed Networks of Online Interaction ( http://arxiv.org/abs/2307.06571v1 )

ライセンス: Link先を確認
Emma Fraxanet, Max Pellert, Simon Schweighofer, Vicen\c{c} G\'omez, David Garcia(参考訳) オンライン分極研究は現在、単発の意見分布や相互作用ネットワーク構造の距離メトリクスの研究に焦点を当てている。 限られたデータ可用性は、しばしば研究をポジティブな相互作用データに制限する。 我々は,これら3つの側面,内容と相互作用,およびそれらの性質(肯定的あるいは否定的)を組み合わせることを目的とした,新たな枠組みを導入するとともに,オンラインの対立や反対意見のあらゆる形態の包括的用語として偏極の概念に挑戦する。 当社のアプローチでは,署名付きソーシャルネットワークの切断構造と構造バランスの概念に基づいて,偏極をアンタゴニズムとアライメントの2つの異なる指標に分解する。 敵意は、ユーザのコンテンツに対する反応に基づいて、オンライン議論の敵意を定量化する。 アライメントは、プラットフォーム上の長期ユーザー関係にエンコードされた署名された構造情報を使用して、ユーザのインタラクションがグローバルおよび/または従来の議論の側面にどのように適合するかを記述する。 これらのメトリクスの変更を時間を通じて分析し、関連するトレンドだけでなく、特定のコンテキストやイベントにマッピング可能な突然の変更もローカライズできます。 われわれはこの手法を2つの異なるプラットフォームに適用した。アメリカのクラウドベースのTwitterのファクトチェック拡張であるBirdwatchと、議論フォーラムのあるオーストリアのオンライン新聞DerStandardだ。 これら2つのユースケースにおいて,当社のフレームワークは,ユーザグループのグローバルステータスを記述できると同時に,特定の問題や特定の時間枠に関する関連する知見を提供することができます。 さらに、我々の4つの指標は異なる現象を記述しており、偏光複雑性を解き放つための独立的な考察を強調している。

Online polarization research currently focuses on studying single-issue opinion distributions or computing distance metrics of interaction network structures. Limited data availability often restricts studies to positive interaction data, which can misrepresent the reality of a discussion. We introduce a novel framework that aims at combining these three aspects, content and interactions, as well as their nature (positive or negative), while challenging the prevailing notion of polarization as an umbrella term for all forms of online conflict or opposing opinions. In our approach, built on the concepts of cleavage structures and structural balance of signed social networks, we factorize polarization into two distinct metrics: Antagonism and Alignment. Antagonism quantifies hostility in online discussions, based on the reactions of users to content. Alignment uses signed structural information encoded in long-term user-user relations on the platform to describe how well user interactions fit the global and/or traditional sides of discussion. We can analyse the change of these metrics through time, localizing both relevant trends but also sudden changes that can be mapped to specific contexts or events. We apply our methods to two distinct platforms: Birdwatch, a US crowd-based fact-checking extension of Twitter, and DerStandard, an Austrian online newspaper with discussion forums. In these two use cases, we find that our framework is capable of describing the global status of the groups of users (identification of cleavages) while also providing relevant findings on specific issues or in specific time frames. Furthermore, we show that our four metrics describe distinct phenomena, emphasizing their independent consideration for unpacking polarization complexities.
翻訳日:2023-07-14 15:36:53 公開日:2023-07-13
# 線形系を解くための高速かつ実用的な量子インスパイアされた古典アルゴリズム

Fast and Practical Quantum-Inspired Classical Algorithms for Solving Linear Systems ( http://arxiv.org/abs/2307.06627v1 )

ライセンス: Link先を確認
Qian Zuo and Tongyang Li(参考訳) 線形系を解くための高速で実用的な量子インスピレーション付き古典アルゴリズムを提案する。 具体的には、行列 $a\in\mathbb{r}^{m\times n}$ とベクトル $b\in\mathbb{r}^m$ に対するサンプリングとクエリアクセスを与えられたとき、線形系の $x\in\mathbb{r}^{n}$ の解に対してデータ構造を生成する古典的なアルゴリズムを提案し、そのエントリをサンプリングしてクエリすることができる。 x$ は $\|x-A^{+}b\|\leq\epsilon\|A^{+}b\|$ を満たすが、$\|\cdot\|$ はスペクトルノルムであり、$A^+$ は$A$ のムーア=ペンローズ逆である。 我々のアルゴリズムは時間複雑性$\widetilde{O}(\kappa_F^4/\kappa\epsilon^2)$で、$\kappa_{F} =\|A\|_F\|A^+\|$と$\kappa=\|A\|\|A^+\|$は条件数である。 shao and montanaro, arxiv:2103.10309v2] の以前の結果と比較すると, このアルゴリズムは条件数で多項式の高速化を実現する。 a$ が $s$-sparse の場合、アルゴリズムは$\widetilde{o}(s \kappa\log(1/\epsilon))$ を持ち、$\kappa$ と $1/\epsilon$ の線形系を解くための量子下限を多対数因子 [harrow と kothari] に一致させる。 a$ が $s$-sparse で対称な正定値であれば、アルゴリズムは$\widetilde{o}(s\sqrt{\kappa}\log(1/\epsilon))$ を持つ。 技術的には、重粒子運動量法を線形系を解くために量子インスパイアされた古典的アルゴリズムに適用し、運動量を持つ量子インスパイアされたカッツマルツ法と運動量を持つ量子インスパイアされた座標降下法という2つの新しい手法を提案する。 これらの解析は運動量遷移行列の注意深く分解し、新しいスペクトルノルム濃度境界を独立なランダム行列に適用する。 最後に, 合成および実世界の両方のデータセット上で, アルゴリズムの数値実験を行い, 実験結果から理論的主張を裏付ける。

We propose fast and practical quantum-inspired classical algorithms for solving linear systems. Specifically, given sampling and query access to a matrix $A\in\mathbb{R}^{m\times n}$ and a vector $b\in\mathbb{R}^m$, we propose classical algorithms that produce a data structure for the solution $x\in\mathbb{R}^{n}$ of the linear system $Ax=b$ with the ability to sample and query its entries. The resulting $x$ satisfies $\|x-A^{+}b\|\leq\epsilon\|A^{+}b\|$, where $\|\cdot\|$ is the spectral norm and $A^+$ is the Moore-Penrose inverse of $A$. Our algorithm has time complexity $\widetilde{O}(\kappa_F^4/\kappa\epsilon^2)$ in the general case, where $\kappa_{F} =\|A\|_F\|A^+\|$ and $\kappa=\|A\|\|A^+\|$ are condition numbers. Compared to the prior state-of-the-art result [Shao and Montanaro, arXiv:2103.10309v2], our algorithm achieves a polynomial speedup in condition numbers. When $A$ is $s$-sparse, our algorithm has complexity $\widetilde{O}(s \kappa\log(1/\epsilon))$, matching the quantum lower bound for solving linear systems in $\kappa$ and $1/\epsilon$ up to poly-logarithmic factors [Harrow and Kothari]. When $A$ is $s$-sparse and symmetric positive-definite, our algorithm has complexity $\widetilde{O}(s\sqrt{\kappa}\log(1/\epsilon))$. Technically, our main contribution is the application of the heavy ball momentum method to quantum-inspired classical algorithms for solving linear systems, where we propose two new methods with speedups: quantum-inspired Kaczmarz method with momentum and quantum-inspired coordinate descent method with momentum. Their analysis exploits careful decomposition of the momentum transition matrix and the application of novel spectral norm concentration bounds for independent random matrices. Finally, we also conduct numerical experiments for our algorithms on both synthetic and real-world datasets, and the experimental results support our theoretical claims.
翻訳日:2023-07-14 15:32:08 公開日:2023-07-13
# 量子情報理論から見た同一ボソンの不明瞭性

Indistinguishability of identical bosons from a quantum information theory perspective ( http://arxiv.org/abs/2307.06626v1 )

ライセンス: Link先を確認
Matthias Englbrecht, Tristan Kraft, Christoph Dittel, Andreas Buchleitner, Geza Giedke, Barbara Kraus(参考訳) 量子情報理論のツールを用いて、受動線形光学および粒子数検出による実験において、同一ボソンの不明瞭性に関する一般的な理論を示す。 私たちの結果は、例えば固定モードの占有など、干渉計の入力状態に対する追加的な仮定や、粒子を識別可能な自由度に関する仮定に依存していません。 我々は,n$-particle symmetric subspace へのプロジェクタの期待値を,操作上有意義な不一致性の尺度として同定し,実験で効率的に測定できる狭い下界を導出する。 さらに,完全識別性の定義を一貫し,対応する状態の集合を特徴付ける。 特に、これらの状態は、置換不変ユニタリまでの計算基底において対角的であることを示す。 さらに、部分的に識別可能で完全に識別不可能な粒子を記述する状態の凸結合は、凸結合では保存されない完全な識別可能性をもたらすことが判明した。

Using tools from quantum information theory, we present a general theory of indistinguishability of identical bosons in experiments consisting of passive linear optics followed by particle number detection. Our results do neither rely on additional assumptions on the input state of the interferometer, such as, for instance, a fixed mode occupation, nor on any assumption on the degrees of freedom that potentially make the particles distinguishable. We identify the expectation value of the projector onto the $N$-particle symmetric subspace as an operationally meaningful measure of indistinguishability, and derive tight lower bounds on it that can be efficiently measured in experiments. Moreover, we present a consistent definition of perfect distinguishability and characterize the corresponding set of states. In particular, we show that these states are diagonal in the computational basis up to a permutationally invariant unitary. Moreover, we find that convex combinations of states that describe partially distinguishable and perfectly indistinguishable particles can lead to perfect distinguishability, which itself is not preserved under convex combinations.
翻訳日:2023-07-14 15:31:17 公開日:2023-07-13
# ビデオからの誤りの自動検出: エンド・ツー・エンド学習に基づくハイレベル特徴と分類アプローチ

Automated Deception Detection from Videos: Using End-to-End Learning Based High-Level Features and Classification Approaches ( http://arxiv.org/abs/2307.06625v1 )

ライセンス: Link先を確認
Laslo Dinges (1), Marc-Andr\'e Fiedler (1), Ayoub Al-Hamadi (1), Thorsten Hempel (1), Ahmed Abdelrahman (1), Joachim Weimann (2) and Dmitri Bershadskyy (2) ((1) Neuro-Information Technology Group, Otto-von-Guericke University Magdeburg (2) Faculty of Economics and Management, Otto-von-Guericke University Magdeburg)(参考訳) 詐欺検出は、心理学、犯罪学、コンピュータ科学、経済学から研究者を引き寄せる学際分野である。 本稿では,ディープラーニングと識別モデルを組み合わせたマルチモーダル手法を提案する。 ビデオモダリティを用いて, 畳み込み型エンドツーエンド学習を用いて視線, 頭部ポーズ, 表情の分析を行い, 最先端手法と比較して有望な結果を得る。 また,訓練データに制限があるため,識別モデルを用いて誤検出を行う。 シーケンスからクラスへのアプローチは検討されているが、識別モデルはデータの不足によりそれらを上回っている。 提案手法は, 経済要因による新しいローリングディース実験を含む5つのデータセットで評価される。 その結果,表情は視線や頭部のポーズよりも優れており,特徴選択とモダリティを組み合わせることで検出性能が向上した。 データセット間で表現された特徴の違いは、シナリオ固有のトレーニングデータの重要性と、認識行動に対するコンテキストの影響を強調している。 クロスデータセット実験は、これらの発見を補強する。 ローリングダイス実験を含む低リスクデータセットが抱える課題にもかかわらず、デセプション検出性能はチャンスレベルを超えている。 提案するマルチモーダルアプローチと包括的評価は,ビデオモダリティによる偽造検出の自動化の可能性に光を当て,今後の研究への道を開く。

Deception detection is an interdisciplinary field attracting researchers from psychology, criminology, computer science, and economics. We propose a multimodal approach combining deep learning and discriminative models for automated deception detection. Using video modalities, we employ convolutional end-to-end learning to analyze gaze, head pose, and facial expressions, achieving promising results compared to state-of-the-art methods. Due to limited training data, we also utilize discriminative models for deception detection. Although sequence-to-class approaches are explored, discriminative models outperform them due to data scarcity. Our approach is evaluated on five datasets, including a new Rolling-Dice Experiment motivated by economic factors. Results indicate that facial expressions outperform gaze and head pose, and combining modalities with feature selection enhances detection performance. Differences in expressed features across datasets emphasize the importance of scenario-specific training data and the influence of context on deceptive behavior. Cross-dataset experiments reinforce these findings. Despite the challenges posed by low-stake datasets, including the Rolling-Dice Experiment, deception detection performance exceeds chance levels. Our proposed multimodal approach and comprehensive evaluation shed light on the potential of automating deception detection from video modalities, opening avenues for future research.
翻訳日:2023-07-14 15:30:57 公開日:2023-07-13
# 非マルコフ自由フェルミオンはしごにおける測定誘起遷移

Measurement induced transitions in non-Markovian free fermion ladders ( http://arxiv.org/abs/2307.06624v1 )

ライセンス: Link先を確認
Mikheil Tsitsishvili, Dario Poletti, Marcello Dalmonte and Giuliano Chiriac\`o(参考訳) 近年、測定誘起遷移を理解するための懸命な努力がなされているが、これらの現象に対する非マルコフ効果についてはまだよく理解されていない。 そこで我々は,2つの結合した自由フェルミオン鎖,一つは利子系として機能し,もう一つは浴槽として機能する。 バスチェインはマルコフ測定の対象であり、量子軌道の観点からの数値研究にはまだ適している系チェインに作用する効果的な非マルコフ散逸ダイナミクスをもたらす。 本設定では,システムチェーン内の絡み合いを解析し,ラダーホッピングパラメータと測定確率に基づいて位相図を特徴付ける。 純粋な状態進化の場合、このシステムはバスチェーンの内部ホッピングが小さい場合の領域法相であり、バスのダイナミクスが速い場合には非領域法相が現れる。 非領域法則は、エントロピーの対数的スケーリングと共形相との整合性を示すだけでなく、我々が研究できる有限系サイズの線形補正も示している。 混合状態の進化の場合、その代わりに、両領域の領域を観察し、絡み合いの負性性の非領域スケーリングを観察する。 我々は、系の連鎖力学の非マルコビアン性を定量化し、我々の研究するパラメータの体系において、より強い非マルコビアン性はシステム内のより大きな絡み合いと関連している。

Recently there has been an intense effort to understand measurement induced transitions, but we still lack a good understanding of non-Markovian effects on these phenomena. To that end, we consider two coupled chains of free fermions, one acting as the system of interest, and one as a bath. The bath chain is subject to Markovian measurements, resulting in an effective non-Markovian dissipative dynamics acting on the system chain which is still amenable to numerical studies in terms of quantum trajectories. Within this setting, we study the entanglement within the system chain, and use it to characterize the phase diagram depending on the ladder hopping parameters and on the measurement probability. For the case of pure state evolution, the system is in an area law phase when the internal hopping of the bath chain is small, while a non-area law phase appears when the dynamics of the bath is fast. The non-area law exhibits a logarithmic scaling of the entropy compatible with a conformal phase, but also displays linear corrections for the finite system sizes we can study. For the case of mixed state evolution, we instead observe regions with both area, and non-area scaling of the entanglement negativity. We quantify the non-Markovianity of the system chain dynamics and find that for the regimes of parameters we study, a stronger non-Markovianity is associated to a larger entanglement within the system.
翻訳日:2023-07-14 15:30:32 公開日:2023-07-13
# 量子チャネルコード学習のための量子オートエンコーダ

Quantum Autoencoders for Learning Quantum Channel Codes ( http://arxiv.org/abs/2307.06622v1 )

ライセンス: Link先を確認
Lakshika Rathi, Stephen DiAdamo, Alireza Shabani(参考訳) 本研究は、異なる量子ビットチャネルモデル間の古典的および量子的通信における量子機械学習技術の適用について検討する。 パラメータ化量子回路とフレキシブルチャネルノイズモデルを用いて、量子チャネルコードを生成し、その有効性を評価する機械学習フレームワークを開発する。 フレームワーク内の古典的、絡み合い支援、および量子通信シナリオについて検討する。 概念実証として様々な量子チャネルモデルに適用し,それぞれの場合において強い性能を示す。 本研究は,量子通信システムの研究を進める量子機械学習の可能性を強調し,変調制約,多様な通信設定,多様なチャネルモデルに基づくキャパシティ境界のより深い理解を可能にする。

This work investigates the application of quantum machine learning techniques for classical and quantum communication across different qubit channel models. By employing parameterized quantum circuits and a flexible channel noise model, we develop a machine learning framework to generate quantum channel codes and evaluate their effectiveness. We explore classical, entanglement-assisted, and quantum communication scenarios within our framework. Applying it to various quantum channel models as proof of concept, we demonstrate strong performance in each case. Our results highlight the potential of quantum machine learning in advancing research on quantum communication systems, enabling a better understanding of capacity bounds under modulation constraints, various communication settings, and diverse channel models.
翻訳日:2023-07-14 15:29:26 公開日:2023-07-13
# 量子化有限時間協調によるオンライン分散学習

Online Distributed Learning with Quantized Finite-Time Coordination ( http://arxiv.org/abs/2307.06620v1 )

ライセンス: Link先を確認
Nicola Bastianello, Apostolos I. Rikos, Karl H. Johansson(参考訳) 本稿では,オンライン分散学習問題について考察する。 オンライン分散学習とは、分散データソース上で学習モデルをトレーニングする過程を指す。 私たちの設定では、一連のエージェントがストリーミングデータから学習モデルを協調的にトレーニングする必要があります。 連合学習とは異なり、提案手法は中央サーバに頼るのではなく、エージェント間のピアツーピア通信のみに依存する。 このアプローチは、プライバシやセキュリティ、コスト上の理由から、データが集中的な場所に移動できないシナリオでよく使用される。 中央サーバの欠如を克服するために,局所的に訓練されたモデルを集約するために,量子化された有限時間協調プロトコルに依存する分散アルゴリズムを提案する。 さらに,本アルゴリズムは局所学習における確率勾配の利用を可能にする。 確率的勾配は、ランダムにサンプリングされたローカルトレーニングデータのサブセットを用いて計算され、従来の勾配降下よりも効率的にスケーラブルなアルゴリズムが提案されている。 本稿では,提案アルゴリズムの性能を,オンラインソリューションからの平均距離の観点から解析する。 最後に,ロジスティック回帰タスクの数値計算結果を示す。

In this paper we consider online distributed learning problems. Online distributed learning refers to the process of training learning models on distributed data sources. In our setting a set of agents need to cooperatively train a learning model from streaming data. Differently from federated learning, the proposed approach does not rely on a central server but only on peer-to-peer communications among the agents. This approach is often used in scenarios where data cannot be moved to a centralized location due to privacy, security, or cost reasons. In order to overcome the absence of a central server, we propose a distributed algorithm that relies on a quantized, finite-time coordination protocol to aggregate the locally trained models. Furthermore, our algorithm allows for the use of stochastic gradients during local training. Stochastic gradients are computed using a randomly sampled subset of the local training data, which makes the proposed algorithm more efficient and scalable than traditional gradient descent. In our paper, we analyze the performance of the proposed algorithm in terms of the mean distance from the online solution. Finally, we present numerical results for a logistic regression task.
翻訳日:2023-07-14 15:29:07 公開日:2023-07-13
# 勾配Descent を用いた測定から IMM フィルタパラメータの学習

Learning IMM Filter Parameters from Measurements using Gradient Descent ( http://arxiv.org/abs/2307.06618v1 )

ライセンス: Link先を確認
Andr\'e Brandenburger, Folker Hoffmann and Alexander Charlish(参考訳) データ融合と追跡アルゴリズムの性能は、センサーシステムを記述するだけでなく、タスク固有のパラメータにも依存することが多い。 センサーシステムのチューニングには、これらの変数は時間がかかり、主に専門家の知識を必要とするが、システムのデプロイまで、トラック中のターゲットの固有のパラメータは完全に観測不可能である。 最先端のセンサシステムがますます複雑になるにつれて、パラメータの数は自然に増加し、モデル変数の自動最適化が必要となる。 本稿では,対話型多層モデル(imm)フィルタのパラメータを,測定値のみを用いて最適化する。 その結果,シミュレーションデータを用いたアブレーション実験により,実測値にパラメトリズされたフィルタの性能を再現する手法が得られた。

The performance of data fusion and tracking algorithms often depends on parameters that not only describe the sensor system, but can also be task-specific. While for the sensor system tuning these variables is time-consuming and mostly requires expert knowledge, intrinsic parameters of targets under track can even be completely unobservable until the system is deployed. With state-of-the-art sensor systems growing more and more complex, the number of parameters naturally increases, necessitating the automatic optimization of the model variables. In this paper, the parameters of an interacting multiple model (IMM) filter are optimized solely using measurements, thus without necessity for any ground-truth data. The resulting method is evaluated through an ablation study on simulated data, where the trained model manages to match the performance of a filter parametrized with ground-truth values.
翻訳日:2023-07-14 15:28:50 公開日:2023-07-13
# ビットフリップ時間10秒を超える猫量子ビットの量子制御

Quantum control of a cat-qubit with bit-flip times exceeding ten seconds ( http://arxiv.org/abs/2307.06617v1 )

ライセンス: Link先を確認
Ulysse R\'eglade and Adrien Bocquet, Ronan Gautier, Antoine Marquet, Emanuele Albertinale, Natalia Pankratova, Mattis Hall\'en, Felix Rautschke, Lev-Arcady Sellem, Pierre Rouchon, Alain Sarlette, Mazyar Mirrahimi, Philippe Campagne-Ibarcq, Rapha\"el Lescanne, S\'ebastien Jezouin and Zaki Leghtas(参考訳) バイナリ古典情報は、動的システムの2つの準安定状態に定期的に符号化される。 これらの状態はマクロな寿命を示す可能性があるため、符号化された情報はビットフリップに対する強い保護を継承する。 最近の量子ビット (cat-qubit) は量子力学系の準安定状態の多様体に符号化され、ビットフリップ保護を得る。 注目すべき課題は、そのようなシステムの保護を壊さずに量子制御を得ることである。 この課題が満たされれば、ハードウェアオーバーヘッドの大きなショートカットが量子コンピューティングの予測である。 本実験では,ビットフリップ時間10秒を超えるキャットキュービットを実装した。 これは以前のcat-qubit実装よりも4桁の改善であり、この動的量子ビットを構成する単一光子寿命に対して6桁の拡張である。 これはビットフリップ保護を破らない量子トモグラフィプロトコルを導入することで達成された。 量子重ね合わせ状態を作成し,490ナノ秒以上の位相フリップ時間を測定する。 最も重要なのは、これらの重ね合わせの位相を10秒以上のビットフリップ時間を維持しながら制御することです。 この研究は、これらの動的量子ビットを完全に保護されたハードウェア効率のアーキテクチャに拡張するために必要なステップである、マクロ的なビットフリップ時間を保存する量子演算を実証する。

Binary classical information is routinely encoded in the two metastable states of a dynamical system. Since these states may exhibit macroscopic lifetimes, the encoded information inherits a strong protection against bit-flips. A recent qubit - the cat-qubit - is encoded in the manifold of metastable states of a quantum dynamical system, thereby acquiring bit-flip protection. An outstanding challenge is to gain quantum control over such a system without breaking its protection. If this challenge is met, significant shortcuts in hardware overhead are forecast for quantum computing. In this experiment, we implement a cat-qubit with bit-flip times exceeding ten seconds. This is a four order of magnitude improvement over previous cat-qubit implementations, and six orders of magnitude enhancement over the single photon lifetime that compose this dynamical qubit. This was achieved by introducing a quantum tomography protocol that does not break bit-flip protection. We prepare and image quantum superposition states, and measure phase-flip times above 490 nanoseconds. Most importantly, we control the phase of these superpositions while maintaining the bit-flip time above ten seconds. This work demonstrates quantum operations that preserve macroscopic bit-flip times, a necessary step to scale these dynamical qubits into fully protected hardware-efficient architectures.
翻訳日:2023-07-14 15:28:33 公開日:2023-07-13
# SecureFalcon:サイバーセキュリティのための次世代サイバー推論システム

SecureFalcon: The Next Cyber Reasoning System for Cyber Security ( http://arxiv.org/abs/2307.06616v1 )

ライセンス: Link先を確認
Mohamed Amine Ferrag, Ammar Battah, Norbert Tihanyi, Merouane Debbah, Thierry Lestable, Lucas C. Cordeiro(参考訳) クラッシュ、データ損失、セキュリティ侵害などの様々な障害につながるソフトウェアの脆弱性は、ソフトウェアアプリケーションやシステムの市場採用に影響を与える品質を著しく損なう。 自動ソフトウェアテストやフォールトローカライゼーション、修復といった従来の手法は集中的に研究されているが、静的解析ツールが最も一般的に使われ、固有の偽陽性率を持ち、開発者の生産性に確固たる課題を呈している。 大きな言語モデル(LLM)は、これらの永続的な問題に対する有望な解決策を提供する。 これらの中、FalconLLMは複雑なパターンと複雑な脆弱性を識別する可能性を示しており、ソフトウェア脆弱性の検出に不可欠である。 この論文では、FalconLLMがサイバーセキュリティアプリケーション向けに微調整され、FalconLLM上に構築された革新的なモデルアーキテクチャであるSecureFalconを導入する。 SecureFalconは、脆弱性のあるCコードのサンプルと非脆弱性なCコードのサンプルを区別するように訓練されている。 我々は、生成人工知能(AI)による新しいトレーニングデータセットFormAIを構築し、その性能を評価するための正式な検証を行った。 secure falconは、ソフトウェアの脆弱性検出において94%の精度を達成し、サイバーセキュリティにおけるソフトウェア脆弱性検出方法を再定義する重要な可能性を強調した。

Software vulnerabilities leading to various detriments such as crashes, data loss, and security breaches, significantly hinder the quality, affecting the market adoption of software applications and systems. Although traditional methods such as automated software testing, fault localization, and repair have been intensively studied, static analysis tools are most commonly used and have an inherent false positives rate, posing a solid challenge to developer productivity. Large Language Models (LLMs) offer a promising solution to these persistent issues. Among these, FalconLLM has shown substantial potential in identifying intricate patterns and complex vulnerabilities, hence crucial in software vulnerability detection. In this paper, for the first time, FalconLLM is being fine-tuned for cybersecurity applications, thus introducing SecureFalcon, an innovative model architecture built upon FalconLLM. SecureFalcon is trained to differentiate between vulnerable and non-vulnerable C code samples. We build a new training dataset, FormAI, constructed thanks to Generative Artificial Intelligence (AI) and formal verification to evaluate its performance. SecureFalcon achieved an impressive 94% accuracy rate in detecting software vulnerabilities, emphasizing its significant potential to redefine software vulnerability detection methods in cybersecurity.
翻訳日:2023-07-14 15:28:14 公開日:2023-07-13
# nlosが2回死亡 - v2xの協調認知のための挑戦と解決

NLOS Dies Twice: Challenges and Solutions of V2X for Cooperative Perception ( http://arxiv.org/abs/2307.06615v1 )

ライセンス: Link先を確認
Lantao Li and Chen Sun(参考訳) 協調認識のための複数エージェントマルチライダーセンサ融合は,近年,個々の車両知覚システムのブラインドゾーンを最小化し,自動運転システムの全体的な安全性をさらに高めるための最善の手法として認識されている。 この技術は、V2X通信の信頼性と可用性に大きく依存している。 現実的なセンサフュージョン応用シナリオでは、非線形(NLOS)問題は知覚システムだけでなくV2X直接通信にも盲点を引き起こす。 本稿では,V2X通信の効率と性能を積極的に改善し,上位層でのアプリケーション融合要求を満たすために,センサフュージョンマッチング手順とモビリティハイトハイブリッドリレー決定手順の抽象的認識行列マッチング手法を提案する。 提案手法の有効性を実証するため,自律走行,センサ融合,V2X通信全般を考慮した新しいシミュレーションフレームワークを設計し,エンド・ツー・エンドの性能評価と解の導出を行う。

Multi-agent multi-lidar sensor fusion between connected vehicles for cooperative perception has recently been recognized as the best technique for minimizing the blind zone of individual vehicular perception systems and further enhancing the overall safety of autonomous driving systems. This technique relies heavily on the reliability and availability of vehicle-to-everything (V2X) communication. In practical sensor fusion application scenarios, the non-line-of-sight (NLOS) issue causes blind zones for not only the perception system but also V2X direct communication. To counteract underlying communication issues, we introduce an abstract perception matrix matching method for quick sensor fusion matching procedures and mobility-height hybrid relay determination procedures, proactively improving the efficiency and performance of V2X communication to serve the upper layer application fusion requirements. To demonstrate the effectiveness of our solution, we design a new simulation framework to consider autonomous driving, sensor fusion and V2X communication in general, paving the way for end-to-end performance evaluation and further solution derivation.
翻訳日:2023-07-14 15:27:54 公開日:2023-07-13
# 有限サイズ貯留層に結合した量子ドットの確率的熱力学

Stochastic thermodynamics of a quantum dot coupled to a finite-size reservoir ( http://arxiv.org/abs/2307.06679v1 )

ライセンス: Link先を確認
Saulo V. Moreira, Peter Samuelsson, Patrick P. Potts(参考訳) 有限サイズの貯水池に結合したナノスケールシステムでは, システムと貯水池間の熱交換により貯留温度が変動する可能性がある。 これまでのところ、そのような系における熱、仕事、エントロピー生成の確率的熱力学的解析は欠落している。 ここでは、有限サイズの電子貯水池に結合した単一レベルの量子ドットトンネルを解析することにより、このギャップを埋める。 系のダイナミクスは、貯水池の変動温度に依存するマルコフマスター方程式によって記述される。 揺らぎ定理に基づき、熱力学的に一貫した統計的記述をもたらす適切なエントロピー生成を同定する。 本研究では,有限サイズ貯留層スジラードエンジンの作業結果を分析し,結果を示す。

In nano-scale systems coupled to finite-size reservoirs, the reservoir temperature may fluctuate due to heat exchange between the system and the reservoirs. To date, a stochastic thermodynamic analysis of heat, work and entropy production in such systems is however missing. Here we fill this gap by analyzing a single-level quantum dot tunnel coupled to a finite-size electronic reservoir. The system dynamics is described by a Markovian master equation, depending on the fluctuating temperature of the reservoir. Based on a fluctuation theorem, we identify the appropriate entropy production that results in a thermodynamically consistent statistical description. We illustrate our results by analyzing the work production for a finite-size reservoir Szilard engine.
翻訳日:2023-07-14 15:19:25 公開日:2023-07-13
# DGCNet:ハイパースペクトルリモートセンシング画像分類のための動的グループ畳み込みに基づく効率的な3次元Densenet

DGCNet: An Efficient 3D-Densenet based on Dynamic Group Convolution for Hyperspectral Remote Sensing Image Classification ( http://arxiv.org/abs/2307.06667v1 )

ライセンス: Link先を確認
Guandong Li(参考訳) 深層ニューラルネットワークは、ハイパースペクトル画像分類、空間スペクトル情報の有効利用の欠如、モデル深度の増加に伴う勾配消失、過剰フィッティングなど、多くの問題に直面している。 そこで我々は、3D-Densenetモデルの改良に基づく軽量モデルを導入し、DGCNetの設計を行う。 グループ畳み込みの欠点を改善する。 動的ネットワークの概念を参照して、動的グループ畳み込み(DGC)は3d畳み込みカーネル上に設計されている。 dgcはグループ化毎に小さな機能セレクタを導入し、すべての入力チャネルのアクティベーションに基づいて接続する入力チャネルのどの部分を動的に決定する。 複数のグループが入力画像の異なる視覚的かつ補完的な特徴をキャプチャし、畳み込みニューラルネットワーク(cnn)が豊富な特徴を学習できるようにする。 3D畳み込みは高次元および冗長なハイパースペクトルデータを抽出し、畳み込みカーネル間にも多くの冗長情報が存在する。 DGCモジュールにより、3D-Densenetはよりリッチなセマンティックな特徴を持つチャネル情報を選択でき、非アクティブな領域を破棄できる。 dgcモジュールを通過する3d-cnnはpruned networkと見なすことができる。 DGCは、3D-CNNが十分な特徴抽出を完了させるだけでなく、速度と計算量の要求も考慮している。 推測速度と精度は改善され、IN、Pavia、KSCデータセットではメインストリームのハイパースペクトル画像分類法よりも優れた性能が得られた。

Deep neural networks face many problems in the field of hyperspectral image classification, lack of effective utilization of spatial spectral information, gradient disappearance and overfitting as the model depth increases. In order to accelerate the deployment of the model on edge devices with strict latency requirements and limited computing power, we introduce a lightweight model based on the improved 3D-Densenet model and designs DGCNet. It improves the disadvantage of group convolution. Referring to the idea of dynamic network, dynamic group convolution(DGC) is designed on 3d convolution kernel. DGC introduces small feature selectors for each grouping to dynamically decide which part of the input channel to connect based on the activations of all input channels. Multiple groups can capture different and complementary visual and semantic features of input images, allowing convolution neural network(CNN) to learn rich features. 3D convolution extracts high-dimensional and redundant hyperspectral data, and there is also a lot of redundant information between convolution kernels. DGC module allows 3D-Densenet to select channel information with richer semantic features and discard inactive regions. The 3D-CNN passing through the DGC module can be regarded as a pruned network. DGC not only allows 3D-CNN to complete sufficient feature extraction, but also takes into account the requirements of speed and calculation amount. The inference speed and accuracy have been improved, with outstanding performance on the IN, Pavia and KSC datasets, ahead of the mainstream hyperspectral image classification methods.
翻訳日:2023-07-14 15:19:14 公開日:2023-07-13
# 変圧器を用いた可変長体積データのエンドツーエンド分類

Transformer-based end-to-end classification of variable-length volumetric data ( http://arxiv.org/abs/2307.06666v1 )

ライセンス: Link先を確認
Marzieh Oghbaie, Teresa Araujo, Taha Emre, Ursula Schmidt-Erfurth, Hrvoje Bogunovic(参考訳) 3D医療データの自動分類はメモリ集約的である。 また、サンプル間のスライス数の変化も一般的である。 サブサンプリングのようなナイーブなソリューションはこれらの問題を解決することができるが、関連する診断情報を排除するコストがかかる。 トランスフォーマーはシーケンシャルなデータ分析に有望な性能を示した。 しかし、長いシーケンスに対するそれらの応用は、データ、計算、およびメモリ要求である。 本稿では,可変長のボリュームデータを効率的に分類できるエンドツーエンドトランスフォーマーベースのフレームワークを提案する。 特に,トレーニング中の入力スライス分解能をランダム化することにより,ボリュームスライス毎に割り当てられた学習可能な位置埋め込みの能力を高める。 これにより、テスト時に高解像度ボリュームであっても、各位置埋め込みにおける累積位置情報を隣り合うスライスに一般化することができる。 そうすることで、モデルは可変体積長に対してより堅牢になり、異なる計算予算に対処できる。 我々は、網膜CTボリューム分類における提案手法の評価を行い、9クラス診断タスクにおける平均精度を21.96%向上させた。 以上の結果から,トレーニング中の入力のスライス度の変化は,各ボリュームあたりのスライス数を一定に設定したトレーニングと比較して,より情報量的な表現をもたらすことがわかった。 私たちのコードは、https://github.com/marziehoghbaie/VLFAT.comで利用可能です。

The automatic classification of 3D medical data is memory-intensive. Also, variations in the number of slices between samples is common. Naive solutions such as subsampling can solve these problems, but at the cost of potentially eliminating relevant diagnosis information. Transformers have shown promising performance for sequential data analysis. However, their application for long-sequences is data, computationally, and memory demanding. In this paper, we propose an end-to-end Transformer-based framework that allows to classify volumetric data of variable length in an efficient fashion. Particularly, by randomizing the input slice-wise resolution during training, we enhance the capacity of the learnable positional embedding assigned to each volume slice. Consequently, the accumulated positional information in each positional embedding can be generalized to the neighbouring slices, even for high resolution volumes at the test time. By doing so, the model will be more robust to variable volume length and amenable to different computational budgets. We evaluated the proposed approach in retinal OCT volume classification and achieved 21.96% average improvement in balanced accuracy on a 9-class diagnostic task, compared to state-of-the-art video transformers. Our findings show that varying the slice-wise resolution of the input during training results in more informative volume representation as compared to training with fixed number of slices per volume. Our code is available at: https://github.com/marziehoghbaie/VLFAT.
翻訳日:2023-07-14 15:18:46 公開日:2023-07-13
# コンピュータビジョンシステムのためのブロックチェーンアプリケーションの概要分析

A Comprehensive Analysis of Blockchain Applications for Securing Computer Vision Systems ( http://arxiv.org/abs/2307.06659v1 )

ライセンス: Link先を確認
Ramalingam M, Chemmalar Selvi, Nancy Victor, Rajeswari Chengoden, Sweta Bhattacharya, Praveen Kumar Reddy Maddikunta, Duehee Lee, Md. Jalil Piran, Neelu Khare, Gokul Yendri, Thippa Reddy Gadekallu(参考訳) ブロックチェーン(BC)とコンピュータビジョン(CV)は、さまざまな分野を変革する可能性を秘めている2つの新興分野である。BCの能力は、分散化されたセキュアなデータストレージを提供するのに役立ち、CVはマシンが視覚データを学習し理解することを可能にする。 この2つの技術の統合は、サプライチェーン管理、ヘルスケア、スマートシティ、防衛など、さまざまな分野の課題に対するソリューションを提供する革新的なアプリケーションを開発するための、大きな約束を持っています。 本総説では, BC と CV の統合を包括的に分析し,それらの組み合わせと潜在的な応用について検討する。 また、両方の技術の基本概念を詳細に分析し、その強みと限界を強調している。 本稿は,この組み合わせの利点を生かした最近の研究成果についても考察する。 この取り組みには、CVシステムのセキュリティ追加レイヤとしてBCがどのように使用できるか、データの完全性を保証すること、BCを使用した分散イメージとビデオ分析を可能にすることが含まれる。 この統合に関わる課題やオープンな課題も特定され、適切な今後の方向性も提案されている。

Blockchain (BC) and Computer Vision (CV) are the two emerging fields with the potential to transform various sectors.The ability of BC can help in offering decentralized and secure data storage, while CV allows machines to learn and understand visual data. This integration of the two technologies holds massive promise for developing innovative applications that can provide solutions to the challenges in various sectors such as supply chain management, healthcare, smart cities, and defense. This review explores a comprehensive analysis of the integration of BC and CV by examining their combination and potential applications. It also provides a detailed analysis of the fundamental concepts of both technologies, highlighting their strengths and limitations. This paper also explores current research efforts that make use of the benefits offered by this combination. The effort includes how BC can be used as an added layer of security in CV systems and also ensure data integrity, enabling decentralized image and video analytics using BC. The challenges and open issues associated with this integration are also identified, and appropriate potential future directions are also proposed.
翻訳日:2023-07-14 15:18:24 公開日:2023-07-13
# DeepIPCv2:LiDARによる自動運転車のロバスト環境認識とナビゲーション制御

DeepIPCv2: LiDAR-powered Robust Environmental Perception and Navigational Control for Autonomous Vehicle ( http://arxiv.org/abs/2307.06647v1 )

ライセンス: Link先を確認
Oskar Natan, Jun Miura(参考訳) 本研究では,lidarセンサを用いて環境を認識可能な運転モデルであるdeepipcv2を提案する。 DeepIPCv2はその主知覚入力のためにLiDAR点雲の集合を取る。 点雲は照明の変化に影響されないため、どのような状態であっても周囲をはっきりと観察することができる。 これにより、ナビゲーション制御を適切に推定するコントローラモジュールをサポートするために、知覚モジュールによって提供されるシーン理解と安定した機能が改善される。 その性能を評価するために,運転記録のセットを予測し,3つの異なる条件下で実際の自動運転を行うことで,複数のテストを行った。 また,最近のモデルを用いてアブレーションと比較研究を行い,その性能を正当化する。 実験結果に基づき、deepipcv2は全ての条件において最高の乾燥性を達成し、堅牢な性能を示す。 コードはhttps://github.com/oskarnatan/deepipcv2で入手できる。

We present DeepIPCv2, an autonomous driving model that perceives the environment using a LiDAR sensor for more robust drivability, especially when driving under poor illumination conditions. DeepIPCv2 takes a set of LiDAR point clouds for its main perception input. As point clouds are not affected by illumination changes, they can provide a clear observation of the surroundings no matter what the condition is. This results in a better scene understanding and stable features provided by the perception module to support the controller module in estimating navigational control properly. To evaluate its performance, we conduct several tests by deploying the model to predict a set of driving records and perform real automated driving under three different conditions. We also conduct ablation and comparative studies with some recent models to justify its performance. Based on the experimental results, DeepIPCv2 shows a robust performance by achieving the best drivability in all conditions. Codes are available at https://github.com/oskarnatan/DeepIPCv2
翻訳日:2023-07-14 15:18:03 公開日:2023-07-13
# 実モバイルネットワークにおけるVoIPトラフィックの多変量時系列解析と予測

Multivariate Time Series characterization and forecasting of VoIP traffic in real mobile networks ( http://arxiv.org/abs/2307.06645v1 )

ライセンス: Link先を確認
Mario Di Mauro, Giovanni Galatro, Fabio Postiglione, Wei Song, Antonio Liotta(参考訳) モビリティシナリオにおけるリアルタイムトラフィック(例えばvoip)の振る舞いの予測は、オペレータがネットワークインフラストラクチャをより良く計画し、リソースの割り当てを最適化するのに役立ちます。 そこで本研究では,実際のモバイル環境におけるVoIPトラフィックの重要なQoS/QoE記述子(一部は技術文献で無視されている)の予測分析を提案する。 この問題は多変量時系列解析の観点で定式化される。 このような形式化により、様々な記述者間の時間的関係を発見し、モデル化し、将来の行動を予測することができる。 Vector Autoregressive Modelや機械学習(ディープベースおよびツリーベース)アプローチといったテクニックが採用され、多変量時系列問題を教師付き学習モデルに再検討することで、パフォーマンスと時間の複雑さの観点から比較される。 さらに、時系列の分析構造を発見し、それらの関係に関する深い洞察を提供するために、一連の補助解析(定常性、直交インパルス応答など)を行う。 この理論解析は、実際のLTE-Advanced環境における一連の試行を経て、約60万の音声パケットを収集、処理、分析し、フロー毎に整理し、コーデックごとに区別し、実験的なものである。

Predicting the behavior of real-time traffic (e.g., VoIP) in mobility scenarios could help the operators to better plan their network infrastructures and to optimize the allocation of resources. Accordingly, in this work the authors propose a forecasting analysis of crucial QoS/QoE descriptors (some of which neglected in the technical literature) of VoIP traffic in a real mobile environment. The problem is formulated in terms of a multivariate time series analysis. Such a formalization allows to discover and model the temporal relationships among various descriptors and to forecast their behaviors for future periods. Techniques such as Vector Autoregressive models and machine learning (deep-based and tree-based) approaches are employed and compared in terms of performance and time complexity, by reframing the multivariate time series problem into a supervised learning one. Moreover, a series of auxiliary analyses (stationarity, orthogonal impulse responses, etc.) are performed to discover the analytical structure of the time series and to provide deep insights about their relationships. The whole theoretical analysis has an experimental counterpart since a set of trials across a real-world LTE-Advanced environment has been performed to collect, post-process and analyze about 600,000 voice packets, organized per flow and differentiated per codec.
翻訳日:2023-07-14 15:17:46 公開日:2023-07-13
# Fat-Shattering Dimensionによる一様収束境界の改良

An Improved Uniform Convergence Bound with Fat-Shattering Dimension ( http://arxiv.org/abs/2307.06644v1 )

ライセンス: Link先を確認
Roberto Colomboni, Emmanuel Esposito, Andrea Paudice(参考訳) 脂肪散乱次元は実数値関数の均一収束特性を特徴づける。 最先端の上界は、サンプルの複雑さに乗法的二乗対数係数を持ち、既存の下界との開ギャップを残している。 このギャップを埋める改良された一様収束境界を提供する。

The fat-shattering dimension characterizes the uniform convergence property of real-valued functions. The state-of-the-art upper bounds feature a multiplicative squared logarithmic factor on the sample complexity, leaving an open gap with the existing lower bound. We provide an improved uniform convergence bound that closes this gap.
翻訳日:2023-07-14 15:17:24 公開日:2023-07-13
# エージェントがわずかなデータを使ってどのように学習するかを発見する

Discovering How Agents Learn Using Few Data ( http://arxiv.org/abs/2307.06640v1 )

ライセンス: Link先を確認
Iosif Sakos, Antonios Varvitsiotis, Georgios Piliouras(参考訳) 分散学習アルゴリズムは,エージェントが経験や過去のインタラクションから自律的に学習できるようにするため,マルチエージェントシステムを設計する上で不可欠なツールである。 本研究では,単一系軌道の短いバーストを用いてエージェント動作を制御する学習ダイナミクスのリアルタイム同定のための理論的およびアルゴリズム的枠組みを提案する。 そこでは,エージェントの振る舞いに関する基本的な仮定や期待を捉える側情報制約を組み込むことで,限られたデータに対する補償を行う。 これらの制約は2乗の和最適化を用いて計算的に強制され、真のエージェントダイナミクスのより優れた近似の階層となる。 実験の結果,1つの軌道の短絡から得られた5つのサンプルのみを用いて,平衡選択やカオスシステムの予測など,様々なベンチマークの真のダイナミクスを正確に再現できることがわかった。 これらの結果から,戦略的マルチエージェントシステムにおいて,効果的な政策と意思決定を支援する可能性が示唆された。

Decentralized learning algorithms are an essential tool for designing multi-agent systems, as they enable agents to autonomously learn from their experience and past interactions. In this work, we propose a theoretical and algorithmic framework for real-time identification of the learning dynamics that govern agent behavior using a short burst of a single system trajectory. Our method identifies agent dynamics through polynomial regression, where we compensate for limited data by incorporating side-information constraints that capture fundamental assumptions or expectations about agent behavior. These constraints are enforced computationally using sum-of-squares optimization, leading to a hierarchy of increasingly better approximations of the true agent dynamics. Extensive experiments demonstrated that our approach, using only 5 samples from a short run of a single trajectory, accurately recovers the true dynamics across various benchmarks, including equilibrium selection and prediction of chaotic systems up to 10 Lyapunov times. These findings suggest that our approach has significant potential to support effective policy and decision-making in strategic multi-agent systems.
翻訳日:2023-07-14 15:17:18 公開日:2023-07-13
# フレームレスグラフ知識蒸留

Frameless Graph Knowledge Distillation ( http://arxiv.org/abs/2307.06631v1 )

ライセンス: Link先を確認
Dai Shi, Zhiqi Shao, Yi Guo, Junbin Gao(参考訳) 知識蒸留(KD)は、複雑な教師モデルから単純な学生モデルへ知識を伝達する大きな可能性を示しており、重度学習タスクを効率よく達成でき、予測精度を過度に損なうことなく得る。 近年,グラフニューラルネットワーク(GNN)などのグラフ表現学習モデルにKD機構を適用して,学生モデルによるモデル推論速度を高速化する試みが数多く行われている。 しかし、既存のKDベースのGNNの多くは、教師モデルからのグラフ知識を考慮せずに、教師モデルのプロセスを模倣するために、学生モデルにおける普遍的な近似子としてMLPを使用している。 本研究では,グラフフレームレットと呼ばれるマルチスケールGNNのKDベースのフレームワークを提供し,グラフフレームレットの分解によって得られるマルチスケールなグラフ知識を適切に活用することにより,学生モデルがホモ親和性グラフとヘテロ親和性グラフの両方を適応できることを示す。 さらに,教師が提供したグラフ知識が,代数と幾何学の両方を通じて学生モデルによって学習・消化されることを示す。 包括的実験により,提案モデルでは,推論の高速化を維持しながら,教師モデルと同一あるいは超越した学習精度が得られることが示された。

Knowledge distillation (KD) has shown great potential for transferring knowledge from a complex teacher model to a simple student model in which the heavy learning task can be accomplished efficiently and without losing too much prediction accuracy. Recently, many attempts have been made by applying the KD mechanism to the graph representation learning models such as graph neural networks (GNNs) to accelerate the model's inference speed via student models. However, many existing KD-based GNNs utilize MLP as a universal approximator in the student model to imitate the teacher model's process without considering the graph knowledge from the teacher model. In this work, we provide a KD-based framework on multi-scaled GNNs, known as graph framelet, and prove that by adequately utilizing the graph knowledge in a multi-scaled manner provided by graph framelet decomposition, the student model is capable of adapting both homophilic and heterophilic graphs and has the potential of alleviating the over-squashing issue with a simple yet effectively graph surgery. Furthermore, we show how the graph knowledge supplied by the teacher is learned and digested by the student model via both algebra and geometry. Comprehensive experiments show that our proposed model can generate learning accuracy identical to or even surpass the teacher model while maintaining the high speed of inference.
翻訳日:2023-07-14 15:17:03 公開日:2023-07-13
# 一般強化学習による画像変換シーケンス検索

Image Transformation Sequence Retrieval with General Reinforcement Learning ( http://arxiv.org/abs/2307.06630v1 )

ライセンス: Link先を確認
Enrique Mas-Candela, Antonio R\'ios-Vila, Jorge Calvo-Zaragoza(参考訳) 本研究では,画像変換シーケンス検索(itsr)タスクについて,それぞれソースとターゲットとして振る舞う2つの画像間の変換シーケンスをモデルが取得する必要があることを示す。 直列の多重性や過程の連続ステップ間の相関性などの課題の特徴を考慮し,深いニューラルネットワークと組み合わされたモンテカルロ木探索(mcts)のような一般モデルに基づく強化学習を用いたitsrの解法を提案する。 本実験は,提案手法を教師あり訓練と比較した,合成領域と実領域のベンチマークを提供する。 その結果、mctsで訓練されたモデルは、最も単純なケースと最も複雑なケースの両方において、教師付きモデルよりも優れています。 我々の研究は、ITSRの性質とその関連する課題について興味深い結論を導いている。

In this work, the novel Image Transformation Sequence Retrieval (ITSR) task is presented, in which a model must retrieve the sequence of transformations between two given images that act as source and target, respectively. Given certain characteristics of the challenge such as the multiplicity of a correct sequence or the correlation between consecutive steps of the process, we propose a solution to ITSR using a general model-based Reinforcement Learning such as Monte Carlo Tree Search (MCTS), which is combined with a deep neural network. Our experiments provide a benchmark in both synthetic and real domains, where the proposed approach is compared with supervised training. The results report that a model trained with MCTS is able to outperform its supervised counterpart in both the simplest and the most complex cases. Our work draws interesting conclusions about the nature of ITSR and its associated challenges.
翻訳日:2023-07-14 15:16:39 公開日:2023-07-13
# S-HR-VQVAE:映像予測のための逐次階層型残差学習ベクトル量子化変分オートエンコーダ

S-HR-VQVAE: Sequential Hierarchical Residual Learning Vector Quantized Variational Autoencoder for Video Prediction ( http://arxiv.org/abs/2307.06701v1 )

ライセンス: Link先を確認
Mohammad Adiban, Kalin Stefanov, Sabato Marco Siniscalchi, Giampiero Salvi(参考訳) 我々は、組み合わせた新しいモデルを作成することによって、映像予測課題に対処する。 (i)最近提案した階層的残差ベクトル量子化変分オートエンコーダ(HR-VQVAE)と (II)新しい時空間PixelCNN(ST-PixelCNN)。 本手法を逐次階層的残差学習ベクトル量子化変分オートエンコーダ (s-hr-vqvae) と呼ぶ。 S-HR-VQVAEは、時空間情報を扱うST-PixelCNNの能力と相似表現による静止画像のモデリングにおける本質的な能力を活用することで、ビデオ予測における主要な課題に対処することができる。 これには、時空間情報の学習、高次元データの処理、ぼやけた予測の対処、物理的特性の暗黙的モデリングが含まれる。 kthヒューマンアクションとmove-mnistタスクに関する広範な実験結果から,モデルサイズがはるかに小さいにもかかわらず,定量的および質的評価において,トップビデオ予測手法と比較した結果が得られた。 最後に、HR-VQVAEとST-PixelCNNパラメータを共同で推定する新しいトレーニング手法を提案することにより、S-HR-VQVAEを向上する。

We address the video prediction task by putting forth a novel model that combines (i) our recently proposed hierarchical residual vector quantized variational autoencoder (HR-VQVAE), and (ii) a novel spatiotemporal PixelCNN (ST-PixelCNN). We refer to this approach as a sequential hierarchical residual learning vector quantized variational autoencoder (S-HR-VQVAE). By leveraging the intrinsic capabilities of HR-VQVAE at modeling still images with a parsimonious representation, combined with the ST-PixelCNN's ability at handling spatiotemporal information, S-HR-VQVAE can better deal with chief challenges in video prediction. These include learning spatiotemporal information, handling high dimensional data, combating blurry prediction, and implicit modeling of physical characteristics. Extensive experimental results on the KTH Human Action and Moving-MNIST tasks demonstrate that our model compares favorably against top video prediction techniques both in quantitative and qualitative evaluations despite a much smaller model size. Finally, we boost S-HR-VQVAE by proposing a novel training method to jointly estimate the HR-VQVAE and ST-PixelCNN parameters.
翻訳日:2023-07-14 15:00:56 公開日:2023-07-13
# Parmesan:教育のための数学的概念抽出

Parmesan: mathematical concept extraction for education ( http://arxiv.org/abs/2307.06699v1 )

ライセンス: Link先を確認
Jacob Collard, Valeria de Paiva, Eswaran Subrahmanian(参考訳) 数学は高度に専門化された分野であり、自然言語処理の研究は限られている。 しかし、数学は様々な分野で使われ、多くの異なる分野における多分野の研究は、しばしば数学的概念の理解に依存している。 他分野の研究者を支援するために, カテゴリー理論の分野に着目し, 文脈における数学的概念の探索と定義を行うためのプロトタイプシステムを開発した。 このシステムは、概念抽出、関係抽出、定義抽出、エンティティリンクを含む自然言語処理コンポーネントに依存している。 本システムの開発において,既存の手法はカテゴリ理論の領域に直接適用できないことを示し,時間とともに進化していくことを期待しながら,うまく機能するハイブリッド手法を提案する。 また,それぞれの論文とウィキページをベースとしたプロトタイプシステムを利用した2つのクリーンな数学的コーパスも提供する。 コーパスには依存性ツリー、レムマ、音声タグが注釈付けされている。

Mathematics is a highly specialized domain with its own unique set of challenges that has seen limited study in natural language processing. However, mathematics is used in a wide variety of fields and multidisciplinary research in many different domains often relies on an understanding of mathematical concepts. To aid researchers coming from other fields, we develop a prototype system for searching for and defining mathematical concepts in context, focusing on the field of category theory. This system, Parmesan, depends on natural language processing components including concept extraction, relation extraction, definition extraction, and entity linking. In developing this system, we show that existing techniques cannot be applied directly to the category theory domain, and suggest hybrid techniques that do perform well, though we expect the system to evolve over time. We also provide two cleaned mathematical corpora that power the prototype system, which are based on journal articles and wiki pages, respectively. The corpora have been annotated with dependency trees, lemmas, and part-of-speech tags.
翻訳日:2023-07-14 15:00:36 公開日:2023-07-13
# IntelliGraphs:知識グラフ生成のベンチマークのためのデータセット

IntelliGraphs: Datasets for Benchmarking Knowledge Graph Generation ( http://arxiv.org/abs/2307.06698v1 )

ライセンス: Link先を確認
Thiviyan Thanapalasingam, Emile van Krieken, Peter Bloem, Paul Groth(参考訳) 知識グラフ埋め込み(KGE)モデルは、エンティティとリレーションの連続的な表現を学ぶために使用される。 文献における重要な課題は、エンティティ間のリンク不足を予測することである。 しかし、知識グラフはリンクの集合だけでなく、その構造の基礎となる意味論も持っている。 セマンティックスは、クエリ応答や推論など、いくつかの下流タスクにおいて重要である。 本稿では,モデルが確率的かつ意味的に有効な部分グラフを生成するための部分グラフ推論タスクを提案する。 我々は5つの新しい知識グラフデータセットセットであるIntelliGraphsを提案する。 IntelliGraphsデータセットには、サブグラフ推論を評価するための論理ルールで表現されたセマンティックスを含むサブグラフが含まれている。 また,合成データセットを生成するデータセット生成装置を提案する。 従来のkgsに基づく3つのモデルを含む4つの新しいベースラインモデルを設計した。 我々は,それらの表現性を評価し,これらのモデルが意味を捉えられないことを示す。 このベンチマークは、セマンティック理解を強調する機械学習モデルの開発を促進するだろうと考えています。

Knowledge Graph Embedding (KGE) models are used to learn continuous representations of entities and relations. A key task in the literature is predicting missing links between entities. However, Knowledge Graphs are not just sets of links but also have semantics underlying their structure. Semantics is crucial in several downstream tasks, such as query answering or reasoning. We introduce the subgraph inference task, where a model has to generate likely and semantically valid subgraphs. We propose IntelliGraphs, a set of five new Knowledge Graph datasets. The IntelliGraphs datasets contain subgraphs with semantics expressed in logical rules for evaluating subgraph inference. We also present the dataset generator that produced the synthetic datasets. We designed four novel baseline models, which include three models based on traditional KGEs. We evaluate their expressiveness and show that these models cannot capture the semantics. We believe this benchmark will encourage the development of machine learning models that emphasize semantic understanding.
翻訳日:2023-07-14 15:00:22 公開日:2023-07-13
# 機械学習を用いた大規模テストベッド上の埋め込みSRAMの経時的解析

Ageing Analysis of Embedded SRAM on a Large-Scale Testbed Using Machine Learning ( http://arxiv.org/abs/2307.06693v1 )

ライセンス: Link先を確認
Leandro Lanzieri, Peter Kietzmann, Goerschwin Fey, Holger Schlarb, Thomas C. Schmidt(参考訳) iot(internet of things, モノのインターネット)のデプロイメントでは、長年、この分野に未到達の大量の組み込みデバイスを運用する上で、老化の検出と障害予測が不可欠である。 本稿では, 汎用テストベッドから154枚の基板を用いて, 天然SRAM摩耗の大規模解析を行った。 各ノードが起動時に簡単に収集できるsram初期化バイアスから始まり、特徴抽出や一般的な機械学習手法の実験に様々なメトリクスを適用して、このノードの動作年齢を予測します。 以上の結果から, 年齢による影響は微妙であるものの, 指標はR^2$スコア0.77, 平均誤差24%, F1スコア0.6以上を6ヶ月の解像度で評価できることがわかった。

Ageing detection and failure prediction are essential in many Internet of Things (IoT) deployments, which operate huge quantities of embedded devices unattended in the field for years. In this paper, we present a large-scale empirical analysis of natural SRAM wear-out using 154 boards from a general-purpose testbed. Starting from SRAM initialization bias, which each node can easily collect at startup, we apply various metrics for feature extraction and experiment with common machine learning methods to predict the age of operation for this node. Our findings indicate that even though ageing impacts are subtle, our indicators can well estimate usage times with an $R^2$ score of 0.77 and a mean error of 24% using regressors, and with an F1 score above 0.6 for classifiers applying a six-months resolution.
翻訳日:2023-07-14 15:00:11 公開日:2023-07-13
# 反ド・ジッター的「大量」基本系とそのミンコフスキー的・ニュートン的極限

Anti-de Sitterian "massive" elementary systems and their Minkowskian and Newtonian limits ( http://arxiv.org/abs/2307.06690v1 )

ライセンス: Link先を確認
Mohammad Enayati, Jean-Pierre Gazeau, Mariano A. del Olmo, Hamed Pejhan(参考訳) 1+3)次元反ド・ジッター時空(ads$_4$)における「質量的」基本系の定義と性質を古典レベルと量子レベルの両方で詳述する。 対称群sp$(4,\mathbb r)$、すなわち、so$_0(2,3)$(sp$(4,\mathbb r) \sim$ so$_0(2,3)\times \mathbb z_2$)の2次元被覆を、ads$_4$時空における相対性・運動性群として完全に活用する。 特に、カルタン古典的領域の1つである群 coset Sp$(4,\mathbb R)$/S(U(1)x SU(2)) は、AdS$_4$時空上のテスト質量粒子の自由運動の集合の位相空間として解釈できる。 Sp$(4,\mathbb R)$群の(射影的)ユニタリ既約表現(UIRs)は、そのような運動の量子バージョンを記述するもので、Sp$(4,\mathbb R)$ UIRsの離散級数に含まれる。 また、古典レベルと量子レベルの両方において、ヌル曲率(Poincar\'{e})と非相対論的(ニュートン-フック)収縮限界についても記述する。 本研究では,ads$_4$の時空に居住する「質量的」初等系と,ads$_4$の曲率から発生する等方性高調波振動子との組み合わせとして,それぞれがニュートン・フーケ初等系と見なされる「質量的」初等系の双対性を明らかにする。 この物質振動双対性は、ダークマターの現在の存在を説明する上で可能な r\^{o}le の観点から、量子状態において(等分定理の妥当性の文脈において)完全に重要である。

We elaborate the definition and properties of ''massive" elementary systems in the (1+3)-dimensional Anti-de Sitter (AdS$_4$) spacetime, on both classical and quantum levels. We fully exploit the symmetry group Sp$(4,\mathbb R)$, that is, the two-fold covering of SO$_0(2,3)$ (Sp$(4,\mathbb R) \sim$ SO$_0(2,3)\times \mathbb Z_2$), recognized as the relativity/kinematical group of motions in AdS$_4$ spacetime. In particular, we discuss that the group coset Sp$(4,\mathbb R)$/S(U(1)x SU(2)), as one of the Cartan classical domains, can be interpreted as a phase space for the set of free motions of a test massive particle on AdS$_4$ spacetime; technically, in order to facilitate the computations, the whole process is carried out in terms of complex quaternions. The (projective) unitary irreducible representations (UIRs) of the Sp$(4,\mathbb R)$ group, describing the quantum version of such motions, are found in the discrete series of the Sp$(4,\mathbb R)$ UIRs. We also describe the null-curvature (Poincar\'{e}) and non-relativistic (Newton-Hooke) contraction limits of such systems, on both classical and quantum levels. On this basis, we unveil the dual nature of ''massive" elementary systems living in AdS$_4$ spacetime, as each being a combination of a Minkowskian-like massive elementary system with an isotropic harmonic oscillator arising from the AdS$_4$ curvature and viewed as a Newton-Hooke elementary system. This matter-vibration duality will take its whole importance in the quantum regime (in the context of the validity of the equipartition theorem) in view of its possible r\^{o}le in the explanation of the current existence of dark matter.
翻訳日:2023-07-14 14:59:56 公開日:2023-07-13
# yolic: エッジデバイス上でのオブジェクトのローカライズと分類の効率的な方法

YOLIC: An Efficient Method for Object Localization and Classification on Edge Devices ( http://arxiv.org/abs/2307.06689v1 )

ライセンス: Link先を確認
Kai Su, Qiangfu Zhao, Yoichi Tomioka, Yong Liu(参考訳) Tiny AIの領域では、エッジデバイス上でオブジェクトのローカライズと分類を行う効率的な方法である"You Only Look at Interested Cells"(YOLIC)を紹介する。 YOLICはセマンティックセグメンテーションとオブジェクト検出の長所をシームレスにブレンドし、優れた計算効率と精度を提供する。 個々のピクセルではなく分類にCells of Interestを採用することで、YOLICは関連する情報をカプセル化し、計算負荷を低減し、粗いオブジェクト形状推論を可能にする。 重要なことに、YoLICは潜在的なオブジェクトの位置、サイズ、形状に関する情報を提供する所定のセル構成に重きを置いているため、バウンディングボックスの回帰は不要である。 シングルラベル分類制限の問題に対処するため,複数ラベル分類アプローチを各セルに適用し,重なり合うオブジェクトや近接するオブジェクトを効果的に認識する。 本稿では,複数のデータセットに対する広範な実験を行い,最新のYOLOアルゴリズムに匹敵する検出性能が,Raspberry Pi 4B CPU上で30fpsを超える速度で達成されていることを示す。 データセット、セルデザイナー、画像アノテーションツール、ソースコードなど、この研究に関連するすべてのリソースは、プロジェクトのwebサイトhttps://kai3316.github.io/yolic.github.ioで公開されている。

In the realm of Tiny AI, we introduce "You Only Look at Interested Cells" (YOLIC), an efficient method for object localization and classification on edge devices. Seamlessly blending the strengths of semantic segmentation and object detection, YOLIC offers superior computational efficiency and precision. By adopting Cells of Interest for classification instead of individual pixels, YOLIC encapsulates relevant information, reduces computational load, and enables rough object shape inference. Importantly, the need for bounding box regression is obviated, as YOLIC capitalizes on the predetermined cell configuration that provides information about potential object location, size, and shape. To tackle the issue of single-label classification limitations, a multi-label classification approach is applied to each cell, effectively recognizing overlapping or closely situated objects. This paper presents extensive experiments on multiple datasets, demonstrating that YOLIC achieves detection performance comparable to the state-of-the-art YOLO algorithms while surpassing in speed, exceeding 30fps on a Raspberry Pi 4B CPU. All resources related to this study, including datasets, cell designer, image annotation tool, and source code, have been made publicly available on our project website at https://kai3316.github.io/yolic.github.io
翻訳日:2023-07-14 14:59:11 公開日:2023-07-13
# Aeolus Ocean -- 深部強化学習と海上物体検出を用いた無人表面車両の自律型COLREG対応航法シミュレーション環境

Aeolus Ocean -- A simulation environment for the autonomous COLREG-compliant navigation of Unmanned Surface Vehicles using Deep Reinforcement Learning and Maritime Object Detection ( http://arxiv.org/abs/2307.06688v1 )

ライセンス: Link先を確認
Andrew Alexander Vekinis, Stavros Perantonis(参考訳) 海上部門における無人水上機(USV)の航行自律化に向けての道のりは、基本的により安全で運用コストの低減だけでなく、海洋調査、探査、監視のための様々なエキサイティングな新機能を提供する。 しかし、そのような目標を達成することは難しい。 USV制御システムは、昼でも夜でも現実的な天候の影響を受けながら、他の船舶と遭遇する際の海上衝突(COLREG)を防止するための国際規制に安全かつ確実に従わなければならない。 多くのシナリオに対処するためには、現実の世界に実装される前に、usvsが直面する現実的な運用条件を再現できる仮想環境を持つことが重要です。 このような「デジタルツイン」は、深層強化学習(drl)とコンピュータビジョン(cv)アルゴリズムが usv 制御システムの開発と誘導に使用できる基礎を形成する。 本稿では,現実の海洋シミュレーション環境において,cvを基盤とした衝突回避型航法システムの開発について述べる。 このアプローチによって得られた訓練された自律エージェントの性能は、他の船舶との海面および沿岸での遭遇の両方において経路ポイントを設定するためのいくつかの航海で評価された。 トレーニングされたエージェントを備えたシミュレータのバイナリ実行バージョンは、https://github.com/aavek/aeolus-oceanで入手できる。

Heading towards navigational autonomy in unmanned surface vehicles (USVs) in the maritime sector can fundamentally lead towards safer waters as well as reduced operating costs, while also providing a range of exciting new capabilities for oceanic research, exploration and monitoring. However, achieving such a goal is challenging. USV control systems must, safely and reliably, be able to adhere to the international regulations for preventing collisions at sea (COLREGs) in encounters with other vessels as they navigate to a given waypoint while being affected by realistic weather conditions, either during the day or at night. To deal with the multitude of possible scenarios, it is critical to have a virtual environment that is able to replicate the realistic operating conditions USVs will encounter, before they can be implemented in the real world. Such "digital twins" form the foundations upon which Deep Reinforcement Learning (DRL) and Computer Vision (CV) algorithms can be used to develop and guide USV control systems. In this paper we describe the novel development of a COLREG-compliant DRL-based collision avoidant navigational system with CV-based awareness in a realistic ocean simulation environment. The performance of the trained autonomous Agents resulting from this approach is evaluated in several successful navigations to set waypoints in both open sea and coastal encounters with other vessels. A binary executable version of the simulator with trained agents is available at https://github.com/aavek/Aeolus-Ocean
翻訳日:2023-07-14 14:58:45 公開日:2023-07-13
# ユビキタスなセマンティックメタバースへの挑戦,アプローチ,機会

Towards Ubiquitous Semantic Metaverse: Challenges, Approaches, and Opportunities ( http://arxiv.org/abs/2307.06687v1 )

ライセンス: Link先を確認
Kai Li, Billy Lau, Xin Yuan, Wei Ni, Mohsen Guizani, Chau Yuen(参考訳) 近年,拡張現実(AR)と仮想現実(VR)ユーザーのための没入型サイバー仮想体験に革命をもたらすために,ユビキタスセマンティック・メタバースが研究されている。 本研究では,ユビキタス・セマンティック・メタバース(AI),時空間データ表現(STDR),セマンティック・オブ・モノ(SIoT),セマンティック・エンハンスド・デジタル・ツイン(SDT)の4つの基本システムコンポーネントのインテリジェンスと時空間特性に着目した。 遠隔教育,作業とコラボレーション,エンタテイメントと社会化,医療,eコマースマーケティングなど,ユビキタスなセマンティックメタバースの典型的なユースケースと,インテリジェントでパーソナライズされたコンテキスト対応インタラクションを可能にする4つの基本システムコンポーネントの代表的な技術について徹底的に調査した。 さらに、スケーラビリティと相互運用性、プライバシとセキュリティ、パフォーマンス測定と標準化、倫理的考慮と責任あるAIを含む、将来のユビキタスなセマンティックなメタバースを構築する機会を概説する。 これらの課題に対処することは、ユーザとar/vrアプリケーションに没入的な体験を提供する、堅牢でセキュアで倫理的に健全なシステム環境を構築する上で重要である。

In recent years, ubiquitous semantic Metaverse has been studied to revolutionize immersive cyber-virtual experiences for augmented reality (AR) and virtual reality (VR) users, which leverages advanced semantic understanding and representation to enable seamless, context-aware interactions within mixed-reality environments. This survey focuses on the intelligence and spatio-temporal characteristics of four fundamental system components in ubiquitous semantic Metaverse, i.e., artificial intelligence (AI), spatio-temporal data representation (STDR), semantic Internet of Things (SIoT), and semantic-enhanced digital twin (SDT). We thoroughly survey the representative techniques of the four fundamental system components that enable intelligent, personalized, and context-aware interactions with typical use cases of the ubiquitous semantic Metaverse, such as remote education, work and collaboration, entertainment and socialization, healthcare, and e-commerce marketing. Furthermore, we outline the opportunities for constructing the future ubiquitous semantic Metaverse, including scalability and interoperability, privacy and security, performance measurement and standardization, as well as ethical considerations and responsible AI. Addressing those challenges is important for creating a robust, secure, and ethically sound system environment that offers engaging immersive experiences for the users and AR/VR applications.
翻訳日:2023-07-14 14:58:20 公開日:2023-07-13
# 拡散現象としてのAharonov-Bohm効果

Aharonov-Bohm effect as a diffusion phenomenon ( http://arxiv.org/abs/2307.06683v1 )

ライセンス: Link先を確認
Charalampos Antonakos and Andreas F. Terzis(参考訳) 本稿では、ネルソンの量子力学の定式化を用いて、アハロノフ・ボーム効果の流体力学的見解を示す。 我々の目標は、我々の結果を他のシステムと比較し、磁場のない領域で粒子の動きがなぜ影響を受けるのかといった、この効果の背後にある謎をよりよく理解することである。 いくつかの理論では、この効果は粒子に対する磁場の非局所的作用、あるいは磁場上のベクトルポテンシャルの物理的意義によるものであるとしている。 我々の主な目的は、ネルソンの定式化を用いて効果を記述し、その外粒子上の磁場領域(すなわちシリンダー)を取り巻く電流の直接作用によって説明できることを実証することである。 この文脈では、磁場とベクトルポテンシャルは、ネルソンの量子論によって記述された2つの場の相互作用から生じる他の基本的な量を見つけるための道具となる。 最後に,隠れ変数と量子揺らぎの関係と,その現象における役割について考察する。

This paper presents a hydrodynamical view of the Aharonov-Bohm effect, using Nelson's formulation of quantum mechanics. Our aim is to compare our results with other systems and gain a better understanding of the mysteries behind this effect, such as why the motion of a particle is affected in a region where there is no magnetic field. Some theories suggest that this effect is due to the non-local action of the magnetic field on the particle, or even the physical significance of vector potentials over magnetic fields. Our main purpose is to use Nelson's formulation to describe the effect and demonstrate that it can be explained by the direct action of the current surrounding the magnetic field region (i.e. a cylinder) on the particle outside of it. In this context, magnetic fields and vector potentials serve as tools for finding other fundamental quantities that arise from the interaction between two fields: the quantum background fields described by Nelson's quantum theory. Finally, we investigate the relationship between hidden variables and quantum fluctuations and their role in this phenomenon.
翻訳日:2023-07-14 14:57:52 公開日:2023-07-13
# 自律型地震観測のための説明可能な人工知能駆動マスクの設計

Explainable Artificial Intelligence driven mask design for self-supervised seismic denoising ( http://arxiv.org/abs/2307.06682v1 )

ライセンス: Link先を確認
Claire Birnie and Matteo Ravasi(参考訳) 地震データにおけるコヒーレントノイズの存在は誤差や不確実性をもたらし、ノイズをできるだけ早く効率的に抑制することが最重要となる。 自己指導型聴覚認知は、ノイズとクリーンのトレーニングペアを持つ深層学習手順の共通要件を回避する。 しかし、自己教師付きコヒーレントノイズ抑圧法は、ノイズ統計の広範な知識を必要とする。 本稿では,ノイズ発生ネットワークであるブラックボックスの内部に説明可能な人工知能アプローチを導入し,得られた知識を用いて,ノイズ自体の事前知識の必要性を代替する手法を提案する。 これはバイアスフリーネットワークと関連するヤコビ行列による入力と出力の直接線形リンクを利用して実現されており、複数のランダムに選択された入力画素に対するヤコビ行列の寄与の平均化が簡単なことを示し、データに存在するノイズを抑制するために最も効果的なマスクの表示を提供する。 提案手法は,クリーンなトレーニングラベルや事前知識を必要とせず,完全に自動化された復調手順となる。 簡単な時間相関ノイズから,海洋の速度で伝搬する複雑な擬似リグノイズまで,様々な複雑な雑音信号を用いた実例を用いて,提案手法の有効性を検証する。 自動化された性質は、2つのフィールドデータセットへのアプリケーションによってさらに強調される。 自動同定されたブラインドマスクは, 実際の事前処理や取得環境の知識がなければ, ボルブ海洋データセットから収集した共通ショットにおけるトレースワイドノイズと, 陸上地震探査から得られたポストスタック地震画像からの着色ノイズの両方を抑制できることを示した。

The presence of coherent noise in seismic data leads to errors and uncertainties, and as such it is paramount to suppress noise as early and efficiently as possible. Self-supervised denoising circumvents the common requirement of deep learning procedures of having noisy-clean training pairs. However, self-supervised coherent noise suppression methods require extensive knowledge of the noise statistics. We propose the use of explainable artificial intelligence approaches to see inside the black box that is the denoising network and use the gained knowledge to replace the need for any prior knowledge of the noise itself. This is achieved in practice by leveraging bias-free networks and the direct linear link between input and output provided by the associated Jacobian matrix; we show that a simple averaging of the Jacobian contributions over a number of randomly selected input pixels, provides an indication of the most effective mask to suppress noise present in the data. The proposed method therefore becomes a fully automated denoising procedure requiring no clean training labels or prior knowledge. Realistic synthetic examples with noise signals of varying complexities, ranging from simple time-correlated noise to complex pseudo rig noise propagating at the velocity of the ocean, are used to validate the proposed approach. Its automated nature is highlighted further by an application to two field datasets. Without any substantial pre-processing or any knowledge of the acquisition environment, the automatically identified blind-masks are shown to perform well in suppressing both trace-wise noise in common shot gathers from the Volve marine dataset and colored noise in post stack seismic images from a land seismic survey.
翻訳日:2023-07-14 14:57:34 公開日:2023-07-13
# なぜガイドダイアログポリシー学習がうまく機能するのか? 敵対的学習の役割とその代替について

Why Guided Dialog Policy Learning performs well? Understanding the role of adversarial learning and its alternative ( http://arxiv.org/abs/2307.06721v1 )

ライセンス: Link先を確認
Sho Shimoyama, Tetsuro Morimura, Kenshi Abe, Toda Takamichi, Yuta Tomomatsu, Masakazu Sugiyama, Asahi Hentona, Yuuki Azuma, Hirotaka Ninomiya(参考訳) 各ダイアログターンにおける現在の状態に基づいてシステムの動作を決定するダイアログポリシーは、ダイアログの成功に不可欠である。 近年,ダイアログポリシー学習 (DPL) の選択肢として強化学習 (RL) が登場している。 RLベースのDPLでは、報酬に応じてダイアログポリシーが更新される。 ダイアログポリシーを効果的に導くために、状態-アクションベースのような細かな報酬を手作業で構築することは、多くの状態-アクションペアの組み合わせを持つマルチドメインタスク指向ダイアログシナリオにおいて困難である。 収集したデータから報酬を推定する方法の1つは、相手学習(AL)を用いて報酬推定器とダイアログポリシーを同時に訓練することである。 この手法は実験的に優れた性能を示したが、モード崩壊などのAL固有の問題に悩まされている。 本稿ではまず,DPLにおけるALの役割を,ダイアログポリシと報酬推定器の目的関数の詳細な分析を通じて同定する。 次に、これらの分析に基づいて、ALを報酬推定から排除し、その利点を保ちながらDPLを除去する手法を提案する。 本手法はマルチドメインタスク指向対話コーパスであるmultiwozを用いて評価する。

Dialog policies, which determine a system's action based on the current state at each dialog turn, are crucial to the success of the dialog. In recent years, reinforcement learning (RL) has emerged as a promising option for dialog policy learning (DPL). In RL-based DPL, dialog policies are updated according to rewards. The manual construction of fine-grained rewards, such as state-action-based ones, to effectively guide the dialog policy is challenging in multi-domain task-oriented dialog scenarios with numerous state-action pair combinations. One way to estimate rewards from collected data is to train the reward estimator and dialog policy simultaneously using adversarial learning (AL). Although this method has demonstrated superior performance experimentally, it is fraught with the inherent problems of AL, such as mode collapse. This paper first identifies the role of AL in DPL through detailed analyses of the objective functions of dialog policy and reward estimator. Next, based on these analyses, we propose a method that eliminates AL from reward estimation and DPL while retaining its advantages. We evaluate our method using MultiWOZ, a multi-domain task-oriented dialog corpus.
翻訳日:2023-07-14 14:49:06 公開日:2023-07-13
# ベクトル量子可変オートエンコーダを用いたリモートセンシング画像からの弱監視海洋動物検出

Weakly supervised marine animal detection from remote sensing images using vector-quantized variational autoencoder ( http://arxiv.org/abs/2307.06720v1 )

ライセンス: Link先を確認
Minh-Tan Pham, Hugo Gangloff and S\'ebastien Lef\`evre(参考訳) 本研究では, 海洋環境における航空画像からの弱教師付き動物検出のための再構成手法を提案する。 このようなアプローチでは、入力空間上で直接メトリクスを計算する異常検出フレームワークを利用し、特徴埋め込みメソッドと比較して解釈可能性と異常局在性を高める。 コンピュータビジョンデータセットにおける異常検出におけるベクトル量子化変分オートエンコーダの成功を踏まえ,海洋動物検出領域に適用し,ノイズデータを扱う課題に対処した。 本手法を評価するため,航空画像データから海洋動物検出の文脈において既存の方法と比較した。 2つの専用データセットで行った実験は、最近の文献研究よりも提案手法の優れた性能を示した。 この枠組みは, 海洋生態系のモニタリングや, 海洋生物に対する人間活動の影響を緩和するための貴重な知見を提供する。

This paper studies a reconstruction-based approach for weakly-supervised animal detection from aerial images in marine environments. Such an approach leverages an anomaly detection framework that computes metrics directly on the input space, enhancing interpretability and anomaly localization compared to feature embedding methods. Building upon the success of Vector-Quantized Variational Autoencoders in anomaly detection on computer vision datasets, we adapt them to the marine animal detection domain and address the challenge of handling noisy data. To evaluate our approach, we compare it with existing methods in the context of marine animal detection from aerial image data. Experiments conducted on two dedicated datasets demonstrate the superior performance of the proposed method over recent studies in the literature. Our framework offers improved interpretability and localization of anomalies, providing valuable insights for monitoring marine ecosystems and mitigating the impact of human activities on marine animals.
翻訳日:2023-07-14 14:48:46 公開日:2023-07-13
# アーノルドウェブの古典的ドリフトは量子非局在化遷移を誘導する

Classical Drift in the Arnold Web induces Quantum Delocalization Transition ( http://arxiv.org/abs/2307.06717v1 )

ライセンス: Link先を確認
Jan Robert Schmidt, Arnd B\"acker, Roland Ketzmerick(参考訳) 高次元ハミルトニアン系のアーノルドウェブにおける量子力学的局在は、固有古典的ドリフトによって破壊される。 したがって、量子波パケットと固有状態は、以前予想されていたよりも複雑なアーノルドウェブを探索することができる。 このようなドリフトは典型的には、共鳴チャネルが大きなカオス領域や他の共鳴チャネルとの接合方向に広がるときに起こる。 このドリフトが十分に強ければ、動的局在が破壊されることが分かる。 このドリフト誘起非局在化遷移は普遍的であり、単一遷移パラメータによって記述される。 数値検証は4次元位相空間を持つ周期的にキックされたハミルトニアンを用いて行われる。

We demonstrate that quantum dynamical localization in the Arnold web of higher-dimensional Hamiltonian systems is destroyed by an intrinsic classical drift. Thus quantum wave packets and eigenstates may explore more of the intricate Arnold web than previously expected. Such a drift typically occurs, as resonance channels widen towards a large chaotic region or towards a junction with other resonance channels. If this drift is strong enough, we find that dynamical localization is destroyed. We establish that this drift-induced delocalization transition is universal and is described by a single transition parameter. Numerical verification is given using a time-periodically kicked Hamiltonian with a four-dimensional phase space.
翻訳日:2023-07-14 14:48:32 公開日:2023-07-13
# 大規模言語モデルを用いたテキスト分類の事前適応による教師なし校正

Unsupervised Calibration through Prior Adaptation for Text Classification using Large Language Models ( http://arxiv.org/abs/2307.06713v1 )

ライセンス: Link先を確認
Lautaro Estienne(参考訳) 現在、さまざまな自然言語タスクが大規模言語モデル(llm)で処理されている。 これらのモデルは、通常、非常に大量の教師なしのテキストデータで訓練され、微調整、キャリブレーション、コンテキスト内学習などの手法を使用して下流の自然言語タスクを実行するように適合する。 そこで本研究では,ラベル付きサンプルとドメイン内サンプルクエリのみを必要とせず,テキスト分類タスクに事前クラス分布を適用する手法を提案する。 提案されたアプローチでは、llmをブラックボックスとして扱い、モデル後方をタスクに校正するステージを追加する。 提案手法は,適応データを用いずにキャリブレーションを行い,プロンプトと前回のアプローチで異なるトレーニングショット数に対して適応しないモデルよりも優れていた。

A wide variety of natural language tasks are currently being addressed with large-scale language models (LLMs). These models are usually trained with a very large amount of unsupervised text data and adapted to perform a downstream natural language task using methods like fine-tuning, calibration or in-context learning. In this work, we propose an approach to adapt the prior class distribution to perform text classification tasks without the need for labelled samples and only few in-domain sample queries. The proposed approach treats the LLM as a black box, adding a stage where the model posteriors are calibrated to the task. Results show that these methods outperform the un-adapted model for different number of training shots in the prompt and a previous approach were calibration is performed without using any adaptation data.
翻訳日:2023-07-14 14:48:24 公開日:2023-07-13
# 時間的非文脈不等式をもつ2量子量子系の証明

Certification of two-qubit quantum systems with temporal Non-Contextuality inequality ( http://arxiv.org/abs/2307.06710v1 )

ライセンス: Link先を確認
Chellasamy Jebarathinam and Gautam Sharma and Sk Sazim and Remigiusz Augusiak(参考訳) 観測観測統計に基づく量子デバイスの自己検査は、最小限の資源を用いて量子システムを認証する方法である。 refで。 とPhys。 コーシェン・スペクターの文脈性を示す測度統計に基づくスキームである『textbf{A} 101, 032106 (2020)] 』は、サブシステム間の空間的分離を必要とせず、2ビットの絡み合った状態と測定を認証することが示されている。 しかし、このスキームは、コチェン・スペックの文脈性を示すのに不可欠な測定値の互換性条件を仮定している。 本研究では,上記の2量子ビット状態と測定値が,互換性条件を前提とせず,かつサブシステム間の空間的分離を必要とせずに証明できる自己テストプロトコルを提案する。 本プロトコルは,時間的非コンテクスト性不平等の最大値違反につながる逐次相関の観測に基づく。 さらに,本プロトコルは実験誤差やノイズに対して堅牢である。

Self-testing of quantum devices based on observed measurement statistics is a method to certify quantum systems using minimal resources. In Ref. [Phys. Rev. \textbf{A} 101, 032106 (2020)], a scheme based on observing measurement statistics that demonstrate Kochen-Specker contextuality has been shown to certify two-qubit entangled states and measurements without the requirement of spatial separation between the subsystems. However, this scheme assumes a set of compatibility conditions on the measurements which are crucial to demonstrating Kochen-Specker contextuality. In this work, we propose a self-testing protocol to certify the above two-qubit states and measurements without the assumption of the compatibility conditions, and at the same time without requiring the spatial separation between the subsystems. Our protocol is based on the observation of sequential correlations leading to the maximal violation of a temporal noncontextuality inequality. Moreover, our protocol is robust to small experimental errors or noise.
翻訳日:2023-07-14 14:48:10 公開日:2023-07-13
# GRANはGraphRNNより優れている:ノードオーダリング、カーネルとグラフ埋め込みに基づくグラフジェネレータのメトリクス

GRAN is superior to GraphRNN: node orderings, kernel- and graph embeddings-based metrics for graph generators ( http://arxiv.org/abs/2307.06709v1 )

ライセンス: Link先を確認
Ousmane Touat and Julian Stier and Pierre-Edouard Portier and Michael Granitzer(参考訳) グラフの多種多様な生成モデルが提案されている。 薬物の発見、道路網、ニューラルネットワークの探索、プログラム合成に使われている。 グラフの生成には、同型表現のような理論的課題がある -- 生成モデルの性能を評価することは困難である。 アプリケーション・ドメインによってどのモデルを選ぶか? グラフ不変量およびグラフ埋め込み空間における多様体およびカーネルベースメトリクスの分布に関するカーネルベースのメトリクスを幅広く研究する。 Manifoldベースのメトリクスは、埋め込みスペースにおけるカーネルベースのメトリクスよりも優れています。 グラフの2つのよく知られた生成モデルであるGraphRNNとGRANを比較し,ノード順序の影響を明らかにする。 GraphRNNよりもGRANの方が優れていることを示し、さらに、奥行き優先探索順序付けによるグラフRNNの適応が小型グラフに有効であることを示す。 データセットの選択とノードの機能初期化に関する優れたプラクティスに関するガイドラインが提供されている。 私たちの作業には、オープンソースコードと再現可能な実験が伴います。

A wide variety of generative models for graphs have been proposed. They are used in drug discovery, road networks, neural architecture search, and program synthesis. Generating graphs has theoretical challenges, such as isomorphic representations -- evaluating how well a generative model performs is difficult. Which model to choose depending on the application domain? We extensively study kernel-based metrics on distributions of graph invariants and manifold-based and kernel-based metrics in graph embedding space. Manifold-based metrics outperform kernel-based metrics in embedding space. We use these metrics to compare GraphRNN and GRAN, two well-known generative models for graphs, and unveil the influence of node orderings. It shows the superiority of GRAN over GraphRNN - further, our proposed adaptation of GraphRNN with a depth-first search ordering is effective for small-sized graphs. A guideline on good practices regarding dataset selection and node feature initialization is provided. Our work is accompanied by open-source code and reproducible experiments.
翻訳日:2023-07-14 14:47:52 公開日:2023-07-13
# 共有するかどうか: 差別化されたNLPシステムに機密データを渡すことを受け入れるリスクは?

To share or not to share: What risks would laypeople accept to give sensitive data to differentially-private NLP systems? ( http://arxiv.org/abs/2307.06708v1 )

ライセンス: Link先を確認
Christopher Weiss, Frauke Kreuter, Ivan Habernal(参考訳) NLPコミュニティは、プライバシ保護モデルトレーニングやデータ共有のゴーツーフレームワークとして、中央微分プライバシーを採用してきたが、主要なパラメータの選択と解釈は、プライバシ保護の強みを支配するプライバシー予算$\varepsilon$である。 我々は、$\varepsilon$の値を決定することは、研究者やシステム開発者の手にあるだけでなく、潜在的に機密性の高いデータを共有する実際の人々も考慮しなければなりません。 言い換えれば、あなたのインスタントメッセージを$\varepsilon$10で共有していただけますか? プライバシを脅かす状況に関して不確定な意思決定状況にある人々の行動を研究するために,行動実験(311名)を設計,実施,実施し,実施することで,この研究のギャップに対処する。 2つの現実的なnlpシナリオの観点でリスク認識をフレーミングし、vignetteの行動研究を使うことで、どのような$\varepsilon$しきい値が、平民が機密性の高いテキストデータを共有する意思を持つようになるかを決定することができます。

Although the NLP community has adopted central differential privacy as a go-to framework for privacy-preserving model training or data sharing, the choice and interpretation of the key parameter, privacy budget $\varepsilon$ that governs the strength of privacy protection, remains largely arbitrary. We argue that determining the $\varepsilon$ value should not be solely in the hands of researchers or system developers, but must also take into account the actual people who share their potentially sensitive data. In other words: Would you share your instant messages for $\varepsilon$ of 10? We address this research gap by designing, implementing, and conducting a behavioral experiment (311 lay participants) to study the behavior of people in uncertain decision-making situations with respect to privacy-threatening situations. Framing the risk perception in terms of two realistic NLP scenarios and using a vignette behavioral study help us determine what $\varepsilon$ thresholds would lead lay people to be willing to share sensitive textual data - to our knowledge, the first study of its kind.
翻訳日:2023-07-14 14:47:38 公開日:2023-07-13
# 人工原子の結合に及ぼす初期条件と外部条件の影響の数値解析

Numerical analysis of the influence of initial and external conditions on the association of artificial atoms ( http://arxiv.org/abs/2307.06707v1 )

ライセンス: Link先を確認
Chen Ran, Yuri Ozhigov(参考訳) 化学動力学シーンはコンピュータシミュレーションの最も重要な応用である。 我々は、電子が温度(フォノン)と光子現象の影響下で、異なる深さのポテンシャル孔(新しい分子軌道、異なるエネルギーを持つハイブリッド原子軌道)の間を飛び回ることを示した。 指数関数的に増加する計算複雑性を克服する。 この記事では、状態空間選択のアルゴリズムを実験した。

The chemical dynamics scene is the most important application of computer simulation. We show that electrons jump between potential holes of different depths (new molecular orbits, hybrid atomic orbits with different energies) under the influence of temperature (phonons) and photon phenomena. To overcome exponentially increasing computational complexity. In our article we experimented with algorithms of state space selection.
翻訳日:2023-07-14 14:47:13 公開日:2023-07-13
# オープンドメイン対話における回答選択のためのインテント校正自己学習

Intent-calibrated Self-training for Answer Selection in Open-domain Dialogues ( http://arxiv.org/abs/2307.06703v1 )

ライセンス: Link先を確認
Wentao Deng, Jiahuan Pei, Zhaochun Ren, Zhumin Chen, Pengjie Ren(参考訳) オープンドメイン対話における回答選択は、候補から正確な回答を選択することを目的としている。 最近の回答選択モデルの成功は、大量のラベル付きデータのトレーニングにかかっている。 しかし、大規模なラベル付きデータの収集は労働集約的で時間を要する。 本稿では,自己学習パラダイムで回答ラベルを校正するために,予測意図ラベルを導入する。 具体的には, 意図的自己学習(icast)により, 意図的回答選択パラダイムを通じ, 疑似回答ラベルの品質を向上し, 疑似回答ラベルを改善するための意図的自己学習(icast)を提案する。 オープンドメイン対話を用いた2つのベンチマークデータセットについて広範な実験を行った。 実験の結果, ICASTは1%, 5%, 10%のラベル付きデータで一貫した性能を示した。 具体的には、2つのデータセットのf1スコアの2.06%と1.00%を改善し、5%のラベル付きデータを持つ最も強いベースラインと比較する。

Answer selection in open-domain dialogues aims to select an accurate answer from candidates. Recent success of answer selection models hinges on training with large amounts of labeled data. However, collecting large-scale labeled data is labor-intensive and time-consuming. In this paper, we introduce the predicted intent labels to calibrate answer labels in a self-training paradigm. Specifically, we propose the intent-calibrated self-training (ICAST) to improve the quality of pseudo answer labels through the intent-calibrated answer selection paradigm, in which we employ pseudo intent labels to help improve pseudo answer labels. We carry out extensive experiments on two benchmark datasets with open-domain dialogues. The experimental results show that ICAST outperforms baselines consistently with 1%, 5% and 10% labeled data. Specifically, it improves 2.06% and 1.00% of F1 score on the two datasets, compared with the strongest baseline with only 5% labeled data.
翻訳日:2023-07-14 14:47:06 公開日:2023-07-13
# ヒルベルト空間上の局所化保護量子秩序の解剖

Anatomy of localisation protected quantum order on Hilbert space ( http://arxiv.org/abs/2307.06702v1 )

ライセンス: Link先を確認
Sthitadhi Roy(参考訳) 乱れた相互作用する量子系の多体局所化位相は、任意に高エネルギー密度の固有状態におけるエキゾチックな局所化を保護できる。 本研究では,固有状態のヒルベルト空間解剖学におけるそのような順序の出現を解析する。 固有状態振幅の非局所的ヒルベルト空間相関の数値化により、ヒルベルト空間グラフ上の固有状態の広がりは、局所化保護順序を特徴づける順序パラメータに直接関連しており、したがってこれらの相関は、その順序または不足を特徴付ける。 高点固有状態相関はまた、多体局所化相における異なる絡み合い構造を、順序なし相とエルゴード相で特徴づける。 この結果は、ヒルベルト空間グラフ上の創発的相関長スケールのスケーリングの観点から、多体局所化相とエルゴード相の間の遷移を特徴付ける方法である。

Many-body localised phases of disordered, interacting quantum systems allow for exotic localisation protected quantum order in eigenstates at arbitrarily high energy densities. In this work, we analyse the manifestation of such order on the Hilbert-space anatomy of eigenstates. Quantified in terms of non-local Hilbert-spatial correlations of eigenstate amplitudes, we find that the spread of the eigenstates on the Hilbert-space graph is directly related to the order parameters which characterise the localisation protected order, and hence these correlations, in turn, characterise the order or lack thereof. Higher-point eigenstate correlations also characterise the different entanglement structures in the many-body localised phases, with and without order, as well as in the ergodic phase. The results pave the way for characterising the transitions between many-body localised phases and the ergodic phase in terms of scaling of emergent correlation lengthscales on the Hilbert-space graph.
翻訳日:2023-07-14 14:46:51 公開日:2023-07-13
# グラディエントDescentによるガウス混合モデルの学習のためのクレーマー型距離

Cramer Type Distances for Learning Gaussian Mixture Models by Gradient Descent ( http://arxiv.org/abs/2307.06753v1 )

ライセンス: Link先を確認
Ruichong Zhang(参考訳) ガウス混合モデルの学習(GMMとも呼ばれる)は、機械学習において重要な役割を果たす。 表現力と解釈性で知られており、ガウス混合モデルは統計学、コンピュータビジョンから分布強化学習まで幅広い応用がある。 しかし、今日では、これらのモデルに適合あるいは学習できる既知のアルゴリズムはほとんどなく、その中には期待最大化アルゴリズムやスライスされたwaserstein距離が含まれる。 さらに少ないアルゴリズムは、ニューラルネットワークの一般的な学習プロセスである勾配降下と互換性がある。 本稿では,一変量,一次元の場合の2つのGMMの閉公式を導出し,一般多変量GMMを学習するためのスライスクラム'er 2-距離関数を提案する。 我々のアプローチは多くの従来の方法よりもいくつかの利点がある。 まず、univariateケース用のクローズドフォーム式を持ち、一般的な機械学習ライブラリ(pytorchやtensorflowなど)を使用して計算および実装が容易である。 第2に、勾配降下と互換性があり、GMMとニューラルネットワークをシームレスに統合することができる。 第3に、GMMは、データポイントのセットだけでなく、ターゲットモデルからサンプリングすることなく、他のGMMに直接適合させることができる。 そして第4に、大域的な勾配境界性や偏りのないサンプリング勾配といった理論的な保証がある。 これらの機能は、分散強化学習とDeep Q Networksで特に有用であり、そこでは、将来の報酬に対する分散学習が目的である。 また,ガウス混合分布深度Qネットワークを玩具例として構築し,その有効性を実証する。 従来のモデルと比較して、このモデルは分布を表す点でパラメータ効率が良く、より良い解釈性を持っている。

The learning of Gaussian Mixture Models (also referred to simply as GMMs) plays an important role in machine learning. Known for their expressiveness and interpretability, Gaussian mixture models have a wide range of applications, from statistics, computer vision to distributional reinforcement learning. However, as of today, few known algorithms can fit or learn these models, some of which include Expectation-Maximization algorithms and Sliced Wasserstein Distance. Even fewer algorithms are compatible with gradient descent, the common learning process for neural networks. In this paper, we derive a closed formula of two GMMs in the univariate, one-dimensional case, then propose a distance function called Sliced Cram\'er 2-distance for learning general multivariate GMMs. Our approach has several advantages over many previous methods. First, it has a closed-form expression for the univariate case and is easy to compute and implement using common machine learning libraries (e.g., PyTorch and TensorFlow). Second, it is compatible with gradient descent, which enables us to integrate GMMs with neural networks seamlessly. Third, it can fit a GMM not only to a set of data points, but also to another GMM directly, without sampling from the target model. And fourth, it has some theoretical guarantees like global gradient boundedness and unbiased sampling gradient. These features are especially useful for distributional reinforcement learning and Deep Q Networks, where the goal is to learn a distribution over future rewards. We will also construct a Gaussian Mixture Distributional Deep Q Network as a toy example to demonstrate its effectiveness. Compared with previous models, this model is parameter efficient in terms of representing a distribution and possesses better interpretability.
翻訳日:2023-07-14 14:42:08 公開日:2023-07-13
# Pose:Poseベースのトリプルト選択による歩行認識による教師なしドメイン適応

Watch Your Pose: Unsupervised Domain Adaption with Pose based Triplet Selection for Gait Recognition ( http://arxiv.org/abs/2307.06751v1 )

ライセンス: Link先を確認
Gavriel Habib, Noa Barzilay, Or Shimshi, Rami Ben-Ari, Nir Darshan(参考訳) 歩行認識は、歩行パターンによって人々を識別することを目的としたコンピュータビジョンタスクである。 既存のメソッドは個々のデータセットで印象的な結果を示すが、未認識のシナリオに一般化する能力がない。 unsupervised domain adaptation(uda)は、ソースドメイン上で教師付きで事前学習されたモデルを、ラベルなしのターゲットドメインに適応させようとする。 UDA for Gait Recognitionはまだ初期段階であり、限られたシナリオに対する既存のソリューションの提案がなされている。 本稿では,対象領域が識別特徴よりもポーズに基づく特徴に偏り,識別課題の大幅な性能低下を生じさせる,歩行認識モデルの適応における基本的な現象を明らかにする。 我々は、このバイアスを減らすために、教師なしドメイン適応(GOUDA)のゲイトオリエンテーションに基づく手法を提案する。 そこで本研究では,類似するポーズのサンプルを押下し,異なるポーズのサンプルを近づけることで,埋め込み空間を適応させることを目的として,カリキュラム学習フレームワークを用いた新しい三重項選択アルゴリズムを提案する。 CASIA-B, OU-MVLP, GREW, Gait3D, およびGaitSet, GaitPart, GaitGLの4つの広く利用されている歩行データセットについて, 先行研究よりも提案手法の方が優れていることを示す。

Gait Recognition is a computer vision task aiming to identify people by their walking patterns. Existing methods show impressive results on individual datasets but lack the ability to generalize to unseen scenarios. Unsupervised Domain Adaptation (UDA) tries to adapt a model, pre-trained in a supervised manner on a source domain, to an unlabelled target domain. UDA for Gait Recognition is still in its infancy and existing works proposed solutions to limited scenarios. In this paper, we reveal a fundamental phenomenon in adaptation of gait recognition models, in which the target domain is biased to pose-based features rather than identity features, causing a significant performance drop in the identification task. We suggest Gait Orientation-based method for Unsupervised Domain Adaptation (GOUDA) to reduce this bias. To this end, we present a novel Triplet Selection algorithm with a curriculum learning framework, aiming to adapt the embedding space by pushing away samples of similar poses and bringing closer samples of different poses. We provide extensive experiments on four widely-used gait datasets, CASIA-B, OU-MVLP, GREW, and Gait3D, and on three backbones, GaitSet, GaitPart, and GaitGL, showing the superiority of our proposed method over prior works.
翻訳日:2023-07-14 14:41:29 公開日:2023-07-13
# オーストリアにおけるスマートシティとデジタルツイン

Smart Cities and Digital Twins in Lower Austria ( http://arxiv.org/abs/2307.06743v1 )

ライセンス: Link先を確認
Gabriela Viale Pereira, Lukas Daniel Klausner, Lucy Temple, Thomas Delissen, Thomas Lampoltshammer, Torsten Priebe(参考訳) スマートシティソリューションは、大きな社会的な課題を管理するために、デジタル双子のようなテクノロジーのスマートな利用とともに、革新的なガバナンスアプローチを必要とする。 Smart Cities aNd Digital Twins in Lower Austria (SCiNDTiLA) プロジェクトは、いくつかのコントリビューション分野における研究の最先端を拡張し、複雑性理論と計算社会科学の手法の基礎を用いて、デジタルツインベースのスマートシティモデルを開発する。 このプロジェクトは、持続可能なスマートシティの概念化とスマートシティジェネリックモデルの検証のために、新しい学際的プロセスを適用する予定である。 結果は、地域や小都市、農村部やスマートビレッジなどの非都市環境に移行するための枠組み全体を、それぞれの地方統治や倫理的、運用能力の文脈に合った方法で再スケールすることに焦点を当て、スマートシティにおける社会的課題に取り組むための方法論、ガイドライン、政策推奨のロードマップに変換される。

Smart city solutions require innovative governance approaches together with the smart use of technology, such as digital twins, by city managers and policymakers to manage the big societal challenges. The project Smart Cities aNd Digital Twins in Lower Austria (SCiNDTiLA) extends the state of the art of research in several contributing disciplines and uses the foundations of complexity theory and computational social science methods to develop a digital-twin-based smart city model. The project will also apply a novel transdisciplinary process to conceptualise sustainable smart cities and validate the smart city generic model. The outcomes will be translated into a roadmap highlighting methodologies, guidelines and policy recommendations for tackling societal challenges in smart cities with a focus on rescaling the entire framework to be transferred to regions, smaller towns and non-urban environments, such as rural areas and smart villages, in ways that fit the respective local governance, ethical and operational capacity context.
翻訳日:2023-07-14 14:40:51 公開日:2023-07-13
# オンデマンド都市間ライドポーリングサービスの車両分散とルーティング:マルチエージェント階層型強化学習アプローチ

Vehicle Dispatching and Routing of On-Demand Intercity Ride-Pooling Services: A Multi-Agent Hierarchical Reinforcement Learning Approach ( http://arxiv.org/abs/2307.06742v1 )

ライセンス: Link先を確認
Jinhua Si, Fang He, Xi Lin, Xindi Tang(参考訳) 都市群の統合的な発展により、都市間旅行の需要が高まっている。 都市間相乗りサービスは、需要対応の強化を行うことで、伝統的な都市間バスサービスをアップグレードする大きな可能性を秘めている。 それでも、そのオンラインオペレーションは、都市間の車両資源配分とプールドライド車両ルーティングの結合により、固有の複雑さに悩まされている。 これらの課題に対処するために,オンラインフリート管理を容易にするための2段階フレームワークを提案する。 具体的には,異なる都市間線に対して協調的にアイドル車両を割り当てる枠組みの上層レベルに,適応型大規模近隣探索ヒューリスティックを用いて車両の経路を更新可能な,新しいマルチエージェント・封建型強化学習モデルを提案する。 中国におけるXiamenとその周辺都市の現実的なデータセットに基づく数値研究は、提案手法が供給と需要の不均衡を効果的に軽減し、平均的な日次システム利益と注文充足率の両方において大幅な改善を達成していることを示している。

The integrated development of city clusters has given rise to an increasing demand for intercity travel. Intercity ride-pooling service exhibits considerable potential in upgrading traditional intercity bus services by implementing demand-responsive enhancements. Nevertheless, its online operations suffer the inherent complexities due to the coupling of vehicle resource allocation among cities and pooled-ride vehicle routing. To tackle these challenges, this study proposes a two-level framework designed to facilitate online fleet management. Specifically, a novel multi-agent feudal reinforcement learning model is proposed at the upper level of the framework to cooperatively assign idle vehicles to different intercity lines, while the lower level updates the routes of vehicles using an adaptive large neighborhood search heuristic. Numerical studies based on the realistic dataset of Xiamen and its surrounding cities in China show that the proposed framework effectively mitigates the supply and demand imbalances, and achieves significant improvement in both the average daily system profit and order fulfillment ratio.
翻訳日:2023-07-14 14:40:05 公開日:2023-07-13
# 解析可溶多体ローゼンツェナー量子電池

Analytically solvable many-body Rosen-Zener quantum battery ( http://arxiv.org/abs/2307.06741v1 )

ライセンス: Link先を確認
Wei-Xi Guo, Fang-Mei Yang, Fu-Quan Dou(参考訳) 量子電池は、量子力学的原理を満たすエネルギー貯蔵装置である。 量子バッテリシステムの分析解を得る方法とフル充電を達成する方法は、量子バッテリの重要な要素である。 ここでは、原子間相互作用と外部駆動場を含む2レベルシステムでRosen-Zener量子電池について検討する。 保存エネルギー、変化力、エネルギー量子揺らぎ、およびフォン・ノイマンエントロピーの解析解はゲージ変換を用いて導出される。 外部駆動場強度と走査期間が定量的な関係に合致すると,全充電プロセスが達成できることを実証する。 最終貯蔵エネルギーの局所的最大値は、最終エネルギー変動の局所的最小値とフォン・ノイマンエントロピーに対応する。 さらに、原子間相互作用が量子相転移を誘導し、量子電池の最大蓄積エネルギーが量子相転移点付近の最大値に達することを発見した。 この結果は、効率的な量子電池を実現するための洞察に富んだ理論スキームを提供する。

Quantum batteries are energy storage devices that satisfy quantum mechanical principles. How to obtain analytical solutions for quantum battery systems and achieve a full charging is a crucial element of the quantum battery. Here, we investigate the Rosen-Zener quantum battery with $N$ two-level systems, which includes atomic interactions and external driving field. The analytical solutions of the stored energy, changing power, energy quantum fluctuations, and von Neumann entropy are derived by employing the gauge transformation. We demonstrate that full charging process can be achieved when the external driving field strength and scanning period conforms to a quantitative relationship. The local maximum value of the final stored energy corresponds to the local minimum values of the final energy fluctuations and von Neumann entropy. Moreover, we find that the atomic interaction induces the quantum phase transition and the maximum stored energy of the quantum battery reaches the maximum value near the quantum phase transition point. Our result provides an insightful theoretical scheme to realize the efficient quantum battery.
翻訳日:2023-07-14 14:39:34 公開日:2023-07-13
# 合成データを用いた未認識カメラの2次元ポーズ推定の改善

Improving 2D Human Pose Estimation across Unseen Camera Views with Synthetic Data ( http://arxiv.org/abs/2307.06737v1 )

ライセンス: Link先を確認
Miroslav Purkr\'abek, Ji\v{r}\'i Matas(参考訳) 人間のポーズ推定は徹底的に研究されている問題であるが、ほとんどのデータセットは、サイドとフロントビューのシナリオに焦点を当てている。 我々は、極端な視点や姿勢によって生じる課題に取り組む新しいアプローチを提案することで、この制限に対処する。 本稿では,新しい合成データ生成レポゲン法であるレア・ポーズ生成法を紹介し,cocoデータセットの拡張のためにポーズとビューを包括的に制御する。 実画像の新しいデータセットの実験によると、COCOにRePoGenデータを追加することは、トップビューのポーズ推定に対する以前の試みを超越し、ボトムビューデータセットのパフォーマンスが大幅に向上する。 上部データと底面データの両方について広範なアブレーション研究を行い,方法論的選択の寄与を解明し,性能の向上を実証した。 コードとデータセットはプロジェクトのWebサイトで公開されている。

Human Pose Estimation is a thoroughly researched problem; however, most datasets focus on the side and front-view scenarios. We address the limitation by proposing a novel approach that tackles the challenges posed by extreme viewpoints and poses. We introduce a new method for synthetic data generation - RePoGen, RarE POses GENerator - with comprehensive control over pose and view to augment the COCO dataset. Experiments on a new dataset of real images show that adding RePoGen data to the COCO surpasses previous attempts to top-view pose estimation and significantly improves performance on the bottom-view dataset. Through an extensive ablation study on both the top and bottom view data, we elucidate the contributions of methodological choices and demonstrate improved performance. The code and the datasets are available on the project website.
翻訳日:2023-07-14 14:39:16 公開日:2023-07-13
# mpr-net:多スケールパターン再現誘導普遍性時系列予測

MPR-Net:Multi-Scale Pattern Reproduction Guided Universality Time Series Interpretable Forecasting ( http://arxiv.org/abs/2307.06736v1 )

ライセンス: Link先を確認
Tianlong Zhao, Xiang Ma, Xuemei Li, Caiming Zhang(参考訳) 時系列予測は、その幅広い応用と本質的に困難なため、既存の研究から幅広い関心を集めている。 研究課題は、歴史シリーズの効果的なパターンを特定し、将来の予測に適用することにある。 ポイントワイドなMLPとトランスフォーマーアーキテクチャに基づく高度なモデルは、強い適合力を持つが、その二次計算複雑性は実用性を制限する。 さらに、これらの構造は本質的に時間順序を乱し、情報利用を減らし、予測プロセスを解釈不能にする。 そこで本研究では,予測モデルであるMPR-Netを提案する。 まず, 畳み込み操作を用いて複数スケールの履歴系列パターンを適応的に分解し, パターン再生の事前知識に基づいてパターン拡張予測手法を構築し, 最終的にデ畳み込み操作を用いて将来のパターンを未来系列に再構成する。 時系列に存在する時間的依存関係を活用することで、MPR-Netは線形時間複雑性を達成するだけでなく、予測プロセスも解釈できる。 短期および長期の予測タスクの10以上の実際のデータセットで十分な実験を行うことで、mpr-netは、アート予測性能の状態と優れた一般化と堅牢性性能を達成する。

Time series forecasting has received wide interest from existing research due to its broad applications and inherent challenging. The research challenge lies in identifying effective patterns in historical series and applying them to future forecasting. Advanced models based on point-wise connected MLP and Transformer architectures have strong fitting power, but their secondary computational complexity limits practicality. Additionally, those structures inherently disrupt the temporal order, reducing the information utilization and making the forecasting process uninterpretable. To solve these problems, this paper proposes a forecasting model, MPR-Net. It first adaptively decomposes multi-scale historical series patterns using convolution operation, then constructs a pattern extension forecasting method based on the prior knowledge of pattern reproduction, and finally reconstructs future patterns into future series using deconvolution operation. By leveraging the temporal dependencies present in the time series, MPR-Net not only achieves linear time complexity, but also makes the forecasting process interpretable. By carrying out sufficient experiments on more than ten real data sets of both short and long term forecasting tasks, MPR-Net achieves the state of the art forecasting performance, as well as good generalization and robustness performance.
翻訳日:2023-07-14 14:39:01 公開日:2023-07-13
# ネットワークモデルの再パラメータ化によるリカレントニューラルネットワークの固定点学習

Learning fixed points of recurrent neural networks by reparameterizing the network model ( http://arxiv.org/abs/2307.06732v1 )

ライセンス: Link先を確認
Vicky Zhu and Robert Rosenbaum(参考訳) 計算神経科学において、リカレントニューラルネットワークモデルの固定点は、静的またはゆっくりと変化する刺激に対する神経反応をモデル化するために一般的に用いられる。 これらの応用は、不動点で評価される損失関数を最小化するために、再帰的ニューラルネットワークにおける重み付けのトレーニング方法に関する疑問を提起する。 自然なアプローチは、シナプス重みのユークリッド空間上の勾配勾配を利用することである。 この手法は,損失面に生じる特異点に起因して,学習性能の低下につながる可能性があることを示す。 我々は、リカレントネットワークモデルの再パラメータ化を用いて、より堅牢な学習ダイナミクスを生み出す2つの代替学習ルールを導出する。 これらの学習規則を, 回帰重みの空間上の非ユークリッド計量の下で, 最も急な降下と勾配降下と解釈できることを示す。 脳内の学習はシナプス重みの負のユークリッド勾配に従うべきであるという一般的な暗黙の仮定に疑問を呈する。

In computational neuroscience, fixed points of recurrent neural network models are commonly used to model neural responses to static or slowly changing stimuli. These applications raise the question of how to train the weights in a recurrent neural network to minimize a loss function evaluated on fixed points. A natural approach is to use gradient descent on the Euclidean space of synaptic weights. We show that this approach can lead to poor learning performance due, in part, to singularities that arise in the loss surface. We use a re-parameterization of the recurrent network model to derive two alternative learning rules that produces more robust learning dynamics. We show that these learning rules can be interpreted as steepest descent and gradient descent, respectively, under a non-Euclidean metric on the space of recurrent weights. Our results question the common, implicit assumption that learning in the brain should necessarily follow the negative Euclidean gradient of synaptic weights.
翻訳日:2023-07-14 14:38:38 公開日:2023-07-13
# リモートセンシングにおけるマルチモーダル物体検出

Multimodal Object Detection in Remote Sensing ( http://arxiv.org/abs/2307.06724v1 )

ライセンス: Link先を確認
Abdelbadie Belmouhcine, Jean-Christophe Burnel, Luc Courtrai, Minh-Tan Pham and S\'ebastien Lef\`evre(参考訳) リモートセンシングにおける物体検出は、ディープラーニング技術で大きな進歩を遂げた重要なコンピュータビジョンタスクである。 しかし、この分野の既存の作品の多くは汎用オブジェクト検出の利用に焦点を合わせており、マルチモーダルデータ融合の可能性を活用していない。 本稿では,リモートセンシングにおけるマルチモーダルオブジェクト検出手法の比較,評価に適したマルチモーダルデータセットの調査,今後の方向性について述べる。

Object detection in remote sensing is a crucial computer vision task that has seen significant advancements with deep learning techniques. However, most existing works in this area focus on the use of generic object detection and do not leverage the potential of multimodal data fusion. In this paper, we present a comparison of methods for multimodal object detection in remote sensing, survey available multimodal datasets suitable for evaluation, and discuss future directions.
翻訳日:2023-07-14 14:38:19 公開日:2023-07-13
# 多対数ラウンドにおける相関クラスタリングのための分割3因子近似

Breaking 3-Factor Approximation for Correlation Clustering in Polylogarithmic Rounds ( http://arxiv.org/abs/2307.06723v1 )

ライセンス: Link先を確認
Nairen Cao, Shang-En Huang, Hsin-Hao Su(参考訳) 本稿では,相関クラスタリング問題に対する並列アルゴリズムについて検討する。 目標は、エンティティをクラスタに分割し、ラベルとの相違の数を最小化することです。 現在、全ての効率的な並列アルゴリズムは近似比が少なくとも3である。 多項式時間逐次アルゴリズム[CLN22]によって達成された1.994+\epsilon$比と比較して、大きなギャップが存在する。 3 より優れた近似比を実現するための最初の多対数深度並列アルゴリズムを提案する。 具体的には、このアルゴリズムは$(2.4+\epsilon)$-approximate Solutionを計算し、$\tilde{O}(m^{1.5})$ workを使用する。 さらに、$\tilde{O}(m^{1.5})$タイムシーケンシャルアルゴリズムと$\tilde{O}(m^{1.5})$トータルメモリを持つ多対数ラウンドスサブリニアメモリMPCアルゴリズムに変換することができる。 この手法はawerbuch, khandekar, raoの [akr12] long-constrained multi-commodity flow algorithm に触発され,charikar, guruswami, wirth [cgw05] の断続相関クラスタリング線形プログラムを解く効率的な並列アルゴリズムを開発した。 次に,[CMSY15] の枠組みを用いて, トラッピングされた線形プログラムの解を少なくとも2.4の損失率で丸めることができることを示す。 このようなラウンドフレームワークは、並列ピボットベースのアプローチで実装できる。

In this paper, we study parallel algorithms for the correlation clustering problem, where every pair of two different entities is labeled with similar or dissimilar. The goal is to partition the entities into clusters to minimize the number of disagreements with the labels. Currently, all efficient parallel algorithms have an approximation ratio of at least 3. In comparison with the $1.994+\epsilon$ ratio achieved by polynomial-time sequential algorithms [CLN22], a significant gap exists. We propose the first poly-logarithmic depth parallel algorithm that achieves a better approximation ratio than 3. Specifically, our algorithm computes a $(2.4+\epsilon)$-approximate solution and uses $\tilde{O}(m^{1.5})$ work. Additionally, it can be translated into a $\tilde{O}(m^{1.5})$-time sequential algorithm and a poly-logarithmic rounds sublinear-memory MPC algorithm with $\tilde{O}(m^{1.5})$ total memory. Our approach is inspired by Awerbuch, Khandekar, and Rao's [AKR12] length-constrained multi-commodity flow algorithm, where we develop an efficient parallel algorithm to solve a truncated correlation clustering linear program of Charikar, Guruswami, and Wirth [CGW05]. Then we show the solution of the truncated linear program can be rounded with a factor of at most 2.4 loss by using the framework of [CMSY15]. Such a rounding framework can then be implemented using parallel pivot-based approaches.
翻訳日:2023-07-14 14:38:12 公開日:2023-07-13
# オブザーバは構造に還元可能か?

Are observers reducible to structures? ( http://arxiv.org/abs/2307.06783v1 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) 物理系は構造と力学によって特徴づけられる。 しかし、物理法則は関係のみを表現し、それらの対称性により、あらゆる可能な関係構造が状態空間の異なるパラメトリゼーションや基底でも可能となる。 観測者がその構造に適応できるならば、異なるパラメトリゼーションによる観測者のような構造は、物理特性を持つ観測者が異なることを示せる。 彼らは異なる状態にあるのと同じシステムを認識するだろう。 これは、可観測物と物理的性質の間に一意の対応があるのか、あるいはこの対応は、観測を行うオブザーバのような構造が存在するパラメトリゼーションと相対的であるのか? すべてのパラメトリゼーションから得られたオブザーバのような構造がオブザーバであったら、外界の記憶は事実と一致しないでしょう。 私たちの経験から、これは当てはまらないことが分かるので、観察者にはその構造以上のものが必要である。 これは、観測可能な物と物理的性質の対応がユニークであり、観測者には明らかであることを意味する。 この結果は量子物理学と古典物理学の両方に当てはまるので、測定問題とは無関係である。 構造的実在論、心の哲学、量子物理学や古典物理学の基礎、量子ファーストアプローチにも影響している。

Physical systems are characterized by their structure and dynamics. But the physical laws only express relations, and their symmetries allow any possible relational structure to be also possible in a different parametrization or basis of the state space. I show that, if observers are reducible to their structure, observer-like structures from different parametrizations would identify differently the observables with physical properties. They would perceive the same system as being in a different state. This leads to the question: is there a unique correspondence between observables and physical properties, or this correspondence is relative to the parametrization in which the observer-like structure making the observation exists? I show that, if observer-like structures from all parametrizations were observers, their memory of the external world would have no correspondence with the facts, it would be no better than random guess. Since our experience shows that this is not the case, there must be more to the observers than their structure. This implies that the correspondence between observables and physical properties is unique, and it's manifest in the observers. This result applies to both quantum and classical physics, so it is independent of the measurement problem. It has implications for structural realism, philosophy of mind, the foundations of quantum and classical physics, and quantum-first approaches.
翻訳日:2023-07-14 14:30:29 公開日:2023-07-13
# 六方晶窒化ホウ素のホウ素空孔スピン欠陥の同位体制御

Isotopic control of the boron-vacancy spin defect in hexagonal boron nitride ( http://arxiv.org/abs/2307.06774v1 )

ライセンス: Link先を確認
T. Clua-Provost, A. Durand, Z. Mu, T. Rastoin, J. Frauni\'e, E. Janzen, H. Schutte, J. H. Edgar, G. Seine, A. Claverie, X. Marie, C. Robert, B. Gil, G. Cassabois, and V. Jacques(参考訳) 異方性六方晶窒化ホウ素結晶にホストされたホウ素空孔(V$_\text{B}^-$)中心の電子スピン共鳴(ESR)分光について報告する。 我々はまず、$^{15}$N による hBN の同位体浄化が V$_\text{B}^-$ 中心の単純でよく解決された超微細構造をもたらすことを示し、$^{10}$B による精製は、ESR の線幅を狭める。 これらの結果は、量子技術におけるV$_\text{B}^-$スピン欠陥を将来の使用のために最適なホスト材料として、等方的に精製されたh$^{10}$B$^{15}$N結晶を確立する。 これらの知見に基づいて、この機構はV$_\text{B}^-$基底状態の電子核スピン混合に依存しているh$^{10}$B$^{15}$N核の光誘起偏光を実証する。 この研究は、スピンベースの量子センサーと2次元物質プラットフォーム上のシミュレータの将来の発展のための新しい展望を開く。

We report on electron spin resonance (ESR) spectroscopy of boron-vacancy (V$_\text{B}^-$) centers hosted in isotopically-engineered hexagonal boron nitride (hBN) crystals. We first show that isotopic purification of hBN with $^{15}$N yields a simplified and well-resolved hyperfine structure of V$_\text{B}^-$ centers, while purification with $^{10}$B leads to narrower ESR linewidths. These results establish isotopically-purified h$^{10}$B$^{15}$N crystals as the optimal host material for future use of V$_\text{B}^-$ spin defects in quantum technologies. Capitalizing on these findings, we then demonstrate optically-induced polarization of $^{15}$N nuclei in h$^{10}$B$^{15}$N, whose mechanism relies on electron-nuclear spin mixing in the V$_\text{B}^-$ ground state. This work opens up new prospects for future developments of spin-based quantum sensors and simulators on a two-dimensional material platform.
翻訳日:2023-07-14 14:30:05 公開日:2023-07-13
# メタラーニングハイパーネットワークを用いた教師付きディープラーニングmri再構成のマルチ・アンセエンコントラストへの一般化

Generalizing Supervised Deep Learning MRI Reconstruction to Multiple and Unseen Contrasts using Meta-Learning Hypernetworks ( http://arxiv.org/abs/2307.06771v1 )

ライセンス: Link先を確認
Sriprabha Ramanarayanan, Arun Palla, Keerthi Ram, Mohanasankar Sivaprakasam(参考訳) メタラーニングは最近、様々な医療画像操作のための新しいデータ効率のよい学習技術となり、現代のディープラーニングモデルの発展に役立っている。 さらに、メタラーニングは、画像タスクの様々な構成に対する共有重みと識別重みの両方を学習することにより、画像タスクの知識一般化を促進する。 しかし、既存のメタ学習モデルは、マルチモーダルデータに制限のあるニューラルネットワークの1組の重み初期化を学習しようとする。 本研究は,画像再構成のためのマルチモーダルメタラーニングモデルの開発を目標とし,マルチモーダルデータの多様な獲得設定を包含する進化的能力を備えたメタラーニングを増強する。 提案モデルであるkm-maml(kernel modulation-based multimodal meta-learning)は,モード特異的重みを生成するために進化するハイパーネットワークを持つ。 これらの重み付けは、低ランクカーネル変調演算を介して画像再構成のためのベースネットワークの各カーネルを再調整することにより、複数のモードに対してモード固有の帰納バイアスを与える。 我々は、ハイパーネットワークの重みを異なるモードで更新するために、グラデーションベースのメタラーニング(GBML)をコンテキスト空間に組み込んだ。 gbml設定のハイパーネットワークとレコンストラクションネットワークは、それぞれ識別モード特有の特徴と低レベル画像特徴を提供する。 マルチコントラストMRI再構成実験により,我々のモデルが得られた。 (i)関節訓練、他のメタラーニング法、文脈特異的MRI再建法よりも優れた再建成績を示し、 (II)PSNRでは0.5dB,SSIMでは0.01の良好な適応能力を有する。 さらに、U-Netによる表現解析により、カーネル変調は高解像度層におけるモード特異的表現の80%を注入することを示した。 ソースコードはhttps://github.com/sriprabhar/KM-MAML/で公開しています。

Meta-learning has recently been an emerging data-efficient learning technique for various medical imaging operations and has helped advance contemporary deep learning models. Furthermore, meta-learning enhances the knowledge generalization of the imaging tasks by learning both shared and discriminative weights for various configurations of imaging tasks. However, existing meta-learning models attempt to learn a single set of weight initializations of a neural network that might be restrictive for multimodal data. This work aims to develop a multimodal meta-learning model for image reconstruction, which augments meta-learning with evolutionary capabilities to encompass diverse acquisition settings of multimodal data. Our proposed model called KM-MAML (Kernel Modulation-based Multimodal Meta-Learning), has hypernetworks that evolve to generate mode-specific weights. These weights provide the mode-specific inductive bias for multiple modes by re-calibrating each kernel of the base network for image reconstruction via a low-rank kernel modulation operation. We incorporate gradient-based meta-learning (GBML) in the contextual space to update the weights of the hypernetworks for different modes. The hypernetworks and the reconstruction network in the GBML setting provide discriminative mode-specific features and low-level image features, respectively. Experiments on multi-contrast MRI reconstruction show that our model, (i) exhibits superior reconstruction performance over joint training, other meta-learning methods, and context-specific MRI reconstruction methods, and (ii) better adaptation capabilities with improvement margins of 0.5 dB in PSNR and 0.01 in SSIM. Besides, a representation analysis with U-Net shows that kernel modulation infuses 80% of mode-specific representation changes in the high-resolution layers. Our source code is available at https://github.com/sriprabhar/KM-MAML/.
翻訳日:2023-07-14 14:29:45 公開日:2023-07-13
# チューナブル相互作用を利用したほぼハイゼンベルク制限物質波の作成

Creating nearly Heisenberg-limited matter-waves exploiting tunable interactions ( http://arxiv.org/abs/2307.06766v1 )

ライセンス: Link先を確認
Alexander Herbst, Timoth\'e Estrampes, Henning Albers, Vera Vollenkemper, Knut Stolzenberg, Sebastian Bode, Eric Charron, Ernst M. Rasel, Naceur Gaaloul and Dennis Schlippert(参考訳) 物質の波動の性質は、位置と運動量における不確かさが最小のウェーブパックであり、相互作用する粒子の原子数の大きい雲には到達できない。 ここでは,このトラップから放出された近ハイゼンベルク限界膨張速度を実現する超低温原子の高流動源について報告する。 散乱長の値に応じて,トーマス・フェルミ近似に基づくスケーリングアプローチ,あるいはガウス原子密度近似に基づく変動アプローチを用いて,弱い相互作用系と強い相互作用系間の遷移を観測して,我々のシステムをモデル化する。 最後に、重ね合わせ原理や他の原子種への拡張のような量子力学の基礎原理をテストするための手法の応用について論じる。

The wave nature of matter implies wavepackets with minimal combined uncertainty in position and momentum, a limit which can hardly be reached for clouds of large atom numbers of interacting particles. Here, we report on a high-flux source of ultra-cold atoms realizing near-Heisenberg-limited expansion rates upon release from the trap. Depending on the value of the scattering length, we model our system either with a scaling approach based on the Thomas-Fermi approximation, or with a variational approach based on a Gaussian atomic density approximation, observing the transition between the weak and strong interaction regimes. Finally, we discuss applications of our methods to test foundational principles of quantum mechanics such as the superposition principle or their extension to other atomic species.
翻訳日:2023-07-14 14:29:14 公開日:2023-07-13
# 浮遊光力学における方向力のセンシング

Sensing directional forces in levitated optomechanics ( http://arxiv.org/abs/2307.06765v1 )

ライセンス: Link先を確認
J.M.H. Gosling, A. Pontin, J. H. Iacoponi, P.F. Barker and T.S. Monteiro(参考訳) 光学装置は慣性センシングから暗黒物質探索に至るまでの用途に超弱力センサとして利用されており、後者は高エネルギー単一コイルまたは超軽量狭帯域光源の検出に重点を置いており、指向性信号が期待されている。 しかし、指向性広帯域信号を探す可能性は排除される必要はなく、これやその他の応用を念頭に置いて、よく定義された方向の確率的信号である$\psi$ を閉じ込められ冷却されたナノスフィアに適用する。 相関パワースペクトルは、通常のパワースペクトル密度 (psds) とは異なり、方向力の存在とその向きの四角形に対するキャリブレーションフリーな特徴的シグネチャを与える。 キャリブレーションによって、平面内の力コンパスに似た、$\psi$の角度を正確に測定することができます。

Optomechanical devices are being harnessed as sensors of ultraweak forces for applications ranging from inertial sensing to the search for the elusive dark matter; For the latter, the focus is on detection of either higher energy single recoils or ultralight, narrowband sources; a directional signal is expected. However, the possibility of searching for a directional broadband signal need not be excluded; with this and other applications in mind, we apply a stochastic signal with a well defined direction, $\Psi$, to a trapped and cooled levitated nanosphere. We find that cross-correlation power spectra offer a calibration-free distinctive signature of the presence of a directional force, and its orientation quadrant, unlike normal power spectral densities (PSDs). With calibration we are able to accurately measure the angle $\Psi$, akin to a force compass in a plane.
翻訳日:2023-07-14 14:29:02 公開日:2023-07-13
# 量子画像雨量除去:時間領域における2次光子数変動相関

Quantum image rain removal: second-order photon number fluctuation correlations in the time domain ( http://arxiv.org/abs/2307.06762v1 )

ライセンス: Link先を確認
Yuge Li, Yunjie Xia, and Deyang Duan(参考訳) 降雨滴は通常、降雨のストレークだけでなく雨霧も生成し、画像の視覚品質が低下するので、従来の光学イメージングでは純粋に負の要因とみなされる。 しかし,本研究では,降雨による画像劣化を雨滴自体によって排除できることを示す。 降雨雨で生じる光子数変動の時間的2次相関特性は,雨害光子と雨霧光子が安定な2次光子数相関を欠いているのに対して,この安定な相関性は雨滴と相互作用しない光子に対して存在するという顕著な特徴を持つ。 この基本的な違いは、時間領域における2次光子数変動相関を測定することにより、降雨によるノイズを排除できることを示している。 シミュレーションおよび実験結果から,各測定事象の積分時間が短い場合には,この手法の降雨除去効果が深層学習法よりも優れていることが示された。 この高効率な量子雨除去方法は、独立して、あるいはディープラーニングアルゴリズムに統合して、フロントエンド処理およびディープラーニングのための高品質な材料を提供することができる。

Falling raindrops are usually considered purely negative factors for traditional optical imaging because they generate not only rain streaks but also rain fog, resulting in a decrease in the visual quality of images. However, this work demonstrates that the image degradation caused by falling raindrops can be eliminated by the raindrops themselves. The temporal second-order correlation properties of the photon number fluctuation introduced by falling raindrops has a remarkable attribute: the rain streak photons and rain fog photons result in the absence of a stable second-order photon number correlation, while this stable correlation exists for photons that do not interact with raindrops. This fundamental difference indicates that the noise caused by falling raindrops can be eliminated by measuring the second-order photon number fluctuation correlation in the time domain. The simulation and experimental results demonstrate that the rain removal effect of this method is even better than that of deep learning methods when the integration time of each measurement event is short. This high-efficient quantum rain removal method can be used independently or integrated into deep learning algorithms to provide front-end processing and high-quality materials for deep learning.
翻訳日:2023-07-14 14:28:46 公開日:2023-07-13
# 猫キュービットのビットフリップタイムを0.3秒まで延長するオートパラメトリック共鳴

Autoparametric resonance extending the bit-flip time of a cat qubit up to 0.3 s ( http://arxiv.org/abs/2307.06761v1 )

ライセンス: Link先を確認
Antoine Marquet, Antoine Essig, Joachim Cohen, Nathana\"el Cottet, Anil Murani, Emanuele Abertinale, Simon Dupouy, Audrey Bienfait, Th\'eau Peronnin, S\'ebastien Jezouin, Rapha\"el Lescanne, Benjamin Huard(参考訳) 理論的な $|0\rangle$ と $|1\rangle$ がコヒーレントな状態 $|\pm\alpha\rangle$ である猫量子ビットは、量子誤差補正への有望な経路を提供する。 調和モードの光子対を環境の単一光子と交換するために、我々の優位性への消散を利用して、論理状態を安定させ、光子番号 $|\alpha|^2$ で猫量子ビットのビットフリップ時間を指数関数的に増加させることができる。 大きな2光子散逸レート$\kappa_2$は、キャットキュービットの繰り返しコードで残ったフェーズフリップエラーを修正するのに役立つ、高速なキュービット操作と短いエラー訂正サイクルを保証する。 ここでは、猫量子ビットを含むモードを猫モードの2倍の周波数に設定した損失モードに結合する自己パラメトリック超伝導回路を導入・運用する。 このパッシブ結合はパラメトリックポンプを必要とせず、$\kappa_2/2\pi\approx 2~\mathrm{mhz}$となる。 このような強い2光子散逸により、オートパラメトリックキャットキュービットのビットフリップ誤差を0.3sまでの特性時間に防止し、位相フリップ誤差に軽微な影響を与える。 さらに、設計された散逸をアクティブに保ちながら調和モードを駆動することにより、$|\alpha\rangle$ と $|-\alpha\rangle$ の間の量子重ね合わせの位相が任意に変化することを示す。

Cat qubits, for which logical $|0\rangle$ and $|1\rangle$ are coherent states $|\pm\alpha\rangle$ of a harmonic mode, offer a promising route towards quantum error correction. Using dissipation to our advantage so that photon pairs of the harmonic mode are exchanged with single photons of its environment, it is possible to stabilize the logical states and exponentially increase the bit-flip time of the cat qubit with the photon number $|\alpha|^2$. Large two-photon dissipation rate $\kappa_2$ ensures fast qubit manipulation and short error correction cycles, which are instrumental to correct the remaining phase-flip errors in a repetition code of cat qubits. Here we introduce and operate an autoparametric superconducting circuit that couples a mode containing the cat qubit to a lossy mode whose frequency is set at twice that of the cat mode. This passive coupling does not require a parametric pump and reaches a rate $\kappa_2/2\pi\approx 2~\mathrm{MHz}$. With such a strong two-photon dissipation, bit-flip errors of the autoparametric cat qubit are prevented for a characteristic time up to 0.3 s with only a mild impact on phase-flip errors. Besides, we illustrate how the phase of a quantum superposition between $|\alpha\rangle$ and $|-\alpha\rangle$ can be arbitrarily changed by driving the harmonic mode while keeping the engineered dissipation active.
翻訳日:2023-07-14 14:28:22 公開日:2023-07-13
# 医療人口グラフのためのニューラルネットワークにおけるプライバシ-ユーティリティトレードオフ:差分プライバシーとグラフ構造からの考察

Privacy-Utility Trade-offs in Neural Networks for Medical Population Graphs: Insights from Differential Privacy and Graph Structure ( http://arxiv.org/abs/2307.06760v1 )

ライセンス: Link先を確認
Tamara T. Mueller, Maulik Chevli, Ameya Daigavane, Daniel Rueckert, Georgios Kaissis(参考訳) 我々は,実世界および合成データセットの異なるプライバシレベルでのプライバシ利用のトレードオフを調査し,メンバシップ推論攻撃による監査を行うことで,医療領域からの人口グラフ上の差分プライベートグラフニューラルネットワークに関する実証調査を開始する。 本研究は, このDP応用分野の可能性と課題を明らかにするものである。 さらに,基礎となるグラフ構造が,グラフの次数とトレーニングされたモデルの精度との相関を示すことによって,より大きな性能ギャップのポテンシャル因子となることを示す。

We initiate an empirical investigation into differentially private graph neural networks on population graphs from the medical domain by examining privacy-utility trade-offs at different privacy levels on both real-world and synthetic datasets and performing auditing through membership inference attacks. Our findings highlight the potential and the challenges of this specific DP application area. Moreover, we find evidence that the underlying graph structure constitutes a potential factor for larger performance gaps by showing a correlation between the degree of graph homophily and the accuracy of the trained model.
翻訳日:2023-07-14 14:27:49 公開日:2023-07-13
# 動的マルチエージェントシステムのための層状コントローラ合成

Layered controller synthesis for dynamic multi-agent systems ( http://arxiv.org/abs/2307.06758v1 )

ライセンス: Link先を確認
Emily Clement, Nicolas Perrin-Gilbert, Philipp Schlehuber-Caissier(参考訳) 本稿では,複数エージェントの制御問題に対する階層的アプローチについて述べる。 第一に、システムの粗い抽象化のための高レベル計画が計算され、停止時計を付加したパラメトリックタイムドオートマトンに頼り、そのようなシステムの単純化されたダイナミクスを効率的にモデル化することができる。 第2段階では、SMT形式に基づく高レベルプランは、主に問題の組合せ的な側面を扱い、よりダイナミックに正確な解を提供する。 これらの段階をSWA-SMTソルバと呼ぶ。 それらは建設によって正しいが、重要な特徴が欠けている: リアルタイムでは実行できない。 これを解決するため、我々はSWA-SMTソリューションを、ニューラルネットワーク制御ポリシーの取得を目的とした、最終段階のトレーニングデータセットとして使用しています。 ポリシーをトレーニングするために強化学習を使い、最初のデータセットがメソッド全体の成功に不可欠であることを示します。

In this paper we present a layered approach for multi-agent control problem, decomposed into three stages, each building upon the results of the previous one. First, a high-level plan for a coarse abstraction of the system is computed, relying on parametric timed automata augmented with stopwatches as they allow to efficiently model simplified dynamics of such systems. In the second stage, the high-level plan, based on SMT-formulation, mainly handles the combinatorial aspects of the problem, provides a more dynamically accurate solution. These stages are collectively referred to as the SWA-SMT solver. They are correct by construction but lack a crucial feature: they cannot be executed in real time. To overcome this, we use SWA-SMT solutions as the initial training dataset for our last stage, which aims at obtaining a neural network control policy. We use reinforcement learning to train the policy, and show that the initial dataset is crucial for the overall success of the method.
翻訳日:2023-07-14 14:27:37 公開日:2023-07-13
# 二重ユニタリ回路における量子多体傷

Quantum many-body scars in dual unitary circuits ( http://arxiv.org/abs/2307.06755v1 )

ライセンス: Link先を確認
Leonard Logari\'c, Shane Dooley, Silvia Pappalardi, John Goold(参考訳) デュアルユニタリ回路(英: dual-unitary circuits)は、様々な量の正確な計算が可能な量子系の1つである。 既知の正確な結果の配列は、高速加熱系として二重単位回路の説得力のあるイメージを描いている。 しかし,本研究では,回路が「最大カオス的」でエルゴード的,混合的でありながら,単純な初期状態が熱分解に失敗する二元系回路を構築する方法を提案する。 これは任意の大きさと局所ヒルベルト空間次元の回路に量子多体傷を埋め込むことによって達成される。 解析結果は,非scar初期状態と比較して,初期スカー状態からエンタングルメント成長速度の著しいコントラストを示す数値シミュレーションにより支持する。 この結果は,回路レイアウトと現在のディジタル量子シミュレータのネイティブ構造との互換性から,実験実験に適している。

Dual-unitary circuits are a class of quantum systems for which exact calculations of various quantities are possible, even for circuits that are non-integrable. The array of known exact results paints a compelling picture of dual-unitary circuits as rapidly thermalising systems. However, in this work, we present a method to construct dual-unitary circuits for which some simple initial states fail to thermalise, despite the circuits being "maximally chaotic", ergodic and mixing. This is achieved by embedding quantum many-body scars in a circuit of arbitrary size and local Hilbert space dimension. We support our analytic results with numerical simulations showing the stark contrast in the rate of entanglement growth from an initial scar state compared to non-scar initial states. Our results are well suited to an experimental test, due to the compatibility of the circuit layout with the native structure of current digital quantum simulators.
翻訳日:2023-07-14 14:27:21 公開日:2023-07-13
# BERTに基づく識別音声認識のパーソナライズ

Personalization for BERT-based Discriminative Speech Recognition Rescoring ( http://arxiv.org/abs/2307.06832v1 )

ライセンス: Link先を確認
Jari Kolehmainen, Yile Gu, Aditya Gourav, Prashanth Gurunath Shivakumar, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko(参考訳) パーソナライズされたコンテンツの認識は、エンドツーエンドの音声認識において依然として課題である。 ニューラル・リコーディングのステップにおいて、パーソナライズされたコンテンツを使用して認識を改善する3つの新しいアプローチについて検討する。 これらのアプローチを比較するために、パーソナライズされた名前付きエンティティを補足した仮想音声アシスタントとのインタラクションから、内部非識別のen-usデータを使用する。 パーソナライズされたエンティティを持つテストセットにおいて、これらのアプローチは、ニューラルネットワークのベースラインに対して、ワードエラー率を10%以上改善することを示す。 また、このテストセットでは、自然言語のプロンプトが、学習や一般化の限界損失を伴わずに、単語誤り率を7%向上させることができることを示す。 全体では,単語誤り率(wer)が10%向上し,一般テストでは1%向上した。

Recognition of personalized content remains a challenge in end-to-end speech recognition. We explore three novel approaches that use personalized content in a neural rescoring step to improve recognition: gazetteers, prompting, and a cross-attention based encoder-decoder model. We use internal de-identified en-US data from interactions with a virtual voice assistant supplemented with personalized named entities to compare these approaches. On a test set with personalized named entities, we show that each of these approaches improves word error rate by over 10%, against a neural rescoring baseline. We also show that on this test set, natural language prompts can improve word error rate by 7% without any training and with a marginal loss in generalization. Overall, gazetteers were found to perform the best with a 10% improvement in word error rate (WER), while also improving WER on a general test set by 1%.
翻訳日:2023-07-14 14:20:57 公開日:2023-07-13
# 上確率に対する新しいベイズ定理

A Novel Bayes' Theorem for Upper Probabilities ( http://arxiv.org/abs/2307.06831v1 )

ライセンス: Link先を確認
Michele Caprio, Yusuf Sale, Eyke H\"ullermeier, Insup Lee(参考訳) 1990年の論文において、ワッサーマンとカダンは、その前の確率測度 $\mathcal{p}$ のクラスに存在し、その確率が正確であるときに、測定可能な集合 $a$ のベイズの後方確率の上限を確立する。 また、そのような上界が等しく保たれるような十分条件を与える。 本稿では,その可能性に関する不確実性にさらに取り組んだ結果の一般化について述べる。 我々は,前確率と前確率の両方が確率の集合に属する場合,後確率に対する上限を与える。 さらに、この上限が等式となるのに十分な条件を与える。 この結果はそれ自体が興味深いものであり、様々な工学分野(例えば、モデル予測制御、機械学習、人工知能)に適用される可能性がある。

In their seminal 1990 paper, Wasserman and Kadane establish an upper bound for the Bayes' posterior probability of a measurable set $A$, when the prior lies in a class of probability measures $\mathcal{P}$ and the likelihood is precise. They also give a sufficient condition for such upper bound to hold with equality. In this paper, we introduce a generalization of their result by additionally addressing uncertainty related to the likelihood. We give an upper bound for the posterior probability when both the prior and the likelihood belong to a set of probabilities. Furthermore, we give a sufficient condition for this upper bound to become an equality. This result is interesting on its own, and has the potential of being applied to various fields of engineering (e.g. model predictive control), machine learning, and artificial intelligence.
翻訳日:2023-07-14 14:20:40 公開日:2023-07-13
# 共通領域一般化アプローチを統一する因果枠組み

A Causal Framework to Unify Common Domain Generalization Approaches ( http://arxiv.org/abs/2307.06825v1 )

ライセンス: Link先を確認
Nevin L. Zhang, Kaican Li, Han Gao, Weiyan Xie, Zhi Lin, Zhenguo Li, Luning Wang, Yongxiang Huang(参考訳) ドメイン一般化(Domain Generalization, DG)とは、トレーニングドメインに関連するが異なる新しいドメインによく一般化する学習モデルである。 これは機械学習の根本的な問題であり、近年多くの注目を集めている。 多くのアプローチが提案されている。 異なるアプローチは異なる視点から動機付けられており、その領域の全体的な理解を得ることが困難である。 本稿では,ドメイン一般化のための因果的フレームワークを提案し,そのフレームワークにおける共通DGアプローチの理解を示す。 我々の研究は以下の質問に新しい光を当てている: (1) dgメソッドの背後にある重要なアイデアは何か? (2)なぜ理論的に新しいドメインへの一般化が改善されるのか? (3)異なるDG手法は相互にどのように関連し、相対的な利点と限界は何か。 DGに関する統一的な視点を提供することで、研究者が基礎となる原則をより深く理解し、機械学習におけるこの重要な問題に対するより効果的なアプローチを開発したいと思っています。

Domain generalization (DG) is about learning models that generalize well to new domains that are related to, but different from, the training domain(s). It is a fundamental problem in machine learning and has attracted much attention in recent years. A large number of approaches have been proposed. Different approaches are motivated from different perspectives, making it difficult to gain an overall understanding of the area. In this paper, we propose a causal framework for domain generalization and present an understanding of common DG approaches in the framework. Our work sheds new lights on the following questions: (1) What are the key ideas behind each DG method? (2) Why is it expected to improve generalization to new domains theoretically? (3) How are different DG methods related to each other and what are relative advantages and limitations? By providing a unified perspective on DG, we hope to help researchers better understand the underlying principles and develop more effective approaches for this critical problem in machine learning.
翻訳日:2023-07-14 14:20:26 公開日:2023-07-13
# TinyMetaFed: TinyMLの効果的なフェデレーションメタラーニング

TinyMetaFed: Efficient Federated Meta-Learning for TinyML ( http://arxiv.org/abs/2307.06822v1 )

ライセンス: Link先を確認
Haoyu Ren, Xue Li, Darko Anicic, Thomas A. Runkler(参考訳) Tiny Machine Learning(TinyML)の分野は、マイクロコントローラなどの低フットプリントデバイス上での機械学習の民主化において、大きく進歩している。 これらのミニチュアデバイスの普及は、知識の集約がTinyMLアプリケーションに利益をもたらすかどうかという問題を提起する。 フェデレートされたメタラーニングは、現実世界のデバイス間でのラベル付きデータや異種データ分散の不足に対処するため、この疑問への有望な答えです。 しかし、TinyMLハードウェアのデプロイには独自のリソース制約が伴うため、既存のメソッドはエネルギ、プライバシ、通信の制限により実用的ではない。 TinyMLに適したモデルに依存しないメタラーニングフレームワークであるTinyMetaFedを紹介する。 TinyMetaFedは、新しいデバイスで素早く微調整できるニューラルネットワークの初期化の協調トレーニングを容易にする。 部分的なローカル再構成とトップp%選択的通信による通信の節約とプライバシ保護、オンラインラーニングによる計算効率の向上、およびマイナショット学習によるクライアントの不均一性に対する堅牢性を提供する。 TinyMLの3つのユースケースに対する評価は、TinyMetaFedがエネルギー消費と通信オーバーヘッドを大幅に削減し、収束を加速し、トレーニングプロセスを安定させることを示した。

The field of Tiny Machine Learning (TinyML) has made substantial advancements in democratizing machine learning on low-footprint devices, such as microcontrollers. The prevalence of these miniature devices raises the question of whether aggregating their knowledge can benefit TinyML applications. Federated meta-learning is a promising answer to this question, as it addresses the scarcity of labeled data and heterogeneous data distribution across devices in the real world. However, deploying TinyML hardware faces unique resource constraints, making existing methods impractical due to energy, privacy, and communication limitations. We introduce TinyMetaFed, a model-agnostic meta-learning framework suitable for TinyML. TinyMetaFed facilitates collaborative training of a neural network initialization that can be quickly fine-tuned on new devices. It offers communication savings and privacy protection through partial local reconstruction and Top-P% selective communication, computational efficiency via online learning, and robustness to client heterogeneity through few-shot learning. The evaluations on three TinyML use cases demonstrate that TinyMetaFed can significantly reduce energy consumption and communication overhead, accelerate convergence, and stabilize the training process.
翻訳日:2023-07-14 14:19:56 公開日:2023-07-13
# 平衡外物理に根ざした高速かつ機能的なデータ生成器

Fast and Functional Structured Data Generators Rooted in Out-of-Equilibrium Physics ( http://arxiv.org/abs/2307.06797v1 )

ライセンス: Link先を確認
Alessandra Carbone, Aur\'elien Decelle, Lorenzo Rosset, Beatriz Seoane(参考訳) 本研究では,個体群遺伝学,rna,タンパク質配列データなどの複雑な構造化データセットにおいて,エネルギーベースモデルを用いて高品質なラベル特異的なデータを生成することの課題に対処する。 非効率なマルコフ連鎖モンテカルロ混合により、従来の訓練手法では、合成データの多様性に影響を与え、生成時間を増加させる。 これらの問題に対処するために、非平衡効果を利用する新しいトレーニングアルゴリズムを用いる。 このアプローチは制限ボルツマンマシンに適用され、サンプルを正しく分類し、数ステップで高品質な合成データを生成するモデルの能力を向上させる。 本手法の有効性は、手書き桁、大陸由来のヒトゲノムの変異、酵素タンパク質ファミリーの機能的特徴配列、特定の分類群からの相同RNA配列の4種類のデータに適用することで実証される。

In this study, we address the challenge of using energy-based models to produce high-quality, label-specific data in complex structured datasets, such as population genetics, RNA or protein sequences data. Traditional training methods encounter difficulties due to inefficient Markov chain Monte Carlo mixing, which affects the diversity of synthetic data and increases generation times. To address these issues, we use a novel training algorithm that exploits non-equilibrium effects. This approach, applied on the Restricted Boltzmann Machine, improves the model's ability to correctly classify samples and generate high-quality synthetic data in only a few sampling steps. The effectiveness of this method is demonstrated by its successful application to four different types of data: handwritten digits, mutations of human genomes classified by continental origin, functionally characterized sequences of an enzyme protein family, and homologous RNA sequences from specific taxonomies.
翻訳日:2023-07-14 14:19:11 公開日:2023-07-13
# 細粒化下流タスクのためのビジョンランゲージ基礎モデルの活用

Leveraging Vision-Language Foundation Models for Fine-Grained Downstream Tasks ( http://arxiv.org/abs/2307.06795v1 )

ライセンス: Link先を確認
Denis Coquenet and Cl\'ement Rambour and Emanuele Dalsasso and Nicolas Thome(参考訳) clipのような視覚言語の基礎モデルは、多くのタスクやデータセットで印象的なゼロショットパフォーマンスを示してきた。 しかし、細かな属性検出やローカライズといった下流タスクの処理には苦労している。 本稿では,視覚言語基礎モデルのキャパシティをさらに活用するために,肯定的/否定的プロンプトに基づくマルチタスクの微調整戦略を提案する。 CLIPアーキテクチャをベースラインとして,鳥の細粒度属性の検出と局所化タスクを改良するとともに,CUB200-2011データセットの分類性能を向上させる。 ソースコードはhttps://github.com/factodeeplearning/multitaskvlfmで利用可能です。

Vision-language foundation models such as CLIP have shown impressive zero-shot performance on many tasks and datasets, especially thanks to their free-text inputs. However, they struggle to handle some downstream tasks, such as fine-grained attribute detection and localization. In this paper, we propose a multitask fine-tuning strategy based on a positive/negative prompt formulation to further leverage the capacities of the vision-language foundation models. Using the CLIP architecture as baseline, we show strong improvements on bird fine-grained attribute detection and localization tasks, while also increasing the classification performance on the CUB200-2011 dataset. We provide source code for reproducibility purposes: it is available at https://github.com/FactoDeepLearning/MultitaskVLFM.
翻訳日:2023-07-14 14:18:56 公開日:2023-07-13
# 大規模言語モデルを用いた負補完コモンセンス

Negated Complementary Commonsense using Large Language Models ( http://arxiv.org/abs/2307.06794v1 )

ライセンス: Link先を確認
Navid Rezaei, Marek Z. Reformat(参考訳) GPT-3のようなより大きな言語モデルは、多くのタスクで優れていることが示されている。 しかし、通常の質問はモデルをガードから外すことを実証する。 本研究は,コモンセンスシナリオにおいて否定的な補足質問に対する回答を見つけることに焦点を当てる。 このような質問がモデル応答にどのように悪影響を及ぼすかを説明する。 我々は,不要な補完的シナリオにおける性能を改善するためのモデル非依存手法を提案する。 提案手法は, GPT-3(11点以上)からの少数ショット生成よりも優れ, さらに重要な点として, 否定的相補的質問に対する大規模言語モデルの応答を研究することの重要性を強調した。 コード、データ、実験は、https://github.com/navidre/negated_complementary_commonsense.comで公開されている。

Larger language models, such as GPT-3, have shown to be excellent in many tasks. However, we demonstrate that out-of-ordinary questions can throw the model off guard. This work focuses on finding answers to negated complementary questions in commonsense scenarios. We illustrate how such questions adversely affect the model responses. We propose a model-agnostic methodology to improve the performance in negated complementary scenarios. Our method outperforms few-shot generation from GPT-3 (by more than 11 points) and, more importantly, highlights the significance of studying the response of large language models in negated complementary questions. The code, data, and experiments are available under: https://github.com/navidre/negated_complementary_commonsense.
翻訳日:2023-07-14 14:18:42 公開日:2023-07-13
# 視覚と触覚によるき裂検出・キャラクタリゼーションのためのロボット表面探査

Robotic surface exploration with vision and tactile sensing for cracks detection and characterisation ( http://arxiv.org/abs/2307.06784v1 )

ライセンス: Link先を確認
Francesca Palermo, Bukeikhan Omarali, Changae Oh, Kaspar Althoefer, Ildar Farkhatdinov(参考訳) 本稿では,ファイバーオプティクスを用いた視覚・触覚解析に基づくクラック局所化と検出のための新しいアルゴリズムを提案する。 データ取得には、繊維光学に基づく指型センサを用い、分析および実験のためのデータを収集する。 被写体検出アルゴリズムを実行中に、カメラが環境を走査するために使用するひび割れの発生箇所を検出する。 亀裂が検出されると、ひび割れの骨格化バージョンから完全に連結されたグラフが生成される。 次に、最短経路を計算してクラックを探索し、ロボットマニピュレータのモーションプランナーを開発するための最小スパンディングツリーを用いる。 運動プランナーはクラックを複数のノードに分割し、個別に探索する。 そして、マニピュレータが探索を開始し、触覚データ分類を行い、実際にその位置に亀裂があるか、あるいは単に視覚アルゴリズムから偽陽性があるかを確認する。 亀裂が検出されると、長さ、幅、向き、枝の数も計算される。 これはクラックの全てのノードが探索されるまで繰り返される。 完全なアルゴリズムを検証するために, フルスキャンと運動計画アルゴリズムによる亀裂の探索の比較, 視覚と触覚データの組み合わせによる亀裂分類と幾何解析のための周波数ベース特徴の実装など, 様々な実験を行った。 実験結果から, 提案アルゴリズムは, クラックを検知し, 視覚から得られる結果を改善し, 動作計画アルゴリズムにより, クラックとその形状を最小限のコストで正しく分類できることが示唆された。

This paper presents a novel algorithm for crack localisation and detection based on visual and tactile analysis via fibre-optics. A finger-shaped sensor based on fibre-optics is employed for the data acquisition to collect data for the analysis and the experiments. To detect the possible locations of cracks a camera is used to scan an environment while running an object detection algorithm. Once the crack is detected, a fully-connected graph is created from a skeletonised version of the crack. A minimum spanning tree is then employed for calculating the shortest path to explore the crack which is then used to develop the motion planner for the robotic manipulator. The motion planner divides the crack into multiple nodes which are then explored individually. Then, the manipulator starts the exploration and performs the tactile data classification to confirm if there is indeed a crack in that location or just a false positive from the vision algorithm. If a crack is detected, also the length, width, orientation and number of branches are calculated. This is repeated until all the nodes of the crack are explored. In order to validate the complete algorithm, various experiments are performed: comparison of exploration of cracks through full scan and motion planning algorithm, implementation of frequency-based features for crack classification and geometry analysis using a combination of vision and tactile data. From the results of the experiments, it is shown that the proposed algorithm is able to detect cracks and improve the results obtained from vision to correctly classify cracks and their geometry with minimal cost thanks to the motion planning algorithm.
翻訳日:2023-07-14 14:18:31 公開日:2023-07-13
# DecompEval: 教師なし質問回答としての生成テキストの評価

DecompEval: Evaluating Generated Texts as Unsupervised Decomposed Question Answering ( http://arxiv.org/abs/2307.06869v1 )

ライセンス: Link先を確認
Pei Ke, Fei Huang, Fei Mi, Yasheng Wang, Qun Liu, Xiaoyan Zhu, Minlie Huang(参考訳) 自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。 特に、パフォーマンスの良い指標のほとんどは、特定のNLGタスクと評価次元の評価データセットをトレーニングするために必要であり、タスク固有のデータセットに過度に適合する可能性がある。 さらに、既存のメトリクスは、そのスコアの取得方法を解釈する証拠を明らかにすることなく、各次元に対する評価スコアのみを提供する。 これらの課題に対処するため,DecompEval という単純な指標を提案する。 本手法は,NLG評価を命令スタイルの質問応答タスクとして定式化し,評価データセットをトレーニングすることなく,命令調整済みの事前学習言語モデル(PLM)を利用する。 評価プロセスをより解釈しやすいものにするために,生成したテキストの品質に関する命令型質問を,各文の品質を測定するサブ質問に分解する。 PLMが生成した回答を証拠として再検討して評価結果を得る。 実験結果から,DecompEvalはテキスト要約と対話生成の評価のための訓練されていないメトリクスで最先端のパフォーマンスを達成し,高次元/タスクレベルの一般化能力と解釈可能性を示すことがわかった。

Existing evaluation metrics for natural language generation (NLG) tasks face the challenges on generalization ability and interpretability. Specifically, most of the well-performed metrics are required to train on evaluation datasets of specific NLG tasks and evaluation dimensions, which may cause over-fitting to task-specific datasets. Furthermore, existing metrics only provide an evaluation score for each dimension without revealing the evidence to interpret how this score is obtained. To deal with these challenges, we propose a simple yet effective metric called DecompEval. This metric formulates NLG evaluation as an instruction-style question answering task and utilizes instruction-tuned pre-trained language models (PLMs) without training on evaluation datasets, aiming to enhance the generalization ability. To make the evaluation process more interpretable, we decompose our devised instruction-style question about the quality of generated texts into the subquestions that measure the quality of each sentence. The subquestions with their answers generated by PLMs are then recomposed as evidence to obtain the evaluation result. Experimental results show that DecompEval achieves state-of-the-art performance in untrained metrics for evaluating text summarization and dialogue generation, which also exhibits strong dimension-level / task-level generalization ability and interpretability.
翻訳日:2023-07-14 14:10:53 公開日:2023-07-13
# プロンプトを秘密にすべきでない: プロンプト抽出攻撃の成功をシステマティックに計測する

Prompts Should not be Seen as Secrets: Systematically Measuring Prompt Extraction Attack Success ( http://arxiv.org/abs/2307.06865v1 )

ライセンス: Link先を確認
Yiming Zhang and Daphne Ippolito(参考訳) 大規模言語モデルの世代はプロンプト技術によって一般的に制御され、モデルに対するユーザのクエリには、クエリに対するモデルの振る舞いを導くためのプロンプトがプレフィックスされる。 企業がモデルをガイドするために使用するプロンプトは、しばしば秘密として扱われ、クエリを行うユーザから隠される。 購入・販売される商品として扱われることもある。 しかし、秘密にされている場合でも、利用者がプロンプトを抽出できるという逸話的な証拠がある。 本稿では,プロンプト抽出攻撃の成功を体系的に測定する枠組みを提案する。 複数のプロンプトのソースと複数の基礎言語モデルを用いた実験で、単純なテキストベースの攻撃がプロンプトを高い確率で明らかにできることがわかった。

The generations of large language models are commonly controlled through prompting techniques, where a user's query to the model is prefixed with a prompt that aims to guide the model's behaviour on the query. The prompts used by companies to guide their models are often treated as secrets, to be hidden from the user making the query. They have even been treated as commodities to be bought and sold. However, there has been anecdotal evidence showing that the prompts can be extracted by a user even when they are kept secret. In this paper, we present a framework for systematically measuring the success of prompt extraction attacks. In experiments with multiple sources of prompts and multiple underlying language models, we find that simple text-based attacks can in fact reveal prompts with high probability.
翻訳日:2023-07-14 14:10:31 公開日:2023-07-13
# LVLane: カオス条件下でのレーン検出と分類のためのディープラーニング

LVLane: Deep Learning for Lane Detection and Classification in Challenging Conditions ( http://arxiv.org/abs/2307.06853v1 )

ライセンス: Link先を確認
Zillur Rahman and Brendan Tran Morris(参考訳) 車線検出は、自動運転車や先進運転支援システム(ADAS)の分野において重要な役割を果たす。 長年にわたり、基本的な画像処理技術から高度なディープニューラルネットワークまで、数多くのアルゴリズムが登場してきた。 ディープラーニングベースのモデルの性能は、トレーニングデータの品質に大きく依存する。 その結果、これらのモデルは、極端な照明条件、部分的に目に見えるレーンマーキング、ボットのドットのようなスパースレーンマーキングといった困難なシナリオに直面すると、しばしば性能が低下する。 そこで本研究では,ディープラーニング手法に基づくエンドツーエンドの車線検出・分類システムを提案する。 本研究では,最先端(sota)モデルに重大な課題をもたらすシナリオを包含するために,細心の注意を払って収集したユニークなデータセットを提案する。 選択したモデルの微調整により,局所化精度の向上を目指す。 さらに,検出器とシームレスに統合されたCNNに基づく分類分岐を提案し,異なるレーンタイプの識別を容易にする。 このアーキテクチャは、情報レーン変更の決定を可能にし、よりレジリエントなADAS機能を実現する。 また,混合精度トレーニングとテストが異なるモデルとバッチサイズに与える影響についても検討した。 広く利用されているTuSimpleデータセット,Caltech laneデータセット,およびLVLaneデータセットを用いて実施した実験により,難解なシナリオの中で車線を正確に検出・分類する上で,我々のモデルの有効性が示された。 提案手法はTuSimpleデータセットを用いて最先端の分類結果を得る。 作業のコードは、論文の受理時に公表される。

Lane detection plays a pivotal role in the field of autonomous vehicles and advanced driving assistant systems (ADAS). Over the years, numerous algorithms have emerged, spanning from rudimentary image processing techniques to sophisticated deep neural networks. The performance of deep learning-based models is highly dependent on the quality of their training data. Consequently, these models often experience a decline in performance when confronted with challenging scenarios such as extreme lighting conditions, partially visible lane markings, and sparse lane markings like Botts' dots. To address this, we present an end-to-end lane detection and classification system based on deep learning methodologies. In our study, we introduce a unique dataset meticulously curated to encompass scenarios that pose significant challenges for state-of-the-art (SOTA) models. Through fine-tuning selected models, we aim to achieve enhanced localization accuracy. Moreover, we propose a CNN-based classification branch, seamlessly integrated with the detector, facilitating the identification of distinct lane types. This architecture enables informed lane-changing decisions and empowers more resilient ADAS capabilities. We also investigate the effect of using mixed precision training and testing on different models and batch sizes. Experimental evaluations conducted on the widely-used TuSimple dataset, Caltech lane dataset, and our LVLane dataset demonstrate the effectiveness of our model in accurately detecting and classifying lanes amidst challenging scenarios. Our method achieves state-of-the-art classification results on the TuSimple dataset. The code of the work will be published upon the acceptance of the paper.
翻訳日:2023-07-14 14:09:35 公開日:2023-07-13
# 自己教師付き学習による縫合尾短縮手術糸の対話的知覚

Self-Supervised Learning for Interactive Perception of Surgical Thread for Autonomous Suture Tail-Shortening ( http://arxiv.org/abs/2307.06845v1 )

ライセンス: Link先を確認
Vincent Schorp, Will Panitch, Kaushik Shivakumar, Vainavi Viswanath, Justin Kerr, Yahav Avigal, Danyal M Fer, Lionel Ott, Ken Goldberg(参考訳) 縫合糸の正確な3次元センシングは, 状態空間の複雑さ, 糸の薄さ, 変形性, グリッパーや組織による咬合の可能性から, 外科的縫合の自動化において難しい課題である。 本研究では, 咬合や複雑な糸構成に頑健な3dの手術糸を追跡する方法を提案し, 目的の「尾長」が露出するまで糸を組織に引っ張るという外科的縫合「尾短縮」タスクを自律的に行う。 学習した2次元手術糸検出ネットワークを用いてRGB画像中の縫合糸を分割する。 次に、2Dでスレッドパスを特定し、3DでスレッドをNURBSスプラインとして再構成し、2つのステレオカメラから検出を三角測量する。 3Dスレッドモデルが初期化されると、メソッドはその後のフレームにわたってスレッドを追跡する。 実験により, 単一フレームの3次元スレッド再構成において1.33ピクセルの平均再投影誤差と2つの追跡シーケンスにおける平均再投影誤差が0.84ピクセルであることが示唆された。 尾打ち作業では、20回の試験で90%の成功率を達成する。 補足材料はhttps://sites.google.com/berkeley.edu/autolab-surgical-thread/で入手できる。

Accurate 3D sensing of suturing thread is a challenging problem in automated surgical suturing because of the high state-space complexity, thinness and deformability of the thread, and possibility of occlusion by the grippers and tissue. In this work we present a method for tracking surgical thread in 3D which is robust to occlusions and complex thread configurations, and apply it to autonomously perform the surgical suture "tail-shortening" task: pulling thread through tissue until a desired "tail" length remains exposed. The method utilizes a learned 2D surgical thread detection network to segment suturing thread in RGB images. It then identifies the thread path in 2D and reconstructs the thread in 3D as a NURBS spline by triangulating the detections from two stereo cameras. Once a 3D thread model is initialized, the method tracks the thread across subsequent frames. Experiments suggest the method achieves a 1.33 pixel average reprojection error on challenging single-frame 3D thread reconstructions, and an 0.84 pixel average reprojection error on two tracking sequences. On the tail-shortening task, it accomplishes a 90% success rate across 20 trials. Supplemental materials are available at https://sites.google.com/berkeley.edu/autolab-surgical-thread/ .
翻訳日:2023-07-14 14:09:10 公開日:2023-07-13
# PC-Droid:高速拡散と粒子雲生成の品質向上

PC-Droid: Faster diffusion and improved quality for particle cloud generation ( http://arxiv.org/abs/2307.06836v1 )

ライセンス: Link先を確認
Matthew Leigh, Debajyoti Sengupta, John Andrew Raine, Guillaume Qu\'etant, Tobias Golling(参考訳) PC-JeDiの成功に基づいて,ジェット粒子雲の生成のための拡散モデルであるPC-Droidを導入する。 新しい拡散定式化、より最近の積分解法の研究、および全てのジェット種を同時に訓練することにより、あらゆる評価指標のあらゆる種類のジェットに対して最先端の性能を達成することができる。 2つの注意に基づくアーキテクチャを比較して、生成速度と品質のトレードオフと、拡散ステップ数を減らすための一貫性蒸留の可能性について検討した。 より高速なアーキテクチャモデルと一貫性モデルの両方が、PC-JeDiよりも最大2桁高速な生成時間を持つ多くの競合モデルを上回る性能を示している。

Building on the success of PC-JeDi we introduce PC-Droid, a substantially improved diffusion model for the generation of jet particle clouds. By leveraging a new diffusion formulation, studying more recent integration solvers, and training on all jet types simultaneously, we are able to achieve state-of-the-art performance for all types of jets across all evaluation metrics. We study the trade-off between generation speed and quality by comparing two attention based architectures, as well as the potential of consistency distillation to reduce the number of diffusion steps. Both the faster architecture and consistency models demonstrate performance surpassing many competing models, with generation time up to two orders of magnitude faster than PC-JeDi.
翻訳日:2023-07-14 14:08:12 公開日:2023-07-13
# ノイズ量子コンピューティングデバイスの信頼性

Reliability of Noisy Quantum Computing Devices ( http://arxiv.org/abs/2307.06833v1 )

ライセンス: Link先を確認
Samudra Dasgupta and Travis S. Humble(参考訳) ノイズの多い中間スケール量子(NISQ)デバイスは、量子コンピューティングのテテットをテストする上で貴重なプラットフォームであるが、これらのデバイスは、非コヒーレンス、リーク、クロストーク、その他のノイズ源によるエラーの影響を受けやすい。 これにより、NISQデバイスをエラーを緩和するための戦略として使用する場合、プログラム結果の安定性を保証するための懸念が高められる。 ここでは、所定の許容範囲内で安定した結果を生成するために必要な条件を評価することにより、NISQ装置の信頼性を定量化する。 我々は,デバイス特性データから得られた類似度指標を用いて,ゲートフィダリティ,非一貫性時間,スパムエラー,クロストークエラーなど,いくつかの重要な特徴における性能の安定性を解析した。 これらの測定値の挙動を確率分布から限定し, 超電導トランスモン装置でテストしたbernstein-vazirani回路の数値シミュレーションによりその境界を検証した。 NISQデバイスにおける信頼性の厳密なテストを可能にし、安定した量子コンピューティングの長期的な目標をサポートする。

Noisy intermediate-scale quantum (NISQ) devices are valuable platforms for testing the tenets of quantum computing, but these devices are susceptible to errors arising from de-coherence, leakage, cross-talk and other sources of noise. This raises concerns for ensuring the stability of program results when using NISQ devices as strategies for mitigating errors generally require well-characterized and reliable error models. Here, we quantify the reliability of NISQ devices by assessing the necessary conditions for generating stable results within a given tolerance. We use similarity metrics derived from device characterization data to analyze the stability of performance across several key features: gate fidelities, de-coherence time, SPAM error, and cross-talk error. We bound the behavior of these metrics derived from their joint probability distribution, and we validate these bounds using numerical simulations of the Bernstein-Vazirani circuit tested on a superconducting transmon device. Our results enable the rigorous testing of reliability in NISQ devices and support the long-term goals of stable quantum computing.
翻訳日:2023-07-14 14:07:58 公開日:2023-07-13
# 可変範囲相互作用によるより良いセンシング

Better sensing with variable-range interactions ( http://arxiv.org/abs/2307.06901v1 )

ライセンス: Link先を確認
Monika, Leela Ganesh Chandra Lakkaraju, Srijon Ghosh, Aditi Sen De(参考訳) 標準量子極限(sql)として知られるパラメータ推定の典型的な境界は、絡み合いなどの量子資源を活用することで超越することができる。 磁気プローブ場を推定するために、適度な横磁場を持つ可変レンジ多体量子スピンチェーンに基づく量子センサを提案する。 本稿では,長距離システムを用いた量子センサの3倍の利点を報告する。 第一に、準長距離相互作用を持つセンサは、常に座標数の全ての値に対してSQLを破ることができるが、長距離相互作用を持つセンサはこのユビキタス量子優位性を持たない。 第二に、長距離ハミルトニアンは、推定精度において最も近い隣のハミルトニアン(NN)より優れる。 最後に、nn相互作用を持つセンサでは不可能である一方、長距離相互作用を持つシステムは初期状態の高温の存在下でsqlを下回ることができることを観測する。 さらに、長距離イジングハミルトニアンに基づくセンサは、磁場の不純物に対して頑健であり、かつ、プローブとシステムとの相互作用中に時間不均質なデファスメントノイズが作用する場合にロバストであることが証明される。

The typical bound on parameter estimation, known as the standard quantum limit (SQL), can be surpassed by exploiting quantum resources such as entanglement. To estimate the magnetic probe field, we propose a quantum sensor based on a variable-range many-body quantum spin chain with a moderate transverse magnetic field. We report the threefold benefits of employing a long-range system as a quantum sensor. Firstly, sensors with quasi long-range interactions can always beat SQL for all values of the coordination number while a sensor with long-range interactions does not have this ubiquitous quantum advantage. Secondly, a long-range Hamiltonian outperforms a nearest-neighbor (NN) Hamiltonian in terms of estimating precision. Finally, we observe that the system with long-range interactions can go below SQL in the presence of a high temperature of the initial state while sensors having NN interactions cannot. Furthermore, a sensor based on the long-range Ising Hamiltonian proves to be robust against impurities in the magnetic field and when the time-inhomogeneous dephasing noise acts during interaction of the probe with the system.
翻訳日:2023-07-14 14:02:13 公開日:2023-07-13
# 量子ビットおよび2レベル系のソロモン方程式

Solomon equations for qubit and two-level systems ( http://arxiv.org/abs/2307.06900v1 )

ライセンス: Link先を確認
Martin Spiecker, Andrei I. Pavlov, Alexander Shnirman, Ioan M. Pop(参考訳) 我々は、離散二層系(TLS)環境に結合した量子ビット、すなわち中心スピンの結合緩和をモデル化し、測定する。 我々は、キュービットの一般リンドブラッド方程式と任意の数のtlssから始まっているソロモン方程式の導出を示す。 TLS が qubit よりもずっと長寿命であれば、緩和は非指数的である。 多数のTLSの極限では、超伝導フラクソニウム量子ビットの緩和を測定することで、人口は電力法則に従う可能性が高い。 さらに, ソロモン方程式は非ポアソン量子ジャンプ統計を予測し, 実験により確認した。

We model and measure the combined relaxation of a qubit, a.k.a. central spin, coupled to a discrete two-level system (TLS) environment. We present a derivation of the Solomon equations starting from a general Lindblad equation for the qubit and an arbitrary number of TLSs. If the TLSs are much longer lived than the qubit, the relaxation becomes non-exponential. In the limit of large numbers of TLSs the populations are likely to follow a power law, which we illustrate by measuring the relaxation of a superconducting fluxonium qubit. Moreover, we show that the Solomon equations predict non-Poissonian quantum jump statistics, which we confirm experimentally.
翻訳日:2023-07-14 14:01:54 公開日:2023-07-13
# 言葉は風ではない -- 第三政党による反復的相互作用や強制を伴わず、社会的ジレンマをいかに解決するか

Words are not Wind -- How Joint Commitment and Reputation Solve Social Dilemmas, without Repeated Interactions or Enforcement by Third Parties ( http://arxiv.org/abs/2307.06898v1 )

ライセンス: Link先を確認
Marcus Krellner and The Anh Han(参考訳) 共同のコミットメントは「我々の社会世界を作る」こと(Gilbert, 2014)と、私たちを他の霊長類と区別することであった。 「同意」は、お互いが約束しない限り、決して約束しないことを意味する。 最善の相互成果のために調整する必要がある場合、いかなるコミットメントも有益です。 しかしながら、フリーライド(すなわち社会的ジレンマ)に誘惑されるとき、コミットメントは明確な目的をもたない。 共同コミットメントの後にのみ社会的ジレンマの行動を判断する評価システムは,フリーライドを防止できることを示す。 コミットメントは信頼を築き上げます。 信頼できる個人と共同コミットメントを選択的に入力して、彼らの協力を保証することができます。 単に信頼していない人たちと協力することを約束しないので、他人の信頼を失うことなく、自由に失敗できるのです。 この原則は、結婚のような明確な共同コミットメントの理由かもしれない。 これは特に、(強力で説明責任のある政府を通じて)確実にかつ公平にコミットメントを強制するメカニズムが存在しない進化の過去と関係している。 人類学、哲学、心理学からの多くの研究は、過去のコラボレーションは相互に有益であり、自由参加の可能性はほとんどないという仮定を立てた。 我々の進化的ゲーム理論のアプローチは、この仮定は必要ではないことを証明します。

Joint commitment was argued to "make our social world" (Gilbert, 2014) and to separate us from other primates. 'Joint' entails that neither of us promises anything, unless the other promises as well. When we need to coordinate for the best mutual outcome, any commitment is beneficial. However, when we are tempted to free-ride (i.e. in social dilemmas), commitment serves no obvious purpose. We show that a reputation system, which judges action in social dilemmas only after joint commitment, can prevent free-riding. Keeping commitments builds trust. We can selectively enter joint commitments with trustworthy individuals to ensure their cooperation (since they will now be judged). We simply do not commit to cooperate with those we do not trust, and hence can freely defect without losing the trust of others. This principle might be the reason for pointedly public joint commitments, such as marriage. It is especially relevant to our evolutionary past, in which no mechanisms existed to enforce commitments reliably and impartially (e.g. via a powerful and accountable government). Much research from anthropology, philosophy and psychology made the assumption that past collaborations were mutually beneficial and had little possibilities to free-ride, for which there is little support. Our evolutionary game theory approach proves that this assumption is not necessary, because free-riding could have been dealt with joint commitments and reputation.
翻訳日:2023-07-14 14:01:43 公開日:2023-07-13
# スピンアライメント問題の解決に向けて

Towards a resolution of the spin alignment problem ( http://arxiv.org/abs/2307.06894v1 )

ライセンス: Link先を確認
Mohammad A. Alhejji and Emanuel Knill(参考訳) 制約を受ける各状態を選択することで、混合状態のエントロピーを最小化する。 それぞれの状態のスペクトルが固定されている場合、混合物のエントロピーを減少させるためには、何らかの意味で状態の区別を小さくすべきである。 本稿では,この状況にインスパイアされた最適化問題のクラスを考察し,識別可能性という関連する概念に光を当てる。 この研究の動機は、refで最近紹介されたスピンアライメント予想である。 通称「Leditzky2022a」。 根本問題の原版では、混合状態の各状態は、補集合の各キュービット上の固定状態 \(Q\) でテンソルされた \(n\) キュービットの部分集合上で自由選択状態となるように制約されている。 この予想によれば、混合のエントロピーは、各項の自由に選択された状態を選択して、その混合項の項を最大に `aligns'' とする固定された極大固有ベクトル上のプロジェクターのテンソル積とすることにより最小化される。 私たちはこの問題をいくつかの方法で一般化する。 まず、エントロピーを最小化する代わりに、ファンノルムやシャッテンノルムのような任意の単位不変凸函数の最大化を考える。 予想された要求アライメントを形式化し、一般化するために、大域化によって誘導される自己随伴作用素のタプルのプレオーダーとして \textit{alignment} を定義する。 整数順序のシャッテンノルムに対する一般化された予想を証明し、自由選択された状態が古典的であることに制約された場合と、2つの状態だけが混合に寄与し、 \(Q\) が射影子に比例する場合には証明する。 最後のケースは、最大アライメントの明示的な条件を与えるより一般的な状況に適合する。 スピンアライメント問題には自然の `dual" の定式化があり、そのバージョンには我々が導入するさらなる一般化がある。

Consider minimizing the entropy of a mixture of states by choosing each state subject to constraints. If the spectrum of each state is fixed, we expect that in order to reduce the entropy of the mixture, we should make the states less distinguishable in some sense. Here, we study a class of optimization problems that are inspired by this situation and shed light on the relevant notions of distinguishability. The motivation for our study is the spin alignment conjecture introduced recently in Ref.~\cite{Leditzky2022a}. In the original version of the underlying problem, each state in the mixture is constrained to be a freely chosen state on a subset of \(n\) qubits tensored with a fixed state \(Q\) on each of the qubits in the complement. According to the conjecture, the entropy of the mixture is minimized by choosing the freely chosen state in each term to be a tensor product of projectors onto a fixed maximal eigenvector of \(Q\), which maximally ``aligns'' the terms in the mixture. We generalize this problem in several ways. First, instead of minimizing entropy, we consider maximizing arbitrary unitarily invariant convex functions such as Fan norms and Schatten norms. To formalize and generalize the conjectured required alignment, we define \textit{alignment} as a preorder on tuples of self-adjoint operators that is induced by majorization. We prove the generalized conjecture for Schatten norms of integer order, for the case where the freely chosen states are constrained to be classical, and for the case where only two states contribute to the mixture and \(Q\) is proportional to a projector. The last case fits into a more general situation where we give explicit conditions for maximal alignment. The spin alignment problem has a natural ``dual" formulation, versions of which have further generalizations that we introduce.
翻訳日:2023-07-14 14:01:19 公開日:2023-07-13
# キャビティ量子電気力学によるwse$_{2}$単光子源のコヒーレンスに及ぼすフォノンデフェスの影響

Engineering the impact of phonon dephasing on the coherence of a WSe$_{2}$ single-photon source via cavity quantum electrodynamics ( http://arxiv.org/abs/2307.06891v1 )

ライセンス: Link先を確認
Victor Nikolaevich Mitryakhin, Jens-Christian Drawer, Hangyong Shan, Alexander Steinhoff, Matthias Florian, Lukas Lackner, Bo Han, Falk Eilenberger, Sefaattin Tongay, Kenji Watanabe, Takashi Taniguchi, Carlos Ant\'on-Solanas, Ana Predojevi\'c, Christopher Gies, Martin Esmann and Christian Schneider(参考訳) Emitter dephasingは固体単一光子源の性能の鍵となる問題の一つである。 様々なデファージングの源のうち、音響フォノンは単一光子放出にデコヒーレンスを加えるのに中心的な役割を果たす。 ここでは、単一WSe$_2$単層量子ドットから放射される光子のコヒーレンスを、スペクトル共振器共鳴に選択的に結合することで調整し、設計することができることを示す。 開空洞を用いて高非対称フォノンサイドバンドのスペクトル増強, レベル化, 抑制を図り, 顕微鏡理論との良好な一致を見いだした。 最も重要な点は, キャビティチューニングがデファスメントに与える影響を光学干渉法で直接評価することであり, 光マッターカップリングをステアに利用し, 原子状薄膜の発光特性のデファスメントとコヒーレンスを設計・設計する能力を明確に指摘する。

Emitter dephasing is one of the key issues in the performance of solid-state single photon sources. Among the various sources of dephasing, acoustic phonons play a central role in adding decoherence to the single photon emission. Here, we demonstrate, that it is possible to tune and engineer the coherence of photons emitted from a single WSe$_2$ monolayer quantum dot via selectively coupling it to a spectral cavity resonance. We utilize an open cavity to demonstrate spectral enhancement, leveling and suppression of the highly asymmetric phonon sideband, finding excellent agreement with our microscopic theory. Most importantly, the impact of cavity tuning on the dephasing is directly assessed via optical interferometry, which clearly points out the capability to utilize light-matter coupling to steer and design dephasing and coherence of the emission properties of atomically thin crystals.
翻訳日:2023-07-14 14:00:41 公開日:2023-07-13
# 2層ReLUニューラルネットワークによる確率的マルチタスク表現学習

Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks ( http://arxiv.org/abs/2307.06887v1 )

ライセンス: Link先を確認
Liam Collins, Hamed Hassani, Mahdi Soltanolkotabi, Aryan Mokhtari, Sanjay Shakkottai(参考訳) 特徴学習(すなわち、データの意味のある表現を抽出する)は、勾配降下で訓練されたニューラルネットワークの実用的成功に必須であるが、その発生方法と理由を説明するのは非常に困難である。 最近の理論的研究により、勾配に基づく手法で1つのタスクに最適化された浅層ニューラルネットワークが有意義な特徴を学習できることが示されている。 しかし、実際には、ニューラルネットワークは損失関数の異なるタスクと同時に多くのタスクで訓練されることが多く、これらの以前の分析はそのような設定に一般化しない。 マルチタスク学習では、単純な線形モデルによる効果的な特徴学習が様々な研究で示されている。 しかし、実際には最も一般的な学習パラダイムである {\em nonlinear} モデルによるマルチタスク学習はほとんど謎のままである。 本研究では, 非線形モデルを用いたマルチタスク環境において, 特徴学習を行う最初の結果を示す。 その結果,2層reluニューラルネットワーク上では,2層ニューラルネットワークを用いた簡易な勾配型マルチタスク学習アルゴリズムが,2層reluニューラルネットワークによって学習されることがわかった。 特に、r$ 地上座標上のダウンストリームタスクは、環境次元 $d$ とは無関係にサンプルとニューロン複雑性を持つ線形分類器を学習することで解決できるが、ランダム特徴モデルでは、そのような保証のために$d$ の指数的複雑性を必要とする。

Feature learning, i.e. extracting meaningful representations of data, is quintessential to the practical success of neural networks trained with gradient descent, yet it is notoriously difficult to explain how and why it occurs. Recent theoretical studies have shown that shallow neural networks optimized on a single task with gradient-based methods can learn meaningful features, extending our understanding beyond the neural tangent kernel or random feature regime in which negligible feature learning occurs. But in practice, neural networks are increasingly often trained on {\em many} tasks simultaneously with differing loss functions, and these prior analyses do not generalize to such settings. In the multi-task learning setting, a variety of studies have shown effective feature learning by simple linear models. However, multi-task learning via {\em nonlinear} models, arguably the most common learning paradigm in practice, remains largely mysterious. In this work, we present the first results proving feature learning occurs in a multi-task setting with a nonlinear model. We show that when the tasks are binary classification problems with labels depending on only $r$ directions within the ambient $d\gg r$-dimensional input space, executing a simple gradient-based multitask learning algorithm on a two-layer ReLU neural network learns the ground-truth $r$ directions. In particular, any downstream task on the $r$ ground-truth coordinates can be solved by learning a linear classifier with sample and neuron complexity independent of the ambient dimension $d$, while a random feature model requires exponential complexity in $d$ for such a guarantee.
翻訳日:2023-07-14 14:00:22 公開日:2023-07-13
# 遅延下におけるMin-Max最適化

Min-Max Optimization under Delays ( http://arxiv.org/abs/2307.06886v1 )

ライセンス: Link先を確認
Arman Adibi, Aritra Mitra, and Hamed Hassani(参考訳) コミュニケーションが重要な役割を果たす大規模機械学習では、遅延と非同期性は避けられない。 このように、いくつかの研究は遅延勾配を伴う確率的最適化を広範囲に分析している。 しかし、我々が認識している限り、min-max最適化の類似理論は存在せず、敵意の強固さ、ゲーム理論、強化学習の応用により最近人気を集めている。 このギャップにより、遅延勾配更新を伴う標準のmin-max最適化アルゴリズムの性能について検討する。 まず, 遅延が小さい場合でも, 遅延がない場合の収束が保証される単純なインスタンスに対して, 勾配外(\texttt{EG})のような顕著なアルゴリズムが発散することを示す。 その結果,min-max最適化アルゴリズムの遅延バージョンを注意深く解析する必要性が示唆された。 したがって、適切な技術的仮定の下では、遅延更新を伴う勾配降下(\texttt{gda})および \texttt{eg} が凸凹および強い凸強凸凹設定のためのサドル点への収束を保証し続けることが証明される。 私たちの複雑性は、透過的な方法で、遅延による収束の遅さを明らかにします。

Delays and asynchrony are inevitable in large-scale machine-learning problems where communication plays a key role. As such, several works have extensively analyzed stochastic optimization with delayed gradients. However, as far as we are aware, no analogous theory is available for min-max optimization, a topic that has gained recent popularity due to applications in adversarial robustness, game theory, and reinforcement learning. Motivated by this gap, we examine the performance of standard min-max optimization algorithms with delayed gradient updates. First, we show (empirically) that even small delays can cause prominent algorithms like Extra-gradient (\texttt{EG}) to diverge on simple instances for which \texttt{EG} guarantees convergence in the absence of delays. Our empirical study thus suggests the need for a careful analysis of delayed versions of min-max optimization algorithms. Accordingly, under suitable technical assumptions, we prove that Gradient Descent-Ascent (\texttt{GDA}) and \texttt{EG} with delayed updates continue to guarantee convergence to saddle points for convex-concave and strongly convex-strongly concave settings. Our complexity bounds reveal, in a transparent manner, the slow-down in convergence caused by delays.
翻訳日:2023-07-14 13:59:52 公開日:2023-07-13
# 非定常強化学習の複雑さ

The complexity of non-stationary reinforcement learning ( http://arxiv.org/abs/2307.06877v1 )

ライセンス: Link先を確認
Christos Papadimitriou, Binghui Peng(参考訳) 非定常強化学習と呼ばれる強化学習領域における継続学習の問題は、強化学習の適用において重要な課題として認識されている。 強化学習問題における単一の状態-作用対の確率や報酬を変更するには、強い指数時間仮説(SETH)が偽でない限り、値関数を最新に保つためには、状態の数と同じくらいの時間を必要とする。 現在の強化学習の応用における状態の数は通常天文学的である。 これとは対照的に、$\textit{adding}$新しいステートアクションペアを実装するのは非常に簡単である。

The problem of continual learning in the domain of reinforcement learning, often called non-stationary reinforcement learning, has been identified as an important challenge to the application of reinforcement learning. We prove a worst-case complexity result, which we believe captures this challenge: Modifying the probabilities or the reward of a single state-action pair in a reinforcement learning problem requires an amount of time almost as large as the number of states in order to keep the value function up to date, unless the strong exponential time hypothesis (SETH) is false; SETH is a widely accepted strengthening of the P $\neq$ NP conjecture. Recall that the number of states in current applications of reinforcement learning is typically astronomical. In contrast, we show that just $\textit{adding}$ a new state-action pair is considerably easier to implement.
翻訳日:2023-07-14 13:59:27 公開日:2023-07-13
# 機械学習とバイアス分析による地方自治体の早期支援基準の特定

Identifying Early Help Referrals For Local Authorities With Machine Learning And Bias Analysis ( http://arxiv.org/abs/2307.06871v1 )

ライセンス: Link先を確認
Eufr\'asio de A. Lima Neto, Jonathan Bailiss, Axel Finke, Jo Miller, Georgina Cosma(参考訳) レスターシャー郡議会(英語版) (lcc) のようなイングランドの地方自治体は、学校のような普遍的なサービスだけではサポートできない困難を経験する若者の人生のどの時点でも提供できる早期支援サービスを提供している。 本稿では,早期ヘルプ評価と支援を行うために必要な家族を特定するための機械学習(ML)の利用について検討する。 LCCは18歳未満の若者14360人の匿名データセットを提供した。 データセットは前処理され、機械学習モデルが構築され、モデルのパフォーマンスを検証およびテストするために実験が行われた。 これらのモデルの公平性を改善するためにバイアス緩和技術を適用した。 テスト中、これらのモデルは介入や早期支援を必要とする若者を特定する能力を示したが、特に不均衡なデータで構築された場合、早期支援の参照を必要としない可能性のある個人を誤って識別する、かなりの数の偽陽性も生み出した。 本稿では,早期ヘルプサービスを必要とする若年者を特定するためのデータ駆動型MLモデルの適合性を実証的に検討し,その妥当性と限界について考察する。

Local authorities in England, such as Leicestershire County Council (LCC), provide Early Help services that can be offered at any point in a young person's life when they experience difficulties that cannot be supported by universal services alone, such as schools. This paper investigates the utilisation of machine learning (ML) to assist experts in identifying families that may need to be referred for Early Help assessment and support. LCC provided an anonymised dataset comprising 14360 records of young people under the age of 18. The dataset was pre-processed, machine learning models were build, and experiments were conducted to validate and test the performance of the models. Bias mitigation techniques were applied to improve the fairness of these models. During testing, while the models demonstrated the capability to identify young people requiring intervention or early help, they also produced a significant number of false positives, especially when constructed with imbalanced data, incorrectly identifying individuals who most likely did not need an Early Help referral. This paper empirically explores the suitability of data-driven ML models for identifying young people who may require Early Help services and discusses their appropriateness and limitations for this task.
翻訳日:2023-07-14 13:59:12 公開日:2023-07-13
# タスクと運動計画のための身体的生涯学習

Embodied Lifelong Learning for Task and Motion Planning ( http://arxiv.org/abs/2307.06870v1 )

ライセンス: Link先を確認
Jorge A. Mendez and Leslie Pack Kaelbling and Tom\'as Lozano-P\'erez(参考訳) 家庭に長時間展開するロボットは、真の生涯学習問題に直面している。 ユーザーに支援を提供するため、ロボットは蓄積された経験を生かして自身の知識を改善し、より熟練したアシスタントになる必要がある。 本稿では,タスク・アンド・モーション・プランニング(TAMP)の学習の文脈において,この設定を新しい生涯学習問題の定式化で定式化する。 タンプシステムのモジュラリティを活用し,プランナーの候補連続パラメータを生成する生成混合モデルを開発した。 既存のほとんどの生涯学習アプローチはタスクモデル間でデータの共有方法を決定するが、我々のアプローチは共有モデルと非共有モデルを学び、各モデルの状態理解のプロキシとして機能する補助タスクに基づいて、計画中にオンラインを使用する方法を決定する。 提案手法は,シミュレーションされた2次元領域とBEHAVIORベンチマークによるいくつかの問題において,計画成功の大幅な改善を示す。

A robot deployed in a home over long stretches of time faces a true lifelong learning problem. As it seeks to provide assistance to its users, the robot should leverage any accumulated experience to improve its own knowledge to become a more proficient assistant. We formalize this setting with a novel lifelong learning problem formulation in the context of learning for task and motion planning (TAMP). Exploiting the modularity of TAMP systems, we develop a generative mixture model that produces candidate continuous parameters for a planner. Whereas most existing lifelong learning approaches determine a priori how data is shared across task models, our approach learns shared and non-shared models and determines which to use online during planning based on auxiliary tasks that serve as a proxy for each model's understanding of a state. Our method exhibits substantial improvements in planning success on simulated 2D domains and on several problems from the BEHAVIOR benchmark.
翻訳日:2023-07-14 13:58:51 公開日:2023-07-13
# 原子ボソンサンプリング装置

An atomic boson sampler ( http://arxiv.org/abs/2307.06936v1 )

ライセンス: Link先を確認
Aaron W. Young, Shawn Geller, William J. Eckner, Nathan Schine, Scott Glancy, Emanuel Knill, Adam M. Kaufman(参考訳) ボソンサンプリングは量子コンピューティングの制限されたモデルを実装する。 これは、プログラム可能な非相互作用力学に従って伝播する同一ボソンの干渉による分布からサンプリングする能力によって定義される。 本稿では,2次元トンネル結合型光格子における超低温原子を用いたボゾンサンプリングを実現するための新しいツールの組み合わせを示す。 これらのツールには、光学的ツイーザーと高忠実度光冷却による再配置によるほぼ同一のボゾン原子(99.5^{+0.5}_{-1.6}\;\%$ indistinguishability)の大きなアンサンブルの高速かつプログラマブルな調製、低損失(5.0(2)\;\%$、進化時間に依存しない)格子内の可変進化時間の伝播、進化後の原子位置の高忠実度検出(通常99.8(1)\;\%$)が含まれる。 このシステムでは、格子内の$\sim 1000$のサイトに分散した最大180ドルの原子を含むボーソンサンプリングの特定の例を調べている。 この方法では、与えられたボソンサンプリング分布の直接検証は不可能である。 代わりに, 生成した原子の識別不可能性を判定し, 単一粒子ユニタリの応用ファミリーを特徴づけ, 幅広い原子番号の干渉による集団化特性を観察するために, ターゲット試験を導入し, 実施する。 相互作用系に拡張すると、様々なHubbardモデルのシミュレーションにおいて、基底および励起状態を直接組み立てるために必要なコア機能を示す。

A boson sampler implements a restricted model of quantum computing. It is defined by the ability to sample from the distribution resulting from the interference of identical bosons propagating according to programmable, non-interacting dynamics. Here, we demonstrate a new combination of tools for implementing boson sampling using ultracold atoms in a two-dimensional, tunnel-coupled optical lattice. These tools include fast and programmable preparation of large ensembles of nearly identical bosonic atoms ($99.5^{+0.5}_{-1.6}\;\%$ indistinguishability) by means of rearrangement with optical tweezers and high-fidelity optical cooling, propagation for variable evolution time in the lattice with low loss ($5.0(2)\;\%$, independent of evolution time), and high fidelity detection of the atom positions after their evolution (typically $99.8(1)\;\%$). With this system, we study specific instances of boson sampling involving up to $180$ atoms distributed among $\sim 1000$ sites in the lattice. Direct verification of a given boson sampling distribution is not feasible in this regime. Instead, we introduce and perform targeted tests to determine the indistinguishability of the prepared atoms, to characterize the applied family of single particle unitaries, and to observe expected bunching features due to interference for a large range of atom numbers. When extended to interacting systems, our work demonstrates the core capabilities required to directly assemble ground and excited states in simulations of various Hubbard models.
翻訳日:2023-07-14 13:51:35 公開日:2023-07-13
# mBLIP:多言語ビジョンLLMの効率的なブートストラップ

mBLIP: Efficient Bootstrapping of Multilingual Vision-LLMs ( http://arxiv.org/abs/2307.06930v1 )

ライセンス: Link先を確認
Gregor Geigle, Abhay Jain, Radu Timofte, Goran Glava\v{s}(参考訳) モジュラービジョン言語モデル(vision-llms)は、事前学習された画像エンコーダを(事前訓練された)大規模言語モデル(llm)と整合させ、スクラッチからエンド・ツー・エンドの大規模視覚言語モデルのトレーニングに代わる、計算効率のはるかに効率的な代替手段を表現している。 vision-llms 代わりに post-hoc condition llms はイメージエンコーダの出力を 'understand' する。 高品質な英語画像テキストデータとモノリンガルな英語LLMが豊富にあるため、研究は英語のみのビジョンLLMに焦点が当てられている。 テキストのみの多言語コーパスを補足した限られた多言語画像データに基づいて訓練された比較的小さなモデルが得られる。 本研究は,数万のトレーニング例を用いてコンシューマハードウェア上で計算的に効率よく得られる最初の多言語ビジョン-LLMであるmBLIPを,事前学習した多言語LPMを利用して提示する。 この目的のために、我々は以前英語のLLMに調整された画像エンコーダを新しい多言語LLMに変換し、視覚と言語を混在するタスクから多言語データを活用し、高品質な英語データを95言語に機械翻訳することで得られる。 IGLUEベンチマークでは、mBLIPは最先端のモデルと競合する結果を得る。 さらに、XM3600の画像キャプションでは、mBLIP(ゼロショット)はPaLI-X(55Bパラメータのモデル)よりも優れています。 スクラッチから訓練したこれらの非常に大きな多言語視覚言語モデルと比較して、大小データのパラメータを桁違いに減らしてmBLIPを得る。 私たちはモデルとコードを \url{https://github.com/gregor-ge/mBLIP} でリリースします。

Modular vision-language models (Vision-LLMs) align pretrained image encoders with (pretrained) large language models (LLMs), representing a computationally much more efficient alternative to end-to-end training of large vision-language models from scratch, which is prohibitively expensive for most. Vision-LLMs instead post-hoc condition LLMs to `understand' the output of an image encoder. With the abundance of readily available high-quality English image-text data as well as monolingual English LLMs, the research focus has been on English-only Vision-LLMs. Multilingual vision-language models are still predominantly obtained via expensive end-to-end pretraining, resulting in comparatively smaller models, trained on limited multilingual image data supplemented with text-only multilingual corpora. In this work, we present mBLIP, the first multilingual Vision-LLM, which we obtain in a computationally efficient manner -- on consumer hardware using only a few million training examples -- by leveraging a pretrained multilingual LLM. To this end, we \textit{re-align} an image encoder previously tuned to an English LLM to a new, multilingual LLM -- for this, we leverage multilingual data from a mix of vision-and-language tasks, which we obtain by machine-translating high-quality English data to 95 languages. On the IGLUE benchmark, mBLIP yields results competitive with state-of-the-art models. Moreover, in image captioning on XM3600, mBLIP (zero-shot) even outperforms PaLI-X (a model with 55B parameters). Compared to these very large multilingual vision-language models trained from scratch, we obtain mBLIP by training orders of magnitude fewer parameters on magnitudes less data. We release our model and code at \url{https://github.com/gregor-ge/mBLIP}.
翻訳日:2023-07-14 13:50:11 公開日:2023-07-13
# テキスト・画像モデルの高速パーソナライズのためのドメイン非依存チューニングエンコーダ

Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models ( http://arxiv.org/abs/2307.06925v1 )

ライセンス: Link先を確認
Moab Arar, Rinon Gal, Yuval Atzmon, Gal Chechik, Daniel Cohen-Or, Ariel Shamir, Amit H. Bermano(参考訳) text-to-image (t2i)パーソナライズにより、自然言語プロンプトに独自の視覚概念を組み合わせることで、創造的な画像生成プロセスをガイドすることができる。 近年、エンコーダベースの技術がT2Iパーソナライズのための新しい効果的なアプローチとして登場し、複数の画像や長いトレーニング時間の必要性が減っている。 しかし、既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。 本研究では,特定のデータセットやパーソナライズされた概念に関する事前情報を必要としない,ドメインに依存しない手法を提案する。 提案手法では,予測トークンを最も近いCLIPトークンにプッシュすることで,予測された埋め込みを潜在空間の編集可能な領域に近づけつつ,目標概念特性に対する高い忠実性を維持する。 実験結果は,本手法の有効性を示し,未正規化モデルによって予測されるトークンよりも学習トークンがいかに意味的かを示す。 これにより、従来のメソッドよりも柔軟でありながら、最先端のパフォーマンスを実現するための表現性が向上する。

Text-to-image (T2I) personalization allows users to guide the creative image generation process by combining their own visual concepts in natural language prompts. Recently, encoder-based techniques have emerged as a new effective approach for T2I personalization, reducing the need for multiple images and long training times. However, most existing encoders are limited to a single-class domain, which hinders their ability to handle diverse concepts. In this work, we propose a domain-agnostic method that does not require any specialized dataset or prior information about the personalized concepts. We introduce a novel contrastive-based regularization technique to maintain high fidelity to the target concept characteristics while keeping the predicted embeddings close to editable regions of the latent space, by pushing the predicted tokens toward their nearest existing CLIP tokens. Our experimental results demonstrate the effectiveness of our approach and show how the learned tokens are more semantic than tokens predicted by unregularized models. This leads to a better representation that achieves state-of-the-art performance while being more flexible than previous methods.
翻訳日:2023-07-14 13:49:37 公開日:2023-07-13
# DRAGON:視覚言語接地による補助ナビゲーションのための対話型ロボット

DRAGON: A Dialogue-Based Robot for Assistive Navigation with Visual Language Grounding ( http://arxiv.org/abs/2307.06924v1 )

ライセンス: Link先を確認
Shuijing Liu, Aamir Hasan, Kaiwen Hong, Runxuan Wang, Peixin Chang, Zachary Mizrachi, Justin Lin, D. Livingston McPherson, Wendy A. Rogers, and Katherine Driggs-Campbell(参考訳) 視覚障害者(PwVI)は周囲の空間の理解とナビゲーションが困難である。 現在のwayfinding技術は、ナビゲーションのみにフォーカスするか、環境に関する限られたコミュニケーションを提供する。 近年の視覚的接地とセマンティックナビゲーションの進歩に触発されて,対話システムを利用した誘導ロボットDRAGONと,環境と自然言語を関連付ける能力を提案する。 ユーザからのコマンドを理解することで、DRAGONはユーザを地図上の望ましいランドマークに誘導し、環境を記述し、視覚的な観察から質問に答えることができる。 対話の効果的な利用により、ロボットはユーザーの自由形式の記述を環境のランドマークに接地し、音声言語を介してユーザの意味情報を与えることができる。 我々は,日常的な室内環境において,目隠しされた参加者とユーザスタディを行う。 本研究は,DRAGONがユーザと円滑にコミュニケーションし,優れたガイド体験を提供し,ユーザと周囲環境を直感的に接続できることを実証するものである。

Persons with visual impairments (PwVI) have difficulties understanding and navigating spaces around them. Current wayfinding technologies either focus solely on navigation or provide limited communication about the environment. Motivated by recent advances in visual-language grounding and semantic navigation, we propose DRAGON, a guiding robot powered by a dialogue system and the ability to associate the environment with natural language. By understanding the commands from the user, DRAGON is able to guide the user to the desired landmarks on the map, describe the environment, and answer questions from visual observations. Through effective utilization of dialogue, the robot can ground the user's free-form descriptions to landmarks in the environment, and give the user semantic information through spoken language. We conduct a user study with blindfolded participants in an everyday indoor environment. Our results demonstrate that DRAGON is able to communicate with the user smoothly, provide a good guiding experience, and connect users with their surrounding environment in an intuitive manner.
翻訳日:2023-07-14 13:49:16 公開日:2023-07-13
# LLM支援知識グラフ工学:ChatGPTを用いた実験

LLM-assisted Knowledge Graph Engineering: Experiments with ChatGPT ( http://arxiv.org/abs/2307.06917v1 )

ライセンス: Link先を確認
Lars-Peter Meyer, Claus Stadler, Johannes Frey, Norman Radtke, Kurt Junghanns, Roy Meissner, Gordian Dziwis, Kirill Bulert, Michael Martin(参考訳) 知識グラフ(KG)は、社会や産業、科学の分野において、知識とデータをまとめる構造化され、柔軟で、透明で、クロスシステムで、協調的な方法を提供します。 KG は他の表現形式を有効性の観点から超越する。 しかしながら、知識グラフエンジニアリング(KGE)は、グラフ構造、Web技術、既存のモデルと語彙、ルールセット、ロジック、ベストプラクティスの詳細な経験を必要とする。 かなりの量の作業も要求される。 近年の大規模言語モデル(LLM)とそのインターフェースや応用の進歩を考えると,我々はChatGPTを用いてKGEをサポートする可能性を探るため,その総合的な実験を行った。 本稿では,これらの実験の選定と,その成果について紹介し,チャットgptがkgsの開発と管理にどのように役立つかを示す。

Knowledge Graphs (KG) provide us with a structured, flexible, transparent, cross-system, and collaborative way of organizing our knowledge and data across various domains in society and industrial as well as scientific disciplines. KGs surpass any other form of representation in terms of effectiveness. However, Knowledge Graph Engineering (KGE) requires in-depth experiences of graph structures, web technologies, existing models and vocabularies, rule sets, logic, as well as best practices. It also demands a significant amount of work. Considering the advancements in large language models (LLMs) and their interfaces and applications in recent years, we have conducted comprehensive experiments with ChatGPT to explore its potential in supporting KGE. In this paper, we present a selection of these experiments and their results to demonstrate how ChatGPT can assist us in the development and management of KGs.
翻訳日:2023-07-14 13:48:58 公開日:2023-07-13
# 重み付き平均確率勾配降下:漸近正規性と最適性

Weighted Averaged Stochastic Gradient Descent: Asymptotic Normality and Optimality ( http://arxiv.org/abs/2307.06915v1 )

ライセンス: Link先を確認
Ziyang Wei, Wanrong Zhu, Wei Biao Wu(参考訳) Stochastic Gradient Descent (SGD) は、その計算とメモリ効率により、現代の統計学と機械学習において最も単純かつ最も人気のあるアルゴリズムの1つである。 異なる環境でのSGDの収束を加速する様々な平均化スキームが提案されている。 本稿では,SGDの一般的な平均化手法について検討する。 具体的には、幅広い重み付き平均SGDソリューションの漸近正規性を確立し、漸近的に有効なオンライン推論手法を提供する。 さらに, 線形モデルの最適重みから, 非漸近平均二乗誤差(MSE)の観点から, 最適統計率と良好な非漸近収束性の両方を示す適応平均化手法を提案する。

Stochastic Gradient Descent (SGD) is one of the simplest and most popular algorithms in modern statistical and machine learning due to its computational and memory efficiency. Various averaging schemes have been proposed to accelerate the convergence of SGD in different settings. In this paper, we explore a general averaging scheme for SGD. Specifically, we establish the asymptotic normality of a broad range of weighted averaged SGD solutions and provide asymptotically valid online inference approaches. Furthermore, we propose an adaptive averaging scheme that exhibits both optimal statistical rate and favorable non-asymptotic convergence, drawing insights from the optimal weight for the linear model in terms of non-asymptotic mean squared error (MSE).
翻訳日:2023-07-14 13:48:43 公開日:2023-07-13
# 潜在空間分解による一意概念ベクトルの解明

Uncovering Unique Concept Vectors through Latent Space Decomposition ( http://arxiv.org/abs/2307.06913v1 )

ライセンス: Link先を確認
Mara Graziani, Laura O' Mahony, An-Phi Nguyen, Henning M\"uller, Vincent Andrearczyk(参考訳) ディープラーニングモデルの内部動作を解釈することは、信頼の確立とモデルの安全性の確保に不可欠である。 概念に基づく説明は、pixel saliencyのような特徴帰属推定よりも解釈しやすい優れたアプローチとして現れてきた。 しかし,解釈可能性分析の概念の定義は,概念に対するユーザの期待による説明に偏っている。 そこで本研究では,学習中に深層モデルから学んだ概念を自動的に発見するポストホックな教師なし手法を提案する。 特異ベクトルにおける層の潜伏空間を分解し、教師なしクラスタリングによりそれらを精製することにより、モデル予測と関連する高分散方向と意味論的に異なる概念に整合した概念ベクトルを明らかにする。 広範な実験によって、私たちの概念の大部分は、容易に人間に理解でき、一貫性を示し、目の前のタスクに関連があることが明らかになりました。 さらに,データセット探索における本手法の実用的有用性を示すとともに,様々な要因による外乱学習サンプルの同定に成功している。 この新しい探索手法は,データタイプやモデルアーキテクチャに極めて汎用性があり,バイアスの識別や,トレーニングデータ内のエラー発生源の発見が容易になる。

Interpreting the inner workings of deep learning models is crucial for establishing trust and ensuring model safety. Concept-based explanations have emerged as a superior approach that is more interpretable than feature attribution estimates such as pixel saliency. However, defining the concepts for the interpretability analysis biases the explanations by the user's expectations on the concepts. To address this, we propose a novel post-hoc unsupervised method that automatically uncovers the concepts learned by deep models during training. By decomposing the latent space of a layer in singular vectors and refining them by unsupervised clustering, we uncover concept vectors aligned with directions of high variance that are relevant to the model prediction, and that point to semantically distinct concepts. Our extensive experiments reveal that the majority of our concepts are readily understandable to humans, exhibit coherency, and bear relevance to the task at hand. Moreover, we showcase the practical utility of our method in dataset exploration, where our concept vectors successfully identify outlier training samples affected by various confounding factors. This novel exploration technique has remarkable versatility to data types and model architectures and it will facilitate the identification of biases and the discovery of sources of error within training data.
翻訳日:2023-07-14 13:48:30 公開日:2023-07-13
# 言語モデルのファクチュアリティ評価のためのベンチマークの作成

Generating Benchmarks for Factuality Evaluation of Language Models ( http://arxiv.org/abs/2307.06908v1 )

ライセンス: Link先を確認
Dor Muhlgay, Ori Ram, Inbal Magar, Yoav Levine, Nir Ratner, Yonatan Belinkov, Omri Abend, Kevin Leyton-Brown, Amnon Shashua, Yoav Shoham(参考訳) 言語モデル(LM)を特定のドメインにデプロイする前に、そのドメインで事実的に誤った情報を生成する傾向を測定することが重要である。 既存の事実生成評価手法は、lm自体からサンプリングされた事実に焦点を当てているため、評価された事実の集合を制御せず、稀であり得ない事実を過小表現する可能性がある。 本稿では,lmの事実性を評価するためのスケーラブルな手法であるコーパス変換による事実評価を提案する。 FACTORは、興味のある事実のコーパスをLMの正当性を評価するベンチマークに自動的に変換し、コーパスから真事実を生成する。 フレームワークを使用して、Wiki-FACTORとNews-FACTORの2つのベンチマークを作成します。 ご覧の通りです (i)我々のベンチマークスコアはモデルサイズによって増加し、LMが検索で拡張されたときに改善される。 (ii)ベンチマークスコアは難易度と相関するが、2つの指標は必ずしもモデルランキングに一致しない。 (iii) パープレキシティとベンチマークスコアが一致しない場合、後者は、人間の注釈によって測定されるように、開放された世代の事実性をよりよく反映する。 私たちはデータとコードをhttps://github.com/AI21Labs/factorで公開しています。

Before deploying a language model (LM) within a given domain, it is important to measure its tendency to generate factually incorrect information in that domain. Existing factual generation evaluation methods focus on facts sampled from the LM itself, and thus do not control the set of evaluated facts and might under-represent rare and unlikely facts. We propose FACTOR: Factual Assessment via Corpus TransfORmation, a scalable approach for evaluating LM factuality. FACTOR automatically transforms a factual corpus of interest into a benchmark evaluating an LM's propensity to generate true facts from the corpus vs. similar but incorrect statements. We use our framework to create two benchmarks: Wiki-FACTOR and News-FACTOR. We show that: (i) our benchmark scores increase with model size and improve when the LM is augmented with retrieval; (ii) benchmark score correlates with perplexity, but the two metrics do not always agree on model ranking; and (iii) when perplexity and benchmark score disagree, the latter better reflects factuality in open-ended generation, as measured by human annotators. We make our data and code publicly available in https://github.com/AI21Labs/factor.
翻訳日:2023-07-14 13:48:09 公開日:2023-07-13
# 離散群に対する非平衡絡み合い非対称性:XYスピン鎖の例

Non-equilibrium entanglement asymmetry for discrete groups: the example of the XY spin chain ( http://arxiv.org/abs/2307.06902v1 )

ライセンス: Link先を確認
Florent Ferro, Filiberto Ares, Pasquale Calabrese(参考訳) エンタングルメント非対称性(英: entanglement asymmetric)は、エンタングルメント法を用いて、拡張量子系の一部で対称性がどの程度壊れているかを測定する新しい量である。 これまでのところ、連続アーベル対称性の破れを特徴付けるためにのみ用いられてきた。 本稿では、この概念をcyclic $\mathbb{z}_n$ groupに拡張する。 応用例として、強磁性相において基底状態が自発的に$\mathbb{z}_2$スピンパリティ対称性を破るxyスピンチェーンを考える。 大域量子クエンチ後のこの対称性の非平衡力学を徹底的に研究し、標準順序パラメータの既知の結果を一般化する。

The entanglement asymmetry is a novel quantity that, using entanglement methods, measures how much a symmetry is broken in a part of an extended quantum system. So far it has only been used to characterise the breaking of continuous Abelian symmetries. In this paper, we extend the concept to cyclic $\mathbb{Z}_N$ groups. As an application, we consider the XY spin chain, in which the ground state spontaneously breaks the $\mathbb{Z}_2$ spin parity symmetry in the ferromagnetic phase. We thoroughly investigate the non-equilibrium dynamics of this symmetry after a global quantum quench, generalising known results for the standard order parameter.
翻訳日:2023-07-14 13:47:47 公開日:2023-07-13
# HyperDreamBooth: テキスト-画像モデルの高速パーソナライズのためのHyperNetworks

HyperDreamBooth: HyperNetworks for Fast Personalization of Text-to-Image Models ( http://arxiv.org/abs/2307.06949v1 )

ライセンス: Link先を確認
Nataniel Ruiz, Yuanzhen Li, Varun Jampani, Wei Wei, Tingbo Hou, Yael Pritch, Neal Wadhwa, Michael Rubinstein, Kfir Aberman(参考訳) パーソナライゼーションは、生成AIの分野において顕著な側面として現れ、さまざまなコンテキストやスタイルで個人を合成できると同時に、アイデンティティへの高い忠実さを維持している。 しかしながら、パーソナライゼーションのプロセスは、時間とメモリ要件の観点から固有の課題をもたらす。 パーソナライズされたモデル毎の微調整には、gpuの時間的投資が必要であり、パーソナライズされたモデル毎のストレージ容量を要求できる。 これらの課題を克服するために,人物の単一画像から少数の個人化された重みを効率的に生成できるハイパーネットワークHyperDreamBoothを提案する。 これらの重みを拡散モデルに組み込むことで、高速微調整と組み合わせることで、ハイパードリームブートは様々な文脈やスタイルにおいて人の顔を生成できる。 本手法は,DreamBoothと同等の品質とスタイルの多様性を持つ参照画像のみを用いて,DreamBoothの約20秒,25倍,Textual Inversionの125倍の速さで顔のパーソナライズを実現する。 また,本手法はDreamBoothモデルよりも10000倍小さいモデルを生成する。 プロジェクトページ: https://hyperdreambooth.github.io

Personalization has emerged as a prominent aspect within the field of generative AI, enabling the synthesis of individuals in diverse contexts and styles, while retaining high-fidelity to their identities. However, the process of personalization presents inherent challenges in terms of time and memory requirements. Fine-tuning each personalized model needs considerable GPU time investment, and storing a personalized model per subject can be demanding in terms of storage capacity. To overcome these challenges, we propose HyperDreamBooth-a hypernetwork capable of efficiently generating a small set of personalized weights from a single image of a person. By composing these weights into the diffusion model, coupled with fast finetuning, HyperDreamBooth can generate a person's face in various contexts and styles, with high subject details while also preserving the model's crucial knowledge of diverse styles and semantic modifications. Our method achieves personalization on faces in roughly 20 seconds, 25x faster than DreamBooth and 125x faster than Textual Inversion, using as few as one reference image, with the same quality and style diversity as DreamBooth. Also our method yields a model that is 10000x smaller than a normal DreamBooth model. Project page: https://hyperdreambooth.github.io
翻訳日:2023-07-14 13:42:06 公開日:2023-07-13
# 自己制御型プロンプト:基礎的モデル適応

Self-regulating Prompts: Foundational Model Adaptation without Forgetting ( http://arxiv.org/abs/2307.06948v1 )

ライセンス: Link先を確認
Muhammad Uzair Khattak, Syed Talal Wasim, Muzammal Naseer, Salman Khan, Ming-Hsuan Yang and Fahad Shahbaz Khan(参考訳) プロンプト学習は、様々な下流タスクのためのCLIPなどの微調整基盤モデルの効率的な代替手段として登場した。 従来、タスク固有の目的、すなわちクロスエントロピー損失を使用してトレーニングされた場合、下流のデータ分布に過度に適合する傾向があり、凍結したCLIPからタスクに依存しない一般的な特徴を捉えることは困難である。 これにより、モデルの本来の一般化能力が失われる。 この問題に対処するため,本研究では,PromptSRC(Prompting with Self-regulating Constraints)と呼ばれる自己規則化フレームワークを導入する。 PromptSRCは、以下の3つのアプローチを用いて、タスク固有およびタスク非依存の汎用表現を最適化するプロンプトをガイドする。 (a)凍結モデルとの相互合意最大化による{prompted}表現の規制 (b)トレーニングコース上のプロンプトの自己感覚で調整し、その補完的な強みを符号化すること (c)ビジュアルブランチとのサンプル多様性の不均衡を軽減するために、テキスト多様性で調整する。 我々の知る限り、これは、事前訓練されたモデル特徴、プロンプト中の訓練軌跡、テキストの多様性に共同で参加することで過度な適合を避ける、プロンプト学習のための最初の正規化フレームワークである。 PromptSRCは、CLIPの一般化を損なうことなく、下流タスクのパフォーマンスを最大化する表現空間の学習を促す。 我々は4つのベンチマークで広範囲な実験を行い,promptsrcは従来の手法と比較して良好に機能する。 私たちのコードと事前トレーニングされたモデルは、https://github.com/muzairkhattak/PromptSRCで公開されています。

Prompt learning has emerged as an efficient alternative for fine-tuning foundational models, such as CLIP, for various downstream tasks. Conventionally trained using the task-specific objective, i.e., cross-entropy loss, prompts tend to overfit downstream data distributions and find it challenging to capture task-agnostic general features from the frozen CLIP. This leads to the loss of the model's original generalization capability. To address this issue, our work introduces a self-regularization framework for prompting called PromptSRC (Prompting with Self-regulating Constraints). PromptSRC guides the prompts to optimize for both task-specific and task-agnostic general representations using a three-pronged approach by: (a) regulating {prompted} representations via mutual agreement maximization with the frozen model, (b) regulating with self-ensemble of prompts over the training trajectory to encode their complementary strengths, and (c) regulating with textual diversity to mitigate sample diversity imbalance with the visual branch. To the best of our knowledge, this is the first regularization framework for prompt learning that avoids overfitting by jointly attending to pre-trained model features, the training trajectory during prompting, and the textual diversity. PromptSRC explicitly steers the prompts to learn a representation space that maximizes performance on downstream tasks without compromising CLIP generalization. We perform extensive experiments on 4 benchmarks where PromptSRC overall performs favorably well compared to the existing methods. Our code and pre-trained models are publicly available at: https://github.com/muzairkhattak/PromptSRC.
翻訳日:2023-07-14 13:41:41 公開日:2023-07-13
# Video-FocalNets:ビデオ行動認識のための時空間修正

Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action Recognition ( http://arxiv.org/abs/2307.06947v1 )

ライセンス: Link先を確認
Syed Talal Wasim, Muhammad Uzair Khattak, Muzammal Naseer, Salman Khan, Mubarak Shah, Fahad Shahbaz Khan(参考訳) 最近のビデオ認識モデルは、長距離時空間モデリングにTransformerモデルを使用している。 ビデオトランスフォーマーの設計は、高い計算コストでグローバルコンテキストをモデル化できるセルフアテンションに基づいている。 比較として、ビデオの畳み込み設計は効率的な代替手段を提供するが、長距離依存モデリングは欠如している。 この研究は、両方の設計のベストを達成するために、ローカルコンテキストとグローバルコンテキストの両方をモデル化した、ビデオ認識のための効率的かつ効率的なアーキテクチャであるVideo-FocalNetを提案する。 Video-FocalNetは、より効率的な自己注意の相互作用と集約ステップを反転させる、時空間焦点変調アーキテクチャに基づいている。 さらに、アグリゲーションステップとインタラクションステップは、効率的な畳み込みと、ビデオ表現上の自己注意処理よりも計算コストの低い要素乗算演算を用いて実装される。 焦点変調に基づく時空間空間モデルの設計空間を広範に検討し、並列空間および時空間符号化設計が最適選択であることを示す。 Video-FocalNetsは3つの大規模データセット(Kinetics-400, Kinetics-600, SS-v2)上のビデオ認識のための最先端のトランスフォーマーベースモデルに対して、より少ない計算コストで好適に動作する。 私たちのコード/モデルはhttps://github.com/talalwasim/video-focalnetsでリリースしています。

Recent video recognition models utilize Transformer models for long-range spatio-temporal context modeling. Video transformer designs are based on self-attention that can model global context at a high computational cost. In comparison, convolutional designs for videos offer an efficient alternative but lack long-range dependency modeling. Towards achieving the best of both designs, this work proposes Video-FocalNet, an effective and efficient architecture for video recognition that models both local and global contexts. Video-FocalNet is based on a spatio-temporal focal modulation architecture that reverses the interaction and aggregation steps of self-attention for better efficiency. Further, the aggregation step and the interaction step are both implemented using efficient convolution and element-wise multiplication operations that are computationally less expensive than their self-attention counterparts on video representations. We extensively explore the design space of focal modulation-based spatio-temporal context modeling and demonstrate our parallel spatial and temporal encoding design to be the optimal choice. Video-FocalNets perform favorably well against the state-of-the-art transformer-based models for video recognition on three large-scale datasets (Kinetics-400, Kinetics-600, and SS-v2) at a lower computational cost. Our code/models are released at https://github.com/TalalWasim/Video-FocalNets.
翻訳日:2023-07-14 13:41:12 公開日:2023-07-13
# 無限範囲非衝突散逸的横場イジングモデルの厳密解

Exact solution of an infinite-range, non-collective dissipative transverse-field Ising model ( http://arxiv.org/abs/2307.06946v1 )

ライセンス: Link先を確認
David Roberts and Aashish A. Clerk(参考訳) 逆場におけるイジングモデルの散逸的変種は、駆動散逸性量子相転移を理解するためのパラダイム的性格と、原子物理学と量子シミュレーションにおける多様な実験プラットフォームをモデル化する関連性から、オープン量子多体系の解析において最も重要なモデルの1つである。 ここでは、局所散逸と不均一な横場を含む無限範囲相互作用の極限における横場イジングモデルの定常状態の正確な解を示す。 我々の解は、集合スピン対称性や置換対称性が欠如しているにもかかわらず成り立つ。 これは一階および二階の散逸相転移、駆動散逸相臨界を調べ、驚くべき「スピン遮断」現象の出現を捉えることができる。 空間的に変化する局所場を記述するための解の能力は、無秩序な開量子系を数値的手法で扱うのが極めて困難になるような方法で研究する新しいツールを提供する。

The dissipative variant of the Ising model in a transverse field is one of the most important models in the analysis of open quantum many-body systems, due to its paradigmatic character for understanding driven-dissipative quantum phase transitions, as well as its relevance in modelling diverse experimental platforms in atomic physics and quantum simulation. Here, we present an exact solution for the steady state of the transverse-field Ising model in the limit of infinite-range interactions, with local dissipation and inhomogeneous transverse fields. Our solution holds despite the lack of any collective spin symmetry or even permutation symmetry. It allows us to investigate first- and second-order dissipative phase transitions, driven-dissipative criticality, and captures the emergence of a surprising ``spin blockade" phenomenon. The ability of the solution to describe spatially-varying local fields provides a new tool to study disordered open quantum systems in regimes that would be extremely difficult to treat with numerical methods.
翻訳日:2023-07-14 13:40:52 公開日:2023-07-13
# 大規模言語モデルにおけるコンテキスト圧縮のためのインコンテキストオートエンコーダ

In-context Autoencoder for Context Compression in a Large Language Model ( http://arxiv.org/abs/2307.06945v1 )

ライセンス: Link先を確認
Tao Ge, Jing Hu, Xun Wang, Si-Qing Chen, Furu Wei(参考訳) 大規模言語モデル(LLM)における文脈圧縮のためのICAE(In-context Autoencoder)を提案する。 ICAEは、長いコンテキストを限られた数のメモリスロットに圧縮するためのLLMからLoRAに適合する学習可能なエンコーダと、様々な目的のためにメモリスロットに条件付け可能なターゲットのLLMである固定デコーダの2つのモジュールを備える。 まず,大規模テキストデータに対する自動エンコーディングと言語モデリングの目的の両方を用いてicaeを事前学習し,元のコンテキストを正確に包括的に表現するメモリスロットを生成する。 そして,事前学習したICAEを少量のインストラクションデータで微調整し,様々なプロンプトとの相互作用を高め,望ましい応答を生成する。 実験結果から,提案した事前学習および微調整のパラダイムを用いてICAEが,目標LLMが様々なプロンプトに応答するように,4-times$コンテキスト圧縮のメモリスロットを効果的に生成できることが示唆された。 その結果, ICAEの長期的文脈問題への新たなアプローチと, LLM推論における計算およびメモリオーバーヘッドを低減する可能性に, ICAEの意義が示され, 文脈管理におけるさらなる研究が示唆された。 コードとデータはまもなくリリースされます。

We propose the In-context Autoencoder (ICAE) for context compression in a large language model (LLM). The ICAE has two modules: a learnable encoder adapted with LoRA from an LLM for compressing a long context into a limited number of memory slots, and a fixed decoder which is the target LLM that can condition on the memory slots for various purposes. We first pretrain the ICAE using both autoencoding and language modeling objectives on massive text data, enabling it to generate memory slots that accurately and comprehensively represent the original context. Then, we fine-tune the pretrained ICAE on a small amount of instruct data to enhance its interaction with various prompts for producing desirable responses. Our experimental results demonstrate that the ICAE learned with our proposed pretraining and fine-tuning paradigm can effectively produce memory slots with $4\times$ context compression, which can be well conditioned on by the target LLM to respond to various prompts. The promising results demonstrate significant implications of the ICAE for its novel approach to the long context problem and its potential to reduce computation and memory overheads for LLM inference in practice, suggesting further research effort in context management for an LLM. Our code and data will be released shortly.
翻訳日:2023-07-14 13:40:32 公開日:2023-07-13
# InternVid:マルチモーダル理解と生成のための大規模ビデオテキストデータセット

InternVid: A Large-scale Video-Text Dataset for Multimodal Understanding and Generation ( http://arxiv.org/abs/2307.06942v1 )

ライセンス: Link先を確認
Yi Wang, Yinan He, Yizhuo Li, Kunchang Li, Jiashuo Yu, Xin Ma, Xinyuan Chen, Yaohui Wang, Ping Luo, Ziwei Liu, Yali Wang, Limin Wang, Yu Qiao(参考訳) 本稿では,マルチモーダル理解と生成のための強力で転送可能なビデオテキスト表現の学習を可能にする,大規模ビデオ中心のマルチモーダルデータセットinternvidを提案する。 InternVidデータセットは700万本以上のビデオが760万時間近く持続し、合計4.1Bワードの詳細な記述を伴う234万本のビデオクリップを生成する。 我々の中核的な貢献は、大規模言語モデル(LLM)を用いた高品質なビデオテキストデータセットを自律的に構築するスケーラブルなアプローチを開発することである。 具体的には,ビデオ関連記述の生成にマルチスケール手法を用いる。 さらに,ViT-Lに基づくビデオテキスト表現学習モデルであるViCLIPを紹介する。 コントラスト学習を通じてinternvidで学んだこのモデルは、ゼロショットアクション認識と競合するビデオ検索性能を示す。 認識や検索といった基本的なビデオ理解タスク以外にも、データセットとモデルには幅広い応用があります。 これらは、ビデオ中心の対話システムを学ぶためにインターリーブされたビデオテキストデータを生成するのに特に有用である。 これらのリソースは、マルチモーダルビデオ理解と生成に関心を持つ研究者や実践者のためのツールを提供する。

This paper introduces InternVid, a large-scale video-centric multimodal dataset that enables learning powerful and transferable video-text representations for multimodal understanding and generation. The InternVid dataset contains over 7 million videos lasting nearly 760K hours, yielding 234M video clips accompanied by detailed descriptions of total 4.1B words. Our core contribution is to develop a scalable approach to autonomously build a high-quality video-text dataset with large language models (LLM), thereby showcasing its efficacy in learning video-language representation at scale. Specifically, we utilize a multi-scale approach to generate video-related descriptions. Furthermore, we introduce ViCLIP, a video-text representation learning model based on ViT-L. Learned on InternVid via contrastive learning, this model demonstrates leading zero-shot action recognition and competitive video retrieval performance. Beyond basic video understanding tasks like recognition and retrieval, our dataset and model have broad applications. They are particularly beneficial for generating interleaved video-text data for learning a video-centric dialogue system, advancing video-to-text and text-to-video generation research. These proposed resources provide a tool for researchers and practitioners interested in multimodal video understanding and generation.
翻訳日:2023-07-14 13:40:08 公開日:2023-07-13
# ゲーム理論的特徴属性と対実的説明の関連について

On the Connection between Game-Theoretic Feature Attributions and Counterfactual Explanations ( http://arxiv.org/abs/2307.06941v1 )

ライセンス: Link先を確認
Emanuele Albini, Shubham Sharma, Saumitra Mishra, Danial Dervovic, Daniele Magazzeni(参考訳) 説明可能な人工知能(XAI)は近年広く関心を集めており、最も一般的な2つの説明は特徴属性と反事実的説明である。 これらのアプローチのクラスは独立して研究されており、それらを調停しようとする試みは主に経験的だった。 この研究は、ゲーム理論的特徴属性の明確な理論的関係を確立し、SHAPに限らず、反事実的説明に焦点をあてる。 特徴帰属と反事実的説明に基づくシェープリー値の操作的変化を動機づけた後、条件下では、実際に同等であることが証明される。 次に、同値結果をShapley値を超えてゲーム理論の解の概念に拡張する。 さらに,このような同値条件の分析を通じて,非事実的説明を生かして特徴量を提供するという限界を浮き彫りにした。 3つのデータセットの実験は、2つのアプローチ間の関係のどの段階でも説明の相違を定量的に示し、理論的な発見を裏付けるものである。

Explainable Artificial Intelligence (XAI) has received widespread interest in recent years, and two of the most popular types of explanations are feature attributions, and counterfactual explanations. These classes of approaches have been largely studied independently and the few attempts at reconciling them have been primarily empirical. This work establishes a clear theoretical connection between game-theoretic feature attributions, focusing on but not limited to SHAP, and counterfactuals explanations. After motivating operative changes to Shapley values based feature attributions and counterfactual explanations, we prove that, under conditions, they are in fact equivalent. We then extend the equivalency result to game-theoretic solution concepts beyond Shapley values. Moreover, through the analysis of the conditions of such equivalence, we shed light on the limitations of naively using counterfactual explanations to provide feature importances. Experiments on three datasets quantitatively show the difference in explanations at every stage of the connection between the two approaches and corroborate the theoretical findings.
翻訳日:2023-07-14 13:39:46 公開日:2023-07-13
# Animate-A-Story:Retrieval-Augmented Video Generationによるストーリーテリング

Animate-A-Story: Storytelling with Retrieval-Augmented Video Generation ( http://arxiv.org/abs/2307.06940v1 )

ライセンス: Link先を確認
Yingqing He, Menghan Xia, Haoxin Chen, Xiaodong Cun, Yuan Gong, Jinbo Xing, Yong Zhang, Xintao Wang, Chao Weng, Ying Shan, Qifeng Chen(参考訳) ビジュアルストーリーテリングのためのビデオの生成は、通常、実写撮影かグラフィックアニメーションのレンダリングを必要とする、退屈で複雑なプロセスである。 これらの課題を回避するため、我々は既存のビデオクリップを多用し、その外観をカスタマイズしてコヒーレントなストーリーテリングビデオを合成する。 2つの機能モジュールからなるフレームワークを開発することで、これを実現する。 (i)問合せテキストで記述された所望のシーン又は動きの文脈をビデオ候補に提供する動き構造検索 (II)動き構造とテキストプロンプトの指導の下でプロット整列映像を生成する構造ガイド型テキスト・ビデオ合成 最初のモジュールでは、オフザシェルフビデオ検索システムを活用し、動画深度をモーション構造として抽出する。 第2のモジュールでは,構造と文字のフレキシブルな制御を行う制御可能なビデオ生成モデルを提案する。 ビデオは、構造指導と外観指示に従って合成される。 クリップ間の視覚的一貫性を確保するために,テキストプロンプトによる望ましい文字識別の特定を可能にする効果的な概念パーソナライズ手法を提案する。 広範な実験により,既存の様々なベースラインに対して大きなアドバンテージが示された。

Generating videos for visual storytelling can be a tedious and complex process that typically requires either live-action filming or graphics animation rendering. To bypass these challenges, our key idea is to utilize the abundance of existing video clips and synthesize a coherent storytelling video by customizing their appearances. We achieve this by developing a framework comprised of two functional modules: (i) Motion Structure Retrieval, which provides video candidates with desired scene or motion context described by query texts, and (ii) Structure-Guided Text-to-Video Synthesis, which generates plot-aligned videos under the guidance of motion structure and text prompts. For the first module, we leverage an off-the-shelf video retrieval system and extract video depths as motion structure. For the second module, we propose a controllable video generation model that offers flexible controls over structure and characters. The videos are synthesized by following the structural guidance and appearance instruction. To ensure visual consistency across clips, we propose an effective concept personalization approach, which allows the specification of the desired character identities through text prompts. Extensive experiments demonstrate that our approach exhibits significant advantages over various existing baselines.
翻訳日:2023-07-14 13:39:27 公開日:2023-07-13
# 相関センシングによる50スピン量子ビットネットワークのマッピング

Mapping a 50-spin-qubit network through correlated sensing ( http://arxiv.org/abs/2307.06939v1 )

ライセンス: Link先を確認
G.L. van de Stolpe, D. P. Kwiatkowski, C.E. Bradley, J. Randall, S. A. Breitweiser, L. C. Bassett, M. Markham, D.J. Twitchen and T.H. Taminiau(参考訳) 光アクセス可能な固体欠陥に関連するスピンは、量子シミュレーション、量子センシング、量子通信を探求するための汎用プラットフォームとして登場してきた。 先駆的な実験では、単一の電子スピン欠陥を取り囲む複数の核スピンのセンシング、イメージング、制御が示されている。 しかしながら、これらのスピンネットワークのアクセス可能なサイズと複雑さは、現在の方法のスペクトル分解能によって制限されている。 ここでは,50個の結合スピンのネットワークを,ダイヤモンド中の1つの窒素空洞中心を用いて高分解能相関センシング方式でマッピングする。 我々は、ネットワークを介してスピン鎖を識別する連結二重共振列を開発する。 これらの鎖は、特徴的なスピン周波数と高いスペクトル分解能の相互接続を示し、ネットワークをマップアウトするために融合することができる。 この結果は、利用可能なスピン量子ビットの数を増やすことにより、量子シミュレーションの新しい機会を提供する。 さらに, 本手法はホスト結晶外部の複雑なスピン系のナノスケールイメージングに応用できる可能性が示唆された。

Spins associated to optically accessible solid-state defects have emerged as a versatile platform for exploring quantum simulation, quantum sensing and quantum communication. Pioneering experiments have shown the sensing, imaging, and control of multiple nuclear spins surrounding a single electron-spin defect. However, the accessible size and complexity of these spin networks has been constrained by the spectral resolution of current methods. Here, we map a network of 50 coupled spins through high-resolution correlated sensing schemes, using a single nitrogen-vacancy center in diamond. We develop concatenated double-resonance sequences that identify spin-chains through the network. These chains reveal the characteristic spin frequencies and their interconnections with high spectral resolution, and can be fused together to map out the network. Our results provide new opportunities for quantum simulations by increasing the number of available spin qubits. Additionally, our methods might find applications in nano-scale imaging of complex spin systems external to the host crystal.
翻訳日:2023-07-14 13:39:06 公開日:2023-07-13
# テンソルネットワークを用いた量子機械学習の解析

Analyzing quantum machine learning using tensor network ( http://arxiv.org/abs/2307.06937v1 )

ライセンス: Link先を確認
S. Shin, Y. S. Teo, and H. Jeong(参考訳) 変動量子機械学習(VQML)は、変動量子回路を機械学習の計算モデルとして用い、短期量子デバイスにおいて最も有望な応用の1つである。 我々は、VQMLモデルをテンソルネットワーク(TN)として表現し、それをTNのコンテキストで解析する。 我々は、特徴写像がテンソル積によって与えられる制約係数を持つ特徴線型モデル(flm)としてモデルを特定する。 これにより、vqmlと同じ量の前処理のみを使用して、古典的に同じフィーチャーマップを効率的に作成することが可能となり、vqmlモデルと同じ基底関数にまたがる関数空間に存在する古典的なtn機械学習モデルが実現されます。 行列積状態(MPS)を用いてモデルの係数を表現することにより、VQMLモデルの係数を分析し、古典モデルによるVQMLモデルの効率的な近似条件を決定する。 最後に,関数回帰タスクにおけるvqmlと古典モデルの性能をカーネルと変分法を用いて比較し,それらの特徴を強調する。 本稿では,古典的および量子的機械学習モデルをテンソルネットワークの統一フレームワークで比較するための統合的アプローチを提案する。

Variational quantum machine learning (VQML), which employs variational quantum circuits as computational models for machine learning, is considered one of the most promising applications for near-term quantum devices. We represent a VQML model as a tensor network (TN) and analyze it in the context of the TN. We identify the model as a featured linear model (FLM) with a constrained coefficient where the feature map is given by the tensor products. This allows us to create the same feature map classically in an efficient way using only the same amount of pre-processing as VQML, resulting in a classical TN machine learning model that exists within the function space spanned by the same basis functions as VQML models. By representing the coefficient components of the models using matrix product states (MPS), we analyze the coefficients of the VQML model and determine the conditions for efficient approximation of VQML models by classical models. Finally, we compare the performance of the VQML and classical models in function regression tasks using kernel and variational methods, highlighting the distinct characteristics between them. Our work presents a consolidated approach to comparing classical and quantum machine learning models within the unified framework of tensor network.
翻訳日:2023-07-14 13:38:53 公開日:2023-07-13
# 室内シーンの凸分解

Convex Decomposition of Indoor Scenes ( http://arxiv.org/abs/2307.04246v2 )

ライセンス: Link先を確認
Vaibhav Vavilala and David Forsyth(参考訳) 本稿では,複雑な室内シーンをプリミティブに解析する方法について述べる。 プリミティブは単純な凸です。 提案手法は,RGBD入力からシーンを一定数の凸に解析するために学習された回帰手法を用いており,任意のセグメンテーションを受け入れて分解を改善することができる。 その結果は下降法で研磨され、凸を調整して非常によくフィットし、強欲に余分な原始物を取り除く。 シーン全体が解析されるので、従来の深さ、正規度、セグメンテーションエラーメトリクスを使って評価できる。 評価手法により, プリミティブ表現からの誤差は, 一つの画像から深度を予測する誤差に匹敵することを示した。

We describe a method to parse a complex, cluttered indoor scene into primitives which offer a parsimonious abstraction of scene structure. Our primitives are simple convexes. Our method uses a learned regression procedure to parse a scene into a fixed number of convexes from RGBD input, and can optionally accept segmentations to improve the decomposition. The result is then polished with a descent method which adjusts the convexes to produce a very good fit, and greedily removes superfluous primitives. Because the entire scene is parsed, we can evaluate using traditional depth, normal, and segmentation error metrics. Our evaluation procedure demonstrates that the error from our primitive representation is comparable to that of predicting depth from a single image.
翻訳日:2023-07-14 10:20:42 公開日:2023-07-13
# 大規模言語モデルの評価に関する調査

A Survey on Evaluation of Large Language Models ( http://arxiv.org/abs/2307.03109v4 )

ライセンス: Link先を確認
Yupeng Chang, Xu Wang, Jindong Wang, Yuan Wu, Kaijie Zhu, Hao Chen, Linyi Yang, Xiaoyuan Yi, Cunxiang Wang, Yidong Wang, Wei Ye, Yue Zhang, Yi Chang, Philip S. Yu, Qiang Yang, and Xing Xie(参考訳) 大規模言語モデル(LLM)は、様々なアプリケーションにおける前例のない性能のため、学術と産業の両方で人気が高まっている。 LLMは研究と日常利用の両方において重要な役割を担い続けており、その評価はタスクレベルだけでなく社会レベルでもますます重要になり、潜在的なリスクの理解を深めている。 過去数年間、様々な観点からLSMを調べるための重要な努力が続けられてきた。 本稿では, これらのLCMの評価手法を総合的に検討し, 評価方法, 評価方法, 評価方法の3つの重要な側面に着目した。 まず,一般的な自然言語処理タスク,推論,医療利用,倫理,教育,自然科学,社会科学,エージェント応用など,評価タスクの観点から概観する。 第2に,LLMの性能評価において重要な要素である評価手法とベンチマークに飛び乗ることで,'where' と 'how' の質問に答える。 次に、異なるタスクにおけるLCMの成功事例と失敗事例を要約する。 最後に、llms評価の先にあるいくつかの将来の課題に光を当てた。 我々の目的は、LLMの評価の領域における研究者に貴重な洞察を提供することであり、それによってより熟練したLLMの開発を支援することである。 我々のキーポイントは、LCMの開発を支援するために、評価を必須の規律として扱うべきであるということです。 関連したオープンソース資料は、https://github.com/mlgroupjlu/llm-eval-surveyで一貫して保守しています。

Large language models (LLMs) are gaining increasing popularity in both academia and industry, owing to their unprecedented performance in various applications. As LLMs continue to play a vital role in both research and daily use, their evaluation becomes increasingly critical, not only at the task level, but also at the society level for better understanding of their potential risks. Over the past years, significant efforts have been made to examine LLMs from various perspectives. This paper presents a comprehensive review of these evaluation methods for LLMs, focusing on three key dimensions: what to evaluate, where to evaluate, and how to evaluate. Firstly, we provide an overview from the perspective of evaluation tasks, encompassing general natural language processing tasks, reasoning, medical usage, ethics, educations, natural and social sciences, agent applications, and other areas. Secondly, we answer the `where' and `how' questions by diving into the evaluation methods and benchmarks, which serve as crucial components in assessing performance of LLMs. Then, we summarize the success and failure cases of LLMs in different tasks. Finally, we shed light on several future challenges that lie ahead in LLMs evaluation. Our aim is to offer invaluable insights to researchers in the realm of LLMs evaluation, thereby aiding the development of more proficient LLMs. Our key point is that evaluation should be treated as an essential discipline to better assist the development of LLMs. We consistently maintain the related open-source materials at: https://github.com/MLGroupJLU/LLM-eval-survey.
翻訳日:2023-07-14 10:20:28 公開日:2023-07-13
# 3次元顔における創傷充填抽出の促進:自動分割と創傷面再生アプローチ

Advancing Wound Filling Extraction on 3D Faces: Auto-Segmentation and Wound Face Regeneration Approach ( http://arxiv.org/abs/2307.01844v3 )

ライセンス: Link先を確認
Duong Q. Nguyen and Thinh D. Le and Phuong D. Nguyen and Nga T.K. Le and H. Nguyen-Xuan(参考訳) 顔面創傷の分節は, 術前計画および各種医療応用における患者予後の最適化において重要な役割を担っている。 本稿では,2ストリームグラフ畳み込みネットワークを用いた3次元顔面創傷セグメンテーションの効率的な自動化手法を提案する。 提案手法は,Cir3D-FaIRデータセットを活用し,異なる損失関数を用いた広範囲な実験を通じてデータ不均衡の課題に対処する。 精度の高いセグメンテーションを実現するために,徹底的な実験を行い,訓練したモデルから高性能モデルを選択した。 選択したモデルは複雑な3次元顔面外傷に対して例外的なセグメンテーション性能を示す。 さらに, このセグメンテーションモデルに基づいて, 3次元顔の創傷充填体を抽出し, 前報と比較する手法を提案する。 提案手法は, テストスイート上で0.9999986\%の精度を達成し, 先行手法の性能を上回った。 この結果から,3Dプリンティング技術を用いて創傷充填形状を図示する。 本研究の結果は,術前計画と介入設計に関わる医師に有意な影響を及ぼす。 顔の創傷断面積の自動化と創傷充満抽出の精度の向上により, 介入を慎重に評価し, 最適化し, 患者の治療効果を高めることができる。 さらに、皮膚組織インプラントの印刷に機械学習と3dバイオプリンティングを活用し、顔面再建の進歩に寄与する。 ソースコードは \url{https://github.com/SIMOGroup/WoundFilling3D} で公開されています。

Facial wound segmentation plays a crucial role in preoperative planning and optimizing patient outcomes in various medical applications. In this paper, we propose an efficient approach for automating 3D facial wound segmentation using a two-stream graph convolutional network. Our method leverages the Cir3D-FaIR dataset and addresses the challenge of data imbalance through extensive experimentation with different loss functions. To achieve accurate segmentation, we conducted thorough experiments and selected a high-performing model from the trained models. The selected model demonstrates exceptional segmentation performance for complex 3D facial wounds. Furthermore, based on the segmentation model, we propose an improved approach for extracting 3D facial wound fillers and compare it to the results of the previous study. Our method achieved a remarkable accuracy of 0.9999986\% on the test suite, surpassing the performance of the previous method. From this result, we use 3D printing technology to illustrate the shape of the wound filling. The outcomes of this study have significant implications for physicians involved in preoperative planning and intervention design. By automating facial wound segmentation and improving the accuracy of wound-filling extraction, our approach can assist in carefully assessing and optimizing interventions, leading to enhanced patient outcomes. Additionally, it contributes to advancing facial reconstruction techniques by utilizing machine learning and 3D bioprinting for printing skin tissue implants. Our source code is available at \url{https://github.com/SIMOGroup/WoundFilling3D}.
翻訳日:2023-07-14 10:20:03 公開日:2023-07-13
# PatternGPT : 大言語モデルテキスト生成のためのパターン駆動フレームワーク

PatternGPT :A Pattern-Driven Framework for Large Language Model Text Generation ( http://arxiv.org/abs/2307.00470v3 )

ライセンス: Link先を確認
Le Xiao and Xin Shan(参考訳) 大規模言語モデル(LLMS)は、多くのダウンストリームタスクに対して流動的な応答を生成することができる優れたテキスト生成能力を示している。 しかしながら、幻覚への感受性や外部知識を直接使用できないため、実世界の重要なタスクに大規模な言語モデルを適用することは依然として困難である。 そこで本研究では,大規模言語モデルのためのパターン駆動型テキスト生成フレームワークであるPatternGPTを提案する。 まず、フレームワークは大規模言語モデルの抽出機能を利用して、リッチで多様なパターンを生成し、後に連合学習のアイデアを描き出す。 複数のエージェントを使って共有し、より多様なパターンを得る。 最後に、判定基準と最適化アルゴリズムを用いて高品質なパターンを探索し、探索されたパターンを用いてモデルの生成を誘導する。 このフレームワークは、多種多様なパターンの生成、データのプライバシ保護、外部知識の統合、生成品質の向上といった利点があり、大きな言語モデルのテキスト生成能力を最適化し、インテリジェントな対話やコンテンツ生成の分野によりよい適用を可能にする効果的な方法を提供する。

Large language models(LLMS) have shown excellent text generation capabilities,capable of generating fluent responses for many downstream tasks. However,applying large language models to real-world critical tasks remains challenging due to their susceptibility to hallucinations and inability to directly use external knowledge. To address the above challenges,this paper proposes PatternGPT, a pattern-driven text generation framework for large language models. First,the framework utilizes the extraction capabilities of large language models to generate rich and diverse patterns and later draws on the idea of federated learning. Using multiple agents to achieve sharing to obtain more diverse patterns. Finally, it searches for high-quality patterns using judgment criteria and optimization algorithms and uses the searched patterns to guide the model for generation. This framework has the advantages of generating diversified patterns, protecting data privacy,combining external knowledge, and improving the quality of generation, which provides an effective method to optimize the text generation capability of large language models,and make it better applied to the field of intelligent dialogue and content generation.
翻訳日:2023-07-14 10:19:38 公開日:2023-07-13
# 超音波画像認識におけるマスク付きオートエンコーダの劣化

Deblurring Masked Autoencoder is Better Recipe for Ultrasound Image Recognition ( http://arxiv.org/abs/2306.08249v3 )

ライセンス: Link先を確認
Qingbo Kang, Jun Gao, Kang Li, Qicheng Lao(参考訳) masked autoencoder (mae) は前例のない注目を集め、多くの視覚タスクで顕著なパフォーマンスを達成している。 事前トレーニング中にランダムにマスクされたイメージパッチ(プロキシタスクと呼ばれる)を再構築し、下流タスクに転送できる意味のある意味表現を学ぶ。 しかし、超音波画像では、MAEは十分に調査されていない。 本研究では,超音波画像認識におけるMAEの可能性を検討する。 超音波画像の高雑音/信号比に特有の特徴を生かして,プリトレーニング中のプロキシタスクにデブラーリングを組み込んだ新しいデブラーリングMAE手法を提案する。 デブロアリングの追加により、超音波画像に表示される微妙な細部をよりよく復元し、下流分類タスクの性能を向上させることができる。 超音波画像分類における最新の性能を実現するため, 脱毛性maeの有効性を実証した。 全体としては,超音波画像認識におけるmaeの可能性に注目し,デブラリングを組み込んだ新しい手法を提案する。

Masked autoencoder (MAE) has attracted unprecedented attention and achieves remarkable performance in many vision tasks. It reconstructs random masked image patches (known as proxy task) during pretraining and learns meaningful semantic representations that can be transferred to downstream tasks. However, MAE has not been thoroughly explored in ultrasound imaging. In this work, we investigate the potential of MAE for ultrasound image recognition. Motivated by the unique property of ultrasound imaging in high noise-to-signal ratio, we propose a novel deblurring MAE approach that incorporates deblurring into the proxy task during pretraining. The addition of deblurring facilitates the pretraining to better recover the subtle details presented in the ultrasound images, thus improving the performance of the downstream classification task. Our experimental results demonstrate the effectiveness of our deblurring MAE, achieving state-of-the-art performance in ultrasound image classification. Overall, our work highlights the potential of MAE for ultrasound image recognition and presents a novel approach that incorporates deblurring to further improve its effectiveness.
翻訳日:2023-07-14 10:19:20 公開日:2023-07-13
# GEMO-CLAP:ジェンダー属性強化コントラスト言語-Audio Pretraining for Speech Emotion Recognition

GEmo-CLAP: Gender-Attribute-Enhanced Contrastive Language-Audio Pretraining for Speech Emotion Recognition ( http://arxiv.org/abs/2306.07848v4 )

ライセンス: Link先を確認
Yu Pan, Yanni Hu, Yuguang Yang, Jixun Yao, Wen Fei, Lei Ma, Heng Lu(参考訳) コントラスト学習に基づく事前学習手法は,近年,様々な分野において顕著な成功を収めている。 本稿では,音声感情認識のための,ジェンダー属性強調コントラスト言語-audio pretraining (clap) モデルの一種であるgemo-clapを提案する。 具体的には、まず感情認識のための効果的な感情CLAPモデルEmo-CLAPを構築し、様々な自己教師付き学習に基づく事前学習モデルを利用する。 そして、音声感情モデリングにおけるジェンダー属性の重要性を考慮し、2つのGEmo-CLAPアプローチを提案し、音声信号の感情情報とジェンダー情報を統合し、より合理的な目的を形成する。 iemocapコーパスの広範囲な実験により,本提案手法は異なる事前学習モデルでベースラインのemo-clapを一貫して上回り,他の最先端手法よりも優れた認識性能を達成していることが示された。

Contrastive learning based pretraining methods have recently exhibited impressive success in diverse fields. In this paper, we propose GEmo-CLAP, a kind of efficient gender-attribute-enhanced contrastive language-audio pretraining (CLAP) model for speech emotion recognition. To be specific, we first build an effective emotion CLAP model Emo-CLAP for emotion recognition, utilizing various self-supervised learning based pre-trained models. Then, considering the importance of the gender attribute in speech emotion modeling, two GEmo-CLAP approaches are further proposed to integrate the emotion and gender information of speech signals, forming more reasonable objectives. Extensive experiments on the IEMOCAP corpus demonstrate that our proposed two GEmo-CLAP approaches consistently outperform the baseline Emo-CLAP with different pre-trained models, while also achieving superior recognition performance compared with other state-of-the-art methods.
翻訳日:2023-07-14 10:19:03 公開日:2023-07-13
# ベイズ階層モデルの比較のための深層学習法

A Deep Learning Method for Comparing Bayesian Hierarchical Models ( http://arxiv.org/abs/2301.11873v3 )

ライセンス: Link先を確認
Lasse Elsem\"uller, Martin Schnuerch, Paul-Christian B\"urkner, Stefan T. Radev(参考訳) ベイズモデル比較(BMC)は、競合する計算モデルの相対的な利点を評価し、不確実性をモデル選択決定に伝播する原理的なアプローチを提供する。 しかし、BMCは高次元ネストパラメータ構造のため、一般的な階層モデルのクラスにとってしばしば難解である。 この難易度に対処するために,確率的プログラムとしてインスタンス化可能な階層モデルの集合上でBMCを実行する深層学習手法を提案する。 そこで本手法では,任意の実データアプリケーションに先立って,後続モデル確率の効率的な再推定と高速な性能検証を可能にする。 そこで本研究では, 提案手法の性能を最先端の橋梁サンプリング法と比較し, 全てのBMC設定において優れた償却推論を示す。 次に,従来bmcでは難解であった4つの階層的エビデンス蓄積モデルを比較し,その手法を示す。 本稿では,最近提案されたL'evy飛行モデルによる意思決定の実証と,伝達学習の活用による学習効率の向上を実証する。 すべての解析に再現可能なコードを提供し,オープンソースで実装する。

Bayesian model comparison (BMC) offers a principled approach for assessing the relative merits of competing computational models and propagating uncertainty into model selection decisions. However, BMC is often intractable for the popular class of hierarchical models due to their high-dimensional nested parameter structure. To address this intractability, we propose a deep learning method for performing BMC on any set of hierarchical models which can be instantiated as probabilistic programs. Since our method enables amortized inference, it allows efficient re-estimation of posterior model probabilities and fast performance validation prior to any real-data application. In a series of extensive validation studies, we benchmark the performance of our method against the state-of-the-art bridge sampling method and demonstrate excellent amortized inference across all BMC settings. We then showcase our method by comparing four hierarchical evidence accumulation models that have previously been deemed intractable for BMC due to partly implicit likelihoods. In this application, we corroborate evidence for the recently proposed L\'evy flight model of decision-making and show how transfer learning can be leveraged to enhance training efficiency. We provide reproducible code for all analyses and an open-source implementation of our method.
翻訳日:2023-07-14 10:18:43 公開日:2023-07-13
# 長いステップを通したより高速なグラディエント染料

Provably Faster Gradient Descent via Long Steps ( http://arxiv.org/abs/2307.06324v2 )

ライセンス: Link先を確認
Benjamin Grimmer(参考訳) 本研究は, コンピュータ支援解析手法により, 勾配降下の収束速度を向上させる。 本理論は、多くの反復の全体的な効果を、ほとんどの一階法分析で使われる典型的な単文帰納法ではなく、一度に分析することにより、頻繁な長いステップでポリシーを段階化することを可能にする。 短期的に客観的な価値を高めるための長いステップは、長期的には確実により早く収束することを示している。 勾配降下のより高速な$O(1/T\log T)$レートを証明するための予想も、単純な数値検証と共に動機付けられる。

This work establishes provably faster convergence rates for gradient descent via a computer-assisted analysis technique. Our theory allows nonconstant stepsize policies with frequent long steps potentially violating descent by analyzing the overall effect of many iterations at once rather than the typical one-iteration inductions used in most first-order method analyses. We show that long steps, which may increase the objective value in the short term, lead to provably faster convergence in the long term. A conjecture towards proving a faster $O(1/T\log T)$ rate for gradient descent is also motivated along with simple numerical validation.
翻訳日:2023-07-14 10:14:43 公開日:2023-07-13
# 運用支援推定ネットワーク

Operational Support Estimator Networks ( http://arxiv.org/abs/2307.06065v2 )

ライセンス: Link先を確認
Mete Ahishali, Mehmet Yamac, Serkan Kiranyaz, Moncef Gabbouj(参考訳) 本研究では,提案手法であるosens(operational support estimator networks)を提案する。 サポート推定(SE)はスパース信号における非ゼロ要素の位置を見つけるものとして定義される。 その性質上、測定とスパース信号のマッピングは非線形演算である。 従来の支援推定器は、そのような非線形性を達成するために計算コストの高い反復信号回復技術に依存している。 畳み込み層とは対照的に、提案されたOSENアプローチは、深いネットワークを必要としない複雑な非線形性を学ぶことができる運用層で構成されている。 これにより、非観念的サポート推定の性能が大幅に向上する。 さらに、操作層は、非局所カーネルといわゆる生成的 \textit{super neurons} から構成される。 各ニューロン/機能マップのカーネル位置は、トレーニング中にSEタスクに共同で最適化される。 我々はosensを3つの異なるアプリケーションで評価する。 圧縮センシング(cs)測定からの支持推定(ii) 表現に基づく分類,およびiii。 学習支援型CS再構成では,OSENの出力をCSアルゴリズムの事前知識として使用し,改良された再構成を行う。 実験結果から,提案手法は計算効率を向上し,特に低測定率での競合手法よりも優れることがわかった。 ソフトウェアの実装はhttps://github.com/meteahishali/osenで公開されている。

In this work, we propose a novel approach called Operational Support Estimator Networks (OSENs) for the support estimation task. Support Estimation (SE) is defined as finding the locations of non-zero elements in a sparse signal. By its very nature, the mapping between the measurement and sparse signal is a non-linear operation. Traditional support estimators rely on computationally expensive iterative signal recovery techniques to achieve such non-linearity. Contrary to the convolution layers, the proposed OSEN approach consists of operational layers that can learn such complex non-linearities without the need for deep networks. In this way, the performance of the non-iterative support estimation is greatly improved. Moreover, the operational layers comprise so-called generative \textit{super neurons} with non-local kernels. The kernel location for each neuron/feature map is optimized jointly for the SE task during the training. We evaluate the OSENs in three different applications: i. support estimation from Compressive Sensing (CS) measurements, ii. representation-based classification, and iii. learning-aided CS reconstruction where the output of OSENs is used as prior knowledge to the CS algorithm for an enhanced reconstruction. Experimental results show that the proposed approach achieves computational efficiency and outperforms competing methods, especially at low measurement rates by a significant margin. The software implementation is publicly shared at https://github.com/meteahishali/OSEN.
翻訳日:2023-07-14 10:14:32 公開日:2023-07-13
# balance -- 偏りのあるデータサンプルのバランスをとるpythonパッケージ

balance -- a Python package for balancing biased data samples ( http://arxiv.org/abs/2307.06024v2 )

ライセンス: Link先を確認
Tal Sarig, Tal Galili, Roee Eilat(参考訳) 調査は重要な調査ツールであり、他の手段では測定できない感情や意見などの主観的経験のユニークな測定を提供する。 しかし、調査データは、自己選択された参加者のグループから収集され、関心の集団に直接洞察を直接推論したり、そのようなデータに基づいてMLモデルを訓練したりすることで、誤った見積もりや過小評価モデルにつながる可能性がある。 本稿では,meta によるオープンソースの python パッケージである balance について述べる。興味のある人に対して偏りのあるデータサンプルを解析・調整するための簡単なワークフローを提供する。 バランスワークフローには、3つのステップがある: ターゲットに対するデータの初期バイアスを理解し、適合度スコアに基づいてサンプルの各ユニットの重みを生成してバイアスを正すようにデータを調整し、装着した重みを適用した後の最終的なバイアスと分散インフレーションを評価する。 このパッケージは、研究者やデータサイエンティストがさまざまな分野のさまざまなデータから利用できるシンプルなAPIを提供する。 本稿では,関連するコンテキスト,方法論的背景,パッケージのAPIについて述べる。

Surveys are an important research tool, providing unique measurements on subjective experiences such as sentiment and opinions that cannot be measured by other means. However, because survey data is collected from a self-selected group of participants, directly inferring insights from it to a population of interest, or training ML models on such data, can lead to erroneous estimates or under-performing models. In this paper we present balance, an open-source Python package by Meta, offering a simple workflow for analyzing and adjusting biased data samples with respect to a population of interest. The balance workflow includes three steps: understanding the initial bias in the data relative to a target we would like to infer, adjusting the data to correct for the bias by producing weights for each unit in the sample based on propensity scores, and evaluating the final biases and the variance inflation after applying the fitted weights. The package provides a simple API that can be used by researchers and data scientists from a wide range of fields on a variety of data. The paper provides the relevant context, methodological background, and presents the package's API.
翻訳日:2023-07-14 10:14:13 公開日:2023-07-13
# 画像技術による時系列ギャップの充填:多次元コンテキストオートエンコーダによるエネルギーデータインプテーションの構築

Filling time-series gaps using image techniques: Multidimensional context autoencoder approach for building energy data imputation ( http://arxiv.org/abs/2307.05926v2 )

ライセンス: Link先を確認
Chun Fu, Matias Quintana, Zoltan Nagy, Clayton Miller(参考訳) エネルギー予測と管理の構築は、IoT(Internet of Things)デバイスの成長と、より多くのエネルギーデータの提供によって、ここ数十年でますます重要になっている。 しかし、エネルギーデータは、しばしば複数の源から収集され、不完全または一貫性がなく、正確なエネルギーシステムの予測と管理を阻害し、意思決定と研究のためのデータの有用性を制限できる。 この問題に対処するため、過去の研究では、ランダムと連続のギャップを含むエネルギーデータの欠落を補うことに重点を置いてきた。 この領域の主な課題の1つは、様々なビルディングとメータータイプを持つベンチマークデータセットに対する検証の欠如であり、異なる計算方法のパフォーマンスを正確に評価することは困難である。 もう1つの課題は、エネルギーデータの欠如に対する最先端のインプテーション法の適用がないことである。 部分的畳み込み (PConv) のような現代の画像インパインティング手法はコンピュータビジョン領域で広く使われており、複雑な欠落パターンを扱う上での有効性を実証している。 画像に基づく深層学習法からエネルギーデータインプテーションが恩恵を受けるかどうかを検討するため、pconv、畳み込みニューラルネットワーク(cnns)、週間持続法を比較し、世界1479の電力計からなる最大公に利用可能な建築エネルギーデータセットの1つをベンチマークとした。 その結果,CNNと生の時系列(1D-CNN)と週毎の持続法と比較すると,2次元のエネルギーデータを持つニューラルネットワークモデルは平均二乗誤差(MSE)を10%から30%削減した。 高度なディープラーニング手法であるPartial Convolution (PConv)は、MSEを2D-CNNよりも20-30%削減し、全てのモデルで際立っている。

Building energy prediction and management has become increasingly important in recent decades, driven by the growth of Internet of Things (IoT) devices and the availability of more energy data. However, energy data is often collected from multiple sources and can be incomplete or inconsistent, which can hinder accurate predictions and management of energy systems and limit the usefulness of the data for decision-making and research. To address this issue, past studies have focused on imputing missing gaps in energy data, including random and continuous gaps. One of the main challenges in this area is the lack of validation on a benchmark dataset with various building and meter types, making it difficult to accurately evaluate the performance of different imputation methods. Another challenge is the lack of application of state-of-the-art imputation methods for missing gaps in energy data. Contemporary image-inpainting methods, such as Partial Convolution (PConv), have been widely used in the computer vision domain and have demonstrated their effectiveness in dealing with complex missing patterns. To study whether energy data imputation can benefit from the image-based deep learning method, this study compared PConv, Convolutional neural networks (CNNs), and weekly persistence method using one of the biggest publicly available whole building energy datasets, consisting of 1479 power meters worldwide, as the benchmark. The results show that, compared to the CNN with the raw time series (1D-CNN) and the weekly persistence method, neural network models with reshaped energy data with two dimensions reduced the Mean Squared Error (MSE) by 10% to 30%. The advanced deep learning method, Partial convolution (PConv), has further reduced the MSE by 20-30% than 2D-CNN and stands out among all models.
翻訳日:2023-07-14 10:13:36 公開日:2023-07-13
# 放射線医のような放射線画像を読む

Reading Radiology Imaging Like The Radiologist ( http://arxiv.org/abs/2307.05921v2 )

ライセンス: Link先を確認
Yuhao Wang(参考訳) 自動放射線学レポート生成は、放射線学イメージングのリッチできめ細かい記述を含む放射線学レポートを生成することを目的としている。 自然画像領域の画像キャプションと比較すると、医療画像は互いに非常によく似ており、疾患の発生にはほとんど差異がない。 放射線学レポートにおけるこれらの小さな違いの重要性を考えると、モデルに病気の発生の微妙な領域にもっと集中するよう促すことが重要である。 第二に、視覚的およびテキスト的データバイアスの問題は深刻である。 通常のケースがデータセットの大部分を占めるだけでなく、病的変化のある部分を記述する文も、段落のごく一部を構成するのみである。 最後に、医療画像レポートの生成には、医療知識の専門知識と経験的トレーニングを必要とする長いテキスト生成の課題が伴う。 その結果、このようなレポートを生成するのが困難になる。 これらの課題に対処するため,我々は,同様の報告を先行知識参照として利用する疾患指向検索フレームワークを提案する。 我々は、より正確かつ事実的に一貫した疾患記述を生成するために、事実整合性キャプション生成器を設計する。 本研究の枠組みは,CXRデータベースから,その位置と形態的特徴からなる疾患指向マスクを検索することによって,疾患に関する最も類似した報告を見つけることができる。 疾患指向の類似報告と視覚的特徴を参照することにより、事実整合性モデルはより正確な放射線診断レポートを生成することができる。

Automated radiology report generation aims to generate radiology reports that contain rich, fine-grained descriptions of radiology imaging. Compared with image captioning in the natural image domain, medical images are very similar to each other, with only minor differences in the occurrence of diseases. Given the importance of these minor differences in the radiology report, it is crucial to encourage the model to focus more on the subtle regions of disease occurrence. Secondly, the problem of visual and textual data biases is serious. Not only do normal cases make up the majority of the dataset, but sentences describing areas with pathological changes also constitute only a small part of the paragraph. Lastly, generating medical image reports involves the challenge of long text generation, which requires more expertise and empirical training in medical knowledge. As a result, the difficulty of generating such reports is increased. To address these challenges, we propose a disease-oriented retrieval framework that utilizes similar reports as prior knowledge references. We design a factual consistency captioning generator to generate more accurate and factually consistent disease descriptions. Our framework can find most similar reports for a given disease from the CXR database by retrieving a disease-oriented mask consisting of the position and morphological characteristics. By referencing the disease-oriented similar report and the visual features, the factual consistency model can generate a more accurate radiology report.
翻訳日:2023-07-14 10:13:03 公開日:2023-07-13
# エッジ/クラウドコンピューティング環境におけるディジタルツインの効率的なタスクオフロードアルゴリズム

Efficient Task Offloading Algorithm for Digital Twin in Edge/Cloud Computing Environment ( http://arxiv.org/abs/2307.05888v2 )

ライセンス: Link先を確認
Ziru Zhang, Xuling Zhang, Guangzhi Zhu, Yuyang Wang and Pan Hui(参考訳) モノのインターネット(IoT)の時代において、デジタルツイン(DT)は物理オブジェクトとデジタル世界の間の橋渡しとして、様々な領域に力を与えることを想定している。 仮想化とシミュレーション技術によって、コンピューティングリソースを活用することで、複数の機能を実現できる。 このプロセスでは、リアルタイムフィードバックを実現する上で、Mobile Cloud Computing(MCC)とMobile Edge Computing(MEC)の2つが重要な要素となっている。 しかしながら、現在の動作は、DTシステムモデルにおけるエッジサーバまたはクラウドサーバのみである。 さらに、モデルは1つのデータリソースだけでDTを無視します。 本稿では異種MEC/MCC環境を考慮した新しいDTシステムモデルを提案する。 モデル内の各DTは、複数のデータ収集デバイスを介してサーバの1つで維持される。 オフロード決定問題についても検討し,分散ディープラーニング(DDL)に基づく新しいオフロード方式を提案する。 シミュレーションの結果,提案アルゴリズムは,システムの平均遅延とエネルギー消費を効果的かつ効率的に低減できることを示した。 DTの動的環境下でのベースラインと比較して重要な改善が達成される。

In the era of Internet of Things (IoT), Digital Twin (DT) is envisioned to empower various areas as a bridge between physical objects and the digital world. Through virtualization and simulation techniques, multiple functions can be achieved by leveraging computing resources. In this process, Mobile Cloud Computing (MCC) and Mobile Edge Computing (MEC) have become two of the key factors to achieve real-time feedback. However, current works only considered edge servers or cloud servers in the DT system models. Besides, The models ignore the DT with not only one data resource. In this paper, we propose a new DT system model considering a heterogeneous MEC/MCC environment. Each DT in the model is maintained in one of the servers via multiple data collection devices. The offloading decision-making problem is also considered and a new offloading scheme is proposed based on Distributed Deep Learning (DDL). Simulation results demonstrate that our proposed algorithm can effectively and efficiently decrease the system's average latency and energy consumption. Significant improvement is achieved compared with the baselines under the dynamic environment of DTs.
翻訳日:2023-07-14 10:12:40 公開日:2023-07-13
# PIGEON:画像位置情報の予測

PIGEON: Predicting Image Geolocations ( http://arxiv.org/abs/2307.05845v2 )

ライセンス: Link先を確認
Lukas Haas, Michal Skreta, Silas Alberti(参考訳) 本稿では,外部ベンチマークと人的評価の両面において,最先端の性能を実現するマルチタスク・エンド・ツー・エンド・システムであるPIGEONを紹介する。 本研究は,ラベルの平滑化によるセマンティックジオセル生成を取り入れ,地理情報を用いた画像上でのビジョントランスフォーマーの事前学習を行い,ジオセルの候補集合をまたいだProtoNetによる位置予測を洗練する。 まず、任意の地理空間データセットに適合可能なオープンソースのデータに基づいて、セマンティックなジオセルの作成と分割アルゴリズムを設計する。 第2に,非教師なしクラスタリングとProtNetのタスクへの適用性について検討した。 最後に,我々の事前学習型CLIPトランスフォーマーモデルであるStreetCLIPを,気候変動対策や都市・農村の景観理解への応用として,近隣のドメインで一般に利用可能にしている。

We introduce PIGEON, a multi-task end-to-end system for planet-scale image geolocalization that achieves state-of-the-art performance on both external benchmarks and in human evaluation. Our work incorporates semantic geocell creation with label smoothing, conducts pretraining of a vision transformer on images with geographic information, and refines location predictions with ProtoNets across a candidate set of geocells. The contributions of PIGEON are three-fold: first, we design a semantic geocells creation and splitting algorithm based on open-source data which can be adapted to any geospatial dataset. Second, we show the effectiveness of intra-geocell refinement and the applicability of unsupervised clustering and ProtNets to the task. Finally, we make our pre-trained CLIP transformer model, StreetCLIP, publicly available for use in adjacent domains with applications to fighting climate change and urban and rural scene understanding.
翻訳日:2023-07-14 10:12:25 公開日:2023-07-13
# AIフェアネスとバイアスにおける蝶効果

The Butterfly Effect in AI Fairness and Bias ( http://arxiv.org/abs/2307.05842v2 )

ライセンス: Link先を確認
Emilio Ferrara(参考訳) カオス理論を起源とするバタフライ効果は、小さな変化が複雑なシステムに対して、いかに重要かつ予測不能な影響をもたらすかを強調するものだ。 AIフェアネスとバイアスの文脈では、バタフライエフェクトは、アルゴリズム開発中の小さなバイアスや歪んだデータ入力、トレーニング中のサドルポイント、トレーニングとテストフェーズ間のデータの分散シフトなど、さまざまなソースに由来する可能性がある。 これらの一見小さな変化は、予期せぬ、実質的な不公平な結果をもたらす可能性がある。 さらに、バタフライエフェクトは、データやアルゴリズム内の固有のバイアスを増幅し、フィードバックループを悪化させ、敵攻撃の脆弱性を作成することができる。 AIシステムの複雑な性質とその社会的意味を考えると、意図しない結果をもたらす可能性のあるアルゴリズムや入力データの変更を徹底的に検討することが不可欠である。 本稿では,aiシステムにおけるバタフライ効果の検出,定量化,緩和のためのアルゴリズム的戦略と経験的戦略の両方を想定し,公平性を促進し,責任あるai開発を確実にするためにこれらの課題に取り組むことの重要性を強調する。

The Butterfly Effect, a concept originating from chaos theory, underscores how small changes can have significant and unpredictable impacts on complex systems. In the context of AI fairness and bias, the Butterfly Effect can stem from a variety of sources, such as small biases or skewed data inputs during algorithm development, saddle points in training, or distribution shifts in data between training and testing phases. These seemingly minor alterations can lead to unexpected and substantial unfair outcomes, disproportionately affecting underrepresented individuals or groups and perpetuating pre-existing inequalities. Moreover, the Butterfly Effect can amplify inherent biases within data or algorithms, exacerbate feedback loops, and create vulnerabilities for adversarial attacks. Given the intricate nature of AI systems and their societal implications, it is crucial to thoroughly examine any changes to algorithms or input data for potential unintended consequences. In this paper, we envision both algorithmic and empirical strategies to detect, quantify, and mitigate the Butterfly Effect in AI systems, emphasizing the importance of addressing these challenges to promote fairness and ensure responsible AI development.
翻訳日:2023-07-14 10:12:05 公開日:2023-07-13
# Rad-ReStruct: 構造化ラジオロジーレポートのための新しいVQAベンチマークと方法

Rad-ReStruct: A Novel VQA Benchmark and Method for Structured Radiology Reporting ( http://arxiv.org/abs/2307.05766v2 )

ライセンス: Link先を確認
Chantal Pellegrini, Matthias Keicher, Ege \"Ozsoy, Nassir Navab(参考訳) 放射線医学の報告は、放射線医と他の医療専門家の間でのコミュニケーションにおいて重要な部分であるが、時間とエラーの危険性がある。 これを軽減する1つのアプローチは構造化レポートであり、これは時間を節約し、自由テキストレポートよりも正確な評価を可能にする。 しかし、構造化レポートの自動化に関する研究は限られており、異なる方法を評価し比較するための公開ベンチマークは提供されていない。 このギャップを埋めるために、X線画像の構造化レポートの形式で微細で階層的に順序付けられたアノテーションを提供する新しいベンチマークデータセットRad-ReStructを導入する。 本稿では,階層的視覚的質問応答 (VQA) として構造化された報告課題をモデル化し,従来質問されていた質問や回答の形式で事前の文脈を考察する手法であるhi-VQAを提案する。 実験の結果,Hu-VQAは,医用VQAベンチマークVQARADにおいて,ドメイン固有の視覚言語事前学習を伴わない手法の中で最高の性能を示し,Rad-Reructの強力なベースラインを提供する。 我々の研究は、構造化放射線学レポートの自動化に向けた重要な一歩であり、この分野における将来の研究のための貴重な第1のベンチマークを提供する。 アノテーションの生成、モデル評価、トレーニングのためのすべてのアノテーションとコードを、受け入れ次第公開します。 データセットとコードはhttps://github.com/ChantalMP/Rad-ReStruct.comから入手可能です。

Radiology reporting is a crucial part of the communication between radiologists and other medical professionals, but it can be time-consuming and error-prone. One approach to alleviate this is structured reporting, which saves time and enables a more accurate evaluation than free-text reports. However, there is limited research on automating structured reporting, and no public benchmark is available for evaluating and comparing different methods. To close this gap, we introduce Rad-ReStruct, a new benchmark dataset that provides fine-grained, hierarchically ordered annotations in the form of structured reports for X-Ray images. We model the structured reporting task as hierarchical visual question answering (VQA) and propose hi-VQA, a novel method that considers prior context in the form of previously asked questions and answers for populating a structured radiology report. Our experiments show that hi-VQA achieves competitive performance to the state-of-the-art on the medical VQA benchmark VQARad while performing best among methods without domain-specific vision-language pretraining and provides a strong baseline on Rad-ReStruct. Our work represents a significant step towards the automated population of structured radiology reports and provides a valuable first benchmark for future research in this area. We will make all annotations and our code for annotation generation, model evaluation, and training publicly available upon acceptance. Our dataset and code is available at https://github.com/ChantalMP/Rad-ReStruct.
翻訳日:2023-07-14 10:11:44 公開日:2023-07-13
# ビデオ分類における段階的知識蒸留:補足的弱監視フレームワークによる学生の進歩の調和

The Staged Knowledge Distillation in Video Classification: Harmonizing Student Progress by a Complementary Weakly Supervised Framework ( http://arxiv.org/abs/2307.05201v2 )

ライセンス: Link先を確認
Chao Wang, Zheng Tang(参考訳) ビデオデータにおけるラベル効率学習の文脈では, 蒸留法と教師-学生アーキテクチャの構造設計が知識蒸留に大きな影響を及ぼす。 しかし、これらの要因の関係は以前の研究では見過ごされている。 このギャップに対処するために,学生モデルの効率と精度を向上させるために,ビデオ分類における知識蒸留のための弱教師付き学習フレームワークを提案する。 本手法は,サブステージ学習の概念を活用し,学生サブステージとそれに対応するサブステージの相関関係に基づいて知識を蒸留する。 また,教師と生徒の容量差が大きいことによって生じる精度損失に対処するために,プログレッシブ・カスケード・トレーニング手法を用いた。 さらに,初期データラベルを改善するための擬似ラベル最適化戦略を提案する。 訓練過程における蒸留サブステージの損失関数を最適化するために,特徴分布に基づく新しい損失法を提案する。 実データとシミュレーションデータの両方について広範な実験を行い,ビデオ分類作業における知識蒸留の観点から,提案手法が既存の蒸留方法より優れていることを示す。 提案手法は,ビデオデータに対するラベル効率学習の今後の研究の可能性を秘めている。

In the context of label-efficient learning on video data, the distillation method and the structural design of the teacher-student architecture have a significant impact on knowledge distillation. However, the relationship between these factors has been overlooked in previous research. To address this gap, we propose a new weakly supervised learning framework for knowledge distillation in video classification that is designed to improve the efficiency and accuracy of the student model. Our approach leverages the concept of substage-based learning to distill knowledge based on the combination of student substages and the correlation of corresponding substages. We also employ the progressive cascade training method to address the accuracy loss caused by the large capacity gap between the teacher and the student. Additionally, we propose a pseudo-label optimization strategy to improve the initial data label. To optimize the loss functions of different distillation substages during the training process, we introduce a new loss method based on feature distribution. We conduct extensive experiments on both real and simulated data sets, demonstrating that our proposed approach outperforms existing distillation methods in terms of knowledge distillation for video classification tasks. Our proposed substage-based distillation approach has the potential to inform future research on label-efficient learning for video data.
翻訳日:2023-07-14 10:11:16 公開日:2023-07-13