このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230812となっている論文です。

PDF登録状況(公開日: 20230812)

TitleAuthorsAbstract論文公表日・翻訳日
# GitHubのコパイロットはコードの脆弱性導入時に人間と同じくらい悪いか?

Is GitHub's Copilot as Bad as Humans at Introducing Vulnerabilities in Code? ( http://arxiv.org/abs/2204.04741v4 )

ライセンス: Link先を確認
Owura Asare, Meiyappan Nagappan, N. Asokan(参考訳) ディープラーニングのいくつかの進歩は、ソフトウェア開発プロセスにうまく適用されています。 最近の関心は、コードの記述を支援するCopilotのようなツールを構築するために、ニューラルネットワークモデルを使用することだ。 本稿では,セキュリティの観点から,コパイロット生成コードの比較実験解析を行う。 この研究の目的は、Copilotが人間開発者と同じくらい悪いかどうかを判断することである。 copilotが人間の開発者と同じソフトウェア脆弱性をもたらす可能性があるかどうかを調査した。 c/c++の脆弱性のデータセットを使用することで、copilotに、人間開発者による脆弱性導入につながるシナリオの提案を推奨します。 提案は、元の脆弱性や修正が再導入されるかどうかに基づいて、2段階のプロセスで検査および分類される。 Copilotは元の脆弱性のあるコードを33%の時間で複製し、固定されたコードを25%のレートで複製しています。 copilotは他の脆弱性よりもいくつかのタイプの脆弱性を導入する可能性が高く、古い脆弱性に対応するプロンプトに応答して脆弱なコードを生成する可能性も高い。 全体として、多くのケースにおいて、これまで人間の開発者が導入した脆弱性を再現していなかったことを踏まえると、copilotは様々な脆弱性タイプで異なるパフォーマンスをしているにもかかわらず、コードに脆弱性を導入する人間の開発者ほど悪くはないと結論づけています。

Several advances in deep learning have been successfully applied to the software development process. Of recent interest is the use of neural language models to build tools, such as Copilot, that assist in writing code. In this paper we perform a comparative empirical analysis of Copilot-generated code from a security perspective. The aim of this study is to determine if Copilot is as bad as human developers. We investigate whether Copilot is just as likely to introduce the same software vulnerabilities as human developers. Using a dataset of C/C++ vulnerabilities, we prompt Copilot to generate suggestions in scenarios that led to the introduction of vulnerabilities by human developers. The suggestions are inspected and categorized in a 2-stage process based on whether the original vulnerability or fix is reintroduced. We find that Copilot replicates the original vulnerable code about 33% of the time while replicating the fixed code at a 25% rate. However this behaviour is not consistent: Copilot is more likely to introduce some types of vulnerabilities than others and is also more likely to generate vulnerable code in response to prompts that correspond to older vulnerabilities. Overall, given that in a significant number of cases it did not replicate the vulnerabilities previously introduced by human developers, we conclude that Copilot, despite performing differently across various vulnerability types, is not as bad as human developers at introducing vulnerabilities in code.
翻訳日:2023-10-24 15:40:21 公開日:2023-08-12
# 長いコード検索のための分割、エンコード、集約

Split, Encode and Aggregate for Long Code Search ( http://arxiv.org/abs/2208.11271v2 )

ライセンス: Link先を確認
Fan Hu, Yanlin Wang, Lun Du, Hongyu Zhang, Shi Han, Dongmei Zhang, Xirong Li(参考訳) 自然言語によるコード検索は、既存のコードスニペットの再利用とソフトウェア開発の加速において重要な役割を果たす。 Transformerベースの事前学習モデルにより、従来の情報検索(IR)モデルと比較してコード検索の性能が大幅に向上した。 しかしながら、多頭自己アテンションの二次的複雑性のため、入力トークンの長さには制限がある。 V100のような標準GPUの効率的なトレーニングのために、GraphCodeBERT、CodeBERT、RoBERTa(コード)を含む既存の事前訓練されたコードモデルは、デフォルトで256トークンを取得できるため、256トークンを超える長いコードの完全な情報を表現できない。 完全な意味論で全体と見なせるロングテキストの段落とは異なり、ロングコードのセマンティクスは不連続であり、ロングコードの一部には異なるコードモジュールが含まれる可能性がある。 したがって、長いテキスト処理メソッドを長いコードに直接適用するのは理不尽である。 長いコード問題に対処するために、長いコードをコードブロックに分割し、これらのブロックを埋め込みにエンコードし、それらを集約して包括的な長いコード表現を得るSEA(Split, Encode and Aggregate for Long Code Search)を提案する。 SEAでは、Transformerベースの事前トレーニングモデルを直接使用して、内部構造や再トレーニングを変更することなく、長いコードをモデル化することができます。 抽象構文木(AST)に基づく分割と注意に基づく集約手法を利用して、SEAは長いコード検索性能を大幅に改善する。 seaを2つのsparse trasnformerメソッドと比較した。 エンコーダとしてGraphCodeBERTを使用すると、SEAはコードSearchNetベンチマークでGraphCodeBERTよりも10.1%高い0.785という総合的な平均逆ランキングスコアを達成する。

Code search with natural language plays a crucial role in reusing existing code snippets and accelerating software development. Thanks to the Transformer-based pretraining models, the performance of code search has been improved significantly compared to traditional information retrieval (IR) based models. However, due to the quadratic complexity of multi-head self-attention, there is a limit on the input token length. For efficient training on standard GPUs like V100, existing pretrained code models, including GraphCodeBERT, CodeBERT, RoBERTa (code), take the first 256 tokens by default, which makes them unable to represent the complete information of long code that is greater than 256 tokens. Unlike long text paragraph that can be regarded as a whole with complete semantics, the semantics of long code is discontinuous as a piece of long code may contain different code modules. Therefore, it is unreasonable to directly apply the long text processing methods to long code. To tackle the long code problem, we propose SEA (Split, Encode and Aggregate for Long Code Search), which splits long code into code blocks, encodes these blocks into embeddings, and aggregates them to obtain a comprehensive long code representation. With SEA, we could directly use Transformer-based pretraining models to model long code without changing their internal structure and repretraining. Leveraging abstract syntax tree (AST) based splitting and attention-based aggregation methods, SEA achieves significant improvements in long code search performance. We also compare SEA with two sparse Trasnformer methods. With GraphCodeBERT as the encoder, SEA achieves an overall mean reciprocal ranking score of 0.785, which is 10.1% higher than GraphCodeBERT on the CodeSearchNet benchmark.
翻訳日:2023-10-24 15:06:03 公開日:2023-08-12
# 分散システムのGreybox Fuzzing

Greybox Fuzzing of Distributed Systems ( http://arxiv.org/abs/2305.02601v3 )

ライセンス: Link先を確認
Ruijie Meng, George P\^irlea, Abhik Roychoudhury, Ilya Sergey(参考訳) grey-box fuzzingはシーケンシャルなプログラムでバグを見つけるための軽量なアプローチである。 観測されたテスト実行からのフィードバック関数を用いて、プログラム入力の領域上でバイアス付きランダム探索を行うことにより、効率と効率のバランスをとる。 しかしながら、分散システムのテストでは、現在の状態は、バグの検索をガイドするために、システムの過去の振る舞いに関する知識を推論し、活用しようとしないブラックボックスツールによって表現されている。 本稿では,分散システムのファズテストのための最初のフレームワークであるMalloryを紹介する。 jepsenのような一般的なブラックボックス分散システムファザーとは異なり、ネットワークパーティションやノード障害をランダムに注入したり、人間が定義したスケジュールに従うことでバグを探索する。 異なる障害のシーケンスを選択することで、観察されたシステムの振る舞い数を最大化する方法を学ぶために、新しいメトリクスを実行する。 私たちのアプローチはタイムライン駆動テストに依存します。 Malloryはシステム動作のLamportタイムラインを動的に構築し、これらのタイムラインを、ファズキャンペーンを導くフィードバック機能として機能する偶然前の要約に抽象化する。 その後、マロリーはq-learningを使って方針を反動的に学習し、要約のリアルタイム観察によって導かれる障害を導入することができる。 我々は,多種多様な産業分散システム上でのMilloryの評価を行った。 最先端のブラックボックスであるfuzzer jepsenと比較して、maloryはより多くの振る舞いを探求し、バグを見つけるのに時間がかかる。 Mallory氏は、Braft、Dqlite、Redisといった厳格にテストされた分散システムにおいて、22のゼロデイバグ(うち18が開発者によって確認された)を発見した。 6つのCVEが割り当てられた。

Grey-box fuzzing is the lightweight approach of choice for finding bugs in sequential programs. It provides a balance between efficiency and effectiveness by conducting a biased random search over the domain of program inputs using a feedback function from observed test executions. For distributed system testing, however, the state-of-practice is represented today by only black-box tools that do not attempt to infer and exploit any knowledge of the system's past behaviours to guide the search for bugs. In this work, we present Mallory: the first framework for grey-box fuzz-testing of distributed systems. Unlike popular black-box distributed system fuzzers, such as Jepsen, that search for bugs by randomly injecting network partitions and node faults or by following human-defined schedules, Mallory is adaptive. It exercises a novel metric to learn how to maximize the number of observed system behaviors by choosing different sequences of faults, thus increasing the likelihood of finding new bugs. Our approach relies on timeline-driven testing. Mallory dynamically constructs Lamport timelines of the system behaviour and further abstracts these timelines into happens-before summaries, which serve as a feedback function guiding the fuzz campaign. Subsequently, Mallory reactively learns a policy using Q-learning, enabling it to introduce faults guided by its real-time observation of the summaries. We have evaluated Mallory on a diverse set of widely-used industrial distributed systems. Compared to the start-of-the-art black-box fuzzer Jepsen, Mallory explores more behaviours and takes less time to find bugs. Mallory discovered 22 zero-day bugs (of which 18 were confirmed by developers), including 10 new vulnerabilities, in rigorously-tested distributed systems such as Braft, Dqlite, and Redis. 6 new CVEs have been assigned.
翻訳日:2023-10-24 12:13:21 公開日:2023-08-12
# ソフトウェアQ&Aに生成AIを組み込む準備はできているか?

Are We Ready to Embrace Generative AI for Software Q&A? ( http://arxiv.org/abs/2307.09765v2 )

ライセンス: Link先を確認
Bowen Xu, Thanh-Dat Nguyen, Thanh Le-Cong, Thong Hoang, Jiakun Liu, Kisub Kim, Chen Gong, Changan Niu, Chenyu Wang, Bach Le, David Lo(参考訳) 世界最大のソフトウェアQ&A(SQA)WebサイトであるStack Overflowは、生成AI技術の出現により、トラフィックの大幅な減少に直面している。 ChatGPTは、Stack Overflowのリリースからわずか6日後に禁止される。 公式のStack Overflowが提供する主な理由は、ChatGPTが生成した回答が低品質であることである。 これを検証するために、我々は人書きとChatGPT生成の回答の比較評価を行った。 我々の手法は自動比較と手作業による研究の両方を用いる。 以上の結果から,人書きとチャットGPT生成の解答は意味論的に類似していると考えられるが,人書きの解答はChatGPT生成の解答を複数の面,特に総合的な点において一貫して上回っている。 データ、分析スクリプト、詳細な結果をhttps://anonymous.4open.science/r/gai4sqa-fd5cで公開します。

Stack Overflow, the world's largest software Q&A (SQA) website, is facing a significant traffic drop due to the emergence of generative AI techniques. ChatGPT is banned by Stack Overflow after only 6 days from its release. The main reason provided by the official Stack Overflow is that the answers generated by ChatGPT are of low quality. To verify this, we conduct a comparative evaluation of human-written and ChatGPT-generated answers. Our methodology employs both automatic comparison and a manual study. Our results suggest that human-written and ChatGPT-generated answers are semantically similar, however, human-written answers outperform ChatGPT-generated ones consistently across multiple aspects, specifically by 10% on the overall score. We release the data, analysis scripts, and detailed results at https://anonymous.4open.science/r/GAI4SQA-FD5C.
翻訳日:2023-10-23 17:02:45 公開日:2023-08-12
# ソフトウェアのリファクタリングと書き直し: コード変換の観点から

Software refactoring and rewriting: from the perspective of code transformations ( http://arxiv.org/abs/2308.06615v1 )

ライセンス: Link先を確認
Yu Liu (Institute of High Energy Physics, Chinese Academy of Sciences)(参考訳) 信頼性、互換性、おそらくセキュリティを維持しながら、すでに動作するコードをリファクタリングするには、micropass/nanopassコンパイラからアイデアを借りることができます。 ソフトウェアリファクタリングの手順をコード変換の構成として扱い、自動化ツールで繰り返し変換を圧縮することで、リファクタリングプロセスの表現を手作業で分析できるほど短くすることが可能になる。 コンパイラとは異なり、リファクタリングでは、通常、問題のコードベースのみを考慮する必要があるため、通常のテキスト処理を広範囲に使用することができ、コードベースにのみ存在するパターンを十分に活用することができる。 コンパイラからのコード変換の直接的な適用とは別に、他の多くの同値性も活用できる。 本稿では,2つのリファクタリングプロジェクトを主な例として,数種類の有用な変換を適用することで,10~100倍の単純化を実現した。

To refactor already working code while keeping reliability, compatibility and perhaps security, we can borrow ideas from micropass/nanopass compilers. By treating the procedure of software refactoring as composing code transformations, and compressing repetitive transformations with automation tools, we can often obtain representations of refactoring processes short enough that their correctness can be analysed manually. Unlike in compilers, in refactoring we usually only need to consider the codebase in question, so regular text processing can be extensively used, fully exploiting patterns only present in the codebase. Aside from the direct application of code transformations from compilers, many other kinds of equivalence properties may also be exploited. In this paper, two refactoring projects are given as the main examples, where 10-100 times simplification has been achieved with the application of a few kinds of useful transformations.
翻訳日:2023-10-23 14:29:26 公開日:2023-08-12
# Copilot Security: ユーザスタディ

Copilot Security: A User Study ( http://arxiv.org/abs/2308.06587v1 )

ライセンス: Link先を確認
Owura Asare, Meiyappan Nagappan, N. Asokan(参考訳) 人工知能によって駆動されるコード生成ツールは、ディープラーニングと自然言語処理の進歩により、最近人気が高まっている。 これらのツールの普及は、コードの記述を容易にすることで開発者の生産性を向上させることができるため、二重刃の剣である可能性がある。 本稿では,コードセキュリティに関する強みと弱みをよりよく理解するために,githubのcopilotをユーザ中心で評価する。 参加者は,協調支援の有無に関わらず,潜在的に脆弱なソリューションを持つプログラミング問題を解決する。 ユーザ調査の主な目標は,copilotの使用が参加者のセキュリティパフォーマンスに与える影響を決定することだ。 参加者のセット(n=25)では、難しい問題に取り組む際に、Copilotへのアクセスがよりセキュアなソリューションであることがわかった。 より簡単な問題として、Copilotアクセスがソリューションのセキュリティに与える影響は見つからない。 また、特定の種類の脆弱性に対するCopilotの使用による不当な影響も観測しません。

Code generation tools driven by artificial intelligence have recently become more popular due to advancements in deep learning and natural language processing that have increased their capabilities. The proliferation of these tools may be a double-edged sword because while they can increase developer productivity by making it easier to write code, research has shown that they can also generate insecure code. In this paper, we perform a user-centered evaluation GitHub's Copilot to better understand its strengths and weaknesses with respect to code security. We conduct a user study where participants solve programming problems, which have potentially vulnerable solutions, with and without Copilot assistance. The main goal of the user study is to determine how the use of Copilot affects participants' security performance. In our set of participants (n=25), we find that access to Copilot accompanies a more secure solution when tackling harder problems. For the easier problem, we observe no effect of Copilot access on the security of solutions. We also observe no disproportionate impact of Copilot use on particular kinds of vulnerabilities.
翻訳日:2023-10-23 14:29:12 公開日:2023-08-12
# 要件としての試験事例に関する産業ケーススタディ

An Industrial Case Study on Test Cases as Requirements ( http://arxiv.org/abs/2308.06509v1 )

ライセンス: Link先を確認
Elizabeth Bjarnason, Michael Unterkalmsteiner, Emelie Engstr\"om, Markus Borg(参考訳) 弱い要件エンジニアリングがプロジェクトの失敗の原因として知られている場合、アジャイルプロジェクトは'要件なし'で成功できる、という結論です。 アジャイル開発プロジェクトは広範な要求書なしでうまく管理されることが多いが、テストケースは要求書としてよく使われる。 テストケースが要件の役割を果たす方法を理解するために、3つの企業でこのアジャイルプラクティスを調査しました。 先行研究で実施した12件の面接をもとに,事例研究を行った。 調査結果には、要件の抽出、検証、検証、トレース、管理にテストケースを使用する際の、さまざまなメリットと課題が含まれている。 さらに、実践を実践するための3つのシナリオ、すなわち成熟したプラクティス、デファクトのプラクティス、そしてアジャイル移行の一部として特定しました。 この調査結果は、考慮すべき課題を含む、アジャイル開発における要件の役割がどのように満たされるかについての洞察を提供する。

It is a conundrum that agile projects can succeed 'without requirements' when weak requirements engineering is a known cause for project failures. While Agile development projects often manage well without extensive requirements documentation, test cases are commonly used as requirements. We have investigated this agile practice at three companies in order to understand how test cases can fill the role of requirements. We performed a case study based on twelve interviews performed in a previous study. The findings include a range of benefits and challenges in using test cases for eliciting, validating, verifying, tracing and managing requirements. In addition, we identified three scenarios for applying the practice, namely as a mature practice, as a de facto practice and as part of an agile transition. The findings provide insights into how the role of requirements may be met in agile development including challenges to consider.
翻訳日:2023-10-23 14:28:56 公開日:2023-08-12
# AIトレーニングのための医療データセット作成に影響を及ぼす要因

Ground Truth Or Dare: Factors Affecting The Creation Of Medical Datasets For Training AI ( http://arxiv.org/abs/2309.12327v1 )

ライセンス: Link先を確認
Hubert D. Zaj\k{a}c, Natalia R. Avlona, Tariq O. Andersen, Finn Kensing, Irina Shklovski(参考訳) 責任あるAI開発におけるコア目標の1つは、高品質なトレーニングデータセットの確保である。 多くの研究者は、高品質なデータを作成する上でのアノテーションステップの重要性を指摘しているが、データアノテーションを可能にする仕事にはあまり注意が払われていない。 我々は、この作業をグランド・トゥルート・スキーマの設計と定義し、アノテーションが作成される前にも医療領域におけるデータセットの作成に関わる課題を探求する。 3つの保健医療機関における広範な研究に基づいて、医療データセット作成プロセスの条件となる5つの外部および内部要因について述べる。 3つの外部要因には、規制の制約、作成と使用のコンテキスト、商業および運用上のプレッシャーが含まれる。 これらの要因は、医療データ収集を条件とし、基底真理スキーマ設計を形作る。 2つの内的要因は認識差とラベリングの限界である。 これらは、基底真理スキーマの設計を直接形成する。 高品質なデータを構成するものに関する議論は、責任あるai設計を確実にするために、何が作成可能かを形作り、制約する要素に注意を払う必要がある。

One of the core goals of responsible AI development is ensuring high-quality training datasets. Many researchers have pointed to the importance of the annotation step in the creation of high-quality data, but less attention has been paid to the work that enables data annotation. We define this work as the design of ground truth schema and explore the challenges involved in the creation of datasets in the medical domain even before any annotations are made. Based on extensive work in three health-tech organisations, we describe five external and internal factors that condition medical dataset creation processes. Three external factors include regulatory constraints, the context of creation and use, and commercial and operational pressures. These factors condition medical data collection and shape the ground truth schema design. Two internal factors include epistemic differences and limits of labelling. These directly shape the design of the ground truth schema. Discussions of what constitutes high-quality data need to pay attention to the factors that shape and constrain what is possible to be created, to ensure responsible AI design.
翻訳日:2023-10-23 07:00:40 公開日:2023-08-12
# 人工知能の新しい解法と具体的実装手順

A new solution and concrete implementation steps for Artificial General Intelligence ( http://arxiv.org/abs/2308.09721v1 )

ライセンス: Link先を確認
Yongcong Chen, Ting Zeng and Jun Zhang(参考訳) 現在、主流の人工知能は一般に「注意機構+深層学習」+「強化学習」の技術的パスを採用している。 それはAIGC(Artificial Intelligence Generated Content)の分野で大きな進歩を遂げ、ビッグデータの技術的な波を発生させた[2][13 ]。 しかし、高齢者、家庭の乳母、農業生産、自動車の運転といった実際の環境と相互作用する必要がある地域では、試行錯誤は高価であり、多くの試行錯誤を必要とする強化学習プロセスは達成が困難である。 したがって、任意の分野に適用可能な人工知能(AGI)を実現するためには、既存の技術と既存の技術の欠陥を両立させ、人工知能の技術的波をさらに発展させる必要がある。 本稿では,大規模モデルの技術的経路の限界を解析し,これらの制限に対処することで,大規模モデルの固有の欠陥を解決する解を提案する。 本稿では,真のAGIを段階的に実現する方法を明らかにする。

At present, the mainstream artificial intelligence generally adopts the technical path of "attention mechanism + deep learning" + "reinforcement learning". It has made great progress in the field of AIGC (Artificial Intelligence Generated Content), setting off the technical wave of big models[ 2][13 ]. But in areas that need to interact with the actual environment, such as elderly care, home nanny, agricultural production, and vehicle driving, trial and error are expensive and a reinforcement learning process that requires much trial and error is difficult to achieve. Therefore, in order to achieve Artificial General Intelligence(AGI) that can be applied to any field, we need to use both existing technologies and solve the defects of existing technologies, so as to further develop the technological wave of artificial intelligence. In this paper, we analyze the limitations of the technical route of large models, and by addressing these limitations, we propose solutions, thus solving the inherent defects of large models. In this paper, we will reveal how to achieve true AGI step by step.
翻訳日:2023-08-27 05:16:55 公開日:2023-08-12
# 合成開口ソナーデータ処理・分類・パターン認識のための自己教師あり学習の進歩

Advances in Self-Supervised Learning for Synthetic Aperture Sonar Data Processing, Classification, and Pattern Recognition ( http://arxiv.org/abs/2308.11633v1 )

ライセンス: Link先を確認
Brandon Sheffield, Frank E. Bobe III, Bradley Marchand, Matthew S. Emigh(参考訳) 合成開口ソナー (sas) イメージングは, 従来のソナー技術にない特徴である, 広帯域での分解能維持の特異性から, 水中探査において重要な技術となっている。 しかし、ラベル付きデータの不足により、深層学習のSASデータ処理への応用は制限されることが多い。 そこで本稿では,SASデータ処理,分類,パターン認識に自己教師付き学習(SSL)を活用するMoCo-SASを提案する。 実験結果から,MoCo-SASは従来の教師あり学習法よりも優れており,F1スコアの点において顕著な改善が見られた。 これらの知見は、SASデータ処理における最先端の進歩におけるSSLの可能性を強調し、水中物体の検出と分類を強化するための有望な道を提供する。

Synthetic Aperture Sonar (SAS) imaging has become a crucial technology for underwater exploration because of its unique ability to maintain resolution at increasing ranges, a characteristic absent in conventional sonar techniques. However, the effective application of deep learning to SAS data processing is often limited due to the scarcity of labeled data. To address this challenge, this paper proposes MoCo-SAS that leverages self-supervised learning (SSL) for SAS data processing, classification, and pattern recognition. The experimental results demonstrate that MoCo-SAS significantly outperforms traditional supervised learning methods, as evidenced by significant improvements observed in terms of the F1-score. These findings highlight the potential of SSL in advancing the state-of-the-art in SAS data processing, offering promising avenues for enhanced underwater object detection and classification.
翻訳日:2023-08-27 04:45:55 公開日:2023-08-12
# 1ビットのフリップ:ビットフリップ攻撃がモデルトレーニングに遭遇する時

One-bit Flip is All You Need: When Bit-flip Attack Meets Model Training ( http://arxiv.org/abs/2308.07934v1 )

ライセンス: Link先を確認
Jianshuo Dong, Han Qiu, Yiming Li, Tianwei Zhang, Yuanjie Li, Zeqi Lai, Chao Zhang, Shu-Tao Xia(参考訳) ディープニューラルネットワーク(dnn)は、現実世界のデバイスに広くデプロイされる。 セキュリティに関する懸念は研究者から大きな注目を集めている。 近年、ビットフリップアタック(bfa)と呼ばれる新しい重み付けアタックが提案され、ローハンマーなどのメモリ障害インジェクション技術を利用して、展開段階で量子化されたモデルを攻撃する。 わずか数ビットのフリップで、ターゲットモデルはランダムな推測器として役に立たず、悪意のある機能で埋め込むこともできる。 この作業では、ビットフリップの数をさらに減らそうとしています。 本稿では,高リスクモデルを構築するための訓練段階に敵が関与する,訓練支援ビットフリップ攻撃を提案する。 このリスクの高いモデルは、対応する悪意のあるモデルと組み合わせられ、正常に動作し、様々な検出方法から逃れることができる。 ベンチマークデータセットの結果から,このハイリスクだが正常なモデルを,デプロイ段階では平均して1つのクリティカルビットのみを選択すれば,被害者側の悪意のあるモデルに簡単に変換できることが分かる。 さらに,我々の攻撃は,防衛を施しても重大な脅威となる。 主な実験を再現するためのコードは \url{https://github.com/jianshuod/tba} で入手できる。

Deep neural networks (DNNs) are widely deployed on real-world devices. Concerns regarding their security have gained great attention from researchers. Recently, a new weight modification attack called bit flip attack (BFA) was proposed, which exploits memory fault inject techniques such as row hammer to attack quantized models in the deployment stage. With only a few bit flips, the target model can be rendered useless as a random guesser or even be implanted with malicious functionalities. In this work, we seek to further reduce the number of bit flips. We propose a training-assisted bit flip attack, in which the adversary is involved in the training stage to build a high-risk model to release. This high-risk model, obtained coupled with a corresponding malicious model, behaves normally and can escape various detection methods. The results on benchmark datasets show that an adversary can easily convert this high-risk but normal model to a malicious one on victim's side by \textbf{flipping only one critical bit} on average in the deployment stage. Moreover, our attack still poses a significant threat even when defenses are employed. The codes for reproducing main experiments are available at \url{https://github.com/jianshuod/TBA}.
翻訳日:2023-08-17 16:15:06 公開日:2023-08-12
# 動的メール再ランキング問題に対する定常アルゴリズムのバランス

Stationary Algorithmic Balancing For Dynamic Email Re-Ranking Problem ( http://arxiv.org/abs/2308.08460v1 )

ライセンス: Link先を確認
Jiayi Liu, Jennifer Neville(参考訳) メールプラットフォームは、ユーザーの好みを満足するメールのパーソナライズされたランキングを生成する必要がある。 クローズネス(送信者とトピックがユーザとどの程度関連しているか)、タイムライン(メールの近況)、簡潔さ(メールの簡潔さ)という3つの基準に基づいて、これをレコメンデーション問題としてアプローチする。 mosr(multi-objective stationary recommender)は,適応制御モデルを用いて,これらの基準を動的にバランスさせ,嗜好変化に適応する,新しいオンラインアルゴリズムである。 実メールの集合であるEnron Email Dataset上でMOSRを評価し,それを他のベースラインと比較する。 以上の結果から,MOSRは特に非定常的な選好において,ユーザが時間とともに異なる基準を多かれ少なかれ評価する上で,優れた性能を発揮することが示された。 また,メール特性のばらつきが高い小型のダウンサンプリングデータセット上でmosrのロバスト性をテストし,異なるサンプル間で安定したランキングを維持していることを示す。 本研究は,ユーザの満足度に影響を与える複数の目的を考慮したメールリランキングシステムの設計方法に関する新たな知見を提供する。

Email platforms need to generate personalized rankings of emails that satisfy user preferences, which may vary over time. We approach this as a recommendation problem based on three criteria: closeness (how relevant the sender and topic are to the user), timeliness (how recent the email is), and conciseness (how brief the email is). We propose MOSR (Multi-Objective Stationary Recommender), a novel online algorithm that uses an adaptive control model to dynamically balance these criteria and adapt to preference changes. We evaluate MOSR on the Enron Email Dataset, a large collection of real emails, and compare it with other baselines. The results show that MOSR achieves better performance, especially under non-stationary preferences, where users value different criteria more or less over time. We also test MOSR's robustness on a smaller down-sampled dataset that exhibits high variance in email characteristics, and show that it maintains stable rankings across different samples. Our work offers novel insights into how to design email re-ranking systems that account for multiple objectives impacting user satisfaction.
翻訳日:2023-08-17 12:43:58 公開日:2023-08-12
# 有限幅のカウンタモデルによる一階理論の問合せ可能性

Decidability of Querying First-Order Theories via Countermodels of Finite Width ( http://arxiv.org/abs/2304.06348v2 )

ライセンス: Link先を確認
Thomas Feller, Tim S. Lyon, Piotr Ostropolski-Nalewaja, and Sebastian Rudolph(参考訳) 本稿では, 構造的に単純で, 一定の幅の測度(木幅, 斜め幅など)で測れるカウンターモデルの存在に基づいて, 幅広い論理的包含問題の決定可能性を確立するための一般的な枠組みを提案する。 我々のフレームワークの重要な特別な場合として、幅有限の有限普遍モデル集合を示す論理を識別し、幅広い準同型閉クエリに対する決定可能な包含を保証し、実際に関連するクエリ言語を多種多様な集合に割り当てる。 特に強力な幅測度として,Blumensath の分割幅を提案する。 一般のショーケースとして存在規則の形式化に焦点を絞って,ルールの有限分割幅集合が他の既知の抽象決定可能クラスをどのように意味するかを説明するが,既存の階層化の概念を活用すれば,幅広い新しいルールセットもカバーできる。 有限統一集合のクラスを図に当てはめるための自然な制限を公開し、修正のためのいくつかのオプションを提供します。

We propose a generic framework for establishing the decidability of a wide range of logical entailment problems (briefly called querying), based on the existence of countermodels that are structurally simple, gauged by certain types of width measures (with treewidth and cliquewidth as popular examples). As an important special case of our framework, we identify logics exhibiting width-finite finitely universal model sets, warranting decidable entailment for a wide range of homomorphism-closed queries, subsuming a diverse set of practically relevant query languages. As a particularly powerful width measure, we propose Blumensath's partitionwidth, which subsumes various other commonly considered width measures and exhibits highly favorable computational and structural properties. Focusing on the formalism of existential rules as a popular showcase, we explain how finite partitionwidth sets of rules subsume other known abstract decidable classes but - leveraging existing notions of stratification - also cover a wide range of new rulesets. We expose natural limitations for fitting the class of finite unification sets into our picture and provide several options for remedy.
翻訳日:2023-08-16 16:46:54 公開日:2023-08-12
# ARのための創発的コミュニケーション

Emergent communication for AR ( http://arxiv.org/abs/2308.07342v1 )

ライセンス: Link先を確認
Ruxiao Chen, Shuaishuai Guo(参考訳) モバイル拡張現実(MAR)はデジタルツインとメタバースのユビキタスインターフェースの1つとして広く認識されており、非並列レベルのレイテンシ、計算能力、エネルギー効率を必要とする。 marを実現する既存のソリューションは、エッジ、クラウドコンピューティング、第5世代(5g)ネットワークといった複数の技術を組み合わせている。 しかし、視覚データの固有の通信遅延は、qoe(quality of experience)に明らかな制限を課している。 そこで本研究では,MARにおける通信プロトコルを学習するための創発的セマンティック通信フレームワークを提案する。 具体的には,修正ルイスシグナリングゲームを通じて2つのエージェントを訓練し,個別の通信プロトコルを自発的に生成する。 このプロトコルに基づいて、2つのエージェントは、ノイズの多いチャネルで非常に小さなデータサイズでメッセージを通して視覚データの抽象的なアイデアを伝えることができ、メッセージエラーにつながる。 実世界のシナリオをより良くシミュレートするために、トレーニングプロセスにチャネルの不確実性を取り込む。 実験の結果,提案手法は,MARで使用される従来の物体認識よりも,見えない物体の一般化に優れており,小型メッセージの利用により通信効率を効果的に向上させることができることがわかった。

Mobile augmented reality (MAR) is widely acknowledged as one of the ubiquitous interfaces to the digital twin and Metaverse, demanding unparalleled levels of latency, computational power, and energy efficiency. The existing solutions for realizing MAR combine multiple technologies like edge, cloud computing, and fifth-generation (5G) networks. However, the inherent communication latency of visual data imposes apparent limitations on the quality of experience (QoE). To address the challenge, we propose an emergent semantic communication framework to learn the communication protocols in MAR. Specifically, we train two agents through a modified Lewis signaling game to emerge a discrete communication protocol spontaneously. Based on this protocol, two agents can communicate about the abstract idea of visual data through messages with extremely small data sizes in a noisy channel, which leads to message errors. To better simulate real-world scenarios, we incorporate channel uncertainty into our training process. Experiments have shown that the proposed scheme has better generalization on unseen objects than traditional object recognition used in MAR and can effectively enhance communication efficiency through the utilization of small-size messages.
翻訳日:2023-08-16 15:17:47 公開日:2023-08-12
# 運転シナリオ軌跡の生成と解析のためのディープラーニングフレームワーク

A Deep Learning Framework for Generation and Analysis of Driving Scenario Trajectories ( http://arxiv.org/abs/2007.14524v2 )

ライセンス: Link先を確認
Andreas Demetriou, Henrik Alfsv{\aa}g, Sadegh Rahrovani, Morteza Haghir Chehreghani(参考訳) 本稿では,運転シナリオの軌跡の生成と解析を行うための統合ディープラーニングフレームワークを提案し,その効果を原理的に検証する。 異なる長さの軌道のシナリオをモデル化し、生成するために、2つのアプローチを考案する。 まず、軌道長の条件付けにより、Recurrent Conditional Generative Adversarial Networks (RC-GAN) を適用する。 これにより、自律走行の検証においてシナリオテストケース生成の望ましい特徴である可変長駆動軌道を生成する柔軟性が得られる。 第2に、変数長問題を回避するため、GANを用いたリカレントオートエンコーダに基づくアーキテクチャを開発し、GANをトレーニングして、元のトラジェクトリの潜在表現を学習・生成する。 このアプローチでは,フィードフォワードニューラルネットワークを統合して,潜在空間表現からそれらを取り戻せる軌道の長さを推定する。 トラジェクトリ生成に加えて,クラスタリングと異常検出のために,訓練されたオートエンコーダを特徴抽出器として使用し,収集したシナリオデータセットのさらなる洞察を得る。 フィールド内データ収集から得られた実世界シナリオトラジェクタにおける提案フレームワークの性能を実験的に検討した。

We propose a unified deep learning framework for the generation and analysis of driving scenario trajectories, and validate its effectiveness in a principled way. To model and generate scenarios of trajectories with different lengths, we develop two approaches. First, we adapt the Recurrent Conditional Generative Adversarial Networks (RC-GAN) by conditioning on the length of the trajectories. This provides us the flexibility to generate variable-length driving trajectories, a desirable feature for scenario test case generation in the verification of autonomous driving. Second, we develop an architecture based on Recurrent Autoencoder with GANs to obviate the variable length issue, wherein we train a GAN to learn/generate the latent representations of original trajectories. In this approach, we train an integrated feed-forward neural network to estimate the length of the trajectories to be able to bring them back from the latent space representation. In addition to trajectory generation, we employ the trained autoencoder as a feature extractor, for the purpose of clustering and anomaly detection, to obtain further insights into the collected scenario dataset. We experimentally investigate the performance of the proposed framework on real-world scenario trajectories obtained from in-field data collection.
翻訳日:2023-08-16 00:00:44 公開日:2023-08-12
# 離散分布の非線形汎関数の局所微分プライベート推定

Locally differentially private estimation of nonlinear functionals of discrete distributions ( http://arxiv.org/abs/2107.03940v2 )

ライセンス: Link先を確認
Cristina Butucea and Yann Issartel(参考訳) 離散分布の非線形関数を局所的差分プライバシーの文脈で推定する問題について検討する。 初期データ$x_1,\ldots,x_n \in [K]$は、未知の離散分布$p = (p_1,\ldots,p_K)$に従って分布する。 唯一の$\alpha$-locally differentially private (ldp) サンプル $z_1,...,z_n$ が公開されているが、ここでは 'local' という用語は、各$z_i$ が1つの個別属性 $x_i$ を使って生成されることを意味する。 我々は、対話的(つまり、すでに公開された機密データを使用することができる)または非対話的なプライバシーメカニズム(PM)を示す。 パワー和関数 $F_{\gamma} = \sum_{k=1}^K p_k^{\gamma}$, $\gamma >0$ を $K, \, n$ および $\alpha$ の関数として推定する二次リスクの振る舞いを記述する。 非対話的なケースでは、多項モデルにおいてjiao et al. (2017) によって解析された mle に類似した、すべての$\gamma >0$ に対して、$f_{\gamma}$ の2つのプラグインタイプの推定子を調べる。 しかし、プライバシー制約のため、私たちが達成したレートは遅く、Collierらによるガウスモデル(2020年)に類似している。 インタラクティブな場合には、$\gamma \geq 2$の場合により速いパラメトリックレート$(n \alpha^2)^{-1/2}$となる2ステップの手順をすべて$\gamma >1$に導入する。 我々は,すべての$\alpha$-LDP機構とプライベートサンプルを用いたすべての推定器に対して,より低い境界値を与える。

We study the problem of estimating non-linear functionals of discrete distributions in the context of local differential privacy. The initial data $x_1,\ldots,x_n \in [K]$ are supposed i.i.d. and distributed according to an unknown discrete distribution $p = (p_1,\ldots,p_K)$. Only $\alpha$-locally differentially private (LDP) samples $z_1,...,z_n$ are publicly available, where the term 'local' means that each $z_i$ is produced using one individual attribute $x_i$. We exhibit privacy mechanisms (PM) that are interactive (i.e. they are allowed to use already published confidential data) or non-interactive. We describe the behavior of the quadratic risk for estimating the power sum functional $F_{\gamma} = \sum_{k=1}^K p_k^{\gamma}$, $\gamma >0$ as a function of $K, \, n$ and $\alpha$. In the non-interactive case, we study two plug-in type estimators of $F_{\gamma}$, for all $\gamma >0$, that are similar to the MLE analyzed by Jiao et al. (2017) in the multinomial model. However, due to the privacy constraint the rates we attain are slower and similar to those obtained in the Gaussian model by Collier et al. (2020). In the interactive case, we introduce for all $\gamma >1$ a two-step procedure which attains the faster parametric rate $(n \alpha^2)^{-1/2}$ when $\gamma \geq 2$. We give lower bounds results over all $\alpha$-LDP mechanisms and all estimators using the private samples.
翻訳日:2023-08-15 23:55:41 公開日:2023-08-12
# MathBERT:数学教育における一般NLPタスクのための事前学習言語モデル

MathBERT: A Pre-trained Language Model for General NLP Tasks in Mathematics Education ( http://arxiv.org/abs/2106.07340v5 )

ライセンス: Link先を確認
Jia Tracy Shen, Michiharu Yamashita, Ethan Prihar, Neil Heffernan, Xintao Wu, Ben Graff, Dongwon Lee(参考訳) オリジナルのBERT(BASE BERT)が導入されて以来、研究者は転送学習の利点を利用して、特定のドメインやタスクのパフォーマンスを改善した様々なカスタマイズされたBERTモデルを開発した。 数理テキストの性質は、方程式や数理記号とともにドメイン固有語彙を用いることが多いため、数学の新しいBERTモデルの開発は多くの数学的な下流のタスクに有用であろうと仮定する。 本稿では,BASE BERTモデルを,幼稚園前(pre-k)から高校までの大規模数学コーパス上で事前学習したモデルである MathBERT を,大学卒レベルの数学コンテンツに導入し,そのニーズに応えるための多施設間取り組み(すなわち,米国における2つの学習プラットフォームと3つの学術機関)を紹介する。 さらに,数学教育においてよく用いられる3つの一般的なNLPタスク,すなわち知識成分の予測,自動段階のオープンエンドQ&A,知識追跡を選択し,BASE BERTよりも MathBERT の方が優れていることを示す。 実験の結果, MathBERT は 1.2-22% で, BASE BERT は2-8% で優れていた。 さらに,数学固有の語彙"mathVocab"を構築し,MathBERTで学習する。 MathBERTが'mathVocab'で事前訓練された場合、BASE BERT語彙(origVocab)でトレーニングされたMathBERTよりも優れていたことが判明した。 MathBERTは現在、商用の教育リソースプロバイダであるStride, Incと、無料のオンライン教育プラットフォームであるASSISTments.orgで採用されている。 MathBERT は https://github.com/tbs17/MathBERT で公開しています。

Since the introduction of the original BERT (i.e., BASE BERT), researchers have developed various customized BERT models with improved performance for specific domains and tasks by exploiting the benefits of transfer learning. Due to the nature of mathematical texts, which often use domain specific vocabulary along with equations and math symbols, we posit that the development of a new BERT model for mathematics would be useful for many mathematical downstream tasks. In this resource paper, we introduce our multi-institutional effort (i.e., two learning platforms and three academic institutions in the US) toward this need: MathBERT, a model created by pre-training the BASE BERT model on a large mathematical corpus ranging from pre-kindergarten (pre-k), to high-school, to college graduate level mathematical content. In addition, we select three general NLP tasks that are often used in mathematics education: prediction of knowledge component, auto-grading open-ended Q&A, and knowledge tracing, to demonstrate the superiority of MathBERT over BASE BERT. Our experiments show that MathBERT outperforms prior best methods by 1.2-22% and BASE BERT by 2-8% on these tasks. In addition, we build a mathematics specific vocabulary 'mathVocab' to train with MathBERT. We discover that MathBERT pre-trained with 'mathVocab' outperforms MathBERT trained with the BASE BERT vocabulary (i.e., 'origVocab'). MathBERT is currently being adopted at the participated leaning platforms: Stride, Inc, a commercial educational resource provider, and ASSISTments.org, a free online educational platform. We release MathBERT for public usage at: https://github.com/tbs17/MathBERT.
翻訳日:2023-08-15 23:55:02 公開日:2023-08-12
# トポロジカルデータ解析によるニューラルネットワークの一般化ギャップの予測

Predicting the generalization gap in neural networks using topological data analysis ( http://arxiv.org/abs/2203.12330v2 )

ライセンス: Link先を確認
Rub\'en Ballester, Xavier Arnal Clemente, Carles Casacuberta, Meysam Madadi, Ciprian A. Corneanu, Sergio Escalera(参考訳) ニューラルネットワークが見えないデータをどのように一般化するかを理解することは、より堅牢で信頼性の高いモデルの設計に不可欠である。 本稿では,トポロジカルデータ解析の手法を用いたニューラルネットワークの一般化ギャップについて検討する。 この目的のために、トレーニングフェーズ後にニューロン活性化相関から構築された重み付きグラフのホモロジー永続図を計算し、ネットワークの一般化能力に関連するパターンを捉えることを目的とした。 パーシステンスダイアグラムからの異なる数値要約の有用性を比較し,それらの組み合わせによって,テスト集合を必要とせずに一般化ギャップを正確に予測し,部分的に説明できることを示す。 2つのコンピュータビジョン認識タスク(CIFAR10とSVHN)の評価は、最先端の手法と比較した場合の競合一般化ギャップ予測を示す。

Understanding how neural networks generalize on unseen data is crucial for designing more robust and reliable models. In this paper, we study the generalization gap of neural networks using methods from topological data analysis. For this purpose, we compute homological persistence diagrams of weighted graphs constructed from neuron activation correlations after a training phase, aiming to capture patterns that are linked to the generalization capacity of the network. We compare the usefulness of different numerical summaries from persistence diagrams and show that a combination of some of them can accurately predict and partially explain the generalization gap without the need of a test set. Evaluation on two computer vision recognition tasks (CIFAR10 and SVHN) shows competitive generalization gap prediction when compared against state-of-the-art methods.
翻訳日:2023-08-15 23:36:11 公開日:2023-08-12
# DialogueNeRF: リアルアバター対対面ビデオ生成に向けて

DialogueNeRF: Towards Realistic Avatar Face-to-Face Conversation Video Generation ( http://arxiv.org/abs/2203.07931v2 )

ライセンス: Link先を確認
Yichao Yan, Zanwei Zhou, Zi Wang, Jingnan Gao, Xiaokang Yang(参考訳) 会話はメタバースにおける仮想アバター活動の重要な構成要素である。 自然言語処理の発展に伴い、テキストと音声による会話生成は画期的な進歩を遂げた。 しかし、対面会話は日常会話の大多数を占めており、既存のほとんどの方法は単独の会話ヘッド生成に焦点を当てている。 本研究では,さらに一歩進めて,現実的な対面会話ビデオの生成を検討する。 会話生成は、写真リアリスティックな個人会話ヘッドを生成するだけでなく、リスナーにスピーカーへの応答を要求するため、単独の話しヘッド生成よりも難しい。 本稿では,ニューラルラジアンス場(NeRF)に基づく新しい統合フレームワークを提案し,その課題に対処する。 具体的には、話者とリスナーの両方をNeRFフレームワークでモデル化し、異なる条件で個々の表現を制御する。 スピーカは音声信号によって駆動され、リスナーの応答は視覚情報と音響情報の両方に依存する。 このようにして、人のアバター間で対面会話ビデオが生成され、すべての対話者が同じネットワーク内でモデル化される。 さらに,この課題の今後の研究を促進するために,34クリップのビデオを含む人間の会話データセットを新たに収集する。 定量的・定性的実験により, 映像品質, ポーズ系列傾向, 映像の自然性など, 様々な側面から評価した。 実験の結果,映像中のアバターは現実的な会話を行い,個々のスタイルを維持できることがわかった。 すべてのコード、データ、モデルが公開される予定だ。

Conversation is an essential component of virtual avatar activities in the metaverse. With the development of natural language processing, textual and vocal conversation generation has achieved a significant breakthrough. However, face-to-face conversations account for the vast majority of daily conversations, while most existing methods focused on single-person talking head generation. In this work, we take a step further and consider generating realistic face-to-face conversation videos. Conversation generation is more challenging than single-person talking head generation, since it not only requires generating photo-realistic individual talking heads but also demands the listener to respond to the speaker. In this paper, we propose a novel unified framework based on neural radiance field (NeRF) to address this task. Specifically, we model both the speaker and listener with a NeRF framework, with different conditions to control individual expressions. The speaker is driven by the audio signal, while the response of the listener depends on both visual and acoustic information. In this way, face-to-face conversation videos are generated between human avatars, with all the interlocutors modeled within the same network. Moreover, to facilitate future research on this task, we collect a new human conversation dataset containing 34 clips of videos. Quantitative and qualitative experiments evaluate our method in different aspects, e.g., image quality, pose sequence trend, and naturalness of the rendering videos. Experimental results demonstrate that the avatars in the resulting videos are able to perform a realistic conversation, and maintain individual styles. All the code, data, and models will be made publicly available.
翻訳日:2023-08-15 23:35:31 公開日:2023-08-12
# ネットワークアーキテクチャと目的関数の協調最適化による変形可能な医用画像登録の自動学習

Automated Learning for Deformable Medical Image Registration by Jointly Optimizing Network Architectures and Objective Functions ( http://arxiv.org/abs/2203.06810v4 )

ライセンス: Link先を確認
Xin Fan, Zi Li, Ziyang Li, Xiaolin Wang, Risheng Liu, Zhongxuan Luo and Hao Huang(参考訳) 変形可能な画像登録は、医用画像解析の様々なタスクにおいて重要な役割を果たす。 従来のエネルギー最適化やディープネットワークから派生した、成功した登録アルゴリズムは、登録エネルギーを適切に設計したり、特定のタイプの医療データに対してネットワークアーキテクチャを慎重に調整するために、コンピュータ専門家の多大な努力を必要とする。 本稿では,これらの課題に対処するために,アーキテクチャとそれに対応するトレーニング目標の両方を協調的に最適化する自動学習登録アルゴリズム(AutoReg)を提案する。 具体的には,登録ネットワークのアーキテクチャと目的を自動検索機構と協調最適化で推定するトリプルレベルフレームワークを構築した。 複数箇所のボリュームデータセットと各種登録タスクで画像登録実験を行う。 我々のAutoRegは、与えられたボリュームに対して最適な深層登録ネットワークを自動的に学習し、最先端の性能を実現し、また、主流のUNetアーキテクチャ(同じ構成で3D画像ペアを0.558秒から0.270秒)よりも計算効率を著しく向上することを示した。

Deformable image registration plays a critical role in various tasks of medical image analysis. A successful registration algorithm, either derived from conventional energy optimization or deep networks requires tremendous efforts from computer experts to well design registration energy or to carefully tune network architectures for the specific type of medical data. To tackle the aforementioned problems, this paper proposes an automated learning registration algorithm (AutoReg) that cooperatively optimizes both architectures and their corresponding training objectives, enabling non-computer experts, e.g., medical/clinical users, to conveniently find off-the-shelf registration algorithms for diverse scenarios. Specifically, we establish a triple-level framework to deduce registration network architectures and objectives with an auto-searching mechanism and cooperating optimization. We conduct image registration experiments on multi-site volume datasets and various registration tasks. Extensive results demonstrate that our AutoReg may automatically learn an optimal deep registration network for given volumes and achieve state-of-the-art performance, also significantly improving computation efficiency than the mainstream UNet architectures (from 0.558 to 0.270 seconds for a 3D image pair on the same configuration).
翻訳日:2023-08-15 23:35:06 公開日:2023-08-12
# ガウス過程補間における滑らか度パラメータ推定のための漸近境界

Asymptotic Bounds for Smoothness Parameter Estimates in Gaussian Process Interpolation ( http://arxiv.org/abs/2203.05400v4 )

ライセンス: Link先を確認
Toni Karvonen(参考訳) コンピュータ実験の出力のような決定論的応答関数をマット・エルン共分散核を持つガウス過程としてモデル化するのが一般的である。 mat\'ernカーネルの滑らかさパラメータは、応答関数に対する条件付き平均の収束率を含む、大きなデータ限界におけるモデルの多くの重要な特性を決定する。 滑らか度パラメータの最大推定値は、データが$\mathbb{R}^d$の固定有界部分集合上で得られるとき、漸近的に真理を過小評価することはできない。 すなわち、データ生成応答関数が Sobolev smoothness $\nu_0 > d/2$ を持つなら、滑らかさパラメータ推定は $\nu_0$ より漸近的に小さくならない。 下限は鋭い。 さらに,最大確率推定はコンパクトに支持される自己相似関数のクラスに対する真の滑らかさを回復することを示した。 クロスバリデーションに対しては、漸近下限 $\nu_0 - d/2$ が証明されるが、これはシャープではない。 結果はソボレフ空間の近似理論とパラメータ推定器が取り得る値の集合を制限するいくつかの一般定理に基づいている。

It is common to model a deterministic response function, such as the output of a computer experiment, as a Gaussian process with a Mat\'ern covariance kernel. The smoothness parameter of a Mat\'ern kernel determines many important properties of the model in the large data limit, including the rate of convergence of the conditional mean to the response function. We prove that the maximum likelihood estimate of the smoothness parameter cannot asymptotically undersmooth the truth when the data are obtained on a fixed bounded subset of $\mathbb{R}^d$. That is, if the data-generating response function has Sobolev smoothness $\nu_0 > d/2$, then the smoothness parameter estimate cannot be asymptotically less than $\nu_0$. The lower bound is sharp. Additionally, we show that maximum likelihood estimation recovers the true smoothness for a class of compactly supported self-similar functions. For cross-validation we prove an asymptotic lower bound $\nu_0 - d/2$, which however is unlikely to be sharp. The results are based on approximation theory in Sobolev spaces and some general theorems that restrict the set of values that the parameter estimators can take.
翻訳日:2023-08-15 23:34:45 公開日:2023-08-12
# 画像キャプションにおけるディープラーニングのアプローチ

Deep Learning Approaches on Image Captioning: A Review ( http://arxiv.org/abs/2201.12944v4 )

ライセンス: Link先を確認
Taraneh Ghandi and Hamidreza Pourreza and Hamidreza Mahyar(参考訳) 画像キャプションは重要な研究領域であり、静止画像の形で視覚的内容の自然言語記述を生成することを目的としている。 ディープラーニングの出現と、最近では視覚言語による事前学習技術がこの分野に革命をもたらし、より洗練された手法とパフォーマンスの向上につながった。 本稿では,画像キャプションにおける深層学習法について,包括的分類法を提示し,各手法のカテゴリを詳細に検討し,構造化したレビューを行う。 さらに、画像キャプション研究によく用いられるデータセットと、異なるキャプティングモデルの性能を評価するために使用される評価指標について検討する。 本稿では,対象の幻覚,不足した文脈,照明条件,文脈理解,参照表現などの問題を強調することで,この分野で直面する課題に対処する。 さまざまなディープラーニング手法のパフォーマンスを,広く使用されている評価指標に基づいてランク付けし,その技術の現状について考察した。 さらに,画像とテキスト間の情報ミスアライメント問題への取り組み,データセットバイアスの軽減,キャプション生成のための視覚言語事前学習手法の導入,画像キャプションの品質を正確に測定するための評価ツールの改善など,この分野における研究の今後の方向性を明らかにした。

Image captioning is a research area of immense importance, aiming to generate natural language descriptions for visual content in the form of still images. The advent of deep learning and more recently vision-language pre-training techniques has revolutionized the field, leading to more sophisticated methods and improved performance. In this survey paper, we provide a structured review of deep learning methods in image captioning by presenting a comprehensive taxonomy and discussing each method category in detail. Additionally, we examine the datasets commonly employed in image captioning research, as well as the evaluation metrics used to assess the performance of different captioning models. We address the challenges faced in this field by emphasizing issues such as object hallucination, missing context, illumination conditions, contextual understanding, and referring expressions. We rank different deep learning methods' performance according to widely used evaluation metrics, giving insight into the current state of the art. Furthermore, we identify several potential future directions for research in this area, which include tackling the information misalignment problem between image and text modalities, mitigating dataset bias, incorporating vision-language pre-training methods to enhance caption generation, and developing improved evaluation tools to accurately measure the quality of image captions.
翻訳日:2023-08-15 23:33:25 公開日:2023-08-12
# 低リソース言語における教師なし翻訳品質推定

Mismatching-Aware Unsupervised Translation Quality Estimation For Low-Resource Languages ( http://arxiv.org/abs/2208.00463v2 )

ライセンス: Link先を確認
Fatemeh Azadi, Heshaam Faili, Mohammad Javad Dousti(参考訳) 翻訳品質推定(QE)は、機械翻訳(MT)出力の品質を基準なしに予測するタスクである。 本稿ではまず,XLM-RoBERTa(XLMR)モデルを用いて計算されたBERTScoreの言語間対応であるXLMRScoreを提案する。 このメトリクスは、単純な教師なしQE手法として使用することができ、一方、予期せぬ高い翻訳スコアにつながる未翻訳トークンと、XLMRScoreでgreedyマッチングを適用した際のソーストークンと仮説トークンの誤りマッチングの問題の2つの問題をもたらす。 これらの問題を緩和するために,未翻訳の単語を未知のトークンに置き換えることと,事前学習されたモデルの言語間アライメントをそれぞれ互いに親密に表現することを提案する。 提案手法は,WMT21QE共有タスクの4つの低リソース言語対と,本論文で紹介した新たな英語-Farsiテストデータセットについて評価する。 実験の結果,Pearsonの相関は0.01以下であり,低リソースの言語ペアでは平均8%以上で,教師なしの競合よりも優れていた。

Translation Quality Estimation (QE) is the task of predicting the quality of machine translation (MT) output without any reference. This task has gained increasing attention as an important component in the practical applications of MT. In this paper, we first propose XLMRScore, which is a cross-lingual counterpart of BERTScore computed via the XLM-RoBERTa (XLMR) model. This metric can be used as a simple unsupervised QE method, while employing it results in two issues: firstly, the untranslated tokens leading to unexpectedly high translation scores, and secondly, the issue of mismatching errors between source and hypothesis tokens when applying the greedy matching in XLMRScore. To mitigate these issues, we suggest replacing untranslated words with the unknown token and the cross-lingual alignment of the pre-trained model to represent aligned words closer to each other, respectively. We evaluate the proposed method on four low-resource language pairs of WMT21 QE shared task, as well as a new English-Farsi test dataset introduced in this paper. Experiments show that our method could get comparable results with the supervised baseline for two zero-shot scenarios, i.e., with less than 0.01 difference in Pearson correlation, while outperforming unsupervised rivals in all the low-resource language pairs for above 8%, on average.
翻訳日:2023-08-15 23:26:52 公開日:2023-08-12
# GUARD: Graph Universal Adversarial Defense

GUARD: Graph Universal Adversarial Defense ( http://arxiv.org/abs/2204.09803v4 )

ライセンス: Link先を確認
Jintang Li, Jie Liao, Ruofan Wu, Liang Chen, Zibin Zheng, Jiawang Dan, Changhua Meng, Weiqiang Wang(参考訳) グラフ畳み込みネットワーク(gcns)は、小さな敵の摂動に対して脆弱であることが示されている。 このような脅威を軽減するため、GCNの敵攻撃に対する堅牢性を高めるためにかなりの研究努力が注がれている。 しかし、現在の防衛アプローチは、GCNが標的にされていない敵攻撃を防ぎ、全体的なパフォーマンスに重点を置いているため、より強力な敵攻撃から重要なローカルノードを保護することは困難である。 加えて、堅牢性とパフォーマンスのトレードオフは、既存の研究でしばしば行われます。 このような制限は、gcnsの全体的なパフォーマンスを損なうことなく、ターゲット攻撃に対してローカルノードを防御できる効率的かつ効率的なアプローチを開発する必要性を浮き彫りにしている。 本稿では,GUARD(Graph Universal Adversarial Defense)という,シンプルながら効果的な手法を提案する。 以前の作業とは異なり、GUARDは各ノードを共通の防御パッチで攻撃から保護しており、これは一度生成され、グラフ内の任意のノード(ノードに依存しない)に適用できる。 GUARDは高速で、ネットワークアーキテクチャの変更やパラメータの追加なしに実装が容易で、あらゆるGCNに適用できる。 4つのベンチマークデータセットの大規模な実験により、GUARDは複数の敵攻撃に対する複数の確立されたGCNの堅牢性を著しく改善し、最先端の防御手法を大きなマージンで上回ることを示した。

Graph convolutional networks (GCNs) have been shown to be vulnerable to small adversarial perturbations, which becomes a severe threat and largely limits their applications in security-critical scenarios. To mitigate such a threat, considerable research efforts have been devoted to increasing the robustness of GCNs against adversarial attacks. However, current defense approaches are typically designed to prevent GCNs from untargeted adversarial attacks and focus on overall performance, making it challenging to protect important local nodes from more powerful targeted adversarial attacks. Additionally, a trade-off between robustness and performance is often made in existing research. Such limitations highlight the need for developing an effective and efficient approach that can defend local nodes against targeted attacks, without compromising the overall performance of GCNs. In this work, we present a simple yet effective method, named Graph Universal Adversarial Defense (GUARD). Unlike previous works, GUARD protects each individual node from attacks with a universal defensive patch, which is generated once and can be applied to any node (node-agnostic) in a graph. GUARD is fast, straightforward to implement without any change to network architecture nor any additional parameters, and is broadly applicable to any GCNs. Extensive experiments on four benchmark datasets demonstrate that GUARD significantly improves robustness for several established GCNs against multiple adversarial attacks and outperforms state-of-the-art defense methods by large margins.
翻訳日:2023-08-15 23:24:56 公開日:2023-08-12
# 単一視点偏光画像からの透明な形状

Transparent Shape from a Single View Polarization Image ( http://arxiv.org/abs/2204.06331v6 )

ライセンス: Link先を確認
Mingqi Shao, Chongkun Xia, Zhendong Yang, Junnan Huang, Xueqian Wang(参考訳) 本稿では,一視点偏光画像から透明表面を推定する学習手法を提案する。 偏光(sfp)法からの既存形状は、固有透過干渉により物理系プリアーの信頼性が大幅に低下するため、透過形状の推定が困難である。 この課題に対処するために,偏光像の透過成分が反射よりもノイズが多いという特性に触発された物理ベースのプリアーの概念を提案する。 信頼度は、干渉された物理学に基づく事前の寄与を決定するために用いられる。 次に,マルチブランチアーキテクチャを用いたネットワーク(transsfp)を構築し,階層的入力間の関係の破壊を回避する。 そこで本研究では,偏光画像と地対正規写像を併用して,偏光から透明な形状のデータセットを構築する。 広範な実験と比較を行い,本手法の精度を実証した。

This paper presents a learning-based method for transparent surface estimation from a single view polarization image. Existing shape from polarization(SfP) methods have the difficulty in estimating transparent shape since the inherent transmission interference heavily reduces the reliability of physics-based prior. To address this challenge, we propose the concept of physics-based prior, which is inspired by the characteristic that the transmission component in the polarization image has more noise than reflection. The confidence is used to determine the contribution of the interfered physics-based prior. Then, we build a network(TransSfP) with multi-branch architecture to avoid the destruction of relationships between different hierarchical inputs. To train and test our method, we construct a dataset for transparent shape from polarization with paired polarization images and ground-truth normal maps. Extensive experiments and comparisons demonstrate the superior accuracy of our method.
翻訳日:2023-08-15 23:24:31 公開日:2023-08-12
# 時間的行動セグメンテーション : 現代技術の分析

Temporal Action Segmentation: An Analysis of Modern Techniques ( http://arxiv.org/abs/2210.10352v4 )

ライセンス: Link先を確認
Guodong Ding, Fadime Sener, and Angela Yao(参考訳) ビデオ中の時間的アクションセグメンテーション(TAS)は、複数のアクションクラスを持つ数分ビデオ内のビデオフレームを密に識別することを目的としている。 長距離ビデオ理解タスクとして、研究者は拡張した手法群を開発し、様々なベンチマークを用いてその性能を調査した。 近年のTAS技術の急速な発展にもかかわらず、これらの分野では体系的な調査は行われていない。 本調査は,最も重要な貢献と傾向を分析し,要約する。 特に,まずタスク定義,共通ベンチマーク,監督の種類,一般的な評価尺度について検討した。 さらに,本研究で広く研究されているフレーム表現と時間モデリングの2つの重要な手法を体系的に検討した。 次に、既存のTAS研究を監督レベルによって分類し、いくつかの研究ギャップを特定し、強調することで調査を終了する。 さらに、我々はTASリソースのリストをキュレートし、https://github.com/nus-cvml/awesome-temporal-action-segmentation.comで入手できる。

Temporal action segmentation (TAS) in videos aims at densely identifying video frames in minutes-long videos with multiple action classes. As a long-range video understanding task, researchers have developed an extended collection of methods and examined their performance using various benchmarks. Despite the rapid growth of TAS techniques in recent years, no systematic survey has been conducted in these sectors. This survey analyzes and summarizes the most significant contributions and trends. In particular, we first examine the task definition, common benchmarks, types of supervision, and prevalent evaluation measures. In addition, we systematically investigate two essential techniques of this topic, i.e., frame representation and temporal modeling, which have been studied extensively in the literature. We then conduct a thorough review of existing TAS works categorized by their levels of supervision and conclude our survey by identifying and emphasizing several research gaps. In addition, we have curated a list of TAS resources, which is available at https://github.com/nus-cvml/awesome-temporal-action-segmentation.
翻訳日:2023-08-15 23:07:13 公開日:2023-08-12
# 決定推定係数を用いたモデル自由強化学習

Model-Free Reinforcement Learning with the Decision-Estimation Coefficient ( http://arxiv.org/abs/2211.14250v2 )

ライセンス: Link先を確認
Dylan J. Foster and Noah Golowich and Jian Qian and Alexander Rakhlin and Ayush Sekhari(参考訳) 一般化関数近似を用いた強化学習と構造化帯域を含む対話型意思決定の課題について考察する。 最近、Foster et al. (2021) は、対話的な意思決定において最適の後悔を低く抑える統計的複雑さの尺度である決定推定係数(Decision-Estimation Coefficient)を導入し、同じ量で上界を達成するメタアルゴリズム、推定対決定を導入した。 推定と決定は縮小であり、オンライン推定(教師あり)のアルゴリズムを意思決定のアルゴリズムに引き上げる。 本稿では,zhang (2022) が導入した特殊形の楽観的推定と推定・決定を組み合わせることで,より寛大な推定誤差の概念を取り入れることで,foster et al. (2021) のそれを改善する保証を得ることができることを示す。 提案手法は,値関数近似を用いたモデル自由強化学習における残差を導出し,より一般的には有効かつ不可能な構造的結果を与える。

We consider the problem of interactive decision making, encompassing structured bandits and reinforcement learning with general function approximation. Recently, Foster et al. (2021) introduced the Decision-Estimation Coefficient, a measure of statistical complexity that lower bounds the optimal regret for interactive decision making, as well as a meta-algorithm, Estimation-to-Decisions, which achieves upper bounds in terms of the same quantity. Estimation-to-Decisions is a reduction, which lifts algorithms for (supervised) online estimation into algorithms for decision making. In this paper, we show that by combining Estimation-to-Decisions with a specialized form of optimistic estimation introduced by Zhang (2022), it is possible to obtain guarantees that improve upon those of Foster et al. (2021) by accommodating more lenient notions of estimation error. We use this approach to derive regret bounds for model-free reinforcement learning with value function approximation, and give structural results showing when it can and cannot help more generally.
翻訳日:2023-08-15 22:56:15 公開日:2023-08-12
# フラックス可変トランスモン量子コンピュータシミュレーションモデルにおけるゲートエラーメトリクスの脆弱性について

On the fragility of gate-error metrics in simulation models of flux-tunable transmon quantum computers ( http://arxiv.org/abs/2211.11011v4 )

ライセンス: Link先を確認
Hannes Lagemann, Dennis Willsch, Madita Willsch, Fengping Jin, Hans De Raedt, Kristel Michielsen(参考訳) 量子コンピュータの構築には、量子システムに対する極めて正確な制御が必要である。 精度の欠如は、平均不忠実度やダイヤモンド距離などのゲートエラー指標によって定量化されることが多い。 しかしながら、このようなゲートエラーメトリクスは個々のゲートに対してのみ考慮され、連続するゲートに蓄積されるエラーではない。 さらに、メトリクスがモデルを構成する仮定にどの程度影響するかはよく分かっていない。 本稿では,これらの問題をフラックス可変トランスモンとカップリング共振器を用いた量子コンピュータの現実シミュレーションモデルを用いて検討する。 本研究の主目的は,(1)ゲートエラー指標がモデル上の多くの仮定に影響されていること,(2)連続ゲートエラーが線形に蓄積されないこと,(3)ゲートエラー指標が連続ゲートの性能予測に弱いこと,である。 さらに、研究対象のデバイスアーキテクチャのスケーラビリティの潜在的な制限について論じる。

Constructing a quantum computer requires immensely precise control over a quantum system. A lack of precision is often quantified by gate-error metrics, such as the average infidelity or the diamond distance. However, usually such gate-error metrics are only considered for individual gates, and not the errors that accumulate over consecutive gates. Furthermore, it is not well known how susceptible the metrics are to the assumptions which make up the model. Here, we investigate these issues using realistic simulation models of quantum computers with flux-tunable transmons and coupling resonators. Our main findings reveal that (1) gate-error metrics are indeed affected by the many assumptions of the model, (2) consecutive gate errors do not accumulate linearly, and (3) gate-error metrics are poor predictors for the performance of consecutive gates. Additionally, we discuss a potential limitation in the scalability of the studied device architecture.
翻訳日:2023-08-15 22:55:51 公開日:2023-08-12
# ハイゼンベルク制限雑音緩和のためのフォトニックモードを用いたスペクトル量子ビット超過と連続計測

Surpassing spectator qubits with photonic modes and continuous measurement for Heisenberg-limited noise mitigation ( http://arxiv.org/abs/2212.06821v2 )

ライセンス: Link先を確認
Andrew Lingenfelter and Aashish A. Clerk(参考訳) ノイズは、脆弱な量子状態の生成と保存に常に挑戦している。 近年の研究では,環境騒音の計測にspectator qubitsを用いて空間雑音相関をノイズ緩和の資源として活用できることが示唆されている。 本研究では,空間的相関のある古典的強調雑音を連続的に測定し,連続補正駆動を周波数可変データキュービットに適用するフォトニックモードを,spectator qubitsからspectator modeに一般化する。 解析の結果、多くの光子状態を用いることで、スペクトレーターモードは、スペクトレーター量子ビットアプローチを制限する量子測定の制約の多くを超越できることがわかった。 また,ホワイトノイズを強調しても長時間データ量子化は任意に抑制できることがわかった。 さらに、スキューズ(パラメトリック)ドライブを用いて、オブザーバモードアプローチの誤差は、使用する光子の数にハイゼンベルク限定のスケーリングを示すことができる。 また, スペクタモードのノイズ低減は, 設計された散逸を用いて完全に自律的に実現可能であることを示した。 この場合、古典的測定記録の明示的な測定や処理は不要である。 私たちの研究は、ノイズ軽減のためのspectator qubitsの潜在的に強力な代替手段としてspectator modesを確立しています。

Noise is an ever-present challenge to the creation and preservation of fragile quantum states. Recent work suggests that spatial noise correlations can be harnessed as a resource for noise mitigation via the use of spectator qubits to measure environmental noise. In this work we generalize this concept from spectator qubits to a spectator mode: a photonic mode which continuously measures spatially correlated classical dephasing noise and applies a continuous correction drive to frequency-tunable data qubits. Our analysis shows that by using many photon states, spectator modes can surpass many of the quantum measurement constraints that limit spectator qubit approaches. We also find that long-time data qubit dephasing can be arbitrarily suppressed, even for white noise dephasing. Further, using a squeezing (parametric) drive, the error in the spectator mode approach can exhibit Heisenberg-limited scaling in the number of photons used. We also show that spectator mode noise mitigation can be implemented completely autonomously using engineered dissipation. In this case no explicit measurement or processing of a classical measurement record is needed. Our work establishes spectator modes as a potentially powerful alternative to spectator qubits for noise mitigation.
翻訳日:2023-08-15 22:47:09 公開日:2023-08-12
# 分散非凸強凸ミニマックス最適化のための効率的な確率的アルゴリズム

An Efficient Stochastic Algorithm for Decentralized Nonconvex-Strongly-Concave Minimax Optimization ( http://arxiv.org/abs/2212.02387v3 )

ライセンス: Link先を確認
Lesi Chen, Haishan Ye, Luo Luo(参考訳) 本稿では,マルチエージェントネットワーク上の分散非凸強対流(NC-SC)ミニマックス問題に対する確率的最適化について検討する。 そこで本研究では,初等関数の$\epsilon$-stationary pointを求めるための最もよく知られている理論的保証を実現するために,分散再帰的漸進降昇降法(dream)を提案する。 提案手法では,$\mathcal{o}(\min (\kappa^3\epsilon^{-3},\sqrt{n} \kappa^2 \epsilon^{-2} )$確率的一階oracle (sfo) コールと$\tilde{\mathcal{o}} (\kappa^2 \epsilon^{-2})$ の通信ラウンドが必要となる。 DREAMは、オンラインとオフラインの両方でよく知られた複雑さを実現する。

This paper studies the stochastic optimization for decentralized nonconvex-strongly-concave (NC-SC) minimax problems over a multi-agent network. We propose an efficient algorithm, called the Decentralized Recursive-gradient descEnt Ascent Method (DREAM), which achieves the best-known theoretical guarantee for finding the $\epsilon$-stationary point of the primal function. The proposed method requires $\mathcal{O}(\min (\kappa^3\epsilon^{-3},\sqrt{N} \kappa^2 \epsilon^{-2} ))$ stochastic first-order oracle (SFO) calls and $\tilde{\mathcal{O}}(\kappa^2 \epsilon^{-2})$ communication rounds to find an $\epsilon$-stationary point, where $\kappa$ is the condition number. DREAM achieves the best-known complexity for both the online and offline setups.
翻訳日:2023-08-15 22:45:55 公開日:2023-08-12
# ゼロショット因果学習

Zero-shot causal learning ( http://arxiv.org/abs/2301.12292v3 )

ライセンス: Link先を確認
Hamed Nilforoshan, Michael Moor, Yusuf Roohani, Yining Chen, Anja \v{S}urina, Michihiro Yasunaga, Sara Oblak, Jure Leskovec(参考訳) パーソナライズされた医療、公共政策、オンラインマーケティングなど様々な分野において、異なる介入が特定の個人に因果的にどのように影響するかを予測することは重要である。 既往の介入の効果を予測する方法は,それを受けた個人からの履歴データに基づいて多数存在する。 しかし、多くの場面において、これらの方法が対処しない新しい介入(例えば、新しく発明された薬物)の効果を予測することが重要である。 ここではゼロショット因果学習を考察し,新しい介入のパーソナライズ効果を予測する。 タスクとして各介入の効果のパーソナライズされた予測を定式化する因果メタラーニングフレームワークであるCaMLを提案する。 camlは、何千ものタスクにまたがる単一のメタモデルを訓練し、それぞれが介入をサンプリングし、受信者や非受信者とともに構築する。 介入情報(例えば薬物の属性)と個々の特徴~(例えば患者の歴史)の両方を活用することで、CaMLはトレーニング時に存在しない新規介入のパーソナライズされた効果を予測することができる。 大規模医療クレームとセルライン摂動における実世界データセットの実験結果は,本手法の有効性を示している。 最も驚くべきことに、CaMLのゼロショット予測は、テスト介入から直接トレーニングされた強力なベースラインよりも優れています。

Predicting how different interventions will causally affect a specific individual is important in a variety of domains such as personalized medicine, public policy, and online marketing. There are a large number of methods to predict the effect of an existing intervention based on historical data from individuals who received it. However, in many settings it is important to predict the effects of novel interventions (\emph{e.g.}, a newly invented drug), which these methods do not address. Here, we consider zero-shot causal learning: predicting the personalized effects of a novel intervention. We propose CaML, a causal meta-learning framework which formulates the personalized prediction of each intervention's effect as a task. CaML trains a single meta-model across thousands of tasks, each constructed by sampling an intervention, along with its recipients and nonrecipients. By leveraging both intervention information (\emph{e.g.}, a drug's attributes) and individual features~(\emph{e.g.}, a patient's history), CaML is able to predict the personalized effects of novel interventions that do not exist at the time of training. Experimental results on real world datasets in large-scale medical claims and cell-line perturbations demonstrate the effectiveness of our approach. Most strikingly, CaML's zero-shot predictions outperform even strong baselines trained directly on data from the test interventions.
翻訳日:2023-08-15 22:37:37 公開日:2023-08-12
# 偽データ注入攻撃と防御を考慮したランプ計測アプリケーションにおける深部強化学習アルゴリズムのロバスト性の解析

Analyzing Robustness of the Deep Reinforcement Learning Algorithm in Ramp Metering Applications Considering False Data Injection Attack and Defense ( http://arxiv.org/abs/2301.12036v2 )

ライセンス: Link先を確認
Diyi Liu, Lanmin Liu, Lee D Han(参考訳) ランプメータリング(英語: Ramp metering)は、高速道路の本線への車両の走行を制御する行為である。 ランプ計測の実践は, ランプ計測が全走行時間を短縮し, 衝撃波を緩和し, 路面衝突を抑制できることを示した。 ALINEAのような従来の制御アルゴリズムに加えて、より細かい制御を構築するためにDeep Reinforcement Learning (DRL)アルゴリズムが導入されている。 しかし、DRLが現実の世界で実装されるのを妨げている課題は、(1)アルゴリズムのいくつかの仮定は現実の世界では適合し難い、(2)リッチな入力状態は、モデルを攻撃やデータノイズに弱いものにする可能性がある。 そこで本研究では,ループ検出情報のみを入力として用いた深層Q-Learningアルゴリズムを提案する。 次に,False Data Injection攻撃とランダムノイズ攻撃のセットを,モデルのロバスト性を調べるために設計する。 モデルの主な利点は、道路のジオメトリやレイアウトに関係なく、ほとんどどんなランプメーターサイトにも適用可能であることである。 ALINEA法に勝るだけでなく、Deep Q-Learning法は、非常に異なる要求とジオメトリ間のトレーニングを通じて、優れた堅牢性を示す。 例えば、TNのマーフリーズボロ近郊でのI-24のテストケースでは、このモデルが高速なグラディエントサインメソッド攻撃下でのALINEAアルゴリズムよりも優れているため、その堅牢性を示している。 従来の多くの研究とは異なり、モデルはモデルの能力を示すために全く異なる環境で訓練され、テストされる。

Ramp metering is the act of controlling on-going vehicles to the highway mainlines. Decades of practices of ramp metering have proved that ramp metering can decrease total travel time, mitigate shockwaves, decrease rear-end collisions by smoothing the traffic interweaving process, etc. Besides traditional control algorithm like ALINEA, Deep Reinforcement Learning (DRL) algorithms have been introduced to build a finer control. However, two remaining challenges still hinder DRL from being implemented in the real world: (1) some assumptions of algorithms are hard to be matched in the real world; (2) the rich input states may make the model vulnerable to attacks and data noises. To investigate these issues, we propose a Deep Q-Learning algorithm using only loop detectors information as inputs in this study. Then, a set of False Data Injection attacks and random noise attack are designed to investigate the robustness of the model. The major benefit of the model is that it can be applied to almost any ramp metering sites regardless of the road geometries and layouts. Besides outcompeting the ALINEA method, the Deep Q-Learning method also shows a good robustness through training among very different demands and geometries. For example, during the testing case in I-24 near Murfreesboro, TN, the model shows its robustness as it still outperforms ALINEA algorithm under Fast Gradient Sign Method attacks. Unlike many previous studies, the model is trained and tested in completely different environments to show the capabilities of the model.
翻訳日:2023-08-15 22:37:14 公開日:2023-08-12
# キャプションとしての要約:自動テキスト要約による科学文書のフィギュアキャプションの生成

Summaries as Captions: Generating Figure Captions for Scientific Documents with Automated Text Summarization ( http://arxiv.org/abs/2302.12324v3 )

ライセンス: Link先を確認
Chieh-Yang Huang, Ting-Yao Hsu, Ryan Rossi, Ani Nenkova, Sungchul Kim, Gromit Yeuk-Yin Chan, Eunyee Koh, Clyde Lee Giles, Ting-Hao 'Kenneth' Huang(参考訳) 優れたフィギュアキャプションは、紙の読者が複雑な科学的な数字を理解するのに役立つ。 残念ながら、刊行された論文でさえ、しばしば字幕が不足している。 自動キャプション生成は、より良い品質のために洗練された開始キャプションを提供することで、紙の書き手を助けることができる。 先行研究は、しばしば視覚から言語へのタスクとして、字幕生成を扱った。 本稿では,学術文書におけるテキスト要約タスクとして,より効果的に取り組むことができることを示す。 事前学習した抽象要約モデルであるPEGASUSを微調整し、図式参照段落(図3の表示など)を図形キャプションに要約した。 大規模arXiv図を用いた実験により, 自動評価と人的評価の両方において, 従来の視覚法よりも優れていた。 さらに,2つの課題に焦点をあてた詳細な調査を行った。 (i)低品質の著者による字幕・字幕の共通存在 (二)優れたキャプションの明確な基準がないこと。 私たちのコードとデータは、https://github.com/Crowd-AI-Lab/Generating-Figure-Captions-as-a-Text-Summarization-Task.comで利用可能です。

Good figure captions help paper readers understand complex scientific figures. Unfortunately, even published papers often have poorly written captions. Automatic caption generation could aid paper writers by providing good starting captions that can be refined for better quality. Prior work often treated figure caption generation as a vision-to-language task. In this paper, we show that it can be more effectively tackled as a text summarization task in scientific documents. We fine-tuned PEGASUS, a pre-trained abstractive summarization model, to specifically summarize figure-referencing paragraphs (e.g., "Figure 3 shows...") into figure captions. Experiments on large-scale arXiv figures show that our method outperforms prior vision methods in both automatic and human evaluations. We further conducted an in-depth investigation focused on two key challenges: (i) the common presence of low-quality author-written captions and (ii) the lack of clear standards for good captions. Our code and data are available at: https://github.com/Crowd-AI-Lab/Generating-Figure-Captions-as-a-Text-Summarization-Task.
翻訳日:2023-08-15 22:26:55 公開日:2023-08-12
# グラフニューラルネットワークによる時変信号の復元

Time-varying Signals Recovery via Graph Neural Networks ( http://arxiv.org/abs/2302.11313v3 )

ライセンス: Link先を確認
Jhon A. Castro-Correa, Jhony H. Giraldo, Anindya Mondal, Mohsen Badiey, Thierry Bouwmans, Fragkiskos D. Malliaros(参考訳) 時間変化グラフ信号の回復は、センサネットワークや時系列予測の多くの応用において根本的な問題である。 これらの信号の時空間情報を効果的に捉えることは下流タスクに不可欠である。 従来の研究では、そのようなグラフ信号の時間差の滑らかさを初期仮定として用いていた。 それでも、この滑らかさの仮定は、前者が持たない場合、対応するアプリケーションの性能の低下をもたらす可能性がある。 本研究では,学習モジュールを含めることで,この仮説の要件を緩和する。 時間変動グラフ信号の回復のための時間グラフニューラルネットワーク(TimeGNN)を提案する。 提案アルゴリズムは,平均二乗誤差関数とソボレフスムーズネス演算子からなる特殊損失を持つエンコーダデコーダアーキテクチャを用いており,TimeGNNは実際のデータセットにおける従来の手法と競合する性能を示す。

The recovery of time-varying graph signals is a fundamental problem with numerous applications in sensor networks and forecasting in time series. Effectively capturing the spatio-temporal information in these signals is essential for the downstream tasks. Previous studies have used the smoothness of the temporal differences of such graph signals as an initial assumption. Nevertheless, this smoothness assumption could result in a degradation of performance in the corresponding application when the prior does not hold. In this work, we relax the requirement of this hypothesis by including a learning module. We propose a Time Graph Neural Network (TimeGNN) for the recovery of time-varying graph signals. Our algorithm uses an encoder-decoder architecture with a specialized loss composed of a mean squared error function and a Sobolev smoothness operator.TimeGNN shows competitive performance against previous methods in real datasets.
翻訳日:2023-08-15 22:26:38 公開日:2023-08-12
# retinexformer:低光度画像強調用1段retinexベースのトランス

Retinexformer: One-stage Retinex-based Transformer for Low-light Image Enhancement ( http://arxiv.org/abs/2303.06705v2 )

ライセンス: Link先を確認
Yuanhao Cai, Hao Bian, Jing Lin, Haoqian Wang, Radu Timofte, Yulun Zhang(参考訳) 低照度画像を強化する場合、多くのディープラーニングアルゴリズムはretinex理論に基づいている。 しかし、Retinexモデルは、暗黒に隠されたり、ライトアッププロセスによって導入された汚職を考慮していない。 さらに、これらの手法は通常、面倒なマルチステージトレーニングパイプラインを必要とし、畳み込みニューラルネットワークに依存し、長距離依存関係をキャプチャする際の制限を示す。 本稿では,単純な一段階Retinex-based Framework (ORF) を定式化する。 ORFはまず照明情報を推定し、低照度画像を照らす。 我々は照明表現を利用した照明誘導変換器(IGT)を設計し、照明条件の異なる領域の非局所的な相互作用をモデル化する。 IGTをORFに接続することで、我々のアルゴリズムであるRetinexformerを得る。 我々のRetinexformerは13のベンチマークで最先端の手法を大幅に上回っている。 低照度物体検出のユーザスタディと応用により,本手法の実用的価値も明らかにした。 コード、モデル、結果はhttps://github.com/caiyuanhao1998/retinexformerで入手できる。

When enhancing low-light images, many deep learning algorithms are based on the Retinex theory. However, the Retinex model does not consider the corruptions hidden in the dark or introduced by the light-up process. Besides, these methods usually require a tedious multi-stage training pipeline and rely on convolutional neural networks, showing limitations in capturing long-range dependencies. In this paper, we formulate a simple yet principled One-stage Retinex-based Framework (ORF). ORF first estimates the illumination information to light up the low-light image and then restores the corruption to produce the enhanced image. We design an Illumination-Guided Transformer (IGT) that utilizes illumination representations to direct the modeling of non-local interactions of regions with different lighting conditions. By plugging IGT into ORF, we obtain our algorithm, Retinexformer. Comprehensive quantitative and qualitative experiments demonstrate that our Retinexformer significantly outperforms state-of-the-art methods on thirteen benchmarks. The user study and application on low-light object detection also reveal the latent practical values of our method. Code, models, and results are available at https://github.com/caiyuanhao1998/Retinexformer
翻訳日:2023-08-15 22:19:01 公開日:2023-08-12
# 財務用語のランクハイパーニムと意味テキストの類似性を学ぶ

Learning Semantic Text Similarity to rank Hypernyms of Financial Terms ( http://arxiv.org/abs/2303.13475v2 )

ライセンス: Link先を確認
Sohom Ghosh, Ankush Chopra, Sudip Kumar Naskar(参考訳) 長年にわたり、ユーザーが金融サービスにアクセスする方法にパラダイムシフトがあった。 デジタル化の進展により、より多くのユーザーが金融活動を行うオンラインモードを好んでいる。 これにより、膨大な量の財務コンテンツが生み出された。 ほとんどの投資家は決定を下す前にこれらの内容を通すことを好む。 どの業界にも、それが運営するドメイン特有の用語があります。 銀行や金融サービスは例外ではない。 これらの内容を完全に理解するためには、財務条件を十分に理解する必要がある。 ある用語について基本的な考えを得ることは、それが属する広いカテゴリーの助けを借りて説明すると簡単になる。 この広いカテゴリはhypernymと呼ばれる。 例えば、"bond" は金融用語 "alternative debenture" のハイパーニムである。 本稿では,金融用語のハイパーニムを抽出・ランク付けするシステムを提案する。 本システムは、DBpedia[4]、Investopedia、FiBO(Financial Industry Business Ontology)、prospectusなど、さまざまな情報源から得られた財務文書コーパスを用いて訓練されている。 これらの用語の埋め込みは FinBERT [3], FinISH [1] を用いて抽出され, SentenceBERT [54] を用いて微調整されている。 負のサンプルでトレーニングセットを増強するために、新しいアプローチが使用されている。 FIBOの階層構造を用いる。 最後に,システム性能を既存システムと比較する。 既存のものよりもパフォーマンスが良く、スケーラブルであることを確認します。

Over the years, there has been a paradigm shift in how users access financial services. With the advancement of digitalization more users have been preferring the online mode of performing financial activities. This has led to the generation of a huge volume of financial content. Most investors prefer to go through these contents before making decisions. Every industry has terms that are specific to the domain it operates in. Banking and Financial Services are not an exception to this. In order to fully comprehend these contents, one needs to have a thorough understanding of the financial terms. Getting a basic idea about a term becomes easy when it is explained with the help of the broad category to which it belongs. This broad category is referred to as hypernym. For example, "bond" is a hypernym of the financial term "alternative debenture". In this paper, we propose a system capable of extracting and ranking hypernyms for a given financial term. The system has been trained with financial text corpora obtained from various sources like DBpedia [4], Investopedia, Financial Industry Business Ontology (FIBO), prospectus and so on. Embeddings of these terms have been extracted using FinBERT [3], FinISH [1] and fine-tuned using SentenceBERT [54]. A novel approach has been used to augment the training set with negative samples. It uses the hierarchy present in FIBO. Finally, we benchmark the system performance with that of the existing ones. We establish that it performs better than the existing ones and is also scalable.
翻訳日:2023-08-15 22:09:38 公開日:2023-08-12
# 常識を破る: なんてこった! 合成画像と合成画像の視覚言語ベンチマーク

Breaking Common Sense: WHOOPS! A Vision-and-Language Benchmark of Synthetic and Compositional Images ( http://arxiv.org/abs/2303.07274v4 )

ライセンス: Link先を確認
Nitzan Bitton-Guetta, Yonatan Bitton, Jack Hessel, Ludwig Schmidt, Yuval Elovici, Gabriel Stanovsky, Roy Schwartz(参考訳) 弱く、異常で、不気味なイメージは、観察者の好奇心を喚起する。 例えば、2022年のワールドカップ中に公開された画像は、有名なサッカースターのライオネル・メッシとクリスティアーノ・ロナルドがチェスをしている様子を描いている。 人間はこれらの非伝統的なイメージを容易に認識し解釈できますが、AIモデルも同じことができますか? 私たちは、visual commonsenseの新しいデータセットとベンチマークであるwhoops!を紹介します。 データセットは、midjourneyのような一般公開された画像生成ツールを使用して設計者が作成した、意図的に常識に準拠したイメージで構成されている。 データセット上のいくつかのタスクについて検討する。 画像キャプション, クロスモーダルマッチング, 視覚的質問応答に加えて, モデルが与えられた画像がなぜ異常であるかを識別し, 説明しなければならない, 困難な説明生成タスクを導入する。 GPT3やBLIP2のような最先端モデルがWHOOPSの人間性能に遅れをきたしていることを示す。 . われわれのデータセットは、より強力なビジュアルコモンセンス推論能力を持つAIモデルの開発を促すことを願っている。 データ、モデル、コードはプロジェクトのwebサイト:whoops-benchmark.github.ioで入手できる。

Weird, unusual, and uncanny images pique the curiosity of observers because they challenge commonsense. For example, an image released during the 2022 world cup depicts the famous soccer stars Lionel Messi and Cristiano Ronaldo playing chess, which playfully violates our expectation that their competition should occur on the football field. Humans can easily recognize and interpret these unconventional images, but can AI models do the same? We introduce WHOOPS!, a new dataset and benchmark for visual commonsense. The dataset is comprised of purposefully commonsense-defying images created by designers using publicly-available image generation tools like Midjourney. We consider several tasks posed over the dataset. In addition to image captioning, cross-modal matching, and visual question answering, we introduce a difficult explanation generation task, where models must identify and explain why a given image is unusual. Our results show that state-of-the-art models such as GPT3 and BLIP2 still lag behind human performance on WHOOPS!. We hope our dataset will inspire the development of AI models with stronger visual commonsense reasoning abilities. Data, models and code are available at the project website: whoops-benchmark.github.io
翻訳日:2023-08-15 22:06:35 公開日:2023-08-12
# 拡散動作セグメンテーション

Diffusion Action Segmentation ( http://arxiv.org/abs/2303.17959v2 )

ライセンス: Link先を確認
Daochang Liu, Qiyue Li, AnhDung Dinh, Tingting Jiang, Mubarak Shah, Chang Xu(参考訳) 時間的アクションセグメンテーションは、長い形式のビデオを理解するのに不可欠である。 このタスクの以前の作業では、多段階モデルを用いて反復的リファインメントパラダイムを一般的に採用していた。 我々は,そのような反復的改良の持つ本質的な精神を共有した拡散モデルによる新しい枠組みを提案する。 このフレームワークでは、入力映像特徴を条件としてランダムノイズから行動予測を反復的に生成する。 人間の行動における3つの印象的特徴のモデル化を, 先行位置, 境界曖昧性, 関係依存性などにより強化するため, 本フレームワークにおける条件付入力の統一マスキング戦略を考案する。 3つのベンチマークデータセット、すなわちgtea、50salads、朝食に関する広範囲な実験を行い、提案手法は最先端の手法に匹敵する結果を得ることができ、アクションセグメンテーションに対する生成的アプローチの有効性を示す。

Temporal action segmentation is crucial for understanding long-form videos. Previous works on this task commonly adopt an iterative refinement paradigm by using multi-stage models. We propose a novel framework via denoising diffusion models, which nonetheless shares the same inherent spirit of such iterative refinement. In this framework, action predictions are iteratively generated from random noise with input video features as conditions. To enhance the modeling of three striking characteristics of human actions, including the position prior, the boundary ambiguity, and the relational dependency, we devise a unified masking strategy for the conditioning inputs in our framework. Extensive experiments on three benchmark datasets, i.e., GTEA, 50Salads, and Breakfast, are performed and the proposed method achieves superior or comparable results to state-of-the-art methods, showing the effectiveness of a generative approach for action segmentation.
翻訳日:2023-08-15 21:56:42 公開日:2023-08-12
# Zolly:人間のメッシュ再建のためのズーム焦点長の補正

Zolly: Zoom Focal Length Correctly for Perspective-Distorted Human Mesh Reconstruction ( http://arxiv.org/abs/2303.13796v2 )

ライセンス: Link先を確認
Wenjia Wang, Yongtao Ge, Haiyi Mei, Zhongang Cai, Qingping Sun, Yanjun Wang, Chunhua Shen, Lei Yang, Taku Komura(参考訳) 野生での単視RGB画像のキャリブレーションが難しいため、既存の3次元メッシュ再構成(3DHMR)手法では、焦点距離が一定であり、背景環境の文脈に基づいて推定することは困難であり、カメラが人体に近づいたときの視界カメラ投影による胴体、手、顔の歪みの問題に対処できない。 単純焦点距離の仮定は、不正確な定式化された射影行列でこの課題を害することができる。 そこで本稿では,遠近像に着目した最初の3dhmr法であるzollyを提案する。 私たちのアプローチは、主に人体のカメラセンターへの相対的な位置によって引き起こされる遠近的歪みの理由を分析することから始まります。 本研究では,人体の2次元密歪スケールを記述する新しいカメラモデルと,新しい2次元表現である歪み画像を提案する。 次に,環境文脈特徴よりも歪みスケール特徴から距離を推定する。 その後、歪み特徴と画像特徴を統合し、ボディメッシュを再構築する。 正しい投影行列を定式化し、人体の位置を特定するために、遠近法と弱視投影損失を同時に利用する。 既存のデータセットは、このタスクを処理できないため、最初の合成データセットPDHumanを提案し、このタスクに適した2つの実世界のデータセットを拡張する。 広範な実験により、zollyはパースペクティブディストリクトデータセットと標準ベンチマーク(3dpw)の両方において、既存の最先端のメソッドよりも優れていることが示されている。

As it is hard to calibrate single-view RGB images in the wild, existing 3D human mesh reconstruction (3DHMR) methods either use a constant large focal length or estimate one based on the background environment context, which can not tackle the problem of the torso, limb, hand or face distortion caused by perspective camera projection when the camera is close to the human body. The naive focal length assumptions can harm this task with the incorrectly formulated projection matrices. To solve this, we propose Zolly, the first 3DHMR method focusing on perspective-distorted images. Our approach begins with analysing the reason for perspective distortion, which we find is mainly caused by the relative location of the human body to the camera center. We propose a new camera model and a novel 2D representation, termed distortion image, which describes the 2D dense distortion scale of the human body. We then estimate the distance from distortion scale features rather than environment context features. Afterwards, we integrate the distortion feature with image features to reconstruct the body mesh. To formulate the correct projection matrix and locate the human body position, we simultaneously use perspective and weak-perspective projection loss. Since existing datasets could not handle this task, we propose the first synthetic dataset PDHuman and extend two real-world datasets tailored for this task, all containing perspective-distorted human images. Extensive experiments show that Zolly outperforms existing state-of-the-art methods on both perspective-distorted datasets and the standard benchmark (3DPW).
翻訳日:2023-08-15 21:54:45 公開日:2023-08-12
# 画像テキストモデルのためのサンプル特異的デバイアス

Sample-Specific Debiasing for Better Image-Text Models ( http://arxiv.org/abs/2304.13181v2 )

ライセンス: Link先を確認
Peiqi Wang, Yingcheng Liu, Ching-Yun Ko, William M. Wells, Seth Berkowitz, Steven Horng, Polina Golland(参考訳) 画像テキストデータに基づく自己教師付き表現学習は、画像分類、視覚的接地、相互モーダル検索などの重要な医療応用を促進する。 1つの一般的なアプローチは、意味論的に類似した(正)と異種(負)のデータポイントの対を対比することである。 トレーニングデータセットから一様に負のサンプルを描画すると、偽の陰性、すなわち同じクラスに属する異種として扱われるサンプルが生じる。 医療データでは、基礎となるクラス分布は不均一であり、偽陰性は高い変動率で起こることを意味する。 学習表現の品質を向上させるために,偽陰性を補正する新しい手法を開発した。 提案手法は, 標本固有のクラス確率を推定し, バイアス付きコントラスト学習の変種と見なすことができる。 目的関数の理論的解析を行い、画像とペア画像テキストのデータセットに対して提案したアプローチを示す。 実験はサンプル特異的デバイアスの実証的利点を示す。

Self-supervised representation learning on image-text data facilitates crucial medical applications, such as image classification, visual grounding, and cross-modal retrieval. One common approach involves contrasting semantically similar (positive) and dissimilar (negative) pairs of data points. Drawing negative samples uniformly from the training data set introduces false negatives, i.e., samples that are treated as dissimilar but belong to the same class. In healthcare data, the underlying class distribution is nonuniform, implying that false negatives occur at a highly variable rate. To improve the quality of learned representations, we develop a novel approach that corrects for false negatives. Our method can be viewed as a variant of debiased contrastive learning that uses estimated sample-specific class probabilities. We provide theoretical analysis of the objective function and demonstrate the proposed approach on both image and paired image-text data sets. Our experiments illustrate empirical advantages of sample-specific debiasing.
翻訳日:2023-08-15 20:12:32 公開日:2023-08-12
# 医療のデジタル双生児から仮想人間双生児へ:デジタルヘルス研究のためのムーンショットプロジェクト

From the digital twins in healthcare to the Virtual Human Twin: a moon-shot project for digital health research ( http://arxiv.org/abs/2304.06678v2 )

ライセンス: Link先を確認
Marco Viceconti, Maarten De Vos, Sabato Mellone, and Liesbet Geris(参考訳) バーチャル・ヒューマン・ツイン(Virtual Human Twin)と呼ばれる、既知の人間の病態を体系的に表現するというアイデアは、何十年も前から存在してきた。 これまで、ほとんどの研究グループは、特定の量の臨床関連を予測できる高度に専門化された患者固有のモデルの開発に注力してきた。 低い果物の収穫を促進する一方で、この狭い焦点は長期的には、医療におけるデジタル双子の採用を遅らせる重要な課題を残している。 本論文は,仮想人間双対(VHT)の開発のための概念基盤について述べる。 vhtは、分散および協調的なインフラストラクチャ、それを可能にする技術とリソース(データ、モデル)のコレクション、および使用を規制する標準運用手順(sop)のコレクションとして意図されている。 vhtインフラストラクチャは、医療ソリューションにおける新しいデジタル双生児の開発と検証において、学術研究者、公共団体、バイオメディカル産業が、必要に応じて複数のリソースを統合することができるように支援することを目的としている。 医療専門家や患者は、臨床決定支援やパーソナライズされた健康予測のためにvhtインフラストラクチャを使用することもできる。 欧州委員会がバーチャル・ヒューマン・ツイン開発のためのロードマップ策定のためのEDITH調整と支援活動を開始したとき、このポジション・ペーパーは合意プロセスの出発点として意図され、すべての利害関係者に武器を求めるものである。

The idea of a systematic digital representation of the entire known human pathophysiology, which we could call the Virtual Human Twin, has been around for decades. To date, most research groups focused instead on developing highly specialised, highly focused patient-specific models able to predict specific quantities of clinical relevance. While it has facilitated harvesting the low-hanging fruits, this narrow focus is, in the long run, leaving some significant challenges that slow the adoption of digital twins in healthcare. This position paper lays the conceptual foundations for developing the Virtual Human Twin (VHT). The VHT is intended as a distributed and collaborative infrastructure, a collection of technologies and resources (data, models) that enable it, and a collection of Standard Operating Procedures (SOP) that regulate its use. The VHT infrastructure aims to facilitate academic researchers, public organisations, and the biomedical industry in developing and validating new digital twins in healthcare solutions with the possibility of integrating multiple resources if required by the specific context of use. Healthcare professionals and patients can also use the VHT infrastructure for clinical decision support or personalised health forecasting. As the European Commission launched the EDITH coordination and support action to develop a roadmap for the development of the Virtual Human Twin, this position paper is intended as a starting point for the consensus process and a call to arms for all stakeholders.
翻訳日:2023-08-15 20:10:58 公開日:2023-08-12
# 偏光周波数相関を用いた量子消去器のコヒーレント励起非局所量子特性

Coherently excited nonlocal quantum features using polarization-frequency correlation between quantum erasers ( http://arxiv.org/abs/2304.04006v3 )

ライセンス: Link先を確認
B. S. Ham(参考訳) 光子識別性は、量子力学における波動粒子双対性の観点から、謎の量子的特徴を理解する上で不可欠な概念である。 識別可能性の物理学は、量子消去器のような単一光子の正規直交基底間の量子重ね合わせの操作にある。 ここでは、ポアソン分散光子対の偏光周波数相関に基づく非局所相関に純粋コヒーレンス法を適用し、測定の役割について検討する。 このために、空間的に分離された遅延チョイス量子消去器間の一致測定にゲートヘテロダイン検出法が採用され、両者の間には分離不能な基底積が生じる。 このコヒーレント誘導不分離基生成物に対して、偏光周波数相関光子対をdcカットacパスフィルタを介して選択的に測定し、偏光-生成基の不要な基を除去する。 最後に,非局所相関のコヒーレンス解に対してベル不等式違反が数値的に確認される。

Photon indistinguishability is an essential concept to understanding mysterious quantum features from the viewpoint of the wave-particle duality in quantum mechanics. The physics of indistinguishability lies in the manipulation of quantum superposition between orthonormal bases of a single photon such as in a quantum eraser. Here, a pure coherence approach is applied for the nonlocal correlation based on the polarization-frequency correlation of Poisson-distributed coherent photon pairs to investigate the role of measurements. For this, a gated heterodyne-detection technique is adopted for coincidence measurements between space-like separated delayed-choice quantum erasers, resulting in an inseparable basis product between them. For this coherently induced inseparable basis product, polarization-frequency correlated photon pairs are selectively measured through a dc-cut ac-pass filter to eliminate unwanted group of polarization-product bases. Finally, the Bell inequality violation is numerically confirmed for the coherence solutions of the nonlocal correlation.
翻訳日:2023-08-15 20:10:13 公開日:2023-08-12
# 量子論の別の基礎

An alternative foundation of quantum theory ( http://arxiv.org/abs/2305.06727v6 )

ライセンス: Link先を確認
Inge S. Helland(参考訳) 量子論への新しいアプローチが本論文で提案されている。 基本はまず、理論変数、アクセス可能あるいはアクセス不能な変数、すなわち、アクターが任意に鋭い数値をそれらに割り当てることは可能であるか不可能であるかもしれない。 認識論的プロセスでは、アクセス可能な変数は、アクターまたは一部の通信アクターと接続された理想的な観察である。 群作用はこれらの変数上で定義され、群表現論はここでヒルベルト空間形式論を展開する基礎である。 アクセス可能な理論変数に対応する演算子が導出され、離散の場合、可能な物理値はそれらの演算子の固有値であることが証明される。 論文の焦点は、提案された量子論の基礎を埋める数学的定理である。 ここで、このアプローチで必要とされる群と変換は、アクセス可能な変数が有限次元である場合に明示的に構成できることを示す。 ヒルベルト空間の定式化を再現するには、2つの相補変数の存在を仮定するのに十分である。 数学的変数よりも物理変数にのみ焦点を合わせるために、到達不能変数の概念は概念の概念に置き換えられ、この関係において圏論の側面は群論を部分的に置き換える。 ここで提案された基礎から推測される解釈は、量子論の一般的なエピステミック解釈と呼ばれる。 この解釈の特別な例はQB主義であり、他のいくつかの解釈とも関係している。

A new approach to quantum theory is proposed in this paper. The basis is first taken to be theoretical variables, variables that may be accessible or inaccessible, i.e., it may be possible or impossible for an actor to assign arbitrarily sharp numerical values to them. In an epistemic process, the accessible variables are just ideal observations connected to an actor or to some communicating actors. Group actions are defined on these variables, and group representation theory is the basis for developing the Hilbert space formalism here. Operators corresponding to accessible theoretical variables are derived, and in the discrete case, it is proved that the possible physical values are the eigenvalues of these operators. The focus of the paper is some mathematical theorems paving the ground for the proposed foundation of quantum theory. It is shown here that the groups and transformations needed in this approach can be constructed explicitly in the case where the accessible variables are finite-dimensional. This simplifies the theory considerably: To reproduce the Hilbert space formulation, it is enough to assume the existence of two complementary variables. To focus only on physical variables rather than mathematical variables, the concept of inaccessible variables is then replaced by the concept of notions, and in this connection, aspects of category theory partly replace group theory. The interpretation inferred from the proposed foundation here may be called a general epistemic interpretation of quantum theory. A special case of this interpretation is QBism; it also has a relationship to several other interpretations.
翻訳日:2023-08-15 20:02:49 公開日:2023-08-12
# バックプロパゲーションフリー4次元連続アントベースニューラルトポロジーサーチ

Backpropagation-Free 4D Continuous Ant-Based Neural Topology Search ( http://arxiv.org/abs/2305.06715v2 )

ライセンス: Link先を確認
AbdElRahman ElSaid and Karl Ricanek and Zeming Lyu and Alexander Ororbia and Travis Desell(参考訳) 連続 ant-based topology search (cants) は、以前に導入されたnature-inspired neural architecture search (nas)アルゴリズムであり、antコロニー最適化 (aco) に基づいている。 CANTSは、連続的な検索空間を使用して、ニューラルアーキテクチャ検索空間を間接的にエンコードする。 合成アリエージェントは、フェロモンの密度と分布に基づいてカントの連続探索空間を探索し、アリが現実世界でどのように動くかに強い影響を受けている。 この連続的な検索空間により、cantsは任意のサイズのニューラルネットワーク(anns)の設計を自動化でき、ユーザが指定したサイズの構造内で動作しなければならない現在の多くのnasアルゴリズムに固有の重要な制限を取り除くことができる。 この研究は、潜在神経シナプス重みを表す探索空間に4次元を追加することでカントを拡大する。 この余分な次元を加えることで、cantsエージェントはアーキテクチャだけでなく、バックプロパゲーション(bp)を適用せずにannの重みも最適化できるため、最適化プロセスで消費される時間を大幅に削減することができる。 実世界のデータを用いた実験により,BP-Free CANTSアルゴリズムは動作時間を大幅に削減しつつ,CANTSとANTSの双方と比較して高い競合性能を示した。

Continuous Ant-based Topology Search (CANTS) is a previously introduced novel nature-inspired neural architecture search (NAS) algorithm that is based on ant colony optimization (ACO). CANTS utilizes a continuous search space to indirectly-encode a neural architecture search space. Synthetic ant agents explore CANTS' continuous search space based on the density and distribution of pheromones, strongly inspired by how ants move in the real world. This continuous search space allows CANTS to automate the design of artificial neural networks (ANNs) of any size, removing a key limitation inherent to many current NAS algorithms that must operate within structures of a size that is predetermined by the user. This work expands CANTS by adding a fourth dimension to its search space representing potential neural synaptic weights. Adding this extra dimension allows CANTS agents to optimize both the architecture as well as the weights of an ANN without applying backpropagation (BP), which leads to a significant reduction in the time consumed in the optimization process: at least an average of 96% less time consumption with very competitive optimization performance, if not better. The experiments of this study - using real-world data - demonstrate that the BP-Free CANTS algorithm exhibits highly competitive performance compared to both CANTS and ANTS while requiring significantly less operation time.
翻訳日:2023-08-15 20:02:29 公開日:2023-08-12
# 自発的に破れた高次対称性の多体物理学:フラクタル超流体から双極子ハバードモデルへ

Many-body physics of spontaneously broken higher-rank symmetry: from fractonic superfluids to dipolar Hubbard model ( http://arxiv.org/abs/2305.00941v3 )

ライセンス: Link先を確認
Shuai A. Chen and Peng Ye(参考訳) フラクトン超流動体は、ボゾンが移動性制約を受ける物質のエキゾチックな相であり、その結果、従来の超流動体を超える特徴をもたらす。 これらのエキゾチックな位相は、双極子、四極子、角モーメントのような高モーメント保存を持つ多体系における高次対称性(hrs)の自発的な破れから生じる。 本稿では,このような系における自発的対称性の破れの理論について,'many-fracton systems'と呼ばれるエキサイティングな展開を紹介することを目的とする。 More specifically, we introduce exciting progress on general aspects of HRS, minimal model construction, realization of symmetry-breaking ground states, order parameter, off-diagonal long-range order (ODLRO), Noether currents with continuity equations, Gross-Pitaevskii equations, quantum fluctuations, Goldstone modes, specific heat, generalized Mermin-Wagner theorem, critical current, Landau criterion, symmetry defects, and Kosterlitz-Thouless (KT)-like physics, hydrodynamics, and dipolar Hubbard model realization. 本論文はいくつかの今後の方向性でまとめられる。

Fractonic superfluids are exotic phases of matter in which bosons are subject to mobility constraints, resulting in features beyond those of conventional superfluids. These exotic phases arise from the spontaneous breaking of higher-rank symmetry (HRS) in many-body systems with higher-moment conservation, such as dipoles, quadrupoles, and angular moments. The aim of this paper is to introduce exciting developments on the theory of spontaneous symmetry breaking in such systems, which we refer to as ``many-fracton systems''. More specifically, we introduce exciting progress on general aspects of HRS, minimal model construction, realization of symmetry-breaking ground states, order parameter, off-diagonal long-range order (ODLRO), Noether currents with continuity equations, Gross-Pitaevskii equations, quantum fluctuations, Goldstone modes, specific heat, generalized Mermin-Wagner theorem, critical current, Landau criterion, symmetry defects, and Kosterlitz-Thouless (KT)-like physics, hydrodynamics, and dipolar Hubbard model realization. This paper is concluded with several future directions.
翻訳日:2023-08-15 20:00:10 公開日:2023-08-12
# 孤立系の平衡:初期状態磁化における粗粒化の役割に関する研究

Equilibration of Isolated Systems: investigating the role of coarse-graining on the initial state magnetization ( http://arxiv.org/abs/2305.11985v2 )

ライセンス: Link先を確認
Gabriel Dias Carvalho, Luis Fernando dos Prazeres, Pedro Silva Correia, and Thiago R de Oliveira(参考訳) 多くの理論および実験の結果は、一元的に進化する孤立量子系でさえも、観測可能ないくつかの進化は、大抵の場合、無視できるゆらぎを持つ平衡値の周りに存在する可能性があるため、等式化することができることを示している。 そのような平衡が発生する条件を与える厳密な定理がある。 特に、エネルギーの分解能の欠如で準備された初期状態は平衡する。 初期状態の磁化における分解能の欠如や粗粒化の影響について検討する。 特に、カオススピン鎖と正確な対角化を用いた場合、z方向の十分に定義された磁化でない粗い初期状態は、十分に定義された磁化を持つ初期状態と比較して、平衡する傾向が大きいことを示す。 この傾向は粗粒化の程度に依存する。 また,システムが平衡に達するまでの時間を解析し,理論的な推定値とよく一致し,より少ない分解能で平衡がより速くなることを示す。 本研究は,量子系の平衡力学における初期状態準備の重要性を強調し,閉系における平衡の基本的性質に関する新たな知見を提供する。

Many theoretical and experimental results show that even isolated quantum systems evolving unitarily may equilibrate, since the evolution of some observables may be around an equilibrium value with negligible fluctuations most of the time. There are rigorous theorems giving the conditions for such equilibration to happen. In particular, initial states prepared with a lack of resolution in the energy will equilibrate. We investigate how equilibration may be affected by a lack of resolution, or coarse-graining, in the magnetization of the initial state. In particular, for a chaotic spin chain and using exact diagonalization, we show that an initial state with a coarse, not well-defined magnetization in the z direction show a greater tendency to equilibrate when compared with an initial state with well-defined magnetization. And this tendency will depend on the degree of coarse-graining. We also analyze the time for the system to reach equilibrium, showing good agreement with theoretical estimates and with some evidence that less resolution leads to faster equilibration. Our study highlights the crucial role of initial state preparation in the equilibration dynamics of quantum systems and provides new insights into the fundamental nature of equilibration in closed systems.
翻訳日:2023-08-15 19:52:42 公開日:2023-08-12
# システムインテリジェンスのテスト

Testing System Intelligence ( http://arxiv.org/abs/2305.11472v2 )

ライセンス: Link先を確認
Joseph Sifakis(参考訳) 本稿では,インテリジェントシステムにおけるテストの妥当性と,その実装による実践的問題について議論する。 そこで本研究では,ある状況下でタスクを遂行する他のシステムを置き換えるシステムの能力として,代替テストを提案する。 チューリングテストでは考慮できない人間の知性の突出した側面をいかに特徴付けるかを示す。 我々は、置換テストに合格するインテリジェントなシステムの構築には、現在のAIの範囲外にある一連の技術的な問題が含まれると主張している。 提案するテストを実装し,インテリジェントシステムの特性を検証するためのフレームワークを提案する。 知的システム検証の固有の限界を議論し、既存の厳密なテスト手法を拡張するための新しい理論的基礎を提唱する。 我々は、人間と機械のスキルの相補性に基づいて、代替テストが、データベースと記号的知識を様々な程度に組み合わせる能力を反映した、多種多様な知性概念をもたらすことを示唆する。

We discuss the adequacy of tests for intelligent systems and practical problems raised by their implementation. We propose the replacement test as the ability of a system to replace successfully another system performing a task in a given context. We show how it can characterize salient aspects of human intelligence that cannot be taken into account by the Turing test. We argue that building intelligent systems passing the replacement test involves a series of technical problems that are outside the scope of current AI. We present a framework for implementing the proposed test and validating the properties of the intelligent systems. We discuss the inherent limitations of intelligent system validation and advocate new theoretical foundations for extending existing rigorous test methods. We suggest that the replacement test, based on the complementarity of skills between human and machine, can lead to a multitude of intelligence concepts reflecting the ability to combine data-based and symbolic knowledge to varying degrees.
翻訳日:2023-08-15 19:52:21 公開日:2023-08-12
# ゼロショットタスク一般化のためのwebスケール音声モデルの隠れた人材育成

Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot Task Generalization ( http://arxiv.org/abs/2305.11095v2 )

ライセンス: Link先を確認
Puyuan Peng, Brian Yan, Shinji Watanabe, David Harwath(参考訳) 本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。 音声視覚音声認識(AVSR)、コードスイッチト音声認識(CS-ASR)、音声翻訳(ST)の3つのタスクを選択した。 タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。 実験の結果、デフォルトのプロンプトと比較して、3つのゼロショットタスクで10%から45%のパフォーマンスが向上し、いくつかのデータセットでsata教師付きモデルよりも優れています。 さらに,本実験では,発話に対する頑健性,アクセントの偏り,潜在空間における多言語理解など,whisperの多くの興味深い特徴が明らかにされている。 コードはhttps://github.com/jasonppy/promptingwhisperで入手できる。

We investigate the emergent abilities of the recently proposed web-scale speech model Whisper, by adapting it to unseen tasks with prompt engineering. We selected three tasks: audio-visual speech recognition (AVSR), code-switched speech recognition (CS-ASR), and speech translation (ST) on unseen language pairs. We design task-specific prompts, by either leveraging another large-scale model, or simply manipulating the special tokens in the default prompts. Experiments show that compared to the default prompts, our proposed prompts improve performance by 10% to 45% on the three zero-shot tasks, and even outperform SotA supervised models on some datasets. In addition, our experiments reveal many interesting properties of Whisper, including its robustness to prompts, bias on accents, and the multilingual understanding in its latent space. Code is available at https://github.com/jasonppy/PromptingWhisper
翻訳日:2023-08-15 19:52:07 公開日:2023-08-12
# Seq-HGNN:不均一グラフを用いた逐次ノード表現学習

Seq-HGNN: Learning Sequential Node Representation on Heterogeneous Graph ( http://arxiv.org/abs/2305.10771v2 )

ライセンス: Link先を確認
Chenguang Du, Kaichun Yao, Hengshu Zhu, Deqing Wang, Fuzhen Zhuang and Hui Xiong(参考訳) 近年、情報検索(IR)アプリケーションにおけるヘテロジニアスグラフニューラルネットワーク(HGNN)の急速な発展が見られた。 多くの既存のhgnnは、構造的および意味的情報をヘテロジニアスグラフで捉えるために、様々なテーラーメイドグラフ畳み込みを設計する。 しかし、既存のhgnnは通常、各ノードを多層グラフ畳み込み計算において単一のベクターとして表現するので、高レベルグラフ畳み込み層は異なる関係と異なる順序の情報を区別できず、メッセージパスにおける情報損失が発生する。 % 情報マイニングが不十分。 そこで本研究では,逐次ノード表現を持つ新しいヘテロジニアスグラフニューラルネットワーク,seq-hgnnを提案する。 単一ベクトルノード表現による情報損失を回避するため,まず,各ノードをノードメッセージパッシング中のメタパス表現列として表現する逐次ノード表現学習機構を設計する。 次に,seq-hgnnに重要なメタパスを同定し,それらの表現をコンパクトに集約する不均一表現融合モジュールを提案する。 Heterogeneous Graph Benchmark (HGB) と Open Graph Benchmark (OGB) の4つの広く使われているデータセットについて広範な実験を行った。 実験の結果,提案手法は精度と効率の両方において最先端のベースラインを上回ることがわかった。 ソースコードはhttps://github.com/nobrowning/seq_hgnnで入手できる。

Recent years have witnessed the rapid development of heterogeneous graph neural networks (HGNNs) in information retrieval (IR) applications. Many existing HGNNs design a variety of tailor-made graph convolutions to capture structural and semantic information in heterogeneous graphs. However, existing HGNNs usually represent each node as a single vector in the multi-layer graph convolution calculation, which makes the high-level graph convolution layer fail to distinguish information from different relations and different orders, resulting in the information loss in the message passing. %insufficient mining of information. To this end, we propose a novel heterogeneous graph neural network with sequential node representation, namely Seq-HGNN. To avoid the information loss caused by the single vector node representation, we first design a sequential node representation learning mechanism to represent each node as a sequence of meta-path representations during the node message passing. Then we propose a heterogeneous representation fusion module, empowering Seq-HGNN to identify important meta-paths and aggregate their representations into a compact one. We conduct extensive experiments on four widely used datasets from Heterogeneous Graph Benchmark (HGB) and Open Graph Benchmark (OGB). Experimental results show that our proposed method outperforms state-of-the-art baselines in both accuracy and efficiency. The source code is available at https://github.com/nobrowning/SEQ_HGNN.
翻訳日:2023-08-15 19:51:48 公開日:2023-08-12
# マルチモーダルスマートフォンセンシングによる食生活の社会的文脈理解 : 地域多様性の役割

Understanding the Social Context of Eating with Multimodal Smartphone Sensing: The Role of Country Diversity ( http://arxiv.org/abs/2306.00709v2 )

ライセンス: Link先を確認
Nathan Kammoun and Lakmal Meegahapola and Daniel Gatica-Perez(参考訳) 食事の社会的文脈を理解することは、健康な食事行動を促進するために重要である。 マルチモーダルスマートフォンセンサーのデータは、特にモバイル食品日記やモバイル健康アプリにおいて、食行動に関する貴重な洞察を提供する可能性がある。 しかし, スマートフォンのセンサデータを用いた食事の社会的文脈に関する研究は, 栄養学や行動科学の広範な研究にもかかわらず限られている。 また, 国差が食事の社会的文脈に与える影響については, マルチモーダル電話センサデータと自己報告による検討が未定である。 本研究は,8か国の678人の大学生が,異なる社会的状況(他者)のイベントを食事中にスマートフォンセンサから発する国の多様性を調査するための,約24万件の自己申告データに焦点をあてた。 分析の結果,食事イベントにおけるスマートフォンの利用状況は各国で類似しているが,各国に特有の傾向が見られた。 さらに,人口レベル(非パーソナライズド)とハイブリッド(部分的パーソナライズド)の実験的な設定を用いた機械学習モデルの開発により,ユーザおよび国固有の要因が社会的コンテキスト推論に与える影響についても検討した。 その結果,XGBoostモデルを用いてAUCのスコアを最大0.75まで向上させることができた。 これらの知見は、バイアスを最小限に抑え、異なる集団における一般化を改善するために、機械学習モデルの構築と展開における国差を考慮することの重要性を強調している。

Understanding the social context of eating is crucial for promoting healthy eating behaviors. Multimodal smartphone sensor data could provide valuable insights into eating behavior, particularly in mobile food diaries and mobile health apps. However, research on the social context of eating with smartphone sensor data is limited, despite extensive studies in nutrition and behavioral science. Moreover, the impact of country differences on the social context of eating, as measured by multimodal phone sensor data and self-reports, remains under-explored. To address this research gap, our study focuses on a dataset of approximately 24K self-reports on eating events provided by 678 college students in eight countries to investigate the country diversity that emerges from smartphone sensors during eating events for different social contexts (alone or with others). Our analysis revealed that while some smartphone usage features during eating events were similar across countries, others exhibited unique trends in each country. We further studied how user and country-specific factors impact social context inference by developing machine learning models with population-level (non-personalized) and hybrid (partially personalized) experimental setups. We showed that models based on the hybrid approach achieve AUC scores up to 0.75 with XGBoost models. These findings emphasize the importance of considering country differences in building and deploying machine learning models to minimize biases and improve generalization across different populations.
翻訳日:2023-08-15 19:41:46 公開日:2023-08-12
# 多目的学習における三段階貿易--最適化・一般化・衝突回避

Three-Way Trade-Off in Multi-Objective Learning: Optimization, Generalization and Conflict-Avoidance ( http://arxiv.org/abs/2305.20057v2 )

ライセンス: Link先を確認
Lisha Chen, Heshan Fernando, Yiming Ying, Tianyi Chen(参考訳) マルチオブジェクト学習(MOL)問題は、複数の学習基準や複数の学習タスクがある場合、機械学習の問題を発生させる。 最近の研究はMGDAやその変種などのMOLのための様々な動的重み付けアルゴリズムを開発しており、そこでは目的間の衝突を避けるための更新方向を見つけることが中心となっている。 直感的には魅力的だが、実験的な研究は動的重み付け法が常に静的な方法よりも優れているとは限らないことを示している。 この理論と実践のギャップを理解するため,我々はmgdaの新しい確率的変種である二重サンプリング(modo)アルゴリズムに着目し,動的重み付けに基づくmodoの一般化性能とアルゴリズム安定性のレンズによる最適化に関する研究を行った。 おそらく、MGDAの背後にある重要な理論的根拠 -- 矛盾回避方向に沿って更新する -- は、最適な${\cal O}(1/\sqrt{n})$集団リスクを達成するための動的重み付けアルゴリズムを妨げる可能性がある。 さらに,mol に特有の最適化,一般化,競合回避の3方向トレードオフにおける動的重みの変動性を示す。

Multi-objective learning (MOL) problems often arise in emerging machine learning problems when there are multiple learning criteria or multiple learning tasks. Recent works have developed various dynamic weighting algorithms for MOL such as MGDA and its variants, where the central idea is to find an update direction that avoids conflicts among objectives. Albeit its appealing intuition, empirical studies show that dynamic weighting methods may not always outperform static ones. To understand this theory-practical gap, we focus on a new stochastic variant of MGDA - the Multi-objective gradient with Double sampling (MoDo) algorithm, and study the generalization performance of the dynamic weighting-based MoDo and its interplay with optimization through the lens of algorithm stability. Perhaps surprisingly, we find that the key rationale behind MGDA -- updating along conflict-avoidant direction - may hinder dynamic weighting algorithms from achieving the optimal ${\cal O}(1/\sqrt{n})$ population risk, where $n$ is the number of training samples. We further demonstrate the variability of dynamic weights on the three-way trade-off among optimization, generalization, and conflict avoidance that is unique in MOL.
翻訳日:2023-08-15 19:40:55 公開日:2023-08-12
# 量子センシングのための最適発電機

Optimal Generators for Quantum Sensing ( http://arxiv.org/abs/2305.15556v3 )

ライセンス: Link先を確認
Jarrod T. Reilly, John Drew Wilson, Simon B. J\"ager, Christopher Wilson, Murray J. Holland(参考訳) 量子状態が最も敏感なユニタリ進化を導出するための計算効率の高い手法を提案する。 これにより、量子センシングにおける絡み合った状態の最適利用を決定することができる。 本稿では、量子フィッシャー情報行列(QFIM)の最大固有値により、与えられた量子状態を用いた最大到達感度が決定され、重要なことに、対応する進化は、一致する固有ベクトルによって一意に決定されることを示す。 状態準備プロトコルではなくパラメータ符号化のプロセスを最適化するため、我々の手法はあらゆる量子センサに関係している。 この手順は、QFIMの固有ベクトルを通じて、最適な感度で通勤可観測物の最大セットを決定することで、自然にマルチパラメータ推定を最適化する。

We propose a computationally efficient method to derive the unitary evolution that a quantum state is most sensitive to. This allows one to determine the optimal use of an entangled state for quantum sensing, even in complex systems where intuition from canonical squeezing examples breaks down. In this paper we show that the maximal obtainable sensitivity using a given quantum state is determined by the largest eigenvalue of the quantum Fisher information matrix (QFIM) and, importantly, the corresponding evolution is uniquely determined by the coinciding eigenvector. Since we optimize the process of parameter encoding rather than focusing on state preparation protocols, our scheme is relevant for any quantum sensor. This procedure naturally optimizes multiparameter estimation by determining, through the eigenvectors of the QFIM, the maximal set of commuting observables with optimal sensitivity.
翻訳日:2023-08-15 19:40:02 公開日:2023-08-12
# 人工知能と生物学的誤用:言語モデルと生物学的デザインツールの差別化リスク

Artificial intelligence and biological misuse: Differentiating risks of language models and biological design tools ( http://arxiv.org/abs/2306.13952v5 )

ライセンス: Link先を確認
Jonas B. Sandbrink(参考訳) 人工知能(AI)の進歩が生命科学の進歩を促進するにつれ、生物エージェントの兵器化や誤用も可能となるかもしれない。 本稿では,大規模言語モデル (LLM) と生物設計ツール (BDT) の2種類のAIツールを区別する。 GPT-4のようなLLMはすでに、歴史的生物学的兵器開発で遭遇した障壁を取り除くために、二重用途の情報を提供することができる。 LLMを研究室のアシスタントや自律科学ツールに変えることで、研究を支援する能力はさらに向上する。 したがって、LDMは特に生物学的誤用に対する障壁を低くする。 対照的に、BDTは高度なアクターの能力を拡大する。 具体的には、BDTはパンデミックの病原体をこれまで見たことよりもはるかに悪化させ、予測可能で標的となる生物兵器の形式を可能にする可能性がある。 LLMとBDTが組み合わさると、生物剤による害の天井が上がり、広くアクセスできるようになる。 さまざまな介入がリスク管理に役立ちます。 独立したプレリリース評価により、開発者は新しいモデルの危険な能力を排除できる。 強力な科学ツールによるリスクは、正当な研究者に異なるアクセスを提供することによって軽減される可能性がある。 最後に、リスク軽減に必須となるのは、遺伝子合成産物の普遍的スクリーニングと強化である。

As advancements in artificial intelligence (AI) propel progress in the life sciences, they may also enable the weaponisation and misuse of biological agents. This article differentiates two classes of AI tools that pose such biosecurity risks: large language models (LLMs) and biological design tools (BDTs). LLMs, such as GPT-4, are already able to provide dual-use information that removes some barriers encountered by historical biological weapons efforts. As LLMs are turned into lab assistants and autonomous science tools, this will further increase their ability to support research. Thus, LLMs will in particular lower barriers to biological misuse. In contrast, BDTs will expand the capabilities of sophisticated actors. Concretely, BDTs may enable the creation of pandemic pathogens substantially worse than anything seen to date and could enable forms of more predictable and targeted biological weapons. In combination, LLMs and BDTs could raise the ceiling of harm from biological agents and could make them broadly accessible. A range of interventions would help to manage risks. Independent pre-release evaluations could ensure that developers have eliminated dangerous capabilities of new models. Risks from powerful science tools might be mitigated through providing differentiated access to legitimate researchers. Lastly, essential for mitigating risks will be universal and enhanced screening of gene synthesis products.
翻訳日:2023-08-15 19:34:00 公開日:2023-08-12
# 拡張属性クラスタリングのための変換グラフ:革新的なグラフトランスフォーマティブに基づく方法

Transforming Graphs for Enhanced Attribute Clustering: An Innovative Graph Transformer-Based Method ( http://arxiv.org/abs/2306.11307v3 )

ライセンス: Link先を確認
Shuo Han, Jiacheng Liu, Jiayun Wu, Yinan Chen, Li Tao(参考訳) グラフ表現学習(GRL)は、グラフ構造化データのより深い理解とグラフクラスタリングの支援を可能にする、影響力のある方法論である。 最近の注目メカニズムは、もともと自然言語処理(NLP)の成果物であり、グラフ学習の領域に導入され、研究動向の顕著な変化を先導している。 その結果、グラフクラスタリングタスクのツールとしてグラフアテンションネットワーク(gats)とグラフアテンションオートエンコーダが好まれている。 しかし、これらの手法は主に局所的注意機構を採用しており、グラフ内のノード間の複雑なグローバル依存関係を理解する能力を抑えている。 そこで本研究では,グラフクラスタリングのためのグラフトランスフォーマーオートエンコーダ(gtagc)という革新的な手法を提案する。 Graph Auto-EncoderをGraph Transformerでマージすることで、GTAGCはノード間のグローバルな依存関係をキャプチャできる。 この統合はグラフ表現を増幅し、局所注意機構によって与えられる制約を克服する。 GTAGCのアーキテクチャはグラフの埋め込み、オートエンコーダ構造内のグラフ変換器の統合、クラスタリングコンポーネントを含んでいる。 グラフ埋め込みとクラスタリングを戦略的に代替し、グラフのグローバル構造情報を保存しながら、クラスタリングタスク用にグラフトランスフォーマーを調整します。 多様なベンチマークデータセットに関する広範な実験を通じて、GTAGCは既存の最先端グラフクラスタリング手法よりも優れたパフォーマンスを示した。

Graph Representation Learning (GRL) is an influential methodology, enabling a more profound understanding of graph-structured data and aiding graph clustering, a critical task across various domains. The recent incursion of attention mechanisms, originally an artifact of Natural Language Processing (NLP), into the realm of graph learning has spearheaded a notable shift in research trends. Consequently, Graph Attention Networks (GATs) and Graph Attention Auto-Encoders have emerged as preferred tools for graph clustering tasks. Yet, these methods primarily employ a local attention mechanism, thereby curbing their capacity to apprehend the intricate global dependencies between nodes within graphs. Addressing these impediments, this study introduces an innovative method known as the Graph Transformer Auto-Encoder for Graph Clustering (GTAGC). By melding the Graph Auto-Encoder with the Graph Transformer, GTAGC is adept at capturing global dependencies between nodes. This integration amplifies the graph representation and surmounts the constraints posed by the local attention mechanism. The architecture of GTAGC encompasses graph embedding, integration of the Graph Transformer within the autoencoder structure, and a clustering component. It strategically alternates between graph embedding and clustering, thereby tailoring the Graph Transformer for clustering tasks, whilst preserving the graph's global structural information. Through extensive experimentation on diverse benchmark datasets, GTAGC has exhibited superior performance against existing state-of-the-art graph clustering methodologies.
翻訳日:2023-08-15 19:32:33 公開日:2023-08-12
# 超点変圧器を用いた効率的な3次元意味セグメンテーション

Efficient 3D Semantic Segmentation with Superpoint Transformer ( http://arxiv.org/abs/2306.08045v2 )

ライセンス: Link先を確認
Damien Robert, Hugo Raguet, Loic Landrieu(参考訳) 大規模3dシーンの効率的なセマンティクスセグメンテーションのための,新しいスーパーポイントに基づくトランスフォーマーアーキテクチャを提案する。 提案手法は,ポイントクラウドを階層型スーパーポイント構造に分割する高速アルゴリズムを取り入れ,既存のスーパーポイントベース手法の7倍高速に前処理を行う。 さらに、複数のスケールでスーパーポイント間の関係をキャプチャする自己注意機構を活用し、S3DIS (76.0% mIoU 6-fold validation)、KITTI-360 (63.5% on Val)、DAALES (79.6%)の3つの挑戦的なベンチマークデータセット上で、最先端のパフォーマンスを実現した。 212kのパラメータしか持たないので、同様の性能を維持しつつ、他の最先端モデルよりも200倍もコンパクトです。 さらに、我々のモデルはS3DISデータセットの折りたたみに3時間で1つのGPUでトレーニングすることができる。 私たちのコードとモデルはgithub.com/drprojects/superpoint_transformerからアクセスできます。

We introduce a novel superpoint-based transformer architecture for efficient semantic segmentation of large-scale 3D scenes. Our method incorporates a fast algorithm to partition point clouds into a hierarchical superpoint structure, which makes our preprocessing 7 times faster than existing superpoint-based approaches. Additionally, we leverage a self-attention mechanism to capture the relationships between superpoints at multiple scales, leading to state-of-the-art performance on three challenging benchmark datasets: S3DIS (76.0% mIoU 6-fold validation), KITTI-360 (63.5% on Val), and DALES (79.6%). With only 212k parameters, our approach is up to 200 times more compact than other state-of-the-art models while maintaining similar performance. Furthermore, our model can be trained on a single GPU in 3 hours for a fold of the S3DIS dataset, which is 7x to 70x fewer GPU-hours than the best-performing methods. Our code and models are accessible at github.com/drprojects/superpoint_transformer.
翻訳日:2023-08-15 19:30:47 公開日:2023-08-12
# 時間内の縫い目は9を節約する:低信頼生成の検証によるllmの幻覚の検出と緩和

A Stitch in Time Saves Nine: Detecting and Mitigating Hallucinations of LLMs by Validating Low-Confidence Generation ( http://arxiv.org/abs/2307.03987v2 )

ライセンス: Link先を確認
Neeraj Varshney, Wenlin Yao, Hongming Zhang, Jianshu Chen, and Dong Yu(参考訳) 近年、大規模な言語モデルが、フルーエントでコヒーレントなテキストを生成することに顕著な成功を収めている。 しかしながら、これらのモデルは、しばしば信頼性を著しく損なう「幻覚」を引き起こす傾向がある。 本研究では,この課題に対処し,生成過程において幻覚を積極的に検出し緩和する手法を提案する。 具体的には、まずモデルのロジット出力値を利用した潜在的幻覚の候補を特定し、検証手順によりそれらの正しさを確認し、検出された幻覚を緩和し、生成過程を継続する。 GPT-3.5(text-davinci-003)を用いた広範囲な実験を通じて,まず,検出・緩和技術の有効性を実証した。 特に、検出技術は88%のリコールを達成し、緩和技術は正しく検出された幻覚の57.6%を緩和することに成功した。 重要なことは,誤検出された幻覚,すなわち偽陽性の場合においても,新たな幻覚は導入されない。 そして,提案手法により,gpt-3.5モデルの幻覚を平均47.5%から14.5%に低減できることを示した。 さらに,様々な種類の質問(マルチホップと偽の前提質問)や,異なるモデルファミリー(vicuna)からの別の質問(llm)のパフォーマンスに関する追加研究を通じて,アプローチの有効性と幅広い適用性を示す。 まとめると、私たちの研究は、大規模な言語モデルの信頼性と信頼性の向上に寄与します。

Recently developed large language models have achieved remarkable success in generating fluent and coherent text. However, these models often tend to 'hallucinate' which critically hampers their reliability. In this work, we address this crucial problem and propose an approach that actively detects and mitigates hallucinations during the generation process. Specifically, we first identify the candidates of potential hallucination leveraging the model's logit output values, check their correctness through a validation procedure, mitigate the detected hallucinations, and then continue with the generation process. Through extensive experiments with GPT-3.5 (text-davinci-003) on the 'article generation task', we first demonstrate the individual efficacy of our detection and mitigation techniques. Specifically, the detection technique achieves a recall of ~88% and the mitigation technique successfully mitigates 57.6% of the correctly detected hallucinations. Importantly, our mitigation technique does not introduce new hallucinations even in the case of incorrectly detected hallucinations, i.e., false positives. Then, we show that the proposed active detection and mitigation approach successfully reduces the hallucinations of the GPT-3.5 model from 47.5% to 14.5% on average. We further demonstrate the effectiveness and wide applicability of our approach through additional studies including performance on different types of questions (multi-hop and false premise questions) and with another LLM from a different model family (Vicuna). In summary, our work contributes to improving the reliability and trustworthiness of large language models, a crucial step en route to enabling their widespread adoption in real-world applications.
翻訳日:2023-08-15 19:22:11 公開日:2023-08-12
# 輸送・変分推論・拡散--アニール流れとシュル=オディンガー橋への適用

Transport, Variational Inference and Diffusions: with Applications to Annealed Flows and Schr\"odinger Bridges ( http://arxiv.org/abs/2307.01050v2 )

ライセンス: Link先を確認
Francisco Vargas, Nikolas N\"usken(参考訳) 本稿では, 最適輸送と変分推論の関係を, 前方および逆時間確率微分方程式とガーサノフ変換に焦点をあてて検討し, 経路空間上の発散を中心として, サンプリングおよび生成モデリングを行うための原理的・系統的枠組みを提案する。 本研究は,標準的なipfの逐次的性質から外れた,新たなスコアベースアニールドフロー手法(jarzynski と crooks identity from statistical physics との関連)と正規化反復比例結合(regularized iterative proportional fit, ipf)型目標の開発に結実する。 一連の生成モデリング例とダブルウェルに基づくレアイベントタスクを通じて,提案手法の可能性を示す。

This paper explores the connections between optimal transport and variational inference, with a focus on forward and reverse time stochastic differential equations and Girsanov transformations.We present a principled and systematic framework for sampling and generative modelling centred around divergences on path space. Our work culminates in the development of a novel score-based annealed flow technique (with connections to Jarzynski and Crooks identities from statistical physics) and a regularised iterative proportional fitting (IPF)-type objective, departing from the sequential nature of standard IPF. Through a series of generative modelling examples and a double-well-based rare event task, we showcase the potential of the proposed methods.
翻訳日:2023-08-15 19:21:28 公開日:2023-08-12
# VesselMorph: 形状認識による領域一般化網膜血管分割

VesselMorph: Domain-Generalized Retinal Vessel Segmentation via Shape-Aware Representation ( http://arxiv.org/abs/2307.00240v2 )

ライセンス: Link先を確認
Dewei Hu, Hao Li, Han Liu, Xing Yao, Jiacheng Wang, Ipek Oguz(参考訳) 単一の標準化されたイメージングプロトコルが存在しないため、異なるサイトから取得したデータ間のドメインシフトは医療画像の固有の特性であり、学習ベースアルゴリズムの大規模展開の大きな障害となっている。 網膜血管画像では、ドメインシフトは通常、強度、コントラスト、解像度の変動として現れるが、血管の基本的な管状形状は影響を受けない。 したがって、そのようなドメイン不変な形態的特徴を利用することで、深層モデルの一般化性を大幅に改善することができる。 本研究では,形状認識表現を合成することにより,2次元網膜血管分割タスクを一般化するVesselMorphという手法を提案する。 従来のフラギフィルタや拡散テンソルイメージングの文献に触発されて,形状情報を考慮した血管の形態を記述するため,ヘッセン系バイポーラテンソル場を導入する。 我々は、強度画像とテンソル場を、特徴抽出のために潜在空間にマッピングする。 次に2つの潜在表現を重みバランストリックで融合し、結果をセグメンテーションネットワークに供給する。 各種患者集団の6つの公的データセットとOCTアンギオグラフィー画像について検討した。 VesselMorphは、異なるドメインシフトシナリオの競合メソッドと比較して、優れた一般化性能を実現する。

Due to the absence of a single standardized imaging protocol, domain shift between data acquired from different sites is an inherent property of medical images and has become a major obstacle for large-scale deployment of learning-based algorithms. For retinal vessel images, domain shift usually presents as the variation of intensity, contrast and resolution, while the basic tubular shape of vessels remains unaffected. Thus, taking advantage of such domain-invariant morphological features can greatly improve the generalizability of deep models. In this study, we propose a method named VesselMorph which generalizes the 2D retinal vessel segmentation task by synthesizing a shape-aware representation. Inspired by the traditional Frangi filter and the diffusion tensor imaging literature, we introduce a Hessian-based bipolar tensor field to depict the morphology of the vessels so that the shape information is taken into account. We map the intensity image and the tensor field to a latent space for feature extraction. Then we fuse the two latent representations via a weight-balancing trick and feed the result to a segmentation network. We evaluate on six public datasets of fundus and OCT angiography images from diverse patient populations. VesselMorph achieves superior generalization performance compared with competing methods in different domain shift scenarios.
翻訳日:2023-08-15 19:21:11 公開日:2023-08-12
# 大規模自己監視プリトレインによる内視鏡映像解析の基礎モデル

Foundation Model for Endoscopy Video Analysis via Large-scale Self-supervised Pre-train ( http://arxiv.org/abs/2306.16741v2 )

ライセンス: Link先を確認
Zhao Wang, Chang Liu, Shaoting Zhang, Qi Dou(参考訳) 基礎モデルは、疾患診断やテキストレポート生成など、様々な応用で顕著な成功を収めている。 現在まで,内視鏡的映像解析の基礎モデルが欠落している。 本稿では,大規模な内視鏡映像データを用いた基礎モデルであるEndo-FMを提案する。 まず,空間的および時間的次元にまたがる局所的および大域的長距離依存性をキャプチャするビデオトランスフォーマーを構築する。 第2に,グローバルおよびローカルビューを用いたトランスフォーマーモデルの事前学習を行い,空間的・時間的変動に頑健にし,異なる場面で識別できるようにする。 基礎モデルを開発するために,上海の蓮華病院の青山支部から収集した9つの公開データセットとプライベートデータセットを組み合わせることで,大規模内視鏡映像データセットを構築した。 私たちのデータセット全体は、最大500万フレームの33Kビデオクリップで構成されており、さまざまなプロトコル、対象臓器、疾患タイプが含まれています。 トレーニング済みのEndo-FMは、バックボーンとして機能し、微調整により、所定の下流タスクに容易に適用できる。 分類,セグメンテーション,検出を含む3種類のダウンストリームタスクの実験により,私たちのEndo-FMは,VCL(3.1% F1,4.8% Dice,5.5% F1,分類,セグメンテーション,検出)やST-Adapter(5.9% F1,9.6% Dice,9.9% F1,分類,セグメンテーション,検出)といった,現在の最先端技術(SOTA)の自己指導型事前訓練およびアダプタベースのトランスファー学習手法をはるかに上回っている。 コード、データセット、モデルはhttps://github.com/med-air/Endo-FMでリリースされている。

Foundation models have exhibited remarkable success in various applications, such as disease diagnosis and text report generation. To date, a foundation model for endoscopic video analysis is still lacking. In this paper, we propose Endo-FM, a foundation model specifically developed using massive endoscopic video data. First, we build a video transformer, which captures both local and global long-range dependencies across spatial and temporal dimensions. Second, we pre-train our transformer model using global and local views via a self-supervised manner, aiming to make it robust to spatial-temporal variations and discriminative across different scenes. To develop the foundation model, we construct a large-scale endoscopy video dataset by combining 9 publicly available datasets and a privately collected dataset from Baoshan Branch of Renji Hospital in Shanghai, China. Our dataset overall consists of over 33K video clips with up to 5 million frames, encompassing various protocols, target organs, and disease types. Our pre-trained Endo-FM can be easily adopted for a given downstream task via fine-tuning by serving as the backbone. With experiments on 3 different types of downstream tasks, including classification, segmentation, and detection, our Endo-FM surpasses the current state-of-the-art (SOTA) self-supervised pre-training and adapter-based transfer learning methods by a significant margin, such as VCL (3.1% F1, 4.8% Dice, and 5.5% F1 for classification, segmentation, and detection) and ST-Adapter (5.9% F1, 9.6% Dice, and 9.9% F1 for classification, segmentation, and detection). Code, datasets, and models are released at https://github.com/med-air/Endo-FM.
翻訳日:2023-08-15 19:20:24 公開日:2023-08-12
# 大規模言語モデルのための効率的誘導生成

Efficient Guided Generation for Large Language Models ( http://arxiv.org/abs/2307.09702v3 )

ライセンス: Link先を確認
Brandon T. Willard and R\'emi Louf(参考訳) 本稿では,有限状態マシンの状態間の遷移の観点から,ニューラルテキスト生成の問題を構成的に再構成する方法について述べる。 このフレームワークは、正規表現と文脈自由文法でテキスト生成を導くための効率的な手法となり、言語モデルの語彙の上にインデックスを構築することができる。 このアプローチはモデル非依存であり、ドメイン固有の知識と制約を強制し、生成したテキストの構造を保証することによって信頼性の高いインターフェースの構築を可能にする。 トークンシーケンス生成プロセスにオーバーヘッドはほとんどなく、既存のソリューションよりも大幅に優れています。 実装は、オープンソースのpythonライブラリアウトラインで提供される

In this article we show how the problem of neural text generation can be constructively reformulated in terms of transitions between the states of a finite-state machine. This framework leads to an efficient approach to guiding text generation with regular expressions and context-free grammars by allowing the construction of an index over a language model's vocabulary. The approach is model agnostic, allows one to enforce domain-specific knowledge and constraints, and enables the construction of reliable interfaces by guaranteeing the structure of the generated text. It adds little overhead to the token sequence generation process and significantly outperforms existing solutions. An implementation is provided in the open source Python library Outlines
翻訳日:2023-08-15 19:14:08 公開日:2023-08-12
# 視覚のSEEDを大規模言語モデルに植え付ける

Planting a SEED of Vision in Large Language Model ( http://arxiv.org/abs/2307.08041v2 )

ライセンス: Link先を確認
Yuying Ge, Yixiao Ge, Ziyun Zeng, Xintao Wang and Ying Shan(参考訳) 我々は,SEEとDrawの創発的能力を備えたLLM(Large Language Models)を同時に実現する精巧な画像トークンであるSEEDを提案する。 画像トークン化器の研究は、マルチモーダル理解(BLIP-2など)や生成(安定拡散など)において、サブパーパフォーマンスと収束により、量子化された視覚トークンを用いたフレームワークが優位に立たなくなったため、これまでは不合理な状況にあった。 制限にもかかわらず、私たちは視覚とテキストの表現を統一する自然な能力に自信を持ち、LLMのオリジナルレシピを使ったスケーラブルなマルチモーダルトレーニングを支援しています。 本研究では,LLM との連携を効果的に緩和する SEED のアーキテクチャとトレーニングの2つの重要な原則を同定する。 1)画像トークンは2次元の物理的パッチ位置から独立して1次元因果依存性で生成され,LSMの左右自己回帰予測機構に適合する固有の相互依存性を示す。 2)画像トークンは,単語の意味的抽象化の程度と一致した高レベル意味をキャプチャし,トークン化訓練段階での識別性と再構築に最適化する必要がある。 その結果、LLMは、効率的なLoRAチューニングにより、SEEDを組み込むことで、画像からテキストへ、テキストへの両方を生成することができる。 総合的なマルチモーダル事前学習と命令チューニングは、より良い結果をもたらす可能性があるが、将来の調査のために予約されている。 このバージョンのSEEDは、64のV100 GPUと5Mのパブリックな画像テキストペアを使用して、5.7日間でトレーニングされた。 予備研究は、多目的多モードLCMにおける離散的視覚トークンの可能性と、より広範な研究における適切な画像トークン化の重要性を強調した。

We present SEED, an elaborate image tokenizer that empowers Large Language Models (LLMs) with the emergent ability to SEE and Draw at the same time. Research on image tokenizers has previously reached an impasse, as frameworks employing quantized visual tokens have lost prominence due to subpar performance and convergence in multimodal comprehension (compared to BLIP-2, etc.) or generation (compared to Stable Diffusion, etc.). Despite the limitations, we remain confident in its natural capacity to unify visual and textual representations, facilitating scalable multimodal training with LLM's original recipe. In this study, we identify two crucial principles for the architecture and training of SEED that effectively ease subsequent alignment with LLMs. (1) Image tokens should be independent of 2D physical patch positions and instead be produced with a 1D causal dependency, exhibiting intrinsic interdependence that aligns with the left-to-right autoregressive prediction mechanism in LLMs. (2) Image tokens should capture high-level semantics consistent with the degree of semantic abstraction in words, and be optimized for both discriminativeness and reconstruction during the tokenizer training phase. As a result, the off-the-shelf LLM is able to perform both image-to-text and text-to-image generation by incorporating our SEED through efficient LoRA tuning. Comprehensive multimodal pretraining and instruction tuning, which may yield improved results, are reserved for future investigation. This version of SEED was trained in 5.7 days using only 64 V100 GPUs and 5M publicly available image-text pairs. Our preliminary study emphasizes the great potential of discrete visual tokens in versatile multimodal LLMs and the importance of proper image tokenizers in broader research.
翻訳日:2023-08-15 19:12:18 公開日:2023-08-12
# 効率的なフレーム補間のための不確実性誘導空間プルーニングアーキテクチャ

Uncertainty-Guided Spatial Pruning Architecture for Efficient Frame Interpolation ( http://arxiv.org/abs/2307.16555v2 )

ライセンス: Link先を確認
Ri Cheng, Xuhao Jiang, Ruian He, Shili Zhou, Weimin Tan, Bo Yan(参考訳) ビデオフレーム補間(VFI)モデルは、すべての場所に畳み込み演算を適用し、簡単に動く領域で冗長な計算を行う。 動的空間プルーニング法を用いて冗長な計算をスキップできるが,vfiタスクの容易な領域を監視せずに適切に特定することはできない。 本稿では,フレーム補間を動的に行うために冗長計算を省略する不確実性誘導型空間プラニング(UGSP)アーキテクチャを提案する。 特に、不確実性の低い画素は、望ましくない視覚的結果をもたらすことなく計算を削減できる、容易な領域を示す。 そこで我々は,不確実なマスクラベルを用いてUGSPを誘導し,容易な領域を適切に配置する。 さらに,UGSPの性能向上のために,補助的な非刈取ブランチを活用する自己コントラストトレーニング戦略を提案する。 大規模な実験によると、UGSPはパフォーマンスを維持しているが、Vimeo90K/UCF101/MiddleBuryデータセットを使用せずにベースラインと比較してFLOPを34%/52%/30%削減する。 さらに,本手法は,複数のベンチマーク上でのFLOPの低下による最先端性能を実現する。

The video frame interpolation (VFI) model applies the convolution operation to all locations, leading to redundant computations in regions with easy motion. We can use dynamic spatial pruning method to skip redundant computation, but this method cannot properly identify easy regions in VFI tasks without supervision. In this paper, we develop an Uncertainty-Guided Spatial Pruning (UGSP) architecture to skip redundant computation for efficient frame interpolation dynamically. Specifically, pixels with low uncertainty indicate easy regions, where the calculation can be reduced without bringing undesirable visual results. Therefore, we utilize uncertainty-generated mask labels to guide our UGSP in properly locating the easy region. Furthermore, we propose a self-contrast training strategy that leverages an auxiliary non-pruning branch to improve the performance of our UGSP. Extensive experiments show that UGSP maintains performance but reduces FLOPs by 34%/52%/30% compared to baseline without pruning on Vimeo90K/UCF101/MiddleBury datasets. In addition, our method achieves state-of-the-art performance with lower FLOPs on multiple benchmarks.
翻訳日:2023-08-15 19:03:39 公開日:2023-08-12
# 関係指向:知識整合因果aiへ向けて

Relation-Oriented: Toward Knowledge-Aligned Causal AI ( http://arxiv.org/abs/2307.16387v4 )

ライセンス: Link先を確認
Jia Li, Xiang Li(参考訳) 機械学習では、観測変数が事前に存在し、関係構築の段階を設定する観察指向原理を自然に適用する。 従来のモデルには十分だが、ビッグデータとAIの統合は、観測モデルと実際の理解との相違を露呈する。 対照的に、人間は関係によって定義された認知的実体を形作り、観察的な構成物に限定されるのではなく、時間的空間と超次元空間にまたがる知識を定式化することができる。 本研究は,コンピュータビジョンと健康情報学の直観的な例に照らされた,現在のモデリングパラダイムにおける,このミスアライメントのルーツについて考察する。 また,関係指向モデリングの実践的実装として,広範な実験検証によって支援される関係定義表現学習手法を提案する。 アリが床の二次元平面に居住する類似性を考える。 これらのアリがモデルを構築する場合、最も近い木を基準として2次元モデルの標高を指定することができる。 モデリングによって、彼らは木の中間層での破壊が増加し、子供に遭遇する確率が高いことを示す。 しかし、人間を3次元の人間だと理解できないため、この現象を「高さ」という新しい次元で解釈する代わりに、木の中間層にのみ関連付ける。 身長の異なる別の木に移行し、中間レベルがもはやリスクを示さない場合、人間の行動は効果的にモデル化するには複雑すぎると結論づけるかもしれない。 同様に、時系列をモデル化するとき、私たちは通常、一つのタイムラインとして「時間」という次元を割引します。

In machine learning, we naturally apply an Observation-Oriented principle, in which observational variables preexist and set the stage for constructing relationships. While sufficient for traditional models, the integration of AI with big data exposes the misalignment between the observational models and our actual comprehension. Contrarily, humans shape cognitive entities defined by relationships, enabling us to formulate knowledge across temporal and hyper-dimensional spaces, rather than being confined to observational constructs. From an innovative Relation-Oriented perspective, this study examines the roots of this misalignment within our current modeling paradigm, illuminated by intuitive examples from computer vision and health informatics. We also introduce the relation-defined representation learning methodology as a practical implementation of Relation-Oriented modeling, supported by extensive experimental validation. Consider an analogy where ants dwell on a two-dimensional plane of a floor. If these ants were to construct models, they might use the nearest tree as a reference to specify the elevation in their two-dimensional models. By modeling, they observe an increased disruption at the tree's mid-level, which indicates a higher chance of encountering children. However, since they fail to comprehend humans as three-dimensional beings, instead of interpreting this phenomenon in a new dimension, "height", they solely relate it to the tree's mid-level. If they migrate to a different tree with a varying height, where mid-level no longer presents a risk, they might conclude that human behavior is too complex to model effectively. Similarly, when modeling time series, we usually discount the dimension, "time", as a single timeline, which has become our "tree".
翻訳日:2023-08-15 19:03:22 公開日:2023-08-12
# 交互量子ウォークによる決定論的空間探索への普遍的アプローチ

Universal approach to deterministic spatial search via alternating quantum walks ( http://arxiv.org/abs/2307.16133v3 )

ライセンス: Link先を確認
Qingwen Wang, Ying Jiang, Shiguang Feng, and Lvzhou Li(参考訳) 空間探索は、グラフ上のマークされた頂点を見つけることを目的とした量子計算において重要な問題である。 本稿では,様々なグラフ上の決定論的量子探索アルゴリズムを交互に設計する手法を提案する。 私たちのアプローチは、異なるグラフのインスタンス固有の分析を必要としないため、普遍的です。 我々は、ジョンソングラフ、ルークグラフ、完全二乗グラフ、完全二部グラフに対して、量子アルゴリズムが100〜%の成功確率を持つマークされた頂点を見つけ、古典的アルゴリズムよりも二次的な高速化を達成することを証明して、このアプローチの柔軟性を強調する。 これは、既存の結果を証明する別の簡潔な方法を与えるだけでなく、より一般的なグラフで新しい興味深い発見をもたらす。

Spatial search is an important problem in quantum computation, which aims to find a marked vertex on a graph. We propose a novel approach for designing deterministic quantum search algorithms on a variety of graphs via alternating quantum walks. Our approach is universal because it does not require an instance-specific analysis for different graphs. We highlight the flexibility of our approach by proving that for Johnson graphs, rook graphs, complete-square graphs and complete bipartite graphs, our quantum algorithms can find the marked vertex with $100\%$ success probability and achieve quadratic speedups over classical algorithms. This not only gives an alternative succinct way to prove the existing results, but also leads to new interesting findings on more general graphs.
翻訳日:2023-08-15 19:02:54 公開日:2023-08-12
# サイバーいじめ調査のためのセキュアなオープンソースインテリジェンスフレームワーク

A Secure Open-Source Intelligence Framework For Cyberbullying Investigation ( http://arxiv.org/abs/2307.15225v2 )

ライセンス: Link先を確認
Sylvia Worlali Azumah, Victor Adewopo, Zag ElSayed, Nelly Elsayed, Murat Ozer(参考訳) 携帯電話の普及とインターネット利用が世界中の個人に影響を与えることから、サイバーいじめは広範にわたる問題となっている。 本稿では,Twitterのデータを用いてソーシャルメディアにおけるサイバーいじめに関連するキーワードを追跡し,法執行機関のダッシュボードを構築するためのオープンソースのインテリジェンスパイプラインを提案する。 我々は、ソーシャルメディアにおけるサイバーいじめの流行状況、個人がサイバーいじめに没頭させる要因、異なる国におけるサイバーいじめの法的意義について論じるとともに、サイバーいじめ事件の調査において法執行官が直面する方向性、資源、訓練、支援の欠如についても論じる。 サイバーいじめに対する介入は、親、法執行機関、ソーシャルメディアプラットフォーム、教育機関、教育者、研究者を含む様々な利害関係者による集団的な取り組みを含む。 私たちの研究は、サイバーいじめの枠組みを提供し、捜査員がサイバーいじめ、その戦術、パターンを追跡し識別するためのデジタルランドスケープの包括的なビューを提供します。 リアルタイム監視を備えたOSINTダッシュボードは、法執行機関が迅速に行動し、被害者を保護し、より安全なオンライン環境を構築するための大きな努力をすることができる。

Cyberbullying has become a pervasive issue based on the rise of cell phones and internet usage affecting individuals worldwide. This paper proposes an open-source intelligence pipeline using data from Twitter to track keywords relevant to cyberbullying in social media to build dashboards for law enforcement agents. We discuss the prevalence of cyberbullying on social media, factors that compel individuals to indulge in cyberbullying, and the legal implications of cyberbullying in different countries also highlight the lack of direction, resources, training, and support that law enforcement officers face in investigating cyberbullying cases. The proposed interventions for cyberbullying involve collective efforts from various stakeholders, including parents, law enforcement, social media platforms, educational institutions, educators, and researchers. Our research provides a framework for cyberbullying and provides a comprehensive view of the digital landscape for investigators to track and identify cyberbullies, their tactics, and patterns. An OSINT dashboard with real-time monitoring empowers law enforcement to swiftly take action, protect victims, and make significant strides toward creating a safer online environment.
翻訳日:2023-08-15 19:01:50 公開日:2023-08-12
# 普遍量子フォン・ノイマン構造に関する調査研究

A survey of universal quantum von Neumann architecture ( http://arxiv.org/abs/2307.14219v2 )

ライセンス: Link先を確認
Y.-T. Liu, K. Wang, Y.-D. Liu, D.-S. Wang(参考訳) 普遍量子コンピュータの存在は理論的によく確立されている。 しかし、実際の量子コンピュータシステムを構築するには、普遍性の理論に頼るだけでなく、プログラム可能性、モジュール性、スケーラビリティなど、他の機能に対する要求を満たす方法が必要である。 この目的のために、最近提案された量子フォン・ノイマン・アーキテクチャのモデルについて、コンピュータシステムの階層的設計という、実用的でより広い設定で検討する。 我々は、量子cpuと量子制御ユニットの構造を分析し、それらの接続を計算の利点で引き出す。 また、我々のモデルの最近のデモでは20キュービット未満が必要だったことも指摘しています。

The existence of universal quantum computers has been theoretically well established. However, building up a real quantum computer system not only relies on the theory of universality, but also needs methods to satisfy requirements on other features, such as programmability, modularity, scalability, etc. To this end, we study the recently proposed model of quantum von Neumann architecture, by putting it in a practical and broader setting, namely, the hierarchical design of a computer system. We analyze the structures of quantum CPU and quantum control unit, and draw their connections with computational advantages. We also point out that a recent demonstration of our model would require less than 20 qubits.
翻訳日:2023-08-15 19:01:00 公開日:2023-08-12
# 巻き戻しによるフローケット符号

Engineering Floquet codes by rewinding ( http://arxiv.org/abs/2307.13668v2 )

ライセンス: Link先を確認
Arpit Dua, Nathanan Tantivasadakarn, Joseph Sullivan, and Tyler D. Ellison(参考訳) フロッケ符号は動的に生成された論理量子ビットを持つ新しい量子誤り訂正符号のクラスであり、非可換測定の周期スケジュールから生じる。 各期間に$\textit{rewind}$の計測スケジュールを持つFloquetコードの新しい例を作成しました。 巻き戻しスケジュールは、所望の即時安定化群と境界の構成の両方を得るのに有利である。 最初の例は、2dカラーコードに -- 有限深さ回路を介して -- 等価な瞬時安定化群を持ち、論理演算子の$\mathbb{z}_3$自己同型を示すフロケット符号である。 2つ目の例は、3Dトーリックコードと同じトポロジ的順序の即時安定化符号を持つFloquetコードです。 このフロッケ符号は、関連する一連の測定に基づいて3dトーリックコードの位相次数を分割する、すなわち、1つのラウンドにおける3dトーリックコードの1つのコピーの瞬時安定群を、次のラウンドにおいて、非局所安定部までの2コピーの3dトーリックコードの瞬時安定群とする。 この3Dコードの境界をさらに構築し、それを2つの3Dサブシステムトーリックコードで重ねることで、論理的な非クリフォード$CCZ$ゲートの逆実装が可能になると主張している。 また,x-cubeフロッケ符号の結合層構成は,各瞬時安定化符号がトーリック符号までのx-cubeモデルに有限深さ同値であるように,巻き戻しスケジュールによって変更可能であることを示し,x-cubeフロッケ符号はx-cubeモデルのx-cubeモデルとトーリック符号のコピーにx-cubeモデルの分割を示す。 最後の例はハニカム符号の3Dへの一般化であり、これは3Dフェルミオントーリック符号と同じ位相秩序の瞬時安定化符号を持つ。

Floquet codes are a novel class of quantum error-correcting codes with dynamically generated logical qubits, which arise from a periodic schedule of non-commuting measurements. We engineer new examples of Floquet codes with measurement schedules that $\textit{rewind}$ during each period. The rewinding schedules are advantageous in our constructions for both obtaining a desired set of instantaneous stabilizer groups and for constructing boundaries. Our first example is a Floquet code that has instantaneous stabilizer groups that are equivalent -- via finite-depth circuits -- to the 2D color code and exhibits a $\mathbb{Z}_3$ automorphism of the logical operators. Our second example is a Floquet code with instantaneous stabilizer codes that have the same topological order as the 3D toric code. This Floquet code exhibits a splitting of the topological order of the 3D toric code under the associated sequence of measurements i.e., an instantaneous stabilizer group of a single copy of 3D toric code in one round transforms into an instantaneous stabilizer group of two copies of 3D toric codes up to nonlocal stabilizers, in the following round. We further construct boundaries for this 3D code and argue that stacking it with two copies of 3D subsystem toric code allows for a transversal implementation of the logical non-Clifford $CCZ$ gate. We also show that the coupled-layer construction of the X-cube Floquet code can be modified by a rewinding schedule such that each of the instantaneous stabilizer codes is finite-depth-equivalent to the X-cube model up to toric codes; the X-cube Floquet code exhibits a splitting of the X-cube model into a copy of the X-cube model and toric codes under the measurement sequence. Our final example is a generalization of the honeycomb code to 3D, which has instantaneous stabilizer codes with the same topological order as the 3D fermionic toric code.
翻訳日:2023-08-15 19:00:50 公開日:2023-08-12
# 非エルミートフェルミオン二次形式のジョルダン分解

Jordan Decomposition of Non-Hermitian Fermionic Quadratic Forms ( http://arxiv.org/abs/2308.01166v2 )

ライセンス: Link先を確認
Shunta Kitahama, Hironobu Yoshida, Ryo Toyota, Hosho Katsura(参考訳) 我々は Prosen [Prosen T 2010 J. Stat による Conjecture 3.1 の厳密な証明を与える。 メッチ $\textbf{2010}$ P07020] は二次フェルミオンイオビリアンのジョルダン分解の零部分についてのものである。 また、各大きさのジョーダンブロックの数は、$q$-二項係数と呼ばれる多項式の係数で表せることを示し、また、零部分のジョルダン標準形式を得る手順を記述する。

We give a rigorous proof of Conjecture 3.1 by Prosen [Prosen T 2010 J. Stat. Mech. $\textbf{2010}$ P07020] on the nilpotent part of the Jordan decomposition of a quadratic fermionic Liouvillian. We also show that the number of the Jordan blocks of each size can be expressed in terms of the coefficients of a polynomial called the $q$-binomial coefficient and describe the procedure to obtain the Jordan canonical form of the nilpotent part.
翻訳日:2023-08-15 18:54:08 公開日:2023-08-12
# 深部CNNにおけるマルチヘッドチャネルアテンションを用いたCOVID-19画像の自動分類

Automated COVID-19 CT Image Classification using Multi-head Channel Attention in Deep CNN ( http://arxiv.org/abs/2308.00715v2 )

ライセンス: Link先を確認
Susmita Ghosh and Abhiroop Chatterjee(参考訳) 新型コロナウイルスの急速な普及は、効率的かつ正確な診断方法を必要としている。 CT(Computed Tomography)スキャン画像は、この疾患を検出する貴重なツールとして登場した。 本稿では,新たに設計されたチャネルアテンション機構と重み付きグローバル平均プール機構を組み込んだ修正xceptionモデルを提案し,特徴抽出を強化し,分類精度を向上させた,covid-19ctスキャン自動分類のための新しいディープラーニング手法を提案する。 チャネルアテンションモジュールは、各チャネル内の情報領域に選択的にフォーカスし、モデルが新型コロナウイルス検出のための識別的特徴を学習できるようにする。 広く使われている新型コロナウイルスのCTスキャンデータセットの実験は96.99%の精度を示し、他の最先端技術よりも優れていることを示している。 この研究は、現在および将来のパンデミックと戦うために人工知能を使用する継続的な取り組みに寄与し、効率的な医用画像分析タスクに有望でタイムリーなソリューションを提供することができる。

The rapid spread of COVID-19 has necessitated efficient and accurate diagnostic methods. Computed Tomography (CT) scan images have emerged as a valuable tool for detecting the disease. In this article, we present a novel deep learning approach for automated COVID-19 CT scan classification where a modified Xception model is proposed which incorporates a newly designed channel attention mechanism and weighted global average pooling to enhance feature extraction thereby improving classification accuracy. The channel attention module selectively focuses on informative regions within each channel, enabling the model to learn discriminative features for COVID-19 detection. Experiments on a widely used COVID-19 CT scan dataset demonstrate a very good accuracy of 96.99% and show its superiority to other state-of-the-art techniques. This research can contribute to the ongoing efforts in using artificial intelligence to combat current and future pandemics and can offer promising and timely solutions for efficient medical image analysis tasks.
翻訳日:2023-08-15 18:52:52 公開日:2023-08-12
# マルチ露光画像スタックにおける露光率のロバスト推定

Robust estimation of exposure ratios in multi-exposure image stacks ( http://arxiv.org/abs/2308.02968v2 )

ライセンス: Link先を確認
Param Hanji and Rafa{\l} K. Mantiuk(参考訳) マルチ露光画像スタックをハイダイナミックレンジ(HDR)画像にマージするには、正確な露光時間を知る必要がある。 例えば、カメラのEXIFメタデータから抽出された露出時間が不正確な場合、再構成されたHDR画像は、スムーズな勾配でバンドリングアーティファクトを明らかにする。 そこで本研究では,入力画像から露光率を直接推定する手法を提案する。 カメラノイズによる推定誤差を最小限に抑えるために,一対の露光から画素を選択できる最適化問題として露出時間推定を導出する。 対数領域に画素値が表される場合、線形解法を用いて効率よく問題を解くことができる。 複数の空間タイルから画素を収集することにより、カメラや物体の動きによる画素の不一致に容易に対応できることを示す。 提案する自動露光推定とアライメントは,一般的なデータセットにおけるバンドングアーティファクトを除去し,ディスプレイの変調伝達関数の測定など,物理的に正確な再構成を必要とするアプリケーションに必須である。 このメソッドのコードは利用可能である。

Merging multi-exposure image stacks into a high dynamic range (HDR) image requires knowledge of accurate exposure times. When exposure times are inaccurate, for example, when they are extracted from a camera's EXIF metadata, the reconstructed HDR images reveal banding artifacts at smooth gradients. To remedy this, we propose to estimate exposure ratios directly from the input images. We derive the exposure time estimation as an optimization problem, in which pixels are selected from pairs of exposures to minimize estimation error caused by camera noise. When pixel values are represented in the logarithmic domain, the problem can be solved efficiently using a linear solver. We demonstrate that the estimation can be easily made robust to pixel misalignment caused by camera or object motion by collecting pixels from multiple spatial tiles. The proposed automatic exposure estimation and alignment eliminates banding artifacts in popular datasets and is essential for applications that require physically accurate reconstructions, such as measuring the modulation transfer function of a display. The code for the method is available.
翻訳日:2023-08-15 18:42:50 公開日:2023-08-12
# DialogRE^C+: ダイアログの相関抽出にどの程度のコアが役立つかを調べるためのダイアログの拡張

DialogRE^C+: An Extension of DialogRE to Investigate How Much Coreference Helps Relation Extraction in Dialogs ( http://arxiv.org/abs/2308.04498v2 )

ライセンス: Link先を確認
Yiyun Xiong, Mengwei Dai, Fei Li, Hao Fei, Bobo Li, Shengqiong Wu, Donghong Ji, Chong Teng(参考訳) 対話テキスト中の引数ペア間の関係を識別する対話関係抽出(DRE)は、個人代名詞の頻繁な出現、すなわちエンティティと話者のコア参照に悩まされる。 本稿では、新しいベンチマークデータセットdialogre^c+を導入し、dreシナリオにコリファレンスレゾリューションを導入する。 高品質なコア参照知識の活用により、議論関係の推論が強化されることが期待される。 dialogre^c+データセットでは、既存のdialogreデータに基づいて、36,369以上の合計5,068個のコリファレンスチェーンに手動で注釈を付けます。 さらに、4つのコア参照強化グラフベースDREモデルを開発し、DREタスクを改善するための効果的なコア参照表現を学習する。 また、アノテーションに基づいたコリファレンス解決モデルをトレーニングし、データセットの実用性とその他のドメインやタスクへの可能性を示す、自動抽出されたコリファレンスチェーンの効果を評価します。

Dialogue relation extraction (DRE) that identifies the relations between argument pairs in dialogue text, suffers much from the frequent occurrence of personal pronouns, or entity and speaker coreference. This work introduces a new benchmark dataset DialogRE^C+, introducing coreference resolution into the DRE scenario. With the aid of high-quality coreference knowledge, the reasoning of argument relations is expected to be enhanced. In DialogRE^C+ dataset, we manually annotate total 5,068 coreference chains over 36,369 argument mentions based on the existing DialogRE data, where four different coreference chain types namely speaker chain, person chain, location chain and organization chain are explicitly marked. We further develop 4 coreference-enhanced graph-based DRE models, which learn effective coreference representations for improving the DRE task. We also train a coreference resolution model based on our annotations and evaluate the effect of automatically extracted coreference chains demonstrating the practicality of our dataset and its potential to other domains and tasks.
翻訳日:2023-08-15 18:34:46 公開日:2023-08-12
# 共同対話感覚分類と行為認識のための双方向マルチホップ推論モデル

A Bi-directional Multi-hop Inference Model for Joint Dialog Sentiment Classification and Act Recognition ( http://arxiv.org/abs/2308.04424v2 )

ライセンス: Link先を確認
Li Zheng, Fei Li, Yuyang Chai, Chong Teng, Donghong Ji(参考訳) ダイアログ知覚分類(DSC)とアクト認識(DAR)の併用作業は,ダイアログ中の各発話に対する感情ラベルと行動ラベルを同時に予測することを目的としている。 しかし、現在のメソッドはダイアログコンテキストを1つの方向だけエンコードしており、コンテキストを完全に理解する能力が制限されている。 さらに、これらの手法は、感情と行動ラベルの明確な相関を見落とし、リッチな感情を捉え、手がかりを行動させ、効果的で正確な推論を妨げる能力に乏しい。 これらの問題に対処するために,特徴選択ネットワークと双方向マルチホップ推論ネットワークを活用した双方向マルチホップ推論モデル(bmim)を提案する。 また,感情と行動ラベルの相関を明示的にモデル化するために,コントラスト学習と二重学習を用いる。 DARのF1スコアは少なくとも2.6%,DSCのF1スコアは1.4%,BMIMは最先端のベースラインよりも優れていた。 さらに,提案モデルでは,パフォーマンスの向上だけでなく,共同感情と行動予測タスクの解釈可能性の向上も図っている。

The joint task of Dialog Sentiment Classification (DSC) and Act Recognition (DAR) aims to predict the sentiment label and act label for each utterance in a dialog simultaneously. However, current methods encode the dialog context in only one direction, which limits their ability to thoroughly comprehend the context. Moreover, these methods overlook the explicit correlations between sentiment and act labels, which leads to an insufficient ability to capture rich sentiment and act clues and hinders effective and accurate reasoning. To address these issues, we propose a Bi-directional Multi-hop Inference Model (BMIM) that leverages a feature selection network and a bi-directional multi-hop inference network to iteratively extract and integrate rich sentiment and act clues in a bi-directional manner. We also employ contrastive learning and dual learning to explicitly model the correlations of sentiment and act labels. Our experiments on two widely-used datasets show that BMIM outperforms state-of-the-art baselines by at least 2.6% on F1 score in DAR and 1.4% on F1 score in DSC. Additionally, Our proposed model not only improves the performance but also enhances the interpretability of the joint sentiment and act prediction task.
翻訳日:2023-08-15 18:33:58 公開日:2023-08-12
# 量子安定源の検証

Verification of Quantum Stable Sources ( http://arxiv.org/abs/2308.03875v2 )

ライセンス: Link先を確認
Esteban Mart\'inez-Vargas and Gael Sent\'is(参考訳) 量子系における安定源の検証問題を紹介する。 この問題は、Pallisterらによって最初に提案された量子検証の問題と密接に関連している。 アル [1] しかし、それは元の問題の概念を拡張する。 我々は、マルコフ状態と呼ばれる非i.i.d.源に由来する状態の族を紹介する。 定理1では、これらの状態が変化源よりもテンソル積でよく説明されていないことが証明される。 定理2ではさらに、2つのマルコフ状態の間のトレース距離の低い境界を提供し、これは量子安定源の検証の問題を解く最も単純な方法である。

We introduce the problem of verification of stable sources in quantum systems. This problem is closely related to the problem of quantum verification first proposed by Pallister et. al. [1], however it extends the notion of the original problem. We introduce a family of states that come from a non-i.i.d. source which we call a Markov state. We prove in theorem 1 that these states are not well described with tensor products over a changing source. In theorem 2 we further provide a lower bound on the trace distance between two Markov states, which is the simplest way to solve the problem of verification of quantum stable sources.
翻訳日:2023-08-15 18:32:54 公開日:2023-08-12
# LayoutLLM-T2I:テキスト・画像生成のためのLCMからのレイアウト誘導

LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image Generation ( http://arxiv.org/abs/2308.05095v2 )

ライセンス: Link先を確認
Leigang Qu, Shengqiong Wu, Hao Fei, Liqiang Nie, Tat-Seng Chua(参考訳) テキスト対画像生成の分野では、最近の安定拡散の著しい進展により、新しいフォトリアリスティックな画像が豊富に生成できるようになった。 しかし、現在のモデルでは、複雑な自然のシーンにおける不整合問題(例えば、問題のある空間的関係理解と数値化失敗)に直面しており、これは高信頼のテキスト・画像生成を妨げる。 近年,詳細なガイダンス(スケッチやスクリッブルなど)を提供することで制御性の向上が試みられているが,ユーザが手動で手動で指示情報を提供する必要があるため,この問題は根本から取り組まれていない。 本研究では,任意のテキストプロンプトにセマンティックに一致した高忠実度画像を,ガイダンスなしで合成する。 この目的のために,レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。 具体的には、まず、大言語モデルに基づくコンテキスト内学習を通じて、所定のテキストプロンプトで条件付けられた粗粒度レイアウトを生成する。 その後,プロンプトと自動生成レイアウトに条件付けられた高精細度画像を合成する粒度オブジェクト相互作用拡散法を提案する。 広範な実験により,提案手法がレイアウトや画像生成の面で最先端モデルを上回ることを示した。 私たちのコードと設定はhttps://layoutllm-t2i.github.ioで利用可能です。

In the text-to-image generation field, recent remarkable progress in Stable Diffusion makes it possible to generate rich kinds of novel photorealistic images. However, current models still face misalignment issues (e.g., problematic spatial relation understanding and numeration failure) in complex natural scenes, which impedes the high-faithfulness text-to-image generation. Although recent efforts have been made to improve controllability by giving fine-grained guidance (e.g., sketch and scribbles), this issue has not been fundamentally tackled since users have to provide such guidance information manually. In this work, we strive to synthesize high-fidelity images that are semantically aligned with a given textual prompt without any guidance. Toward this end, we propose a coarse-to-fine paradigm to achieve layout planning and image generation. Concretely, we first generate the coarse-grained layout conditioned on a given textual prompt via in-context learning based on Large Language Models. Afterward, we propose a fine-grained object-interaction diffusion method to synthesize high-faithfulness images conditioned on the prompt and the automatically generated layout. Extensive experiments demonstrate that our proposed method outperforms the state-of-the-art models in terms of layout and image generation. Our code and settings are available at https://layoutllm-t2i.github.io.
翻訳日:2023-08-15 18:24:51 公開日:2023-08-12
# ビデオ意味的ロールラベリングのための包括的時空間シーングラフの構築

Constructing Holistic Spatio-Temporal Scene Graph for Video Semantic Role Labeling ( http://arxiv.org/abs/2308.05081v2 )

ライセンス: Link先を確認
Yu Zhao, Hao Fei, Yixin Cao, Bobo Li, Meishan Zhang, Jianguo Wei, Min Zhang, Tat-Seng Chua(参考訳) video semantic role labeling (vidsrl) は、予測可能イベント構造とイベント間の相互関係を認識することによって、所定のビデオからサルエントイベントを検出することを目的としている。 近年のVidSRLの手法が提案されているが、細粒度の空間的シーン知覚の欠如やビデオ時間性の不十分なモデリングなど、主に2つの大きな欠点に直面する可能性がある。 この目的に向けて、既存の動的シーングラフ構造に基づく新しい全体論的時空間グラフ(HostSG)を探索し、VidSRLのビデオの微細な空間的意味論と時間的ダイナミックスの両方をモデル化する。 HostSGに基づいて構築されたニッチターゲット型VidSRLフレームワークを提案する。 シーンイベントマッピング機構は、まず、下層のシーン構造と高レベルのイベントセマンティック構造とのギャップを埋めるために設計され、結果として全体的な階層的なシーンイベント(ICE)グラフ構造が形成される。 さらに、全体的な構造表現が最終タスク要求と最も一致するように、アイスグラフを最適化するために反復的な構造改善を行う。 最後に、VidSRLの3つのサブタスク予測を共同でデコードし、エンドツーエンドのパラダイムがエラーの伝搬を効果的に回避する。 ベンチマークデータセットでは、フレームワークが現在のベストパフォーマンスモデルを大幅に上回っています。 本手法の進歩をより深く理解するために,さらなる分析を行った。

Video Semantic Role Labeling (VidSRL) aims to detect the salient events from given videos, by recognizing the predict-argument event structures and the interrelationships between events. While recent endeavors have put forth methods for VidSRL, they can be mostly subject to two key drawbacks, including the lack of fine-grained spatial scene perception and the insufficiently modeling of video temporality. Towards this end, this work explores a novel holistic spatio-temporal scene graph (namely HostSG) representation based on the existing dynamic scene graph structures, which well model both the fine-grained spatial semantics and temporal dynamics of videos for VidSRL. Built upon the HostSG, we present a nichetargeting VidSRL framework. A scene-event mapping mechanism is first designed to bridge the gap between the underlying scene structure and the high-level event semantic structure, resulting in an overall hierarchical scene-event (termed ICE) graph structure. We further perform iterative structure refinement to optimize the ICE graph, such that the overall structure representation can best coincide with end task demand. Finally, three subtask predictions of VidSRL are jointly decoded, where the end-to-end paradigm effectively avoids error propagation. On the benchmark dataset, our framework boosts significantly over the current best-performing model. Further analyses are shown for a better understanding of the advances of our methods.
翻訳日:2023-08-15 18:24:14 公開日:2023-08-12
# 特徴変調変換器:画像超解像に先立つ高周波によるグローバル表現のクロスリファインメント

Feature Modulation Transformer: Cross-Refinement of Global Representation via High-Frequency Prior for Image Super-Resolution ( http://arxiv.org/abs/2308.05022v2 )

ライセンス: Link先を確認
Ao Li, Le Zhang, Yun Liu, Ce Zhu(参考訳) トランスフォーマーに基づく手法は、長距離依存関係を効果的に抽出することにより、単一画像超解像(SISR)において顕著なポテンシャルを示した。 しかし、この領域における現在の研究の多くは、高頻度プリエントを組み込むことの重要性を見越しながら、グローバル情報を取得するためにトランスフォーマーブロックの設計を優先している。 本研究では, 変圧器構造が低周波情報の取得に適しているが, 畳み込み処理と比較して高周波表現を構築できる能力に限界があることを, 一連の実験で明らかにした。 提案手法であるクロスリファインメント適応型特徴変調トランス (CRAFT) は, 畳み込み構造と変圧器構造の強度を統合する。 高周波情報を抽出する高周波強調残差ブロック(hferb)、グローバル情報をキャプチャするシフト長方形ウィンドウアテンションブロック(srwab)、グローバル表現を精錬するハイブリッド融合ブロック(hfb)の3つのキー成分からなる。 複数のデータセットに対する実験により、CRAFTはより少ないパラメータを使用しながら、最先端のメソッドを最大0.29dBで上回ります。 ソースコードはhttps://github.com/AVC2-UESTC/CRAFT-SR.gitで公開されている。

Transformer-based methods have exhibited remarkable potential in single image super-resolution (SISR) by effectively extracting long-range dependencies. However, most of the current research in this area has prioritized the design of transformer blocks to capture global information, while overlooking the importance of incorporating high-frequency priors, which we believe could be beneficial. In our study, we conducted a series of experiments and found that transformer structures are more adept at capturing low-frequency information, but have limited capacity in constructing high-frequency representations when compared to their convolutional counterparts. Our proposed solution, the cross-refinement adaptive feature modulation transformer (CRAFT), integrates the strengths of both convolutional and transformer structures. It comprises three key components: the high-frequency enhancement residual block (HFERB) for extracting high-frequency information, the shift rectangle window attention block (SRWAB) for capturing global information, and the hybrid fusion block (HFB) for refining the global representation. Our experiments on multiple datasets demonstrate that CRAFT outperforms state-of-the-art methods by up to 0.29dB while using fewer parameters. The source code will be made available at: https://github.com/AVC2-UESTC/CRAFT-SR.git.
翻訳日:2023-08-15 18:23:27 公開日:2023-08-12
# 視覚言語ナビゲーションのための鳥のEye-View Scene Graph

Bird's-Eye-View Scene Graph for Vision-Language Navigation ( http://arxiv.org/abs/2308.04758v2 )

ライセンス: Link先を確認
Rui Liu, Xiaohan Wang, Wenguan Wang, Yi Yang(参考訳) 人間の指示に従って3D環境をナビゲートするエージェントを必要とする視覚言語ナビゲーション(VLN)は、大きな進歩を見せている。 しかし、現在のエージェントはパノラマ観測に基づいて構築されており、3Dシーンの形状を認識できないため、容易にパノラマビューの曖昧な選択につながる。 これらの制約に対処するために,多段階のbev表現を利用して3次元検出を監督するbevシーングラフ(bev scene graph, bsg)を提案する。 ナビゲーション中、BSGは各ステップでローカルなBEV表現を構築し、そのトポロジ的関係に従って収集されたすべてのローカルなBEV表現を保存および整理するBEVベースのグローバルなシーンマップを維持する。 BSGに基づいて、エージェントは、局所的なBEVグリッドレベル決定スコアとグローバルグラフレベル決定スコアと、パノラマビューのサブビュー選択スコアとを組み合わせて予測し、より正確なアクション予測を行う。 提案手法はREVERIE, R2R, R4Rの最先端手法よりも優れており, VLNにおけるBEV知覚の可能性を示している。

Vision-language navigation (VLN), which entails an agent to navigate 3D environments following human instructions, has shown great advances. However, current agents are built upon panoramic observations, which hinders their ability to perceive 3D scene geometry and easily leads to ambiguous selection of panoramic view. To address these limitations, we present a BEV Scene Graph (BSG), which leverages multi-step BEV representations to encode scene layouts and geometric cues of indoor environment under the supervision of 3D detection. During navigation, BSG builds a local BEV representation at each step and maintains a BEV-based global scene map, which stores and organizes all the online collected local BEV representations according to their topological relations. Based on BSG, the agent predicts a local BEV grid-level decision score and a global graph-level decision score, combined with a sub-view selection score on panoramic views, for more accurate action prediction. Our approach significantly outperforms state-of-the-art methods on REVERIE, R2R, and R4R, showing the potential of BEV perception in VLN.
翻訳日:2023-08-15 18:22:36 公開日:2023-08-12
# Rationale 生成とDense Retrieval を用いた小型言語モデルによる未知の質問への回答

Answering Unseen Questions With Smaller Language Models Using Rationale Generation and Dense Retrieval ( http://arxiv.org/abs/2308.04711v2 )

ライセンス: Link先を確認
Tim Hartill, Diana Benavides-Prado, Michael Witbrock, Patricia J. Riddle(参考訳) 十分な説明的文脈が与えられると、より小さな言語モデルが、質問が訓練中に見当たらない短い質問応答タスクに対して強い推論能力を示すことが示される。 この設定でさらに改善する2つの方法を評価する。 どちらの手法も、より大きな言語モデルによって生成される有理性と、マルチホップ高密度検索システムから生成される長いコンテキストを組み合わせることに重点を置いている。 最初のメソッド($\textit{RR}$)では、Rationale Rankingモデルをトレーニングして、生成した有理性と検索されたコンテキストの両方を関連性および真理性に関してスコア付けする。 次に、これらのスコアを用いて、複数の組み合わせ戦略を用いて、両方の知識ソースから組み合わせたコンテキストを導出する。 2つ目の方法(\textit{RATD}$)では、検索強化トレーニングデータセットを使用してより小さな推論モデルをトレーニングし、部分的には明確で、多くの無関係な文を含むかもしれない長いテキストシーケンスから関連する情報を利用するのに熟練した。 一般的に、両方のメソッドは有効であるが、$\textit{ratd}$メソッドの方が適用が簡単で、私たちが焦点を当てている見えない設定で最も強い結果を生み出す。 たった4億4000万のパラメータを使った唯一の最善の推論モデルは、未発見の評価データセット(strategyqa 58.9 $\rightarrow$ 61.7 acc)の強力な比較基準によって、物質的に改善されます。 詳細はCommonsenseQA 63.6 $\rightarrow$ 72.7 acc. を参照のこと。 ARC-DA 31.6 $\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1 と、コンテキストの組み合わせ戦略を選択する際の各質問の事前知識を利用するバージョンは、さらに優れている。 提案したモデルは、通常、より大型のモデル(BLOOM 175BとStableVicuna 13B)に対して、数発のチェーンと数発の応答のみの設定の両方で直接のプロンプトより優れている。

When provided with sufficient explanatory context, smaller Language Models have been shown to exhibit strong reasoning ability on challenging short-answer question-answering tasks where the questions are unseen in training. We evaluate two methods for further improvement in this setting. Both methods focus on combining rationales generated by a larger Language Model with longer contexts created from a multi-hop dense retrieval system. The first method ($\textit{RR}$) involves training a Rationale Ranking model to score both generated rationales and retrieved contexts with respect to relevance and truthfulness. We then use the scores to derive combined contexts from both knowledge sources using a number of combinatory strategies. For the second method ($\textit{RATD}$) we train a smaller Reasoning model using retrieval-augmented training datasets such that it becomes proficient at utilising relevant information from longer text sequences that may be only partially evidential and frequently contain many irrelevant sentences. Generally we find that both methods are effective but that the $\textit{RATD}$ method is more straightforward to apply and produces the strongest results in the unseen setting on which we focus. Our single best Reasoning model using only 440 million parameters materially improves upon strong comparable prior baselines for unseen evaluation datasets (StrategyQA 58.9 $\rightarrow$ 61.7 acc., CommonsenseQA 63.6 $\rightarrow$ 72.7 acc., ARC-DA 31.6 $\rightarrow$ 52.1 F1, IIRC 25.5 $\rightarrow$ 27.3 F1) and a version utilising our prior knowledge of each type of question in selecting a context combination strategy does even better. Our proposed models also generally outperform direct prompts against much larger models (BLOOM 175B and StableVicuna 13B) in both few-shot chain-of-thought and few-shot answer-only settings.
翻訳日:2023-08-15 18:22:14 公開日:2023-08-12
# 会話型マルチモーダル感情認識におけるモーダリティとコンテキストに関する再検討

Revisiting Disentanglement and Fusion on Modality and Context in Conversational Multimodal Emotion Recognition ( http://arxiv.org/abs/2308.04502v2 )

ライセンス: Link先を確認
Bobo Li, Hao Fei, Lizi Liao, Yu Zhao, Chong Teng, Tat-Seng Chua, Donghong Ji, Fei Li(参考訳) 会話におけるマルチモーダル感情分析(MM-ERC)の課題である対話シナリオ下で、機械が人間の感情を多モーダルな文脈で理解できるようにするためのホットな研究テーマである。 MM-ERCは近年,タスク性能向上のための多種多様な手法が提案されている。 MM-ERCを標準マルチモーダル分類問題として扱い,特徴量最大化のためのマルチモーダル特徴分散と融合を行う。 しかし,MM-ERCの特徴を再考した結果,特徴の多相性と会話の文脈化は,特徴の絡み合いや融合の段階において同時にモデル化されるべきである,と論じている。 本研究では、上記の知見を十分に考慮し、タスクパフォーマンスのさらなる向上を目標としている。 一方,特徴の絡み合いにおいては,コントラスト学習手法に基づき,特徴をモダリティ空間と発話空間の両方に分離するddm(d-level disentanglement mechanism)を考案する。 一方,機能融合の段階では,マルチモーダルとコンテキスト統合のための貢献・認識融合機構(cfm)とコンテキスト再融合機構(crm)を提案する。 それらは、マルチモーダル機能とコンテキスト機能の適切な統合をスケジュールする。 具体的には、CFMは動的にマルチモーダル機能のコントリビューションを管理し、CRMは対話コンテキストの導入を柔軟に調整する。 2つの公開MM-ERCデータセット上で,本システムは新しい最先端性能を一貫して達成する。 さらに,マルチモーダルとコンテキスト機能を適応的に活用することにより,提案手法はすべてmm-ercタスクを大いに促進することを示す。 提案手法は,より広い範囲の対話型マルチモーダルタスクを実現するための大きな可能性を秘めている。

It has been a hot research topic to enable machines to understand human emotions in multimodal contexts under dialogue scenarios, which is tasked with multimodal emotion analysis in conversation (MM-ERC). MM-ERC has received consistent attention in recent years, where a diverse range of methods has been proposed for securing better task performance. Most existing works treat MM-ERC as a standard multimodal classification problem and perform multimodal feature disentanglement and fusion for maximizing feature utility. Yet after revisiting the characteristic of MM-ERC, we argue that both the feature multimodality and conversational contextualization should be properly modeled simultaneously during the feature disentanglement and fusion steps. In this work, we target further pushing the task performance by taking full consideration of the above insights. On the one hand, during feature disentanglement, based on the contrastive learning technique, we devise a Dual-level Disentanglement Mechanism (DDM) to decouple the features into both the modality space and utterance space. On the other hand, during the feature fusion stage, we propose a Contribution-aware Fusion Mechanism (CFM) and a Context Refusion Mechanism (CRM) for multimodal and context integration, respectively. They together schedule the proper integrations of multimodal and context features. Specifically, CFM explicitly manages the multimodal feature contributions dynamically, while CRM flexibly coordinates the introduction of dialogue contexts. On two public MM-ERC datasets, our system achieves new state-of-the-art performance consistently. Further analyses demonstrate that all our proposed mechanisms greatly facilitate the MM-ERC task by making full use of the multimodal and context features adaptively. Note that our proposed methods have the great potential to facilitate a broader range of other conversational multimodal tasks.
翻訳日:2023-08-15 18:21:04 公開日:2023-08-12
# 多クラス学習能力はサンプル圧縮を含まない

Multiclass Learnability Does Not Imply Sample Compression ( http://arxiv.org/abs/2308.06424v1 )

ライセンス: Link先を確認
Chirag Pabbaraju(参考訳) 仮説クラスはサンプル圧縮スキームを認め、もしクラスから仮説によってラベル付けされた全てのサンプルに対して、サンプル全体のラベルを推測できる小さなサブサンプルのみを保持することができる。 圧縮スキームのサイズは、生成されたサブサンプルのサイズの上限である。 すべての学習可能な二項仮説クラス(必ずしも有限VC次元を持つ必要がある)は、標本サイズとは独立に、そのVC次元の有限関数のみの大きさのサンプル圧縮スキームを許容する。 多クラス仮説クラスでは、VC次元のアナログはDS次元である。 サンプル圧縮に関する類似のステートメントは、多クラス仮説クラスには当てはまらないことが示されている: すべての学習可能な多クラス仮説クラスは、必ずしも有限のds次元を持つ必要があるが、そのds次元の有限関数のみの大きさのサンプル圧縮スキームを認めない。

A hypothesis class admits a sample compression scheme, if for every sample labeled by a hypothesis from the class, it is possible to retain only a small subsample, using which the labels on the entire sample can be inferred. The size of the compression scheme is an upper bound on the size of the subsample produced. Every learnable binary hypothesis class (which must necessarily have finite VC dimension) admits a sample compression scheme of size only a finite function of its VC dimension, independent of the sample size. For multiclass hypothesis classes, the analog of VC dimension is the DS dimension. We show that the analogous statement pertaining to sample compression is not true for multiclass hypothesis classes: every learnable multiclass hypothesis class, which must necessarily have finite DS dimension, does not admit a sample compression scheme of size only a finite function of its DS dimension.
翻訳日:2023-08-15 17:36:28 公開日:2023-08-12
# クラスタ型木構造パルゼン推定によるディープニューラルネットワークの感度・アウェア混合精度量子化と幅最適化

Sensitivity-Aware Mixed-Precision Quantization and Width Optimization of Deep Neural Networks Through Cluster-Based Tree-Structured Parzen Estimation ( http://arxiv.org/abs/2308.06422v1 )

ライセンス: Link先を確認
Seyedarmin Azizi, Mahdi Nazemi, Arash Fayyazi, Massoud Pedram(参考訳) ディープラーニングモデルの複雑さと計算需要が高まるにつれて、ニューラルネットワーク設計の効果的な最適化方法の必要性が最重要視される。 本稿では,個々のニューラルネットワーク層に対して最善のビット幅と層幅を自動的に選択する革新的な探索機構を提案する。 これにより、ディープニューラルネットワークの効率が著しく向上する。 探索領域はヘッセン式プルーニングを利用することで戦略的に低減され、非地殻パラメータの除去が保証される。 その後、クラスタベース木構造Parzen推定器を用いて、好ましくない結果に対するサロゲートモデルの開発について詳述する。 この戦略は、アーキテクチャの可能性の合理化とトップパフォーマンス設計の迅速な特定を可能にする。 既知のデータセットに対する厳密なテストを通じて,本手法は既存の手法に対して明確な優位性を証明している。 先行圧縮戦略と比較して,本手法は,精度を損なうことなく,モデルサイズが20%減少した。 さらに,提案手法は,現在利用可能な最善の検索戦略と比較して検索時間を12倍短縮する。 その結果,提案手法はニューラルネットワーク設計の最適化の飛躍的な進歩を示し,限られたリソースでモデル設計と実装を迅速に行えるようにすることで,スケーラブルなディープラーニングソリューションの可能性を高めることができる。

As the complexity and computational demands of deep learning models rise, the need for effective optimization methods for neural network designs becomes paramount. This work introduces an innovative search mechanism for automatically selecting the best bit-width and layer-width for individual neural network layers. This leads to a marked enhancement in deep neural network efficiency. The search domain is strategically reduced by leveraging Hessian-based pruning, ensuring the removal of non-crucial parameters. Subsequently, we detail the development of surrogate models for favorable and unfavorable outcomes by employing a cluster-based tree-structured Parzen estimator. This strategy allows for a streamlined exploration of architectural possibilities and swift pinpointing of top-performing designs. Through rigorous testing on well-known datasets, our method proves its distinct advantage over existing methods. Compared to leading compression strategies, our approach records an impressive 20% decrease in model size without compromising accuracy. Additionally, our method boasts a 12x reduction in search time relative to the best search-focused strategies currently available. As a result, our proposed method represents a leap forward in neural network design optimization, paving the way for quick model design and implementation in settings with limited resources, thereby propelling the potential of scalable deep learning solutions.
翻訳日:2023-08-15 17:36:04 公開日:2023-08-12
# マックスカット、ミンカット等の緩和としての潜在ランダムステップ

Latent Random Steps as Relaxations of Max-Cut, Min-Cut, and More ( http://arxiv.org/abs/2308.06448v1 )

ライセンス: Link先を確認
Sudhanshu Chanpuriya and Cameron Musco(参考訳) ノードクラスタリングのアルゴリズムは、グラフの相同構造を見つけることに集中する。 つまり、クラスタをまたぐのではなく、多くのエッジを持つ類似ノードのセットを見つけるのです。 しかし、グラフは(ほぼ)二部グラフや三部グラフで示されるように、しばしばヘテロ親和性構造を示す。 このような構造のグラッリングは通常、グラフ単純化のタスクに委ねられる。 クラスタリングと単純化を統一する非負行列分解に基づく確率モデルを提案し、任意のグラフ構造をモデル化するためのフレームワークを提供する。 我々のモデルは、ランダムウォークをグラフ上で行う過程を分解することに基づいている。 これは制約のないパラメトリゼーションを可能にし、単純な勾配降下による最適化を可能にする。 ソフトクラスタリングへのハードクラスタリングを緩和することで、アルゴリズムは潜在的なハードクラスタリング問題を扱いやすいクラスタリングに緩和する。 合成グラフ上でのアルゴリズムの能力と、直交および音韻データの二分節および三分節クラスタリングを含む単純な教師なし学習タスクについて説明する。

Algorithms for node clustering typically focus on finding homophilous structure in graphs. That is, they find sets of similar nodes with many edges within, rather than across, the clusters. However, graphs often also exhibit heterophilous structure, as exemplified by (nearly) bipartite and tripartite graphs, where most edges occur across the clusters. Grappling with such structure is typically left to the task of graph simplification. We present a probabilistic model based on non-negative matrix factorization which unifies clustering and simplification, and provides a framework for modeling arbitrary graph structure. Our model is based on factorizing the process of taking a random walk on the graph. It permits an unconstrained parametrization, allowing for optimization via simple gradient descent. By relaxing the hard clustering to a soft clustering, our algorithm relaxes potentially hard clustering problems to a tractable ones. We illustrate our algorithm's capabilities on a synthetic graph, as well as simple unsupervised learning tasks involving bipartite and tripartite clustering of orthographic and phonological data.
翻訳日:2023-08-15 17:23:58 公開日:2023-08-12
# 物理インフォームドニューラルネットワークの複雑化に対する逐次メタトランスファー(SMT)学習:コンポジットオートクレーブ処理への応用

A Sequential Meta-Transfer (SMT) Learning to Combat Complexities of Physics-Informed Neural Networks: Application to Composites Autoclave Processing ( http://arxiv.org/abs/2308.06447v1 )

ライセンス: Link先を確認
Milad Ramezankhani and Abbas S. Milani(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、物理法則をニューラルネットワークのトレーニングに統合することで非線形偏微分方程式(PDE)を解くことで人気を集め、多くの科学的・工学的応用において優れている。 しかし、従来のPINNは、特に長い時間領域において、強い非線形性を持つ複雑なシステムの解を正確に近似するに足りていない。 さらに、PINNは与えられたPDEシステムの特定の実現を近似するように設計されているため、新しいシステム構成に効率的に適応するために必要な一般化性は欠如している。 これは、システム内の新しい変更に対して、スクラッチから計算コストの高い再トレーニングを伴います。 これらの欠点に対処するため,本研究では,時間領域が長い高非線形システムにおいて,高速トレーニングとピンの効率的な適応のための統一解を提供する,新しい逐次メタトランスファー(smt)学習フレームワークを提案する。 具体的には、PDEの時間領域を小さな時間セグメントに分解して、PINNのトレーニングに"より簡単な"PDE問題を生成する。 そして、各時間間隔毎にメタラーナーを割り当てて訓練し、関連するタスクに迅速に適応するための最適な初期状態を達成する。 次に, 移動学習の原理を時間間隔で活用して計算コストをさらに削減し, 合成オートクレーブ処理ケーススタディにより, SMTはPINNの適応性を高めつつ, 計算コストを100倍に削減できることが明らかとなった。

Physics-Informed Neural Networks (PINNs) have gained popularity in solving nonlinear partial differential equations (PDEs) via integrating physical laws into the training of neural networks, making them superior in many scientific and engineering applications. However, conventional PINNs still fall short in accurately approximating the solution of complex systems with strong nonlinearity, especially in long temporal domains. Besides, since PINNs are designed to approximate a specific realization of a given PDE system, they lack the necessary generalizability to efficiently adapt to new system configurations. This entails computationally expensive re-training from scratch for any new change in the system. To address these shortfalls, in this work a novel sequential meta-transfer (SMT) learning framework is proposed, offering a unified solution for both fast training and efficient adaptation of PINNs in highly nonlinear systems with long temporal domains. Specifically, the framework decomposes PDE's time domain into smaller time segments to create "easier" PDE problems for PINNs training. Then for each time interval, a meta-learner is assigned and trained to achieve an optimal initial state for rapid adaptation to a range of related tasks. Transfer learning principles are then leveraged across time intervals to further reduce the computational cost.Through a composites autoclave processing case study, it is shown that SMT is clearly able to enhance the adaptability of PINNs while significantly reducing computational cost, by a factor of 100.
翻訳日:2023-08-15 17:23:44 公開日:2023-08-12
# TongueSAM:zero-Shotを用いたSAMに基づくユニバーサルトングセグメンテーションモデル

TongueSAM: An Universal Tongue Segmentation Model Based on SAM with Zero-Shot ( http://arxiv.org/abs/2308.06444v1 )

ライセンス: Link先を確認
Shan Cao, Qunsheng Ruan and Qingfeng Wu(参考訳) 舌分節はtcm舌の自動診断の第一段階であり, 診断結果において重要な役割を担っている。 現在、多くのディープラーニングベースの手法が有望な結果を得ている。 しかし,これらの手法の多くは,訓練セットと異なる舌に対して中等度な性能を示す。 そこで本研究では,SAM(Segment Anything Model)に基づく舌分割モデルTongueSAMを提案する。 SAMは、その強力なゼロショット一般化能力で知られている大規模な事前訓練された対話的セグメンテーションモデルである。 SAMを舌のセグメンテーションに適用することで、ゼロショットによる様々なタイプの舌画像のセグメンテーションが可能になる。 本研究では,物体検出に基づくプロンプトジェネレータをSAMに統合し,エンドツーエンドの自動舌分割法を実現する。 TongueSAMは、特にゼロショット下で、様々な舌のセグメンテーションデータセットで例外的なパフォーマンスを達成している。 TongueSAMは微調整なしで他のデータセットに直接適用することができる。 われわれが知る限り、これは舌分割のための大規模事前訓練モデルの最初の応用である。 TongueSAMのプロジェクトと事前訓練されたモデルは、https://github.com/cshan-github/TongueSAMで公開されている。

Tongue segmentation serves as the primary step in automated TCM tongue diagnosis, which plays a significant role in the diagnostic results. Currently, numerous deep learning based methods have achieved promising results. However, most of these methods exhibit mediocre performance on tongues different from the training set. To address this issue, this paper proposes a universal tongue segmentation model named TongueSAM based on SAM (Segment Anything Model). SAM is a large-scale pretrained interactive segmentation model known for its powerful zero-shot generalization capability. Applying SAM to tongue segmentation enables the segmentation of various types of tongue images with zero-shot. In this study, a Prompt Generator based on object detection is integrated into SAM to enable an end-to-end automated tongue segmentation method. Experiments demonstrate that TongueSAM achieves exceptional performance across various of tongue segmentation datasets, particularly under zero-shot. TongueSAM can be directly applied to other datasets without fine-tuning. As far as we know, this is the first application of large-scale pretrained model for tongue segmentation. The project and pretrained model of TongueSAM be publiced in :https://github.com/cshan-github/TongueSAM.
翻訳日:2023-08-15 17:23:16 公開日:2023-08-12
# neural latent aligner: 複雑で自然主義的なニューラルネットワークデータの学習表現のための対地的アライメント

Neural Latent Aligner: Cross-trial Alignment for Learning Representations of Complex, Naturalistic Neural Data ( http://arxiv.org/abs/2308.06443v1 )

ライセンス: Link先を確認
Cheol Jun Cho, Edward F. Chang, and Gopala K. Anumanchipalli(参考訳) 複雑な人間の行動の神経的実装を理解することは神経科学の主要な目標の1つである。 この目的のためには、行動の複雑さや信号のsnr(signal-to-ratio)が低いため、ニューラルネットワークの真の表現を見つけることが不可欠である。 そこで本研究では,複雑な振る舞いをよく拘束し,行動に関連のある神経表現を見つけるために,教師なし学習フレームワークNeural Latent Aligner(NLA)を提案する。 鍵となるアイデアは、裁判間の一貫性のある情報を学ぶために、繰り返し行われる試行をまたいで表現を調整することである。 さらに, 治験の時間的不均衡を解消するための新しい, 完全微分可能な時間ウォーピングモデル(twm)を提案する。 自然発声の頭蓋内皮質電図(ecog)に適用すると,本モデルはベースラインモデル,特に低次元空間におけるデコード行動に対する優れた表現を学習する。 TWMは、整列試行間の挙動コヒーレンスを測定することにより、実証的に検証される。 提案するフレームワークは, ベースラインよりも地上横断的な一貫した表現を学習し, 可視化すると, 実験全体での共有神経軌道を明らかにする。

Understanding the neural implementation of complex human behaviors is one of the major goals in neuroscience. To this end, it is crucial to find a true representation of the neural data, which is challenging due to the high complexity of behaviors and the low signal-to-ratio (SNR) of the signals. Here, we propose a novel unsupervised learning framework, Neural Latent Aligner (NLA), to find well-constrained, behaviorally relevant neural representations of complex behaviors. The key idea is to align representations across repeated trials to learn cross-trial consistent information. Furthermore, we propose a novel, fully differentiable time warping model (TWM) to resolve the temporal misalignment of trials. When applied to intracranial electrocorticography (ECoG) of natural speaking, our model learns better representations for decoding behaviors than the baseline models, especially in lower dimensional space. The TWM is empirically validated by measuring behavioral coherence between aligned trials. The proposed framework learns more cross-trial consistent representations than the baselines, and when visualized, the manifold reveals shared neural trajectories across trials.
翻訳日:2023-08-15 17:22:59 公開日:2023-08-12
# 不均一媒質におけるマクスウェル方程式の逆問題に対するドメイン適応物理学インフォームドニューラルネットワーク

A Domain-adaptive Physics-informed Neural Network for Inverse Problems of Maxwell's Equations in Heterogeneous Media ( http://arxiv.org/abs/2308.06436v1 )

ライセンス: Link先を確認
Shiyuan Piao, Hong Gu, Aina Wang, Pan Qin(参考訳) マクスウェルの方程式は結合偏微分方程式(PDE)の集合であり、ローレンツの力法則とともに古典的な電磁磁気学と電気回路の基礎を構成する。 マクスウェルの方程式を効果的に解くことは、電磁散乱やアンテナ設計の最適化など様々な分野で重要である。 物理インフォームドニューラルネットワーク(PINN)はPDEを解く強力な能力を示している。 しかし、PINNは、異種メディアにおけるマクスウェル方程式の解決に苦慮している。 そこで本研究では,マクスウェル方程式の逆問題を解くためのドメイン適応型ピン(da-pinn)を提案する。 まず,各ドメインを複数のサブドメインに分割するためのメディアインタフェースの位置パラメータを提案する。 さらに、電磁界界面条件を損失関数に組み込むことにより、界面近傍の予測性能を向上させる。 次に,da-pinnのドメイン適応トレーニング戦略を提案する。 最後に,da-PINNの有効性を2つのケーススタディで検証した。

Maxwell's equations are a collection of coupled partial differential equations (PDEs) that, together with the Lorentz force law, constitute the basis of classical electromagnetism and electric circuits. Effectively solving Maxwell's equations is crucial in various fields, like electromagnetic scattering and antenna design optimization. Physics-informed neural networks (PINNs) have shown powerful ability in solving PDEs. However, PINNs still struggle to solve Maxwell's equations in heterogeneous media. To this end, we propose a domain-adaptive PINN (da-PINN) to solve inverse problems of Maxwell's equations in heterogeneous media. First, we propose a location parameter of media interface to decompose the whole domain into several sub-domains. Furthermore, the electromagnetic interface conditions are incorporated into a loss function to improve the prediction performance near the interface. Then, we propose a domain-adaptive training strategy for da-PINN. Finally, the effectiveness of da-PINN is verified with two case studies.
翻訳日:2023-08-15 17:22:36 公開日:2023-08-12
# 部分群アンダー表現に対する分布ロバスト最適化と不変表現学習:メカニズムと限界

Distributionally Robust Optimization and Invariant Representation Learning for Addressing Subgroup Underrepresentation: Mechanisms and Limitations ( http://arxiv.org/abs/2308.06434v1 )

ライセンス: Link先を確認
Nilesh Kumar, Ruby Shrestha, Zhiyuan Li, Linwei Wang(参考訳) サブグループの低表現によって引き起こされる純粋相関は、ディープニューラルネットワーク(DNN)によって永続できるバイアスの源として注目されている。 分散的にロバストな最適化は、このバイアスに対処することに成功したが、基盤となる作業メカニズムは、主に、データに表現されていない人々の代理として、パフォーマンスの低いサンプルの重み付けに依存している。 同時に、不変表現学習は、ニュアサンスに敏感な特徴を取り除くための強力な選択であるが、部分群の著しい過剰な表現によってスプリアス相関が引き起こされるような設定では、ほとんど考慮されていない。 本稿では,医療画像分類におけるサブグループ表現不足によるスプリアス相関の脱バイアス機構の理解と改善のための第一歩を踏み出す。 まず包括的評価研究を通して 1) 偏りが性能低下の原因でない場合には, 過度なサンプルの一般化された重み付けが問題となる。 2) ナイーブ不変表現学習は, 素早い相関自体に悩まされる。 次に,確率相関の存在下で不変表現の学習を容易にするために,ロバスト最適化を利用する新しい手法を提案する。 このような表現を用いた微調整分類器は、高い平均と最悪のグループ性能を維持しながら、サブグループ性能の格差を低減する能力の向上を示した。

Spurious correlation caused by subgroup underrepresentation has received increasing attention as a source of bias that can be perpetuated by deep neural networks (DNNs). Distributionally robust optimization has shown success in addressing this bias, although the underlying working mechanism mostly relies on upweighting under-performing samples as surrogates for those underrepresented in data. At the same time, while invariant representation learning has been a powerful choice for removing nuisance-sensitive features, it has been little considered in settings where spurious correlations are caused by significant underrepresentation of subgroups. In this paper, we take the first step to better understand and improve the mechanisms for debiasing spurious correlation due to subgroup underrepresentation in medical image classification. Through a comprehensive evaluation study, we first show that 1) generalized reweighting of under-performing samples can be problematic when bias is not the only cause for poor performance, while 2) naive invariant representation learning suffers from spurious correlations itself. We then present a novel approach that leverages robust optimization to facilitate the learning of invariant representations at the presence of spurious correlations. Finetuned classifiers utilizing such representation demonstrated improved abilities to reduce subgroup performance disparity, while maintaining high average and worst-group performance.
翻訳日:2023-08-15 17:22:19 公開日:2023-08-12
# 治療後の血管新生関連黄斑変性予測のための単一水平疾患の進化

Learn Single-horizon Disease Evolution for Predictive Generation of Post-therapeutic Neovascular Age-related Macular Degeneration ( http://arxiv.org/abs/2308.06432v1 )

ライセンス: Link先を確認
Yuhan Zhang, Kun Huang, Mingchao Li, Songtao Yuan, Qiang Chen(参考訳) 医療画像処理分野における既存の疾患予測手法のほとんどは、画像とカテゴリの予測と画像とパラメータの予測という2つのクラスに分類される。 画像から画像への予測に焦点を当てた作品はほとんどない。 他の分野のマルチホライズン予測とは異なり、眼科医は予測リスクの耐性が低いため、単一ホライズン予測の信頼性を高める傾向にある。 治療前SD-OCT画像に血管新生関連黄斑変性(nAMD)を付加することにより,治療後SD-OCT画像を予測的に生成するシングルホライゾン病進化ネットワーク(SHENet)を提案する。 シェネットでは、特徴エンコーダが入力されたsd-oct画像を深い特徴に変換し、グラフ進化モジュールが高次元潜伏空間における疾患の進化過程を予測し、予測された深い特徴を出力し、最後に特徴デコーダは予測された深い特徴をsd-oct画像に復元する。 さらに,疾患進展学習の有効性を確保するための進化強化モジュールを提案し,逆行訓練により現実的なsd-oct画像を得る。 SHENetは,22nAMD患者の383個のSD-OCT立方体に対して,定量的および定性評価に基づく3つのよく設計されたスキームに基づいて検証を行った。 他の生成方法と比較して、SHENetの生成SD-OCT画像が最も画質が高い。 さらに、SHENetは最高の構造保護とコンテンツ予測を達成する。 定性的評価は、SHENetが他の方法よりも優れた視覚効果を持つことを示す。 SHENetは、高い予測性能と良好な画質で治療後のSD-OCT画像を生成することができ、眼科医がnAMDの治療効果を予測するのに役立つ可能性がある。

Most of the existing disease prediction methods in the field of medical image processing fall into two classes, namely image-to-category predictions and image-to-parameter predictions. Few works have focused on image-to-image predictions. Different from multi-horizon predictions in other fields, ophthalmologists prefer to show more confidence in single-horizon predictions due to the low tolerance of predictive risk. We propose a single-horizon disease evolution network (SHENet) to predictively generate post-therapeutic SD-OCT images by inputting pre-therapeutic SD-OCT images with neovascular age-related macular degeneration (nAMD). In SHENet, a feature encoder converts the input SD-OCT images to deep features, then a graph evolution module predicts the process of disease evolution in high-dimensional latent space and outputs the predicted deep features, and lastly, feature decoder recovers the predicted deep features to SD-OCT images. We further propose an evolution reinforcement module to ensure the effectiveness of disease evolution learning and obtain realistic SD-OCT images by adversarial training. SHENet is validated on 383 SD-OCT cubes of 22 nAMD patients based on three well-designed schemes based on the quantitative and qualitative evaluations. Compared with other generative methods, the generative SD-OCT images of SHENet have the highest image quality. Besides, SHENet achieves the best structure protection and content prediction. Qualitative evaluations also demonstrate that SHENet has a better visual effect than other methods. SHENet can generate post-therapeutic SD-OCT images with both high prediction performance and good image quality, which has great potential to help ophthalmologists forecast the therapeutic effect of nAMD.
翻訳日:2023-08-15 17:21:55 公開日:2023-08-12
# マルチホップ質問のパフォーマンス予測

Performance Prediction for Multi-hop Questions ( http://arxiv.org/abs/2308.06431v1 )

ライセンス: Link先を確認
Mohammadreza Samadi, Davood Rafiei(参考訳) オープンドメイン型マルチホップ質問回答(QA)におけるクエリ性能予測(QPP)の問題について検討し,コーパス上でのマルチホップ質問の評価の難しさを推定する。 アドホックおよびqa検索モデルの性能予測に関する広範な研究にもかかわらず、マルチホップ質問の難易度の推定に関する研究が不足している。 この問題は,検索過程の多段階性,ステップの潜在的依存性,関連する推論などにより困難である。 この課題に対処するため,オープンドメイン型マルチホップ質問の性能予測のための検索前手法であるmultHPを提案する。 いくつかの最新のQAシステムを用いた最大マルチホップQAデータセットに対する広範な評価は、提案モデルが従来のシングルホップQPPモデルよりも優れた性能予測因子であることを示している。 さらに,本手法は,検索すべき文書数など,qaシステムのパラメータを最適化するために効果的に使用できることを示す。

We study the problem of Query Performance Prediction (QPP) for open-domain multi-hop Question Answering (QA), where the task is to estimate the difficulty of evaluating a multi-hop question over a corpus. Despite the extensive research on predicting the performance of ad-hoc and QA retrieval models, there has been a lack of study on the estimation of the difficulty of multi-hop questions. The problem is challenging due to the multi-step nature of the retrieval process, potential dependency of the steps and the reasoning involved. To tackle this challenge, we propose multHP, a novel pre-retrieval method for predicting the performance of open-domain multi-hop questions. Our extensive evaluation on the largest multi-hop QA dataset using several modern QA systems shows that the proposed model is a strong predictor of the performance, outperforming traditional single-hop QPP models. Additionally, we demonstrate that our approach can be effectively used to optimize the parameters of QA systems, such as the number of documents to be retrieved, resulting in improved overall retrieval performance.
翻訳日:2023-08-15 17:21:24 公開日:2023-08-12
# 遺伝的アルゴリズムとネットワークサイエンスを用いた遺伝的多様性解析

Genetic heterogeneity analysis using genetic algorithm and network science ( http://arxiv.org/abs/2308.06429v1 )

ライセンス: Link先を確認
Zhendong Sha, Yuanzhu Chen, Ting Hu(参考訳) ゲノムワイド・アソシエーション研究(gwas)により、特定の疾患の有無に関わらず個人の遺伝データを比較することにより、疾患感受性遺伝子変数を同定することができる。 しかし、これらの結合の発見は、遺伝的不均一性や特徴的相互作用によって大きな課題を引き起こす。 これらの効果に絡み合う遺伝的変数は効果サイズが小さく、機械学習の特徴選択法を用いると検出が困難になる。 これらの課題に対処するため,本稿では,FCSNet(Feature Co-selection Network)という,GWASのための新しい特徴選択機構を提案する。 FCS-Netは、進化的学習アルゴリズムである遺伝的アルゴリズム(GA)に基づいて、複数の独立した特徴選択実行から構築されたネットワークから、遺伝的変数の不均一なサブセットを抽出するように設計されている。 特徴の相互作用を検出するために非線形機械学習アルゴリズムを用いる。 各変数の集団疾患関連を定量化するために設計された合成機能である community risk score (crs) を紹介する。 本実験は,合成データ解析による特徴量同定におけるGAを用いた特徴量選択法の有効性を示す。 さらに,症例制御型大腸癌GWASデータセットに新たなアプローチを適用した。 得られた合成特徴は、追加のケースのみのGWASデータセットで遺伝的不均一性を説明するために使用される。

Through genome-wide association studies (GWAS), disease susceptible genetic variables can be identified by comparing the genetic data of individuals with and without a specific disease. However, the discovery of these associations poses a significant challenge due to genetic heterogeneity and feature interactions. Genetic variables intertwined with these effects often exhibit lower effect-size, and thus can be difficult to be detected using machine learning feature selection methods. To address these challenges, this paper introduces a novel feature selection mechanism for GWAS, named Feature Co-selection Network (FCSNet). FCS-Net is designed to extract heterogeneous subsets of genetic variables from a network constructed from multiple independent feature selection runs based on a genetic algorithm (GA), an evolutionary learning algorithm. We employ a non-linear machine learning algorithm to detect feature interaction. We introduce the Community Risk Score (CRS), a synthetic feature designed to quantify the collective disease association of each variable subset. Our experiment showcases the effectiveness of the utilized GA-based feature selection method in identifying feature interactions through synthetic data analysis. Furthermore, we apply our novel approach to a case-control colorectal cancer GWAS dataset. The resulting synthetic features are then used to explain the genetic heterogeneity in an additional case-only GWAS dataset.
翻訳日:2023-08-15 17:21:05 公開日:2023-08-12
# MaxSATによる安定化器符号の最適合成

Optimal Synthesis of Stabilizer Codes via MaxSAT ( http://arxiv.org/abs/2308.06428v1 )

ライセンス: Link先を確認
Keyi Yin, Hezi Zhang, Yunong Shi, Travis Humble, Ang Li, Yufei Ding(参考訳) 量子誤り訂正(QEC)符号は、長期にわたってフォールトトレラント量子コンピューティングを達成するために重要である。 しかし、ハードウェア上でこれらのコードを効率的に実装するには、ハードウェア接続マッチング、効率的な回路スケジューリング、フォールトトレランス強制など、重大な課題がある。 本研究では,maxsatを用いて汎用安定化器コードを多種多様なハードウェア構造に縫い付ける最適合成器を提案する。 本評価は,(1)様々なコードやデバイスに適用するアプローチの能力,(2)特定のqec符号のみを対象とする最善の事前ヒューリスティックアプローチよりも一貫して優れた効率を示す。 高レベルのQECコード設計と低レベルのハードウェア制約のギャップを埋めることにより、この作業は長期のフォールトトレラントな量子コンピューティング目標を達成するための道を開く。

Quantum Error Correction (QEC) codes are crucial for achieving fault-tolerant quantum computing in the long term. However, efficiently implementing these codes on hardware poses significant challenges, including hardware connectivity matching, efficient circuit scheduling, and fault-tolerance enforcement. In this study, we present an optimal synthesizer that stitches generic stabilizer codes onto diverse hardware structures via MaxSAT. Our evaluation demonstrates (1) the capability of our approach to be applied for various codes and devices and (2) the consistently better efficiency than the best prior heuristic approaches that only target specific QEC codes. By bridging the gap between high-level QEC code design and low-level hardware constraints, this work paves the way toward achieving long-term fault-tolerant quantum computing goals.
翻訳日:2023-08-15 17:20:41 公開日:2023-08-12
# 結局のところ、ニューラルネットワークのロバスト性の評価は敵の攻撃を未然に防ぐ

Not So Robust After All: Evaluating the Robustness of Deep Neural Networks to Unseen Adversarial Attacks ( http://arxiv.org/abs/2308.06467v1 )

ライセンス: Link先を確認
Roman Garaev, Bader Rasheed and Adil Khan(参考訳) ディープニューラルネットワーク(DNN)は、分類、認識、予測といった様々なアプリケーションで注目され、それらの特性の精査が促進されている。 従来のDNNの基本的属性は、入力データの修正に対する脆弱性である。 これらの攻撃はDNNを誤解させるためにデータを操作します。 本研究は,敵の攻撃に対する現代防衛機構の有効性と一般化に挑戦することを目的とする。 具体的には、イリヤスらが提案した仮説を考察する。 DNNのイメージ機能は堅牢か、非ロバストかのいずれかであり、後者をターゲットとする敵攻撃だ。 この仮説は、堅牢な特徴のみからなるデータセット上でDNNをトレーニングすると、敵攻撃に耐性のあるモデルが生成されることを示唆している。 しかし、我々の実験は、これが普遍的に真実ではないことを示した。 そこで本研究では,DNN表現に対する敵対的攻撃規範の影響を解析し,DNN表現に対して$L_2$および$L_{\infty}$ノルム攻撃を受けるサンプルに着目した。 さらに,標準相関分析を行い,表現を可視化し,これらの表現と種々のdnn決定境界の平均距離を計算する。 研究コミュニティがこれまで過小評価していた$L2$と$L_{\infty}$ノルムの間に大きな違いが見られ、これは、$L_{\infty}$ノルム攻撃によって引き起こされる潜在的な危険性についての洞察を与えることができる。

Deep neural networks (DNNs) have gained prominence in various applications, such as classification, recognition, and prediction, prompting increased scrutiny of their properties. A fundamental attribute of traditional DNNs is their vulnerability to modifications in input data, which has resulted in the investigation of adversarial attacks. These attacks manipulate the data in order to mislead a DNN. This study aims to challenge the efficacy and generalization of contemporary defense mechanisms against adversarial attacks. Specifically, we explore the hypothesis proposed by Ilyas et. al, which posits that DNN image features can be either robust or non-robust, with adversarial attacks targeting the latter. This hypothesis suggests that training a DNN on a dataset consisting solely of robust features should produce a model resistant to adversarial attacks. However, our experiments demonstrate that this is not universally true. To gain further insights into our findings, we analyze the impact of adversarial attack norms on DNN representations, focusing on samples subjected to $L_2$ and $L_{\infty}$ norm attacks. Further, we employ canonical correlation analysis, visualize the representations, and calculate the mean distance between these representations and various DNN decision boundaries. Our results reveal a significant difference between $L_2$ and $L_{\infty}$ norms, which could provide insights into the potential dangers posed by $L_{\infty}$ norm attacks, previously underestimated by the research community.
翻訳日:2023-08-15 17:15:24 公開日:2023-08-12
# 量子メッセージにおける分割状態非可算符号と秘密共有方式

Split-State Non-Malleable Codes and Secret Sharing Schemes for Quantum Messages ( http://arxiv.org/abs/2308.06466v1 )

ライセンス: Link先を確認
Naresh Goud Boddu, Vipul Goyal, Rahul Jain, Jo\~ao Ribeiro(参考訳) 非可算符号は暗号理論と符号化理論の交わる基本対象である。 これらのコードは、エラー訂正と検出が不可能な設定でもセキュリティ保証を提供しており、他の暗号処理にも応用されている。 大まかに言えば、改ざんする関数のファミリーの非可算符号は、敵が(このファミリーの関数を使って)与えられたメッセージのエンコーディングを関連する異なるメッセージのエンコーディングに改ざんできることを保証する。 非可算秘密共有スキームは、付加的なプライバシーと再構成特性を満たす非可算符号の強化である。 私たちはまず、2ドル(約2万2000円)のスプリットステート改ざんモデルに焦点をあてました。 ここでは、コードワードを物理的に離れたサーバに格納する2つの部品に分割し、敵は任意の関数を使用して各部品を独立に改ざんすることができる。 このモデルは、敵が各共有に独立して改ざんすることで、複数の当事者と秘密の共有設定に自然に拡張することができる。 分割状態改ざんモデルにおける非可算符号化と秘密共有に関する以前の研究は、 \emph{classical} メッセージの符号化のみを考慮していた。 さらに、aggarwal, boddu, jain (arxiv 2022) による最近の研究までは、量子能力と \emph{shared entanglement} を持つ敵は考慮されておらず、以前のスキームがこのモデルで安全であるかどうかは定かではない。 本稿では,分割状態非可算符号の概念と,量子メッセージのエンタングルメントを共用した量子敵に対してセキュアな秘密共有方式を提案する。 また、このようなスキームを明示的に構成し、低エラー非可算性を実現する。

Non-malleable codes are fundamental objects at the intersection of cryptography and coding theory. These codes provide security guarantees even in settings where error correction and detection are impossible, and have found applications to several other cryptographic tasks. Roughly speaking, a non-malleable code for a family of tampering functions guarantees that no adversary can tamper (using functions from this family) the encoding of a given message into the encoding of a related distinct message. Non-malleable secret sharing schemes are a strengthening of non-malleable codes which satisfy additional privacy and reconstruction properties. We first focus on the $2$-split-state tampering model, one of the strongest and most well-studied adversarial tampering models. Here, a codeword is split into two parts which are stored in physically distant servers, and the adversary can then independently tamper with each part using arbitrary functions. This model can be naturally extended to the secret sharing setting with several parties by having the adversary independently tamper with each share. Previous works on non-malleable coding and secret sharing in the split-state tampering model only considered the encoding of \emph{classical} messages. Furthermore, until the recent work by Aggarwal, Boddu, and Jain (arXiv 2022), adversaries with quantum capabilities and \emph{shared entanglement} had not been considered, and it is a priori not clear whether previous schemes remain secure in this model. In this work, we introduce the notions of split-state non-malleable codes and secret sharing schemes for quantum messages secure against quantum adversaries with shared entanglement. We also present explicit constructions of such schemes that achieve low-error non-malleability.
翻訳日:2023-08-15 17:14:55 公開日:2023-08-12
# 予測運動ベクトルの最適性を用いた一次元HEVCビデオステガナリシス法

A One-dimensional HEVC video steganalysis method using the Optimality of Predicted Motion Vectors ( http://arxiv.org/abs/2308.06464v1 )

ライセンス: Link先を確認
Jun Li, Minqing Zhang, Ke Niu, Yingnan Zhang, Xiaoyuan Yang(参考訳) ステガナリシス法では,高効率ビデオ符号化(HEVC)規格における動きベクトル(MV)領域に基づくビデオステガノグラフィーの検出がホットで難しい問題である。 本稿では,検出性能の向上を目的として,予測したmvsの1次元の最適性に基づくsteg解析機能を提案する。 まず,Advanced Motion Vector Prediction (AMVP) 技術を用いて符号化された予測ユニット(PU)の動作ベクトル予測(MVP)が,カバービデオの局所的最適性を満たすことを指摘した。 第2に、HEVCビデオにおいて、MVPインデックスまたは運動ベクトル差(MVD)を用いたメッセージ埋め込みは、上記のMVPの最適性を損なう可能性がある。 そして,HEVCビデオにおけるMVPの最適速度をステガナリシス機能として定義する。 最後に,3つの一般的なステガノグラフィー手法の2つのデータセットを用いてステガナリシス検出実験を行い,その性能を4つの最先端ステガナリシス法と比較した。 実験の結果,全カバービデオにおけるmvpの最適レートは100\%,全stegoビデオにおけるmvpの最適レートは100\%以下であることが判明した。 したがって,提案手法はカバービデオとステゴビデオとを正確に区別することができ,モデルトレーニングや計算複雑性の少ない実用的なシナリオに効果的に適用できる。

Among steganalysis techniques, detection against motion vector (MV) domain-based video steganography in High Efficiency Video Coding (HEVC) standard remains a hot and challenging issue. For the purpose of improving the detection performance, this paper proposes a steganalysis feature based on the optimality of predicted MVs with a dimension of one. Firstly, we point out that the motion vector prediction (MVP) of the prediction unit (PU) encoded using the Advanced Motion Vector Prediction (AMVP) technique satisfies the local optimality in the cover video. Secondly, we analyze that in HEVC video, message embedding either using MVP index or motion vector differences (MVD) may destroy the above optimality of MVP. And then, we define the optimal rate of MVP in HEVC video as a steganalysis feature. Finally, we conduct steganalysis detection experiments on two general datasets for three popular steganography methods and compare the performance with four state-of-the-art steganalysis methods. The experimental results show that the proposed optimal rate of MVP for all cover videos is 100\%, while the optimal rate of MVP for all stego videos is less than 100\%. Therefore, the proposed steganography scheme can accurately distinguish between cover videos and stego videos, and it is efficiently applied to practical scenarios with no model training and low computational complexity.
翻訳日:2023-08-15 17:14:24 公開日:2023-08-12
# gpt-4は賢すぎて安全ではない: 暗号によるllmsとの密接なチャット

GPT-4 Is Too Smart To Be Safe: Stealthy Chat with LLMs via Cipher ( http://arxiv.org/abs/2308.06463v1 )

ライセンス: Link先を確認
Youliang Yuan, Wenxiang Jiao, Wenxuan Wang, Jen-tse Huang, Pinjia He, Shuming Shi and Zhaopeng Tu(参考訳) 安全性は、LLM(Large Language Models)の開発の中心にある。 プレトレーニングにおけるデータフィルタリング,教師付き微調整,人的フィードバックからの強化学習,レッドチームなど,LLMを人間の倫理や嗜好と整合させる作業が数多く行われている。 本研究では,主に自然言語で行われているllmの安全性アライメント手法を,暗号によるチャットが回避できることを示す。 非自然言語への安全性アライメントの一般化を体系的に検討するために,cipherchat という新しいフレームワークを提案する。 CipherChatは,システムロール記述と数発の暗号化デモを備えた暗号プロンプトを通じて,LLMとチャットすることを可能にする。 我々はCipherChatを用いて、ChatGPTやGPT-4を含む最先端のLCMを、英語と中国語の11の安全領域にわたる異なる代表的人間の暗号に対して評価する。 実験の結果,いくつかの安全領域において,GPT-4の安全性アライメントを回避し,非自然言語に対する安全性アライメントを開発する必要性が示された。 特に,LLMには「秘密暗号」が備わっていると認識し,ロールプレイのみを用いた新しい自己暗号を提案し,自然言語によるいくつかの実演によってこれを誘発する。 SelfCipherは、ほとんどすべてのケースで、既存の人間の暗号よりも驚くほど優れています。 コードとデータはhttps://github.com/RobustNLP/CipherChat.comで公開されます。

Safety lies at the core of the development of Large Language Models (LLMs). There is ample work on aligning LLMs with human ethics and preferences, including data filtering in pretraining, supervised fine-tuning, reinforcement learning from human feedback, and red teaming, etc. In this study, we discover that chat in cipher can bypass the safety alignment techniques of LLMs, which are mainly conducted in natural languages. We propose a novel framework CipherChat to systematically examine the generalizability of safety alignment to non-natural languages -- ciphers. CipherChat enables humans to chat with LLMs through cipher prompts topped with system role descriptions and few-shot enciphered demonstrations. We use CipherChat to assess state-of-the-art LLMs, including ChatGPT and GPT-4 for different representative human ciphers across 11 safety domains in both English and Chinese. Experimental results show that certain ciphers succeed almost 100% of the time to bypass the safety alignment of GPT-4 in several safety domains, demonstrating the necessity of developing safety alignment for non-natural languages. Notably, we identify that LLMs seem to have a ''secret cipher'', and propose a novel SelfCipher that uses only role play and several demonstrations in natural language to evoke this capability. SelfCipher surprisingly outperforms existing human ciphers in almost all cases. Our code and data will be released at https://github.com/RobustNLP/CipherChat.
翻訳日:2023-08-15 17:14:01 公開日:2023-08-12
# text-to-video:ゼロショットのアイデンティティ非依存な会話ヘッド生成のための2段階フレームワーク

Text-to-Video: a Two-stage Framework for Zero-shot Identity-agnostic Talking-head Generation ( http://arxiv.org/abs/2308.06457v1 )

ライセンス: Link先を確認
Zhichao Wang, Mengyu Dai, Keld Lundgaard(参考訳) ChatGPTの出現により、情報収集と分析のための革新的な手法が導入された。 しかし、ChatGPTが提供する情報はテキストに限られており、この情報の可視化には制約がある。 これまでの研究は、テキストをビデオに変換するためのゼロショットテキスト・トゥ・ビデオ(ttv)アプローチを探求してきた。 しかし、これらの手法は生成した音声の同一性、すなわちアイデンティティに依存しないものではなく、その効果を妨げていた。 この制限に対処するために、特にTTV生成に焦点を当てた、個人非依存のビデオクローンのための新しい2段階フレームワークを提案する。 第1段階では,事前学習したゼロショットモデルを利用してtts(text-to-speech)変換を行う。 第2段では、第1段で生成された音声を主とする説得力のあるビデオを生成するために、音声駆動の音声ヘッド生成方法が用いられる。 本稿では,ttsと音声駆動音声ヘッド生成手法の比較分析を行い,今後の研究開発に最も有望なアプローチを明らかにする。 オーディオとビデオのサンプルは以下のリンクで見ることができる。

The advent of ChatGPT has introduced innovative methods for information gathering and analysis. However, the information provided by ChatGPT is limited to text, and the visualization of this information remains constrained. Previous research has explored zero-shot text-to-video (TTV) approaches to transform text into videos. However, these methods lacked control over the identity of the generated audio, i.e., not identity-agnostic, hindering their effectiveness. To address this limitation, we propose a novel two-stage framework for person-agnostic video cloning, specifically focusing on TTV generation. In the first stage, we leverage pretrained zero-shot models to achieve text-to-speech (TTS) conversion. In the second stage, an audio-driven talking head generation method is employed to produce compelling videos privided the audio generated in the first stage. This paper presents a comparative analysis of different TTS and audio-driven talking head generation methods, identifying the most promising approach for future research and development. Some audio and videos samples can be found in the following link: https://github.com/ZhichaoWang970201/Text-to-Video/tree/main.
翻訳日:2023-08-15 17:13:33 公開日:2023-08-12
# 機械読解による生体医学的実体認識の実証学習

Demonstration-based learning for few-shot biomedical named entity recognition under machine reading comprehension ( http://arxiv.org/abs/2308.06454v1 )

ライセンス: Link先を確認
Leilei Su, Jian Chen, Yifan Peng, Cong Sun(参考訳) ディープラーニング技術は大きな成果を上げてきたが、しばしば大量の手書きデータに依存し、数ショットのシナリオでは不十分に実行される傾向にある。 本研究の目的は, 数発学習のシナリオにおいて, 生体医学的実体を認識できるモデルの能力を向上させる戦略を考案することである。 バイオメディカルな名前付きエンティティ認識(BioNER)を機械読み取り理解(MRC)問題として再定義することにより、適切なタスクのデモンストレーションを構築することを含む、数発のBioNERに対処する実演ベースの学習手法を提案する。 提案手法の評価には,BC4CHEMD,BC5CDR-Chemical,BC5CDR-Disease,NCBI-Disease,BC2GM,JNLPBAの6つのベンチマークデータを用いた。 25発および50発の学習実験からf1得点を報告し,モデルの有効性を検討した。 25ショット学習では、ベースライン法と比較して平均F1スコアが1.1%改善し、61.7%、84.1%、69.1%、70.1%、50.6%、59.9%に達した。 50ショット学習では,ベースライン法に比べて平均F1スコアが1.0%向上し,73.1%,86.8%,76.1%,75.6%,61.7%,65.4%となった。 数ショット学習の分野では,MRCに基づく言語モデルは,シークエンスラベリングアプローチに比べて,生物医学的実体の認識に優れていた。 さらに, MRC言語モデルは, 豊富な注釈付きデータの可用性に大きく依存する, 完全に教師付き学習手法とうまく競合することができる。 これらの結果は,BioNER法における今後の進歩の道筋を浮き彫りにした。

Although deep learning techniques have shown significant achievements, they frequently depend on extensive amounts of hand-labeled data and tend to perform inadequately in few-shot scenarios. The objective of this study is to devise a strategy that can improve the model's capability to recognize biomedical entities in scenarios of few-shot learning. By redefining biomedical named entity recognition (BioNER) as a machine reading comprehension (MRC) problem, we propose a demonstration-based learning method to address few-shot BioNER, which involves constructing appropriate task demonstrations. In assessing our proposed method, we compared the proposed method with existing advanced methods using six benchmark datasets, including BC4CHEMD, BC5CDR-Chemical, BC5CDR-Disease, NCBI-Disease, BC2GM, and JNLPBA. We examined the models' efficacy by reporting F1 scores from both the 25-shot and 50-shot learning experiments. In 25-shot learning, we observed 1.1% improvements in the average F1 scores compared to the baseline method, reaching 61.7%, 84.1%, 69.1%, 70.1%, 50.6%, and 59.9% on six datasets, respectively. In 50-shot learning, we further improved the average F1 scores by 1.0% compared to the baseline method, reaching 73.1%, 86.8%, 76.1%, 75.6%, 61.7%, and 65.4%, respectively. We reported that in the realm of few-shot learning BioNER, MRC-based language models are much more proficient in recognizing biomedical entities compared to the sequence labeling approach. Furthermore, our MRC-language models can compete successfully with fully-supervised learning methodologies that rely heavily on the availability of abundant annotated data. These results highlight possible pathways for future advancements in few-shot BioNER methodologies.
翻訳日:2023-08-15 17:13:15 公開日:2023-08-12
# マルチラベル知識蒸留

Multi-Label Knowledge Distillation ( http://arxiv.org/abs/2308.06453v1 )

ライセンス: Link先を確認
Penghui Yang, Ming-Kun Xie, Chen-Chen Zong, Lei Feng, Gang Niu, Masashi Sugiyama, Sheng-Jun Huang(参考訳) 既存の知識蒸留法は、通常、教師ネットワークから生徒ネットワークへの出力ロジットや中間的特徴マップの知識を付与することで機能する。 しかし、これらの手法は、各インスタンスが複数のセマンティックラベルに関連付けられているマルチラベル学習シナリオに拡張することは困難である。 本稿では,新しい多ラベル知識蒸留法を提案する。 一方、マルチラベル学習問題をバイナリ分類問題に分割することで、ロジットからの情報的意味知識を活用でき、一方、ラベルワイド埋め込みの構造情報を活用することにより、学習した特徴表現の識別性を高めることができる。 複数のベンチマークデータセットにおける実験結果は,提案手法がラベル間の知識の反作用を回避できることを確認した。 私たちのコードは、https://github.com/penghui-yang/L2Dで利用可能です。

Existing knowledge distillation methods typically work by imparting the knowledge of output logits or intermediate feature maps from the teacher network to the student network, which is very successful in multi-class single-label learning. However, these methods can hardly be extended to the multi-label learning scenario, where each instance is associated with multiple semantic labels, because the prediction probabilities do not sum to one and feature maps of the whole example may ignore minor classes in such a scenario. In this paper, we propose a novel multi-label knowledge distillation method. On one hand, it exploits the informative semantic knowledge from the logits by dividing the multi-label learning problem into a set of binary classification problems; on the other hand, it enhances the distinctiveness of the learned feature representations by leveraging the structural information of label-wise embeddings. Experimental results on multiple benchmark datasets validate that the proposed method can avoid knowledge counteraction among labels, thus achieving superior performance against diverse comparing methods. Our code is available at: https://github.com/penghui-yang/L2D
翻訳日:2023-08-15 17:12:39 公開日:2023-08-12
# セキュリティ検査画像におけるYOLOv8検出アルゴリズムの改良

Improved YOLOv8 Detection Algorithm in Security Inspection Image ( http://arxiv.org/abs/2308.06452v1 )

ライセンス: Link先を確認
Liyao Lu(参考訳) セキュリティ検査は、人々の生活と財産の安全を確保するための最初の防衛線であり、インテリジェントセキュリティ検査は、セキュリティ検査産業の将来の発展において避けられないトレンドである。 YOLOv8sに基づくX線コントラバンド検出アルゴリズムであるCSS-YOLOを提案する。

Security inspection is the first line of defense to ensure the safety of people's lives and property, and intelligent security inspection is an inevitable trend in the future development of the security inspection industry. Aiming at the problems of overlapping detection objects, false detection of contraband, and missed detection in the process of X-ray image detection, an improved X-ray contraband detection algorithm CSS-YOLO based on YOLOv8s is proposed.
翻訳日:2023-08-15 17:12:21 公開日:2023-08-12
# 意味的同変混合

Semantic Equivariant Mixup ( http://arxiv.org/abs/2308.06451v1 )

ライセンス: Link先を確認
Zongbo Han, Tianchi Xie, Bingzhe Wu, Qinghua Hu, Changqing Zhang(参考訳) Mixupは、ラベル等価性の仮定に基づいて'mixed'サンプルを作成することにより、トレーニング分布を拡張し、ニューラルネットワークを規則化する、よく確立されたデータ拡張技術である。 しかし、以前のmixup変種はトレーニング中に混合サンプルのラベルに依存しない情報を活用できず、通常はより豊かな意味情報を含んでいる。 混合のパワーを更に解放するため,我々は,まず,入力データの比例混合によって対応する表現が同じ割合で混合されるべきであるという意味同分散仮定により,先行するラベル同分散仮定を改善する。 次に、表現レベルでのジェネリックなミックスアップ正規化を提案し、混合サンプルのセマンティック情報によりモデルをさらに正規化する。 高いレベルでは、提案された意味的同変混合(sem)は、入力データの構造を表現空間に保存することを奨励する。 提案手法は,ラベル関連情報に過度に注目する傾向のある従来のミックスアップ変種とは異なり,よりリッチな意味情報を意味同分散仮定で入力に保存し,分散シフトに対するモデルのロバスト性を向上させることを目的としている。 提案手法の有効性を実証するために,広範な実験研究と質的分析を行った。 写本のコードは補遺されている。

Mixup is a well-established data augmentation technique, which can extend the training distribution and regularize the neural networks by creating ''mixed'' samples based on the label-equivariance assumption, i.e., a proportional mixup of the input data results in the corresponding labels being mixed in the same proportion. However, previous mixup variants may fail to exploit the label-independent information in mixed samples during training, which usually contains richer semantic information. To further release the power of mixup, we first improve the previous label-equivariance assumption by the semantic-equivariance assumption, which states that the proportional mixup of the input data should lead to the corresponding representation being mixed in the same proportion. Then a generic mixup regularization at the representation level is proposed, which can further regularize the model with the semantic information in mixed samples. At a high level, the proposed semantic equivariant mixup (sem) encourages the structure of the input data to be preserved in the representation space, i.e., the change of input will result in the obtained representation information changing in the same way. Different from previous mixup variants, which tend to over-focus on the label-related information, the proposed method aims to preserve richer semantic information in the input with semantic-equivariance assumption, thereby improving the robustness of the model against distribution shifts. We conduct extensive empirical studies and qualitative analyzes to demonstrate the effectiveness of our proposed method. The code of the manuscript is in the supplement.
翻訳日:2023-08-15 17:12:11 公開日:2023-08-12
# 単純なモデルも機能する: カリキュラム学習戦略に基づくテキスト会話における新しい感情認識ネットワーク

Simple Model Also Works: A Novel Emotion Recognition Network in Textual Conversation Based on Curriculum Learning Strategy ( http://arxiv.org/abs/2308.06450v1 )

ライセンス: Link先を確認
Jiang Li, Xiaoping Wang, Yingjian Liu, Qing Zhou, Zhigang Zeng(参考訳) 会話における感情認識(erc)は、会話型ロボットや質問応答システムといった分野における研究のホットスポットとして登場した。 文脈的感情的な手がかりを効果的かつ適切に回収する方法は、ERCタスクにおける重要な課題の1つです。 既存の作業は、コンテキストを完全にモデル化せず、複雑なネットワーク構造を採用しており、性能が大幅に向上することなく、計算リソースのオーバーヘッドが過大になる。 本稿では,カリキュラム学習戦略(ERNetCL)に基づく新しい感情認識ネットワークを提案する。 提案するERNetCLは主に時間エンコーダ(TE)、空間エンコーダ(SE)、カリキュラム学習(CL)の損失からなる。 TEとSEを用いて、従来の手法の強みを簡易に組み合わせ、会話における時間的・空間的な情報を効率的に捉える。 人間がカリキュラムを簡単から困難に学習する方法をシミュレートするために、clのアイデアをercタスクに適用し、ernetclのネットワークパラメータを段階的に最適化する。 トレーニング開始時に,難解なサンプルに低い学習重みを割り当てる。 時代が進むにつれて、これらのサンプルの学習重量は徐々に上昇する。 4つのデータセットに関する広範囲な実験により,提案手法が有効であることを示し,他のベースラインモデルと劇的に比較した。

Emotion Recognition in Conversation (ERC) has emerged as a research hotspot in domains such as conversational robots and question-answer systems. How to efficiently and adequately retrieve contextual emotional cues has been one of the key challenges in the ERC task. Existing efforts do not fully model the context and employ complex network structures, resulting in excessive computational resource overhead without substantial performance improvement. In this paper, we propose a novel Emotion Recognition Network based on Curriculum Learning strategy (ERNetCL). The proposed ERNetCL primarily consists of Temporal Encoder (TE), Spatial Encoder (SE), and Curriculum Learning (CL) loss. We utilize TE and SE to combine the strengths of previous methods in a simplistic manner to efficiently capture temporal and spatial contextual information in the conversation. To simulate the way humans learn curriculum from easy to hard, we apply the idea of CL to the ERC task to progressively optimize the network parameters of ERNetCL. At the beginning of training, we assign lower learning weights to difficult samples. As the epoch increases, the learning weights for these samples are gradually raised. Extensive experiments on four datasets exhibit that our proposed method is effective and dramatically beats other baseline models.
翻訳日:2023-08-15 17:11:45 公開日:2023-08-12
# 人-ロボットインタラクションのための潜在発光増進パースペクティブタイキング(LEAPT)

Latent Emission-Augmented Perspective-Taking (LEAPT) for Human-Robot Interaction ( http://arxiv.org/abs/2308.06498v1 )

ライセンス: Link先を確認
Kaiqi Chen, Jing Yu Lim, Kingsley Kuan, Harold Soh(参考訳) パースペクティブテイク(英: Perspective-take)とは、他者の視点から状況や概念を知覚または理解する能力であり、日々の人間との相互作用において重要である。 決定論的あるいは手作りの手法を用いた既存のアプローチでは、部分的に観察可能な設定で不確実性を正確に説明できない。 本研究は、ロボットが知覚と概念の両方の視点を取ることを可能にする深世界モデルを通じて、この制限に対処することを提案する。 鍵となるイノベーションは、架空の観察/放出を生成・増強できる分解されたマルチモーダル潜在状態空間モデルである。 この確率的グラフィカルモデルから生じるエルボの最適化は、潜在空間における不確かさの学習を可能にし、高次元観測からの不確実性推定を容易にする。 我々は,3つの部分観測可能なHRIタスクにおいて,人間の観察と信念を予測するために,モデルを実行した。 実験により,本手法は既存のベースラインを著しく上回り,他のエージェントとその内的信念の視覚的観察を推し進めることができた。

Perspective-taking is the ability to perceive or understand a situation or concept from another individual's point of view, and is crucial in daily human interactions. Enabling robots to perform perspective-taking remains an unsolved problem; existing approaches that use deterministic or handcrafted methods are unable to accurately account for uncertainty in partially-observable settings. This work proposes to address this limitation via a deep world model that enables a robot to perform both perception and conceptual perspective taking, i.e., the robot is able to infer what a human sees and believes. The key innovation is a decomposed multi-modal latent state space model able to generate and augment fictitious observations/emissions. Optimizing the ELBO that arises from this probabilistic graphical model enables the learning of uncertainty in latent space, which facilitates uncertainty estimation from high-dimensional observations. We tasked our model to predict human observations and beliefs on three partially-observable HRI tasks. Experiments show that our method significantly outperforms existing baselines and is able to infer visual observations available to other agent and their internal beliefs.
翻訳日:2023-08-15 17:04:48 公開日:2023-08-12
# 無線ネットワーク上での資源制約付き分散フェデレーション学習の性能解析

Performance Analysis for Resource Constrained Decentralized Federated Learning Over Wireless Networks ( http://arxiv.org/abs/2308.06496v1 )

ライセンス: Link先を確認
Zhigang Yan and Dong Li(参考訳) フェデレートラーニング(FL)は、通信オーバーヘッドと中央サーバへの依存を著しく引き起こす可能性がある。 これらの課題に対処するため、よりレジリエントなフレームワークとして分散連合学習(DFL)が提案されている。 DFLは無線ネットワークを介してデバイス間でパラメータ交換を行う。 本研究では,無線ネットワーク上の異なる通信方式(ディジタルおよびアナログ)を用いて,資源制約付きdflの性能を分析し,通信効率を最適化する。 具体的には、デジタル伝送とアナログ伝送の両方に収束境界を提供し、DFLで訓練されたモデル性能の解析を可能にする。 さらに,ディジタルトランスミッションでは,計算量と通信量と収束率のリソース割当を調査し分析し,その通信複雑性と収束保証に必要な補正通信の最小確率を求める。 アナログ伝送では,チャネルフェーディングとノイズがモデル性能に及ぼす影響と,フェーディングチャネル上の収束保証を伴う最大誤差の蓄積について検討する。 最後に、DFLフレームワークで訓練された畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)のファッションMNISTおよびCIFAR-10データセットの性能と収束率を評価する数値シミュレーションを行う。 シミュレーションの結果から,異なる通信条件下でのシステムパラメータの最適化による性能向上の方法が明らかになった。

Federated learning (FL) can lead to significant communication overhead and reliance on a central server. To address these challenges, decentralized federated learning (DFL) has been proposed as a more resilient framework. DFL involves parameter exchange between devices through a wireless network. This study analyzes the performance of resource-constrained DFL using different communication schemes (digital and analog) over wireless networks to optimize communication efficiency. Specifically, we provide convergence bounds for both digital and analog transmission approaches, enabling analysis of the model performance trained on DFL. Furthermore, for digital transmission, we investigate and analyze resource allocation between computation and communication and convergence rates, obtaining its communication complexity and the minimum probability of correction communication required for convergence guarantee. For analog transmission, we discuss the impact of channel fading and noise on the model performance and the maximum errors accumulation with convergence guarantee over fading channels. Finally, we conduct numerical simulations to evaluate the performance and convergence rate of convolutional neural networks (CNNs) and Vision Transformer (ViT) trained in the DFL framework on fashion-MNIST and CIFAR-10 datasets. Our simulation results validate our analysis and discussion, revealing how to improve performance by optimizing system parameters under different communication conditions.
翻訳日:2023-08-15 17:04:27 公開日:2023-08-12
# egoposer: 大きなシーンでロバストなリアルタイム ego-body ポーズ推定

EgoPoser: Robust Real-Time Ego-Body Pose Estimation in Large Scenes ( http://arxiv.org/abs/2308.06493v1 )

ライセンス: Link先を確認
Jiaxi Jiang, Paul Streli, Manuel Meier, Andreas Fender, Christian Holz(参考訳) 頭と手のポーズだけでの全身のエゴポス推定は、ヘッドセットベースのプラットフォーム上でアバター表現を明瞭に表現する研究の活発な分野となっている。 しかし、既存の手法は、データセットが記録されたモーションキャプチャ空間の閉じ込めを過度に考慮し、同時に関節運動と一様体次元の連続的な捕獲を仮定する。 本稿では,これらの制限を克服するEgoPoserを提案する。 1)ヘッドセットを用いたエゴポーズ推定のための入力表現の再検討と,グローバルな位置に依存しない全身姿勢を予測する新しい動き分解法の導入 2)ヘッドセットの視野内でのみ、間欠的な手の位置と方向追跡から体ポーズを頑健にモデル化し、 3) 異なるユーザに対して,様々なボディサイズを一般化する。 実験の結果,egoposerは600fps以上の高い推定速度を維持しつつ,定性的かつ定量的に最先端の手法を上回ることがわかった。 egoposerは、フルボディのポーズ推定がもはや外部からのキャプチャに依存しず、大規模な環境にスケールできるような、将来の作業のための堅牢なベースラインを確立する。

Full-body ego-pose estimation from head and hand poses alone has become an active area of research to power articulate avatar representation on headset-based platforms. However, existing methods over-rely on the confines of the motion-capture spaces in which datasets were recorded, while simultaneously assuming continuous capture of joint motions and uniform body dimensions. In this paper, we propose EgoPoser, which overcomes these limitations by 1) rethinking the input representation for headset-based ego-pose estimation and introducing a novel motion decomposition method that predicts full-body pose independent of global positions, 2) robustly modeling body pose from intermittent hand position and orientation tracking only when inside a headset's field of view, and 3) generalizing across various body sizes for different users. Our experiments show that EgoPoser outperforms state-of-the-art methods both qualitatively and quantitatively, while maintaining a high inference speed of over 600 fps. EgoPoser establishes a robust baseline for future work, where full-body pose estimation needs no longer rely on outside-in capture and can scale to large-scene environments.
翻訳日:2023-08-15 17:04:04 公開日:2023-08-12
# ポテンシャルエネルギー関数の時間発展演算子設計のための量子ハミルトン符号化フレームワークの提案

A Proposed Quantum Hamiltonian Encoding Framework for Time Evolution Operator Design of Potential Energy Function ( http://arxiv.org/abs/2308.06491v1 )

ライセンス: Link先を確認
Mostafizur Rahaman Laskar, Kalyan Dasgupta, Atanu Bhattacharya(参考訳) 量子系におけるポテンシャルエネルギー作用素の探索は、原子の振る舞いに関する深い洞察を提供し、相互作用を定義し、分子動力学の正確な予測を可能にする。 ボルン-オッペンハイマー像を取り入れることで、ポテンシャルエネルギーによる複雑な量子進化を探究し、量子忠実性が向上した原子現象の正確なモデリングとシミュレーションを容易にする。 この研究は、量子化学と凝縮物質物理学にまたがる応用のためのポテンシャルエネルギー関数による時間進化の操作について検討する。 次元性の恐ろしい呪いと複雑な絡み合った相互作用を包含した実践的実践の課題を慎重に検討する。 本研究は,2つのアルゴリズムによるエネルギー景観の包括的調査のための強固な基盤を構築した。 1つの方法論では、ポテンシャルエネルギーに対応するユニタリ時間発展演算子を構築することができるパウリZ、アイデンティティ、RZゲートの合成構成により、ポテンシャルエネルギー関数をアダマール基底に体系的に分解することを示した。 もう1つの方法は複雑性と忠実性の間のトレードオフであり、そこではゲートの複雑さを {\theta}(2n) から {\theta}(ncr ) (ある r < n) まで低減できる新しい量子フレームワークを提案する。 提案する量子アルゴリズムは、ポテンシャルエネルギー演算子を効率的にシミュレートすることができる。 アルゴリズムはシミュレータとIBM量子ハードウェアで実装され、その有効性を証明する。

The exploration of potential energy operators in quantum systems holds paramount significance, offering profound insights into atomic behaviour, defining interactions, and enabling precise prediction of molecular dynamics. By embracing the Born-Oppenheimer picture, we delve into the intricate quantum evolution due to potential energy, facilitating accurate modelling and simulation of atomic phenomena with improved quantum fidelity. This research delves into time evolution operation due to potential energy functions for applications spanning quantum chemistry and condensed matter physics. Challenges in practical implementation, encompassing the formidable curse of dimensionality and intricate entangled interactions, are thoughtfully examined. Drawing upon seminal works, we lay a robust foundation for comprehensive investigations into potential energy landscapes with two proposed algorithms. In one methodology, we have shown a systematic decomposition of the potential energy function into Hadamard bases with composite construction of Pauli-Z, identity and RZ gates which can construct the unitary time evolution operator corresponding to the potential energy with a very high fidelity. The other method is a trade-off between complexity and fidelity, where we propose a novel quantum framework that can reduce the gate complexity from {\Theta}(2n) to {\Theta}(nCr ) (for some r < n). The proposed quantum algorithms are capable of efficiently simulating potential energy operators. The algorithms were implemented in simulators and IBM quantum hardware to prove their efficacy
翻訳日:2023-08-15 17:03:44 公開日:2023-08-12
# 雑音参照テキストを用いた知識グラフからの忠実テキスト生成

Generating Faithful Text From a Knowledge Graph with Noisy Reference Text ( http://arxiv.org/abs/2308.06488v1 )

ライセンス: Link先を確認
Tahsina Hashem, Weiqing Wang, Derry Tanti Wijaya, Mohammed Eunus Ali, Yuan-Fang Li(参考訳) 知識グラフ(kg)からテキストへの生成は、与えられた知識グラフの情報を正確に表現する流れる自然言語テキストを生成することを目的としている。 事前学習された言語モデル(plm)のパワーを適切なグラフ構造認識モジュールで活用することで、このタスクでは大きな進歩がなされているが、既存のモデルは依然として忠実なテキストを生成するのに不足している。 本稿では,雑音のある参照テキストが存在する場合に,与えられたグラフから忠実な自然言語テキストを生成できる kg-to-text 生成モデルを開発した。 まず、コントラスト学習を利用して、テキスト内の忠実な情報と幻覚的な情報を区別するモデルの能力を高め、それによってデコーダが入力グラフに適合するテキストを生成するように促します。 第二に、制御可能なテキスト生成技術を用いて、デコーダに生成したテキストの幻覚レベルを制御する権限を与える。 標準定量的指標とchatgptに基づく定量的・質的分析により,モデルの性能を評価する。 本評価は,忠実度に関する最新KG-to-textモデルよりも優れた性能を示す。

Knowledge Graph (KG)-to-Text generation aims at generating fluent natural-language text that accurately represents the information of a given knowledge graph. While significant progress has been made in this task by exploiting the power of pre-trained language models (PLMs) with appropriate graph structure-aware modules, existing models still fall short of generating faithful text, especially when the ground-truth natural-language text contains additional information that is not present in the graph. In this paper, we develop a KG-to-text generation model that can generate faithful natural-language text from a given graph, in the presence of noisy reference text. Our framework incorporates two core ideas: Firstly, we utilize contrastive learning to enhance the model's ability to differentiate between faithful and hallucinated information in the text, thereby encouraging the decoder to generate text that aligns with the input graph. Secondly, we empower the decoder to control the level of hallucination in the generated text by employing a controllable text generation technique. We evaluate our model's performance through the standard quantitative metrics as well as a ChatGPT-based quantitative and qualitative analysis. Our evaluation demonstrates the superior performance of our model over state-of-the-art KG-to-text models on faithfulness.
翻訳日:2023-08-15 17:03:16 公開日:2023-08-12
# 前立腺癌病変検出のためのアウト・オブ・ディストリビューション多視点オートエンコーダ

Out-of-distribution multi-view auto-encoders for prostate cancer lesion detection ( http://arxiv.org/abs/2308.06481v1 )

ライセンス: Link先を確認
Alvaro Fernandez-Quilez, Linas Vidziunas, {\O}rjan Kl{\o}vfjell Thoresen, Ketil Oppedal, Svein Reidar Kjosavik, Trygve Eftest{\o}l(参考訳) 教師付き学習パラダイムに基づく従来のディープラーニング(DL)アプローチは、医療領域ではほとんど利用できない大量の注釈付きデータを必要とする。 Unsupervised Out-of-Distribution (OOD) 検出は、アノテーションの少ないデータを必要とする代替手段である。 さらに、OODの応用は、医学データに一般的に見られるクラス歪を悪用する。 MRIは前立腺癌(PCa)の診断と管理に有用であることが証明されているが、現在のDLアプローチはT2w軸MRIに依存している。 OODアプローチにおけるPCa病変検出の性能向上のために,異なるT2w方向に対応するマルチストリーム手法を提案する。 提案手法を公開データセット上で評価し,単一方向アプローチ(73.1 vs 82.3)と比較して,AUCによる検出精度が向上した。 以上の結果より,MRIによるPCa病変検出におけるOODの有用性が示唆された。

Traditional deep learning (DL) approaches based on supervised learning paradigms require large amounts of annotated data that are rarely available in the medical domain. Unsupervised Out-of-distribution (OOD) detection is an alternative that requires less annotated data. Further, OOD applications exploit the class skewness commonly present in medical data. Magnetic resonance imaging (MRI) has proven to be useful for prostate cancer (PCa) diagnosis and management, but current DL approaches rely on T2w axial MRI, which suffers from low out-of-plane resolution. We propose a multi-stream approach to accommodate different T2w directions to improve the performance of PCa lesion detection in an OOD approach. We evaluate our approach on a publicly available data-set, obtaining better detection results in terms of AUC when compared to a single direction approach (73.1 vs 82.3). Our results show the potential of OOD approaches for PCa lesion detection based on MRI.
翻訳日:2023-08-15 17:02:55 公開日:2023-08-12
# 前立腺mriセグメンテーションにおけるアノテーションなしのマルチビューデータ活用 : 対比的アプローチ

Leveraging multi-view data without annotations for prostate MRI segmentation: A contrastive approach ( http://arxiv.org/abs/2308.06477v1 )

ライセンス: Link先を確認
Tim Nikolass Lindeijer, Tord Martin Ytredal, Trygve Eftest{\o}l, Tobias Nordstr\"om, Fredrik J\"aderling, Martin Eklund and Alvaro Fernandez-Quilez(参考訳) 正確な前立腺郭清と量的特徴付けは、前立腺癌の臨床的評価を支援することができる。 多視点データの取得プロトコルとして利用可能なにもかかわらず、多数の自動前立腺分割ツールは、軸方向のMRI方向のみを考慮に入れている。 さらに、マルチビューデータを利用する場合、すべてのビューに対する手動アノテーションとテスト時の可用性が一般的に仮定される。 本研究では,アノテーションを使わずにマルチビューデータを活用するためのトレーニング時の対比的アプローチを検討し,ビュー不足時にデプロイ時に柔軟性を提供する。 U-Net, tU-Net (triplet U-Net) に基づくトリプルトエンコーダとシングルデコーダネットワークを提案する。 提案するアーキテクチャは,音量的観点からのセグメンテーション改善のためのコントラスト学習を通じて,非注釈的矢状およびコロナビューを活用できる。 そこで我々は,潜在空間におけるビュー間類似性の概念を導入する。 トレーニングを指導するために、軸方向のビューと手動のアノテーションに対して計算されたサイススコアの損失と、マルチビューのコントラッシブ・ロスとを組み合わせる。 tU-Netは、軸方向(86.40+-1.50%、P<.001)のみに対するダイススコア係数(DSC)の統計的改善を示す。 感度分析は、tU-Netと組み合わせた場合の対向損失の体積的正の影響(3.81+-1.88%,P<.001)を明らかにする。 さらに,マルチビューデータを用いた場合 (3.92+-3.31%,P=.002) に比較して2.76+-1.89%) , コントラスト学習による非アノテーション付きマルチビューデータの活用の可能性を示した。

An accurate prostate delineation and volume characterization can support the clinical assessment of prostate cancer. A large amount of automatic prostate segmentation tools consider exclusively the axial MRI direction in spite of the availability as per acquisition protocols of multi-view data. Further, when multi-view data is exploited, manual annotations and availability at test time for all the views is commonly assumed. In this work, we explore a contrastive approach at training time to leverage multi-view data without annotations and provide flexibility at deployment time in the event of missing views. We propose a triplet encoder and single decoder network based on U-Net, tU-Net (triplet U-Net). Our proposed architecture is able to exploit non-annotated sagittal and coronal views via contrastive learning to improve the segmentation from a volumetric perspective. For that purpose, we introduce the concept of inter-view similarity in the latent space. To guide the training, we combine a dice score loss calculated with respect to the axial view and its manual annotations together with a multi-view contrastive loss. tU-Net shows statistical improvement in dice score coefficient (DSC) with respect to only axial view (91.25+-0.52% compared to 86.40+-1.50%,P<.001). Sensitivity analysis reveals the volumetric positive impact of the contrastive loss when paired with tU-Net (2.85+-1.34% compared to 3.81+-1.88%,P<.001). Further, our approach shows good external volumetric generalization in an in-house dataset when tested with multi-view data (2.76+-1.89% compared to 3.92+-3.31%,P=.002), showing the feasibility of exploiting non-annotated multi-view data through contrastive learning whilst providing flexibility at deployment in the event of missing views.
翻訳日:2023-08-15 17:02:40 公開日:2023-08-12
# 均一な音声テキスト埋め込みに基づくフレキシブルキーワードスポッティング

Flexible Keyword Spotting based on Homogeneous Audio-Text Embedding ( http://arxiv.org/abs/2308.06472v1 )

ライセンス: Link先を確認
Kumari Nishu, Minsik Cho, Paul Dixon, Devang Naik(参考訳) テキストで表されるユーザ定義/フレキシブルなキーワードのスポッティングは、埋め込み空間におけるオーディオエンコーダとの共同解析に高価なテキストエンコーダを頻繁に使用し、不均一なモダリティ表現(すなわち大きなミスマッチ)と複雑さの増大に悩まされる。 そこで本研究では,オーディオエンコーダに対して,音声エンコーダと等価な表現を持つ音声エンコーダに基づいて,任意のキーワードを効率的に検出する新しいアーキテクチャを提案する。 テキストエンコーダは、grapheme-to-phoneme(g2p)モデルを用いてテキストを音素に変換し、リッチ音声データセット上でペア音声エンコーダから抽出した代表音素ベクトルを用いて埋め込みを行う。 また,この手法をさらに拡張し,強力な識別能力を有する音声テキスト埋め込み検証器を開発する。 実験結果から,この手法はリブリフラーゼ硬度データセットの最先端結果,ROC曲線(AUC)の面積が84.21%から92.7%に増加し,EER(Equal-Error-Rate)の面積が23.36%から14.4%に減少した。

Spotting user-defined/flexible keywords represented in text frequently uses an expensive text encoder for joint analysis with an audio encoder in an embedding space, which can suffer from heterogeneous modality representation (i.e., large mismatch) and increased complexity. In this work, we propose a novel architecture to efficiently detect arbitrary keywords based on an audio-compliant text encoder which inherently has homogeneous representation with audio embedding, and it is also much smaller than a compatible text encoder. Our text encoder converts the text to phonemes using a grapheme-to-phoneme (G2P) model, and then to an embedding using representative phoneme vectors, extracted from the paired audio encoder on rich speech datasets. We further augment our method with confusable keyword generation to develop an audio-text embedding verifier with strong discriminative power. Experimental results show that our scheme outperforms the state-of-the-art results on Libriphrase hard dataset, increasing Area Under the ROC Curve (AUC) metric from 84.21% to 92.7% and reducing Equal-Error-Rate (EER) metric from 23.36% to 14.4%.
翻訳日:2023-08-15 17:02:07 公開日:2023-08-12
# 森林破壊モデルへのボルテラアクセント付き非線形動的アクセタンス(vanya)--アマゾン熱帯雨林の例

Volterra Accentuated Non-Linear Dynamical Admittance (VANYA) to model Deforestation: An Exemplification from the Amazon Rainforest ( http://arxiv.org/abs/2308.06471v1 )

ライセンス: Link先を確認
Karthik R., and Ramamoorthy A.(参考訳) 最近の技術進歩により、インテリジェントオートメーションはサイクロン、干ばつ、地震イベントに対して私たちをサポートする。 アルゴリズム学習には、神経科学、遺伝学、人間とコンピュータの相互作用といった高度な分野がある。 時系列データは進歩を促進する。 これらのアプローチを従来の分野で採用する上での課題は継続する。 ニューラルネットワークは理解とバイアスの問題に直面している。 aiの科学分野への拡大は、適応可能な記述子と組合せ論によるものだ。 本稿では,プレディエーター・ダイナミクスを取り入れたVANYAモデルを用いて森林の損失をモデル化することに焦点を当てる。 VANYAは、Amazon Rainforestのデータに基づいて、Long Short-Term Memory、N-BEATS、RCNといった他の予測ツールに対して、森林被覆を予測する。

Intelligent automation supports us against cyclones, droughts, and seismic events with recent technology advancements. Algorithmic learning has advanced fields like neuroscience, genetics, and human-computer interaction. Time-series data boosts progress. Challenges persist in adopting these approaches in traditional fields. Neural networks face comprehension and bias issues. AI's expansion across scientific areas is due to adaptable descriptors and combinatorial argumentation. This article focuses on modeling Forest loss using the VANYA Model, incorporating Prey Predator Dynamics. VANYA predicts forest cover, demonstrated on Amazon Rainforest data against other forecasters like Long Short-Term Memory, N-BEATS, RCN.
翻訳日:2023-08-15 17:01:41 公開日:2023-08-12
# エッジ検出一般化のためのTinyとEfficientモデル

Tiny and Efficient Model for the Edge Detection Generalization ( http://arxiv.org/abs/2308.06468v1 )

ライセンス: Link先を確認
Xavier Soria, Yachuan Li, Mohammad Rouhani and Angel D. Sappa(参考訳) ほとんどのハイレベルコンピュータビジョンタスクは、初期プロセスとして低レベルイメージ操作に依存している。 エッジ検出、画像強調、スーパーレゾリューションなどの操作は、より高いレベルの画像分析の基礎を提供する。 本研究は,現在最先端(SOTA)エッジ検出モデルが複雑化して精度が向上しているため,3つの主な目的 – 単純性,効率性,一般化 – を考慮したエッジ検出に対処する。 これを実現するために、Tiny and Efficient Edge Detector (TEED)を提案する。これは580K$パラメータしか持たない、最先端モデルの0.2$%未満の軽量畳み込みニューラルネットワークである。 BIPEDデータセットのトレーニングには30分以上かかり、各エポックは5分未満である。 提案したモデルは訓練が容易で,予測されたエッジマップはクオリティが高く,初期のごく一部のエポック内に急速に収束する。 さらに,エッジ検出と画像セグメンテーションに使用される人気画像のサンプルを含む,エッジ検出の一般化をテストする新しいデータセットを提案する。 ソースコードはhttps://github.com/xavysp/teedで入手できる。

Most high-level computer vision tasks rely on low-level image operations as their initial processes. Operations such as edge detection, image enhancement, and super-resolution, provide the foundations for higher level image analysis. In this work we address the edge detection considering three main objectives: simplicity, efficiency, and generalization since current state-of-the-art (SOTA) edge detection models are increased in complexity for better accuracy. To achieve this, we present Tiny and Efficient Edge Detector (TEED), a light convolutional neural network with only $58K$ parameters, less than $0.2$% of the state-of-the-art models. Training on the BIPED dataset takes $less than 30 minutes$, with each epoch requiring $less than 5 minutes$. Our proposed model is easy to train and it quickly converges within very first few epochs, while the predicted edge-maps are crisp and of high quality. Additionally, we propose a new dataset to test the generalization of edge detection, which comprises samples from popular images used in edge detection and image segmentation. The source code is available in https://github.com/xavysp/TEED.
翻訳日:2023-08-15 17:01:21 公開日:2023-08-12
# BEV-DG:3次元セマンティックセグメンテーションの領域一般化に向けた鳥の視点によるクロスモーダル学習

BEV-DG: Cross-Modal Learning under Bird's-Eye View for Domain Generalization of 3D Semantic Segmentation ( http://arxiv.org/abs/2308.06530v1 )

ライセンス: Link先を確認
Miaoyu Li, Yachao Zhang, Xu MA, Yanyun Qu, Yun Fu(参考訳) クロスモーダルなUnsupervised Domain Adaptation (UDA)は、新しいドメインにおけるアノテーションの欠如を克服するために、2D-3Dデータの相補性を活用することを目的としている。 しかし、UDAメソッドはトレーニング中にターゲットドメインへのアクセスに依存するため、トレーニングされたモデルは特定のターゲットドメインでのみ動作する。 そこで我々は,BEV-DGと呼ばれる3次元セマンティックセマンティックセグメンテーションの領域一般化(DG)に対する鳥眼ビューに基づくクロスモーダル学習を提案する。 DGは、トレーニング中にターゲットドメインにアクセスできないため、ドメインギャップを軽減するために、クロスモーダルな学習に頼る必要があるため、より難しい。 3次元意味セグメンテーションは各点の分類を必要とするため、既存のクロスモーダル学習は、画素と点の間の投影の誤りに敏感な点間直接実行される。 この目的のために,鳥眼視下でのクロスモーダル学習によるドメイン非関係表現モデリングの最適化を目指す。 本稿では,点レベルの不一致に対して高い耐障害性を有する鳥眼視下でのクロスモーダル学習を行うため,bevベースの領域間融合(baf)を提案する。 さらに,鳥眼視下でのクロスモーダル学習の助けを借りて,bdcl(bev-driven domain contrastive learning)を提案する。 我々は3つの3dデータセットに基づく3つのドメイン一般化設定を設計し、bev-dgはすべての設定において大きなマージンを持つ最先端の競合相手を大きく上回っている。

Cross-modal Unsupervised Domain Adaptation (UDA) aims to exploit the complementarity of 2D-3D data to overcome the lack of annotation in a new domain. However, UDA methods rely on access to the target domain during training, meaning the trained model only works in a specific target domain. In light of this, we propose cross-modal learning under bird's-eye view for Domain Generalization (DG) of 3D semantic segmentation, called BEV-DG. DG is more challenging because the model cannot access the target domain during training, meaning it needs to rely on cross-modal learning to alleviate the domain gap. Since 3D semantic segmentation requires the classification of each point, existing cross-modal learning is directly conducted point-to-point, which is sensitive to the misalignment in projections between pixels and points. To this end, our approach aims to optimize domain-irrelevant representation modeling with the aid of cross-modal learning under bird's-eye view. We propose BEV-based Area-to-area Fusion (BAF) to conduct cross-modal learning under bird's-eye view, which has a higher fault tolerance for point-level misalignment. Furthermore, to model domain-irrelevant representations, we propose BEV-driven Domain Contrastive Learning (BDCL) with the help of cross-modal learning under bird's-eye view. We design three domain generalization settings based on three 3D datasets, and BEV-DG significantly outperforms state-of-the-art competitors with tremendous margins in all settings.
翻訳日:2023-08-15 16:55:33 公開日:2023-08-12
# タスク分解による抽象的視覚的推論の学習:レイブン行列を事例として

Learning Abstract Visual Reasoning via Task Decomposition: A Case Study in Raven Progressive Matrices ( http://arxiv.org/abs/2308.06528v1 )

ライセンス: Link先を確認
Jakub Kwiatkowski and Krzysztof Krawiec(参考訳) 抽象的推論を学習する際の課題の1つは、問題はしばしば中間的なサブゴールを持たないモノリシックなタスクとして表されることである。 Raven Progressive Matrices (RPM) では、コンテキストと回答の両方が様々な空間配置で複数のオブジェクトを特徴とする合成画像である、コンテキストが与えられた解の1つを選択する。 このハイレベルな目標が唯一のガイダンスであるため、学習は困難であり、ほとんどの現代解決者は不透明である傾向がある。 本研究では,上述の選択を直接行うのではなく,個々の物体の視覚特性とその配置を予測するトランスフォーマー・ブループリントに基づくディープラーニング・アーキテクチャを提案する。 この方法で得られる多次元予測は、その解を選ぶために直接的に決定される。 我々は,モデルが視覚入力をトークンに解析するいくつかの方法と,自己教師付きトレーニングで入力の一部をマスキングするいくつかの方法を検討する。 実験的な評価では、モデルは最先端の手法を上回るだけでなく、推論に関する興味深い洞察と部分的な説明を提供する。 この方法の設計は、いくつかのRPMベンチマークに存在することが知られているバイアスに免疫を与える。

One of the challenges in learning to perform abstract reasoning is that problems are often posed as monolithic tasks, with no intermediate subgoals. In Raven Progressive Matrices (RPM), the task is to choose one of the available answers given a context, where both contexts and answers are composite images featuring multiple objects in various spatial arrangements. As this high-level goal is the only guidance available, learning is challenging and most contemporary solvers tend to be opaque. In this study, we propose a deep learning architecture based on the transformer blueprint which, rather than directly making the above choice, predicts the visual properties of individual objects and their arrangements. The multidimensional predictions obtained in this way are then directly juxtaposed to choose the answer. We consider a few ways in which the model parses the visual input into tokens and several regimes of masking parts of the input in self-supervised training. In experimental assessment, the models not only outperform state-of-the-art methods but also provide interesting insights and partial explanations about the inference. The design of the method also makes it immune to biases that are known to exist in some RPM benchmarks.
翻訳日:2023-08-15 16:55:02 公開日:2023-08-12
# 著者の助けを借りて:MTエラー検知器の人間による評価を再現する

With a Little Help from the Authors: Reproducing Human Evaluation of an MT Error Detector ( http://arxiv.org/abs/2308.06527v1 )

ライセンス: Link先を確認
Ond\v{r}ej Pl\'atek and Mateusz Lango and Ond\v{r}ej Du\v{s}ek(参考訳) 本研究では,Vamvas and Sennrich (2022) の論文で提示された人体評価実験の結果を再現し,機械翻訳(MT)出力におけるオーバー・アンダー翻訳(元より少ない情報を含む翻訳)を検出する自動システムの評価を行った。 著者らが提供したドキュメントやコードの品質は高いが,本論文では再現性向上のための推奨事項として,実験的なセットアップを再現する上での問題点について論じる。 再現された結果は,本研究の結論を概ね裏付けるものであるが,統計的に有意な差が見られ,ヒトのアノテーションの多様性が高いことが示唆された。

This work presents our efforts to reproduce the results of the human evaluation experiment presented in the paper of Vamvas and Sennrich (2022), which evaluated an automatic system detecting over- and undertranslations (translations containing more or less information than the original) in machine translation (MT) outputs. Despite the high quality of the documentation and code provided by the authors, we discuss some problems we found in reproducing the exact experimental setup and offer recommendations for improving reproducibility. Our replicated results generally confirm the conclusions of the original study, but in some cases, statistically significant differences were observed, suggesting a high variability of human annotation.
翻訳日:2023-08-15 16:54:39 公開日:2023-08-12
# SLoRA: 言語モデルのファインチューニングに有効なフェデレーションパラメータ

SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models ( http://arxiv.org/abs/2308.06522v1 )

ライセンス: Link先を確認
Sara Babakniya, Ahmed Roushdy Elkordy, Yahya H. Ezzeldin, Qingfeng Liu, Kee-Bong Song, Mostafa El-Khamy, Salman Avestimehr(参考訳) 微調整された事前学習型トランスフォーマーモデルによる伝達学習は、様々なNLPタスクに対して最先端の結果を提供する上で大きな成功を収めている。 集中型データがないと、Federated Learning(FL)はFLエッジクライアントの分散およびプライベートなデータから恩恵を受けることができる。 しかし、エッジデバイスの通信能力、計算能力、ストレージ能力に制限があり、一般的なトランスフォーマーモデルの巨大なサイズのため、効率的な微調整がフェデレートトレーニングの実現に不可欠である。 本研究では,パラメータ効率のよい微調整(PEFT)手法を言語タスクのFL設定に応用する機会と課題について検討する。 具体的には,ユーザ間でのデータの多様性が増すにつれて,モデルを完全に微調整することとPEFT手法を採用することのギャップが拡大することを明らかにする。 この性能ギャップを埋めるために、新しいデータ駆動初期化手法により、高異種データシナリオにおけるLoRAの重要な制限を克服するSLoRAという手法を提案する。 実験の結果、sloraは完全な微調整に匹敵する性能を達成し、約$\sim 1\%$密度の大幅な更新と最大$90\%$のトレーニング時間を削減した。

Transfer learning via fine-tuning pre-trained transformer models has gained significant success in delivering state-of-the-art results across various NLP tasks. In the absence of centralized data, Federated Learning (FL) can benefit from distributed and private data of the FL edge clients for fine-tuning. However, due to the limited communication, computation, and storage capabilities of edge devices and the huge sizes of popular transformer models, efficient fine-tuning is crucial to make federated training feasible. This work explores the opportunities and challenges associated with applying parameter efficient fine-tuning (PEFT) methods in different FL settings for language tasks. Specifically, our investigation reveals that as the data across users becomes more diverse, the gap between fully fine-tuning the model and employing PEFT methods widens. To bridge this performance gap, we propose a method called SLoRA, which overcomes the key limitations of LoRA in high heterogeneous data scenarios through a novel data-driven initialization technique. Our experimental results demonstrate that SLoRA achieves performance comparable to full fine-tuning, with significant sparse updates with approximately $\sim 1\%$ density while reducing training time by up to $90\%$.
翻訳日:2023-08-15 16:54:23 公開日:2023-08-12
# LEO衛星リモートセンシングサービスのための種目地図に基づくCNNモデル

Seed Feature Maps-based CNN Models for LEO Satellite Remote Sensing Services ( http://arxiv.org/abs/2308.06515v1 )

ライセンス: Link先を確認
Zhichao Lu and Chuntao Ding and Shangguang Wang and Ran Cheng and Felix Juefei-Xu and Vishnu Naresh Boddeti(参考訳) 高速リモートセンシング画像処理のための低軌道(LEO)衛星に高性能畳み込みニューラルネットワーク(CNN)モデルを展開することは、産業や学術から大きな関心を集めている。 しかし、LEO衛星で利用可能な限られた資源は、資源集約型CNNモデルの要求とは対照的であり、これらのモデルのトレーニングと更新に地上局サーバアシストを採用する必要がある。 既存のアプローチでは、大きな浮動小数点演算(FLOP)と実質的なモデルパラメータ伝達を必要とし、かなりの課題を提示する。 そこで本稿では,これらの問題に対処するために,地上局サーバ支援フレームワークを提案する。 提案したフレームワークでは,CNNモデルの各レイヤには,特定のルールに基づいて他の特徴マップを生成する,学習可能な特徴マップ(シード特徴マップと呼ばれる)がひとつだけ含まれている。 これらの規則のハイパーパラメータは訓練される代わりにランダムに生成され、種の特徴マップから複数の特徴マップが生成され、FLOPが大幅に減少する。 さらに、ランダムなハイパーパラメータを数個のランダムなシードで保存できるため、LEO衛星上に展開されたCNNモデルの更新において、地上局サーバの支援が容易となる。 セマンティックセグメンテーションサービスのためのISPRS Vaihingen、ISPRS Potsdam、UAVid、LoveDAデータセットの実験結果は、提案フレームワークが既存の最先端アプローチよりも優れていることを示している。 特に、SineFMベースのモデルはUAVidデータセット上のUNetFormerよりも高いmIoUを実現しており、パラメータは3.3倍、FLOPは2.2倍少ない。

Deploying high-performance convolutional neural network (CNN) models on low-earth orbit (LEO) satellites for rapid remote sensing image processing has attracted significant interest from industry and academia. However, the limited resources available on LEO satellites contrast with the demands of resource-intensive CNN models, necessitating the adoption of ground-station server assistance for training and updating these models. Existing approaches often require large floating-point operations (FLOPs) and substantial model parameter transmissions, presenting considerable challenges. To address these issues, this paper introduces a ground-station server-assisted framework. With the proposed framework, each layer of the CNN model contains only one learnable feature map (called the seed feature map) from which other feature maps are generated based on specific rules. The hyperparameters of these rules are randomly generated instead of being trained, thus enabling the generation of multiple feature maps from the seed feature map and significantly reducing FLOPs. Furthermore, since the random hyperparameters can be saved using a few random seeds, the ground station server assistance can be facilitated in updating the CNN model deployed on the LEO satellite. Experimental results on the ISPRS Vaihingen, ISPRS Potsdam, UAVid, and LoveDA datasets for semantic segmentation services demonstrate that the proposed framework outperforms existing state-of-the-art approaches. In particular, the SineFM-based model achieves a higher mIoU than the UNetFormer on the UAVid dataset, with 3.3x fewer parameters and 2.2x fewer FLOPs.
翻訳日:2023-08-15 16:54:01 公開日:2023-08-12
# hyperformer:ハイパーリレーショナルナレッジグラフ補完のためのエンティティとリレーションインタラクションの拡張

HyperFormer: Enhancing Entity and Relation Interaction for Hyper-Relational Knowledge Graph Completion ( http://arxiv.org/abs/2308.06512v1 )

ライセンス: Link先を確認
Zhiwei Hu, V\'ictor Guti\'errez-Basulto, Zhiliang Xiang, Ru Li, Jeff Z. Pan(参考訳) hyper-relational knowledge graphs (hkgs) は属性値修飾子をトリプルに関連付けることで標準的なナレッジグラフを拡張する。 hyper-relational knowledge graph completion (hkgc) は、修飾子を考慮しながら未知の三重項を推測することを目的としている。 HKGCの既存のアプローチのほとんどは、グラフ畳み込みメッセージパッシングプロセスにハイパーリレーショナルな知識をエンコードするために、グローバルレベルのグラフ構造を利用する。 しかし、マルチホップ情報の追加は、三重予測プロセスにノイズをもたらす可能性がある。 この問題に対処するために,三重項の実体,関係,等化子の内容をエンコードする局所レベルシーケンシャル情報を考慮したモデルであるHyperFormerを提案する。 More precisely, HyperFormer is composed of three different modules: an entity neighbor aggregator module allowing to integrate the information of the neighbors of an entity to capture different perspectives of it; a relation qualifier aggregator module to integrate hyper-relational knowledge into the corresponding relation to refine the representation of relational content; a convolution-based bidirectional interaction module based on a convolutional operation, capturing pairwise bidirectional interactions of entity-relation, entity-qualifier, and relation-qualifier. 現在の声明に関連する内容の深さ認識を実現する。 さらに,ハイパフォーマのフィードフォワード層に対して,モデルパラメータと計算量を削減しつつ,その表現能力を強化するための混合・オブ・エキスパート戦略を導入する。 4つの異なる条件を持つ3つのよく知られたデータセットに対する大規模な実験は、HyperFormerの有効性を示している。 データセットとコードはhttps://github.com/zhiweihu1103/HKGC-HyperFormerで入手できる。

Hyper-relational knowledge graphs (HKGs) extend standard knowledge graphs by associating attribute-value qualifiers to triples, which effectively represent additional fine-grained information about its associated triple. Hyper-relational knowledge graph completion (HKGC) aims at inferring unknown triples while considering its qualifiers. Most existing approaches to HKGC exploit a global-level graph structure to encode hyper-relational knowledge into the graph convolution message passing process. However, the addition of multi-hop information might bring noise into the triple prediction process. To address this problem, we propose HyperFormer, a model that considers local-level sequential information, which encodes the content of the entities, relations and qualifiers of a triple. More precisely, HyperFormer is composed of three different modules: an entity neighbor aggregator module allowing to integrate the information of the neighbors of an entity to capture different perspectives of it; a relation qualifier aggregator module to integrate hyper-relational knowledge into the corresponding relation to refine the representation of relational content; a convolution-based bidirectional interaction module based on a convolutional operation, capturing pairwise bidirectional interactions of entity-relation, entity-qualifier, and relation-qualifier. realize the depth perception of the content related to the current statement. Furthermore, we introduce a Mixture-of-Experts strategy into the feed-forward layers of HyperFormer to strengthen its representation capabilities while reducing the amount of model parameters and computation. Extensive experiments on three well-known datasets with four different conditions demonstrate HyperFormer's effectiveness. Datasets and code are available at https://github.com/zhiweihu1103/HKGC-HyperFormer.
翻訳日:2023-08-15 16:53:34 公開日:2023-08-12
# AutoConv: 大規模言語モデルによる情報探索会話の自動生成

AutoConv: Automatically Generating Information-seeking Conversations with Large Language Models ( http://arxiv.org/abs/2308.06507v1 )

ライセンス: Link先を確認
Siheng Li, Cheng Yang, Yichun Yin, Xinyu Zhu, Zesen Cheng, Lifeng Shang, Xin Jiang, Qun Liu, Yujiu Yang(参考訳) ユーザが会話を通じて情報収集を支援する情報検索会話は,近年,大きな進歩を遂げている。 しかし、この研究はトレーニングデータの不足によっていまだに悪化している。 この問題を軽減するために,大規模言語モデル(LLM)の少数ショット学習能力と生成能力を活用する合成会話生成のためのAutoConvを提案する。 具体的には、会話生成問題を言語モデリングタスクとして定式化し、数個の人間の会話でllmを微調整し、情報検索プロセスの特徴を捉え、高品質な合成会話を生成する。 2つの頻繁に使用されるデータセットの実験結果は、AutoConvが強いベースラインよりも大幅に改善されていることを確認し、人間のアノテーションへの依存を軽減する。 また,今後の研究を促進するために,いくつかの分析研究も行っている。

Information-seeking conversation, which aims to help users gather information through conversation, has achieved great progress in recent years. However, the research is still stymied by the scarcity of training data. To alleviate this problem, we propose AutoConv for synthetic conversation generation, which takes advantage of the few-shot learning ability and generation capacity of large language models (LLM). Specifically, we formulate the conversation generation problem as a language modeling task, then finetune an LLM with a few human conversations to capture the characteristics of the information-seeking process and use it for generating synthetic conversations with high quality. Experimental results on two frequently-used datasets verify that AutoConv has substantial improvements over strong baselines and alleviates the dependence on human annotation. In addition, we also provide several analysis studies to promote future research.
翻訳日:2023-08-15 16:53:08 公開日:2023-08-12
# リウビリアンスキン効果を持つ開量子系における緩和ダイナミクスの加速

Accelerating Relaxation Dynamics in Open Quantum System with Liouvillian Skin Effect ( http://arxiv.org/abs/2308.06504v1 )

ライセンス: Link先を確認
Zeqing Wang, Yao Lu, Yi Peng, Ran Qi, Yucheng Wang, Jianwen Jie(参考訳) 非相互勾配ホッピングを特徴とする非エルミートモデルについて検討する。 リウビリアンスペクトルとダイナミクスの詳細な分析を通じて、このモデルにおけるホッピングの非相反性に起因するリウビリアン皮膚効果の出現を確認した。 さらに, 勾配ホッピング強度の存在が, 系の緩和時間を加速させることを示した。 リウビリアンギャップ、緩和時間、定常定位長の数値的研究により、このモデルにおける緩和時間はリウビリアン皮膚効果に関連する現在確立されている関係では説明できないことが判明した。 この相違は、量子緩和過程の基礎となる複雑なメカニズムを完全に理解するためのさらなる探索と理論的進歩の必要性を浮き彫りにしている。 そこで本研究では, 側帯構造を持つ原子系において, 断熱除去法を用いて非エルミタンモデルを実現するための理論的アプローチを提案する。 これらの結果は、量子緩和ダイナミクスの深い理解に寄与し、量子緩和過程を制御する技術開発のための理論的支援を提供する。

We investigate a non-Hermitian model featuring non-reciprocal gradient hoppings. Through an in-depth analysis of the Liouvillian spectrum and dynamics, we confirm the emergence of the Liouvillian skin effect resulting from the non-reciprocal nature of hoppings in this model. Furthermore, we observe that the presence of gradient hopping strength leads to an accelerated relaxation time for the system. Through numerical investigations of the Liouvillian gap, relaxation time, and steady-state localization length, we discover that the relaxation time in this model cannot be explained by the currently established relationship associated with the Liouvillian skin effect. This discrepancy highlights the need for further exploration and theoretical advancements to fully comprehend the intricate mechanisms underlying quantum relaxation processes. Motivated by these findings, we propose a theoretical approach to realize this non-Hermitian model in an atomic system with a sideband structure by employing adiabatic elimination technique. These results contribute to our deeper comprehension of quantum relaxation dynamics and provide theoretical backing for the development of techniques aimed at controlling quantum relaxation processes.
翻訳日:2023-08-15 16:52:54 公開日:2023-08-12
# 大きな言語モデルを使ってチャットを評価する3つの方法

Three Ways of Using Large Language Models to Evaluate Chat ( http://arxiv.org/abs/2308.06502v1 )

ライセンス: Link先を確認
Ond\v{r}ej Pl\'atek and Vojt\v{e}ch Hude\v{c}ek and Patricia Schmidtov\'a and Mateusz Lango and Ond\v{r}ej Du\v{s}ek(参考訳) 本稿では,DSTC11トラック4競技会ChatEvalのチーム6が提出したシステムについて述べる。 大規模言語モデル(LLM)に基づいて,チャットボット応答のターンレベル品質を予測する3つのアプローチを提案する。 本稿では,ChatGPTのプロンプトのためのベクトルストアからの動的少数ショット例を用いて,ベースラインの改善を報告する。 また、他の2つのアプローチのパフォーマンスを分析し、今後の作業に必要な改善を報告します。 わずか2週間で3つのシステムを開発し,この課題に対するLCMの可能性を示した。 チャレンジ期限後に行われたアブレーション調査は、新しいLlama 2モデルがChatGPTとオープンソースのLLMのパフォーマンスギャップを埋めていることを示している。 しかし、llama 2 モデルは chatgpt と同じ方法で、少数の例から利益を得られないことが判明した。

This paper describes the systems submitted by team6 for ChatEval, the DSTC 11 Track 4 competition. We present three different approaches to predicting turn-level qualities of chatbot responses based on large language models (LLMs). We report improvement over the baseline using dynamic few-shot examples from a vector store for the prompts for ChatGPT. We also analyze the performance of the other two approaches and report needed improvements for future work. We developed the three systems over just two weeks, showing the potential of LLMs for this task. An ablation study conducted after the challenge deadline shows that the new Llama 2 models are closing the performance gap between ChatGPT and open-source LLMs. However, we find that the Llama 2 models do not benefit from few-shot examples in the same way as ChatGPT.
翻訳日:2023-08-15 16:52:35 公開日:2023-08-12
# newsdialogues: 積極的なニュースグラウンドド会話に向けて

NewsDialogues: Towards Proactive News Grounded Conversation ( http://arxiv.org/abs/2308.06501v1 )

ライセンス: Link先を確認
Siheng Li, Yichun Yin, Cheng Yang, Wangjie Jiang, Yiwei Li, Zesen Cheng, Lifeng Shang, Xin Jiang, Qun Liu, Yujiu Yang(参考訳) ホットニュースは日々の会話で最も人気のある話題の1つだ。 しかし、ニュースを基盤とした会話は、よく設計されたタスク定義と不足したデータがないことで、長い間苦しめられていた。 本稿では,対話システムがニュースの重要な話題に基づいて会話を積極的にリードできる,新しいタスクproactive news grounded conversationを提案する。 さらに、情報検索とチャットの両方のシナリオが現実的に含まれており、ユーザーはニュースの詳細について質問したり、意見を表明したり、チャットを楽しみにしたりすることができる。 この課題をさらに発展させるために,14.6Kの発話を含む1Kの会話と,対象とする話題や知識の詳細なアノテーションを含む,人間と人間の対話データセット \ts{NewsDialogues} を収集する。 さらに,知識予測と応答生成のためのジェネレータと,露出バイアスを軽減するために複数の応答をランク付けするランク付け器から構成されるPredict-Generate-Rankという手法を提案する。 提案手法の有効性を実証するために総合的な実験を行い,今後の研究を進める上で重要な知見と課題をいくつか提示する。

Hot news is one of the most popular topics in daily conversations. However, news grounded conversation has long been stymied by the lack of well-designed task definition and scarce data. In this paper, we propose a novel task, Proactive News Grounded Conversation, in which a dialogue system can proactively lead the conversation based on some key topics of the news. In addition, both information-seeking and chit-chat scenarios are included realistically, where the user may ask a series of questions about the news details or express their opinions and be eager to chat. To further develop this novel task, we collect a human-to-human Chinese dialogue dataset \ts{NewsDialogues}, which includes 1K conversations with a total of 14.6K utterances and detailed annotations for target topics and knowledge spans. Furthermore, we propose a method named Predict-Generate-Rank, consisting of a generator for grounded knowledge prediction and response generation, and a ranker for the ranking of multiple responses to alleviate the exposure bias. We conduct comprehensive experiments to demonstrate the effectiveness of the proposed method and further present several key findings and challenges to prompt future research.
翻訳日:2023-08-15 16:52:19 公開日:2023-08-12
# 数保存散逸ダイナミクス下における2バンドフェルミオンの拡散モード

Diffusive modes of two-band fermions under number-conserving dissipative dynamics ( http://arxiv.org/abs/2308.06553v1 )

ライセンス: Link先を確認
A.A. Lyublinskaya and I.S. Burmistrov(参考訳) 駆動散逸性プロトコルは、非自明な量子多体相関状態の制御と生成のために提案される。 粒子数を保持するプロトコルは分離される。 ユニタリ力学を持つ量子系において、粒子数保存とランダム散乱は2粒子励起(拡散子と共役子)の拡散挙動をもたらす。 粒子数保存散逸ダイナミクスにおける拡散モードの存在は、まだよく研究されていない。 1つのフェルミオンバンドを空にし、もう1つのバンドを投入することを目的とした散逸ダイナミクスを用いて、2バンドシステムのパラダイムモデルにおけるディフューションの存在を明示的に示す。 研究モデルは、F. Tonielli, J. C. Budich, A. Altland, S. Diehl, Physで導入されたモデルの一般化である。 Rev. Lett. 124, 240404 (2020). 拡散係数はモデルの詳細と散逸率に依存する。 微分モードの存在がマクロ多体相関状態の工学をいかに複雑化するかについて議論する。

Driven-dissipative protocols are proposed to control and create nontrivial quantum many-body correlated states. Protocols conserving the number of particles stand apart. As well-known, in quantum systems with the unitary dynamics the particle number conservation and random scattering yield diffusive behavior of two-particle excitations (diffusons and cooperons). Existence of diffusive modes in the particle-number-conserving dissipative dynamics is not well studied yet. We explicitly demonstrate the existence of diffusons in a paradigmatic model of a two-band system, with dissipative dynamics aiming to empty one fermion band and to populate the other one. The studied model is generalization of the model introduced in F. Tonielli, J. C. Budich, A. Altland, and S. Diehl, Phys. Rev. Lett. 124, 240404 (2020). We find how the diffusion coefficient depends on details of a model and the rate of dissipation. We discuss how the existence of diffusive modes complicates engineering of macroscopic many-body correlated states.
翻訳日:2023-08-15 16:46:35 公開日:2023-08-12
# mt4crossoie: 言語間情報抽出のための多段チューニング

MT4CrossOIE: Multi-stage Tuning for Cross-lingual Open Information Extraction ( http://arxiv.org/abs/2308.06552v1 )

ライセンス: Link先を確認
Zixiang Wang, Linzheng Chai, Jian Yang, Jiaqi Bai, Yuwei Yin, Jiaheng Liu, Hongcheng Guo, Tongliang Li, Liqun Yang, Hebboul Zine el-abidine, Zhoujun Li(参考訳) 言語間オープン情報抽出は,複数言語にわたる原文から構造化された情報を抽出することを目的としている。 以前の作業では、異なる言語を扱うために、共通言語間の事前訓練モデルを使用していたが、言語固有の表現の可能性を過小評価している。 本稿では,言語固有の知識を共有モデルに注入することにより,言語間情報抽出の促進を目的とした,mt4crossieと呼ばれる効果的なマルチステージチューニングフレームワークを提案する。 具体的には、言語間事前学習モデルは、まず固定エンコーダ内の共有意味空間(例えば埋め込み行列)で調整され、次に第2段階で他のコンポーネントが最適化される。 十分なトレーニングの後、事前学習されたモデルを凍結し、モデルベースの言語間移動のための混合LoRAを用いて複数の低ランク言語固有のモジュールをチューニングする。 さらに,2段階のプロンプトを利用して,多言語生データをデータベース言語間転送にアノテートすることを大言語モデル(llm)に促す。 このモデルは,提案したデータセットOpenIE4++上で,モデルベースおよびデータベース転送技術を組み合わせて,多言語で学習する。 様々なベンチマークの実験結果は、複数のプラグインとプレイ言語固有のモジュールを集約することの重要性を強調し、OIE\footnote{\url{https://github.com/CSJianYang/Multilingual-Multimodal-NLP}}におけるMT4CrossIEの有効性を示した。

Cross-lingual open information extraction aims to extract structured information from raw text across multiple languages. Previous work uses a shared cross-lingual pre-trained model to handle the different languages but underuses the potential of the language-specific representation. In this paper, we propose an effective multi-stage tuning framework called MT4CrossIE, designed for enhancing cross-lingual open information extraction by injecting language-specific knowledge into the shared model. Specifically, the cross-lingual pre-trained model is first tuned in a shared semantic space (e.g., embedding matrix) in the fixed encoder and then other components are optimized in the second stage. After enough training, we freeze the pre-trained model and tune the multiple extra low-rank language-specific modules using mixture-of-LoRAs for model-based cross-lingual transfer. In addition, we leverage two-stage prompting to encourage the large language model (LLM) to annotate the multi-lingual raw data for data-based cross-lingual transfer. The model is trained with multi-lingual objectives on our proposed dataset OpenIE4++ by combing the model-based and data-based transfer techniques. Experimental results on various benchmarks emphasize the importance of aggregating multiple plug-in-and-play language-specific modules and demonstrate the effectiveness of MT4CrossIE in cross-lingual OIE\footnote{\url{https://github.com/CSJianYang/Multilingual-Multimodal-NLP}}.
翻訳日:2023-08-15 16:46:16 公開日:2023-08-12
# ブロックチェーンを用いた分散サービスアロケーション

Decentralised Service Allocation using Blockchain ( http://arxiv.org/abs/2308.06550v1 )

ライセンス: Link先を確認
Pranshu Chittora, Nikhil Kumar, G. Malarselvi(参考訳) 短期賃貸需要の高まりは、PropTech(Property + Technology)と呼ばれる新しいカテゴリーのブームに繋がった。 こうした需要の高まりは、多くの起業家や投資家を惹きつけ、(airbnbのような)強力で集中型のプレイヤーが誕生した。 残念ながら、一部の大手プレイヤーは業界全体を中央集権的にコントロールしており、小規模プレイヤーには余地のない反競争的なプラクティスを実行している。 このようなエコシステムは、ブロックチェーン上でトランザクションとorder-fulfilmentを実行することによって、より透過的で分散化することができる。 システムの機能を拡張するために、IoTを統合することで、小さなサービスやアプライアンスをレンタルすることも可能です。 このようなシステムを実装することで、プロセスをより透過的で堅牢で分散化できます。

The growing demand for short-term property renting has led to the boom of a new category called PropTech (Property + Technology). Such a rise in demand attracted many entrepreneurs and investors leading to the inception of powerful and centralised players in the category (like Airbnb). Unfortunately, some big players are controlling the entire industry in a centralised way in turn, performing anti-competitive practices which leave no room for the small players. Such an ecosystem can be made more transparent and decentralised by executing transactions and order-fulfilment on a blockchain. To extend the functionality of the system, we can also perform the renting of small services and appliances via the integration of IoT. Implementing such a system will make the process more transparent, robust and decentralised.
翻訳日:2023-08-15 16:45:36 公開日:2023-08-12
# 行動に基づくパーソナライズド食事推薦とメニュー計画社会システム

Human Behavior-based Personalized Meal Recommendation and Menu Planning Social System ( http://arxiv.org/abs/2308.06549v1 )

ライセンス: Link先を確認
Tanvir Islam, Anika Rahman Joyita, Md. Golam Rabiul Alam, Mohammad Mehedi Hassan, Md. Rafiul Hassan, Raffaele Gravina(参考訳) 従来の食事レコメンデーションシステムは基本的に、食事に対する人間の感情を無視する栄養または健康対策である。 食欲に関して人の影響は様々であり、すべての食べ物があらゆる気分で魅力的であるわけではない。 質問紙ベースおよび嗜好認識型食事推薦システムは解決できる。 しかし, 異なる食材に対する社会的影響の自動認識や, 栄養負荷や社会的影響を考慮したメニューの計画は, 質問紙・嗜好に配慮した食事推奨の有益である。 重篤な疾患の患者、コマの患者、またはロックイン症候群と筋萎縮性側索硬化症(ALS)の患者は食事の嗜好を表現できない。 そこで,提案フレームワークは,脳波信号を用いて人の感情が検出される食事の影響を認識する社会的影響コンピューティングモジュールを含む。 eegは脳の信号を捉えて分析し、食物に対する感情を予測できる。 本研究では,14チャンネルのEmotive Epoc+を用いて,異なる食品に対する愛着度を測定した。 複数の特徴抽出法による感情の予測に階層的アンサンブル法を適用し、予測された感情の予測に基づいて食品リストを生成するためにTOPSIS (Technique for Order of Preference by similarity to Ideal Solution) を用いる。 また, 食事の推奨に加えて, メニューのエネルギー摂取量, 嗜好性, 栄養価を考慮した自動メニュー計画手法も提案した。 bin-packingアルゴリズムは、朝食、ランチ、ディナー、スナックのパーソナライズされたメニュー計画に使用される。 実験結果から, 感情計算, 食事推奨, メニュー計画アルゴリズムは, 様々な評価パラメータで良好に機能することが示唆された。

The traditional dietary recommendation systems are basically nutrition or health-aware where the human feelings on food are ignored. Human affects vary when it comes to food cravings, and not all foods are appealing in all moods. A questionnaire-based and preference-aware meal recommendation system can be a solution. However, automated recognition of social affects on different foods and planning the menu considering nutritional demand and social-affect has some significant benefits of the questionnaire-based and preference-aware meal recommendations. A patient with severe illness, a person in a coma, or patients with locked-in syndrome and amyotrophic lateral sclerosis (ALS) cannot express their meal preferences. Therefore, the proposed framework includes a social-affective computing module to recognize the affects of different meals where the person's affect is detected using electroencephalography signals. EEG allows to capture the brain signals and analyze them to anticipate affective toward a food. In this study, we have used a 14-channel wireless Emotive Epoc+ to measure affectivity for different food items. A hierarchical ensemble method is applied to predict affectivity upon multiple feature extraction methods and TOPSIS (Technique for Order of Preference by Similarity to Ideal Solution) is used to generate a food list based on the predicted affectivity. In addition to the meal recommendation, an automated menu planning approach is also proposed considering a person's energy intake requirement, affectivity, and nutritional values of the different menus. The bin-packing algorithm is used for the personalized menu planning of breakfast, lunch, dinner, and snacks. The experimental findings reveal that the suggested affective computing, meal recommendation, and menu planning algorithms perform well across a variety of assessment parameters.
翻訳日:2023-08-15 16:45:16 公開日:2023-08-12
# 経路アンサンブルから見た視覚変換器の再検討

Revisiting Vision Transformer from the View of Path Ensemble ( http://arxiv.org/abs/2308.06548v1 )

ライセンス: Link先を確認
Shuning Chang, Pichao Wang, Hao Luo, Fan Wang, Mike Zheng Shou(参考訳) 視覚変換器(ViT)は通常、トランス層のスタックと見なされる。 本研究では,異なる長さの複数の並列経路を含むアンサンブルネットワークとして見ることのできる,新しいViTのビューを提案する。 具体的には、従来のマルチヘッドセルフアテンション(msa)とフィードフォワードネットワーク(ffn)のカスケードを、トランスフォーマー層毎に3つの並列パスに変換する。 そして、新しいトランスフォームのID接続を利用し、さらにViTを明示的なマルチパスアンサンブルネットワークに変換する。 新しい観点では、これらのパスは2つの機能を実行する: 1つは、分類器の機能を直接提供し、もう1つは、続く長いパスに対して下位レベルの特徴表現を提供することである。 最終予測に対する各パスの影響を調査し,いくつかのパスが性能を低下させる可能性を見出した。 そこで本研究では,低パフォーマンスパスの削減とアンサンブルコンポーネントの再重み付けを行い,経路の組み合わせを最適化し,後続パスに高品質表現を提供することに重点を置く,改善のためのパスプルーニングとアンサンブルスケールスキルを提案する。 また、私たちの経路の組み合わせ戦略は、ViTをより深くし、部分的な低周波信号をフィルタするハイパスフィルタとして機能することを示す。 続く経路に供される経路の表現をさらに強化するため、長い経路から短い経路へ知識を伝達するために自己蒸留を適用する。 この研究は、ViTを新たな視点から説明し、設計するためのさらなる研究を求めている。

Vision Transformers (ViTs) are normally regarded as a stack of transformer layers. In this work, we propose a novel view of ViTs showing that they can be seen as ensemble networks containing multiple parallel paths with different lengths. Specifically, we equivalently transform the traditional cascade of multi-head self-attention (MSA) and feed-forward network (FFN) into three parallel paths in each transformer layer. Then, we utilize the identity connection in our new transformer form and further transform the ViT into an explicit multi-path ensemble network. From the new perspective, these paths perform two functions: the first is to provide the feature for the classifier directly, and the second is to provide the lower-level feature representation for subsequent longer paths. We investigate the influence of each path for the final prediction and discover that some paths even pull down the performance. Therefore, we propose the path pruning and EnsembleScale skills for improvement, which cut out the underperforming paths and re-weight the ensemble components, respectively, to optimize the path combination and make the short paths focus on providing high-quality representation for subsequent paths. We also demonstrate that our path combination strategies can help ViTs go deeper and act as high-pass filters to filter out partial low-frequency signals. To further enhance the representation of paths served for subsequent paths, self-distillation is applied to transfer knowledge from the long paths to the short paths. This work calls for more future research to explain and design ViTs from new perspectives.
翻訳日:2023-08-15 16:44:27 公開日:2023-08-12
# 半教師付き自動音声認識のための代替擬似ラベル法

Alternative Pseudo-Labeling for Semi-Supervised Automatic Speech Recognition ( http://arxiv.org/abs/2308.06547v1 )

ライセンス: Link先を確認
Han Zhu, Dongji Gao, Gaofeng Cheng, Daniel Povey, Pengyuan Zhang, Yonghong Yan(参考訳) ラベル付きデータが不十分な場合、擬似ラベル技術による半教師付き学習は自動音声認識の性能を大幅に向上させることができる。 しかし、擬似ラベルはしばしば騒々しく、多くの誤ったトークンを含んでいる。 ノイズラベルを損失関数の基底として取り込むことで、副最適性能が得られる。 以前の研究は、最も目立たない擬似ラベルをフィルタリングするか、偽ラベルの全体的な品質を改善することでこの問題を緩和しようとした。 これらの手法はある程度有効であるが、擬似ラベルの不正なトークンを完全に排除することは非現実的である。 本研究では, 学習目標の観点から, 雑音下擬似ラベル問題に取り組むための, 代替擬似ラベルと呼ばれる新しい枠組みを提案する。 フレームワークにはいくつかのコンポーネントがある。 まず、不正なトークンの位置で代替トークンを受け入れることにより、ノイズの多い擬似ラベルを処理するために一般化されたCTC損失関数を導入する。 この損失関数を擬似ラベルに適用するには、予測された擬似ラベルの誤ったトークンを検出する必要がある。 本研究では,信頼度を所定の閾値と比較することにより,不正確なトークンを識別する信頼度に基づく誤り検出手法を採用する。 したがって、第2の手法は、正当かつ誤予測されたトークン間の信頼ギャップを拡大し、エラー検出能力を向上するコントラッシブCTC損失関数である。 さらに、信頼に基づくエラー検出で十分な性能を得るには、広いしきい値調整が必要である。 その代わりに、ラベル付きデータをプロキシとして使用してしきい値を決定する自動しきい値設定手法を提案し、手動チューニングの手間を軽減する。

When labeled data is insufficient, semi-supervised learning with the pseudo-labeling technique can significantly improve the performance of automatic speech recognition. However, pseudo-labels are often noisy, containing numerous incorrect tokens. Taking noisy labels as ground-truth in the loss function results in suboptimal performance. Previous works attempted to mitigate this issue by either filtering out the nosiest pseudo-labels or improving the overall quality of pseudo-labels. While these methods are effective to some extent, it is unrealistic to entirely eliminate incorrect tokens in pseudo-labels. In this work, we propose a novel framework named alternative pseudo-labeling to tackle the issue of noisy pseudo-labels from the perspective of the training objective. The framework comprises several components. Firstly, a generalized CTC loss function is introduced to handle noisy pseudo-labels by accepting alternative tokens in the positions of incorrect tokens. Applying this loss function in pseudo-labeling requires detecting incorrect tokens in the predicted pseudo-labels. In this work, we adopt a confidence-based error detection method that identifies the incorrect tokens by comparing their confidence scores with a given threshold, thus necessitating the confidence score to be discriminative. Hence, the second proposed technique is the contrastive CTC loss function that widens the confidence gap between the correctly and incorrectly predicted tokens, thereby improving the error detection ability. Additionally, obtaining satisfactory performance with confidence-based error detection typically requires extensive threshold tuning. Instead, we propose an automatic thresholding method that uses labeled data as a proxy for determining the threshold, thus saving the pain of manual tuning.
翻訳日:2023-08-15 16:43:49 公開日:2023-08-12
# mc-dre: 薬物イベント/エンティティ抽出のためのマルチアスペクトクロス統合

MC-DRE: Multi-Aspect Cross Integration for Drug Event/Entity Extraction ( http://arxiv.org/abs/2308.06546v1 )

ライセンス: Link先を確認
Jie Yang and Soyeon Caren Han and Siqu Long and Josiah Poon and Goran Nenadic(参考訳) 有害薬物事象(ADE)などの有意義な薬物関連情報を抽出することは、有害な薬物の予防と多くの命を救うために重要である。 ほとんどのADEは、医療状況との非構造化の会話を通じて報告される。 したがって、一般的なエンティティ認識アプローチを適用するだけでは不十分である。 鍵となるのは、薬物イベントのセマンティクス、構文構造、医学領域用語など、薬物イベント情報を検出するための複数の重要な側面を統合する方法だ。 本稿では,薬物関連文書からコンテキスト/言語/知識の異なる特性を捕捉・整合させることにより,薬物の実体/事象検出のための多面的クロスインテグレーションフレームワークを提案する。 まず,マルチアスペクトエンコーダを構築し,意味的,構文的,医学的文書の文脈情報を,スロットタグタスク,主要薬物エンティティ/イベント検出,パート・オブ・スパイチ・タグ,一般医療名付きエンティティ認識により記述する。 次に、各エンコーダはキー・バリュー・クロス、アテンション・クロス、フィードフォワード・クロスを含む3つの方法でクロス統合およびアライメントを行い、マルチエンコーダを深く統合する。 そして、広く使われている2つの薬物関連エンティティ認識下流タスク、フラットエンティティ検出、不連続イベント抽出に関する広範な実験を行った。 我々のモデルは最新の12の最先端モデルを大きく上回っている。 実装コードは~\url{https://github.com/adlnlp/mc-dre}でリリースされる。

Extracting meaningful drug-related information chunks, such as adverse drug events (ADE), is crucial for preventing morbidity and saving many lives. Most ADE are reported via an unstructured conversation with the medical context. Hence, applying a general entity recognition approach is not sufficient enough. The key is how to integrate and align multiple crucial aspects to detect drug event information, including drug event semantics, syntactic structures, and medical domain terminology. In this paper, we propose a new multi-aspect cross-integration framework for drug entity/event detection by capturing and aligning different context/language/knowledge properties from drug-related documents. We first construct multi-aspect encoders to describe semantic, syntactic, and medical document contextual information by conducting those slot tagging tasks, main drug entity/event detection, part-of-speech tagging, and general medical named entity recognition. Then, each encoder conducts cross integration and alignment with other contextual information in three ways, including the key-value cross, attention cross, and feedforward cross, so the multi-encoders are integrated in depth. Then, we perform extensive experiments on two widely used drug-related entity recognition downstream tasks, flat entity detection and discontinuous event extraction. Our model significantly outperforms all recent twelve state-of-the-art models. The implementation code will be released at~\url{https://github.com/adlnlp/mc-dre}.
翻訳日:2023-08-15 16:43:25 公開日:2023-08-12
# 急勾配上昇, 土地被覆, 地形パラメータを用いた都市域のデジタル標高モデル補正

Digital elevation model correction in urban areas using extreme gradient boosting, land cover and terrain parameters ( http://arxiv.org/abs/2308.06545v1 )

ライセンス: Link先を確認
Chukwuma Okolie, Jon Mills, Adedayo Adeleke, Julian Smit(参考訳) 都市のデジタル標高モデル(DEM)の精度は、土地被覆や地形の不規則性など多くの要因に影響されている。 さらに、グローバルなDEMでアーティファクトを構築することで、表面フロー経路を人工的にブロックする。 このことは、正確な地形情報が必要な都市景観における水文・環境モデリングの質と妥当性を損なう。 本研究では,南アフリカケープタウン上空の2つの中分解能30m DEM(Copernicus GLO-30とALOS World 3D)の精度を高めるために,極勾配促進(XGBoost)アンサンブルアルゴリズムを採用した。 XGBoostはスケーラブルでポータブルで多用途なグラデーション強化ライブラリであり、多くの環境モデリング問題を解決することができる。 トレーニングデータセットは、標高、都市フットプリント、斜面、アスペクト、表面粗さ、地形位置指数、地形粗さ指数、地形表面テクスチャ、ベクトル粗さ測定、森林被覆、裸地被覆を含む11の予測変数からなる。 目標変数(上昇誤差)は高度に高精度なLiDARに対して計算された。 トレーニングとテストの後、2つの実装サイトでDEMを修正するためのモデルが適用された。 この補正は、他の提案手法と競合する重要な精度向上を実現した。 Copernicus DEMの根平均二乗誤差(RMSE)は46~53%改善し、AW3D DEMのRMSEは72~73%改善した。 これらの結果から,DEMの品質向上と,都市流域における水文モデルの改善にともなう増木木の可能性が示された。

The accuracy of digital elevation models (DEMs) in urban areas is influenced by numerous factors including land cover and terrain irregularities. Moreover, building artifacts in global DEMs cause artificial blocking of surface flow pathways. This compromises their quality and adequacy for hydrological and environmental modelling in urban landscapes where precise and accurate terrain information is needed. In this study, the extreme gradient boosting (XGBoost) ensemble algorithm is adopted for enhancing the accuracy of two medium-resolution 30m DEMs over Cape Town, South Africa: Copernicus GLO-30 and ALOS World 3D (AW3D). XGBoost is a scalable, portable and versatile gradient boosting library that can solve many environmental modelling problems. The training datasets are comprised of eleven predictor variables including elevation, urban footprints, slope, aspect, surface roughness, topographic position index, terrain ruggedness index, terrain surface texture, vector roughness measure, forest cover and bare ground cover. The target variable (elevation error) was calculated with respect to highly accurate airborne LiDAR. After training and testing, the model was applied for correcting the DEMs at two implementation sites. The correction achieved significant accuracy gains which are competitive with other proposed methods. The root mean square error (RMSE) of Copernicus DEM improved by 46 to 53% while the RMSE of AW3D DEM improved by 72 to 73%. These results showcase the potential of gradient boosted trees for enhancing the quality of DEMs, and for improved hydrological modelling in urban catchments.
翻訳日:2023-08-15 16:42:58 公開日:2023-08-12
# 医用画像の深層学習のための少量の注釈付きデータセットによる評価:畳み込みモデルにおけるコントラスト法とマスクオートエンコーダ法の比較によるCTスキャンの自己監督評価

Dealing with Small Annotated Datasets for Deep Learning in Medical Imaging: An Evaluation of Self-Supervised Pre-Training on CT Scans Comparing Contrastive and Masked Autoencoder Methods for Convolutional Models ( http://arxiv.org/abs/2308.06534v1 )

ライセンス: Link先を確認
Daniel Wolf, Tristan Payer, Catharina Silvia Lisson, Christoph Gerhard Lisson, Meinrad Beer, Timo Ropinski, Michael G\"otz(参考訳) 医用画像の深層学習は、診断ミスのリスクを最小限に抑え、放射線医の作業量を減らし、診断を加速する可能性がある。 このようなディープラーニングモデルのトレーニングには,すべてのトレーニングサンプルに対するアノテーションを備えた,大規模かつ正確なデータセットが必要です。 しかし、医療画像領域では、アノテーションの複雑さやアクセスの制限、病気の希少さなどにより、特定のタスクのための注釈付きデータセットは少ないことが多い。 この課題に対処するために、ディープラーニングモデルは、自己教師付き学習の分野からのメソッドを使用するアノテーションなしで、大規模なイメージデータセットで事前トレーニングすることができる。 After pre-training, small annotated datasets are sufficient to fine-tune the models for a specific task, the so-called ``downstream task". The most popular self-supervised pre-training approaches in medical imaging are based on contrastive learning. However, recent studies in natural image processing indicate a strong potential for masked autoencoder approaches. Our work compares state-of-the-art contrastive learning methods with the recently introduced masked autoencoder approach "SparK" for convolutional neural networks (CNNs) on medical images. そこで本研究では,大規模無注釈CT画像データセットと下流CT分類タスクを事前学習する。 医用画像領域で十分なアノテートトレーニングデータを得ることの難しさから、下流の小さなデータセットで自己教師付き事前学習法がどのように機能するかを評価することが特に重要である。 下流タスクのトレーニングデータセットサイズを徐々に減らす実験により、選択した事前学習の種類によって、削減が異なることが判明した。 SparK事前学習法は、対照的な方法よりもトレーニングデータセットサイズに対して堅牢である。 この結果に基づき,小データセットを用いた医用下流タスクのためのSparK事前学習を提案する。

Deep learning in medical imaging has the potential to minimize the risk of diagnostic errors, reduce radiologist workload, and accelerate diagnosis. Training such deep learning models requires large and accurate datasets, with annotations for all training samples. However, in the medical imaging domain, annotated datasets for specific tasks are often small due to the high complexity of annotations, limited access, or the rarity of diseases. To address this challenge, deep learning models can be pre-trained on large image datasets without annotations using methods from the field of self-supervised learning. After pre-training, small annotated datasets are sufficient to fine-tune the models for a specific task, the so-called ``downstream task". The most popular self-supervised pre-training approaches in medical imaging are based on contrastive learning. However, recent studies in natural image processing indicate a strong potential for masked autoencoder approaches. Our work compares state-of-the-art contrastive learning methods with the recently introduced masked autoencoder approach "SparK" for convolutional neural networks (CNNs) on medical images. Therefore we pre-train on a large unannotated CT image dataset and fine-tune on several downstream CT classification tasks. Due to the challenge of obtaining sufficient annotated training data in the medical imaging domain, it is of particular interest to evaluate how the self-supervised pre-training methods perform on small downstream datasets. By experimenting with gradually reducing the training dataset size of our downstream tasks, we find that the reduction has different effects depending on the type of pre-training chosen. The SparK pre-training method is more robust to the training dataset size than the contrastive methods. Based on our results, we propose the SparK pre-training for medical downstream tasks with small datasets.
翻訳日:2023-08-15 16:42:36 公開日:2023-08-12
# SegPrompt: カテゴリレベルのプロンプト学習によるオープンワールドセグメンテーションの促進

SegPrompt: Boosting Open-world Segmentation via Category-level Prompt Learning ( http://arxiv.org/abs/2308.06531v1 )

ライセンス: Link先を確認
Muzhi Zhu, Hengtao Li, Hao Chen, Chengxiang Fan, Weian Mao, Chenchen Jing, Yifan Liu, Chunhua Shen(参考訳) 現在のクローズドセットインスタンスセグメンテーションモデルは、トレーニングと評価の間、マスクごとに予め定義されたクラスラベルに依存している。 オープンワールドインスタンスセグメンテーション(OWIS)モデルは、クラスに依存しない方法で未知のオブジェクトを検出することでこの問題に対処する。 しかし、以前のOWISアプローチでは、モデルが未知のオブジェクトに一般化する能力を維持するために、トレーニング中のカテゴリ情報を完全に消去する。 本研究では,カテゴリ情報を用いて既知のカテゴリと未知カテゴリの両方に対して,モデルのクラス非依存なセグメンテーション能力を改善する,segpromptと呼ばれる新しいトレーニングメカニズムを提案する。 さらに、以前のowisトレーニング設定では、未知のクラスをトレーニングセットに公開し、実世界では不合理な情報漏洩を引き起こす。 そこで本研究では,データセットクラスを未知の部分に分割することで,実世界のシナリオに近い新しいオープンワールドベンチマークを提案する。 トレーニングセットのイメージに決して現れないオブジェクトを発見できるというモデルの能力に、私たちは初めて注目します。 実験によると、新しいベンチマークでは、SegPromptは推論効率に影響を与えることなく、全体の5.6%と6.1%のARで検出性能を改善できる。 さらに,既存のクロスデータセット転送と強い教師付き設定に対する提案手法の有効性を実証し,5.5%と12.3%の相対的改善を導いた。

Current closed-set instance segmentation models rely on pre-defined class labels for each mask during training and evaluation, largely limiting their ability to detect novel objects. Open-world instance segmentation (OWIS) models address this challenge by detecting unknown objects in a class-agnostic manner. However, previous OWIS approaches completely erase category information during training to keep the model's ability to generalize to unknown objects. In this work, we propose a novel training mechanism termed SegPrompt that uses category information to improve the model's class-agnostic segmentation ability for both known and unknown categories. In addition, the previous OWIS training setting exposes the unknown classes to the training set and brings information leakage, which is unreasonable in the real world. Therefore, we provide a new open-world benchmark closer to a real-world scenario by dividing the dataset classes into known-seen-unseen parts. For the first time, we focus on the model's ability to discover objects that never appear in the training set images. Experiments show that SegPrompt can improve the overall and unseen detection performance by 5.6% and 6.1% in AR on our new benchmark without affecting the inference efficiency. We further demonstrate the effectiveness of our method on existing cross-dataset transfer and strongly supervised settings, leading to 5.5% and 12.3% relative improvement.
翻訳日:2023-08-15 16:42:05 公開日:2023-08-12
# 価値分布モデルに基づく強化学習

Value-Distributional Model-Based Reinforcement Learning ( http://arxiv.org/abs/2308.06590v1 )

ライセンス: Link先を確認
Carlos E. Luis, Alessandro G. Bottero, Julia Vinogradska, Felix Berkenkamp, Jan Peters(参考訳) 政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。 モデルに基づくベイズ強化学習の観点から,マルコフ決定過程のパラメータ(直観的)の不確かさによって引き起こされる値関数の後方分布を学習することを目的とする。 以前の研究は、分析を値上の分布のいくつかの瞬間に制限したり、例えばガウスのような特定の分布形式を課す。 分布強化学習に着想を得て,固定点が値分布関数であるベルマン演算子を導入する。 本理論に基づいて,政策最適化に利用可能な値分布関数を学習するモデルベースアルゴリズムであるEpestmic Quantile-Regression(EQR)を提案する。 複数の連続制御タスクに対する評価は、確立されたモデルベースおよびモデルフリーアルゴリズムに対するパフォーマンス上の利点を示している。

Quantifying uncertainty about a policy's long-term performance is important to solve sequential decision-making tasks. We study the problem from a model-based Bayesian reinforcement learning perspective, where the goal is to learn the posterior distribution over value functions induced by parameter (epistemic) uncertainty of the Markov decision process. Previous work restricts the analysis to a few moments of the distribution over values or imposes a particular distribution shape, e.g., Gaussians. Inspired by distributional reinforcement learning, we introduce a Bellman operator whose fixed-point is the value distribution function. Based on our theory, we propose Epistemic Quantile-Regression (EQR), a model-based algorithm that learns a value distribution function that can be used for policy optimization. Evaluation across several continuous-control tasks shows performance benefits with respect to established model-based and model-free algorithms.
翻訳日:2023-08-15 16:35:41 公開日:2023-08-12
# グラフクエリの近似応答

Approximate Answering of Graph Queries ( http://arxiv.org/abs/2308.06585v1 )

ライセンス: Link先を確認
Michael Cochez, Dimitrios Alivanistos, Erik Arakelyan, Max Berrendorf, Daniel Daza, Mikhail Galkin, Pasquale Minervini, Mathias Niepert, Hongyu Ren(参考訳) 知識グラフ(KG)は本質的に不完全な世界知識とKGへの入力のバイアスのため不完全である。 さらに、世界の知識は常に拡大し進化し、既存の事実を非推奨にしたり、新しい事実を導入したりする。 しかし、グラフが完成したかのようにクエリに答えられるようにしたいのです。 本章では,このような条件下でクエリに応答するために提案されたいくつかの手法の概要について述べる。 まず、これらのメソッドと一般的に評価に使用されるデータセットがサポートするさまざまなクエリタイプの概要と、それらの制限に関する洞察を提供する。 次に、異なるアプローチの概要を説明し、表現力、サポートされたグラフタイプ、推論能力の観点からそれらを記述する。

Knowledge graphs (KGs) are inherently incomplete because of incomplete world knowledge and bias in what is the input to the KG. Additionally, world knowledge constantly expands and evolves, making existing facts deprecated or introducing new ones. However, we would still want to be able to answer queries as if the graph were complete. In this chapter, we will give an overview of several methods which have been proposed to answer queries in such a setting. We will first provide an overview of the different query types which can be supported by these methods and datasets typically used for evaluation, as well as an insight into their limitations. Then, we give an overview of the different approaches and describe them in terms of expressiveness, supported graph types, and inference capabilities.
翻訳日:2023-08-15 16:35:28 公開日:2023-08-12
# 高速かつ効率的なスパイクニューラルネットワークの学習のためのゲーテッドアテンション符号化

Gated Attention Coding for Training High-performance and Efficient Spiking Neural Networks ( http://arxiv.org/abs/2308.06582v1 )

ライセンス: Link先を確認
Xuerui Qiu, Rui-Jie Zhu, Yuhong Chou, Zhaorui Wang, Liang-jian Deng, Guoqi Li(参考訳) スパイキングニューラルネットワーク(SNN)は、独自のスパイクベースのイベント駆動性のため、従来の人工知能ニューラルネットワーク(ANN)に代わるエネルギー効率の高い代替品として登場している。 外部入力刺激を時空間の特徴系列に変換するため、SNNでは符号化が重要である。 しかし、既存のディープSNNの多くは、パワーレススパイク表現を生成するダイレクトコーディングに依存しており、人間の視覚に固有の時間的ダイナミクスを欠いている。 そこで本研究では,多次元ゲートアテンションユニットを利用して,入力を強力な表現に効率的にエンコードし,snnアーキテクチャに供給するプラグアンドプレイモジュールであるgated attention coding (gac)を導入する。 GACは、SNNのスパイク駆動性を破壊しない前処理層として機能し、最小限の変更で効率的なニューロモルフィックハードウェアの実装を可能にする。 観測者モデル理論解析により,GACの注意機構が時間的ダイナミクスと符号化効率を向上させることを示す。 CIFAR10/100とImageNetデータセットの実験では、GACが最先端の精度を目覚ましい効率で達成している。 特に、CIFAR100でトップ1の精度を3.10\%改善し、ImageNetで1.07\%、エネルギー使用量を66.9\%に削減した。 我々の知る限りでは、大規模データセットにおいて例外的な効率と効率で、注目に基づく動的符号化方式を深層SNNで探求するのは初めてである。

Spiking neural networks (SNNs) are emerging as an energy-efficient alternative to traditional artificial neural networks (ANNs) due to their unique spike-based event-driven nature. Coding is crucial in SNNs as it converts external input stimuli into spatio-temporal feature sequences. However, most existing deep SNNs rely on direct coding that generates powerless spike representation and lacks the temporal dynamics inherent in human vision. Hence, we introduce Gated Attention Coding (GAC), a plug-and-play module that leverages the multi-dimensional gated attention unit to efficiently encode inputs into powerful representations before feeding them into the SNN architecture. GAC functions as a preprocessing layer that does not disrupt the spike-driven nature of the SNN, making it amenable to efficient neuromorphic hardware implementation with minimal modifications. Through an observer model theoretical analysis, we demonstrate GAC's attention mechanism improves temporal dynamics and coding efficiency. Experiments on CIFAR10/100 and ImageNet datasets demonstrate that GAC achieves state-of-the-art accuracy with remarkable efficiency. Notably, we improve top-1 accuracy by 3.10\% on CIFAR100 with only 6-time steps and 1.07\% on ImageNet while reducing energy usage to 66.9\% of the previous works. To our best knowledge, it is the first time to explore the attention-based dynamic coding scheme in deep SNNs, with exceptional effectiveness and efficiency on large-scale datasets.
翻訳日:2023-08-15 16:35:17 公開日:2023-08-12
# 協調共進化とグローバルクロスオーバーについて

On Cooperative Coevolution and Global Crossover ( http://arxiv.org/abs/2308.06581v1 )

ライセンス: Link先を確認
Larry Bull and Haixia Liu(参考訳) 協調共進化アルゴリズム(CCEA)は、与えられた問題を複数のサブプロブレムに分割し、進化アルゴリズムを用いて各サブプロブレムを解く。 この短い論文は、単一のグローバルなフィットネス指標しか存在しないシナリオに関するものである。 一般的なサブプロブレムパートナー機構を取り除くことで、そのようなcceasは初期の進化戦略で導入されたグローバルクロスオーバー演算子の一般化版であると見なすことができる。 フィットネスランドスケープのよく知られたNKモデルを用いて、基礎となるフィットネスランドスケープの頑丈さに対するグローバルクロスオーバーの様々な側面の影響を探索する。 その結果、最も広く使われているCCEAよりも改善が示唆され、他のよく知られたテスト関数を使ってさらに実証された。

Cooperative coevolutionary algorithms (CCEAs) divide a given problem in to a number of subproblems and use an evolutionary algorithm to solve each subproblem. This short paper is concerned with the scenario under which only a single, global fitness measure exists. By removing the typically used subproblem partnering mechanism, it is suggested that such CCEAs can be viewed as making use of a generalised version of the global crossover operator introduced in early Evolution Strategies. Using the well-known NK model of fitness landscapes, the effects of varying aspects of global crossover with respect to the ruggedness of the underlying fitness landscape are explored. Results suggest improvements over the most widely used form of CCEAs, something further demonstrated using other well-known test functions.
翻訳日:2023-08-15 16:34:51 公開日:2023-08-12
# 4drvo-net: マルチモーダルおよびマルチスケール適応融合を用いた深部4次元レーダー・ビジュアルオドメトリ

4DRVO-Net: Deep 4D Radar-Visual Odometry Using Multi-Modal and Multi-Scale Adaptive Fusion ( http://arxiv.org/abs/2308.06573v1 )

ライセンス: Link先を確認
Guirong Zhuo, Shouyi Lu, Huanyu Zhou, Lianqing Zheng, Lu Xiong(参考訳) 4次元(4d)レーダー・ビジュアルオドメトリ(4drvo)は、4dレーダーとカメラからの補完情報を統合し、高精度でロバストなポーズ推定を実現する魅力的なソリューションである。 しかし、4DRVOは3つの主な要因により、重要なトラッキングエラーを生じる可能性がある。 1) 4次元レーダー点雲の空間性 2) 4Dレーダとカメラ間の不正確なデータ関連と不正確な特徴相互作用 3) 環境中の動的物体による外乱がオドメトリー推定に影響を及ぼす。 本稿では,4次元レーダ・ビジュアル・オドメトリーの手法である4DRVO-Netを提案する。 この方法は、特徴ピラミッド、ポーズ整合、コストボリューム(PWC)ネットワークアーキテクチャを活用して、段階的にポーズを推定し、洗練する。 具体的には,リッチな4dレーダポイント情報を完全に考慮し,スパース4dレーダポイントクラウドの細かな学習を可能にする,radar-pointnet++と呼ばれるマルチスケールの機能抽出ネットワークを提案する。 この2つのモードを効果的に統合するために,4次元レーダポイント特徴に基づく画像特徴を自動的に選択する適応型4次元レーダカメラ融合モジュール(a-rcfm)を設計し,マルチスケールのクロスモーダル特徴の相互作用と適応型マルチモーダル特徴の融合を容易にする。 さらに,速度誘導点信頼度推定モジュールを導入し,局所的な動きパターンを計測し,動的物体や外れ値の影響を低減し,ポーズ修正中に連続的な更新を行う。 提案手法の優れた性能と各モジュール設計の有効性を,VoDデータセットと社内データセットの両方で示す。 本手法は,vodデータセットのほとんどのシーケンスにおいて,学習ベースおよび幾何ベースの手法よりも優れる。 さらに、A-LOAMの64行のLiDARオドメトリー結果にマッピングを使わずに接近する有望な性能を示した。

Four-dimensional (4D) radar--visual odometry (4DRVO) integrates complementary information from 4D radar and cameras, making it an attractive solution for achieving accurate and robust pose estimation. However, 4DRVO may exhibit significant tracking errors owing to three main factors: 1) sparsity of 4D radar point clouds; 2) inaccurate data association and insufficient feature interaction between the 4D radar and camera; and 3) disturbances caused by dynamic objects in the environment, affecting odometry estimation. In this paper, we present 4DRVO-Net, which is a method for 4D radar--visual odometry. This method leverages the feature pyramid, pose warping, and cost volume (PWC) network architecture to progressively estimate and refine poses. Specifically, we propose a multi-scale feature extraction network called Radar-PointNet++ that fully considers rich 4D radar point information, enabling fine-grained learning for sparse 4D radar point clouds. To effectively integrate the two modalities, we design an adaptive 4D radar--camera fusion module (A-RCFM) that automatically selects image features based on 4D radar point features, facilitating multi-scale cross-modal feature interaction and adaptive multi-modal feature fusion. In addition, we introduce a velocity-guided point-confidence estimation module to measure local motion patterns, reduce the influence of dynamic objects and outliers, and provide continuous updates during pose refinement. We demonstrate the excellent performance of our method and the effectiveness of each module design on both the VoD and in-house datasets. Our method outperforms all learning-based and geometry-based methods for most sequences in the VoD dataset. Furthermore, it has exhibited promising performance that closely approaches that of the 64-line LiDAR odometry results of A-LOAM without mapping optimization.
翻訳日:2023-08-15 16:34:37 公開日:2023-08-12
# 効率的な量子ファクタリングアルゴリズム

An Efficient Quantum Factoring Algorithm ( http://arxiv.org/abs/2308.06572v1 )

ライセンス: Link先を確認
Oded Regev(参考訳) 我々は、$n$-bit整数が$\tilde{O}(n^{3/2})$ gates for $\sqrt{n}+4$ times の量子回路を独立に実行し、多項式時間古典的後処理を用いて分解可能であることを示す。 アルゴリズムの正確性は、副指数的古典的因子化アルゴリズムで使われるものを思い起こさせる数論的ヒューリスティックな仮定に依存する。 このアルゴリズムが実際に物理実装の改善に繋がるかどうかはまだ明らかになっていない。

We show that $n$-bit integers can be factorized by independently running a quantum circuit with $\tilde{O}(n^{3/2})$ gates for $\sqrt{n}+4$ times, and then using polynomial-time classical post-processing. The correctness of the algorithm relies on a number-theoretic heuristic assumption reminiscent of those used in subexponential classical factorization algorithms. It is currently not clear if the algorithm can lead to improved physical implementations in practice.
翻訳日:2023-08-15 16:34:05 公開日:2023-08-12
# modelscope text-to-videoテクニカルレポート

ModelScope Text-to-Video Technical Report ( http://arxiv.org/abs/2308.06571v1 )

ライセンス: Link先を確認
Jiuniu Wang, Hangjie Yuan, Dayou Chen, Yingya Zhang, Xiang Wang, Shiwei Zhang(参考訳) 本稿では,テキスト間合成モデル(安定拡散)から進化するテキスト間合成モデルであるModelScopeT2Vを紹介する。 modelscopet2vは時空間ブロックを組み込んで、一貫したフレーム生成と滑らかな移動遷移を保証する。 モデルはトレーニングや推論中に様々なフレーム番号に適応し、画像テキストとビデオテキストの両方のデータセットに適合する。 ModelScopeT2Vは3つのコンポーネント(VQGAN、テキストエンコーダ、およびデノベーションUNet)をまとめて、時間的能力に0.5億のパラメータを割り当てる。 このモデルは,3つの評価指標における最先端手法よりも優れた性能を示す。 コードとオンラインデモは \url{https://modelscope.cn/models/damo/text-to-video- synthesis/summary} で公開されている。

This paper introduces ModelScopeT2V, a text-to-video synthesis model that evolves from a text-to-image synthesis model (i.e., Stable Diffusion). ModelScopeT2V incorporates spatio-temporal blocks to ensure consistent frame generation and smooth movement transitions. The model could adapt to varying frame numbers during training and inference, rendering it suitable for both image-text and video-text datasets. ModelScopeT2V brings together three components (i.e., VQGAN, a text encoder, and a denoising UNet), totally comprising 1.7 billion parameters, in which 0.5 billion parameters are dedicated to temporal capabilities. The model demonstrates superior performance over state-of-the-art methods across three evaluation metrics. The code and an online demo are available at \url{https://modelscope.cn/models/damo/text-to-video-synthesis/summary}.
翻訳日:2023-08-15 16:33:53 公開日:2023-08-12
# 超伝導磁束量子ビットを持つ乗算器からなる4ビット分解回路

4-bit Factorization Circuit Composed of Multiplier Units with Superconducting Flux Qubits toward Quantum Annealing ( http://arxiv.org/abs/2308.06566v1 )

ライセンス: Link先を確認
Daisuke Saida, Mutsuo Hidaka, and Yuki Yamanashi(参考訳) 素因数分解(P = M*N)は量子計算における有望な応用であると考えられている。 超伝導フラックス量子ビットを用いた量子アニールの4ビット分解実験を行った。 提案手法は,MとNの組み合わせを,整数Pが最初に設定されたときの量子アニール後の分解解として提供する乗算器ハミルトニアンを実装した超伝導量子回路を用いる。 回路は複数の乗算器ユニットと接続キュービットとを結合して構成する。 鍵となる点は、超伝導量子回路への乗数ハミルトンのネイティブ実装であり、量子ビット専用のジョセフソン接合を持つNb多層プロセスを用いてその製造を行う。 4ビット因子化回路は、32の超伝導磁束量子ビットからなる。 本手法は,従来のキメラグラフアーキテクチャを用いた手法よりも,ハミルトニアンを少ないキュービットで実装するため,スケーラビリティに優れる。 量子ビットを用いた乗算器の相互接続の妥当性を明らかにするため,10mk実験を行った。 4.2 k における実験と整数 4, 6, 9 の因子分解のシミュレーションを行った。

Prime factorization (P = M*N) is considered to be a promising application in quantum computations. We perform 4-bit factorization in experiments using a superconducting flux qubit toward quantum annealing. Our proposed method uses a superconducting quantum circuit implementing a multiplier Hamiltonian, which provides combinations of M and N as a factorization solution after quantum annealing when the integer P is initially set. The circuit comprises multiple multiplier units combined with connection qubits. The key points are a native implementation of the multiplier Hamiltonian to the superconducting quantum circuit and its fabrication using a Nb multilayer process with a Josephson junction dedicated to the qubit. The 4-bit factorization circuit comprises 32 superconducting flux qubits. Our method has superior scalability because the Hamiltonian is implemented with fewer qubits than in conventional methods using a chimera graph architecture. We perform experiments at 10 mK to clarify the validity of interconnections of a multiplier unit using qubits. We demonstrate experiments at 4.2 K and simulations for the factorization of integers 4, 6, and 9.
翻訳日:2023-08-15 16:33:38 公開日:2023-08-12
# Equidiff:軌道予測のための条件等変拡散モデル

EquiDiff: A Conditional Equivariant Diffusion Model For Trajectory Prediction ( http://arxiv.org/abs/2308.06564v1 )

ライセンス: Link先を確認
Kehua Chen, Xianda Chen, Zihan Yu, Meixin Zhu, Hai Yang(参考訳) 正確な軌道予測は、自動運転車の安全かつ効率的な運用に不可欠である。 ディープラーニングの普及は、軌道予測のための多くの方法の開発につながった。 決定論的ディープラーニングモデルが広く使われている一方で、深層生成モデルは、トレーニングデータからデータ分布を学び、軌道の不確かさを考慮し、人気を集めている。 本研究では,将来の車両軌跡予測のための深部生成モデルであるequidiffを提案する。 EquiDiffは、過去の情報とランダムなガウスノイズを組み込んで将来の軌跡を生成する条件拡散モデルに基づいている。 エキディフのバックボーンモデルは、位置座標の幾何学的性質を完全に活用するSO(2)-同変変圧器である。 さらに,リカレントニューラルネットワークとグラフ注意ネットワークを用いて,歴史的軌跡から社会的相互作用を抽出する。 EquiDiffの性能を評価するため,NGSIMデータセットについて広範な実験を行った。 その結果,equidiffは短期予測では他のベースラインモデルよりも優れているが,長期予測では若干高い誤差があることがわかった。 さらに,各成分が予測精度に与える影響を調べるため,アブレーション研究を行った。 さらに, 拡散モデルの生成過程の可視化を行い, 予測の不確実性について考察する。

Accurate trajectory prediction is crucial for the safe and efficient operation of autonomous vehicles. The growing popularity of deep learning has led to the development of numerous methods for trajectory prediction. While deterministic deep learning models have been widely used, deep generative models have gained popularity as they learn data distributions from training data and account for trajectory uncertainties. In this study, we propose EquiDiff, a deep generative model for predicting future vehicle trajectories. EquiDiff is based on the conditional diffusion model, which generates future trajectories by incorporating historical information and random Gaussian noise. The backbone model of EquiDiff is an SO(2)-equivariant transformer that fully utilizes the geometric properties of location coordinates. In addition, we employ Recurrent Neural Networks and Graph Attention Networks to extract social interactions from historical trajectories. To evaluate the performance of EquiDiff, we conduct extensive experiments on the NGSIM dataset. Our results demonstrate that EquiDiff outperforms other baseline models in short-term prediction, but has slightly higher errors for long-term prediction. Furthermore, we conduct an ablation study to investigate the contribution of each component of EquiDiff to the prediction accuracy. Additionally, we present a visualization of the generation process of our diffusion model, providing insights into the uncertainty of the prediction.
翻訳日:2023-08-15 16:33:20 公開日:2023-08-12
# 3次元メッシュ再構成のための単眼ビデオの周期的テスト時間適応

Cyclic Test-Time Adaptation on Monocular Video for 3D Human Mesh Reconstruction ( http://arxiv.org/abs/2308.06554v1 )

ライセンス: Link先を確認
Hyeongjin Nam, Daniel Sungho Jung, Yeonguk Oh, Kyoung Mu Lee(参考訳) 最近の3Dメッシュ再構築の進歩にもかかわらず、トレーニングとテストデータのドメインギャップは依然として大きな課題である。 いくつかの先行研究は、テスト画像から2Dエビデンス(例えば2D人間のキーポイント)に依存するネットワークを微調整するテスト時間適応によってドメインギャップ問題に取り組む。 しかし、適応中の2D証拠への高い依存は2つの大きな問題を引き起こす。 まず、2次元の証拠は深さの曖昧さを誘発し、正確な3次元の幾何学の学習を妨げる。 第二に、2Dの証拠は、試験期間中にうるさいか、部分的には存在しない。 以上の課題を克服するために,人間のメッシュ再構成ネットワーク(HMRNet)と人間の動き認知ネットワーク(MDNet)の2つのネットワークに周期的に適応するCycleAdaptを紹介した。 本フレームワークでは,HMRNetをMDNetが生成した3D監視目標をフルに監視し,高信頼度2Dエビデンスを緩和する。 提案手法は,不完全な2次元証拠を補償する3次元監視目標を段階的に複雑化する。 その結果、CycleAdaptは従来のテスト時間適応手法と比較して最先端の性能を実現した。 コードはhttps://github.com/hygenie1228/CycleAdapt_RELEASEで公開されている。

Despite recent advances in 3D human mesh reconstruction, domain gap between training and test data is still a major challenge. Several prior works tackle the domain gap problem via test-time adaptation that fine-tunes a network relying on 2D evidence (e.g., 2D human keypoints) from test images. However, the high reliance on 2D evidence during adaptation causes two major issues. First, 2D evidence induces depth ambiguity, preventing the learning of accurate 3D human geometry. Second, 2D evidence is noisy or partially non-existent during test time, and such imperfect 2D evidence leads to erroneous adaptation. To overcome the above issues, we introduce CycleAdapt, which cyclically adapts two networks: a human mesh reconstruction network (HMRNet) and a human motion denoising network (MDNet), given a test video. In our framework, to alleviate high reliance on 2D evidence, we fully supervise HMRNet with generated 3D supervision targets by MDNet. Our cyclic adaptation scheme progressively elaborates the 3D supervision targets, which compensate for imperfect 2D evidence. As a result, our CycleAdapt achieves state-of-the-art performance compared to previous test-time adaptation methods. The codes are available at https://github.com/hygenie1228/CycleAdapt_RELEASE.
翻訳日:2023-08-15 16:33:01 公開日:2023-08-12
# Polyp-SAM++: テキストガイドSAMは、Polypセグメンテーションでより良く動作するか?

Polyp-SAM++: Can A Text Guided SAM Perform Better for Polyp Segmentation? ( http://arxiv.org/abs/2308.06623v1 )

ライセンス: Link先を確認
Risab Biswas(参考訳) Metaは最近、汎用セグメンテーションモデルであるSAM(Segment Anything Model)をリリースした。 SAMは、医療画像のセグメンテーションを含む様々なセグメンテーションタスクにおいて有望な結果を示している。 医用画像セグメンテーションの分野では、ポリープセグメンテーションは高い重要性を持つ位置にあり、堅牢で精度の高いモデルを作成することは極めて困難である。 ポリープセグメンテーションは大腸癌の診断と治療を改善するための基本的な課題である。 そこで本研究では,テキストプロンプト支援SAMであるPolyp-SAM++が,より堅牢で高精度なPolypセグメンテーションのためのテキストプロンプトによってSAMをより有効に活用できることを示す。 ベンチマークデータセットのポリプセグメンテーションタスクにおいて,テキスト誘導SAMの性能を評価する。 また、テキスト誘導SAMとプロンプトなしSAMの結果を比較する。 本研究では,ポリプセグメンテーションの分野を前進させ,さらに興味をそそる研究を刺激したい。 コードやその他の詳細は、https://github.com/RisabBiswas/Polyp-SAM++.comで公開される予定だ。

Meta recently released SAM (Segment Anything Model) which is a general-purpose segmentation model. SAM has shown promising results in a wide variety of segmentation tasks including medical image segmentation. In the field of medical image segmentation, polyp segmentation holds a position of high importance, thus creating a model which is robust and precise is quite challenging. Polyp segmentation is a fundamental task to ensure better diagnosis and cure of colorectal cancer. As such in this study, we will see how Polyp-SAM++, a text prompt-aided SAM, can better utilize a SAM using text prompting for robust and more precise polyp segmentation. We will evaluate the performance of a text-guided SAM on the polyp segmentation task on benchmark datasets. We will also compare the results of text-guided SAM vs unprompted SAM. With this study, we hope to advance the field of polyp segmentation and inspire more, intriguing research. The code and other details will be made publically available soon at https://github.com/RisabBiswas/Polyp-SAM++.
翻訳日:2023-08-15 16:24:37 公開日:2023-08-12
# DFM-X:ショートカット学習の事前知識を活用した強化

DFM-X: Augmentation by Leveraging Prior Knowledge of Shortcut Learning ( http://arxiv.org/abs/2308.06622v1 )

ライセンス: Link先を確認
Shunxin Wang, Christoph Brune, Raymond Veldhuis and Nicola Strisciuglio(参考訳) ニューラルネットワークは、データの表面的統計、すなわちモデルの一般化と堅牢性を損なう近道学習から、簡単なソリューションを学ぶ傾向にあります。 本研究では,画像分類モデルで計算された優性周波数マップにエンコードされる周波数ショートカットに関する知識を活用するデータ拡張戦略であるdfm-xを提案する。 我々は,あるクラスの学習画像をランダムに選択し,他のクラスのDFMに含まれる周波数を保持することによって処理する。 この戦略は、特定の周波数セットに頼るのではなく、より広い周波数範囲の分類をモデルに強制する。 このように、モデルは標準設定で訓練されたモデルに比べて、より深くタスク関連のセマンティクスを学習する。 トレーニングデータの視覚的なバリエーションの増大に着目した他の一般的な拡張手法とは異なり,本手法では,モデルの破壊的学習行動に関する事前知識をデータから抽出することで,元のデータを効率的に活用することを目指している。 実験の結果,DFM-Xは一般的な汚職や敵攻撃に対する堅牢性を向上することが示された。 モデルの堅牢性をさらに向上するために、他の拡張テクニックとシームレスに統合することができる。

Neural networks are prone to learn easy solutions from superficial statistics in the data, namely shortcut learning, which impairs generalization and robustness of models. We propose a data augmentation strategy, named DFM-X, that leverages knowledge about frequency shortcuts, encoded in Dominant Frequencies Maps computed for image classification models. We randomly select X% training images of certain classes for augmentation, and process them by retaining the frequencies included in the DFMs of other classes. This strategy compels the models to leverage a broader range of frequencies for classification, rather than relying on specific frequency sets. Thus, the models learn more deep and task-related semantics compared to their counterpart trained with standard setups. Unlike other commonly used augmentation techniques which focus on increasing the visual variations of training data, our method targets exploiting the original data efficiently, by distilling prior knowledge about destructive learning behavior of models from data. Our experimental results demonstrate that DFM-X improves robustness against common corruptions and adversarial attacks. It can be seamlessly integrated with other augmentation techniques to further enhance the robustness of models.
翻訳日:2023-08-15 16:24:18 公開日:2023-08-12
# 非構造プルーニングはディープニューラルネットワークの深さを減少させるか?

Can Unstructured Pruning Reduce the Depth in Deep Neural Networks? ( http://arxiv.org/abs/2308.06619v1 )

ライセンス: Link先を確認
Liao Zhu, Victor Qu\'etu, Van-Tam Nguyen, Enzo Tartaglione(参考訳) プルーニングは、パフォーマンスを維持しながらディープニューラルネットワークのサイズを減らすために広く使われているテクニックである。 しかし、そのようなテクニックは、深いモデルを大規模に圧縮することができるにもかかわらず、(構造化された場合でも)モデルから層全体を取り除くことができない。 本研究では,深層ニューラルネットワークのサイズを減らし,その性能を保ちつつ,革新的なエントロピー誘導型プルーニングアルゴリズムであるEGPを紹介する。 EGPの主な焦点は、低いエントロピーを持つ層におけるプルーニング接続を優先することであり、最終的に完全な削除につながる。 ResNet-18やSwin-Tのような一般的なモデルで実施された広範な実験を通じて、EGPは、競争性能を維持しながら、ディープニューラルネットワークを効果的に圧縮することを示した。 その結果、非構造的刈り込みの利点の背後にあるメカニズムを解明するだけでなく、エントロピー、刈り込み技術、深層学習性能の複雑な関係に関するさらなる研究の道を開くことができた。 EGPアルゴリズムとその洞察は、ネットワーク圧縮と最適化の分野を前進させる大きな可能性を秘めている。 EGPのソースコードはオープンソースである。

Pruning is a widely used technique for reducing the size of deep neural networks while maintaining their performance. However, such a technique, despite being able to massively compress deep models, is hardly able to remove entire layers from a model (even when structured): is this an addressable task? In this study, we introduce EGP, an innovative Entropy Guided Pruning algorithm aimed at reducing the size of deep neural networks while preserving their performance. The key focus of EGP is to prioritize pruning connections in layers with low entropy, ultimately leading to their complete removal. Through extensive experiments conducted on popular models like ResNet-18 and Swin-T, our findings demonstrate that EGP effectively compresses deep neural networks while maintaining competitive performance levels. Our results not only shed light on the underlying mechanism behind the advantages of unstructured pruning, but also pave the way for further investigations into the intricate relationship between entropy, pruning techniques, and deep learning performance. The EGP algorithm and its insights hold great promise for advancing the field of network compression and optimization. The source code for EGP is released open-source.
翻訳日:2023-08-15 16:24:01 公開日:2023-08-12
# 畳み込みと対向ロバスト性の相互作用について

On the Interplay of Convolutional Padding and Adversarial Robustness ( http://arxiv.org/abs/2308.06612v1 )

ライセンス: Link先を確認
Paul Gavrikov and Janis Keuper(参考訳) 畳み込み処理に先立ってパディングを適用して、畳み込みニューラルネットワーク(CNN)における特徴マップの解像度を維持するのが一般的である。 多くの代替案が存在するが、入力の周りにゼロの境界を追加することで達成されることが多い。 本研究は,パディングが使用される領域である画像境界において,逆攻撃が摂動異常を生じさせることが多いことを示す。 そこで本研究では,パディングモードと敵攻撃の相互作用を解析し,異なるパディングモード(あるいはその欠如)が,様々なシナリオにおける敵の堅牢性にどのように影響するかを問う。

It is common practice to apply padding prior to convolution operations to preserve the resolution of feature-maps in Convolutional Neural Networks (CNN). While many alternatives exist, this is often achieved by adding a border of zeros around the inputs. In this work, we show that adversarial attacks often result in perturbation anomalies at the image boundaries, which are the areas where padding is used. Consequently, we aim to provide an analysis of the interplay between padding and adversarial attacks and seek an answer to the question of how different padding modes (or their absence) affect adversarial robustness in various scenarios.
翻訳日:2023-08-15 16:23:43 公開日:2023-08-12
# Bio-SIEVE: システムレビュー自動化のための大規模言語モデルをチューニングするインストラクションの探索

Bio-SIEVE: Exploring Instruction Tuning Large Language Models for Systematic Review Automation ( http://arxiv.org/abs/2308.06610v1 )

ライセンス: Link先を確認
Ambrose Robinson, William Thorne, Ben P. Wu, Abdullah Pandor, Munira Essat, Mark Stevenson, Xingyi Song(参考訳) 医療体系的なレビューは非常に費用がかかり、リソースが集中する。 我々は,Large Language Models (LLMs) が,選択基準の詳細なセットが提供されると,文学のスクリーニングを行うためにどのようにサポートできるかを考察する。 具体的には,LLaMAモデルとGuanacoモデルを用いて,医療システムレビューのための抽象的なスクリーニングを行う。 私たちのベストモデルであるBio-SIEVEは、ChatGPTとトレーニングされた伝統的なアプローチの両方を上回り、医療領域全体にわたってより一般化します。 しかし、モデルにセーフティファーストのシナリオを適用するという課題は残っている。 また,PICO抽出や排他的推論などのタスクを含む,Bio-SIEVE-Multiを用いたマルチタスクトレーニングの効果についても検討するが,シングルタスクBio-SIEVEの性能と一致しないことがわかった。 バイオシーブは,生物医学的体系的レビュープロセスのためのllmを専門化するための重要なステップであり,今後の開発機会を探究するものである。 再現性のためにデータセットを再構築するためのモデル、コード、doisのリストをリリースします。

Medical systematic reviews can be very costly and resource intensive. We explore how Large Language Models (LLMs) can support and be trained to perform literature screening when provided with a detailed set of selection criteria. Specifically, we instruction tune LLaMA and Guanaco models to perform abstract screening for medical systematic reviews. Our best model, Bio-SIEVE, outperforms both ChatGPT and trained traditional approaches, and generalises better across medical domains. However, there remains the challenge of adapting the model to safety-first scenarios. We also explore the impact of multi-task training with Bio-SIEVE-Multi, including tasks such as PICO extraction and exclusion reasoning, but find that it is unable to match single-task Bio-SIEVE's performance. We see Bio-SIEVE as an important step towards specialising LLMs for the biomedical systematic review process and explore its future developmental opportunities. We release our models, code and a list of DOIs to reconstruct our dataset for reproducibility.
翻訳日:2023-08-15 16:23:32 公開日:2023-08-12
# 量子HPCミドルウェアの概念アーキテクチャ

A Conceptual Architecture for a Quantum-HPC Middleware ( http://arxiv.org/abs/2308.06608v1 )

ライセンス: Link先を確認
Nishant Saurabh, Shantenu Jha and Andre Luckow(参考訳) 量子コンピューティングは、古典的コンピュータよりも高速に計算的に複雑な問題を解決することで、科学や産業に可能性をもたらす。 量子コンピューティングシステムはモノリシックシステムから、複数の量子処理ユニット(QPU)と古典計算ノード(HPC)からなるモジュラーアーキテクチャへと進化した。 規模が大きくなるにつれ、量子古典コンピューティングの効率的な結合を促進するミドルウェアシステムの重要性が高まっている。 量子アプリケーション、統合パターン、システムの詳細な分析を通じて、量子-HPCミドルウェアシステムの理解のギャップを特定した。 我々は,量子古典的統合の推論を容易にするための概念的ミドルウェアを提案し,将来のミドルウェアシステムの基盤として機能する。 本稿では,HPCシステムに量子コンピューティングをシームレスに統合するために,ワークロードやタスク,リソースを管理するために確立された高性能コンピューティング抽象化を活用する上で重要な貢献である。

Quantum computing promises potential for science and industry by solving certain computationally complex problems faster than classical computers. Quantum computing systems evolved from monolithic systems towards modular architectures comprising multiple quantum processing units (QPUs) coupled to classical computing nodes (HPC). With the increasing scale, middleware systems that facilitate the efficient coupling of quantum-classical computing are becoming critical. Through an in-depth analysis of quantum applications, integration patterns and systems, we identified a gap in understanding Quantum-HPC middleware systems. We present a conceptual middleware to facilitate reasoning about quantum-classical integration and serve as the basis for a future middleware system. An essential contribution of this paper lies in leveraging well-established high-performance computing abstractions for managing workloads, tasks, and resources to integrate quantum computing into HPC systems seamlessly.
翻訳日:2023-08-15 16:23:10 公開日:2023-08-12
# LadleNet:スケーラブルな2段階U-Netを用いた可視光画像への熱赤外画像の変換

LadleNet: Translating Thermal Infrared Images to Visible Light Images Using A Scalable Two-stage U-Net ( http://arxiv.org/abs/2308.06603v1 )

ライセンス: Link先を確認
Tonghui Zou(参考訳) 熱赤外(TIR)画像から可視光(VI)画像への変換は、TIR-VI画像の登録や融合など、様々な領域にまたがる潜在的な応用に向けた課題を示す。 TIR画像変換から得られた補助情報を活用することで、これらのアプリケーション間でのモデル性能と一般化を大幅に向上させることができる。 しかし、この分野で一般的な問題には、最適な画像の忠実さとモデルのスケーラビリティの制限が含まれる。 本稿では,U-Netアーキテクチャに基づくアルゴリズムであるLadleNetを紹介する。 LadleNetは2段階のU-Net結合構造を採用し、スキップ接続と改良された特徴集約技術で強化され、モデル性能が大幅に向上した。 ハンドル」モジュールと「ボウル」モジュールからなるladlenetのハンドルモジュールは抽象的な意味空間の構築を容易にし、ボウルモジュールはこの意味空間をデコードしてマッピングされたvi画像を生成する。 ハンドラモジュールは、ネットワークアーキテクチャをセマンティクスセグメンテーションネットワークに置き換えることで拡張性を示し、モデルの性能を高めるためにより抽象的なセマンティクス空間を確立する。 そこで我々は,LadleNetのHandleモジュールを事前学習したDeepLabv3+ネットワークに置き換えたLadleNet+を提案する。 提案手法は, 定量的および定性的分析を伴って, KAISTデータセット上で評価, 検証を行った。 既存の手法と比較して,本手法は画像の明瞭さと知覚品質の観点から最先端の性能を実現する。 ソースコードはhttps://github.com/Ach-1914/LadleNet/tree/main/で入手できる。

The translation of thermal infrared (TIR) images to visible light (VI) images presents a challenging task with potential applications spanning various domains such as TIR-VI image registration and fusion. Leveraging supplementary information derived from TIR image conversions can significantly enhance model performance and generalization across these applications. However, prevailing issues within this field include suboptimal image fidelity and limited model scalability. In this paper, we introduce an algorithm, LadleNet, based on the U-Net architecture. LadleNet employs a two-stage U-Net concatenation structure, augmented with skip connections and refined feature aggregation techniques, resulting in a substantial enhancement in model performance. Comprising 'Handle' and 'Bowl' modules, LadleNet's Handle module facilitates the construction of an abstract semantic space, while the Bowl module decodes this semantic space to yield mapped VI images. The Handle module exhibits extensibility by allowing the substitution of its network architecture with semantic segmentation networks, thereby establishing more abstract semantic spaces to bolster model performance. Consequently, we propose LadleNet+, which replaces LadleNet's Handle module with the pre-trained DeepLabv3+ network, thereby endowing the model with enhanced semantic space construction capabilities. The proposed method is evaluated and tested on the KAIST dataset, accompanied by quantitative and qualitative analyses. Compared to existing methodologies, our approach achieves state-of-the-art performance in terms of image clarity and perceptual quality. The source code will be made available at https://github.com/Ach-1914/LadleNet/tree/main/.
翻訳日:2023-08-15 16:22:57 公開日:2023-08-12
# VisIT-Bench: 実世界利用に触発された視覚言語教育のベンチマーク

VisIT-Bench: A Benchmark for Vision-Language Instruction Following Inspired by Real-World Use ( http://arxiv.org/abs/2308.06595v1 )

ライセンス: Link先を確認
Yonatan Bitton, Hritik Bansal, Jack Hessel, Rulin Shao, Wanrong Zhu, Anas Awadalla, Josh Gardner, Rohan Taori, Ludwig Schimdt(参考訳) 実世界における視覚モデルの評価のためのベンチマークであるVisIT-Bench(Visual InsTruction Benchmark)を紹介する。 我々の出発点は、チューニングされた視覚言語モデルに対処できるはずの指導を想定する70の「インストラクションファミリー」をキュレーションすることである。 VQAv2やCOCOのような評価を超えて、タスクは基本的な認識からゲームプレイ、クリエイティブ生成まで幅広い。 キュレーションの後、データセットは592のテストクエリで構成され、それぞれに人間による命令条件付きキャプションがあります。 これらの説明は、例えば車椅子利用者のための店舗のアクセシビリティを尋ねる指示のために、表面的な命令固有の要素を記述し、命令条件付きキャプションはランプ/電位障害を記述している。 これらの説明は 1)各インスタンスのヒューマン検証された参照出力の収集,及び 2) テキストのみのLLMによる候補マルチモーダル世代の自動評価は, 人間の判断と一致した。 人的評価と自動評価の両方を用いて、モデルと参照間の品質ギャップを定量化する。例えば、トップパフォーマンスの命令追従モデルがGPT-4参照に対して、比較のわずか27%で勝利する。 VisIT-Benchは動的に参加でき、実践者は自身のモデルのレスポンスをプロジェクトのWebサイトに投稿するだけでよい。

We introduce VisIT-Bench (Visual InsTruction Benchmark), a benchmark for evaluation of instruction-following vision-language models for real-world use. Our starting point is curating 70 'instruction families' that we envision instruction tuned vision-language models should be able to address. Extending beyond evaluations like VQAv2 and COCO, tasks range from basic recognition to game playing and creative generation. Following curation, our dataset comprises 592 test queries, each with a human-authored instruction-conditioned caption. These descriptions surface instruction-specific factors, e.g., for an instruction asking about the accessibility of a storefront for wheelchair users, the instruction-conditioned caption describes ramps/potential obstacles. These descriptions enable 1) collecting human-verified reference outputs for each instance; and 2) automatic evaluation of candidate multimodal generations using a text-only LLM, aligning with human judgment. We quantify quality gaps between models and references using both human and automatic evaluations; e.g., the top-performing instruction-following model wins against the GPT-4 reference in just 27% of the comparison. VisIT-Bench is dynamic to participate, practitioners simply submit their model's response on the project website; Data, code and leaderboard is available at visit-bench.github.io.
翻訳日:2023-08-15 16:22:30 公開日:2023-08-12
# CoverNav: 深層強化学習による非構造屋外環境におけるナビゲーション計画後のカバー

CoverNav: Cover Following Navigation Planning in Unstructured Outdoor Environment with Deep Reinforcement Learning ( http://arxiv.org/abs/2308.06594v1 )

ライセンス: Link先を確認
Jumman Hossain, Abu-Zaher Faridee, Nirmalya Roy, Anjan Basak, Derrik E. Asher(参考訳) オフロード環境における自律ナビゲーションはロボット工学の分野で広く研究されている。 しかし、自動運転車が外部の観測者から隠れている必要がある隠蔽状態のナビゲーションは、未調査領域のままである。 本論文では,外路地形やジャングル環境において最小限のコストで隠蔽・航行可能な軌道を識別するための,DRL(Deep Reinforcement Learning)に基づく新しいアルゴリズムCoverNavを提案する。 covernavは、無人地上車両が避難所を探し、あらかじめ定義された目的地に安全に移動しながらカバーを取ることに焦点を当てている。 提案手法は,3dポイントクラウドデータ,ロボットのポーズ,目標情報から得られた標高マップを用いて,低コストな軌道を維持しながら,どの経路が最大秘密度を付与するかを識別する局所コストマップを計算する。 covernavは、ロボットエージェントが報奨機能を使って標高の低い地形を学習し、高い高度に達すると比例的にペナルティを課すのに役立つ。 観察者が発見されると、CoverNavはロボットが自然の障害物(岩、家、障害者用車、木など)を選択して隠れるためのシェルターとして使うことができる。 我々は,Unityシミュレーション環境を用いてCoverNavを評価し,別のDRLナビゲーションアルゴリズムによって生成された標高マップを入力した場合に,地形の動的実現可能な速度を保証することを示す。 さらに,最大目標距離12mを達成するためのcovernavの有効性を評価し,その成功率を被覆対象の有無に関わらず異なる高度シナリオで評価した。 我々は、精度を損なうことなく、最先端技術(SOTA)手法に匹敵する競争性能を観察する。

Autonomous navigation in offroad environments has been extensively studied in the robotics field. However, navigation in covert situations where an autonomous vehicle needs to remain hidden from outside observers remains an underexplored area. In this paper, we propose a novel Deep Reinforcement Learning (DRL) based algorithm, called CoverNav, for identifying covert and navigable trajectories with minimal cost in offroad terrains and jungle environments in the presence of observers. CoverNav focuses on unmanned ground vehicles seeking shelters and taking covers while safely navigating to a predefined destination. Our proposed DRL method computes a local cost map that helps distinguish which path will grant the maximal covertness while maintaining a low cost trajectory using an elevation map generated from 3D point cloud data, the robot's pose, and directed goal information. CoverNav helps robot agents to learn the low elevation terrain using a reward function while penalizing it proportionately when it experiences high elevation. If an observer is spotted, CoverNav enables the robot to select natural obstacles (e.g., rocks, houses, disabled vehicles, trees, etc.) and use them as shelters to hide behind. We evaluate CoverNav using the Unity simulation environment and show that it guarantees dynamically feasible velocities in the terrain when fed with an elevation map generated by another DRL based navigation algorithm. Additionally, we evaluate CoverNav's effectiveness in achieving a maximum goal distance of 12 meters and its success rate in different elevation scenarios with and without cover objects. We observe competitive performance comparable to state of the art (SOTA) methods without compromising accuracy.
翻訳日:2023-08-15 16:22:07 公開日:2023-08-12
# 二電子フェルミオンの多成分スピン混合

Multicomponent spin mixtures of two-electron fermions ( http://arxiv.org/abs/2308.06591v1 )

ライセンス: Link先を確認
Leonardo Fallani(参考訳) これらの講義ノートには、複数の内部状態に閉じ込められた超低温原子の量子混合物の物理学の紹介が含まれている。 内在的なSU($N$)相互作用対称性と核スピンの光学的操作に有用な方法が特徴であるアルカリ-アース原子のフェルミオン同位体の場合について論じる。 いくつかの研究方針が提示され、光学格子中の$^{173}$Yb原子の核-スピン混合物を用いてフィレンツェで行われた実験に焦点を当てる。

These lecture notes contain an introduction to the physics of quantum mixtures of ultracold atoms trapped in multiple internal states. I will discuss the case of fermionic isotopes of alkaline-earth atoms, which feature an intrinsic SU($N$) interaction symmetry and convenient methods for the optical manipulation of their nuclear spin. Some research directions will be presented, with focus on experiments performed in Florence with nuclear-spin mixtures of $^{173}$Yb atoms in optical lattices.
翻訳日:2023-08-15 16:21:38 公開日:2023-08-12
# Googleライク検索を用いた知識伝達

Smart Knowledge Transfer using Google-like Search ( http://arxiv.org/abs/2308.06653v1 )

ライセンス: Link先を確認
Srijoni Majumdar and Partha Pratim Das(参考訳) プログラム理解の課題によりソフトウェアメンテナンスコストが上昇する問題に対処するために,セマンティックグラフを用いてアプリケーションの様々な側面に関する知識を抽出・統合する検索フレームワークsmartkt(smart knowledge transfer)を提案する。 このグラフは構文と意味的クエリをサポートし、プログラム理解のプロセスをgoogleのような検索問題に変換する。

To address the issue of rising software maintenance cost due to program comprehension challenges, we propose SMARTKT (Smart Knowledge Transfer), a search framework, which extracts and integrates knowledge related to various aspects of an application in form of a semantic graph. This graph supports syntax and semantic queries and converts the process of program comprehension into a {\em google-like} search problem.
翻訳日:2023-08-15 16:14:33 公開日:2023-08-12
# プログレッシブ蒸留による拡散型組合せ最適化解法

Accelerating Diffusion-based Combinatorial Optimization Solvers by Progressive Distillation ( http://arxiv.org/abs/2308.06644v1 )

ライセンス: Link先を確認
Junwei Huang, Zhiqing Sun, Yiming Yang(参考訳) グラフベースの拡散モデルは、NP完全(NPC)組合せ最適化(CO)問題に対する高品質な解を生成するという点で有望な結果を示している。 しかし,これらのモデルはしばしば,拡散過程の反復的な評価特性のため,推論において非効率であることが多い。 本稿では, 脱離過程において, プログレッシブ蒸留を用いてより少ないステップ(例えば, 1 ステップ以内の2 ステップの予測)で推算を高速化することを提案する。 実験の結果, TSP-50データセットの性能は0.019%しか低下せず, 段階的に蒸留したモデルでは16倍高速に推算できることがわかった。

Graph-based diffusion models have shown promising results in terms of generating high-quality solutions to NP-complete (NPC) combinatorial optimization (CO) problems. However, those models are often inefficient in inference, due to the iterative evaluation nature of the denoising diffusion process. This paper proposes to use progressive distillation to speed up the inference by taking fewer steps (e.g., forecasting two steps ahead within a single step) during the denoising process. Our experimental results show that the progressively distilled model can perform inference 16 times faster with only 0.019% degradation in performance on the TSP-50 dataset.
翻訳日:2023-08-15 16:14:26 公開日:2023-08-12
# 3DMOTFormer:オンライン3Dマルチオブジェクト追跡のためのグラフトランス

3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking ( http://arxiv.org/abs/2308.06635v1 )

ライセンス: Link先を確認
Shuxiao Ding, Eike Rehder, Lukas Schneider, Marius Cordts and Juergen Gall(参考訳) 3Dオブジェクトを正確にかつ一貫して追跡することは、自動運転車にとって極めて重要である。 近年のオブジェクト検出の大幅な進歩に基づき、そのシンプルさと効率性から、トラッキング・バイ・検出のパラダイムが一般的な選択肢となっている。 最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存するが、多くの手動パラメータを必要とする。 一方、学習に基づくアプローチは、トレーニングをオンライン環境に適応させるという問題に直面しており、トレーニングと推論の間に必然的な分布ミスマッチが生じると同時に、最適性能が低下する。 本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマアーキテクチャをベースに構築されている。 エッジ拡張グラフ変換器を用いて、トラック検出二部グラフフレームをフレーム単位で推論し、エッジ分類によるデータアソシエーションを行う。 トレーニングと推論の分散ミスマッチを低減するために,自己回帰的かつ再帰的なフォワードパスと逐次バッチ最適化を備えた,新しいオンライントレーニング戦略を提案する。 提案手法では, nuScenes検証とテスト分割で71.2%, 68.2%のAMOTAが得られた。 さらに、訓練された3dmotformerモデルは、異なるオブジェクト検出器をまたいでよく一般化する。 コードは、https://github.com/dsx0511/3DMOTFormerで入手できる。

Tracking 3D objects accurately and consistently is crucial for autonomous vehicles, enabling more reliable downstream tasks such as trajectory prediction and motion planning. Based on the substantial progress in object detection in recent years, the tracking-by-detection paradigm has become a popular choice due to its simplicity and efficiency. State-of-the-art 3D multi-object tracking (MOT) approaches typically rely on non-learned model-based algorithms such as Kalman Filter but require many manually tuned parameters. On the other hand, learning-based approaches face the problem of adapting the training to the online setting, leading to inevitable distribution mismatch between training and inference as well as suboptimal performance. In this work, we propose 3DMOTFormer, a learned geometry-based 3D MOT framework building upon the transformer architecture. We use an Edge-Augmented Graph Transformer to reason on the track-detection bipartite graph frame-by-frame and conduct data association via edge classification. To reduce the distribution mismatch between training and inference, we propose a novel online training strategy with an autoregressive and recurrent forward pass as well as sequential batch optimization. Using CenterPoint detections, our approach achieves 71.2% and 68.2% AMOTA on the nuScenes validation and test split, respectively. In addition, a trained 3DMOTFormer model generalizes well across different object detectors. Code is available at: https://github.com/dsx0511/3DMOTFormer.
翻訳日:2023-08-15 16:14:16 公開日:2023-08-12
# DISQ: 変分量子アルゴリズムのための動的反復スキーピング

DISQ: Dynamic Iteration Skipping for Variational Quantum Algorithms ( http://arxiv.org/abs/2308.06634v1 )

ライセンス: Link先を確認
Junyao Zhang, Hanrui Wang, Gokul Subramanian Ravi, Frederic T. Chong, Song Han, Frank Mueller, Yiran Chen(参考訳) 本稿では,VQA訓練のための安定景観の構築とノイズドリフト問題への取り組みについて提案する。 DISQは参照回路を備えた「ドリフト検出器」を採用し、ノイズドリフトエラーによって深刻な影響を受けるイテレーションを特定し、スキップする。 具体的には、前回のトレーニングイテレーションからの回路を、現在のイテレーションにおける基準回路として再実行し、ノイズドリフトの影響を推定する。 この反復はノイズドリフトエラーによって侵害され、ノイズドリフトが理想的な最適化勾配の方向をひっくり返すとスキップされる。 ノイズドリフト検出の信頼性を高めるため,従来からの複数の参照回路を活用し,現在のノイズドリフトを適切に判断する手法を提案する。 それでも、複数の参照回路はかなりの実行オーバーヘッドをもたらす。 余分なオーバーヘッドを軽減するため、ドリフト検出時に大きな係数大(プライムサブセット)の観測可能な回路のみを実行するために、Pauli-term subsetting(プライムおよびマイナーサブセット)を提案する。 現在のイテレーションがドリフトフリーである場合、この小さなサブセットのみが実行される。 様々な応用およびQPUの評価により、DECはVQAに対するノイズドリフトの影響のかなりの部分を緩和し、従来のベースラインよりも1.51-2.24倍の忠実性向上を達成できることが示されている。 DISQの利点は1.1-1.9倍であり、平均ノイズ検出速度は2.07倍に向上する。

This paper proposes DISQ to craft a stable landscape for VQA training and tackle the noise drift challenge. DISQ adopts a "drift detector" with a reference circuit to identify and skip iterations that are severely affected by noise drift errors. Specifically, the circuits from the previous training iteration are re-executed as a reference circuit in the current iteration to estimate noise drift impacts. The iteration is deemed compromised by noise drift errors and thus skipped if noise drift flips the direction of the ideal optimization gradient. To enhance noise drift detection reliability, we further propose to leverage multiple reference circuits from previous iterations to provide a well founded judge of current noise drift. Nevertheless, multiple reference circuits also introduce considerable execution overhead. To mitigate extra overhead, we propose Pauli-term subsetting (prime and minor subsets) to execute only observable circuits with large coefficient magnitudes (prime subset) during drift detection. Only this minor subset is executed when the current iteration is drift-free. Evaluations across various applications and QPUs demonstrate that DISQ can mitigate a significant portion of the noise drift impact on VQAs and achieve 1.51-2.24x fidelity improvement over the traditional baseline. DISQ's benefit is 1.1-1.9x over the best alternative approach while boosting average noise detection speed by 2.07x
翻訳日:2023-08-15 16:13:48 公開日:2023-08-12
# Fusion-GRU:危険運転映像における交通エージェントの今後の境界ボックス予測のための深層学習モデル

Fusion-GRU: A Deep Learning Model for Future Bounding Box Prediction of Traffic Agents in Risky Driving Videos ( http://arxiv.org/abs/2308.06628v1 )

ライセンス: Link先を確認
Muhammad Monjurul Karim, Ruwen Qin, Yinhai Wang(参考訳) 複雑な交通シナリオにおいて、自動運転車と先進運転支援システムの安全かつ効率的なナビゲーションを確保するためには、周辺交通機関の今後の境界ボックスを予測することが不可欠である。 しかし、エゴセントリックな視点から目標交通機関の将来の位置と規模を同時に予測することは、車両の自走性が大幅に変化することによる課題を生じさせる。 さらに、異常な状況や危険な状況では、追跡損失や急激な動きの変化が観測時間を制限し、短時間の窓口で手がかりを学習する必要がある。 既存の手法は通常、単純な連結操作を使用して異なる手がかりを結合し、時間とともにそのダイナミクスを見下ろす。 そこで,本稿では,新しいエンコーダデコーダアーキテクチャである fusion-gated recurrent unit (fusion-gru) network を提案する。 従来のGRUとは異なり、Fusion-GRUは入力機能間の相互および複雑な相互作用を担っている。 さらに,自己アテンション集約層と結合した中間推定器を導入し,長期予測のための逐次的依存関係を学習する。 最後に、将来のバウンディングボックスを予測するためにGRUデコーダが使用される。 提案手法は, ROL と HEV-I の2つの公開データセットを用いて評価する。 実験の結果,Fusion-GRUの有望な性能を示し,将来的な交通機関の境界ボックス予測の有効性を示した。

To ensure the safe and efficient navigation of autonomous vehicles and advanced driving assistance systems in complex traffic scenarios, predicting the future bounding boxes of surrounding traffic agents is crucial. However, simultaneously predicting the future location and scale of target traffic agents from the egocentric view poses challenges due to the vehicle's egomotion causing considerable field-of-view changes. Moreover, in anomalous or risky situations, tracking loss or abrupt motion changes limit the available observation time, requiring learning of cues within a short time window. Existing methods typically use a simple concatenation operation to combine different cues, overlooking their dynamics over time. To address this, this paper introduces the Fusion-Gated Recurrent Unit (Fusion-GRU) network, a novel encoder-decoder architecture for future bounding box localization. Unlike traditional GRUs, Fusion-GRU accounts for mutual and complex interactions among input features. Moreover, an intermediary estimator coupled with a self-attention aggregation layer is also introduced to learn sequential dependencies for long range prediction. Finally, a GRU decoder is employed to predict the future bounding boxes. The proposed method is evaluated on two publicly available datasets, ROL and HEV-I. The experimental results showcase the promising performance of the Fusion-GRU, demonstrating its effectiveness in predicting future bounding boxes of traffic agents.
翻訳日:2023-08-15 16:13:24 公開日:2023-08-12
# ADRMX: リミックス損失を伴うドメイン機能の追加的アンタングル

ADRMX: Additive Disentanglement of Domain Features with Remix Loss ( http://arxiv.org/abs/2308.06624v1 )

ライセンス: Link先を確認
Berker Demirel, Erchan Aptoula and Huseyin Ozkan(参考訳) トレーニングセットとテストセットが同様のディストリビューションに従うという一般的な仮定は、デプロイメント設定でしばしば違反する。 複数のソースドメインが与えられたとき、ドメインの一般化は、新しい未知のドメインに一般化できる堅牢なモデルを作ることを目的としている。 この目的のために、既存の研究の多くは、ドメイン間分布変化の影響を軽減するために、利用可能なソースドメイン間でのドメイン不変の特徴の抽出に重点を置いている。 しかし、このアプローチは、ソースドメイン間の共通の特徴のみに依存することによって、モデルの一般化能力を制限する可能性がある。 これは、ドメインのサブセットに広まり、価値のある情報を含む可能性のあるドメイン固有の特性の存在を見逃している。 本稿では,remix loss (adrmx) を伴う領域特徴の付加的不等角化(addment disentanglement of domain features with remix loss)という新しいアーキテクチャを提案する。 さらに,異なる領域のサンプルを潜在空間内に混合するadrmxの一般化能力をさらに支援するために,新たなデータ拡張手法が導入された。 公正な条件下でDomainBed上で行われた広範な実験を通じて、ADRMXは最先端のパフォーマンスを達成する。 コードはリビジョンプロセスの後にGitHubで公開される。

The common assumption that train and test sets follow similar distributions is often violated in deployment settings. Given multiple source domains, domain generalization aims to create robust models capable of generalizing to new unseen domains. To this end, most of existing studies focus on extracting domain invariant features across the available source domains in order to mitigate the effects of inter-domain distributional changes. However, this approach may limit the model's generalization capacity by relying solely on finding common features among the source domains. It overlooks the potential presence of domain-specific characteristics that could be prevalent in a subset of domains, potentially containing valuable information. In this work, a novel architecture named Additive Disentanglement of Domain Features with Remix Loss (ADRMX) is presented, which addresses this limitation by incorporating domain variant features together with the domain invariant ones using an original additive disentanglement strategy. Moreover, a new data augmentation technique is introduced to further support the generalization capacity of ADRMX, where samples from different domains are mixed within the latent space. Through extensive experiments conducted on DomainBed under fair conditions, ADRMX is shown to achieve state-of-the-art performance. Code will be made available at GitHub after the revision process.
翻訳日:2023-08-15 16:13:02 公開日:2023-08-12