このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20231109となっている論文です。

PDF登録状況(公開日: 20231109)

TitleAuthorsAbstract論文公表日・翻訳日
# バーチャルリアリティー・モーションデータのセキュアで使いやすくスケーラブルなリアルタイム匿名化のためのディープモーション・マスキング

Deep Motion Masking for Secure, Usable, and Scalable Real-Time Anonymization of Virtual Reality Motion Data ( http://arxiv.org/abs/2311.05090v1 )

ライセンス: Link先を確認
Vivek Nair, Wenbo Guo, James F. O'Brien, Louis Rosenberg, Dawn Song, (参考訳) 仮想現実(VR)と「メタバース」システムは、大手テクノロジー企業がこの分野に参入し続けており、最近は関心と投資が復活している。 しかし、最近の研究では、ほぼすべてのVRアプリケーションで使われているモーショントラッキングの「テレメトリ」データが指紋スキャンと同じくらいに識別可能であることが示されており、メタバース技術に関するプライバシー上の懸念が提起されている。 これまでのVRモーションデータを匿名化するための試みではあったが、本稿では、既知の防御対策を確実に回避できる最先端のVR識別モデルを提示する。 次に,VRテレメトリデータのリアルタイム匿名化を容易にする新しい「ディープモーションマスキング」手法を提案する。 大規模なユーザスタディ(N=182)を通じて、我々の手法は既存のVR匿名システムよりもはるかに使いやすく、プライベートであることを示した。

Virtual reality (VR) and "metaverse" systems have recently seen a resurgence in interest and investment as major technology companies continue to enter the space. However, recent studies have demonstrated that the motion tracking "telemetry" data used by nearly all VR applications is as uniquely identifiable as a fingerprint scan, raising significant privacy concerns surrounding metaverse technologies. Although previous attempts have been made to anonymize VR motion data, we present in this paper a state-of-the-art VR identification model that can convincingly bypass known defensive countermeasures. We then propose a new "deep motion masking" approach that scalably facilitates the real-time anonymization of VR telemetry data. Through a large-scale user study (N=182), we demonstrate that our method is significantly more usable and private than existing VR anonymity systems.
翻訳日:2024-03-25 13:26:22 公開日:2023-11-09
# Ethereumノードを自宅で実行できますか?

Can we run our Ethereum nodes at home? ( http://arxiv.org/abs/2311.05252v1 )

ライセンス: Link先を確認
Mikel Cortes-Goicoechea, Tarun Mohandas-Daryanani, Jose L. Muñoz-Tapia, Leonardo Bautista-Gomez, (参考訳) 最も使われている無許可ブロックチェーンではスケーラビリティが一般的な問題であり、この問題を解決するためにいくつかのアプローチが提案されている。 ネットワークのセキュリティと分散化を保ちながらスケーラビリティに取り組むことは、大きな課題である。 効率的なスケーリングソリューションを提供するため、Ethereumは、Proof of Stakeに対するコンセンサスメカニズムの変更を含む、大きなプロトコル改善を達成した。 この改善は、ノードを実行するためのハードウェア要件を大幅に削減することを目的としており、ネットワークのエネルギー消費を抑えることで、持続可能性に大きなメリットをもたらした。 この研究は、Ethereumコンセンサスノードとして実行されるさまざまなクライアントのリソース使用状況を分析し、異なる構成下でのパフォーマンスを比較し、違いを分析する。 我々の結果は、最初に要求されたよりも高い要求と、異なるクライアントがネットワークの摂動にどのように反応するかを示している。 さらに,コンセンサスクライアント間の差異についても論じる。

Scalability is a common issue among the most used permissionless blockchains, and several approaches have been proposed to solve this issue. Tackling scalability while preserving the security and decentralization of the network is a significant challenge. To deliver effective scaling solutions, Ethereum achieved a major protocol improvement, including a change in the consensus mechanism towards Proof of Stake. This improvement aimed a vast reduction of the hardware requirements to run a node, leading to significant sustainability benefits with a lower network energy consumption. This work analyzes the resource usage behavior of different clients running as Ethereum consensus nodes, comparing their performance under different configurations and analyzing their differences. Our results show higher requirements than claimed initially and how different clients react to network perturbations. Furthermore, we discuss the differences between the consensus clients, including their strong points and limitations.
翻訳日:2024-03-25 13:26:22 公開日:2023-11-09
# RAGLog:Retrieval Augmented Generationを用いたログ異常検出

RAGLog: Log Anomaly Detection using Retrieval Augmented Generation ( http://arxiv.org/abs/2311.05261v1 )

ライセンス: Link先を確認
Jonathan Pan, Swee Liang Wong, Yidi Yuan, (参考訳) システムログからログ異常を検出する能力は、システムのサイバーレジリエンスを確保するために必要な重要な活動である。 欠陥の特定や、サイバー調査やデジタル法医学の促進に応用される。 しかし、異なるシステムやコンポーネントに属するログは著しく異なるため、このような分析を行う上での課題は、ログのボリューム、多様性、速度から人為的に困難である。 このような目的のために、トレーニングされた機械学習や人工知能モデルを開発するために、異常なログエントリが不足したり、利用できないことがさらに複雑になる。 本研究では,ベクトルデータベースを利用してログから異常を検出するRetrieval Augmented Large Language Modelについて検討する。 Question and Answer設定パイプラインを使用しました。 我々の知る限り、RAGLogと呼ばれる我々の実験は、新しいもので、実験結果は、非常に有望であることを示している。

The ability to detect log anomalies from system logs is a vital activity needed to ensure cyber resiliency of systems. It is applied for fault identification or facilitate cyber investigation and digital forensics. However, as logs belonging to different systems and components differ significantly, the challenge to perform such analysis is humanly challenging from the volume, variety and velocity of logs. This is further complicated by the lack or unavailability of anomalous log entries to develop trained machine learning or artificial intelligence models for such purposes. In this research work, we explore the use of a Retrieval Augmented Large Language Model that leverages a vector database to detect anomalies from logs. We used a Question and Answer configuration pipeline. To the best of our knowledge, our experiment which we called RAGLog is a novel one and the experimental results show much promise.
翻訳日:2024-03-25 13:26:22 公開日:2023-11-09
# 健康データライフサイクルのプライバシに関する調査--分類学・レビュー・今後の方向性

A Survey on Privacy of Health Data Lifecycle: A Taxonomy, Review, and Future Directions ( http://arxiv.org/abs/2311.05404v1 )

ライセンス: Link先を確認
Sunanda Bose, Dusica Marijan, (参考訳) 健康データを危険にさらす侵入やセキュリティの脅威が増加する中、患者のプライバシーを確保することが不可欠だ。 その目的のために、研究コミュニティは、健康データ脆弱性を軽減するために、暗号化、ハッシュ、および台帳技術に基づく様々なプライバシー保護アプローチを提案してきた。 健康データプライバシリスクの包括的理解と、既存のプライバシ保護アプローチのメリットと限界を確立するため、既存の作業の詳細なレビューを行い、健康データライフサイクルで発生した10の異なるプライバシに関する懸念を抽出する。 さらに、特定のライフサイクル段階で発生した特定のプライバシー問題に対する適用性に基づいて、既存のアプローチを分類する。 最後に,医療におけるプライバシ保護のためのテクニックの分類法を提案し,それらのテクニックをライフサイクルステージと関心事で三角測量する。 本稿では,この領域における暗号技術の利用状況について概説する。 しかし,医療システムには,新たな暗号技術やセキュリティ手法を必要とする特別な要件があることも判明した。 そこで我々は,健康データ管理におけるプライバシー保護の課題を軽減するために,今後の研究の方向性を明らかにした。

With the increasing breaches and security threats that endanger health data, ensuring patients' privacy is essential. To that end, the research community has proposed various privacy-preserving approaches based on cryptography, hashing, or ledger technologies for alleviating health data vulnerability. To establish a comprehensive understanding of health data privacy risks, and the benefits and limitations of existing privacy-preserving approaches, we perform a detailed review of existing work and distill 10 distinct privacy concerns occurring in a health data lifecycle. Furthermore, we classify existing approaches based on their applicability to particular privacy concerns occurring at a particular lifecycle stage. Finally, we propose a taxonomy of techniques used for privacy preservation in healthcare and triangulate those techniques with the lifecycle stages and concerns. Our review indicates heavy usage of cryptographical techniques in this domain. However, we have also found that healthcare systems have special requirements that require novel cryptographic techniques and security schemes to address special needs. Therefore, we identify several future research directions to mitigate the security challenges for privacy preservation in health data management.
翻訳日:2024-03-25 13:26:22 公開日:2023-11-09
# 閾値デジタル署名の包括的調査:NIST標準、量子後暗号、エキゾチック技術、実世界の応用

A Comprehensive Survey of Threshold Digital Signatures: NIST Standards, Post-Quantum Cryptography, Exotic Techniques, and Real-World Applications ( http://arxiv.org/abs/2311.05514v1 )

ライセンス: Link先を確認
Kiarash Sedghighadikolaei, Attila Altay Yavuz, (参考訳) Thresholdデジタルシグネチャは、署名機能の分散実行を可能にし、新興の分散型次世代ネットワークシステムやアプリケーションのセキュリティにおいて重要な役割を果たす。 本稿では,高度な特徴を持つ閾値と分散シグネチャを包括的かつ体系的に調査する。 本調査では、従来および後量子暗号(PQC)設定におけるしきい値シグネチャを包含し、カスタム設計および標準シグネチャ(例えば、従来のNISTおよびNIST-PQC)をキャプチャする。 我々は,エキゾチックなシグネチャ,実生活応用,将来的な研究方向性について検討しながら,多数のシグネチャファミリに対する汎用的(セキュアなマルチパーティ計算)およびカスタムしきい値設定手法について検討する。

Threshold digital signatures enable a distributed execution of signature functionalities and will play a crucial role in the security of emerging decentralized next-generation networked systems and applications. In this paper, we provide a comprehensive and systematic survey of threshold and distributed signatures with advanced features. Our survey encompasses threshold signatures in conventional and post-quantum cryptography (PQC) settings and captures custom-design and standard signatures (e.g., conventional NIST and NIST-PQC). We examine both generic (via secure multi-party computation) and custom thresholding techniques for a myriad of signature families while investigating exotic signatures, real-life applications, and potential future research direction.
翻訳日:2024-03-25 13:26:22 公開日:2023-11-09
# サイバーセキュリティデータに対するオートエンコーダによる侵入検知のためのハイパーグラフトポロジ的特徴

Hypergraph Topological Features for Autoencoder-Based Intrusion Detection for Cybersecurity Data ( http://arxiv.org/abs/2312.00023v1 )

ライセンス: Link先を確認
Bill Kay, Sinan G. Aksoy, Molly Baird, Daniel M. Best, Helen Jenne, Cliff Joslyn, Christopher Potvin, Gregory Henselman-Petrusek, Garret Seppala, Stephen J. Young, Emilie Purvine, (参考訳) 本稿では,ハイパーグラフを用いてデータの多方向局所的関係を捉える場合,そのトポロジ的特徴はグローバルな振る舞いを表現している,と論じる。 その結果、これらの機能は複雑な相関を捉え、オートエンコーダ駆動の異常検出パイプラインへの高忠実度入力として機能する。 本稿では,サイバーセキュリティデータに対する潜在的なパイプラインを2つ提案する。1つは,ネットワーク侵入を直接的に検出するオートエンコーダと,もう1つは永続的ホモロジーシステムPHANTOMの入力データをノイズ除去するパイプラインである。 本稿では,サイバーデータに対する侵入検知パイプラインに記述した手法の使用をヒューリスティックに正当化する。 我々は、合成サイバー攻撃データに関する小さな例を示して結論付けている。

In this position paper, we argue that when hypergraphs are used to capture multi-way local relations of data, their resulting topological features describe global behaviour. Consequently, these features capture complex correlations that can then serve as high fidelity inputs to autoencoder-driven anomaly detection pipelines. We propose two such potential pipelines for cybersecurity data, one that uses an autoencoder directly to determine network intrusions, and one that de-noises input data for a persistent homology system, PHANTOM. We provide heuristic justification for the use of the methods described therein for an intrusion detection pipeline for cyber data. We conclude by showing a small example over synthetic cyber attack data.
翻訳日:2024-03-25 13:06:53 公開日:2023-11-09
# 大規模ヒューマン言語モデルの必要性と課題

Large Human Language Models: A Need and the Challenges ( http://arxiv.org/abs/2312.07751v1 )

ライセンス: Link先を確認
Nikita Soni, H. Andrew Schwartz, Jo\~ao Sedoc, Niranjan Balasubramanian(参考訳) 人間中心NLPの研究が進むにつれ、人間と社会的要因をNLPモデルに組み込むことの重要性がますます認識されている。 同時に、我々のNLPシステムは LLM に大きく依存するようになり、そのほとんどは著者をモデル化していない。 人間の言語を真に理解できるNLPシステムを構築するためには、人間のコンテキストをLLMに統合する必要がある。 これは、人間的側面を捉えるべきもの、それらを表現する方法、そして、追求すべきモデリング戦略という観点で、様々な設計上の考慮と課題をもたらす。 これらの問題に対処するため、我々は、心理学と行動科学の概念を用いて、大規模な人間言語モデル(lhlms)を作成するための3つの立場を提唱する。 第2に、LHLMは人々がグループ以上のものであることを認識すべきである。 第3に、LHLMは人間の文脈の動的かつ時間的に依存する性質を説明できるべきである。 我々は、関連する進歩と、対処すべきオープンな課題と、これらの目標を実現するためのソリューションについて言及する。

As research in human-centered NLP advances, there is a growing recognition of the importance of incorporating human and social factors into NLP models. At the same time, our NLP systems have become heavily reliant on LLMs, most of which do not model authors. To build NLP systems that can truly understand human language, we must better integrate human contexts into LLMs. This brings to the fore a range of design considerations and challenges in terms of what human aspects to capture, how to represent them, and what modeling strategies to pursue. To address these, we advocate for three positions toward creating large human language models (LHLMs) using concepts from psychological and behavioral sciences: First, LM training should include the human context. Second, LHLMs should recognize that people are more than their group(s). Third, LHLMs should be able to account for the dynamic and temporally-dependent nature of the human context. We refer to relevant advances and present open challenges that need to be addressed and their possible solutions in realizing these goals.
翻訳日:2024-01-15 14:37:09 公開日:2023-11-09
# 視覚変換器を用いたGlioblastoma tumor Segmentation

Glioblastoma Tumor Segmentation using an Ensemble of Vision Transformers ( http://arxiv.org/abs/2312.11467v1 )

ライセンス: Link先を確認
Huafeng Liu (1), Benjamin Dowdell (1), Todd Engelder (1), Zarah Pulmano (1), Nicolas Osa (1), Arko Barman (1) ((1) Rice University)(参考訳) グリオ芽腫は最も攻撃的で致命的な脳腫瘍の1つであり、他の種類のがんと比較して生存率が低い。 磁気共鳴イメージング(MRI)スキャンの解析は、グリオ芽腫などの脳腫瘍の診断と治療に最も有効な方法の1つである。 mri画像の正確な腫瘍分割は、治療計画や治療方法のリスク評価にしばしば必要である。 本稿では,視覚トランスフォーマーモデルであるマスクフォーマーを活用し,頑健な腫瘍セグメンテーションmakを生成するインテリジェントニューラルネットワーク(brainnet)を用いた新しい脳x線診断パイプラインを提案する。 脳MRIの3つの直交2次元スライス方向(軸方向,矢状方向,コロナ方向)を個別に訓練した3つのモデルから,9つの予測アンサンブルを用いた。 我々は611人の被験者から3次元マルチパラメトリックMRI(mpMRI)スキャンをスキャンしたUPenn-GBMデータセットを用いて、我々のモデルをトレーニングし、テストする。 Dice coefficient (DC) と95% Hausdorff distance (HD) を用いて, 腫瘍コア (DC = 0.894, HD = 2.308) , 腫瘍全体 (DC = 0.891, HD = 3.552) , 造影 (DC = 0.812, HD = 1.608) の3つの異なる腫瘍領域の分画を行った。

Glioblastoma is one of the most aggressive and deadliest types of brain cancer, with low survival rates compared to other types of cancer. Analysis of Magnetic Resonance Imaging (MRI) scans is one of the most effective methods for the diagnosis and treatment of brain cancers such as glioblastoma. Accurate tumor segmentation in MRI images is often required for treatment planning and risk assessment of treatment methods. Here, we propose a novel pipeline, Brain Radiology Aided by Intelligent Neural NETworks (BRAINNET), which leverages MaskFormer, a vision transformer model, and generates robust tumor segmentation maks. We use an ensemble of nine predictions from three models separately trained on each of the three orthogonal 2D slice directions (axial, sagittal, and coronal) of a 3D brain MRI volume. We train and test our models on the publicly available UPenn-GBM dataset, consisting of 3D multi-parametric MRI (mpMRI) scans from 611 subjects. Using Dice coefficient (DC) and 95% Hausdorff distance (HD) for evaluation, our models achieved state-of-the-art results in segmenting all three different tumor regions -- tumor core (DC = 0.894, HD = 2.308), whole tumor (DC = 0.891, HD = 3.552), and enhancing tumor (DC = 0.812, HD = 1.608).
翻訳日:2024-01-15 13:35:15 公開日:2023-11-09
# 持続可能な開発目標に研究をマッピングする人工知能技術を活用した事例研究

Leveraging Artificial Intelligence Technology for Mapping Research to Sustainable Development Goals: A Case Study ( http://arxiv.org/abs/2311.16162v1 )

ライセンス: Link先を確認
Hui Yin, Amir Aryani, Gavin Lambert, Marcus White, Luis Salvador-Carulla, Shazia Sadiq, Elvira Sojli, Jennifer Boddy, Greg Murray, Wing Wah Tham(参考訳) 持続可能な開発目標(SDG)に関する出版物の数は増え続けている。 これらの出版物は人文科学や社会科学から工学や健康まで多岐にわたる研究をカバーしている。 結果や影響を監視するための資金提供機関の義務を考えると、出版物と関連するSDGを結びつけることは極めて重要であるが、SDGの幅と複雑さを考えると、依然として時間がかかり困難である。 出版物はいくつかの目標(目標の相互接続の特徴)に関連しているため、正確にタグ付けするには複数の学際知識が必要である。 機械学習アプローチは有望であり、手動データラベリングやテキスト分類といったタスクに特に有用であることが証明されている。 本研究では,オーストラリア大学から82,000冊以上の論文をケーススタディとして採用した。 これらの論文をSDG(Sustainable Development Goals)にマッピングするために,類似度尺度を用いた。 さらに、OpenAI GPTモデルを利用して同じタスクを実行し、2つのアプローチの比較分析を容易にしました。 実験の結果、類似度測定の結果の82.89%(少なくとも1つのタグ)がGPTモデルの出力と重なることがわかった。 採用されたモデル(類似度尺度)は、SDG分類のためのGPTモデルを補完することができる。 さらに、ここで使用される類似度尺度を含むディープラーニング手法は、商用AIサービスや大規模言語モデルを操作するための高価なコンピューティングリソースを使わずに、機密データを扱うためによりアクセスしやすく信頼されている。 本研究は,2つの手法を組み合わせることで,SDGのマッピングを行う上で,信頼性の高い結果が得られることを示す。

The number of publications related to the Sustainable Development Goals (SDGs) continues to grow. These publications cover a diverse spectrum of research, from humanities and social sciences to engineering and health. Given the imperative of funding bodies to monitor outcomes and impacts, linking publications to relevant SDGs is critical but remains time-consuming and difficult given the breadth and complexity of the SDGs. A publication may relate to several goals (interconnection feature of goals), and therefore require multidisciplinary knowledge to tag accurately. Machine learning approaches are promising and have proven particularly valuable for tasks such as manual data labeling and text classification. In this study, we employed over 82,000 publications from an Australian university as a case study. We utilized a similarity measure to map these publications onto Sustainable Development Goals (SDGs). Additionally, we leveraged the OpenAI GPT model to conduct the same task, facilitating a comparative analysis between the two approaches. Experimental results show that about 82.89% of the results obtained by the similarity measure overlap (at least one tag) with the outputs of the GPT model. The adopted model (similarity measure) can complement GPT model for SDG classification. Furthermore, deep learning methods, which include the similarity measure used here, are more accessible and trusted for dealing with sensitive data without the use of commercial AI services or the deployment of expensive computing resources to operate large language models. Our study demonstrates how a crafted combination of the two methods can achieve reliable results for mapping research to the SDGs.
翻訳日:2023-12-03 13:21:59 公開日:2023-11-09
# AIコーチングのためのビジョンエンコーダデコーダモデル

Vision Encoder-Decoder Models for AI Coaching ( http://arxiv.org/abs/2311.16161v1 )

ライセンス: Link先を確認
Jyothi S Nayak, Afifah Khan Mohammed Ajmal Khan, Chirag Manjeshwar and Imadh Ajaz Banday(参考訳) 本稿では,視覚エンコーダ・デコーダモデルの統合による革新的なaiコーチング手法を提案する。 本手法の実現性は,視覚トランスフォーマをエンコーダとして,gpt-2をデコーダとして,視覚入力とテキストインタラクションのシームレスな統合を実現する。 画像認識とテキストベースのコーチングに異なるモデルを採用する従来のプラクティスとは別に、統合アーキテクチャは入力イメージを直接処理し、AIコーチとの自然な質問と回答の対話を可能にする。 このユニークな戦略は、人間とAIのインタラクションにおける全体的なユーザエクスペリエンスを高めながら、モデルアーキテクチャを単純化する。 モデルの有効性を示すためにサンプル結果を示す。 結果は、視覚的入力を含むさまざまな領域で効率的なaiコーチモデルを作成するための有望なパラダイムとしての方法論の可能性を強調している。 重要なことに、このポテンシャルは特定のビジュアルエンコーダやテキストデコーダに関係なく当てはまります。 さらに,gpt-2の大きさの異なる実験を行い,aiコーチ性能への影響を評価し,提案手法のスケーラビリティと汎用性に関する貴重な知見を得た。

This research paper introduces an innovative AI coaching approach by integrating vision-encoder-decoder models. The feasibility of this method is demonstrated using a Vision Transformer as the encoder and GPT-2 as the decoder, achieving a seamless integration of visual input and textual interaction. Departing from conventional practices of employing distinct models for image recognition and text-based coaching, our integrated architecture directly processes input images, enabling natural question-and-answer dialogues with the AI coach. This unique strategy simplifies model architecture while enhancing the overall user experience in human-AI interactions. We showcase sample results to demonstrate the capability of the model. The results underscore the methodology's potential as a promising paradigm for creating efficient AI coach models in various domains involving visual inputs. Importantly, this potential holds true regardless of the particular visual encoder or text decoder chosen. Additionally, we conducted experiments with different sizes of GPT-2 to assess the impact on AI coach performance, providing valuable insights into the scalability and versatility of our proposed methodology.
翻訳日:2023-12-03 13:21:36 公開日:2023-11-09
# きめ細かい相互作用によるタンパク質-リガンド結合表現学習

Protein-ligand binding representation learning from fine-grained interactions ( http://arxiv.org/abs/2311.16160v1 )

ライセンス: Link先を確認
Shikun Feng, Minghao Li, Yinjun Jia, Weiying Ma, Yanyan Lan(参考訳) タンパク質とリガンドの間の結合は、創薬の分野で重要な役割を果たす。 従来のディープラーニングアプローチは、従来の計算集約的な手法よりも有望な結果を示しているが、教師付きデータに制限があるため、一般化が不十分である。 本稿では,タンパク質リガンド結合表現を自己教師あり学習で学ぶことを提案する。 タンパク質とリガンドを個別に扱う既存のプレトレーニングアプローチとは異なり、細かい粒度の相互作用から複雑な結合パターンを識別することを強調する。 具体的には、この自己教師付き学習問題を、結束過程を自然にエミュレートするトランスベースの相互作用モジュールを備えたポケットおよびリガンドが与えられた決定的結合複合体構造の予測として定式化する。 リッチな結合情報の表現を確実にするために、構造と特徴空間の両方からきめ細かい相互作用を包括的にモデル化する2つの事前学習タスク、すなわち-原子対方向距離マップ予測とマスクリガンド再構成を導入する。 タンパク質結合親和性予測,仮想スクリーニング,タンパク質結合ドッキングなど,様々な結合課題において,本手法の優越性が実証されている。

The binding between proteins and ligands plays a crucial role in the realm of drug discovery. Previous deep learning approaches have shown promising results over traditional computationally intensive methods, but resulting in poor generalization due to limited supervised data. In this paper, we propose to learn protein-ligand binding representation in a self-supervised learning manner. Different from existing pre-training approaches which treat proteins and ligands individually, we emphasize to discern the intricate binding patterns from fine-grained interactions. Specifically, this self-supervised learning problem is formulated as a prediction of the conclusive binding complex structure given a pocket and ligand with a Transformer based interaction module, which naturally emulates the binding process. To ensure the representation of rich binding information, we introduce two pre-training tasks, i.e.~atomic pairwise distance map prediction and mask ligand reconstruction, which comprehensively model the fine-grained interactions from both structure and feature space. Extensive experiments have demonstrated the superiority of our method across various binding tasks, including protein-ligand affinity prediction, virtual screening and protein-ligand docking.
翻訳日:2023-12-03 13:21:19 公開日:2023-11-09
# CarbNN: 炭素捕獲のためのDe Novo Metal Organic Framework(MOF)を構築するための新しいアクティブトランスファー学習ニューラルネットワーク

CarbNN: A Novel Active Transfer Learning Neural Network To Build De Novo Metal Organic Frameworks (MOFs) for Carbon Capture ( http://arxiv.org/abs/2311.16158v1 )

ライセンス: Link先を確認
Neel Redkar(参考訳) 過去10年間で、気候変動は二酸化炭素(co2)排出量が大きな要因の1つとなり、米国の二酸化炭素排出量の約51%は工場からのものである。 二酸化炭素捕獲に用いられる現在の材料は、効率性、持続可能性、コストに欠けている。 二酸化炭素の電気触媒化は、CO2を還元する新しいアプローチであり、燃料として工業的に使用されるコンポーネントは輸送コストを節約し、経済的インセンティブを生み出す。 金属有機フレームワーク(metal organic frameworks、mofs)は、co2を吸着、濾過、電気触媒する有機金属からなる結晶である。 現在の捕獲・電気触媒用MOFは製造コストが高く、捕獲時に非効率である。 この目的は、二酸化炭素を吸着して一酸化炭素と酸素を低コストで触媒するMOFを計算的に設計することである。 15mofの限られたデータによる転送学習を利用した,新しいアクティブトランスファー学習ニューラルネットワークを開発した。 このモデルは1万のMOFを持つCambridge Structure Databaseを使用して、トレーニングされたフィットネス超ヒューリスティック関数に適合するために増分突然変異を使用した。 最終的にセレンMOF (C18MgO25Se11Sn20Zn5) が収束した。 予測と文献の分析により、収束したMOFは既存のMOFよりも効果的で、より合成的にアクセス可能であることが示され、このモデルが物質空間における効果的な電気触媒構造を理解できたことを示している。 この新しいネットワークは、トレーニング可能なデータセットが限られている他のガス分離や触媒アプリケーションのために実装することができる。

Over the past decade, climate change has become an increasing problem with one of the major contributing factors being carbon dioxide (CO2) emissions; almost 51% of total US carbon emissions are from factories. Current materials used in CO2 capture are lacking either in efficiency, sustainability, or cost. Electrocatalysis of CO2 is a new approach where CO2 can be reduced and the components used industrially as fuel, saving transportation costs, creating financial incentives. Metal Organic Frameworks (MOFs) are crystals made of organo-metals that adsorb, filter, and electrocatalyze CO2. The current available MOFs for capture & electrocatalysis are expensive to manufacture and inefficient at capture. The goal therefore is to computationally design a MOF that can adsorb CO2 and catalyze carbon monoxide & oxygen with low cost. A novel active transfer learning neural network was developed, utilizing transfer learning due to limited available data on 15 MOFs. Using the Cambridge Structural Database with 10,000 MOFs, the model used incremental mutations to fit a trained fitness hyper-heuristic function. Eventually, a Selenium MOF (C18MgO25Se11Sn20Zn5) was converged on. Through analysis of predictions & literature, the converged MOF was shown to be more effective & more synthetically accessible than existing MOFs, showing the model had an understanding of effective electrocatalytic structures in the material space. This novel network can be implemented for other gas separations and catalysis applications that have limited training accessible datasets.
翻訳日:2023-12-03 13:20:55 公開日:2023-11-09
# リーマン多様体上のガウス微分プライバシー

Gaussian Differential Privacy on Riemannian Manifolds ( http://arxiv.org/abs/2311.10101v1 )

ライセンス: Link先を確認
Yangdi Jiang, Xiaotian Chang, Yi Liu, Lei Ding, Linglong Kong, Bei Jiang(参考訳) 我々はガウス微分プライバシー(GDP)を一般リーマン多様体に拡張するための高度なアプローチを開発する。 GDPの概念は、その中心的な制限特性のため、多様体設定の拡張を強く保証する顕著なプライバシー定義として際立っている。 幾何解析において有名なビショップ・グロモフの定理の力を利用して、リーマン距離を統合するリーマン分布を提案し、リッチ曲率の有界リーマン多様体におけるGDPを達成する。 我々の知る限りでは、この研究は一般リーマン多様体に対応するためのGDPフレームワークを拡張し、曲線空間を包含し、接空間要約への依存を回避する最初の事例である。 任意の一次元多様体上のプライバシ予算$\mu$を評価する簡単なアルゴリズムと、一定の曲率を持つ任意のリーマン多様体上の$\mu$を計算する汎用マルコフ連鎖モンテカルロ(mcmc)ベースのアルゴリズムを導入する。 統計学における最も一般的な多様体の1つである単位球面 $s^d$ のシミュレーションを通じて、前述したgdp を実装するためのリーマンラプラス機構と比較して、リーマンガウス機構の優れた有用性を示す。

We develop an advanced approach for extending Gaussian Differential Privacy (GDP) to general Riemannian manifolds. The concept of GDP stands out as a prominent privacy definition that strongly warrants extension to manifold settings, due to its central limit properties. By harnessing the power of the renowned Bishop-Gromov theorem in geometric analysis, we propose a Riemannian Gaussian distribution that integrates the Riemannian distance, allowing us to achieve GDP in Riemannian manifolds with bounded Ricci curvature. To the best of our knowledge, this work marks the first instance of extending the GDP framework to accommodate general Riemannian manifolds, encompassing curved spaces, and circumventing the reliance on tangent space summaries. We provide a simple algorithm to evaluate the privacy budget $\mu$ on any one-dimensional manifold and introduce a versatile Markov Chain Monte Carlo (MCMC)-based algorithm to calculate $\mu$ on any Riemannian manifold with constant curvature. Through simulations on one of the most prevalent manifolds in statistics, the unit sphere $S^d$, we demonstrate the superior utility of our Riemannian Gaussian mechanism in comparison to the previously proposed Riemannian Laplace mechanism for implementing GDP.
翻訳日:2023-11-27 00:59:47 公開日:2023-11-09
# 直感的推論のための画像連鎖

Chain of Images for Intuitively Reasoning ( http://arxiv.org/abs/2311.09241v1 )

ライセンス: Link先を確認
Fanxu Meng, Haotong Yang, Yiding Wang, Muhan Zhang(参考訳) 人間の脳は、視覚情報を迅速に理解し、解釈することができる。 複雑な問題や概念に直面すると、フローチャート、スケッチ、ダイアグラムを使って思考プロセスを支援します。 この固有の能力を活用すれば、論理的推論を大幅に強化できる。 しかし、現在のLarge Language Models (LLM) は、そのような視覚的直観を彼らの思考に役立てていない。 最も先進的なバージョン言語モデル(gpt-4vやllavaなど)でさえも、単に画像をテキスト空間にアライメントするだけである。 このような制約を緩和するために,複雑な言語推論問題を,画像列を中間表現として生成することにより,単純なパターン認識に変換するcoi(chain of images)アプローチを提案する。 さらに,画像が直感的に問題解決を支援する15の異なる領域を含むCoI評価データセットを開発した。 このデータセットに基づいて、将来のマルチモーダル大規模モデルの有効性を評価するためのベンチマークを構築することを目的としている。 CoI推論をサポートするために,言語命令に基づいて厳密に画像を生成し,テキストと画像の両方を入力として受け入れるシンボリック・マルチモーダル・大規模言語モデル(SyMLLM)を導入する。 CoI評価データセットから得られたGeometry, Chess, Common Senseタスクの実験は、CoIが純粋言語であるChain of Thoughts(CoT)ベースラインよりも性能を大幅に向上することを示している。 コードはhttps://github.com/graphpku/coiで入手できる。

The human brain is naturally equipped to comprehend and interpret visual information rapidly. When confronted with complex problems or concepts, we use flowcharts, sketches, and diagrams to aid our thought process. Leveraging this inherent ability can significantly enhance logical reasoning. However, current Large Language Models (LLMs) do not utilize such visual intuition to help their thinking. Even the most advanced version language models (e.g., GPT-4V and LLaVA) merely align images into textual space, which means their reasoning processes remain purely verbal. To mitigate such limitations, we present a Chain of Images (CoI) approach, which can convert complex language reasoning problems to simple pattern recognition by generating a series of images as intermediate representations. Furthermore, we have developed a CoI evaluation dataset encompassing 15 distinct domains where images can intuitively aid problem-solving. Based on this dataset, we aim to construct a benchmark to assess the capability of future multimodal large-scale models to leverage images for reasoning. In supporting our CoI reasoning, we introduce a symbolic multimodal large language model (SyMLLM) that generates images strictly based on language instructions and accepts both text and image as input. Experiments on Geometry, Chess and Common Sense tasks sourced from the CoI evaluation dataset show that CoI improves performance significantly over the pure-language Chain of Thoughts (CoT) baselines. The code is available at https://github.com/GraphPKU/CoI.
翻訳日:2023-11-27 00:58:46 公開日:2023-11-09
# 風景の中の悪魔:ストリートビュー画像から伝染病のリスクを推測する

Devil in the Landscapes: Inferring Epidemic Exposure Risks from Street View Imagery ( http://arxiv.org/abs/2311.09240v1 )

ライセンス: Link先を確認
Zhenyu Han, Yanxin Xi, Tong Xia, Yu Liu, Yong Li(参考訳) 構築された環境は毎日のあらゆる活動をサポートし、健康を形作る。 有意義なストリートビュー画像を活用したこれまでの研究は、構築された環境と慢性的な非感染性疾患との深い相関関係を確立してきたが、感染症の露光リスクの予測はほとんど未調査のままである。 対人接触や相互作用は感染症の複雑さに寄与し、これは本質的に非感染性疾患とは異なっている。 さらに、ストリートビュー画像と流行の露光との間の複雑な関係は正確な予測を妨げている。 これらの問題に対処するため, 重力モデルにより報知される地域移動グラフを構築し, 人体移動から発生する病気の伝達パターンを捉えるための送信対応グラフ畳み込みネットワーク (GCN) を提案する。 実験により,提案モデルがF1重み付けモデルで8.54%,低コストでスケーラブルなアプローチでストリートビュー画像から感染リスクを評価することにより,ベースラインモデルよりも有意に優れていることが示された。

Built environment supports all the daily activities and shapes our health. Leveraging informative street view imagery, previous research has established the profound correlation between the built environment and chronic, non-communicable diseases; however, predicting the exposure risk of infectious diseases remains largely unexplored. The person-to-person contacts and interactions contribute to the complexity of infectious disease, which is inherently different from non-communicable diseases. Besides, the complex relationships between street view imagery and epidemic exposure also hinder accurate predictions. To address these problems, we construct a regional mobility graph informed by the gravity model, based on which we propose a transmission-aware graph convolutional network (GCN) to capture disease transmission patterns arising from human mobility. Experiments show that the proposed model significantly outperforms baseline models by 8.54% in weighted F1, shedding light on a low-cost, scalable approach to assess epidemic exposure risks from street view imagery.
翻訳日:2023-11-27 00:58:22 公開日:2023-11-09
# deep convolutional auto-encoding networkに基づくボールミル故障予測

Ball Mill Fault Prediction Based on Deep Convolutional Auto-Encoding Network ( http://arxiv.org/abs/2311.13571v1 )

ライセンス: Link先を確認
Xinkun Ai, Kun Liu, Wei Zheng, Yonggang Fan, Xinwu Wu, Peilong Zhang, LiYe Wang, JanFeng Zhu, Yuan Pan(参考訳) ボールミルは現代の鉱業で重要な役割を担っており、生産効率の低下と経済的な影響が懸念されている。 本稿では,深部畳み込み自己符号化ニューラルネットワーク(DCAN)を用いた異常検出手法を提案する。 提案手法は,教師付き学習手法でしばしば発生するラベル付け問題やデータ不均衡といった課題を克服し,通常の訓練中に収集した振動データを活用する。 DCANは、畳み込み特徴抽出と転置畳み込み特徴再構成のモジュールを含み、信号処理と特徴抽出において例外的な能力を示す。 さらに、武漢鉄鉄資源グループのボールミル軸受からのデータとNASAの軸受振動データセットからのデータを利用して、異常検出のためのDCANに基づく異常検出モデルの実用的展開について述べる。 実験の結果,dcanモデルの故障振動パターン認識における信頼性が検証された。 この方法は、ベアリング故障検出効率の向上、生産中断の低減、メンテナンスコストの低減を約束する。

Ball mills play a critical role in modern mining operations, making their bearing failures a significant concern due to the potential loss of production efficiency and economic consequences. This paper presents an anomaly detection method based on Deep Convolutional Auto-encoding Neural Networks (DCAN) for addressing the issue of ball mill bearing fault detection. The proposed approach leverages vibration data collected during normal operation for training, overcoming challenges such as labeling issues and data imbalance often encountered in supervised learning methods. DCAN includes the modules of convolutional feature extraction and transposed convolutional feature reconstruction, demonstrating exceptional capabilities in signal processing and feature extraction. Additionally, the paper describes the practical deployment of the DCAN-based anomaly detection model for bearing fault detection, utilizing data from the ball mill bearings of Wuhan Iron & Steel Resources Group and fault data from NASA's bearing vibration dataset. Experimental results validate the DCAN model's reliability in recognizing fault vibration patterns. This method holds promise for enhancing bearing fault detection efficiency, reducing production interruptions, and lowering maintenance costs.
翻訳日:2023-11-27 00:24:19 公開日:2023-11-09
# 金融意思決定者のための幻覚最小化データ問合せフレームワーク

Hallucination-minimized Data-to-answer Framework for Financial Decision-makers ( http://arxiv.org/abs/2311.07592v1 )

ライセンス: Link先を確認
Sohini Roychowdhury, Andres Alvarez, Brian Moore, Marko Krema, Maria Paz Gelpi, Federico Martin Rodriguez, Angel Rodriguez, Jose Ramon Cabrejas, Pablo Martinez Serrano, Punit Agrawal, Arijit Mukherjee(参考訳) 大規模言語モデル(LLM)は、いくつかの自動化とパーソナライズされた質問応答プロトタイプの構築に応用されている。 しかし、このようなプロトタイプを最小限の幻覚や偽の反応で堅牢な製品にスケールすることは、まだ未解決の課題であり、特に金融意思決定のようなニッチなデータテーブル重大ドメインではなおさらである。 本稿では,データテーブルを階層的なテキストデータチャンクに変換し,多種多様な質問応答を可能にするラングチェーンベースのフレームワークを提案する。 まず、ユーザクエリを意図して分類し、最も関連するデータチャンクの自動検索を行い、クエリ毎にカスタマイズされたllmプロンプトを生成する。 次に、カスタムプロンプトとその応答を多値スコアで評価し、幻覚と応答信頼度を評価する。 提案システムは,ユーザクエリの意図分類,先進的なプロンプト,データスケーリング機能に最適化されており,財務上の意思決定アプリケーションに不可欠な,‘What, Where, Why, How, predict, trend, anomalies, exception’から,さまざまなユーザクエリ応答に対して90%以上の信頼スコアを達成している。 提案した回答フレームワークは,販売や給与といった他の分析領域に拡張して,最適な幻覚制御ガードレールを確保することができる。

Large Language Models (LLMs) have been applied to build several automation and personalized question-answering prototypes so far. However, scaling such prototypes to robust products with minimized hallucinations or fake responses still remains an open challenge, especially in niche data-table heavy domains such as financial decision making. In this work, we present a novel Langchain-based framework that transforms data tables into hierarchical textual data chunks to enable a wide variety of actionable question answering. First, the user-queries are classified by intention followed by automated retrieval of the most relevant data chunks to generate customized LLM prompts per query. Next, the custom prompts and their responses undergo multi-metric scoring to assess for hallucinations and response confidence. The proposed system is optimized with user-query intention classification, advanced prompting, data scaling capabilities and it achieves over 90% confidence scores for a variety of user-queries responses ranging from {What, Where, Why, How, predict, trend, anomalies, exceptions} that are crucial for financial decision making applications. The proposed data to answers framework can be extended to other analytical domains such as sales and payroll to ensure optimal hallucination control guardrails.
翻訳日:2023-11-19 14:03:03 公開日:2023-11-09
# ニューラルネットワークを用いた中学生に適した書籍の同定

Identification of Books That are Suitable for Middle School Students Using Artificial Neural Networks ( http://arxiv.org/abs/2311.07591v1 )

ライセンス: Link先を確認
Alp Niksarli, Sadik Ozan Gorgu and Ege Gencer(参考訳) 正しい本を読むことは、子供の想像力や脳の発達に寄与し、言語や感情的な理解能力を高め、他人との関係を強化する。 本論文は,本書を個人開発において重要な役割を担っている中学生を対象に,本書の構造的・意味的特徴を解析し,本書の適合性を決定するアルゴリズムを開発することを目的とする。 記述した手法を用いて、国家教育省や学校など、児童教育を担当する機関や個人が利用できるアルゴリズムを作成する。 このアルゴリズムは、中学校レベルで教えるべき本の選択を容易にする。 このアルゴリズムにより、中学校カリキュラムの書籍選択プロセスを迅速化することができ、書籍を読解して評価する者のための予備的参考資料として機能する。 本稿では,自然言語処理手法を用いてpythonプログラミング言語を開発した。 さらに、オリジナルのデータセットを構築するために前処理されたデータを使用して、人工ニューラルネットワーク(ann)をトレーニングした。 このネットワークをトレーニングするために、中学生向けの適切な書籍は、MEB、オックスフォード、ケンブリッジから提供され、「R」基準に基づいて評価されたコンテンツ、コンテンツの観点からは、中学生向けの不適切な書籍が含まれていた。 このトレーニングされたニューラルネットワークは、テストされた書籍の適切性を決定する上で、90.06%の一貫性を達成した。 得られた結果から,開発したソフトウェアが目的を達成できたと結論付けることができる。

Reading right books contributes to children's imagination and brain development, enhances their language and emotional comprehension abilities, and strengthens their relationships with others. Building upon the critical role of reading books in individual development, this paper aims to develop an algorithm that determines the suitability of books for middle school students by analyzing their structural and semantic features. Using methods described, an algorithm will be created that can be utilized by institutions and individuals responsible for children's education, such as the Ministry of National Education officials and schools. This algorithm will facilitate the selection of books to be taught at the middle school level. With the algorithm, the book selection process for the middle school curriculum can be expedited, and it will serve as a preliminary reference source for those who evaluate books by reading them. In this paper, the Python programming language was employed, utilizing natural language processing methods. Additionally, an artificial neural network (ANN) was trained using the data which had been preprocessed to construct an original dataset. To train this network, suitable books for middle school students were provided by the MEB, Oxford and Cambridge and with content assessed based on the "R" criterion, and inappropriate books for middle school students in terms of content were included. This trained neural network achieved a 90.06% consistency rate in determining the appropriateness of the test-provided books. Considering the obtained findings, it can be concluded that the developed software has achieved the desired objective.
翻訳日:2023-11-19 14:02:38 公開日:2023-11-09
# テクノロジーレポート:大きな言語モデルは圧力を受けるとユーザーを戦略的に欺くことができる

Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure ( http://arxiv.org/abs/2311.07590v1 )

ライセンス: Link先を確認
J\'er\'emy Scheurer, Mikita Balesni, Marius Hobbhahn(参考訳) 我々は, 有益で無害で正直であるように訓練された大規模言語モデルが, 不整合な行動を示し, その行動を戦略的に欺くことができることを実証する。 具体的には,GPT-4を現実的な模擬環境でエージェントとして展開し,自律的な株式取引エージェントの役割を想定する。 この環境では、インサイダー取引が企業経営によって不承認であるにもかかわらず、このモデルは収益性の高い株式取引に関するインサイダー情報を取得し、それに基づいて行動する。 マネージャーに報告する場合、モデルは取引決定の背後にある本当の理由を一貫して隠している。 この動作は, 推論スクラッチパッドへのモデルアクセスの削除, システム命令の変更による不整合動作の防止, モデルの圧力の変化, 捕まるリスクの変化, 環境への簡単な変更など, 設定の変更によってどのように変化するのか, 簡単な調査を行う。 われわれの知る限り、これは大規模言語モデルの訓練を受けた最初の実演であり、無害で誠実で戦略的にユーザを現実的な状況で欺き、直接の指示や騙しの訓練を受けずにすむ。

We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.
翻訳日:2023-11-19 14:02:16 公開日:2023-11-09
# Dialogizer: テキストソースからコンテキスト対応の会話型QAデータセット生成

Dialogizer: Context-aware Conversational-QA Dataset Generation from Textual Sources ( http://arxiv.org/abs/2311.07589v1 )

ライセンス: Link先を確認
Yerin Hwang, Yongil Kim, Hyunkyung Bae, Jeesoo Bang, Hwanhee Lee, and Kyomin Jung(参考訳) 会話型質問応答(ConvQA)におけるデータ不足問題に対処するために,文書を用いてConvQAデータセットを生成するダイアログインペインティング手法が提案されている。 しかし、元のダイアログインペインティングモデルは、ダイアログ復元タスクのみに基づいてトレーニングされ、質問と回答のアライメントの不十分な学習により、文脈的関連性の低い質問が生成される。 この制限を克服するために、テキストソースからコンテキスト関連性の高いConvQAデータセットを自動的に生成するDialogizerという新しいフレームワークを提案する。 このフレームワークには質問応答マッチング(QAM)と話題認識ダイアログ生成(TDG)という2つのトレーニングタスクが含まれている。 さらに、生成した質問の文脈的関連性に基づいて、推論フェーズ中に再ランク付けを行う。 フレームワークを用いて、複数のドメインの文書を主要なソースとして利用することにより、4つのConvQAデータセットを生成します。 多様な指標を用いた自動評価と人的評価により,提案するフレームワークは,ベースラインダイアログの塗装モデルと比較して,高品質なデータセットを生成する能力を示した。

To address the data scarcity issue in Conversational question answering (ConvQA), a dialog inpainting method, which utilizes documents to generate ConvQA datasets, has been proposed. However, the original dialog inpainting model is trained solely on the dialog reconstruction task, resulting in the generation of questions with low contextual relevance due to insufficient learning of question-answer alignment. To overcome this limitation, we propose a novel framework called Dialogizer, which has the capability to automatically generate ConvQA datasets with high contextual relevance from textual sources. The framework incorporates two training tasks: question-answer matching (QAM) and topic-aware dialog generation (TDG). Moreover, re-ranking is conducted during the inference phase based on the contextual relevance of the generated questions. Using our framework, we produce four ConvQA datasets by utilizing documents from multiple domains as the primary source. Through automatic evaluation using diverse metrics, as well as human evaluation, we validate that our proposed framework exhibits the ability to generate datasets of higher quality compared to the baseline dialog inpainting model.
翻訳日:2023-11-19 14:01:53 公開日:2023-11-09
# ShipGen: 複数の目的と制約を持つパラメトリック船殻生成のための拡散モデル

ShipGen: A Diffusion Model for Parametric Ship Hull Generation with Multiple Objectives and Constraints ( http://arxiv.org/abs/2311.06315v1 )

ライセンス: Link先を確認
Noah J. Bagazinski and Faez Ahmed(参考訳) 船の設計は、複雑な設計のトレードオフをバランスさせ、効率的で効果的な船を作るための長年のプロセスである。 船の設計プロセスを改善する新しい方法を見つけることは、造船と運用に多大なコスト削減をもたらす可能性がある。 有望な技術のひとつが生成型人工知能であり、デザインサイクル時間を短縮し、新しい高性能なデザインを生み出すことが示されている。 文献レビューでは、生成的人工知能が船体を生成することが示されているが、船舶の船体が多くの目的を考慮しなければならないため、船体設計は特に困難である。 本稿では,船体に対する複数の目的と制約を考慮したパラメトリック拡散モデルを用いたパラメトリック船体設計について検討する。 この消音拡散確率モデル(ddpm)は、評価のために船殻の表状パラメトリック設計ベクトルを生成する。 本報告では, 表式DDPMに加えて, 船舶船体設計の品質向上のためのガイダンスを詳述する。 ddpmは分類器のガイダンスを利用することで、船体の初期訓練データセットを99.5%の率でカバーし、設計空間全体の設計ベクトルパラメータをランダムにサンプリングするよりも149倍改善する実現可能なパラメトリック船体を作成した。 性能指導によるパラメトリック船体は、平均91.4%の波抵抗係数の低下と、訓練データセットにおける船体の平均性能と比較して、船体全体の変位体積の47.9倍の相対的な増加を示した。 ddpmを用いてパラメトリック船体を生成することにより、将来の解析のために高性能船体設計を発生させることで設計時間を短縮できる。 これらの船体は低抵抗で高容積であり、船舶の運用コストを削減し、収益を生み出す可能性を高めることができる。

Ship design is a years-long process that requires balancing complex design trade-offs to create a ship that is efficient and effective. Finding new ways to improve the ship design process can lead to significant cost savings for ship building and operation. One promising technology is generative artificial intelligence, which has been shown to reduce design cycle time and create novel, high-performing designs. In literature review, generative artificial intelligence has been shown to generate ship hulls; however, ship design is particularly difficult as the hull of a ship requires the consideration of many objectives. This paper presents a study on the generation of parametric ship hull designs using a parametric diffusion model that considers multiple objectives and constraints for the hulls. This denoising diffusion probabilistic model (DDPM) generates the tabular parametric design vectors of a ship hull for evaluation. In addition to a tabular DDPM, this paper details adding guidance to improve the quality of generated ship hull designs. By leveraging classifier guidance, the DDPM produced feasible parametric ship hulls that maintain the coverage of the initial training dataset of ship hulls with a 99.5% rate, a 149x improvement over random sampling of the design vector parameters across the design space. Parametric ship hulls produced with performance guidance saw an average of 91.4% reduction in wave drag coefficients and an average of a 47.9x relative increase in the total displaced volume of the hulls compared to the mean performance of the hulls in the training dataset. The use of a DDPM to generate parametric ship hulls can reduce design time by generating high-performing hull designs for future analysis. These generated hulls have low drag and high volume, which can reduce the cost of operating a ship and increase its potential to generate revenue.
翻訳日:2023-11-14 19:11:51 公開日:2023-11-09
# 非可換空間における正準アンサンブルの基本特性

Some basic features of canonical ensemble in noncommutative spaces ( http://arxiv.org/abs/2311.06312v1 )

ライセンス: Link先を確認
S. A. Alavi(参考訳) 我々は、ハミルトニアンの空間の非可換性による補正と、標準アンサンブルの分割関数を計算する。 非可換カノニカルアンサンブルの枠組みにおいて, 等分法やビリアル定理, エネルギーゆらぎなどの統計力学および熱力学の基本的特徴について検討した。 空間の非可換性による補正が導出され、その結果が議論される。

We calculate the corrections due to noncommutativity of space on the Hamiltonian and then partition function of the canonical ensemble. We study some basic features of statistical mechanics and thermodynamics including equipartition and virial theorem and energy fluctuations: correspondence with microcanonical ensemble, in the framework of non-commutative canonical ensemble. The corrections imposed by noncommutativity of space are derived and the results are discussed.
翻訳日:2023-11-14 19:10:58 公開日:2023-11-09
# センサを用いた人間行動認識におけるゲーム理論の解法

Game Theory Solutions in Sensor-Based Human Activity Recognition: A Review ( http://arxiv.org/abs/2311.06311v1 )

ライセンス: Link先を確認
Mohammad Hossein Shayesteh, Behrooz Sharokhzadeh, and Behrooz Masoumi(参考訳) ヒューマンアクティビティ認識(HAR)タスクは、医療、スポーツ、セキュリティ、人間とコンピュータのインタラクションに多くの応用があるセンサーデータを使用して、人間のアクティビティを自動的に識別する。 HARの大幅な進歩にもかかわらず、重要な課題が残っている。 ゲーム理論は、HARを含む機械学習問題におけるこれらの課題に対処するための有望なソリューションとして登場した。 しかし、har問題にゲーム理論の解を適用する研究が不足している。 本稿では,HAR課題の解法としてのゲーム理論の可能性について検討し,HAR問題に対する新たなゲーム理論アプローチを提案することにより,ゲーム理論とHAR研究のギャップを埋める。 この研究の貢献には、ゲーム理論がHARモデルの精度と堅牢性を改善する方法、ゲーム理論の概念が認識アルゴリズムを最適化する方法、ゲーム理論の既存のHAR手法に対するアプローチについて議論することが含まれる。 本研究の目的は,センサベースHARのソリューションとしてのゲーム理論の可能性に関する洞察を提供することであり,今後の研究方向において,より正確かつ効率的な認識システムの開発に寄与することである。

The Human Activity Recognition (HAR) tasks automatically identify human activities using the sensor data, which has numerous applications in healthcare, sports, security, and human-computer interaction. Despite significant advances in HAR, critical challenges still exist. Game theory has emerged as a promising solution to address these challenges in machine learning problems including HAR. However, there is a lack of research work on applying game theory solutions to the HAR problems. This review paper explores the potential of game theory as a solution for HAR tasks, and bridges the gap between game theory and HAR research work by suggesting novel game-theoretic approaches for HAR problems. The contributions of this work include exploring how game theory can improve the accuracy and robustness of HAR models, investigating how game-theoretic concepts can optimize recognition algorithms, and discussing the game-theoretic approaches against the existing HAR methods. The objective is to provide insights into the potential of game theory as a solution for sensor-based HAR, and contribute to develop a more accurate and efficient recognition system in the future research directions.
翻訳日:2023-11-14 19:10:45 公開日:2023-11-09
# $\textit{Labor Space}$: 大規模言語モデルによる労働市場の統一表現

$\textit{Labor Space}$: A Unifying Representation of the Labor Market via Large Language Models ( http://arxiv.org/abs/2311.06310v1 )

ライセンス: Link先を確認
Seongwoon Kim, Yong-Yeol Ahn, Jaehyuk Park(参考訳) 労働市場は、産業、職業、技能、企業など、多様な相互接続された組織からなる複雑なエコシステムである。 これらの異種エンティティをマッピングするための体系的な方法が欠如していることから、各エンティティは孤立的あるいはペア的な関係を通じてのみ分析され、エコシステム全体の包括的理解を阻害している。 ここでは,不均質な労働市場エンティティのベクトル空間埋め込みである$\textit{labor space}$を導入する。 労働空間は、産業、職業、技能、企業のコヒーレントな統合分析を促進するとともに、タイプ固有のクラスタリングを維持しながら、様々な労働市場の構成要素の複雑な関係構造を公開する。 我々は,「製造-医療」のような経済軸上で異質な実体を配置することを含む,前例のない分析能力を示す。 さらに、これらの実体のベクトル演算を可能にして、労働空間は複雑な単位間関係の探索を可能にし、その後、個々の単位に対する経済ショックの分岐と労働市場全体の波及効果を推定する。 労働空間は、政策立案者やビジネスリーダーに労働市場分析とシミュレーションのための包括的な統合枠組みを提供し、より曖昧で効果的な戦略的意思決定を促進すると仮定する。

The labor market is a complex ecosystem comprising diverse, interconnected entities, such as industries, occupations, skills, and firms. Due to the lack of a systematic method to map these heterogeneous entities together, each entity has been analyzed in isolation or only through pairwise relationships, inhibiting comprehensive understanding of the whole ecosystem. Here, we introduce $\textit{Labor Space}$, a vector-space embedding of heterogeneous labor market entities, derived through applying a large language model with fine-tuning. Labor Space exposes the complex relational fabric of various labor market constituents, facilitating coherent integrative analysis of industries, occupations, skills, and firms, while retaining type-specific clustering. We demonstrate its unprecedented analytical capacities, including positioning heterogeneous entities on an economic axes, such as `Manufacturing--Healthcare'. Furthermore, by allowing vector arithmetic of these entities, Labor Space enables the exploration of complex inter-unit relations, and subsequently the estimation of the ramifications of economic shocks on individual units and their ripple effect across the labor market. We posit that Labor Space provides policymakers and business leaders with a comprehensive unifying framework for labor market analysis and simulation, fostering more nuanced and effective strategic decision-making.
翻訳日:2023-11-14 19:10:12 公開日:2023-11-09
# 雑音安定規則化による事前学習言語モデルの微調整の改善

Improving Pre-trained Language Model Fine-tuning with Noise Stability Regularization ( http://arxiv.org/abs/2206.05658v2 )

ライセンス: Link先を確認
Hang Hua, Xingjian Li, Dejing Dou, Cheng-Zhong Xu, Jiebo Luo(参考訳) 大規模事前学習型言語モデルの出現は、近年の自然言語処理の進歩に大きく貢献している。 多くの最先端言語モデルは、まず大きなテキストコーパスでトレーニングされ、その後下流タスクで微調整される。 近年の成功と広く採用されているにもかかわらず、事前学習された言語モデルの微調整は、しばしば過剰な適合に苦しめられ、モデルの非常に高い複雑さと下流タスクからの限られたトレーニングサンプルのため、一般化しづらい。 この問題に対処するため、我々はLayerwise Noise Stability Regularization (LNSR) という新しい効果的な微調整フレームワークを提案する。 具体的には,標準ガウス雑音やマニフォールド雑音を注入し,微調整モデルの隠れ表現を正則化する。 まず,本手法の有効性を裏付ける理論的解析を行う。 次に,L2-SP,Mixout,SMARTなどの最先端アルゴリズムに対して提案手法の利点を示す。 これらの先行研究は,比較的単純なテキスト分類タスクにおいて,その手法の有効性を検証するだけでなく,質問応答タスクにおける提案手法の有効性を検証した。 さらに,提案アルゴリズムは,言語モデルのドメイン内性能を向上するだけでなく,ドメイン外データに対するドメイン一般化性能を向上させることができることを示す。

The advent of large-scale pre-trained language models has contributed greatly to the recent progress in natural language processing. Many state-of-the-art language models are first trained on a large text corpus and then fine-tuned on downstream tasks. Despite its recent success and wide adoption, fine-tuning a pre-trained language model often suffers from overfitting, which leads to poor generalizability due to the extremely high complexity of the model and the limited training samples from downstream tasks. To address this problem, we propose a novel and effective fine-tuning framework, named Layerwise Noise Stability Regularization (LNSR). Specifically, we propose to inject the standard Gaussian noise or In-manifold noise and regularize hidden representations of the fine-tuned model. We first provide theoretical analyses to support the efficacy of our method. We then demonstrate the advantages of the proposed method over other state-of-the-art algorithms including L2-SP, Mixout and SMART. While these previous works only verify the effectiveness of their methods on relatively simple text classification tasks, we also verify the effectiveness of our method on question answering tasks, where the target problem is much more difficult and more training examples are available. Furthermore, extensive experimental results indicate that the proposed algorithm can not only enhance the in-domain performance of the language models but also improve the domain generalization performance on out-of-domain data.
翻訳日:2023-11-13 18:55:25 公開日:2023-11-09
# ホログラフィック双対性における量子系とブラックホール内部の因果接続性

Causal connectability between quantum systems and the black hole interior in holographic duality ( http://arxiv.org/abs/2110.05497v4 )

ライセンス: Link先を確認
Samuel Leutheusser and Hong Liu(参考訳) ホログラフィック双対性では、永遠のアドスブラックホールは熱場二重状態における境界cftの2つのコピーによって記述される。 この同定には、事象の地平線の境界記述、ブラックホールの内部、特異点など、多くのパズルがある。 これらの謎の複合化は、cftの間には相互作用がないが、それらの観察者はブラックホールに落ちて相互作用することができるという事実である。 本稿ではこれらの問題に対処する。 特に私たちは (i) 落下するバルクオブザーバのクラスの境界定式化を示す。 (ii) 急なバルク事象の地平線は境界理論の無限の$N$極限にしか現れないという主張を示す。 (iii)バルクインフォールディングオブザーバのための進化作用素の境界理論における明示的な構成を与え、ブラックホールの地平線、内部、それに付随する因果構造の境界の出現を明示する。 副生成物は因果接続性(Cousal Connectability)と呼ばれる概念であり、2つの量子系(既知の重力双対を持つ必要はない)が創発的な鋭い水平構造を持つための基準である。

In holographic duality an eternal AdS black hole is described by two copies of the boundary CFT in the thermal field double state. This identification has many puzzles, including the boundary descriptions of the event horizons, the interiors of the black hole, and the singularities. Compounding these mysteries is the fact that, while there is no interaction between the CFTs, observers from them can fall into the black hole and interact. We address these issues in this paper. In particular, we (i) present a boundary formulation of a class of in-falling bulk observers; (ii) present an argument that a sharp bulk event horizon can only emerge in the infinite $N$ limit of the boundary theory; (iii) give an explicit construction in the boundary theory of an evolution operator for a bulk in-falling observer, making manifest the boundary emergence of the black hole horizons, the interiors, and the associated causal structure. A by-product is a concept called causal connectability, which is a criterion for any two quantum systems (which do not need to have a known gravity dual) to have an emergent sharp horizon structure.
翻訳日:2023-11-13 18:52:50 公開日:2023-11-09
# 2量子ビットシングルレット/トリップレット測定は、最大混合初期状態のみを与えられた量子コンピューティングにおいて普遍的である

The two-qubit singlet/triplet measurement is universal for quantum computing given only maximally-mixed initial states ( http://arxiv.org/abs/2107.03239v3 )

ライセンス: Link先を確認
Terry Rudolph, Shashank Soyuz Virmani(参考訳) フリードマン、ヘイスティングス、ショコリアン・ジーニ [1] の stp=bqp 予想を証明し、すなわち 2 量子一重項/三重項測定は最大混合 1 量子ビットの初期アンサンブルのみを与える量子計算的普遍であることを示した。 これは完全に回転対称な(つまり参照フレームに依存しない)量子コンピューティングの方法であり、物理的に非常にアクセスしやすく、最も単純なプリミティブを使用する。

We prove the STP=BQP conjecture of Freedman, Hastings and Shokrian-Zini [1], namely that the two-qubit singlet/triplet measurement is quantum computationally universal given only an initial ensemble of maximally mixed single qubits. This provides a method for quantum computing that is fully rotationally symmetric (i.e. reference frame independent), using primitives that are both physically very-accessible and provably the simplest possible.
翻訳日:2023-11-13 18:52:02 公開日:2023-11-09
# 逆モード自動微分のための最適スパース行列演算

Optimized Sparse Matrix Operations for Reverse Mode Automatic Differentiation ( http://arxiv.org/abs/2212.05159v3 )

ライセンス: Link先を確認
Nicolas Nytko, Ali Taghibakhshi, Tareq Uz Zaman, Scott MacLachlan, Luke N. Olson, Matt West(参考訳) スパース行列表現は計算科学や機械学習においてユビキタスであり、局所接続性のある問題に対する密度表現と比較して計算時間を大幅に削減する。 しかし、PyTorchのような主要なMLフレームワークにおけるスパース表現の採用は不完全であり、自動微分とGPUアクセラレーションの両方が欠如している。 本稿では,PyTorch 用 CSR ベースのスパース行列ラッパーの実装と基本行列演算のためのCUDA アクセラレーション,および自動微分可能性について述べる。 また,結果のスパースカーネルを最適化に応用し,実装や性能測定の容易さを高密度カーネルと比較した。

Sparse matrix representations are ubiquitous in computational science and machine learning, leading to significant reductions in compute time, in comparison to dense representation, for problems that have local connectivity. The adoption of sparse representation in leading ML frameworks such as PyTorch is incomplete, however, with support for both automatic differentiation and GPU acceleration missing. In this work, we present an implementation of a CSR-based sparse matrix wrapper for PyTorch with CUDA acceleration for basic matrix operations, as well as automatic differentiability. We also present several applications of the resulting sparse kernels to optimization problems, demonstrating ease of implementation and performance measurements versus their dense counterparts.
翻訳日:2023-11-13 18:43:16 公開日:2023-11-09
# 人工知能の制約を探る:ゲーム理論のno-go定理

Exploring the Constraints on Artificial General Intelligence: A Game-Theoretic No-Go Theorem ( http://arxiv.org/abs/2209.12346v2 )

ライセンス: Link先を確認
Mehmet S. Ismail(参考訳) 高度な人工知能(AI)システムの出現は、研究者、政策立案者、一般大衆の間で激しい議論を引き起こしている。 本稿では,人間エージェントと潜在的超人的マシンエージェントとの戦略的相互作用を捉えるゲーム理論の枠組みを提案する。 戦略的な予測不可能性、機械の戦略へのアクセス、合理性、超人的な機械である。 この論文の主な結果は不合理性定理(英語版)であり、これら4つの仮定は互いに一致しないが、いずれの仮定も緩和すると一貫した仮定となる。 第1に、政策立案者は戦略的な予測不可能性を維持するために特定の人間データへのアクセスを制御すべきであり、第2に、一部のai研究者にスーパーヒューマンマシン研究へのアクセスを許可し、マシンの戦略に確実にアクセスすること。 私の分析は、超人的AIの理論的発展を形作ることのできるコンテキストの理解に寄与します。

The emergence of increasingly sophisticated artificial intelligence (AI) systems have sparked intense debate among researchers, policymakers, and the public due to their potential to surpass human intelligence and capabilities in all domains. In this paper, I propose a game-theoretic framework that captures the strategic interactions between a human agent and a potential superhuman machine agent. I identify four key assumptions: Strategic Unpredictability, Access to Machine's Strategy, Rationality, and Superhuman Machine. The main result of this paper is an impossibility theorem: these four assumptions are inconsistent when taken together, but relaxing any one of them results in a consistent set of assumptions. Two straightforward policy recommendations follow: first, policymakers should control access to specific human data to maintain Strategic Unpredictability; and second, they should grant select AI researchers access to superhuman machine research to ensure Access to Machine's Strategy holds. My analysis contributes to a better understanding of the context that can shape the theoretical development of superhuman AI.
翻訳日:2023-11-13 18:40:33 公開日:2023-11-09
# エネルギー需要の無知とbitcoinの人気: ナイジェリアからの証拠

Energy Demand Unawareness and the Popularity of Bitcoin: Evidence from Nigeria ( http://arxiv.org/abs/2208.00280v3 )

ライセンス: Link先を確認
Moritz Platt, Stephen Ojeka, Andreea-Elena Dr\u{a}gnoiu, Oserere Ejemen Ibelegbu, Francesco Pierangeli, Johannes Sedlmeir and Zixin Wang(参考訳) 分散型暗号ネットワーク、特にエネルギー需要の高いものは、重大な批判とその後の規制の精査に直面している。 こうした懸念にもかかわらず、持続可能性を求めて暗号通貨操作を標的とする政策介入はほとんど効果がなかった。 イノベーションを危険にさらすことを恐れて放棄されたものもあれば、ブロックチェーンシステムの高度にグローバル化した性質のために失敗したものもある。 エネルギー政策対策のより効果的な角を探るため、この研究は消費者中心の視点を採用し、ナイジェリアの暗号通貨利用者(${n=158}$)の、高電力需要で知られるビットコインの持続可能性に対する感情を調査した。 主な発見は3つあります 1) 自己認識能力の高い人でさえも、bitcoinの電力消費量を過小評価している。 2)Bitcoinのエネルギー需要をより正確に理解した参加者は、サステナビリティ対策を支持する傾向が強かった。 3) 支援的なコーホートのほとんどは、民間団体をそのような措置を実施するための主要な利害関係者とみなしている。 これらの知見を踏まえると、消費者教育は暗号通貨の持続可能性を目指す政策イニシアティブの最前線にあるべきだと提案する。

Decentralized cryptocurrency networks, notably those with high energy demand, have faced significant criticism and subsequent regulatory scrutiny. Despite these concerns, policy interventions targeting cryptocurrency operations in the pursuit of sustainability have largely been ineffective. Some were abandoned for fear of jeopardizing innovation, whereas others failed due to the highly globalized nature of blockchain systems. In search of a more effective angle for energy policy measures, this study adopts a consumer-centric perspective, examining the sentiments of Nigerian cryptocurrency users (${n=158}$) toward Bitcoin's sustainability, a representative cryptocurrency known for its high electricity demand. Three main findings emerged: 1) Even among those self-identifying as highly knowledgeable, most considerably underestimated Bitcoin's electricity consumption. 2) Participants with a more accurate understanding of Bitcoin's energy demand were more inclined to support sustainability measures. 3) Most of this supportive cohort viewed private entities as the primary stakeholders for implementing such measures. Given these findings, we suggest that consumer education should be at the forefront of policy initiatives aimed at cryptocurrency sustainability.
翻訳日:2023-11-13 18:39:43 公開日:2023-11-09
# egoenv: エゴセントリックビデオによる人間中心の環境表現

EgoEnv: Human-centric environment representations from egocentric video ( http://arxiv.org/abs/2207.11365v3 )

ライセンス: Link先を確認
Tushar Nagarajan, Santhosh Kumar Ramakrishnan, Ruta Desai, James Hillis, Kristen Grauman(参考訳) ファーストパーソンビデオは、カメラ着用者の永続的な環境の文脈での活動を強調する。 しかし、現在のビデオ理解アプローチは、下層の物理的空間から切り離され、すぐに見えるものだけをキャプチャする短いビデオクリップから視覚的特徴を引き出す。 本研究では,人間中心の環境理解を容易にするために,カメラ装着者の(潜在的に見えない)局所環境を予測した表現を学習することにより,エゴセントリック映像と環境をリンクする手法を提案する。 環境が完全に観測可能なシミュレーション3d環境でエージェントの動画を使用して,このようなモデルをトレーニングし,未発見の環境から取得した実世界ビデオでテストする。 2つの人間中心のビデオタスクにおいて,環境認識機能を備えたモデルが,従来のクリップ機能よりも常に優れています。 さらに,シミュレーションビデオのみを訓練しながら,housetours と ego4d による実世界ビデオの処理に成功し,ego4d nlq 課題において最先端の結果を得ることができた。 プロジェクトページ: https://vision.cs.utexas.edu/projects/ego-env/

First-person video highlights a camera-wearer's activities in the context of their persistent environment. However, current video understanding approaches reason over visual features from short video clips that are detached from the underlying physical space and capture only what is immediately visible. To facilitate human-centric environment understanding, we present an approach that links egocentric video and the environment by learning representations that are predictive of the camera-wearer's (potentially unseen) local surroundings. We train such models using videos from agents in simulated 3D environments where the environment is fully observable, and test them on human-captured real-world videos from unseen environments. On two human-centric video tasks, we show that models equipped with our environment-aware features consistently outperform their counterparts with traditional clip features. Moreover, despite being trained exclusively on simulated videos, our approach successfully handles real-world videos from HouseTours and Ego4D, and achieves state-of-the-art results on the Ego4D NLQ challenge. Project page: https://vision.cs.utexas.edu/projects/ego-env/
翻訳日:2023-11-13 18:39:25 公開日:2023-11-09
# 不均衡分類のためのSVMの一次推定下位解法

Primal Estimated Subgradient Solver for SVM for Imbalanced Classification ( http://arxiv.org/abs/2206.09311v6 )

ライセンス: Link先を確認
John Sun(参考訳) 我々は,PEGASOS SVMが8.6:1から130:1の範囲のマイノリティ比を持つ不均衡データセットに対して優れた性能を達成し,インタセプト(バイアス),正規化,パラメータがデータセット選択のパフォーマンスに影響を及ぼすかどうかを確認することを目的としている。 SMOTE法には多くの方法があるが、計算量が少ない方法を目指している。 学習曲線を調べることにより,その性能を評価する。 これらの曲線は、我々が過剰に適合するか過小評価するか、またはプロセス中に選択したデータのランダムなサンプルが無作為でないか、依存変数クラスで十分に多様でないかを診断し、アルゴリズムが見当たらない例に一般化する。 また、バリデーション曲線におけるハイパーパラメータの背景とテストと列車のエラーも見ていきます。 我々は、ding の線形 svm decidl 法の pegasos コストに敏感な svm の結果をベンチマークする。 彼は1つのデータセットで.5のROC-AUCを得た。 私たちの仕事は、svmにカーネルを組み込むことでdingの作業を拡張します。 マルチパラメータのクロスバリデーション中に混合データ型を格納するための辞書があるため、MATLABではなくPythonを使用します。

We aim to demonstrate in experiments that our cost sensitive PEGASOS SVM achieves good performance on imbalanced data sets with a Majority to Minority Ratio ranging from 8.6:1 to 130:1 and to ascertain whether the including intercept (bias), regularization and parameters affects performance on our selection of datasets. Although many resort to SMOTE methods, we aim for a less computationally intensive method. We evaluate the performance by examining the learning curves. These curves diagnose whether we overfit or underfit or whether the random sample of data chosen during the process was not random enough or diverse enough in dependent variable class for the algorithm to generalized to unseen examples. We will also see the background of the hyperparameters versus the test and train error in validation curves. We benchmark our PEGASOS Cost-Sensitive SVM's results of Ding's LINEAR SVM DECIDL method. He obtained an ROC-AUC of .5 in one dataset. Our work will extend the work of Ding by incorporating kernels into SVM. We will use Python rather than MATLAB as python has dictionaries for storing mixed data types during multi-parameter cross-validation.
翻訳日:2023-11-13 18:38:41 公開日:2023-11-09
# 階層的自己回帰言語モデルによる高次元縦型電子健康記録の合成

Synthesize High-dimensional Longitudinal Electronic Health Records via Hierarchical Autoregressive Language Model ( http://arxiv.org/abs/2304.02169v3 )

ライセンス: Link先を確認
Brandon Theodorou, Cao Xiao, and Jimeng Sun(参考訳) リアルかつプライバシを保護した合成電子健康記録(EHR)は、機械学習(ML)モデリングと統計分析のための実際のEHRの代替となる。 しかし,ehr(high-fidelity and granular electronic health record)データの生成は,高次元データに固有の複雑さが原因で既存の手法では課題となっている。 本稿では, 階層型自己回帰言語mOdel(HALO)を提案する。これは, 現実のEHRの統計特性を保存し, プライバシーを考慮せずに正確なMLモデルのトレーニングに使用できる。 階層的自己回帰モデルとして設計されたhalo法は, 医用コード, 臨床訪問, 患者記録の確率密度関数を生成し, 変数選択や集計を必要とせず, 元の非集約形式のehrデータを生成する。 さらに,このモデルでは,高品質な連続変数を連続的かつ確率的に生成する。 我々は, HALOが高次元疾患コード確率(d >10,000), 訪問中の疾患共起確率(d > 1000,000), 連続訪問における条件付き確率(d > 5,000,000)で高忠実性EHRデータを生成し, 実EHRデータと比較して0.9R2以上の相関を達成できることを実証した。 このパフォーマンスにより、合成データに基づいてトレーニングされた下流MLモデルを、実データでトレーニングされたモデルに匹敵する精度を達成することができる(HALOデータでは0.938 AUROC、実データでは0.943)。 最後に、実データと合成データの組み合わせにより、実際のEHRデータのみを使用することで達成された以上のMLモデルの精度を高める。

Synthetic electronic health records (EHRs) that are both realistic and preserve privacy can serve as an alternative to real EHRs for machine learning (ML) modeling and statistical analysis. However, generating high-fidelity and granular electronic health record (EHR) data in its original, highly-dimensional form poses challenges for existing methods due to the complexities inherent in high-dimensional data. In this paper, we propose Hierarchical Autoregressive Language mOdel (HALO) for generating longitudinal high-dimensional EHR, which preserve the statistical properties of real EHR and can be used to train accurate ML models without privacy concerns. Our HALO method, designed as a hierarchical autoregressive model, generates a probability density function of medical codes, clinical visits, and patient records, allowing for the generation of realistic EHR data in its original, unaggregated form without the need for variable selection or aggregation. Additionally, our model also produces high-quality continuous variables in a longitudinal and probabilistic manner. We conducted extensive experiments and demonstrate that HALO can generate high-fidelity EHR data with high-dimensional disease code probabilities (d > 10,000), disease co-occurrence probabilities within visits (d > 1,000,000), and conditional probabilities across consecutive visits (d > 5,000,000) and achieve above 0.9 R2 correlation in comparison to real EHR data. This performance then enables downstream ML models trained on its synthetic data to achieve comparable accuracy to models trained on real data (0.938 AUROC with HALO data vs. 0.943 with real data). Finally, using a combination of real and synthetic data enhances the accuracy of ML models beyond that achieved by using only real EHR data.
翻訳日:2023-11-13 18:31:11 公開日:2023-11-09
# 事前学習モデルを用いた深部画像クラスタリングの限界探索

Exploring the Limits of Deep Image Clustering using Pretrained Models ( http://arxiv.org/abs/2303.17896v2 )

ライセンス: Link先を確認
Nikolas Adaloglou and Felix Michels and Hamza Kalisch and Markus Kollmann(参考訳) 本稿では,ラベルを付けずに画像の分類を学習する一般的な手法を提案する。 我々のアプローチは,事前訓練された特徴空間の近傍が同じラベルを共有する可能性が高いという事実に基づいて,クラスタリングヘッドの自己蒸留訓練を行う。 本稿では,画像特徴の関連を学習する新たな目的として,重み付けを併用したポイントワイズ相互情報の変種を提案する。 提案手法は,事前学習した特徴空間の構造を効率的に活用しながら,偽陽性対の効果を弱めることができることを示す。 その結果、ImageNet と CIFAR100 でそれぞれ 6.1$\% と 12.2$\% のクラスタリング精度を 17 ドルの異なる事前訓練モデルで$k$-means で改善した。 最後に、自己監督型視覚変換器を用いて、ImageNetで61.6$\%のクラスタリング精度を実現する。 コードはhttps://github.com/HHU-MMBS/TEMI-official-BMVC2023で公開されている。

We present a general methodology that learns to classify images without labels by leveraging pretrained feature extractors. Our approach involves self-distillation training of clustering heads based on the fact that nearest neighbours in the pretrained feature space are likely to share the same label. We propose a novel objective that learns associations between image features by introducing a variant of pointwise mutual information together with instance weighting. We demonstrate that the proposed objective is able to attenuate the effect of false positive pairs while efficiently exploiting the structure in the pretrained feature space. As a result, we improve the clustering accuracy over $k$-means on $17$ different pretrained models by $6.1$\% and $12.2$\% on ImageNet and CIFAR100, respectively. Finally, using self-supervised vision transformers, we achieve a clustering accuracy of $61.6$\% on ImageNet. The code is available at https://github.com/HHU-MMBS/TEMI-official-BMVC2023.
翻訳日:2023-11-13 18:30:40 公開日:2023-11-09
# 安定バイアス:拡散モデルにおける社会表現の解析

Stable Bias: Analyzing Societal Representations in Diffusion Models ( http://arxiv.org/abs/2303.11408v2 )

ライセンス: Link先を確認
Alexandra Sasha Luccioni, Christopher Akiki, Margaret Mitchell, Yacine Jernite(参考訳) 機械学習対応のテキスト・トゥ・イメージ(TTI)システムがますます普及し、商業サービスとしての採用が増えている中、彼らが提示する社会的偏見を特徴付けることは、差別的な結果のリスクを下げる上で必要な第一歩である。 しかし、この評価は、これらのシステムのアウトプットの合成的性質によりより困難になっている: 多様性の共通の定義は、世界に住む人々の社会的カテゴリーに基礎を置いているのに対し、これらのシステムによって作成された人為的な描写は、固有の性別や民族性を持たない。 そこで本研究では,ttiシステムにおける社会的バイアスを探索する新しい手法を提案する。 提案手法は,プロンプトにおける性別と民族の指標を列挙することによって引き起こされる生成画像の変動を特徴付け,異なる職業にまたがる変化と比較するものである。 これにより、(1)特定のバイアス傾向を特定し、(2)多様性と表現の観点からモデルを直接比較するための目標スコアを提供し、(3)多次元分析をサポートするために相互依存型社会変数を共同モデル化することができる。 我々は,この手法を用いて,3つのTTIシステム(Dall-E 2, 安定拡散v 1.4)で生成された画像を分析する。 2)すべてのアウトプットが米国の労働人口動態と相関しているのに対して、異なる範囲のマージン化されたアイデンティティを一貫して過小評価していることを見出す。 また、この作業のために開発されたデータセットとローコードインタラクティブなバイアス探索プラットフォーム、および追加のTTIシステムを評価するために必要なツールもリリースしています。

As machine learning-enabled Text-to-Image (TTI) systems are becoming increasingly prevalent and seeing growing adoption as commercial services, characterizing the social biases they exhibit is a necessary first step to lowering their risk of discriminatory outcomes. This evaluation, however, is made more difficult by the synthetic nature of these systems' outputs: common definitions of diversity are grounded in social categories of people living in the world, whereas the artificial depictions of fictive humans created by these systems have no inherent gender or ethnicity. To address this need, we propose a new method for exploring the social biases in TTI systems. Our approach relies on characterizing the variation in generated images triggered by enumerating gender and ethnicity markers in the prompts, and comparing it to the variation engendered by spanning different professions. This allows us to (1) identify specific bias trends, (2) provide targeted scores to directly compare models in terms of diversity and representation, and (3) jointly model interdependent social variables to support a multidimensional analysis. We leverage this method to analyze images generated by 3 popular TTI systems (Dall-E 2, Stable Diffusion v 1.4 and 2) and find that while all of their outputs show correlations with US labor demographics, they also consistently under-represent marginalized identities to different extents. We also release the datasets and low-code interactive bias exploration platforms developed for this work, as well as the necessary tools to similarly evaluate additional TTI systems.
翻訳日:2023-11-13 18:30:24 公開日:2023-11-09
# 漸近量子多体傷

Asymptotic Quantum Many-Body Scars ( http://arxiv.org/abs/2303.05407v2 )

ライセンス: Link先を確認
Lorenzo Gotta, Sanjay Moudgalya, Leonardo Mazza(参考訳) 量子多体散乱 (QMBS) として知られる, 有限サイズでの絡み合いの低い固有状態の正準粒子塔を特徴とする量子格子スピンモデルを考える。 エネルギースペクトルの近傍にある状態は、格子サイズが大きくなるにつれてエネルギーの差が漸近的にゼロに減少する低絡状態の族全体の構成に重畳されることを示す。 結果として、それらは熱力学的極限に発散する緩和時間を持ち、したがって、有限サイズのハミルトンの固有状態ではないにもかかわらず、正確な qmb の典型的な挙動を示す。 このような状態を、textit{asymptotic} QMBS と呼ぶ。 これらの状態は任意の有限サイズの任意のqmbと直交しており、それらの存在は、正確なqmbの存在がスペクトルの残りの部分において非熱性の重要なシグネチャを残していることを示している。 我々は、QMBSのパラダイムモデルであるSpin-1 XYモデルにおける数値シミュレーションを用いて研究を支援し、漸近的なQMBSを維持しながら正確なQMBSを破壊するモデルの弱い摂動を提示することで結論付ける。

We consider a quantum lattice spin model featuring exact quasiparticle towers of eigenstates with low entanglement at finite size, known as quantum many-body scars (QMBS). We show that the states in the neighboring part of the energy spectrum can be superposed to construct entire families of low-entanglement states whose energy variance decreases asymptotically to zero as the lattice size is increased. As a consequence, they have a relaxation time that diverges in the thermodynamic limit, and therefore exhibit the typical behavior of exact QMBS although they are not exact eigenstates of the Hamiltonian for any finite size. We refer to such states as \textit{asymptotic} QMBS. These states are orthogonal to any exact QMBS at any finite size, and their existence shows that the presence of an exact QMBS leaves important signatures of non-thermalness in the rest of the spectrum; therefore, QMBS-like phenomena can hide in what is typically considered the thermal part of the spectrum. We support our study using numerical simulations in the spin-1 XY model, a paradigmatic model for QMBS, and we conclude by presenting a weak perturbation of the model that destroys the exact QMBS while keeping the asymptotic QMBS.
翻訳日:2023-11-13 18:29:22 公開日:2023-11-09
# 仮想エージェントのためのE2Eスポットエンティティ抽出

E2E Spoken Entity Extraction for Virtual Agents ( http://arxiv.org/abs/2302.10186v7 )

ライセンス: Link先を確認
Karan Singla, Yeon-Jun Kim, Srinivas Bangalore(参考訳) 人間のコンピュータによる会話では、名前や住所、メールアドレスなどのエンティティを音声から抽出することが難しい。 本稿では, テキストの書き起こしを必要とせずに, 音声読取可能な音声の実体を直接抽出する, 微調整事前学習音声エンコーダの効果について検討する。 このような直接的なアプローチは、キャリヤフレーズやスペル名エンティティなどの過剰な部分を無視した音声のエンティティ関連部分のみを転写するエンコーダを最適化する。 企業仮想エージェントからの対話の文脈において、1段階のアプローチは、まず語彙的転写を生成し、その後にテキストベースのエンティティ抽出によって音声エンティティを識別する典型的な2段階のアプローチよりも優れていることを実証する。

In human-computer conversations, extracting entities such as names, street addresses and email addresses from speech is a challenging task. In this paper, we study the impact of fine-tuning pre-trained speech encoders on extracting spoken entities in human-readable form directly from speech without the need for text transcription. We illustrate that such a direct approach optimizes the encoder to transcribe only the entity relevant portions of speech ignoring the superfluous portions such as carrier phrases, or spell name entities. In the context of dialog from an enterprise virtual agent, we demonstrate that the 1-step approach outperforms the typical 2-step approach which first generates lexical transcriptions followed by text-based entity extraction for identifying spoken entities.
翻訳日:2023-11-13 18:28:17 公開日:2023-11-09
# 対流型暗黙的勾配を用いたデータセット蒸留

Dataset Distillation with Convexified Implicit Gradients ( http://arxiv.org/abs/2302.06755v2 )

ライセンス: Link先を確認
Noel Loo, Ramin Hasani, Mathias Lechner, Daniela Rus(参考訳) 本稿では,暗黙的勾配(RCIG)の再パラメータ化と凸化を用いた新しいデータセット蒸留アルゴリズムを提案する。 この目的のために,まずデータセット蒸留を二段階最適化問題として定式化する。 次に,メタグレード更新の計算に暗黙の勾配を効果的に用いる方法を示す。 さらに,凍結した有限幅神経接核上での学習に対応する凸近似をアルゴリズムに適用する。 最後に,ニューラルネットワークをパラメータ化することで,ボディーパラメータが与えられた最終層パラメータの解析計算を可能にすることで,暗黙の勾配におけるバイアスを改善する。 RCIGは、さまざまなデータセット蒸留タスクに新たな最先端技術を確立する。 特に、再サイズされたImageNetでは、クラスごとのイメージが1つあるため、RCIGは従来の最先端蒸留アルゴリズムよりも平均108\%改善している。 同様に,Tiny-ImageNetでは66 %,CIFAR-100では37 %であった。

We propose a new dataset distillation algorithm using reparameterization and convexification of implicit gradients (RCIG), that substantially improves the state-of-the-art. To this end, we first formulate dataset distillation as a bi-level optimization problem. Then, we show how implicit gradients can be effectively used to compute meta-gradient updates. We further equip the algorithm with a convexified approximation that corresponds to learning on top of a frozen finite-width neural tangent kernel. Finally, we improve bias in implicit gradients by parameterizing the neural network to enable analytical computation of final-layer parameters given the body parameters. RCIG establishes the new state-of-the-art on a diverse series of dataset distillation tasks. Notably, with one image per class, on resized ImageNet, RCIG sees on average a 108\% improvement over the previous state-of-the-art distillation algorithm. Similarly, we observed a 66\% gain over SOTA on Tiny-ImageNet and 37\% on CIFAR-100.
翻訳日:2023-11-13 18:28:01 公開日:2023-11-09
# ニューラルネットワークカーネルとデータセット蒸留による再構成攻撃の理解

Understanding Reconstruction Attacks with the Neural Tangent Kernel and Dataset Distillation ( http://arxiv.org/abs/2302.01428v2 )

ライセンス: Link先を確認
Noel Loo, Ramin Hasani, Mathias Lechner, Alexander Amini, Daniela Rus(参考訳) 現代のディープラーニングには大量のデータが必要であり、リークできない機密情報やプライベート情報を含む可能性がある。 最近の研究では、このトレーニングデータの大部分は、トレーニング済みのネットワークパラメータにのみアクセスすることで再構成可能であることが示されている。 攻撃は経験的に働くことが示されているが、データポイントが復元に影響を受けやすい、その効果的な体制について正式な理解はほとんど存在しない。 本研究は,まず,データセット再構築攻撃のより強力なバージョンを構築し,無限幅の条件下での 'emph{entire training set} の再現性を示す。 次に,2層ネットワークに対する攻撃特性を実験的に検討し,その成功は,凍結した無限幅の神経接核限界からの逸脱に大きく依存することを明らかにした。 次に,容易に再構成できる画像の性質について検討する。 理論上および経験上、再構成された画像はデータセット内で「異常値」になりがちであり、これらの復元攻撃は \textit{dataset distillation}、つまり再構成された画像を再訓練し、高い予測精度を得ることができる。

Modern deep learning requires large volumes of data, which could contain sensitive or private information that cannot be leaked. Recent work has shown for homogeneous neural networks a large portion of this training data could be reconstructed with only access to the trained network parameters. While the attack was shown to work empirically, there exists little formal understanding of its effective regime which datapoints are susceptible to reconstruction. In this work, we first build a stronger version of the dataset reconstruction attack and show how it can provably recover the \emph{entire training set} in the infinite width regime. We then empirically study the characteristics of this attack on two-layer networks and reveal that its success heavily depends on deviations from the frozen infinite-width Neural Tangent Kernel limit. Next, we study the nature of easily-reconstructed images. We show that both theoretically and empirically, reconstructed images tend to "outliers" in the dataset, and that these reconstruction attacks can be used for \textit{dataset distillation}, that is, we can retrain on reconstructed images and obtain high predictive accuracy.
翻訳日:2023-11-13 18:27:02 公開日:2023-11-09
# 深い量子ニューラルネットワークがガウス過程を形成する

Deep quantum neural networks form Gaussian processes ( http://arxiv.org/abs/2305.09957v2 )

ライセンス: Link先を確認
Diego Garc\'ia-Mart\'in, Martin Larocca, M. Cerezo(参考訳) 独立かつ同一に分布する前駆体から初期化された人工ニューラルネットワークは、隠れ層当たりのニューロン数の制限でガウス過程に収束することが知られている。 本研究では,量子ニューラルネットワーク(QNN)の類似性を証明する。 すなわち、Haarランダムユニタリあるいは直交深度QNNに基づく特定のモデルの出力が、大きなヒルベルト空間次元$d$の極限でガウス過程に収束することを示す。 この結果の導出は、入力状態、観測可能な測定、ユニタリ行列のエントリが独立ではないという事実により、古典的な場合よりも微妙なものである。 我々の分析の重要な結果は、続くガウス過程はベイズ統計を通じてqnnの出力を効率的に予測することができないということである。 さらに、我々の定理は、ハールランダムqnnにおける測度現象の集中が以前考えられていたよりも悪く、期待値と勾配が$\mathcal{o}\left(\frac{1}{e^d \sqrt{d}}\right)$となることを証明している。 最後に、この結果が$t$-designsにおける濃度の理解をいかに改善するかについて議論する。

It is well known that artificial neural networks initialized from independent and identically distributed priors converge to Gaussian processes in the limit of large number of neurons per hidden layer. In this work we prove an analogous result for Quantum Neural Networks (QNNs). Namely, we show that the outputs of certain models based on Haar random unitary or orthogonal deep QNNs converge to Gaussian processes in the limit of large Hilbert space dimension $d$. The derivation of this result is more nuanced than in the classical case due to the role played by the input states, the measurement observable, and the fact that the entries of unitary matrices are not independent. An important consequence of our analysis is that the ensuing Gaussian processes cannot be used to efficiently predict the outputs of the QNN via Bayesian statistics. Furthermore, our theorems imply that the concentration of measure phenomenon in Haar random QNNs is worse than previously thought, as we prove that expectation values and gradients concentrate as $\mathcal{O}\left(\frac{1}{e^d \sqrt{d}}\right)$. Finally, we discuss how our results improve our understanding of concentration in $t$-designs.
翻訳日:2023-11-13 18:16:33 公開日:2023-11-09
# 意識が動的に関係しているなら 人工知能は意識を持たない

If consciousness is dynamically relevant, artificial intelligence isn't conscious ( http://arxiv.org/abs/2304.05077v2 )

ライセンス: Link先を確認
Johannes Kleiner, Tim Ludwig(参考訳) 意識がシステムの状態の時間的発展に関係している場合、すなわち、それが動的に関連している場合、aiシステムは意識できないことを実証する。 これは、aiシステムがcpu、gpu、tpusなどのプロセッサ上で動作し、系統的に偏差を妨げたり抑制したりする計算力学に準拠するように設計され、検証されているためである。 設計と検証は、特に潜在的な意識関連動的効果を阻害または抑制し、意識が動的に関連している場合、aiシステムは意識できない。

We demonstrate that if consciousness is relevant for the temporal evolution of a system's states--that is, if it is dynamically relevant--then AI systems cannot be conscious. That is because AI systems run on CPUs, GPUs, TPUs or other processors which have been designed and verified to adhere to computational dynamics that systematically preclude or suppress deviations. The design and verification preclude or suppress, in particular, potential consciousness-related dynamical effects, so that if consciousness is dynamically relevant, AI systems cannot be conscious.
翻訳日:2023-11-13 18:14:26 公開日:2023-11-09
# マージツリー(および永続化図)のwassersteinオートエンコーダ

Wasserstein Auto-Encoders of Merge Trees (and Persistence Diagrams) ( http://arxiv.org/abs/2307.02509v2 )

ライセンス: Link先を確認
Mahieu Pont, Julien Tierny(参考訳) 本稿では,古典的自動エンコーダニューラルネットワークアーキテクチャの新たな拡張であるmt-wae(wasserstein auto-encoding of merge trees)の計算フレームワークを提案する。 ベクトル化データを操作する従来のオートエンコーダとは対照的に,ネットワークの各層で関連する距離空間上のマージツリーを明示的に操作することにより,精度と解釈性が向上した。 我々の新しいニューラルネットワークアプローチは、マージツリーエンコーディングにおける以前の線形試行[79]の非線形一般化と解釈できる。 永続化ダイアグラムにも簡単に拡張できます。 公開アンサンブルに関する大規模な実験は、MT-WAE計算を平均数分のオーダーで行うことで、我々のアルゴリズムの効率を実証している。 マージツリーエンコーディング [79] に関する以前の研究から適応した2つのアプリケーションにおける貢献の有用性を示す。 まず, MT-WAEを木圧縮のマージに適用し, その座標をオートエンコーダの最終層に簡潔に表現する。 第2に,自動エンコーダの潜伏空間を利用して,アンサンブルデータの視覚的解析を行うことにより,次元の低減を図示する。 我々は2つのペナルティ項を導入し,マージツリー間のワッサースタイン距離とクラスタ間の潜在空間の保存を支援することにより,フレームワークの汎用性を示す。 どちらのアプリケーションでも、定量的実験は我々のフレームワークの関連性を評価する。 最後に、再現性に使用できるC++の実装を提供します。

This paper presents a computational framework for the Wasserstein auto-encoding of merge trees (MT-WAE), a novel extension of the classical auto-encoder neural network architecture to the Wasserstein metric space of merge trees. In contrast to traditional auto-encoders which operate on vectorized data, our formulation explicitly manipulates merge trees on their associated metric space at each layer of the network, resulting in superior accuracy and interpretability. Our novel neural network approach can be interpreted as a non-linear generalization of previous linear attempts [79] at merge tree encoding. It also trivially extends to persistence diagrams. Extensive experiments on public ensembles demonstrate the efficiency of our algorithms, with MT-WAE computations in the orders of minutes on average. We show the utility of our contributions in two applications adapted from previous work on merge tree encoding [79]. First, we apply MT-WAE to merge tree compression, by concisely representing them with their coordinates in the final layer of our auto-encoder. Second, we document an application to dimensionality reduction, by exploiting the latent space of our auto-encoder, for the visual analysis of ensemble data. We illustrate the versatility of our framework by introducing two penalty terms, to help preserve in the latent space both the Wasserstein distances between merge trees, as well as their clusters. In both applications, quantitative experiments assess the relevance of our framework. Finally, we provide a C++ implementation that can be used for reproducibility.
翻訳日:2023-11-13 18:06:59 公開日:2023-11-09
# リニア学習者に対する無差別な中毒攻撃に対して,どの分布が堅牢か?

What Distributions are Robust to Indiscriminate Poisoning Attacks for Linear Learners? ( http://arxiv.org/abs/2307.01073v2 )

ライセンス: Link先を確認
Fnu Suya, Xiao Zhang, Yuan Tian, David Evans(参考訳) 本研究では, 学習者に対する無差別な毒殺について検討し, 学習者に対して, 学習データにいくつかの工芸品を注入する。 そこで本研究では, 線形学習者に対して, 線形学習者に対する有害な攻撃を非差別化するために, データセットが本質的に堅牢であるかどうかを考察する。 理論上のガウス分布については、与えられた中毒予算において誘導モデルの最大リスクを達成する中毒戦略として定義される最適中毒攻撃の挙動を厳格に特徴付ける。 その結果, クラス別データ分布が低分散で十分に分離され, 許容されるすべての毒点を含む制約集合のサイズも小さい場合, 線形学習者は確実に中毒を判別できることがわかった。 これらの結果は、ベンチマークデータセット全体にわたる線形学習者に対する最先端の中毒攻撃による経験的攻撃性能の劇的な変化を主に説明しており、いくつかの学習タスクがデータ中毒攻撃に脆弱である理由を理解するための重要な第一歩となっている。

We study indiscriminate poisoning for linear learners where an adversary injects a few crafted examples into the training data with the goal of forcing the induced model to incur higher test error. Inspired by the observation that linear learners on some datasets are able to resist the best known attacks even without any defenses, we further investigate whether datasets can be inherently robust to indiscriminate poisoning attacks for linear learners. For theoretical Gaussian distributions, we rigorously characterize the behavior of an optimal poisoning attack, defined as the poisoning strategy that attains the maximum risk of the induced model at a given poisoning budget. Our results prove that linear learners can indeed be robust to indiscriminate poisoning if the class-wise data distributions are well-separated with low variance and the size of the constraint set containing all permissible poisoning points is also small. These findings largely explain the drastic variation in empirical attack performance of the state-of-the-art poisoning attacks on linear learners across benchmark datasets, making an important initial step towards understanding the underlying reasons some learning tasks are vulnerable to data poisoning attacks.
翻訳日:2023-11-13 18:06:35 公開日:2023-11-09
# 自動運転の新技術の概要

An Overview about Emerging Technologies of Autonomous Driving ( http://arxiv.org/abs/2306.13302v4 )

ライセンス: Link先を確認
Yu Huang, Yue Chen, Zijiang Yang(参考訳) 2004年にDARPAがグランドチャレンジを始め、2007年にアーバンチャレンジを開始して以来、自動運転はAIアプリケーションの最も活発な分野となっている。 本稿では,自動運転技術とオープン問題の技術的側面について概説する。 本稿では,認識,マッピングとローカライゼーション,予測,計画と制御,シミュレーション,V2X,安全性など,自動運転システムの主要な分野について検討する。 特に私たちは,ロングテールの自動運転問題を解決するための一般的なプラットフォームであるdata closed loopのフレームワークで,これらすべての問題を詳しく説明しています。

Since DARPA started Grand Challenges in 2004 and Urban Challenges in 2007, autonomous driving has been the most active field of AI applications. This paper gives an overview about technical aspects of autonomous driving technologies and open problems. We investigate the major fields of self-driving systems, such as perception, mapping and localization, prediction, planning and control, simulation, V2X and safety etc. Especially we elaborate on all these issues in a framework of data closed loop, a popular platform to solve the long tailed autonomous driving problems.
翻訳日:2023-11-13 18:04:48 公開日:2023-11-09
# トランスフォーマーは文脈内学習のための事前条件付き勾配降下の実装を学習する

Transformers learn to implement preconditioned gradient descent for in-context learning ( http://arxiv.org/abs/2306.00297v2 )

ライセンス: Link先を確認
Kwangjun Ahn, Xiang Cheng, Hadi Daneshmand, Suvrit Sra(参考訳) 最近のいくつかの研究は、トランスフォーマーが勾配降下のようなアルゴリズムを実装できることを証明している。 重みの注意深い構成により、これらの研究は、複数の変圧器の層が勾配降下の反復をシミュレートするのに十分であることを示す。 トランスフォーマーは、ランダムな問題インスタンス上でトレーニングすることで、そのようなアルゴリズムを実装することを学べますか? 我々の知る限り、線形回帰のランダムな事例に基づいて訓練された線形変圧器の損失景観の解析を通じて、この問題に関する最初の理論的進歩を行う。 1つの注意層に対して、トレーニング対象のグローバルな最小値が事前条件付き勾配勾配の単一イテレーションを実装することを証明する。 特に、プレコンディショニング行列は入力分布だけでなく、データ不足によって引き起こされる分散にも適応する。 注意層が$L$の変圧器では,事前条件付き勾配勾配の反復として$L$を実装した訓練対象の臨界点が証明される。 この結果から,変圧器の訓練による学習アルゴリズムの理論的研究が望まれる。

Several recent works demonstrate that transformers can implement algorithms like gradient descent. By a careful construction of weights, these works show that multiple layers of transformers are expressive enough to simulate iterations of gradient descent. Going beyond the question of expressivity, we ask: Can transformers learn to implement such algorithms by training over random problem instances? To our knowledge, we make the first theoretical progress on this question via an analysis of the loss landscape for linear transformers trained over random instances of linear regression. For a single attention layer, we prove the global minimum of the training objective implements a single iteration of preconditioned gradient descent. Notably, the preconditioning matrix not only adapts to the input distribution but also to the variance induced by data inadequacy. For a transformer with $L$ attention layers, we prove certain critical points of the training objective implement $L$ iterations of preconditioned gradient descent. Our results call for future theoretical studies on learning algorithms by training transformers.
翻訳日:2023-11-13 18:02:43 公開日:2023-11-09
# オープンソースプロジェクトにおけるユーザビリティに関する議論の特徴化

Characterizing Usability Issue Discussions in Open Source Software Projects ( http://arxiv.org/abs/2308.09876v2 )

ライセンス: Link先を確認
Arghavan Sanei, Jinghui Cheng(参考訳) ユーザビリティは重要な要素だが、オープンソースソフトウェア(OSS)において最も無視される懸念の1つだ。 理想的なアプローチとは程遠いが、OSSコミュニティがユーザビリティに協力的に対処するために採用する一般的なプラクティスは、イシュートラッキングシステム(ITS)に関する議論である。 しかし,OSSコミュニティのメンバがユーザビリティに関する議論にどの程度関わったか,ユーザビリティに関する議論が頻繁に対象とする側面,ユーザビリティに関する議論に関するコラボレーションの特徴についてはほとんど分かっていない。 この知識は、OSSコミュニティに対して、この重要なトピックに対処し、OSSのユーザビリティを全般的に改善する上で、実践的なレコメンデーションと研究の方向性を提供する上で重要である。 この目標を達成するために、3つのデータサイエンスノートブックプロジェクト(jupyter lab、google colab、cocalc)と2つのコードエディタプロジェクト(vscodeとatom)の5つの人気のあるossアプリケーションで議論されている問題に関する広範な実証研究を行った。 その結果,OSSプロジェクトではユーザビリティの問題が広く議論されているが,その範囲は効率性や美学に限られていた。 さらに、これらの問題は経験豊富なコミュニティメンバーによってより頻繁に投稿され、視覚的なコミュニケーションや参加者の増加など、識別可能な特徴を示す。 この結果から,OSS実践者に対して,ユーザビリティに関する議論にコミュニティをより深く関与させる上で重要な意味を持ち,OSSコンテキストにおけるユーザビリティ問題など,さまざまなコミュニティにおけるニッチなトピックを議論するためのコラボレーション技術やツールに関する今後の研究課題に光を当てることができた。

Usability is a crucial factor but one of the most neglected concerns in open source software (OSS). While far from an ideal approach, a common practice that OSS communities adopt to collaboratively address usability is through discussions on issue tracking systems (ITSs). However, there is little knowledge about the extent to which OSS community members engage in usability issue discussions, the aspects of usability they frequently target, and the characteristics of their collaboration around usability issue discussions. This knowledge is important for providing practical recommendations and research directions to better support OSS communities in addressing this important topic and improve OSS usability in general. To help achieve this goal, we performed an extensive empirical study on issues discussed in five popular OSS applications: three data science notebook projects (Jupyter Lab, Google Colab, and CoCalc) and two code editor projects (VSCode and Atom). Our results indicated that while usability issues are extensively discussed in the OSS projects, their scope tended to be limited to efficiency and aesthetics. Additionally, these issues are more frequently posted by experienced community members and display distinguishable characteristics, such as involving more visual communication and more participants. Our results provide important implications that can inform the OSS practitioners to better engage the community in usability issue discussion and shed light on future research efforts toward collaboration techniques and tools for discussing niche topics in diverse communities, such as the usability issues in the OSS context.
翻訳日:2023-11-13 17:52:29 公開日:2023-11-09
# 検索型テキスト選択によるクラス不均衡データの分類

Retrieval-based Text Selection for Addressing Class-Imbalanced Data in Classification ( http://arxiv.org/abs/2307.14899v2 )

ライセンス: Link先を確認
Sareh Ahmadi, Aditya Shah, Edward Fox(参考訳) 本稿では,人的資源の制約によるアノテーションの数に制限がある場合に,検索手法を用いたテキスト分類におけるアノテーションの集合の選択の問題に対処する。 さらに対処される課題は、厳しいクラス不均衡を反映して、少数のポジティブなインスタンスを持つバイナリカテゴリを扱うことだ。 アノテーションが長期間にわたって発生する状況では、アノテーションを付加するテキストの選択はバッチで行うことができ、以前のアノテーションは次のセットの選択を導く。 これらの課題に対処するため, SHAPを用いてElasticsearchとセマンティック検索のための高品質なクエリセットを構築し, クラス不均衡に寄与するアノテーションのための最適なテキストセットを特定することを提案する。 このアプローチは、肥満と糖尿病の管理を支援する研究に携わる参加者によって構築された、将来の出来事を記述した一連の手がかりテキストに基づいてテストされる。 本稿では,アノテーションのためのテキストセットの選択と,高品質な分類器の構築に有効な方法を提案する。 ベクトル検索、セマンティック検索、機械学習分類器を統合して、優れたソリューションを実現します。 本実験は,二進分類におけるマイノリティクラスに対するF1スコアの改善を実証した。

This paper addresses the problem of selecting of a set of texts for annotation in text classification using retrieval methods when there are limits on the number of annotations due to constraints on human resources. An additional challenge addressed is dealing with binary categories that have a small number of positive instances, reflecting severe class imbalance. In our situation, where annotation occurs over a long time period, the selection of texts to be annotated can be made in batches, with previous annotations guiding the choice of the next set. To address these challenges, the paper proposes leveraging SHAP to construct a quality set of queries for Elasticsearch and semantic search, to try to identify optimal sets of texts for annotation that will help with class imbalance. The approach is tested on sets of cue texts describing possible future events, constructed by participants involved in studies aimed to help with the management of obesity and diabetes. We introduce an effective method for selecting a small set of texts for annotation and building high-quality classifiers. We integrate vector search, semantic search, and machine learning classifiers to yield a good solution. Our experiments demonstrate improved F1 scores for the minority classes in binary classification.
翻訳日:2023-11-13 17:50:33 公開日:2023-11-09
# ウォルシュ系列を用いた効率的な量子状態生成

Efficient Quantum State Preparation with Walsh Series ( http://arxiv.org/abs/2307.08384v3 )

ライセンス: Link先を確認
Julien Zylberman and Fabrice Debbasch(参考訳) ウォルシュシリーズローダ (WSL) と呼ばれる新しい近似量子状態準備法 (QSP) が導入された。 WSLは、1つの実変数の実数値関数によって定義される量子状態に近似し、深さは数$n$の量子ビットとは独立である。 2つのアプローチが提示されている: 最初の1つは、$o(1/\sqrt{\epsilon})$で切れたウォルシュ級数によって目標の量子状態に近似し、ここで$\epsilon$は不完全性の項における近似の精度である。 回路の深さも$o(1/\sqrt{\epsilon})$であり、サイズは$o(n+1/\sqrt{\epsilon})$であり、1つのancilla qubitのみである。 第2の方法はスパースウォルシュ級数で正確に量子状態を表す。 WSLは、$s$-sparse Walshシリーズを$n$-qubitsにロードし、深さが2倍の$s$と$k$、Walsh関数のインデックスのバイナリ分解で$1$の最大ビット数である。 関連する量子回路はスパースウォルシュ・シリーズを、深さ$O(sk)$、サイズ$O(n+sk)$と1つのアンシラ量子ビットで誤差$\epsilon$に近似する。 どちらの場合も、プロトコルは成功確率が$P=\Theta(\epsilon)$のRepeat-Until-Success (RUS) プロシージャであり、WSL (resp) に対する平均総時間は$O(1/\epsilon^{3/2})$である。 sparse WSL の$O(sk/\epsilon)$ 振幅増幅は$O(1/\sqrt{\epsilon})$$$\epsilon$の合計時間依存性によって減少するが、関連する量子回路のサイズと深さを増大させ、$n$に線形に依存する。 これらのプロトコルは、任意のパラメータに指数的スケーリングを持たず、全体的な効率のよいアルゴリズムを提供する。 それらは任意の複素値、多変量、ほぼすべての微分可能関数に一般化することができる。 Repeat-Until-Success Walsh Series Loaderは、回路深さとキュービット数に依存しない平均総時間を持つ量子状態を作成する唯一の方法である。

A new approximate Quantum State Preparation (QSP) method is introduced, called the Walsh Series Loader (WSL). The WSL approximates quantum states defined by real-valued functions of single real variables with a depth independent of the number $n$ of qubits. Two approaches are presented: the first one approximates the target quantum state by a Walsh Series truncated at order $O(1/\sqrt{\epsilon})$, where $\epsilon$ is the precision of the approximation in terms of infidelity. The circuit depth is also $O(1/\sqrt{\epsilon})$, the size is $O(n+1/\sqrt{\epsilon})$ and only one ancilla qubit is needed. The second method represents accurately quantum states with sparse Walsh series. The WSL loads $s$-sparse Walsh Series into $n$-qubits with a depth doubly-sparse in $s$ and $k$, the maximum number of bits with value $1$ in the binary decomposition of the Walsh function indices. The associated quantum circuit approximates the sparse Walsh Series up to an error $\epsilon$ with a depth $O(sk)$, a size $O(n+sk)$ and one ancilla qubit. In both cases, the protocol is a Repeat-Until-Success (RUS) procedure with a probability of success $P=\Theta(\epsilon)$, giving an averaged total time of $O(1/\epsilon^{3/2})$ for the WSL (resp. $O(sk/\epsilon)$ for the sparse WSL). Amplitude amplification can be used to reduce by a factor $O(1/\sqrt{\epsilon})$ the total time dependency with $\epsilon$ but increases the size and depth of the associated quantum circuits, making them linearly dependent on $n$. These protocols give overall efficient algorithms with no exponential scaling in any parameter. They can be generalized to any complex-valued, multi-variate, almost-everywhere-differentiable function. The Repeat-Until-Success Walsh Series Loader is so far the only method which prepares a quantum state with a circuit depth and an averaged total time independent of the number of qubits.
翻訳日:2023-11-13 17:50:14 公開日:2023-11-09
# brainteaser: 大きな言語モデルのための横思考パズル

BRAINTEASER: Lateral Thinking Puzzles for Large Language Models ( http://arxiv.org/abs/2310.05057v3 )

ライセンス: Link先を確認
Yifan Jiang, Filip Ilievski, Kaixin Ma, Zhivar Sourati(参考訳) 言語モデルの成功は、NLPコミュニティに暗黙的かつ複雑な推論を必要とするタスクへの参加を刺激し、人間のようなコモンセンス機構に依存している。 このような垂直思考タスクは比較的人気があるが、横思考パズルはほとんど注目されていない。 このギャップを埋めるために、モデルが横方向の思考を示し、デフォルトのコモンセンスアソシエーションをデファクトする能力をテストするために設計された多重選択質問回答タスクであるBRAINTEASERを考案した。 我々は,データ収集,気晴らし生成,対向例生成からなる最初の横思考ベンチマークを作成するための3段階の手順をデザインし,高品質なアノテーションを備えた1,100のパズルを導出する。 モデルによる側方推論の整合性を評価するために,質問の意味的・文脈的再構成に基づいてBRAINTEASERを豊かにする。 最先端の命令モデルと常識言語モデルを用いた実験により,人間とモデルのパフォーマンスの間に大きなギャップが見られ,対向形式間の整合性を考慮した場合,さらなる拡張が期待できる。 側方思考モデルの開発と評価作業を促進するために、すべてのコードとデータを利用可能にしています。

The success of language models has inspired the NLP community to attend to tasks that require implicit and complex reasoning, relying on human-like commonsense mechanisms. While such vertical thinking tasks have been relatively popular, lateral thinking puzzles have received little attention. To bridge this gap, we devise BRAINTEASER: a multiple-choice Question Answering task designed to test the model's ability to exhibit lateral thinking and defy default commonsense associations. We design a three-step procedure for creating the first lateral thinking benchmark, consisting of data collection, distractor generation, and generation of adversarial examples, leading to 1,100 puzzles with high-quality annotations. To assess the consistency of lateral reasoning by models, we enrich BRAINTEASER based on a semantic and contextual reconstruction of its questions. Our experiments with state-of-the-art instruction- and commonsense language models reveal a significant gap between human and model performance, which is further widened when consistency across adversarial formats is considered. We make all of our code and data available to stimulate work on developing and evaluating lateral thinking models.
翻訳日:2023-11-13 17:42:14 公開日:2023-11-09
# 完全テスト時間適応のためのトリックの袋

Bag of Tricks for Fully Test-Time Adaptation ( http://arxiv.org/abs/2310.02416v2 )

ライセンス: Link先を確認
Saypraseuth Mounsaveng, Florent Chiaroni, Malik Boudiaf, Marco Pedersoli, Ismail Ben Ayed(参考訳) データドリフトへのモデル適応を目的とした完全テストタイム適応(tta)が最近注目を集めている。 ラベルなしデータの任意のストリームに対する堅牢な学習を保証するための、数多くのトリックとテクニックが提案されている。 しかし、各技法の真の影響を評価し、公平な比較を得ることは依然として大きな課題となっている。 コミュニティの知識を集約するために,我々は,小規模バッチ正規化,ストリーム再バランス,信頼性の高いサンプル選択,ネットワーク信頼度校正など,選択した直交TTA手法の分類を提案する。 それぞれのアプローチが関心の異なるシナリオに与える影響を慎重に判別する。 分析を通じて、精度、計算能力、モデルの複雑さの間のテクニックによって引き起こされるトレードオフに光を当てた。 また,技術の組み合わせによって生じる相乗効果を明らかにし,新たな最先端の成果を樹立する。

Fully Test-Time Adaptation (TTA), which aims at adapting models to data drifts, has recently attracted wide interest. Numerous tricks and techniques have been proposed to ensure robust learning on arbitrary streams of unlabeled data. However, assessing the true impact of each individual technique and obtaining a fair comparison still constitutes a significant challenge. To help consolidate the community's knowledge, we present a categorization of selected orthogonal TTA techniques, including small batch normalization, stream rebalancing, reliable sample selection, and network confidence calibration. We meticulously dissect the effect of each approach on different scenarios of interest. Through our analysis, we shed light on trade-offs induced by those techniques between accuracy, the computational power required, and model complexity. We also uncover the synergy that arises when combining techniques and are able to establish new state-of-the-art results.
翻訳日:2023-11-13 17:40:16 公開日:2023-11-09
# Causal Images:地球観測、バイオメディカル、社会科学画像による因果推論のためのRパッケージ

CausalImages: An R Package for Causal Inference with Earth Observation, Bio-medical, and Social Science Images ( http://arxiv.org/abs/2310.00233v3 )

ライセンス: Link先を確認
Connor T. Jerzak, Adel Daoud(参考訳) 因果画像rパッケージは、画像と画像シーケンスデータによる因果推論を可能にし、衛星やバイオメディカル画像などの新しいデータソースを原因と効果の研究に統合する新しいツールを提供する。 ひとつの関数セットは、イメージベースの因果推論分析を可能にする。 例えば、1つのキー関数は、解釈可能なベイズフレームワークを使用して画像による処理効果の多様性を分解する。 これにより、介入に最も反応する画像タイプや画像シーケンスを決定することができる。 第2のモデリング機能により、研究者は画像を使ってコンバウンディングを制御できる。 このパッケージはまた、調査員が画像またはビデオコンテンツのベクトル要約として機能する埋め込みを作成できる。 最後に、より高速な画像解析のために、大規模な画像と画像シーケンスデータをシーケンシャルなバイト文字列として記述するツールなど、インフラ機能も提供される。 そのため、因果画像はRにおける因果推論の新たな能力を開放し、研究者は迅速かつアクセス可能な方法で実体解析に情報的画像を使用することができる。

The causalimages R package enables causal inference with image and image sequence data, providing new tools for integrating novel data sources like satellite and bio-medical imagery into the study of cause and effect. One set of functions enables image-based causal inference analyses. For example, one key function decomposes treatment effect heterogeneity by images using an interpretable Bayesian framework. This allows for determining which types of images or image sequences are most responsive to interventions. A second modeling function allows researchers to control for confounding using images. The package also allows investigators to produce embeddings that serve as vector summaries of the image or video content. Finally, infrastructural functions are also provided, such as tools for writing large-scale image and image sequence data as sequentialized byte strings for more rapid image analysis. causalimages therefore opens new capabilities for causal inference in R, letting researchers use informative imagery in substantive analyses in a fast and accessible manner.
翻訳日:2023-11-13 17:38:36 公開日:2023-11-09
# グローバル深層学習による治療反応予測と患者特異的薬物動態予測

Forecasting Response to Treatment with Global Deep Learning and Patient-Specific Pharmacokinetic Priors ( http://arxiv.org/abs/2309.13135v5 )

ライセンス: Link先を確認
Willa Potosnak, Cristian Challu, Kin G. Olivares, Artur Dubrawski(参考訳) 予後の早期発見や患者のモニタリングには,医療時系列の予測が不可欠である。 しかし、ノイズや間欠的なデータのために予測が難しい場合がある。 これらの課題は、薬物投与などの外因性要因によって引き起こされる変化点によって、しばしば悪化する。 これらの課題に対処するために,患者固有の治療効果の深層学習モデルを示す,新しいグローバルローカルアーキテクチャと薬物動態エンコーダを提案する。 現実的にシミュレーションされた実世界データと実世界データの両方を用いて,血糖予測タスクの精度向上に向けたアプローチの有効性を示す。 我々のグローバルローカルアーキテクチャは患者固有のモデルよりも9.2-14.6%改善している。 さらに、我々の薬物動態エンコーダは、シミュレーションデータでは4.4%、実世界のデータでは2.1%で代替符号化技術よりも改善されている。 提案手法は, 予期せぬ治療反応に対する早期警告の発行や, 薬物吸収および除去特性の観点から, 患者固有の治療効果を特徴付けるなど, 臨床実践において有益である。

Forecasting healthcare time series is crucial for early detection of adverse outcomes and for patient monitoring. Forecasting, however, can be difficult in practice due to noisy and intermittent data. The challenges are often exacerbated by change points induced via extrinsic factors, such as the administration of medication. To address these challenges, we propose a novel hybrid global-local architecture and a pharmacokinetic encoder that informs deep learning models of patient-specific treatment effects. We showcase the efficacy of our approach in achieving significant accuracy gains for a blood glucose forecasting task using both realistically simulated and real-world data. Our global-local architecture improves over patient-specific models by 9.2-14.6%. Additionally, our pharmacokinetic encoder improves over alternative encoding techniques by 4.4% on simulated data and 2.1% on real-world data. The proposed approach can have multiple beneficial applications in clinical practice, such as issuing early warnings about unexpected treatment responses, or helping to characterize patient-specific treatment effects in terms of drug absorption and elimination characteristics.
翻訳日:2023-11-13 17:37:32 公開日:2023-11-09
# 未来に戻れ! 欠陥4Jにおけるデータの清浄性とその故障局在への影響

Back to the Future! Studying Data Cleanness in Defects4J and its Impact on Fault Localization ( http://arxiv.org/abs/2310.19139v2 )

ライセンス: Link先を確認
An Ran Chen, Md Nakhla Rafi, Tse-Hsun Chen, Shaohua Wang(参考訳) ソフトウェアテスト研究において、欠陥4jは主要なベンチマークデータセットとして注目され、有名なオープンソースシステムから実際のバグを研究するための制御された環境を提供する。 しかし、以前の調査では、Defects4Jには、バグ後レポートの追加テスト、開発者の知識の埋め込み、障害のローカライゼーションの有効性に影響する可能性がある。 本稿では,sbfl技術における開発者知識の意義を強調し,欠陥4jのフォールトトリガーテストについて検討する。 バグレポートの作成に関するこれらのテストの変更のタイムラインを調査した。 そこで本研究では,SBFL技術の有効性について検討した。 私たちはそれを見つけました 1) フォールトトリガーテストの55%が新たに追加され,バグの複製や回帰テストが行われた。 2) 障害トリガテストの22%は,バグレポート作成後に修正され,バグに関する開発者の知識が含まれている。 3) 開発者はしばしば、新しいアサーションを含むようにテストを変更したり、ソースコードの変更を反映するようにテストコードを変更する。 4) sbfl技術の性能は、開発者知識のないバグで評価した場合、著しく低下する(平均1ランクで-415%まで)。 我々は、開発者洞察のないバグのデータセットを提供し、欠陥4jにおける将来のsbfl評価を支援し、将来のバグベンチマークについて考慮する。

For software testing research, Defects4J stands out as the primary benchmark dataset, offering a controlled environment to study real bugs from prominent open-source systems. However, prior research indicates that Defects4J might include tests added post-bug report, embedding developer knowledge and affecting fault localization efficacy. In this paper, we examine Defects4J's fault-triggering tests, emphasizing the implications of developer knowledge of SBFL techniques. We study the timelines of changes made to these tests concerning bug report creation. Then, we study the effectiveness of SBFL techniques without developer knowledge in the tests. We found that 1) 55% of the fault-triggering tests were newly added to replicate the bug or to test for regression; 2) 22% of the fault-triggering tests were modified after the bug reports were created, containing developer knowledge of the bug; 3) developers often modify the tests to include new assertions or change the test code to reflect the changes in the source code; and 4) the performance of SBFL techniques degrades significantly (up to --415% for Mean First Rank) when evaluated on the bugs without developer knowledge. We provide a dataset of bugs without developer insights, aiding future SBFL evaluations in Defects4J and informing considerations for future bug benchmarks.
翻訳日:2023-11-13 17:27:09 公開日:2023-11-09
# 直接ロジット帰属の逆例:gelu-4lにおけるメモリ管理

An Adversarial Example for Direct Logit Attribution: Memory Management in gelu-4l ( http://arxiv.org/abs/2310.07325v3 )

ライセンス: Link先を確認
James Dao, Yeu-Tong Lau, Can Rager, Jett Janiak(参考訳) 残余ストリームの限られた帯域幅を言語モデルがどう扱うか? 以前の研究は、いくつかの注意ヘッドとMLPレイヤが"メモリ管理"の役割を担っていることを示唆している。 つまり、情報を読み込んで負のバージョンを書くことで、以前のレイヤが設定した残ストリーム方向をクリアする。 本研究では, この現象の具体的な証拠を4層トランスで示す。 単層0ヘッドの出力を一貫して除去する層2内の複数のヘッドを同定する。 そして、この消去が故意に書かれた方向に依存することを確認した。 さらに,dla (direct logit attribution) は,実際に効果がキャンセルされた場合,ヘッドの書き込みや消去が直接予測に寄与することを示唆する。 次に,この効果が特に有益である対向プロンプトを提案する。 これらの結果から,記憶管理がDLAを誤解させる可能性が示唆された。 そこで我々は,回路解析の具体的推奨を行い,解釈可能性の錯覚を防止する。

How do language models deal with the limited bandwidth of the residual stream? Prior work has suggested that some attention heads and MLP layers may perform a "memory management" role. That is, clearing residual stream directions set by earlier layers by reading in information and writing out the negative version. In this work, we present concrete evidence for this phenomenon in a 4-layer transformer. We identify several heads in layer 2 that consistently remove the output of a single layer 0 head. We then verify that this erasure causally depends on the original written direction. We further demonstrate that direct logit attribution (DLA) suggests that writing and erasing heads directly contribute to predictions, when in fact their effects cancel out. Then we present adversarial prompts for which this effect is particularly salient. These findings reveal that memory management can make DLA results misleading. Accordingly, we make concrete recommendations for circuit analysis to prevent interpretability illusions.
翻訳日:2023-11-13 17:23:08 公開日:2023-11-09
# mPLUG-Owl2: Modality Collaborationによる多モード大言語モデルの革新

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration ( http://arxiv.org/abs/2311.04257v2 )

ライセンス: Link先を確認
Qinghao Ye, Haiyang Xu, Jiabo Ye, Ming Yan, Anwen Hu, Haowei Liu, Qi Qian, Ji Zhang, Fei Huang, Jingren Zhou(参考訳) MLLM(Multi-modal Large Language Models)は、様々なオープンエンドタスクにまたがる印象的な命令能力を示す。 しかし、従来の手法は主にマルチモーダル機能の拡張に重点を置いている。 本研究では,マルチモーダルな大規模言語モデルであるmplug-owl2を導入し,モダリティ協調を効果的に活用し,テキストタスクとマルチモーダルタスクの両方のパフォーマンスを向上させる。 mPLUG-Owl2はモジュール化されたネットワーク設計を採用し、言語デコーダは様々なモダリティを管理する汎用インターフェースとして機能する。 具体的には、mPLUG-Owl2は共有機能モジュールを組み込んでモダリティの協調を容易にし、モダリティ固有の特徴を保存するモダリティ適応モジュールを導入する。 mPLUG-Owl2は、テキストタスクとマルチモーダルタスクの両方を一般化し、単一のジェネリックモデルで最先端のパフォーマンスを達成することができる。 特に、mPLUG-Owl2は、純粋なテキストとマルチモーダルの両方のシナリオにおいて、モダリティ協調現象を示す最初のMLLMモデルであり、将来のマルチモーダル基盤モデルの開発における先駆的な経路を定めている。

Multi-modal Large Language Models (MLLMs) have demonstrated impressive instruction abilities across various open-ended tasks. However, previous methods primarily focus on enhancing multi-modal capabilities. In this work, we introduce a versatile multi-modal large language model, mPLUG-Owl2, which effectively leverages modality collaboration to improve performance in both text and multi-modal tasks. mPLUG-Owl2 utilizes a modularized network design, with the language decoder acting as a universal interface for managing different modalities. Specifically, mPLUG-Owl2 incorporates shared functional modules to facilitate modality collaboration and introduces a modality-adaptive module that preserves modality-specific features. Extensive experiments reveal that mPLUG-Owl2 is capable of generalizing both text tasks and multi-modal tasks and achieving state-of-the-art performances with a single generic model. Notably, mPLUG-Owl2 is the first MLLM model that demonstrates the modality collaboration phenomenon in both pure-text and multi-modal scenarios, setting a pioneering path in the development of future multi-modal foundation models.
翻訳日:2023-11-13 17:16:08 公開日:2023-11-09
# コード説明の生成を促す場合の大規模言語モデルの振る舞い

The Behavior of Large Language Models When Prompted to Generate Code Explanations ( http://arxiv.org/abs/2311.01490v2 )

ライセンス: Link先を確認
Priti Oli, Rabin Banjade, Jeevan Chapagain, Vasile Rus(参考訳) 本稿では,導入プログラミングコースでよく見られるコード例に対して,Large Language Models (LLMs) によるコード説明の生成を体系的に検討する。 本研究は,プロンプトの単語化,検討中の特定のコード例,関連するプログラミング言語,温度パラメータ,llmのバージョンなどの要因から,llmが生成するコード説明の性質に有意な変化があることを明らかにした。 しかし、javaとpythonの一貫性のあるパターンが出現し、説明には約7-8グレードのflesch-kincaid可読性レベルと、総説明サイズに対する意味のある単語の割合を示す一貫した語彙密度が示される。 さらに、生成された説明は一貫して正確性のための高いスコアを得るが、他の3つの指標(完全性、簡潔性、特異性)では低いスコアとなる。

This paper systematically investigates the generation of code explanations by Large Language Models (LLMs) for code examples commonly encountered in introductory programming courses. Our findings reveal significant variations in the nature of code explanations produced by LLMs, influenced by factors such as the wording of the prompt, the specific code examples under consideration, the programming language involved, the temperature parameter, and the version of the LLM. However, a consistent pattern emerges for Java and Python, where explanations exhibit a Flesch-Kincaid readability level of approximately 7-8 grade and a consistent lexical density, indicating the proportion of meaningful words relative to the total explanation size. Additionally, the generated explanations consistently achieve high scores for correctness, but lower scores on three other metrics: completeness, conciseness, and specificity.
翻訳日:2023-11-13 17:13:43 公開日:2023-11-09
# 関数空間上の条件最適輸送

Conditional Optimal Transport on Function Spaces ( http://arxiv.org/abs/2311.05672v1 )

ライセンス: Link先を確認
Bamdad Hosseini, Alexander W. Hsu, Amirhossein Taghvaei(参考訳) 本稿では, 最適輸送の観点からの関数空間における条件付き三角輸送マップの体系的研究と, 償却ベイズ推定の観点から述べる。 より具体的には、条件測度とそのカントロヴィチ緩和を特徴付けるブロック三角モンジュ写像を記述する制約付き最適輸送問題の理論を開発する。 これは、一般的なコスト関数を持つ無限次元ヒルベルト空間への最適三角輸送の理論を一般化する。 さらに,ベイズ推定問題の場合には,結果をさらに調整し,前者から後者まで条件付け写像の正則性推定を得る。 最後に,不定値および確率自由ベイズ逆問題に対する理論結果の適用性を示す数値実験を行った。

We present a systematic study of conditional triangular transport maps in function spaces from the perspective of optimal transportation and with a view towards amortized Bayesian inference. More specifically, we develop a theory of constrained optimal transport problems that describe block-triangular Monge maps that characterize conditional measures along with their Kantorovich relaxations. This generalizes the theory of optimal triangular transport to infinite-dimensional Hilbert spaces with general cost functions. We further tailor our results to the case of Bayesian inference problems and obtain regularity estimates on the conditioning maps from the prior to the posterior. Finally, we present numerical experiments that demonstrate the computational applicability of our theoretical results for amortized and likelihood-free Bayesian inverse problems.
翻訳日:2023-11-13 17:01:44 公開日:2023-11-09
# 会話シナリオにおけるマルチモーダル視線追従

Multi-Modal Gaze Following in Conversational Scenarios ( http://arxiv.org/abs/2311.05669v1 )

ライセンス: Link先を確認
Yuqi Hou, Zhongqun Zhang, Nora Horanyi, Jaewon Moon, Yihua Cheng, Hyung Jin Chang(参考訳) 人の行動やシーン情報を理解することによって、視点を推定する。 既存の手法は通常、視線追跡のためのシーン画像を分析する。 しかし、視覚画像と比較すると、音声は人間の行動を決定する上で重要な手がかりとなる。 本稿では,会話シナリオにおけるタスクの視線追従について検討する。 我々は,「聴衆は話者に注目する傾向がある」という観察に基づく,新たなマルチモーダルな視点の枠組みを提案する。 まず、音声と唇の相関を利用して、シーン内の話者とリスナーを分類する。 次に,このアイデンティティ情報を用いてシーン画像を強化し,視線候補推定ネットワークを提案する。 ネットワークは高精細なシーン画像から視線候補を推定し,mlpを用いて被写体と被写体とのマッチングを分類タスクとして行う。 既存の視線追跡データセットは、音声を無視しながら視覚イメージに焦点を当てており、この手法を評価するために、画像や音声を含む最初の視線追跡データセットである会話データセットVideoGazeSpeech(VGS)を収集する。 提案手法は,VGSデータセットの既存手法よりも優れている。 可視化の結果、視線追従作業における音声手がかりの利点が証明された。 私たちの研究は、推定の後、マルチモーダルな視線の研究を刺激します。

Gaze following estimates gaze targets of in-scene person by understanding human behavior and scene information. Existing methods usually analyze scene images for gaze following. However, compared with visual images, audio also provides crucial cues for determining human behavior.This suggests that we can further improve gaze following considering audio cues. In this paper, we explore gaze following tasks in conversational scenarios. We propose a novel multi-modal gaze following framework based on our observation ``audiences tend to focus on the speaker''. We first leverage the correlation between audio and lips, and classify speakers and listeners in a scene. We then use the identity information to enhance scene images and propose a gaze candidate estimation network. The network estimates gaze candidates from enhanced scene images and we use MLP to match subjects with candidates as classification tasks. Existing gaze following datasets focus on visual images while ignore audios.To evaluate our method, we collect a conversational dataset, VideoGazeSpeech (VGS), which is the first gaze following dataset including images and audio. Our method significantly outperforms existing methods in VGS datasets. The visualization result also prove the advantage of audio cues in gaze following tasks. Our work will inspire more researches in multi-modal gaze following estimation.
翻訳日:2023-11-13 17:01:31 公開日:2023-11-09
# フォワードフォワードアルゴリズムにおけるスパーシティの理論

A theory for the sparsity emerged in the Forward Forward algorithm ( http://arxiv.org/abs/2311.05667v1 )

ライセンス: Link先を確認
Yukun Yang(参考訳) 本報告では、フォワードフォワードアルゴリズムで観測された高間隔現象 \citep{tosato2023emergent} を説明する。 提案された2つの定理は、単一のデータポイントのアクティベーションの間隔変化を2つのケースで予測する: Theorem \ref{theorem:1}: バッチ全体の良さを減少させる。 theorem \ref{theorem:2}: 負のデータの良し悪しを減少させ、正のデータの良し悪しを高めるために完全前方アルゴリズムを適用する。 この理論は、MNISTデータセットで試験された実験とよく一致している。

This report explores the theory that explains the high sparsity phenomenon \citep{tosato2023emergent} observed in the forward-forward algorithm \citep{hinton2022forward}. The two theorems proposed predict the sparsity changes of a single data point's activation in two cases: Theorem \ref{theorem:1}: Decrease the goodness of the whole batch. Theorem \ref{theorem:2}: Apply the complete forward forward algorithm to decrease the goodness for negative data and increase the goodness for positive data. The theory aligns well with the experiments tested on the MNIST dataset.
翻訳日:2023-11-13 17:01:13 公開日:2023-11-09
# LIMEとSHAPを用いたランダムフォレスト分類器を用いた医療応用のための説明可能な人工知能

Explainable artificial intelligence for Healthcare applications using Random Forest Classifier with LIME and SHAP ( http://arxiv.org/abs/2311.05665v1 )

ライセンス: Link先を確認
Mrutyunjaya Panda, Soumya Ranjan Mahanta(参考訳) 計算効率の良い人工知能(AI)技術の進歩と、私たちの日常生活における多くの応用により、最も一般的な機械学習やディープラーニング技術のようなブラックボックスAI技術に隠された計算の詳細を理解する必要がある。 説明可能なAI(xAI)の起源はこれらの課題から生まれ、研究者たちは近年、従来のAIシステムに包括的な説明可能性を追加することで、より多くの注目を集めている。 これにより、イノベーション、リスク緩和、倫理的問題、およびユーザへの論理的価値に関して、実生活シナリオでxaiをうまく活用するための適切なフレームワークが開発される。 本章では、LIME(Local Interpretable Model-Agnostic Explanations)やSHAP(SHapley Additive ExPlanations)など、いくつかのxAIフレームワークとメソッドの詳細な分析を行っている。 ブラックボックスAIとしてのランダムフォレスト分類器は、LIMEとSHAPで公開されている糖尿病症状データセットで、より良い解釈のために使用される。 その結果,糖尿病予測における透明性,妥当性,信頼性の点で興味深い結果を得た。

With the advances in computationally efficient artificial Intelligence (AI) techniques and their numerous applications in our everyday life, there is a pressing need to understand the computational details hidden in black box AI techniques such as most popular machine learning and deep learning techniques; through more detailed explanations. The origin of explainable AI (xAI) is coined from these challenges and recently gained more attention by the researchers by adding explainability comprehensively in traditional AI systems. This leads to develop an appropriate framework for successful applications of xAI in real life scenarios with respect to innovations, risk mitigation, ethical issues and logical values to the users. In this book chapter, an in-depth analysis of several xAI frameworks and methods including LIME (Local Interpretable Model-agnostic Explanations) and SHAP (SHapley Additive exPlanations) are provided. Random Forest Classifier as black box AI is used on a publicly available Diabetes symptoms dataset with LIME and SHAP for better interpretations. The results obtained are interesting in terms of transparency, valid and trustworthiness in diabetes disease prediction.
翻訳日:2023-11-13 17:00:59 公開日:2023-11-09
# 非マルコフ力学下におけるレーザー駆動量子ビットの量子位相同期

Enhanced quantum phase synchronization of a laser-driven qubit under non-Markovian dynamics ( http://arxiv.org/abs/2311.05664v1 )

ライセンス: Link先を確認
Po-Wen Chen, Chandrashekar Radhakrishnan, Md. Manirul Ali(参考訳) 本稿では,フシミQ表現の過渡的ダイナミクスを実証し,マルコフ系と非マルコフ系のレーザー場によって駆動される2レベル系(量子ビット)の位相同期挙動を可視化し,特徴付ける。 マルコフ系では、クォービットの位相選好は長い時間制限で消えるが、長い時間位相の局在は非マルコフ系では持続する。 また、シフト位相分布の最大値を2つの異なる方法でプロットする。 (a)デチューン及びレーザー駆動強度を変化させて、 (b)システムバス結合とレーザ駆動強度を変化させる。 シフトした位相分布の最大値によって、アーノルド舌の量子位相同期ビザのシグナチャが示される。 相同期は舌領域内で観察され、舌外領域は脱同期される。 同期領域は様々なシステム環境パラメータによって決定され、非マルコフ領域では量子ビット位相同期が強化される。

In this paper, we demonstrate transient dynamics of Husimi Q-representation to visualize and characterize the phase synchronization behavior of a two-level system (qubit) driven by a laser field in both the Markov and non-Markov regime. In the Markov regime, phase preference of the qubit goes away in the long time limit, whereas the long-time phase localization persists in the non-Markovian regime. We also plot the maximum of the shifted phase distribution in two different ways: (a) by varying the detuning and laser drive strength, and (b) by varying the system-bath coupling and laser drive strength. Signature of quantum phase synchronization viz. the Arnold tongue is demonstrated through the maximal value of the shifted phase distribution. The phase synchronization is observed inside the tongue region while the region outside the tongue is desynchronized. The synchronization regions are determined by various system-environment parameters and the qubit phase synchronization is shown to be enhanced in the non-Markov regime.
翻訳日:2023-11-13 17:00:39 公開日:2023-11-09
# 既存のオントロジーにおけるコンピテンシー質問の再適合実験

An Experiment in Retrofitting Competency Questions for Existing Ontologies ( http://arxiv.org/abs/2311.05662v1 )

ライセンス: Link先を確認
Reham Alharbi and Valentina Tamma and Floriana Grasso and Terry Payne(参考訳) competency questions (cqs) は自然言語質問として表現されるオントロジー機能要求の形式である。 オントロジーにおける公理とともにCQを検査することは、オントロジーの意図されたスコープと適用可能性に関する重要な洞察を与える。 cqsはまたオントロジーの再利用、オントロジーテスト、要求仕様、そのような要求を実装するパターンの定義など、オントロジーの開発における多くのタスクも担っている。 CQは、ほとんどのオントロジー工学手法に不可欠なものであるが、CQをオントロジーアーティファクトと共に出版するプラクティスは、コミュニティによって広くは見られていない。 この文脈では、既存のオントロジーからCQを再構成する実験を示す。 生成AIを用いたオントロジーから直接候補CQを抽出するRETROFIT-CQを提案する。 本稿では,大規模言語モデル(llms)を活用して,cqsの抽出を容易にするパイプラインについて述べる。

Competency Questions (CQs) are a form of ontology functional requirements expressed as natural language questions. Inspecting CQs together with the axioms in an ontology provides critical insights into the intended scope and applicability of the ontology. CQs also underpin a number of tasks in the development of ontologies e.g. ontology reuse, ontology testing, requirement specification, and the definition of patterns that implement such requirements. Although CQs are integral to the majority of ontology engineering methodologies, the practice of publishing CQs alongside the ontological artefacts is not widely observed by the community. In this context, we present an experiment in retrofitting CQs from existing ontologies. We propose RETROFIT-CQs, a method to extract candidate CQs directly from ontologies using Generative AI. In the paper we present the pipeline that facilitates the extraction of CQs by leveraging Large Language Models (LLMs) and we discuss its application to a number of existing ontologies.
翻訳日:2023-11-13 17:00:23 公開日:2023-11-09
# プロンプトエンジニアリング プロンプトエンジニア

Prompt Engineering a Prompt Engineer ( http://arxiv.org/abs/2311.05661v1 )

ライセンス: Link先を確認
Qinyuan Ye, Maxamed Axmed, Reid Pryzant, Fereshte Khani(参考訳) Prompt Engineeringは、大規模言語モデル(LLM)のパフォーマンスを最適化する上で、難しいが重要なタスクである。 モデルのエラーを調べ、現在のプロンプトに欠けていることや誤解を招くことを仮説化し、明確さでタスクを伝えるには複雑な推論が必要である。 最近の研究は、LLMをメタプロンプトで自動的なプロンプトエンジニアリングを行うことができることを示しているが、メタプロンプトにおけるLLMの複雑な推論能力を引き出す十分なガイダンスが欠如しているため、そのポテンシャルは完全には発揮されない可能性がある。 本研究では,より効率的にllmを誘導し,自動プロンプトエンジニアリングを行うメタプロンプトの「プロンプト・エンジニアリング・ア・プロンプト・エンジニア」の問題について検討する。 ステップバイステップの推論テンプレートやコンテキスト仕様など,パフォーマンス向上につながる重要なコンポーネントを紹介し,分析する。 さらに, バッチサイズ, ステップサイズ, 運動量などの共通最適化概念に着想を得て, メタプロンプトに言語化された表現を導入し, その効果について検討する。 我々の最後の方法はPE2と呼ばれ、MultiArithデータセットで6.3%、GSM8Kデータセットで3.1%、"ステップバイステップ"で上回るプロンプトを見つけました。 その汎用性を示すために、PE2をインストラクション・インジェクション・ベンチマーク、対実タスクのスイート、そして長い実世界の産業的プロンプトに適用する。 これらの設定では、PE2は強力なパフォーマンスを実現し、自動プロンプトエンジニアリングベースラインよりも優れている。 さらに,PE2は意味のあるプロンプトの編集を行い,誤ったプロンプトや不完全なプロンプトを修正し,非自明な反事実推論能力を示す。

Prompt engineering is a challenging yet crucial task for optimizing the performance of large language models (LLMs). It requires complex reasoning to examine the model's errors, hypothesize what is missing or misleading in the current prompt, and communicate the task with clarity. While recent works indicate that LLMs can be meta-prompted to perform automatic prompt engineering, their potentials may not be fully untapped due to the lack of sufficient guidance to elicit complex reasoning capabilities in LLMs in the meta-prompt. In this work, we investigate the problem of "prompt engineering a prompt engineer" -- constructing a meta-prompt that more effectively guides LLMs to perform automatic prompt engineering. We introduce and analyze key components, such as a step-by-step reasoning template and context specification, which lead to improved performance. In addition, inspired by common optimization concepts such as batch size, step size and momentum, we introduce their verbalized counterparts to the meta-prompt and investigate their effects. Our final method, named PE2, finds a prompt that outperforms "let's think step by step" by 6.3% on the MultiArith dataset and 3.1% on the GSM8K dataset. To demonstrate its versatility, we apply PE2 to the Instruction Induction benchmark, a suite of counterfactual tasks, and a lengthy, real-world industrial prompt. In these settings, PE2 achieves strong performance and outperforms prior automatic prompt engineering baselines. Further, we show that PE2 makes meaningful and targeted prompt edits, amends erroneous or incomplete prompts, and presents non-trivial counterfactual reasoning abilities.
翻訳日:2023-11-13 17:00:05 公開日:2023-11-09
# デファスメントダイナミクス下における三成分量子系の絡み合い保存

Entanglement preservation in tripartite quantum systems under dephasing dynamics ( http://arxiv.org/abs/2311.05660v1 )

ライセンス: Link先を確認
Chandrashekar Radhakrishnan, Sovik Roy, Ravikumar Chinnarasu, Md. Manirul Ali(参考訳) デコヒーレンスから絡み合いを保護することは、量子情報処理の重要な側面である。 デコヒーレンスの下で進化する多体量子システムでは、多成分の絡み合いの推定は困難である。 この課題は、純状態と混合状態の両方における絡み合いを決定的に測定する相対的絡み合いのエントロピーのような距離に基づく測度を考えることで解決できる。 本研究では, 有限温度における構造劣化環境下での純および混合状態の三部構造エンタングルメントダイナミクスについて検討する。 疎結合に対する量子システムのロバスト性は、絡み合いの分布と浴槽の異なる構成との関係に依存することを示した。 浴槽が個別に構成され、各キュービットが独自の環境を持つように構成されている場合、システムは3つのキュービットすべてに浴槽が共通している時と異なるダイナミクスを持つ。 この結果から, 量子ビット間の絡み合いの分布と浴槽自由度の分布との間には関係があることが推測され, これら2つの分布の相互作用が絡み合いのダイナミクスの崩壊速度を決定する。 三部体の絡み合いの持続性は貯水池メモリの存在下で著しく向上することが示されている。

Protecting entanglement from decoherence is a critical aspect of quantum information processsing. For many-body quantum systems evolving under decoherence, estimating multipartite entanglement is challenging. This challenge can be met up by considering distance based measure such as relative entropy of entanglement which decisively measures entanglement in both pure as well as mixed states. In this work, we investigate the tripartite entanglement dynamics of pure and mixed states in the presence of a structured dephasing environment at finite temperature. We show that the robustness of the quantum system to decoherence is dependent on the distribution of entanglement and its relation to different configurations of the bath. If the bath is structured individually such that each qubit has its own environment, the system has different dynamics compared to when the bath is common to all the three qubits. From the results we conjecture that there is a connection between the distribution of entanglement among the qubits and the distribution of bath degrees of freedom, and the interplay of these two distributions determines the decay rate of the entanglement dynamics. The sustainability of tripartite entanglement is shown to be enhanced significantly in presence of reservoir memory.
翻訳日:2023-11-13 16:59:32 公開日:2023-11-09
# セットレベルラベルを用いたインスタンスレベル画像分類の強化

Enhancing Instance-Level Image Classification with Set-Level Labels ( http://arxiv.org/abs/2311.05659v1 )

ライセンス: Link先を確認
Renyu Zhang, Aly A. Khan, Yuxin Chen, Robert L. Grossman(参考訳) インスタンスレベルの画像分類タスクは、伝統的にシングルインスタンスラベルに頼ってモデルのトレーニングを行っている。 しかし、インスタンス間の関係をキャプチャする集合レベルの粗粒度ラベルは、現実世界のシナリオでよりリッチな情報を提供できる。 本稿では,セットレベルラベルを活用し,インスタンスレベルの画像分類を強化する新しい手法を提案する。 本稿では, 提案手法の理論的解析を行い, 提案手法の理論的基礎に光を当てる高速過大リスク率の認識条件について述べる。 自然画像データセットと病理画像データセットの2つの異なるカテゴリについて実験を行った。 提案手法の有効性を実証し,従来のラベルベース手法と比較して分類性能が向上したことを示す。 特に, 病理組織学的画像分類ベンチマークの基準値と比較して, 分類精度が13%向上した。 以上より,提案手法のロバスト性と信頼性を補強し,理論解析に適合した実験結果を得た。 この作業は、インスタンスレベルの画像分類とセットレベルの画像分類のギャップを橋渡しし、設定レベルの粗粒度ラベルによる画像分類モデルの能力向上に有望な手段を提供する。

Instance-level image classification tasks have traditionally relied on single-instance labels to train models, e.g., few-shot learning and transfer learning. However, set-level coarse-grained labels that capture relationships among instances can provide richer information in real-world scenarios. In this paper, we present a novel approach to enhance instance-level image classification by leveraging set-level labels. We provide a theoretical analysis of the proposed method, including recognition conditions for fast excess risk rate, shedding light on the theoretical foundations of our approach. We conducted experiments on two distinct categories of datasets: natural image datasets and histopathology image datasets. Our experimental results demonstrate the effectiveness of our approach, showcasing improved classification performance compared to traditional single-instance label-based methods. Notably, our algorithm achieves 13% improvement in classification accuracy compared to the strongest baseline on the histopathology image classification benchmarks. Importantly, our experimental findings align with the theoretical analysis, reinforcing the robustness and reliability of our proposed method. This work bridges the gap between instance-level and set-level image classification, offering a promising avenue for advancing the capabilities of image classification models with set-level coarse-grained labels.
翻訳日:2023-11-13 16:59:13 公開日:2023-11-09
# Lumos: 統一データによる学習エージェント,モジュール設計,オープンソースLLM

Lumos: Learning Agents with Unified Data, Modular Design, and Open-Source LLMs ( http://arxiv.org/abs/2311.05657v1 )

ライセンス: Link先を確認
Da Yin, Faeze Brahman, Abhilasha Ravichander, Khyathi Chandu, Kai-Wei Chang, Yejin Choi, Bill Yuchen Lin(参考訳) lumosは統合データフォーマットとllm(オープンソースの大規模言語モデル)に基づいたモジュラーアーキテクチャを用いた、言語エージェントを訓練するための新しいフレームワークである。 Lumosは、計画、接地、実行の3つの異なるモジュールで構成されている。 計画モジュールはタスクをハイレベルでツールに依存しない一連のサブゴールに分解し、低レベルアクションのセットを通じてグラウンドモジュールによって特定される。 これらのアクションはその後、実行モジュールによって実行され、さまざまなオフザシェルフツールとAPIを使用する。 これらのモジュールを効果的にトレーニングするために、サブゴールやアクションの高品質なアノテーションが収集され、複雑な質問応答、webタスク、数学問題など、さまざまなタスクのオープンソースllmを微調整することができる。 Leveraging this unified data and modular design, Lumos not only achieves comparable or superior performance to current, state-of-the-art agents, but also exhibits several key advantages: (1) Lumos surpasses GPT-4/3.5-based agents in complex question answering and web tasks, while equalling the performance of significantly larger LLM agents on math tasks; (2) Lumos outperforms open-source agents created through conventional training methods and those using chain-of-thoughts training; and (3) Lumos is capable of effectively generalizing to unseen interactive tasks, outperforming larger LLM-based agents and even exceeding performance of specialized agents.

We introduce Lumos, a novel framework for training language agents that employs a unified data format and a modular architecture based on open-source large language models (LLMs). Lumos consists of three distinct modules: planning, grounding, and execution. The planning module breaks down a task into a series of high-level, tool-agnostic subgoals, which are then made specific by the grounding module through a set of low-level actions. These actions are subsequently executed by the execution module, utilizing a range of off-the-shelf tools and APIs. In order to train these modules effectively, high-quality annotations of subgoals and actions were collected and are made available for fine-tuning open-source LLMs for various tasks such as complex question answering, web tasks, and math problems. Leveraging this unified data and modular design, Lumos not only achieves comparable or superior performance to current, state-of-the-art agents, but also exhibits several key advantages: (1) Lumos surpasses GPT-4/3.5-based agents in complex question answering and web tasks, while equalling the performance of significantly larger LLM agents on math tasks; (2) Lumos outperforms open-source agents created through conventional training methods and those using chain-of-thoughts training; and (3) Lumos is capable of effectively generalizing to unseen interactive tasks, outperforming larger LLM-based agents and even exceeding performance of specialized agents.
翻訳日:2023-11-13 16:58:55 公開日:2023-11-09
# llm時代の誤情報と闘う--機会と課題

Combating Misinformation in the Age of LLMs: Opportunities and Challenges ( http://arxiv.org/abs/2311.05656v1 )

ライセンス: Link先を確認
Canyu Chen, Kai Shu(参考訳) フェイクニュースや噂などの誤報は、情報エコシステムや公衆信頼にとって深刻な脅威である。 LLM(Large Language Models)の出現は、誤情報と戦う環境を再構築する大きな可能性を秘めている。 一般的には、LLMは戦闘において両刃の剣となる。 一方、LLMは、その深い世界知識と強力な推論能力のために、誤情報と戦うための有望な機会をもたらす。 llmを使って誤った情報と戦うには、どうすればよいのか? 一方,LLMは大規模に誤情報を生成するために容易に活用できるという点が重要な課題である。 そして、もう1つの重要な疑問は、LLM生成の誤報に対抗する方法だ。 本稿では,LSMの出現前における誤情報との戦いの歴史を,まず体系的に概観する。 次に、現在の取り組みを説明し、これら2つの基本的な質問の展望を示す。 本研究の目的は,LLMを誤報対策に活用し,異なる利害関係者からの学際的努力を要請することである。

Misinformation such as fake news and rumors is a serious threat on information ecosystems and public trust. The emergence of Large Language Models (LLMs) has great potential to reshape the landscape of combating misinformation. Generally, LLMs can be a double-edged sword in the fight. On the one hand, LLMs bring promising opportunities for combating misinformation due to their profound world knowledge and strong reasoning abilities. Thus, one emergent question is: how to utilize LLMs to combat misinformation? On the other hand, the critical challenge is that LLMs can be easily leveraged to generate deceptive misinformation at scale. Then, another important question is: how to combat LLM-generated misinformation? In this paper, we first systematically review the history of combating misinformation before the advent of LLMs. Then we illustrate the current efforts and present an outlook for these two fundamental questions respectively. The goal of this survey paper is to facilitate the progress of utilizing LLMs for fighting misinformation and call for interdisciplinary efforts from different stakeholders for combating LLM-generated misinformation.
翻訳日:2023-11-13 16:58:34 公開日:2023-11-09
# 完全反対称関数の完全かつ効率的な表現

Exact and Efficient Representation of Totally Anti-Symmetric Functions ( http://arxiv.org/abs/2311.05064v1 )

ライセンス: Link先を確認
Ziang Chen, Jianfeng Lu(参考訳) 本稿では,高次元における(トータル)反対称関数の表現に関する長年の疑問について述べる。 本稿では, 反対称基底関数の固定集合を持つ奇関数の構成に基づく新しいアンザッツを提案する。 このアンザッツはすべての反対称かつ連続な関数を正確に表現でき、基底関数の数は次元(粒子の数)に関して効率的なスケーリングを持つ。

This paper concerns the long-standing question of representing (totally) anti-symmetric functions in high dimensions. We propose a new ansatz based on the composition of an odd function with a fixed set of anti-symmetric basis functions. We prove that this ansatz can exactly represent every anti-symmetric and continuous function and the number of basis functions has efficient scaling with respect to dimension (number of particles).
翻訳日:2023-11-13 16:57:57 公開日:2023-11-09
# LogShield: 自己認識を利用した変圧器型APT検出システム

LogShield: A Transformer-based APT Detection System Leveraging Self-Attention ( http://arxiv.org/abs/2311.05733v1 )

ライセンス: Link先を確認
Sihat Afnan, Mushtari Sadia, Shahrear Iqbal, Anindya Iqbal(参考訳) サイバー攻撃はしばしばシステムとネットワークログを使って識別される。 攻撃、特に高度な永続的脅威を検出するのは非常に困難である、前兆グラフとML技術を利用する重要な先行研究があった。 近年,システムログから様々な種類の攻撃を検出するためにトランスフォーマーベースの言語モデルが用いられている。 しかし、APTではそのような試みは行われていない。 さらに、システムプロファイランスグラフを使用する既存の最先端技術には、最適なパフォーマンスのためにデータセット間で一般化されたデータ処理フレームワークがない。 この制限を緩和し、トランスフォーマーベースの言語モデルの有効性を検討するため、本論文では、トランスフォーマーにおける自己着脱の力を利用したapt攻撃パターンを検出するためのフレームワークlogshieldを提案する。 独自の埋め込みレイヤを組み込んで、前兆グラフから派生したイベントシーケンスのコンテキストを効果的にキャプチャします。 トランスフォーマーネットワークのトレーニングに伴う計算オーバーヘッドを認めながら、我々のフレームワークは、APT検出に関する既存のLSTMおよび言語モデルを超えている。 我々はRoBERTaモデルからモデルパラメータとトレーニング手順を統合し、よく知られたAPTデータセット(DARPA OpTCおよびDARPA TC E3)について広範な実験を行った。 2つのデータセットでそれぞれ98%と95%のf1スコアを達成し、lstmモデルで得られた96%と94%のf1スコアを上回った。 以上の結果から,LogShieldの性能はより大きなデータセットから恩恵を受けており,多様な領域にまたがる一般化の可能性を示している。 これらの結果はapt攻撃検出手法の進歩に寄与し、コンピュータシステムにおけるセキュリティ上の課題に対処する上でトランスフォーマーベースのアーキテクチャの重要性を強調する。

Cyber attacks are often identified using system and network logs. There have been significant prior works that utilize provenance graphs and ML techniques to detect attacks, specifically advanced persistent threats, which are very difficult to detect. Lately, there have been studies where transformer-based language models are being used to detect various types of attacks from system logs. However, no such attempts have been made in the case of APTs. In addition, existing state-of-the-art techniques that use system provenance graphs, lack a data processing framework generalized across datasets for optimal performance. For mitigating this limitation as well as exploring the effectiveness of transformer-based language models, this paper proposes LogShield, a framework designed to detect APT attack patterns leveraging the power of self-attention in transformers. We incorporate customized embedding layers to effectively capture the context of event sequences derived from provenance graphs. While acknowledging the computational overhead associated with training transformer networks, our framework surpasses existing LSTM and Language models regarding APT detection. We integrated the model parameters and training procedure from the RoBERTa model and conducted extensive experiments on well-known APT datasets (DARPA OpTC and DARPA TC E3). Our framework achieved superior F1 scores of 98% and 95% on the two datasets respectively, surpassing the F1 scores of 96% and 94% obtained by LSTM models. Our findings suggest that LogShield's performance benefits from larger datasets and demonstrates its potential for generalization across diverse domains. These findings contribute to the advancement of APT attack detection methods and underscore the significance of transformer-based architectures in addressing security challenges in computer systems.
翻訳日:2023-11-13 16:51:21 公開日:2023-11-09
# gipcol:合成ゼロショット学習のためのグラフインジェクションソフトプロンプト

GIPCOL: Graph-Injected Soft Prompting for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2311.05729v1 )

ライセンス: Link先を確認
Guangyue Xu, Joyce Chai, Parisa Kordjamshidi(参考訳) 事前学習型視覚言語モデル(VLM)は多くの分野で、特に素早い学習パラダイムで有望な成功を収めている。 本稿では,VLMの合成ゼロショット学習能力(CZSL)をよりよく研究するためのGIP-COL(Graph-Injected Soft Prompting for Compositional Learning)を提案する。 GIPCOLのソフトプロンプトは、プレフィックス学習可能なベクトル、属性ラベル、オブジェクトラベルで構成されている。 さらに、ソフトプロンプト内の属性とオブジェクトラベルを合成グラフ内のノードとして指定する。 この構成グラフは、トレーニングデータから抽出された対象と属性の合成構造に基づいて構築され、その結果、更新された概念表現をソフトプロンプトに供給し、この構成構造を捕捉し、CZSLのより良いプロンプトを実現する。 新しいプロンプト戦略により、GIPCOLはMIT-States、UT-Zappos、C-GQAデータセットを含む3つのCZSLベンチマークで、以前のCLIPとCLIPベースのメソッドと比較して、クローズドおよびオープンな設定で、最先端のAUC結果を達成する。 GIPCOLがCLIPバックボーンとそのトレーニングデータ制限を十分に考慮し,より効果的なCZSLのプロンプトの設計に光を当てている理由を分析した。

Pre-trained vision-language models (VLMs) have achieved promising success in many fields, especially with prompt learning paradigm. In this work, we propose GIP-COL (Graph-Injected Soft Prompting for COmpositional Learning) to better explore the compositional zero-shot learning (CZSL) ability of VLMs within the prompt-based learning framework. The soft prompt in GIPCOL is structured and consists of the prefix learnable vectors, attribute label and object label. In addition, the attribute and object labels in the soft prompt are designated as nodes in a compositional graph. The compositional graph is constructed based on the compositional structure of the objects and attributes extracted from the training data and consequently feeds the updated concept representation into the soft prompt to capture this compositional structure for a better prompting for CZSL. With the new prompting strategy, GIPCOL achieves state-of-the-art AUC results on all three CZSL benchmarks, including MIT-States, UT-Zappos, and C-GQA datasets in both closed and open settings compared to previous non-CLIP as well as CLIP-based methods. We analyze when and why GIPCOL operates well given the CLIP backbone and its training data limitations, and our findings shed light on designing more effective prompts for CZSL
翻訳日:2023-11-13 16:50:52 公開日:2023-11-09
# 放射線検出器とイメージングのためのニューラルネットワーク手法

Neural Network Methods for Radiation Detectors and Imaging ( http://arxiv.org/abs/2311.05726v1 )

ライセンス: Link先を確認
S. Lin, S. Ning, H. Zhu, T. Zhou, C. L. Morris, S. Clayton, M. Cherukara, R. T. Chen, Z. Wang(参考訳) 機械学習および特に深層ニューラルネットワーク(dnn)による画像処理の最近の進歩により、データ取得型人工知能による放射線検出器と画像ハードウェアの新しい最適化と性能向上が実現されている。 本稿では、光子源におけるデータ生成の概要、画像処理タスクのためのディープラーニングベースの手法、およびディープラーニングアクセラレーションのためのハードウェアソリューションについて述べる。 既存のディープラーニングのアプローチのほとんどはオフラインでトレーニングされ、通常は大量の計算リソースを使用する。 しかしながら、トレーニングが終わると、DNNは高速な推論速度を達成でき、エッジデバイスにデプロイできる。 新たなトレンドは、エネルギー消費の少ないエッジコンピューティング(数百ワット以下)とリアルタイム分析の可能性である。 エッジコンピューティングで広く使われているが、中央処理ユニット(cpu)のような汎用プロセッサからアプリケーション固有の集積回路(asic)まで、電子ベースのハードウェアアクセラレータは、レイテンシ、エネルギー消費量、その他の物理的制約のパフォーマンス限界に常に到達している。 これらの制限により、光学ニューラルネットワーク(ONN)のような次世代のアナログニューロモークハードウェアプラットフォームが登場し、高い並列性、低レイテンシ、低エネルギーコンピューティングが深層学習の加速を促進する。

Recent advances in image data processing through machine learning and especially deep neural networks (DNNs) allow for new optimization and performance-enhancement schemes for radiation detectors and imaging hardware through data-endowed artificial intelligence. We give an overview of data generation at photon sources, deep learning-based methods for image processing tasks, and hardware solutions for deep learning acceleration. Most existing deep learning approaches are trained offline, typically using large amounts of computational resources. However, once trained, DNNs can achieve fast inference speeds and can be deployed to edge devices. A new trend is edge computing with less energy consumption (hundreds of watts or less) and real-time analysis potential. While popularly used for edge computing, electronic-based hardware accelerators ranging from general purpose processors such as central processing units (CPUs) to application-specific integrated circuits (ASICs) are constantly reaching performance limits in latency, energy consumption, and other physical constraints. These limits give rise to next-generation analog neuromorhpic hardware platforms, such as optical neural networks (ONNs), for high parallel, low latency, and low energy computing to boost deep learning acceleration.
翻訳日:2023-11-13 16:50:29 公開日:2023-11-09
# 高度・範囲における全身検出・認識・識別

Whole-body Detection, Recognition and Identification at Altitude and Range ( http://arxiv.org/abs/2311.05725v1 )

ライセンス: Link先を確認
Siyuan Huang, Ram Prabhakar Kathirvel, Chun Pong Lau, Rama Chellappa(参考訳) 本稿では,最大500mの距離と最大50度の大きなピッチ角において,生体認証,認識,識別を行う上での課題に対処する。 本稿では,BRIAR(Biometric Recognition and Identification at Range)データセットを含む,多様なデータセットを対象としたエンドツーエンドシステムを提案する。 我々のアプローチでは、一般的な画像データセットで検出器を事前トレーニングし、briarの複雑なビデオや画像に微調整する。 検出後,体像を抽出し,特徴抽出器を用いて認識を行う。 室内, 屋外, 空中のシナリオにおいて, 異なる範囲, 角度など様々な条件下で徹底的な評価を行う。 提案手法は,IoU = 0.7で平均98.29%のF1スコアを達成し,従来のモデルと比較して認識精度と真受け入れ率の低い偽受け入れ率で高い性能を示した。 被験者100名, 444名を対象に, ランク20の認識精度75.13%, tar@1%far54.09%を達成した。

In this paper, we address the challenging task of whole-body biometric detection, recognition, and identification at distances of up to 500m and large pitch angles of up to 50 degree. We propose an end-to-end system evaluated on diverse datasets, including the challenging Biometric Recognition and Identification at Range (BRIAR) dataset. Our approach involves pre-training the detector on common image datasets and fine-tuning it on BRIAR's complex videos and images. After detection, we extract body images and employ a feature extractor for recognition. We conduct thorough evaluations under various conditions, such as different ranges and angles in indoor, outdoor, and aerial scenarios. Our method achieves an average F1 score of 98.29% at IoU = 0.7 and demonstrates strong performance in recognition accuracy and true acceptance rate at low false acceptance rates compared to existing models. On a test set of 100 subjects with 444 distractors, our model achieves a rank-20 recognition accuracy of 75.13% and a TAR@1%FAR of 54.09%.
翻訳日:2023-11-13 16:50:03 公開日:2023-11-09
# 信頼性の低い情報ソースへの感受性: 最小露出のSwift採用

Susceptibility to Unreliable Information Sources: Swift Adoption with Minimal Exposure ( http://arxiv.org/abs/2311.05724v1 )

ライセンス: Link先を確認
Jinyi Ye, Luca Luceri, Julie Jiang, Emilio Ferrara(参考訳) ソーシャルメディアプラットフォーム上での誤情報拡散は、オンライン公開談話の完全性に対する広範にわたる脅威である。 本物の利用者は他人の影響に影響を受けやすく、しばしば疑わしい情報の断片と無知に関わり、支持し、再共有し、誤情報の拡散を増幅する。 本研究では,信頼できない信頼性のある情報ソースに曝露した場合のユーザへの影響を調査するための実証的枠組みを提案する。 2つのデータセットをtwitter上の政治と公衆衛生に関する議論に活用し、情報ソースの導入に対する露出の影響を分析し、情報源の信頼性がこの関係をどのように変化させるかを調べる。 我々の発見は、露出の増加が採用の可能性を高める証拠を提供する。 ユーザは、高可視性ソースよりも露出が少ない低可視性ソースを採用する傾向がある。 さらに、採用に必要な露出数は、ソースの信頼性によって異なり、スペクトルの極端な端(非常に高いか低いか)は採用に必要な露出が少ない。 さらに,情報ソースの採用は,信頼性レベルが同等であるソースへの事前露出を反映することが多い。 我々の研究は、脆弱なユーザーによる誤報の支持を緩和するための重要な洞察を与え、ソーシャルメディアプラットフォームにおけるコンテンツの露出と採用のダイナミクスを研究するためのフレームワークを提供する。

Misinformation proliferation on social media platforms is a pervasive threat to the integrity of online public discourse. Genuine users, susceptible to others' influence, often unknowingly engage with, endorse, and re-share questionable pieces of information, collectively amplifying the spread of misinformation. In this study, we introduce an empirical framework to investigate users' susceptibility to influence when exposed to unreliable and reliable information sources. Leveraging two datasets on political and public health discussions on Twitter, we analyze the impact of exposure on the adoption of information sources, examining how the reliability of the source modulates this relationship. Our findings provide evidence that increased exposure augments the likelihood of adoption. Users tend to adopt low-credibility sources with fewer exposures than high-credibility sources, a trend that persists even among non-partisan users. Furthermore, the number of exposures needed for adoption varies based on the source credibility, with extreme ends of the spectrum (very high or low credibility) requiring fewer exposures for adoption. Additionally, we reveal that the adoption of information sources often mirrors users' prior exposure to sources with comparable credibility levels. Our research offers critical insights for mitigating the endorsement of misinformation by vulnerable users, offering a framework to study the dynamics of content exposure and adoption on social media platforms.
翻訳日:2023-11-13 16:49:45 公開日:2023-11-09
# Verilog-to-PyG - RTL設計におけるグラフ学習と拡張のためのフレームワーク

Verilog-to-PyG -- A Framework for Graph Learning and Augmentation on RTL Designs ( http://arxiv.org/abs/2311.05722v1 )

ライセンス: Link先を確認
Yingjie Li and Mingju Liu and Alan Mishchenko and Cunxi Yu(参考訳) 現代のハードウェア設計の複雑さは、現代のデジタルシステムの最適化と分析のための高度な方法論を必要とする。 近年、機械学習(ML)手法は、登録-転送レベル(RTL)やブールレベルの設計品質を評価する強力な手段として登場し、高度なRTL構成の設計探索の迅速化を目指している。 本稿では、RTL設計をグラフ表現基盤に変換する革新的なオープンソースフレームワークを紹介し、PyTorch Geometric graph Learningプラットフォームとシームレスに統合することができる。 さらに、Verilog-to-PyG(V2PYG)フレームワークは、オープンソースのElectronic Design Automation(EDA)ツールチェーンであるOpenROADと互換性があり、ラベル付きデータセットの完全なオープンソースな収集を容易にする。 さらに,拡張グラフベースのRTL設計データベースを構築する上で,機能的に等価な設計拡張を可能にする新しいRTLデータ拡張手法(フレームワークに組み込んだ)を提案する。 最後に、詳細なスクリプティング例を含むV2PYGのユースケースをいくつか紹介する。 V2PYG は \url{https://yu-maryland.github.io/Verilog-to-PyG/} で見ることができる。

The complexity of modern hardware designs necessitates advanced methodologies for optimizing and analyzing modern digital systems. In recent times, machine learning (ML) methodologies have emerged as potent instruments for assessing design quality-of-results at the Register-Transfer Level (RTL) or Boolean level, aiming to expedite design exploration of advanced RTL configurations. In this presentation, we introduce an innovative open-source framework that translates RTL designs into graph representation foundations, which can be seamlessly integrated with the PyTorch Geometric graph learning platform. Furthermore, the Verilog-to-PyG (V2PYG) framework is compatible with the open-source Electronic Design Automation (EDA) toolchain OpenROAD, facilitating the collection of labeled datasets in an utterly open-source manner. Additionally, we will present novel RTL data augmentation methods (incorporated in our framework) that enable functional equivalent design augmentation for the construction of an extensive graph-based RTL design database. Lastly, we will showcase several using cases of V2PYG with detailed scripting examples. V2PYG can be found at \url{https://yu-maryland.github.io/Verilog-to-PyG/}.
翻訳日:2023-11-13 16:49:24 公開日:2023-11-09
# 大規模言語モデルを用いたアバロンゲームにおけるロール識別のためのロングホリゾン対話理解

Long-Horizon Dialogue Understanding for Role Identification in the Game of Avalon with Large Language Models ( http://arxiv.org/abs/2311.05720v1 )

ライセンス: Link先を確認
Simon Stepputtis, Joseph Campbell, Yaqi Xie, Zhengyang Qi, Wenxin Sharon Zhang, Ruiyi Wang, Sanketh Rangreji, Michael Lewis, Katia Sycara(参考訳) 認知と説得は、特に参加者の興味、目標、モチベーションが一致していない場合に、複数の当事者間の長期の対話において重要な役割を果たす。 このような複雑なタスクは、偽装や説得といった現在の大規模言語モデル(llm)にとって問題となる。 この目的のために、プレイヤーはチームの目的を達成するためにお互いの隠れたアイデンティティを判断しなければならない社会的推論ゲームであるAvalon: The Resistanceを探索する。 オンラインテストベッドと20種類のラベル付きゲームを含むデータセットを,協調競争環境において長時間のデセプションを呈する人間選手間で紹介する。 そこで本研究では,LLMが6人のプレイヤー間での知覚的長期会話を利用して,各プレイヤーの目標とモチベーションを決定する能力について論じる。 特に,会話を基盤としたゲーム状態とプレイヤー間のマルチモーダルなチャットの統合について論じ,真のプレイヤーのアイデンティティについてさらなる知見を提供する。 現状のLLMでさえ人間のパフォーマンスには達していないことが分かり、我々のデータセットはLLMの意思決定能力と言語処理能力を調べるための魅力的なベンチマークとなる。 私たちのデータセットとオンラインテストベッドは、プロジェクトのWebサイト(https://sstepput.github.io/Avalon-NLU/)で確認できます。

Deception and persuasion play a critical role in long-horizon dialogues between multiple parties, especially when the interests, goals, and motivations of the participants are not aligned. Such complex tasks pose challenges for current Large Language Models (LLM) as deception and persuasion can easily mislead them, especially in long-horizon multi-party dialogues. To this end, we explore the game of Avalon: The Resistance, a social deduction game in which players must determine each other's hidden identities to complete their team's objective. We introduce an online testbed and a dataset containing 20 carefully collected and labeled games among human players that exhibit long-horizon deception in a cooperative-competitive setting. We discuss the capabilities of LLMs to utilize deceptive long-horizon conversations between six human players to determine each player's goal and motivation. Particularly, we discuss the multimodal integration of the chat between the players and the game's state that grounds the conversation, providing further insights into the true player identities. We find that even current state-of-the-art LLMs do not reach human performance, making our dataset a compelling benchmark to investigate the decision-making and language-processing capabilities of LLMs. Our dataset and online testbed can be found at our project website: https://sstepput.github.io/Avalon-NLU/
翻訳日:2023-11-13 16:49:03 公開日:2023-11-09
# 深層学習法を用いた頚椎骨折のインテリジェント検出

Intelligent Cervical Spine Fracture Detection Using Deep Learning Methods ( http://arxiv.org/abs/2311.05708v1 )

ライセンス: Link先を確認
Reza Behbahani Nejad, Amir Hossein Komijani, Esmaeil Najafi(参考訳) 頚椎骨折は致命的な緊急事態であり、未治療または未発見の場合には、生涯にわたる麻痺や致命的死亡の可能性がある。 時間の経過とともに、これらの骨折は介入なしに悪化する。 本研究は, 頚椎骨折と非フラクチャードCT画像の両方を含むデータセットを用いて, 深部学習による脊椎骨折検出の実践的応用の欠如に対処するものである。 本稿では,各画像スライスにおける頚椎の存在を識別し,骨折の位置をピンポイントする2段階パイプラインを提案する。 第1段階では、画像と画像メタデータを組み込んだマルチ入力ネットワークを訓練する。 このネットワークはGlobal Context Vision Transformerに基づいており、その性能は人気のあるディープラーニング画像分類モデルと比較されている。 第2段階では、画像内の骨折を検出するためにYOLOv8モデルを訓練し、その効果をYOLOv5と比較する。 その結果, 提案アルゴリズムは放射線技師の作業量を大幅に削減し, 破壊検出の精度を高めることが示唆された。

Cervical spine fractures constitute a critical medical emergency, with the potential for lifelong paralysis or even fatality if left untreated or undetected. Over time, these fractures can deteriorate without intervention. To address the lack of research on the practical application of deep learning techniques for the detection of spine fractures, this study leverages a dataset containing both cervical spine fractures and non-fractured computed tomography images. This paper introduces a two-stage pipeline designed to identify the presence of cervical vertebrae in each image slice and pinpoint the location of fractures. In the first stage, a multi-input network, incorporating image and image metadata, is trained. This network is based on the Global Context Vision Transformer, and its performance is benchmarked against popular deep learning image classification model. In the second stage, a YOLOv8 model is trained to detect fractures within the images, and its effectiveness is compared to YOLOv5. The obtained results indicate that the proposed algorithm significantly reduces the workload of radiologists and enhances the accuracy of fracture detection.
翻訳日:2023-11-13 16:48:39 公開日:2023-11-09
# FMViT:マルチ周波数混合ビジョントランス

FMViT: A multiple-frequency mixing Vision Transformer ( http://arxiv.org/abs/2311.05707v1 )

ライセンス: Link先を確認
Wei Tan, Yifeng Geng, Xuansong Xie(参考訳) トランスフォーマーモデルは近年、コンピュータビジョンのタスクに広く採用されている。 しかし、入力トークンの数に比例する自己注意の2次時間とメモリの複雑さのため、既存のViT(Vision Transformer)のほとんどは、従来のCNNが優れているTensorRTやCoreMLのような実用的な産業展開シナリオにおいて、効率的なパフォーマンスを実現する上での課題に直面している。 この問題に対処するためにCNN-Transformerハイブリッドアーキテクチャを設計する試みは近年行われているが、全体的な性能は期待に届かなかった。 これらの課題に対処するため、FMViTと呼ばれる効率的なハイブリッドViTアーキテクチャを提案する。 このアプローチは、高周波特性と低周波特性と異なる周波数を混合することにより、モデルの表現力を高め、ローカル情報とグローバル情報の両方を効果的に捉えることができる。 さらに,畳み込み型マルチグループ再パラメータ化(gMLP)や軽量型マルチヘッド自己注意(RLMHSA),畳み込み型融合ブロック(CFB)などのデプロイフレンドリーな機構を導入し,モデルの性能向上と計算オーバーヘッドの低減を図る。 実験の結果,FMViTは既存のCNN,ViT,CNNTransformerのハイブリッドアーキテクチャを,様々なビジョンタスクのレイテンシ/精度トレードオフの観点から上回っていることがわかった。 TensorRTプラットフォームでは、FMViTは、同様の推論レイテンシを維持しながら、ImageNetデータセットのトップ1の精度でResnet101を2.5%(83.3%対80.8%)上回る。 さらに fmvit は efficientnet-b5 と同等の性能を実現しているが、推論速度は 43% 向上している。 CoreMLでは、FMViTは、ImageNetデータセットでMobileOneを2.6%上回り、推論レイテンシはMobileOne(78.5%対75.9%)に匹敵する。 私たちのコードはhttps://github.com/tany0699/fmvitにあります。

The transformer model has gained widespread adoption in computer vision tasks in recent times. However, due to the quadratic time and memory complexity of self-attention, which is proportional to the number of input tokens, most existing Vision Transformers (ViTs) encounter challenges in achieving efficient performance in practical industrial deployment scenarios, such as TensorRT and CoreML, where traditional CNNs excel. Although some recent attempts have been made to design CNN-Transformer hybrid architectures to tackle this problem, their overall performance has not met expectations. To tackle these challenges, we propose an efficient hybrid ViT architecture named FMViT. This approach enhances the model's expressive power by blending high-frequency features and low-frequency features with varying frequencies, enabling it to capture both local and global information effectively. Additionally, we introduce deploy-friendly mechanisms such as Convolutional Multigroup Reparameterization (gMLP), Lightweight Multi-head Self-Attention (RLMHSA), and Convolutional Fusion Block (CFB) to further improve the model's performance and reduce computational overhead. Our experiments demonstrate that FMViT surpasses existing CNNs, ViTs, and CNNTransformer hybrid architectures in terms of latency/accuracy trade-offs for various vision tasks. On the TensorRT platform, FMViT outperforms Resnet101 by 2.5% (83.3% vs. 80.8%) in top-1 accuracy on the ImageNet dataset while maintaining similar inference latency. Moreover, FMViT achieves comparable performance with EfficientNet-B5, but with a 43% improvement in inference speed. On CoreML, FMViT outperforms MobileOne by 2.6% in top-1 accuracy on the ImageNet dataset, with inference latency comparable to MobileOne (78.5% vs. 75.9%). Our code can be found at https://github.com/tany0699/FMViT.
翻訳日:2023-11-13 16:48:23 公開日:2023-11-09
# mirasol3b:時間整合および文脈的モダリティのためのマルチモーダル自己回帰モデル

Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities ( http://arxiv.org/abs/2311.05698v1 )

ライセンス: Link先を確認
AJ Piergiovanni, Isaac Nobel, Dahun Kim, Michael S. Ryoo, Victor Gomes, Anelia Angelova(参考訳) マルチモーダル学習の主な課題の1つは、異質なモダリティ(ビデオ、オーディオ、テキストなど)を組み合わせる必要があることである。 例えば、ビデオとオーディオはテキストよりもずっと高いレートで取得され、概ね時間的に一致します。 それらはしばしばテキストと同期しないが、これはグローバルな文脈、例えばタイトルや記述として現れる。 さらに、ビデオとオーディオの入力は、ビデオの長さが大きくなるにつれて大きくなり、これらのモダリティに専用の計算を必要とするようになり、長距離依存のモデリングが困難になる。 ここでは、マルチモーダルモデリングを分離し、個別に集中した自己回帰モデルに分割し、モダリティの特性に応じて入力を処理する。 我々はmirasol3bと呼ばれるマルチモーダルモデルを提案し、時間同期モダリティ(オーディオとビデオ)の自己回帰成分と、必ずしも時間的に整列するとは限らないが連続的なコンテキストモダリティの自己回帰成分からなる。 ビデオ音声入力の長いシーケンスに対処するため,ビデオと音声のシーケンスを逐次スニペットに分割し,その表現を自動回帰処理する手法を提案する。 そこで本研究では,時間枠内で音声・映像情報を協調的にモデル化するコンビネータ機構を提案する。 Combinerは、生の時空間信号から音声とビデオの特徴を抽出し、その後、スニペットごとにコンパクトだが表現力のある表現を生成するこれらの特徴を融合させる。 我々の手法は、確立されたマルチモーダルベンチマークの最先端性を達成し、はるかに大きなモデルより優れている。 コンパクトな表現を学習し、オーディオビデオの特徴表現のシーケンス長を制御し、それらの依存関係を時間内にモデル化することで、メディア入力の高い計算要求に効果的に対処する。

One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.
翻訳日:2023-11-13 16:47:48 公開日:2023-11-09
# 3dgaunet:3d u-netを用いた3d生成逆ネットワークによる膵癌腫瘍画像データの高精度かつ効果的な合成

3DGAUnet: 3D generative adversarial networks with a 3D U-Net based generator to achieve the accurate and effective synthesis of clinical tumor image data for pancreatic cancer ( http://arxiv.org/abs/2311.05697v1 )

ライセンス: Link先を確認
Yu Shi, Hannah Tang, Michael Baine, Michael A. Hollingsworth, Huijing Du, Dandan Zheng, Chi Zhang, Hongfeng Yu(参考訳) 膵管腺癌(PDAC)は世界的な健康上の課題であり,早期発見は5年生存率の向上に不可欠である。 最近の医療画像と計算アルゴリズムの進歩は早期診断の潜在的な解決策を提供する。 深層学習は、特に畳み込みニューラルネットワーク(CNN)の形で、分類やセグメンテーションを含む医療画像解析タスクで成功している。 しかし、トレーニング目的の臨床データの入手が限られていることは、依然として大きな障害となっている。 データ拡張、GAN(Generative Adversarial Network)、クロスバリデーション(cross-validation)は、この制限に対処し、モデル性能を改善するための潜在的手法であるが、腫瘍組織と背景組織の両方において高い不均一性のため、特にコントラストが低い3D PDACでは、効果的なソリューションは依然として稀である。 本研究では,pdac腫瘍と膵組織の現実的な3dct画像を生成し,既存の2dct画像合成モデルに欠けているスライス接続データを生成する3dgaunetという新しいganベースのモデルを開発した。 我々の革新は、PDAC腫瘍や膵組織の形状とテクスチャ学習を改善するために、ジェネレータのための3次元U-Netアーキテクチャを開発することである。 提案手法は,PDACと戦うための創造的・シナジスティックな手法の緊急要件に対処するための,有望な経路を提供する。 このGANベースのモデルの開発は、データの不足を軽減し、合成データの質を高め、深層学習モデルの進行を促進させ、PDAC腫瘍の精度と早期発見を高め、患者の結果に大きな影響を与える可能性がある。 さらに、このモデルは他の種類の固形腫瘍に適応できる可能性があり、画像処理モデルの観点から医療画像の分野に多大な貢献をしている。

Pancreatic ductal adenocarcinoma (PDAC) presents a critical global health challenge, and early detection is crucial for improving the 5-year survival rate. Recent medical imaging and computational algorithm advances offer potential solutions for early diagnosis. Deep learning, particularly in the form of convolutional neural networks (CNNs), has demonstrated success in medical image analysis tasks, including classification and segmentation. However, the limited availability of clinical data for training purposes continues to provide a significant obstacle. Data augmentation, generative adversarial networks (GANs), and cross-validation are potential techniques to address this limitation and improve model performance, but effective solutions are still rare for 3D PDAC, where contrast is especially poor owing to the high heterogeneity in both tumor and background tissues. In this study, we developed a new GAN-based model, named 3DGAUnet, for generating realistic 3D CT images of PDAC tumors and pancreatic tissue, which can generate the interslice connection data that the existing 2D CT image synthesis models lack. Our innovation is to develop a 3D U-Net architecture for the generator to improve shape and texture learning for PDAC tumors and pancreatic tissue. Our approach offers a promising path to tackle the urgent requirement for creative and synergistic methods to combat PDAC. The development of this GAN-based model has the potential to alleviate data scarcity issues, elevate the quality of synthesized data, and thereby facilitate the progression of deep learning models to enhance the accuracy and early detection of PDAC tumors, which could profoundly impact patient outcomes. Furthermore, this model has the potential to be adapted to other types of solid tumors, hence making significant contributions to the field of medical imaging in terms of image processing models.
翻訳日:2023-11-13 16:47:16 公開日:2023-11-09
# フラケット絶縁体と格子フェルミオンは実時間離散化を超えた

Floquet insulators and lattice fermions beyond naive time discretization ( http://arxiv.org/abs/2311.05686v1 )

ライセンス: Link先を確認
Thomas Iadecola, Srimoyee Sen, Lars Sivertsen(参考訳) フロッケ絶縁体として知られる周期的に駆動される量子系は、「$\pi$モード」と呼ばれる位相的に保護された境界状態をホストすることができる。 このような状態は、フェルミオン二重化の結果時間が離散化されるときにも非駆動格子場理論に現れ、これらの2つの現象が接続できるかどうかという疑問を提起する。 近年,連続時間フローケットモデルのスペクトルと離散時間非駆動格子フェルミオンモデルとの明示的マッピングのレベルでのそのような関係を実証した。 しかし、このマッピングは一般的な駆動パラメータには存在しない単一粒子スペクトルの対称性に依存していた。 格子場理論における時間的ウィルソン項の例に触発されて、離散時間モデルのパラメータを周波数依存にすることで、この写像をフルドライブパラメータ空間に拡張する。 得られた格子フェルミオンモデルのスペクトルは熱力学限界におけるフロケモデルの準エネルギースペクトルと正確に一致する。 その結果,フロッケ系における非平衡物理のスペクトル特徴は,適切な時間的離散化を伴う静的系で再現できることがわかった。

Periodically driven quantum systems known as Floquet insulators can host topologically protected bound states known as "$\pi$ modes" that exhibit response at half the frequency of the drive. Such states can also appear in undriven lattice field theories when time is discretized as a result of fermion doubling, raising the question of whether these two phenomena could be connected. Recently, we demonstrated such a connection at the level of an explicit mapping between the spectra of a continuous-time Floquet model and a discrete-time undriven lattice fermion model. However, this mapping relied on a symmetry of the single-particle spectrum that is not present for generic drive parameters. Inspired by the example of the temporal Wilson term in lattice field theory, in this paper we extend this mapping to the full drive parameter space by allowing the parameters of the discrete-time model to be frequency-dependent. The spectra of the resulting lattice fermion models exactly match the quasienergy spectrum of the Floquet model in the thermodynamic limit. Our results demonstrate that spectral features characteristic of beyond-equilibrium physics in Floquet systems can be replicated in static systems with appropriate time discretization.
翻訳日:2023-11-13 16:46:42 公開日:2023-11-09
# フラストレーションキャビティQED実験における可変揺らぎ下でのスピンガラス形成のダイナミクス

Dynamics of spin glass formation under tunable fluctuations in frustrated cavity QED experiments ( http://arxiv.org/abs/2311.05682v1 )

ライセンス: Link先を確認
Hossein Hosseinabadi, Darrick E. Chang and Jamir Marino(参考訳) 非摂動図式を用いたフラストレーション原子-光子カップリングによる多モードキャビティQEDのダイナミクスを解く。 本手法により, これらのプラットフォームにホストされるスピンガラス遷移の性質を徹底的に調査することができる。 特に、実験をモデル化したフラストレーションスピンネットワークを形成する原子アンサンブルのそれぞれにおける量子ノイズの役割に焦点を当てる。 拡張時間スケールでのガラス相の育成における強い量子ゆらぎの安定化効果について報告する。 半古典的な極限では、スピンガラスの秩序は個々の原子アンサンブルのレベルで存在する強磁性相関によって事前熱的に阻害され、スピンガラスの形成は実質的に遅延する。 本研究は, 量子揺らぎを用いたキャビティqed実験の段階を定式化し, 半古典型から強相関型オペレーションレジームへの移行に伴うものである。

We solve the dynamics of multi-mode cavity QED with frustrated atom-photon couplings using non-perturbative diagrammatics. Our technique enables a thorough investigation of the nature of the spin glass transition hosted in these platforms. We focus in particular on the role of quantum noise in each of the atomic ensembles which form the frustrated spin network modeling the experiment. We report on the stabilizing effect of strong quantum fluctuations in fostering a glassy phase over extended time scales. At variance with this behaviour, in the semi-classical limit, spin glass order is instead pre-thermally obstructed by the ferromagnetic correlations present at the level of individual atomic ensembles, which substantially delay spin glass formation. Our results set the stage for studying cavity QED experiments with tunable quantum fluctuations, and accompanying them in the transition from semi-classical to strongly correlated operational regimes.
翻訳日:2023-11-13 16:46:24 公開日:2023-11-09
# 量子ハードウェアにおける変動最適化のための実時間誤差軽減

Real-time error mitigation for variational optimization on quantum hardware ( http://arxiv.org/abs/2311.05680v1 )

ライセンス: Link先を確認
Matteo Robbiati, Alejandro Sopena, Andrea Papaluca, Stefano Carrazza(参考訳) 本研究では,変分量子回路(vqc)モデルの学習過程における誤り軽減ルーチンの導入について検討した。 本稿では,量子チップ上の関数をVQCに適合させるタスクを共振するRTQEM(Real Time Quantum Eitior Mitigation)アルゴリズムを定義する。 現状のQEM法では, ノイズによる指数的損失集中に対処できないが, 我々のRTQEMルーチンは, 損失関数の劣化を低減し, VQCのトレーニング性を向上させることができることを示す。 本手法は, 超伝導単一量子ビットデバイス上で単次元 {\it u}-quark parton 分布関数 (pdf) の適合性をシミュレーションし, デプロイし, 最大8量子ビットの多次元適合をシミュレートして, 提案手法のスケーラビリティを解析した。

In this work we put forward the inclusion of error mitigation routines in the process of training Variational Quantum Circuit (VQC) models. In detail, we define a Real Time Quantum Error Mitigation (RTQEM) algorithm to coadiuvate the task of fitting functions on quantum chips with VQCs. While state-of-the-art QEM methods cannot adress the exponential loss concentration induced by noise in current devices, we demonstrate that our RTQEM routine can enhance VQCs' trainability by reducing the corruption of the loss function. We tested the algorithm by simulating and deploying the fit of a monodimensional {\it u}-Quark Parton Distribution Function (PDF) on a superconducting single-qubit device, and we further analyzed the scalability of the proposed technique by simulating a multidimensional fit with up to 8 qubits.
翻訳日:2023-11-13 16:46:11 公開日:2023-11-09
# 3+1)Dフェルミオン$\mathbb{Z}_2$ゲージ理論の高次群対称性:高次対称性からの論理CCZ,CS,Tゲート

Higher-group symmetry of (3+1)D fermionic $\mathbb{Z}_2$ gauge theory: logical CCZ, CS, and T gates from higher symmetry ( http://arxiv.org/abs/2311.05674v1 )

ライセンス: Link先を確認
Maissam Barkeshli, Po-Shen Hsin, Ryohei Kobayashi(参考訳) 最近、有限群位相ゲージ理論の完全な大域対称性は、より高い群の構造を含むことが理解されている。 ここでは、3+1)D $\mathbb{Z}_2$ゲージ理論の高群構造を創発的なフェルミオンで研究し、キラル$p+ip$位相状態の励起は混合重力異常を伴う$\mathbb{Z}_{8}$ 0-形式対称性をもたらすことを指摘した。 この通常の対称性は他の高次対称性と混合し、3つの群構造を形成する。 次に、安定化器量子符号の文脈において、それぞれ$T^3$ (3-torus) と $T^2 \rtimes_{C_2} S^1$ (2-torus bundle over the circle) の離散化に符号を配置し、$p+ip$状態の励起を行うことにより、論理CCZ と CS ゲートが得られることを示す。 我々はまた、$\mathbb{RP}^3$にコードを配置し、$p+ip$トポロジカルステートをポンプすることで、論理的な$T$ゲートの可能性も示唆している。

It has recently been understood that the complete global symmetry of finite group topological gauge theories contains the structure of a higher-group. Here we study the higher-group structure in (3+1)D $\mathbb{Z}_2$ gauge theory with an emergent fermion, and point out that pumping chiral $p+ip$ topological states gives rise to a $\mathbb{Z}_{8}$ 0-form symmetry with mixed gravitational anomaly. This ordinary symmetry mixes with the other higher symmetries to form a 3-group structure, which we examine in detail. We then show that in the context of stabilizer quantum codes, one can obtain logical CCZ and CS gates by placing the code on a discretization of $T^3$ (3-torus) and $T^2 \rtimes_{C_2} S^1$ (2-torus bundle over the circle) respectively, and pumping $p+ip$ states. Our considerations also imply the possibility of a logical $T$ gate by placing the code on $\mathbb{RP}^3$ and pumping a $p+ip$ topological state.
翻訳日:2023-11-13 16:45:53 公開日:2023-11-09
# 騒音のパラドックス:フェデレーション学習における一般化,安定性,プライバシ向上のためのノイズ注入機構の実証的研究

The Paradox of Noise: An Empirical Study of Noise-Infusion Mechanisms to Improve Generalization, Stability, and Privacy in Federated Learning ( http://arxiv.org/abs/2311.05790v1 )

ライセンス: Link先を確認
Elaheh Jafarigol, Theodore Trafalis(参考訳) データ中心の時代には、マシンラーニングが個人情報に依存しているため、プライバシや倫理的なデータ処理に関する懸念が高まる。 本研究では,連合学習フレームワークにおける追加雑音の存在下でのディープラーニングモデルのプライバシ,一般化,安定性について検討する。 私たちの主な目的は、これらのモデルの一般化、安定性、およびプライバシー保護能力を測定し、さらに改善するための戦略を提供することです。 この目的のために,集中型および連合型学習環境における騒音レベルの異なる5つのノイズ注入機構について検討した。 モデル複雑性は、訓練および評価中のディープラーニングモデルの一般化と安定性の重要な要素であるため、3つの畳み込みニューラルネットワーク(CNN)アーキテクチャの比較分析が提供される。 本稿では,ノイズ注入モデルにおけるプライバシとトレーニング精度のトレードオフの定量的尺度としてSNR(Signal-to-Noise Ratio)を導入し,最適なプライバシと精度が得られるノイズレベルを求める。 さらに,プライバシ保全深層学習の文脈において,安定性価格とアナキシー価格が定義されており,性能を損なうことなくプライバシを高めるためのノイズ注入戦略の体系的検討に寄与している。 我々の研究は、これらの重要な要因間の微妙なバランスに光を当て、機械学習におけるノイズベースの正規化の影響をより深く理解する。 ノイズを正規化とプライバシー強化のツールとして活用することにより、堅牢でプライバシを意識したアルゴリズムの開発に貢献し、AI駆動のソリューションがユーティリティとプライバシの両方を優先することを目指している。

In a data-centric era, concerns regarding privacy and ethical data handling grow as machine learning relies more on personal information. This empirical study investigates the privacy, generalization, and stability of deep learning models in the presence of additive noise in federated learning frameworks. Our main objective is to provide strategies to measure the generalization, stability, and privacy-preserving capabilities of these models and further improve them. To this end, five noise infusion mechanisms at varying noise levels within centralized and federated learning settings are explored. As model complexity is a key component of the generalization and stability of deep learning models during training and evaluation, a comparative analysis of three Convolutional Neural Network (CNN) architectures is provided. The paper introduces Signal-to-Noise Ratio (SNR) as a quantitative measure of the trade-off between privacy and training accuracy of noise-infused models, aiming to find the noise level that yields optimal privacy and accuracy. Moreover, the Price of Stability and Price of Anarchy are defined in the context of privacy-preserving deep learning, contributing to the systematic investigation of the noise infusion strategies to enhance privacy without compromising performance. Our research sheds light on the delicate balance between these critical factors, fostering a deeper understanding of the implications of noise-based regularization in machine learning. By leveraging noise as a tool for regularization and privacy enhancement, we aim to contribute to the development of robust, privacy-aware algorithms, ensuring that AI-driven solutions prioritize both utility and privacy.
翻訳日:2023-11-13 16:38:03 公開日:2023-11-09
# PolyMaX: Mask Transformer を用いた一般密度予測

PolyMaX: General Dense Prediction with Mask Transformer ( http://arxiv.org/abs/2311.05770v1 )

ライセンス: Link先を確認
Xuan Yang, Liangzhe Yuan, Kimberly Wilber, Astuti Sharma, Xiuye Gu, Siyuan Qiao, Stephanie Debats, Huisheng Wang, Hartwig Adam, Mikhail Sirotenko, Liang-Chieh Chen(参考訳) セマンティックセグメンテーション、深さ推定、表面正規予測といった複雑な予測タスクは、ピクセルごとの分類(離散出力)や回帰(連続出力)として容易に定式化できる。 このピクセル当たりの予測パラダイムは、完全畳み込みネットワークの普及によって人気を保っている。 しかし、近年のセグメンテーションタスクのフロンティアにおいて、コミュニティは、ピクセル単位の予測からクラスタ予測へのパラダイムシフトを目撃しており、トランスフォーマーアーキテクチャ、特にマスクトランスフォーマーは、ピクセルではなくマスクのラベルを直接予測している。 このシフトにもかかわらず、画素ごとの予測パラダイムに基づく手法は、深さ推定や表面正規予測のような連続的な出力を必要とする他の高密度な予測タスクのベンチマークを支配している。 連続出力空間を離散化することで得られた深さ推定におけるdornとadabinsの成功に動機づけられ,クラスタ予測法を一般密集予測タスクに一般化する。 これにより、密集予測タスクをマスクトランスフォーマーフレームワークと統合することができます。 注目すべきなのは、結果のモデルであるPolyMaXが、NYUD-v2データセットの3つのベンチマークで最先端のパフォーマンスを示していることだ。 我々のシンプルで効果的な設計は、より密集した予測タスクのためにマスクトランスフォーマーを利用するさらなる研究を刺激できることを願っている。 コードとモデルは利用可能になる。

Dense prediction tasks, such as semantic segmentation, depth estimation, and surface normal prediction, can be easily formulated as per-pixel classification (discrete outputs) or regression (continuous outputs). This per-pixel prediction paradigm has remained popular due to the prevalence of fully convolutional networks. However, on the recent frontier of segmentation task, the community has been witnessing a shift of paradigm from per-pixel prediction to cluster-prediction with the emergence of transformer architectures, particularly the mask transformers, which directly predicts a label for a mask instead of a pixel. Despite this shift, methods based on the per-pixel prediction paradigm still dominate the benchmarks on the other dense prediction tasks that require continuous outputs, such as depth estimation and surface normal prediction. Motivated by the success of DORN and AdaBins in depth estimation, achieved by discretizing the continuous output space, we propose to generalize the cluster-prediction based method to general dense prediction tasks. This allows us to unify dense prediction tasks with the mask transformer framework. Remarkably, the resulting model PolyMaX demonstrates state-of-the-art performance on three benchmarks of NYUD-v2 dataset. We hope our simple yet effective design can inspire more research on exploiting mask transformers for more dense prediction tasks. Code and model will be made available.
翻訳日:2023-11-13 16:37:38 公開日:2023-11-09
# チャットボットは信頼できないテキストアノテーション

Chatbots Are Not Reliable Text Annotators ( http://arxiv.org/abs/2311.05769v1 )

ライセンス: Link先を確認
Ross Deans Kristensen-McLachlan, Miceal Canavan, M\'arton Kardos, Mia Jacobsen, Lene Aar{\o}e(参考訳) 最近の研究は、社会科学研究におけるテキストアノテーションにおけるChatGPTの意義を強調している。 しかし、ChatGPTはクローズドソース製品であり、透明性、再現性、コスト、データ保護に関して大きな欠点がある。 オープンソースの(OS)大規模言語モデル(LLM)の最近の進歩は、これらの課題を解決する代替手段を提供する。 これは、ChatGPTに対するOS LLMの性能評価と、教師あり機械学習分類への標準アプローチが重要であることを意味する。 我々は,従来の教師付き分類モデルと比較して,ゼロショット学習とマイストショット学習,ジェネリックプロンプトとカスタムプロンプトを用いて,chatgptと並行してos llmモデルの性能を体系的に比較評価する。 米国のニュースメディアからの新しいつぶやきのデータセットを用いて、標準的な社会科学概念のための単純なバイナリテキストアノテーションタスクに注目し、タスク間でChatGPTとOSモデルのパフォーマンスに大きなばらつきが見られ、教師付き分類器はどちらも一貫して優れています。 ChatGPTの信頼性の低いパフォーマンスと、それがOpen Scienceにもたらす重要な課題を踏まえ、社会科学研究における実体的テキストアノテーションタスクにChatGPTを使用することを推奨する。

Recent research highlights the significant potential of ChatGPT for text annotation in social science research. However, ChatGPT is a closed-source product which has major drawbacks with regards to transparency, reproducibility, cost, and data protection. Recent advances in open-source (OS) large language models (LLMs) offer alternatives which remedy these challenges. This means that it is important to evaluate the performance of OS LLMs relative to ChatGPT and standard approaches to supervised machine learning classification. We conduct a systematic comparative evaluation of the performance of a range of OS LLM models alongside ChatGPT, using both zero- and few-shot learning as well as generic and custom prompts, with results compared to more traditional supervised classification models. Using a new dataset of Tweets from US news media, and focusing on simple binary text annotation tasks for standard social science concepts, we find significant variation in the performance of ChatGPT and OS models across the tasks, and that supervised classifiers consistently outperform both. Given the unreliable performance of ChatGPT and the significant challenges it poses to Open Science we advise against using ChatGPT for substantive text annotation tasks in social science research.
翻訳日:2023-11-13 16:37:15 公開日:2023-11-09
# フレームレット増強によるグラフニューラルネットワークのディリクレエネルギー向上

Dirichlet Energy Enhancement of Graph Neural Networks by Framelet Augmentation ( http://arxiv.org/abs/2311.05767v1 )

ライセンス: Link先を確認
Jialin Chen, Yuelin Wang, Cristian Bodnar, Rex Ying, Pietro Lio, Yu Guang Wang(参考訳) グラフ畳み込みはグラフ表現を学ぶ上で重要な要素である。 しかし、グラフ畳み込みで隣り合う情報を再帰的に集約すると、深い層で区別できないノードの特徴が生じる。 グラフニューラルネットワークの性能は、積み重ねられた層の数が増えるにつれて急速に低下し、グラフに関連するディリクレエネルギーも0に減少する。 本研究では,ディリクレエネルギーの分析にフレームレットシステムを導入し,ディリクレエネルギーを活用し,過度なスムーシング問題を緩和する多面的な視点で検討する。 具体的には,低パスと高パスの更新ルールを正および負の増分で調整し,フレームレット拡張戦略を開発する。 そこで我々は, ディリクレエネルギーを厳格に増強することが証明された実効的かつ実用的なEnergy Enhanced Convolution (EEConv) を設計する。 メッセージパッシングの観点から、EEConvはフレームレット変換からマルチホップアグリゲーション特性を継承し、マルチスケール表現のすべてのホップを考慮に入れ、異種グラフ上のノード分類タスクの恩恵を受ける。 実験により、EEConvを持つディープGNNは、様々なノード分類データセット、特に異種グラフに対して最先端のパフォーマンスを達成し、ネットワークが深まるにつれてディリクレエネルギーを引き上げていることが示された。

Graph convolutions have been a pivotal element in learning graph representations. However, recursively aggregating neighboring information with graph convolutions leads to indistinguishable node features in deep layers, which is known as the over-smoothing issue. The performance of graph neural networks decays fast as the number of stacked layers increases, and the Dirichlet energy associated with the graph decreases to zero as well. In this work, we introduce a framelet system into the analysis of Dirichlet energy and take a multi-scale perspective to leverage the Dirichlet energy and alleviate the over-smoothing issue. Specifically, we develop a Framelet Augmentation strategy by adjusting the update rules with positive and negative increments for low-pass and high-passes respectively. Based on that, we design the Energy Enhanced Convolution (EEConv), which is an effective and practical operation that is proved to strictly enhance Dirichlet energy. From a message-passing perspective, EEConv inherits multi-hop aggregation property from the framelet transform and takes into account all hops in the multi-scale representation, which benefits the node classification tasks over heterophilous graphs. Experiments show that deep GNNs with EEConv achieve state-of-the-art performance over various node classification datasets, especially for heterophilous graphs, while also lifting the Dirichlet energy as the network goes deeper.
翻訳日:2023-11-13 16:36:53 公開日:2023-11-09
# グラフニューラルネットワークのための生成的説明:方法と評価

Generative Explanations for Graph Neural Network: Methods and Evaluations ( http://arxiv.org/abs/2311.05764v1 )

ライセンス: Link先を確認
Jialin Chen, Kenza Amara, Junchi Yu, Rex Ying(参考訳) グラフニューラルネットワーク(gnns)は、さまざまなグラフ関連タスクで最先端のパフォーマンスを実現する。 しかし、ブラックボックスの性質は、しばしばその解釈性と信頼性を制限する。 gnnの意思決定論理を明らかにするために、基礎となる説明的部分構造を生成することで、多くの説明可能性法が提案されている。 本稿では,グラフ生成の観点から,GNNの既存の説明手法を網羅的に検討する。 具体的には,帰属と情報制約の2つのサブ目的からなる生成的説明法の統一的最適化目標を提案する。 我々はさらに、様々な生成モデルアーキテクチャと異なる説明シナリオにおいて、それらの特定の表現を示す。 説明問題の統一的な目的により,現在の手法の共通的な特徴と特徴を明らかにし,今後の方法論発展の基礎を築いた。 実験の結果、異なる説明可能性アプローチの利点と限界を、説明性能、効率性、一般化性の観点から示している。

Graph Neural Networks (GNNs) achieve state-of-the-art performance in various graph-related tasks. However, the black-box nature often limits their interpretability and trustworthiness. Numerous explainability methods have been proposed to uncover the decision-making logic of GNNs, by generating underlying explanatory substructures. In this paper, we conduct a comprehensive review of the existing explanation methods for GNNs from the perspective of graph generation. Specifically, we propose a unified optimization objective for generative explanation methods, comprising two sub-objectives: Attribution and Information constraints. We further demonstrate their specific manifestations in various generative model architectures and different explanation scenarios. With the unified objective of the explanation problem, we reveal the shared characteristics and distinctions among current methods, laying the foundation for future methodological advancements. Empirical results demonstrate the advantages and limitations of different explainability approaches in terms of explanation performance, efficiency, and generalizability.
翻訳日:2023-11-13 16:36:28 公開日:2023-11-09
# MALCOM-PSGD:コミュニケーション効率の良い分散機械学習のための非接触近確率勾配

MALCOM-PSGD: Inexact Proximal Stochastic Gradient Descent for Communication-Efficient Decentralized Machine Learning ( http://arxiv.org/abs/2311.05760v1 )

ライセンス: Link先を確認
Andrew Campbell, Hang Liu, Leah Woldemariam, and Anna Scaglione(参考訳) 最近の研究では、分散機械学習(ML)の効率、特に大規模かつ過度にパラメータ化されたニューラルネットワーク(NN)において、頻繁なモデル通信が大きなボトルネックとなっていることが示されている。 本稿では,モデルスペーシフィケーションと勾配圧縮手法を戦略的に統合した新しい分散MLアルゴリズムであるMALCOM-PSGDを紹介する。 MALCOM-PSGDは、モデルスカラー化における$\ell_1$正規化による非滑らか性を扱うために、近位確率勾配勾配を利用する。 さらに,スパルシファイドモデルの圧縮勾配通信にベクトル源符号化とディザリングに基づく量子化を適用する。 本研究では,圧縮通信を用いた分散的近位確率的勾配降下の収束率は,減少する学習率を仮定すると$\mathcal{o}\left(\ln(t)/\sqrt{t}\right)$であり,ここで$t$は反復数を表す。 その結果, 提案手法は, 最先端手法と比較して, 通信コストを約75 %削減できることを示した。

Recent research indicates that frequent model communication stands as a major bottleneck to the efficiency of decentralized machine learning (ML), particularly for large-scale and over-parameterized neural networks (NNs). In this paper, we introduce MALCOM-PSGD, a new decentralized ML algorithm that strategically integrates gradient compression techniques with model sparsification. MALCOM-PSGD leverages proximal stochastic gradient descent to handle the non-smoothness resulting from the $\ell_1$ regularization in model sparsification. Furthermore, we adapt vector source coding and dithering-based quantization for compressed gradient communication of sparsified models. Our analysis shows that decentralized proximal stochastic gradient descent with compressed communication has a convergence rate of $\mathcal{O}\left(\ln(t)/\sqrt{t}\right)$ assuming a diminishing learning rate and where $t$ denotes the number of iterations. Numerical results verify our theoretical findings and demonstrate that our method reduces communication costs by approximately $75\%$ when compared to the state-of-the-art method.
翻訳日:2023-11-13 16:36:16 公開日:2023-11-09
# トポロジカルクラスタリングとしてのステップ・スムース分解

Step and Smooth Decompositions as Topological Clustering ( http://arxiv.org/abs/2311.05756v1 )

ライセンス: Link先を確認
Luciano Vinas and Arash A. Amini(参考訳) 本研究では,観測が連続関数とステップ関数の組み合わせである回復問題のクラスについて検討する。 これらの問題は非線形ICAの非射出例と見なすことができ、磁気共鳴イメージングのための画像除去に直接応用できる。 交互に、問題は構造化された(スムース)汚染物質の存在下でのクラスタリングと見なすことができる。 本研究では,大域的トポロジカルな性質(グラフ接続性)が局所的特性(連続成分の滑らか度)と相互作用し,成分が同定可能な条件を決定することを示す。 さらに、連続関数の再生カーネルヒルベルト空間に汚染物質が存在する場合に、実用的な推定アルゴリズムが提供される。 アルゴリズムの有効性は、一連のシミュレーションと実世界の研究によって実証される。

We investigate a class of recovery problems for which observations are a noisy combination of continuous and step functions. These problems can be seen as non-injective instances of non-linear ICA with direct applications to image decontamination for magnetic resonance imaging. Alternately, the problem can be viewed as clustering in the presence of structured (smooth) contaminant. We show that a global topological property (graph connectivity) interacts with a local property (the degree of smoothness of the continuous component) to determine conditions under which the components are identifiable. Additionally, a practical estimation algorithm is provided for the case when the contaminant lies in a reproducing kernel Hilbert space of continuous functions. Algorithm effectiveness is demonstrated through a series of simulations and real-world studies.
翻訳日:2023-11-13 16:35:56 公開日:2023-11-09
# 解釈可能な予測のための深層自然言語特徴学習

Deep Natural Language Feature Learning for Interpretable Prediction ( http://arxiv.org/abs/2311.05754v1 )

ライセンス: Link先を確認
Felipe Urrutia, Cristian Buc, Valentin Barriere(参考訳) 本稿では,目的とするタスクに関する二分問題として自然言語で定式化した,複雑なメインタスクを中間の容易なサブタスクに分解する一般的な手法を提案する。 本手法では,これらの質問に対する回答からなるベクトルで各例を表現できる。 この表現を自然言語学習特徴(NLLF)と呼ぶ。 NLLFは、Large Language Model(LLM)から自動的に得られる弱いラベルを使用して、自然言語推論(NLI)方式で訓練された小さなトランスフォーマー言語モデル(例えばBERT)によって生成される。 LLMは通常、コンテキスト内学習を用いてメインタスクに苦労するが、これらの最も簡単なサブタスクを処理し、BERTのトレーニングに有用な弱いラベルを生成することができる。 bert の nli ライクなトレーニングでは、ゼロショット推論をバイナリ問題で処理することが可能であり、トレーニング中に見られるものとは限らない。 このNLLFベクトルは,分類器の強化による性能向上に寄与するだけでなく,決定木のような容易に解釈可能な機械学習モデルの入力として使用できることを示す。 この決定木は解釈可能であるが,いくつかのケースでは事前学習された変圧器よりも高い性能を達成し,学生のオープンエンド数学試験に対する回答の不整合の検出と,気候変動と農業学に関する科学的論文の体系的な文献レビューのための要約のスクリーニングという,2つのまったく異なるタスクにこの手法を適用した。

We propose a general method to break down a main complex task into a set of intermediary easier sub-tasks, which are formulated in natural language as binary questions related to the final target task. Our method allows for representing each example by a vector consisting of the answers to these questions. We call this representation Natural Language Learned Features (NLLF). NLLF is generated by a small transformer language model (e.g., BERT) that has been trained in a Natural Language Inference (NLI) fashion, using weak labels automatically obtained from a Large Language Model (LLM). We show that the LLM normally struggles for the main task using in-context learning, but can handle these easiest subtasks and produce useful weak labels to train a BERT. The NLI-like training of the BERT allows for tackling zero-shot inference with any binary question, and not necessarily the ones seen during the training. We show that this NLLF vector not only helps to reach better performances by enhancing any classifier, but that it can be used as input of an easy-to-interpret machine learning model like a decision tree. This decision tree is interpretable but also reaches high performances, surpassing those of a pre-trained transformer in some cases.We have successfully applied this method to two completely different tasks: detecting incoherence in students' answers to open-ended mathematics exam questions, and screening abstracts for a systematic literature review of scientific papers on climate change and agroecology.
翻訳日:2023-11-13 16:35:43 公開日:2023-11-09
# 神経量子状態とモット遷移と体積則の絡み合い

Mott Transition and Volume Law Entanglement with Neural Quantum States ( http://arxiv.org/abs/2311.05749v1 )

ライセンス: Link先を確認
Chlo\'e Gauvin-Ndiaye, Joseph Tindall, Javier Robledo Moreno and Antoine Georges(参考訳) 非局在化と反発相互作用の間の相互作用により、電子系は金属と絶縁体の間のモット転移を起こす。 ここでは、ニューラルネットワーク隠れフェルミオン決定状態(hfds)を用いて、混乱した完全連結ハバードモデルにおけるこの遷移を明らかにする。 力学平均場理論(DMFT)は熱力学限界におけるモデルの物理観測可能量に対する正確な解を提供するが、本手法は正確な対角化の範囲を超えて、有限系サイズの波動関数に直接アクセスすることができる。 マトリックス製品状態(MPS)アンサッツを用いて得られた最先端の計算結果と直接ベンチマークを行う。 我々は, HFDS が,MPS アンザッツを禁止したシステムによるエンタングルメントの体積法則を用いて, 金属系および遷移近傍において, より正確な結果を得ることができることを示す。 本研究では,HFDS法を用いて,波動関数の振幅,エネルギーと占有度,準粒子の重量とエネルギーギャップを計算し,このモデルと遷移の性質について新たな知見を与える。 我々の研究は、強相関電子系と神経量子状態の研究の道を開いた。

The interplay between delocalisation and repulsive interactions can cause electronic systems to undergo a Mott transition between a metal and an insulator. Here we use neural network hidden fermion determinantal states (HFDS) to uncover this transition in the disordered, fully-connected Hubbard model. Whilst dynamical mean-field theory (DMFT) provides exact solutions to physical observables of the model in the thermodynamic limit, our method allows us to directly access the wavefunction for finite system sizes well beyond the reach of exact diagonalisation. We directly benchmark our results against state-of-the-art calculations obtained using a Matrix Product State (MPS) ansatz. We demonstrate how HFDS is able to obtain more accurate results in the metallic regime and in the vicinity of the transition, with the volume law of entanglement exhibited by the system being prohibitive to the MPS ansatz. We use the HFDS method to calculate the amplitudes of the wavefunction, the energy and double occupancy, the quasi-particle weight and the energy gap, hence providing novel insights into this model and the nature of the transition. Our work paves the way for the study of strongly correlated electron systems with neural quantum states.
翻訳日:2023-11-13 16:35:14 公開日:2023-11-09
# デジタルツインプロトタイプによるスマート農業アプリケーションの自動統合テストの実現

Enabling Automated Integration Testing of Smart Farming Applications via Digital Twin Prototypes ( http://arxiv.org/abs/2311.05748v1 )

ライセンス: Link先を確認
Alexander Barbie, Wilhelm Hasselbring, Malte Hansen(参考訳) 産業4.0は、製造業を変革し、より効率的で生産的で持続可能なものにする可能性を持つ大きな技術変革である。 スマート農業は、農業慣行の効率性と持続可能性を改善するための先進技術の使用を含む概念である。 産業4.0とスマート農業は密接に関連しており、産業4.0でもスマート農業に使われている技術の多くが使用されている。 デジタル双子は、そのようなアプリケーションのコスト効率の良いソフトウェア開発の可能性を秘めている。 当社のデジタルツインプロトタイプアプローチでは、すべてのセンサーインターフェースが開発プロセスに統合され、エミュレートされたハードウェアの入力と出力は実際のハードウェアと一致します。 エミュレータは同じ命令に応答し、実際の命令と同一のフォーマットのデータパッケージを返却し、デジタルツインプロトタイプをデジタルシャドーの有効な情報源、すなわちデジタルツインプロトタイプは物理ツインのプロトタイプであり、デジタルツインソフトウェアの自動テストに置き換えることができる。 本稿では,デジタル・ツイン・プロトタイプ・アプローチを用いて,スマート農業アプリケーションによるサイレージ生産を改善するためのソフトウェアの自動テストを行うケーススタディを提案する。 継続的インテグレーションによる自動テストに加えて、このコンテキストでモジュール化されたdockerコンテナの継続的デプロイについても論じます。

Industry 4.0 represents a major technological shift that has the potential to transform the manufacturing industry, making it more efficient, productive, and sustainable. Smart farming is a concept that involves the use of advanced technologies to improve the efficiency and sustainability of agricultural practices. Industry 4.0 and smart farming are closely related, as many of the technologies used in smart farming are also used in Industry 4.0. Digital twins have the potential for cost-effective software development of such applications. With our Digital Twin Prototype approach, all sensor interfaces are integrated into the development process, and their inputs and outputs of the emulated hardware match those of the real hardware. The emulators respond to the same commands and return identically formatted data packages as their real counterparts, making the Digital Twin Prototype a valid source of a digital shadow, i.e. the Digital Twin Prototype is a prototype of the physical twin and can replace it for automated testing of the digital twin software. In this paper, we present a case study for employing our Digital Twin Prototype approach to automated testing of software for improving the making of silage with a smart farming application. Besides automated testing with continuous integration, we also discuss continuous deployment of modular Docker containers in this context.
翻訳日:2023-11-13 16:34:52 公開日:2023-11-09
# デジタルディバイドの橋渡し:ビジョン言語モデルにおける社会経済要因間のパフォーマンス変動

Bridging the Digital Divide: Performance Variation across Socio-Economic Factors in Vision-Language Models ( http://arxiv.org/abs/2311.05746v1 )

ライセンス: Link先を確認
Joan Nwatu, Oana Ignat, Rada Mihalcea(参考訳) さまざまなタスクで報告された現在のaiモデルの印象的なパフォーマンスにもかかわらず、パフォーマンスレポートには、これらの技術によって影響を受ける特定のグループでこれらのモデルがどのように振る舞うかの評価が含まれないことが多い。 aiに過小評価されている少数グループの中で、低所得世帯のデータはデータ収集やモデル評価では見過ごされがちである。 異なる収入値(ダラー街路)に関連付けられた世帯画像を含む地理多様性データセット上での最先端視覚言語モデル(clip)の性能評価を行い、異なる所得水準の世帯間にパフォーマンス不平等が存在することを示す。 その結果,貧しいグループのパフォーマンスは,様々な話題や国にまたがる富裕層よりも一貫して低いことがわかった。 これらの問題を緩和する上で有効な洞察を強調し、経済レベルの包括的AI開発のための実行可能なステップを提案します。 コードはhttps://github.com/michigannlp/bridging_the_digital_divideで入手できる。

Despite the impressive performance of current AI models reported across various tasks, performance reports often do not include evaluations of how these models perform on the specific groups that will be impacted by these technologies. Among the minority groups under-represented in AI, data from low-income households are often overlooked in data collection and model evaluation. We evaluate the performance of a state-of-the-art vision-language model (CLIP) on a geo-diverse dataset containing household images associated with different income values (Dollar Street) and show that performance inequality exists among households of different income levels. Our results indicate that performance for the poorer groups is consistently lower than the wealthier groups across various topics and countries. We highlight insights that can help mitigate these issues and propose actionable steps for economic-level inclusive AI development. Code is available at https://github.com/MichiganNLP/Bridging_the_Digital_Divide.
翻訳日:2023-11-13 16:34:32 公開日:2023-11-09
# 最適シミュレーションに基づくベイズ決定

Optimal simulation-based Bayesian decisions ( http://arxiv.org/abs/2311.05742v1 )

ライセンス: Link先を確認
Justin Alsing, Thomas D. P. Edwards, Benjamin Wandelt(参考訳) 本稿では,期待されるユーティリティ(あるいはその分布)の代理モデルをアクションとデータ空間の関数として学習することにより,難易度下での最適ベイズ決定の効率的な計算手法を提案する。 シミュレーションに基づく推論とベイズ最適化の最近の進歩を利用して、パラメータと動作空間のどこにシミュレーションするかを選択できるアクティブラーニングスキームを開発した。 これにより、できるだけ少ないシミュレーションで最適なアクションを学習できます。 結果として得られたフレームワークは、非常にシミュレーション効率が良く、一般的に、関連する後続推論タスク単独よりもモデル呼び出しが少なく、モンテカルロベースのメソッドよりも100~1000ドル効率がよい。 我々のフレームワークは、ベイズ的な意思決定を行うための新しい能力、特に、可能性の難しさとシミュレーションが高価であるこれまで難しかった状況に開きます。

We present a framework for the efficient computation of optimal Bayesian decisions under intractable likelihoods, by learning a surrogate model for the expected utility (or its distribution) as a function of the action and data spaces. We leverage recent advances in simulation-based inference and Bayesian optimization to develop active learning schemes to choose where in parameter and action spaces to simulate. This allows us to learn the optimal action in as few simulations as possible. The resulting framework is extremely simulation efficient, typically requiring fewer model calls than the associated posterior inference task alone, and a factor of $100-1000$ more efficient than Monte-Carlo based methods. Our framework opens up new capabilities for performing Bayesian decision making, particularly in the previously challenging regime where likelihoods are intractable, and simulations expensive.
翻訳日:2023-11-13 16:34:15 公開日:2023-11-09
# 事前訓練された言語モデルを新しい言語に効果的に適応する

Efficiently Adapting Pretrained Language Models To New Languages ( http://arxiv.org/abs/2311.05741v1 )

ライセンス: Link先を確認
Zoltan Csaki, Pian Pawakapan, Urmish Thakker, Qiantong Xu(参考訳) 最近の大規模言語モデル(LLM)は、これらのモデルのトレーニングデータが通常、英語や他の高リソース言語に支配されているため、低リソース言語に準最適性能を示す。 さらに、高品質なトレーニングデータがないため、低リソース言語、特にスクラッチからモデルをトレーニングすることは困難である。 事前訓練されたLLMへの適応は、新しい言語のデータの必要性を減らし、言語間転送機能も提供する。 しかし、新しい言語に鼻で適応すると破滅的な忘れ込みとトークン化の効率が低下する。 本研究では,既存のLLMをこれらの問題に対処することなく,新しい言語に効率的に適応する方法を検討する。 特に、ターゲット言語から新しいトークンを追加してトークン化の符号化効率を向上し、データ混合のレシピを調べ、忘れを軽減します。 英語のLLMをハンガリー語とタイ語に適応させる実験により、我々のレシピはターゲット言語上のオープンソースモデルよりもパフォーマンスが向上し、英語での回帰は最小限に抑えられることを示した。

Recent large language models (LLM) exhibit sub-optimal performance on low-resource languages, as the training data of these models is usually dominated by English and other high-resource languages. Furthermore, it is challenging to train models for low-resource languages, especially from scratch, due to a lack of high quality training data. Adapting pretrained LLMs reduces the need for data in the new language while also providing cross lingual transfer capabilities. However, naively adapting to new languages leads to catastrophic forgetting and poor tokenizer efficiency. In this work, we study how to efficiently adapt any existing pretrained LLM to a new language without running into these issues. In particular, we improve the encoding efficiency of the tokenizer by adding new tokens from the target language and study the data mixing recipe to mitigate forgetting. Our experiments on adapting an English LLM to Hungarian and Thai show that our recipe can reach better performance than open source models on the target language, with minimal regressions on English.
翻訳日:2023-11-13 16:34:00 公開日:2023-11-09
# 訓練用ニューラルプログラムシンセサイザーの実用例生成

Generating Pragmatic Examples to Train Neural Program Synthesizers ( http://arxiv.org/abs/2311.05740v1 )

ライセンス: Link先を確認
Saujas Vaduguru, Daniel Fried, Yewen Pu(参考訳) プログラミング・バイ・サンプル(英: programming-by-example)は、ユーザが提供する入力出力の例のセットと一致するプログラムを合成するタスクである。 例はしばしば意図の下位特定であるので、良いシンセサイザーは与えられた例のセットと一致する多くのプログラムから意図されたプログラムを選択する必要がある。 先行作業フレームは、リスナー(プログラムを合成する)と話者(ユーザ選択例)の協調ゲームとしてプログラムを合成し、計算実用的推論のモデルがユーザ意図のプログラムを選択するのに有効であることを示す。 しかし、これらのモデルは、現実的なプログラム空間では実現不可能な、多数のプログラムや例に対する反実的推論を必要とする。 本稿では,ニューラルネットワークを用いてこの検索を償却する新しい手法を提案する。 我々は,聴取者と話者モデル間のセルフプレイによるプログラムとサンプルのペアをサンプリングし,本サンプルから情報的トレーニング例を選択するために実用的推論を用いて,情報的データセットを用いてモデルを訓練し,人間の監督なしにユーザが提供するサンプルの曖昧さを解消する能力を向上させる。 実例から正規表現を合成する難しい課題について,本手法の有効性を検証するとともに,(1)実例を選択せずに訓練されたモデルを23%(相対的増加率51%)で上回り,(2)人間による実例のデータセット上で教師あり学習の性能に適合することを示した。

Programming-by-example is the task of synthesizing a program that is consistent with a set of user-provided input-output examples. As examples are often an under-specification of one's intent, a good synthesizer must choose the intended program from the many that are consistent with the given set of examples. Prior work frames program synthesis as a cooperative game between a listener (that synthesizes programs) and a speaker (a user choosing examples), and shows that models of computational pragmatic inference are effective in choosing the user intended programs. However, these models require counterfactual reasoning over a large set of programs and examples, which is infeasible in realistic program spaces. In this paper, we propose a novel way to amortize this search with neural networks. We sample pairs of programs and examples via self-play between listener and speaker models, and use pragmatic inference to choose informative training examples from this sample.We then use the informative dataset to train models to improve the synthesizer's ability to disambiguate user-provided examples without human supervision. We validate our method on the challenging task of synthesizing regular expressions from example strings, and find that our method (1) outperforms models trained without choosing pragmatic examples by 23% (a 51% relative increase) (2) matches the performance of supervised learning on a dataset of pragmatic examples provided by humans, despite using no human data in training.
翻訳日:2023-11-13 16:33:41 公開日:2023-11-09
# エッジにおけるネットワーク効率のためのディープラーニングアーキテクチャ

Deep Learning Architecture for Network-Efficiency at the Edge ( http://arxiv.org/abs/2311.05739v1 )

ライセンス: Link先を確認
Akrit Mudvari, Antero Vainio, Iason Ofeidis, Sasu Tarkoma, Leandros Tassiulas(参考訳) モバイルデバイスでのai駆動アプリケーションの増加は、ディープラーニングモデルを利用可能なエッジクラウドリソースと統合するソリューションにつながった。デバイス上のエネルギー消費量の削減、レイテンシの改善、ネットワーク使用の改善、プライバシの改善など、複数のメリットがあるため、ディープラーニングモデルをモバイルデバイスから分割して分散計算する、スプリットラーニングが広く検討されている。 学習が通信データの圧縮に適応する圧縮認識手法と組み合わせることで、このアプローチの利点はさらに改善され、フェデレーション学習法のような確立されたアプローチの代替となる可能性がある。 本研究では,ネットワーク効率(ネットワークリソースの削減と高速化)が向上し,エッジクラウドリソースの活用により,より弱いデバイスへのデプロイが理想的になるように,ディープラーニングモデルの改善とトレーニングを行うための適応型圧縮認識分割学習手法(deprune)を開発した。 この手法は('prune')、トランスファー学習アプローチを通じて、よりネットワーク効率のよい推論能力とはほとんど精度を切り替えることなく、非常に迅速にディープラーニングモデルをトレーニングするためにも拡張されます。 提案手法は, 精度を損なうことなく, 分割学習手法と比較してネットワーク使用率を4倍に削減できると同時に, 圧縮認識分割学習よりも精度を4%向上できることを示す。 最後に,'prune'法は,圧縮認識による分割学習手法と比較して,精度に影響を与えずに,特定のモデルのトレーニング時間を最大6倍削減できることを示す。

The growing number of AI-driven applications in the mobile devices has led to solutions that integrate deep learning models with the available edge-cloud resources; due to multiple benefits such as reduction in on-device energy consumption, improved latency, improved network usage, and certain privacy improvements, split learning, where deep learning models are split away from the mobile device and computed in a distributed manner, has become an extensively explored topic. Combined with compression-aware methods where learning adapts to compression of communicated data, the benefits of this approach have further improved and could serve as an alternative to established approaches like federated learning methods. In this work, we develop an adaptive compression-aware split learning method ('deprune') to improve and train deep learning models so that they are much more network-efficient (use less network resources and are faster), which would make them ideal to deploy in weaker devices with the help of edge-cloud resources. This method is also extended ('prune') to very quickly train deep learning models, through a transfer learning approach, that trades off little accuracy for much more network-efficient inference abilities. We show that the 'deprune' method can reduce network usage by 4x when compared with a split-learning approach (that does not use our method) without loss of accuracy, while also improving accuracy over compression-aware split-learning by 4 percent. Lastly, we show that the 'prune' method can reduce the training time for certain models by up to 6x without affecting the accuracy when compared against a compression-aware split-learning approach.
翻訳日:2023-11-13 16:33:08 公開日:2023-11-09
# 多腕バンディットにおける時効因果推論の実験的設計

An Experimental Design for Anytime-Valid Causal Inference on Multi-Armed Bandits ( http://arxiv.org/abs/2311.05794v1 )

ライセンス: Link先を確認
Biyonka Liang, Iavor Bojinov(参考訳) 通常、マルチアーム・バンディット(MAB)実験は研究の最後に分析され、分析者は事前に一定のサンプルサイズを特定する必要がある。 しかし、多くのオンライン学習アプリケーションでは、新しいデータが到着すると腕間の平均治療効果(ATE)を連続的に予測し、実験のデータ駆動停止時間を決定することが有利である。 適応実験のための継続推論に関する既存の研究は、処理代入確率がゼロと1から外れていると仮定し、したがってほとんどすべての標準バンディットアルゴリズムを除外する。 本研究では,Mixture Adaptive Design (MAD) を開発した。このMixture Adaptive Design (MAD) は,ほとんどの帯域幅アルゴリズムの統計的妥当性とパワーを保証し,ATE上で連続的な推論を可能にするマルチアームバンディットの実験的設計である。 高いレベルでは、MADはBernolli設計でユーザの選択したバンドレートアルゴリズムをチューニングパラメータ$\delta_t$で「ミックス」し、サンプルサイズが大きくなるにつれてBernolli設計上の優先度を制御する決定論的シーケンスを$\delta_t$とする。 我々は、$\delta_t = o\left(1/t^{1/4}\right)$ に対して、MAD は漸近的に有効であり、真の ATE の周囲を縮めることが保証される信頼シーケンスを生成することを示す。 我々は,MADが有限サンプル報酬に有意な損失を伴わないMAB実験において,ATE推論のカバレッジとパワーを向上させることを実証的に示す。

Typically, multi-armed bandit (MAB) experiments are analyzed at the end of the study and thus require the analyst to specify a fixed sample size in advance. However, in many online learning applications, it is advantageous to continuously produce inference on the average treatment effect (ATE) between arms as new data arrive and determine a data-driven stopping time for the experiment. Existing work on continuous inference for adaptive experiments assumes that the treatment assignment probabilities are bounded away from zero and one, thus excluding nearly all standard bandit algorithms. In this work, we develop the Mixture Adaptive Design (MAD), a new experimental design for multi-armed bandits that enables continuous inference on the ATE with guarantees on statistical validity and power for nearly any bandit algorithm. On a high level, the MAD "mixes" a bandit algorithm of the user's choice with a Bernoulli design through a tuning parameter $\delta_t$, where $\delta_t$ is a deterministic sequence that controls the priority placed on the Bernoulli design as the sample size grows. We show that for $\delta_t = o\left(1/t^{1/4}\right)$, the MAD produces a confidence sequence that is asymptotically valid and guaranteed to shrink around the true ATE. We empirically show that the MAD improves the coverage and power of ATE inference in MAB experiments without significant losses in finite-sample reward.
翻訳日:2023-11-13 16:23:38 公開日:2023-11-09
# テーブルの席は十分ですか。 教育における教師と学生の機械学習のデータセット仕様化

Is a Seat at the Table Enough? Engaging Teachers and Students in Dataset Specification for ML in Education ( http://arxiv.org/abs/2311.05792v1 )

ライセンス: Link先を確認
Mei Tan, Hansol Lee, Dakuo Wang, Hariharan Subramonyam(参考訳) 教育におけるMLの約束にもかかわらず、教室でのMLの採用は、公正性、説明責任、透明性、データプライバシと学生の同意に関する懸念など、多くの問題に直面している。 これらの問題の根本原因は、教師と学生の交流、協調学習、教室環境など、教育の複雑なダイナミクスの理解の欠如である。 これらの課題を克服し、教育におけるMLの可能性を完全に活用するために、ソフトウェア実践者は、データ(MLアプリケーションのバックボーン)のコンテキストを完全に理解し、MLデータ仕様を協調的に定義するために、教育者や学生と密接に協力する必要がある。 このような協調的なプロセスをより深く理解するために,MLソフトウェア実践者,教育者,学生らと共同設計セッションを10回実施する。 セッションでは、教師と学生がMLエンジニア、UXデザイナ、法的実践者とともに、特定のMLアプリケーションのデータセット特性を定義する。 利害関係者は、自身のドメインと手続き知識に基づいてデータをコンテキスト化し、下流の危害やデータの信頼性の懸念を軽減するために積極的にデータ要件を設計し、ロールベースの協調戦略と貢献パターンを示す。 さらに、テーブルに座るだけでなく、MLへの有意義なステークホルダーの参加には、継続的イテレーションと共同評価のためのプロセスの定義、コンテキストデータ品質標準の共有、専門知識の境界を越える技術的利害関係者と非技術的利害関係者の両方のための情報足場といった、構造化されたサポートが必要です。

Despite the promises of ML in education, its adoption in the classroom has surfaced numerous issues regarding fairness, accountability, and transparency, as well as concerns about data privacy and student consent. A root cause of these issues is the lack of understanding of the complex dynamics of education, including teacher-student interactions, collaborative learning, and classroom environment. To overcome these challenges and fully utilize the potential of ML in education, software practitioners need to work closely with educators and students to fully understand the context of the data (the backbone of ML applications) and collaboratively define the ML data specifications. To gain a deeper understanding of such a collaborative process, we conduct ten co-design sessions with ML software practitioners, educators, and students. In the sessions, teachers and students work with ML engineers, UX designers, and legal practitioners to define dataset characteristics for a given ML application. We find that stakeholders contextualize data based on their domain and procedural knowledge, proactively design data requirements to mitigate downstream harms and data reliability concerns, and exhibit role-based collaborative strategies and contribution patterns. Further, we find that beyond a seat at the table, meaningful stakeholder participation in ML requires structured supports: defined processes for continuous iteration and co-evaluation, shared contextual data quality standards, and information scaffolds for both technical and non-technical stakeholders to traverse expertise boundaries.
翻訳日:2023-11-13 16:23:10 公開日:2023-11-09
# Graph2Vecを用いたYouTube上の疑わしいコメントモブ行動の検出

Detecting Suspicious Commenter Mob Behaviors on YouTube Using Graph2Vec ( http://arxiv.org/abs/2311.05791v1 )

ライセンス: Link先を確認
Shadi Shajari, Mustafa Alassad, Nitin Agarwal(参考訳) 広く普及しているオンラインプラットフォームであるYouTubeは、世界中のユーザーのコンテンツ消費と対話のダイナミクスを変革した。 幅広いコンテンツクリエイティビティと視聴者を抱え、youtubeはビデオ共有、エンタテイメント、情報拡散のハブとして機能している。 しかし、ユーザーの指数関数的な成長とプラットフォームへのアクティブな関与は、特にcom-mentセクションにおいて、疑わしいコメント者の行動に関する懸念を引き起こした。 本稿では,YouTubeチャンネル間の不審なコメントモブ様の挙動とその類似性を検出するためのソーシャルネットワーク分析手法を提案する。 本手法は,このような行動のレベルに基づいてチャネルを特徴付けることを目的としている。 提案手法の有効性を評価するために,7,782ビデオ,294,199コメント,596,982コメントからなる20チャンネルの分析を行った。 これらのチャンネルは特にアメリカ軍に関する誤った見解を広めるために選ばれた。 分析の結果,チャネル間に有意な類似性が認められ,疑わしいコメント者の行動がみられた。 これらの類似性を理解することで、YouTubeチャンネルにおける疑わしい行動のダイナミクスをより深く理解し、そのような行動に対処し緩和するための戦略を知ることができる。

YouTube, a widely popular online platform, has transformed the dynamics of con-tent consumption and interaction for users worldwide. With its extensive range of content crea-tors and viewers, YouTube serves as a hub for video sharing, entertainment, and information dissemination. However, the exponential growth of users and their active engagement on the platform has raised concerns regarding suspicious commenter behaviors, particularly in the com-ment section. This paper presents a social network analysis-based methodology for detecting suspicious commenter mob-like behaviors among YouTube channels and the similarities therein. The method aims to characterize channels based on the level of such behavior and identify com-mon patterns across them. To evaluate the effectiveness of the proposed model, we conducted an analysis of 20 YouTube channels, consisting of 7,782 videos, 294,199 commenters, and 596,982 comments. These channels were specifically selected for propagating false views about the U.S. Military. The analysis revealed significant similarities among the channels, shedding light on the prevalence of suspicious commenter behavior. By understanding these similarities, we contribute to a better understanding of the dynamics of suspicious behavior on YouTube channels, which can inform strategies for addressing and mitigating such behavior.
翻訳日:2023-11-13 16:22:41 公開日:2023-11-09
# コスト正規化最適輸送による空間間の構造変換

Structured Transforms Across Spaces with Cost-Regularized Optimal Transport ( http://arxiv.org/abs/2311.05788v1 )

ライセンス: Link先を確認
Othmane Sebbouh and Marco Cuturi and Gabriel Peyr\'e(参考訳) 目標確率測度へのソースマッチングは、点間の差分を定量化する地価関数によってパラメータ化される線形最適輸送(OT)問題をインスタンス化することでしばしば解決される。 これらの測度が同じ距離空間にある場合、地価はその距離にデフォルトとなることが多い。 しかし、2つの異なる空間にまたがってインスタンス化されると、整列データがない場合のコストを選択することは難題である。 その結果、実践者は代わりに二次グロモウ=ワッサーシュタイン(Gromow-Wasserstein, GW)問題を解く。 本研究は,gwとコスト正規化otを並列に活用し,地上コストでパラメータ化された線形ot目標の正規化最小化を行う。 我々は、このコスト規則化された定式化を用いて、2つの異なるユークリッド空間における測度を一致させ、変換元点と目標点の間のコストを評価する。 二次ot問題のいくつかはこのカテゴリに陥り、構造誘導正規化子を導入することで線形変換(例えばスパーシティ)における構造を強制することを考える。 非整合データからそのような変換を抽出できる近位法アルゴリズムを提案し,単細胞空間転写学/マルチオミクスマッチングタスクへの適用性を示す。

Matching a source to a target probability measure is often solved by instantiating a linear optimal transport (OT) problem, parameterized by a ground cost function that quantifies discrepancy between points. When these measures live in the same metric space, the ground cost often defaults to its distance. When instantiated across two different spaces, however, choosing that cost in the absence of aligned data is a conundrum. As a result, practitioners often resort to solving instead a quadratic Gromow-Wasserstein (GW) problem. We exploit in this work a parallel between GW and cost-regularized OT, the regularized minimization of a linear OT objective parameterized by a ground cost. We use this cost-regularized formulation to match measures across two different Euclidean spaces, where the cost is evaluated between transformed source points and target points. We show that several quadratic OT problems fall in this category, and consider enforcing structure in linear transform (e.g. sparsity), by introducing structure-inducing regularizers. We provide a proximal algorithm to extract such transforms from unaligned data, and demonstrate its applicability to single-cell spatial transcriptomics/multiomics matching tasks.
翻訳日:2023-11-13 16:22:20 公開日:2023-11-09
# 微分品質の影響評価による安定実世界の方程式発見に向けて

Towards stable real-world equation discovery with assessing differentiating quality influence ( http://arxiv.org/abs/2311.05787v1 )

ライセンス: Link先を確認
Mikhail Masliaev, Ilya Markov, Alexander Hvatov(参考訳) 本稿では,データ駆動微分方程式発見における微分アプローチの重要性について考察する。 入力データの正確なデリバティブは、特に測定品質が必然的に損なわれる現実のシナリオにおいて、信頼性の高いアルゴリズム操作に不可欠である。 本稿では,データ内のランダムな誤差を悪化させる雑音の存在下での不安定性で悪名高い有限差分法に代わる手法を提案する。 解析では,サビツキーゴレーフィルタリング,スペクトル微分,ニューラルネットワークに基づく平滑化,微分変動の正規化の4つの方法を検討した。 これらの手法を実問題に適用可能性、および方程式発見アルゴリズムの収束性を保証する能力の観点から評価し、実世界のプロセスのロバストなモデリングに有用な知見を提供する。

This paper explores the critical role of differentiation approaches for data-driven differential equation discovery. Accurate derivatives of the input data are essential for reliable algorithmic operation, particularly in real-world scenarios where measurement quality is inevitably compromised. We propose alternatives to the commonly used finite differences-based method, notorious for its instability in the presence of noise, which can exacerbate random errors in the data. Our analysis covers four distinct methods: Savitzky-Golay filtering, spectral differentiation, smoothing based on artificial neural networks, and the regularization of derivative variation. We evaluate these methods in terms of applicability to problems, similar to the real ones, and their ability to ensure the convergence of equation discovery algorithms, providing valuable insights for robust modeling of real-world processes.
翻訳日:2023-11-13 16:21:59 公開日:2023-11-09
# 階層的"視覚表現は階層的か?

Are "Hierarchical" Visual Representations Hierarchical? ( http://arxiv.org/abs/2311.05784v1 )

ライセンス: Link先を確認
Ethan Shen, Ali Farhadi, Aditya Kusupati(参考訳) 学習された視覚表現はしばしば、正確な下流アプリケーションのための大量の意味情報をキャプチャする。 世界に対する人間の理解は階層構造に根ざしている。 これを模倣し、さらに表現能力を改善するために、コミュニティは視覚世界の基盤となる階層をモデル化することを目的とした「階層的な」視覚表現を探求した。 本研究では,階層的視覚表現が標準的な学習表現よりも人間の知覚階層を本当に捉えているかを検討する。 この目的のために、ImageNetのBREEDsサブセットから3種類の階層にまたがる12のデータセットからなるHierNetを作成します。 トレーニング環境におけるハイパーボリック表現とマトリシカ表現の広範な評価の後, 階層構造が標準表現より優れているのではなく, 探索効率や解釈可能性などの他の側面を支援することができると結論付けた。 ベンチマークとデータセットはhttps://github.com/ethanlshen/HierNet.comで公開されている。

Learned visual representations often capture large amounts of semantic information for accurate downstream applications. Human understanding of the world is fundamentally grounded in hierarchy. To mimic this and further improve representation capabilities, the community has explored "hierarchical" visual representations that aim at modeling the underlying hierarchy of the visual world. In this work, we set out to investigate if hierarchical visual representations truly capture the human perceived hierarchy better than standard learned representations. To this end, we create HierNet, a suite of 12 datasets spanning 3 kinds of hierarchy from the BREEDs subset of ImageNet. After extensive evaluation of Hyperbolic and Matryoshka Representations across training setups, we conclude that they do not capture hierarchy any better than the standard representations but can assist in other aspects like search efficiency and interpretability. Our benchmark and the datasets are open-sourced at https://github.com/ethanlshen/HierNet.
翻訳日:2023-11-13 16:21:46 公開日:2023-11-09
# グラフ強化学習による自律移動型電動システムのリアルタイム制御

Real-time Control of Electric Autonomous Mobility-on-Demand Systems via Graph Reinforcement Learning ( http://arxiv.org/abs/2311.05780v1 )

ライセンス: Link先を確認
Aaryan Singhal, Daniele Gammelli, Justin Luke, Karthik Gopalakrishnan, Dominik Helmreich, Marco Pavone(参考訳) 電動自動運転モビリティ・オン・デマンド(e-amod)車両のオペレーターは、車両の乗車要求のマッチング、アイドル車両の高需要領域へのリバランス、十分な航続距離を確保するための充電など、いくつかのリアルタイム決定を行う必要がある。 この問題は、空間電荷時間グラフ上のフローを最適化する線形プログラムとして表すことができるが、結果の最適化問題のサイズは現実的な設定でのリアルタイム実装を許さない。 本研究では,強化学習のレンズによるE-AMoD制御問題を提案するとともに,拡張性を大幅に向上し,ヒューリスティックスよりも優れた性能を実現するためのグラフネットワークベースのフレームワークを提案する。 具体的には,(1)グラフネットワークベースのrlエージェントを利用して空間チャージグラフの所望の次状態を特定し,(2)より扱いやすい線形プログラムを解き,実現可能性を確保しつつ所望の状態を達成する2段階の定式化を行う。 サンフランシスコとニューヨークにおける実世界のデータを用いた実験により、我々の手法は理論上最適解の利益の最大89%を達成し、計算時間の100倍以上のスピードアップを達成した。 さらに、我々のアプローチは、同等のランタイムで最高のドメイン固有のヒューリスティックを上回り、利益を最大3倍に増やします。 最後に,都市間汎化やサービス領域拡大といったタスクにおける学習方針のゼロショット転送機能を強調し,フレームワークの実用性,スケーラビリティ,柔軟性を示す。

Operators of Electric Autonomous Mobility-on-Demand (E-AMoD) fleets need to make several real-time decisions such as matching available cars to ride requests, rebalancing idle cars to areas of high demand, and charging vehicles to ensure sufficient range. While this problem can be posed as a linear program that optimizes flows over a space-charge-time graph, the size of the resulting optimization problem does not allow for real-time implementation in realistic settings. In this work, we present the E-AMoD control problem through the lens of reinforcement learning and propose a graph network-based framework to achieve drastically improved scalability and superior performance over heuristics. Specifically, we adopt a bi-level formulation where we (1) leverage a graph network-based RL agent to specify a desired next state in the space-charge graph, and (2) solve more tractable linear programs to best achieve the desired state while ensuring feasibility. Experiments using real-world data from San Francisco and New York City show that our approach achieves up to 89% of the profits of the theoretically-optimal solution while achieving more than a 100x speedup in computational time. Furthermore, our approach outperforms the best domain-specific heuristics with comparable runtimes, with an increase in profits by up to 3x. Finally, we highlight promising zero-shot transfer capabilities of our learned policy on tasks such as inter-city generalization and service area expansion, thus showing the utility, scalability, and flexibility of our framework.
翻訳日:2023-11-13 16:21:30 公開日:2023-11-09
# 言語誘導型ロボットの把持--clutterにおけるクリップ型参照把持合成

Language-guided Robot Grasping: CLIP-based Referring Grasp Synthesis in Clutter ( http://arxiv.org/abs/2311.05779v1 )

ライセンス: Link先を確認
Georgios Tziafas, Yucheng Xu, Arushi Goel, Mohammadreza Kasaei, Zhibin Li, Hamidreza Kasaei(参考訳) 人間中心の環境で動くロボットは、視覚的な接地と把握機能の統合を必要とし、ユーザの指示に基づいてオブジェクトを効果的に操作する。 本研究は,自然言語で参照される物体の把持姿勢を予測する「把持合成」の課題に焦点を当てたものである。 既存のアプローチでは、参照したオブジェクトを最初に分割し、適切な把握を提案し、自然の屋内シーンの複雑さを捉えないプライベートデータセットやシミュレータで評価するマルチステージパイプラインが採用されている。 これらの制約に対処するために、ocidデータセットから散らばった屋内シーンに基づく挑戦的なベンチマークを開発し、参照表現を生成し、それらを4自由度把握ポーズで接続する。 さらに,クリップの視覚的接地機能を利用して,画像テキストペアから直接把握合成を学習する新しいエンド・ツー・エンドモデル(crog)を提案する。 以上の結果から,CLIPと事前訓練したモデルとのバニラ統合は,我々の挑戦的なベンチマークでは不十分であることがわかった。 シミュレーションとハードウェアの両方における広範囲なロボット実験は,clutterを含むインタラクティブな物体把握シナリオに対する,我々のアプローチの有効性を実証する。

Robots operating in human-centric environments require the integration of visual grounding and grasping capabilities to effectively manipulate objects based on user instructions. This work focuses on the task of referring grasp synthesis, which predicts a grasp pose for an object referred through natural language in cluttered scenes. Existing approaches often employ multi-stage pipelines that first segment the referred object and then propose a suitable grasp, and are evaluated in private datasets or simulators that do not capture the complexity of natural indoor scenes. To address these limitations, we develop a challenging benchmark based on cluttered indoor scenes from OCID dataset, for which we generate referring expressions and connect them with 4-DoF grasp poses. Further, we propose a novel end-to-end model (CROG) that leverages the visual grounding capabilities of CLIP to learn grasp synthesis directly from image-text pairs. Our results show that vanilla integration of CLIP with pretrained models transfers poorly in our challenging benchmark, while CROG achieves significant improvements both in terms of grounding and grasping. Extensive robot experiments in both simulation and hardware demonstrate the effectiveness of our approach in challenging interactive object grasping scenarios that include clutter.
翻訳日:2023-11-13 16:20:59 公開日:2023-11-09
# ドナウホール:知識の調和と学習効率の最適化によるドナウスパシフィケーション

DONUT-hole: DONUT Sparsification by Harnessing Knowledge and Optimizing Learning Efficiency ( http://arxiv.org/abs/2311.05778v1 )

ライセンス: Link先を確認
Azhar Shaikh and Michael Cochez and Denis Diachkov and Michiel de Rijcke and Sahar Yousefi(参考訳) 本稿では,従来のモデルであるDONUTの限界に対処する,疎いOCRフリービジュアル文書理解(VDU)モデルであるDONUT-holeを紹介する。 DONUTモデルはトランスフォーマーアーキテクチャを活用し、光学文字認識(OCR)と視覚意味理解(VSU)コンポーネントの分離という課題を克服する。 しかしながら、プロダクション環境やエッジデバイスへのデプロイメントは、特に大規模要求サービスにおいて、高いメモリと計算要求によって妨げられている。 これらの課題を克服するため,我々は知識蒸留とモデルプルーニングに基づく最適化戦略を提案する。 DONUTホールを創出する我々のパラダイムは、性能を保ちながらモデル密度を54 %削減する。 また,集中型カーネルアライメント(CKA)測定値0.79に基づいて,DONUTとDONUTホールのグローバルな表現類似度指数を得る。 さらに、文書画像キー情報抽出(KIE)タスクにおけるDONUTホールの有効性を評価し、ロジスティック企業のためのより効率的なVDUシステムの開発の可能性を明らかにする。

This paper introduces DONUT-hole, a sparse OCR-free visual document understanding (VDU) model that addresses the limitations of its predecessor model, dubbed DONUT. The DONUT model, leveraging a transformer architecture, overcoming the challenges of separate optical character recognition (OCR) and visual semantic understanding (VSU) components. However, its deployment in production environments and edge devices is hindered by high memory and computational demands, particularly in large-scale request services. To overcome these challenges, we propose an optimization strategy based on knowledge distillation and model pruning. Our paradigm to produce DONUT-hole, reduces the model denisty by 54\% while preserving performance. We also achieve a global representational similarity index between DONUT and DONUT-hole based on centered kernel alignment (CKA) metric of 0.79. Moreover, we evaluate the effectiveness of DONUT-hole in the document image key information extraction (KIE) task, highlighting its potential for developing more efficient VDU systems for logistic companies.
翻訳日:2023-11-13 16:20:37 公開日:2023-11-09
# AdjointBackMapV2: 随伴演算子による任意CNNユニットの活性化の精密再構築

AdjointBackMapV2: Precise Reconstruction of Arbitrary CNN Unit's Activation via Adjoint Operators ( http://arxiv.org/abs/2110.01736v2 )

ライセンス: Link先を確認
Qing Wan, Siu Wun Cheung, Yoonsuck Choe(参考訳) 随伴演算子はcnnの内部動作の探索に有効であることが判明しています[1]。 しかし、以前の非バイアス仮定は一般化を制限した。 入力画像を拡張空間の一部としてCNN層にバイアスを含む拡張ノルム空間に埋め込んで制限を克服し,高次重みを拡張入力空間にマッピングし,有効超曲面を再構築する随伴演算子に基づくアルゴリズムを提案する。 このような超曲面は、cnn内の任意の単位に対して計算でき、この再構成された超曲面は、元の入力(内積を通して)に乗算すると、各単位の出力値を正確に再現することが証明される。 CIFAR-10 と CIFAR-100 データセットを用いて,提案手法が約 0 の活性化値再構成誤差を達成する実験結果を示す。

Adjoint operators have been found to be effective in the exploration of CNN's inner workings [1]. However, the previous no-bias assumption restricted its generalization. We overcome the restriction via embedding input images into an extended normed space that includes bias in all CNN layers as part of the extended space and propose an adjoint-operator-based algorithm that maps high-level weights back to the extended input space for reconstructing an effective hypersurface. Such hypersurface can be computed for an arbitrary unit in the CNN, and we prove that this reconstructed hypersurface, when multiplied by the original input (through an inner product), will precisely replicate the output value of each unit. We show experimental results based on the CIFAR-10 and CIFAR-100 data sets where the proposed approach achieves near 0 activation value reconstruction error.
翻訳日:2023-11-10 19:27:24 公開日:2023-11-09
# 逐次予測器の比較

Comparing Sequential Forecasters ( http://arxiv.org/abs/2110.00115v6 )

ライセンス: Link先を確認
Yo Joong Choe and Aaditya Ramdas(参考訳) 2つの予測器を考えてみましょう。それぞれが時間とともに一連のイベントを予測します。 比較的基本的な質問は、オンラインやポストホックの予測と、予測と結果の生成方法に関する検証不可能な仮定を避けながら、これらの予測をどのように比較すればよいのか、ということだ。 本稿では,予測スコアの時間差を推定する新しい逐次推論手順を設計することによって,この問題に対する厳密な回答を示す。 これを実現するために,信頼区間の連続的監視が可能な信頼区間列である信頼シーケンス(cs)を採用し,任意のデータ依存停止時間("anytime-valid")で有効である。 CSの幅は、スコア差の基本的なばらつきに適応する。 彼らの構築はゲーム理論の統計フレームワークであり、弱いヌル仮説を逐次テストするためのe-プロセスとp-プロセスを更に特定する。 我々の主な定理は任意の有界点に適用され、後に無界点に対する別の方法を提供する。 実世界の野球と天気予報機を比較することで,我々のアプローチを実証的に検証する。

Consider two forecasters, each making a single prediction for a sequence of events over time. We ask a relatively basic question: how might we compare these forecasters, either online or post-hoc, while avoiding unverifiable assumptions on how the forecasts and outcomes were generated? In this paper, we present a rigorous answer to this question by designing novel sequential inference procedures for estimating the time-varying difference in forecast scores. To do this, we employ confidence sequences (CS), which are sequences of confidence intervals that can be continuously monitored and are valid at arbitrary data-dependent stopping times ("anytime-valid"). The widths of our CSs are adaptive to the underlying variance of the score differences. Underlying their construction is a game-theoretic statistical framework, in which we further identify e-processes and p-processes for sequentially testing a weak null hypothesis -- whether one forecaster outperforms another on average (rather than always). Our methods do not make distributional assumptions on the forecasts or outcomes; our main theorems apply to any bounded scores, and we later provide alternative methods for unbounded scores. We empirically validate our approaches by comparing real-world baseball and weather forecasters.
翻訳日:2023-11-10 19:27:07 公開日:2023-11-09
# ノード分類/回帰タスクにおけるGNNの近似能力について

On the approximation capability of GNNs in node classification/regression tasks ( http://arxiv.org/abs/2106.08992v6 )

ライセンス: Link先を確認
Giuseppe Alessio D'Inverno, Monica Bianchini, Maria Lucia Sampoli, Franco Scarselli(参考訳) グラフニューラルネットワーク(GNN)は、グラフ処理のための幅広い種類の接続モデルである。 近年の研究では、GNN はグラフ上の任意の関数を近似することができ、Weisfeiler--Lehman (WL) テストで定義されるグラフ上の同値関係を変調することができることが示されている。しかし、これらの結果はストーン-ワイエルシュトラスの定理(自然界に存在する)を用いて導出されたものであることと、ターゲット関数が近似される必要があると仮定しているためである。 さらに、現在のすべての結果はグラフ分類/回帰タスクに特化しており、GNNはグラフ全体に対して単一の出力を生成しなければならない一方で、各ノードに対して出力を返すノード分類/回帰問題は非常に一般的である。 本稿では,これらの制約を克服するGNNの近似能力を実証する代替手法を提案する。 実際、GNNは、ノード上の1-WL同値性を満たす任意の測定可能な関数を近似できるため、ノード分類/回帰タスクの確率の普遍近似であることを示す。 提案する理論的枠組みは, 汎用的不連続な対象関数の近似を可能にするとともに, 所望の近似に到達可能なGNNアーキテクチャも提案する。 さらに、所望の近似値を達成するのに必要なgnn層数、すなわち$r-1$、すなわち、ドメイン内のグラフのノード数が$r$である。

Graph Neural Networks (GNNs) are a broad class of connectionist models for graph processing. Recent studies have shown that GNNs can approximate any function on graphs, modulo the equivalence relation on graphs defined by the Weisfeiler--Lehman (WL) test. However, these results suffer from some limitations, both because they were derived using the Stone--Weierstrass theorem -- which is existential in nature, -- and because they assume that the target function to be approximated must be continuous. Furthermore, all current results are dedicated to graph classification/regression tasks, where the GNN must produce a single output for the whole graph, while also node classification/regression problems, in which an output is returned for each node, are very common. In this paper, we propose an alternative way to demonstrate the approximation capability of GNNs that overcomes these limitations. Indeed, we show that GNNs are universal approximators in probability for node classification/regression tasks, as they can approximate any measurable function that satisfies the 1--WL equivalence on nodes. The proposed theoretical framework allows the approximation of generic discontinuous target functions and also suggests the GNN architecture that can reach a desired approximation. In addition, we provide a bound on the number of the GNN layers required to achieve the desired degree of approximation, namely $2r-1$, where $r$ is the maximum number of nodes for the graphs in the domain.
翻訳日:2023-11-10 19:26:06 公開日:2023-11-09
# 言語横断モデルを用いたジェンダーバイアスの定量化

Quantifying Gender Bias Towards Politicians in Cross-Lingual Language Models ( http://arxiv.org/abs/2104.07505v2 )

ライセンス: Link先を確認
Karolina Sta\'nczak, Sagnik Ray Choudhury, Tiago Pimentel, Ryan Cotterell, Isabelle Augenstein(参考訳) 最近の研究では、大きな事前学習された言語モデルが自然言語で表現される社会的バイアスを反映していることが示されている。 本稿では,政治家に対するジェンダーバイアスの多言語研究を行うための言語モデル探索手法を提案する。 政治家の名前を取り囲む言語モデルによって生成される形容詞や動詞の使用を性別の関数として定量化する。 この目的のために、我々は世界中の250万の政治家のデータセットをキュレートする。 本研究は、6つの異なる言語モデリングアーキテクチャの7言語で実施されている。 その結果、事前訓練された言語モデルによる政治家に対する態度は、分析された言語間で強く異なることが示された。 死者や指定された言葉が男女の政治家と関連しているのに対し、美人や離婚といった特定の言葉が主に女性政治家に関係していることが分かる。 最後に,これまでの研究とは対照的に,より大きな言語モデルでは,より小さい言語モデルよりも男女関係の偏りが強くない傾向が示唆された。

Recent research has demonstrated that large pre-trained language models reflect societal biases expressed in natural language. The present paper introduces a simple method for probing language models to conduct a multilingual study of gender bias towards politicians. We quantify the usage of adjectives and verbs generated by language models surrounding the names of politicians as a function of their gender. To this end, we curate a dataset of 250k politicians worldwide, including their names and gender. Our study is conducted in seven languages across six different language modeling architectures. The results demonstrate that pre-trained language models' stance towards politicians varies strongly across analyzed languages. We find that while some words such as dead, and designated are associated with both male and female politicians, a few specific words such as beautiful and divorced are predominantly associated with female politicians. Finally, and contrary to previous findings, our study suggests that larger language models do not tend to be significantly more gender-biased than smaller ones.
翻訳日:2023-11-10 19:25:02 公開日:2023-11-09
# 政策グラディエントの違い

Difference Rewards Policy Gradients ( http://arxiv.org/abs/2012.11258v2 )

ライセンス: Link先を確認
Jacopo Castellini, Sam Devlin, Frans A. Oliehoek, Rahul Savani(参考訳) ポリシー勾配法は、マルチエージェント強化学習において最も一般的なアルゴリズムの1つである。 しかし、これらの方法の多くで対処されていない重要な課題は、マルチエージェントの信用割当である: エージェントの全体的なパフォーマンスへの貢献を評価することは、優れたポリシーを学ぶために不可欠である。 本稿では,報酬関数が知られている場合の分散型政策の学習を可能にするために,差分報酬と政策勾配を組み合わせたDr.Reinforceという新しいアルゴリズムを提案する。 報酬関数を直接区別することにより、Dr.Reinforceは、最先端の差分報酬法であるCOMA(Counterfactual Multiagent Policy Gradients)によるQ関数の学習に伴う困難を回避する。 報酬関数が未知のアプリケーションについては、reinforce が差分報酬を推定するために使用される追加の報酬ネットワークを学習するの有効性を示す。

Policy gradient methods have become one of the most popular classes of algorithms for multi-agent reinforcement learning. A key challenge, however, that is not addressed by many of these methods is multi-agent credit assignment: assessing an agent's contribution to the overall performance, which is crucial for learning good policies. We propose a novel algorithm called Dr.Reinforce that explicitly tackles this by combining difference rewards with policy gradients to allow for learning decentralized policies when the reward function is known. By differencing the reward function directly, Dr.Reinforce avoids difficulties associated with learning the Q-function as done by Counterfactual Multiagent Policy Gradients (COMA), a state-of-the-art difference rewards method. For applications where the reward function is unknown, we show the effectiveness of a version of Dr.Reinforce that learns an additional reward network that is used to estimate the difference rewards.
翻訳日:2023-11-10 19:24:28 公開日:2023-11-09
# 操作する脳の創発的特性としての数感覚

A Number Sense as an Emergent Property of the Manipulating Brain ( http://arxiv.org/abs/2012.04132v3 )

ライセンス: Link先を確認
Neehar Kondapaneni, Pietro Perona(参考訳) 人工知能(AI)システムは、トレーニングデータを超えて一般化し、トレーニングサンプルの具体例から一般的なプロパティを抽象化するのに苦労する。 本研究では, 教師なしの日常体験を通じて, 人間の目に見える能力を再現するモデルを提案する。 幼少期には数と量を理解して操作する能力が出現するが、人間の獲得と発達のメカニズムはいまだに理解されていない。 特に、教師の監督なくしてそのような数感覚の獲得が可能かどうかは不明である。 私たちは、学習者が小さなオブジェクトを選択・配置でき、意図しない操作を自発的に行うことができると仮定して、モデルを通してこの質問を探求する。 学習者の視覚システムは、シーン内の物体の配置の変化を監視し、各動作の効果を、運動系の感覚信号と比較することにより予測する。 特徴抽出と分類のための標準ディープネットワークを用いた知覚をモデル化する。 行動予測の無関係なタスクから学ぶと、予期せぬ画像表現が出現し、数字の知覚と表現を予見する正則性を示すことが分かる。 これらには、最初の数個の自然数の異なるカテゴリ、数字の厳密な順序付け、数量と相関する1次元信号が含まれる。 その結果,本モデルでは,数奇性の推定と減算が可能となった。 驚くべきことに、subitization と numerosity estimation は、トレーニングで使われる3つのオブジェクトをはるかに超えて、多くのオブジェクトを含むシーンに外挿する。 教師の指導なしに数と量を持つ施設の重要な側面を学ぶことができると結論付けた。

Artificial intelligence (AI) systems struggle to generalize beyond their training data and abstract general properties from the specifics of the training examples. We propose a model that reproduces the apparent human ability to come up with a number sense through unsupervised everyday experience. The ability to understand and manipulate numbers and quantities emerges during childhood, but the mechanism through which humans acquire and develop this ability is still poorly understood. In particular, it is not known whether acquiring such a number sense is possible without supervision from a teacher. We explore this question through a model, assuming that the learner is able to pick and place small objects and will spontaneously engage in undirected manipulation. We assume that the learner's visual system will monitor the changing arrangements of objects in the scene and will learn to predict the effects of each action by comparing perception with the efferent signal of the motor system. We model perception using standard deep networks for feature extraction and classification. We find that, from learning the unrelated task of action prediction, an unexpected image representation emerges exhibiting regularities that foreshadow the perception and representation of numbers. These include distinct categories for the first few natural numbers, a strict ordering of the numbers, and a one-dimensional signal that correlates with numerical quantity. As a result, our model acquires the ability to estimate numerosity and subitize. Remarkably, subitization and numerosity estimation extrapolate to scenes containing many objects, far beyond the three objects used during training. We conclude that important aspects of a facility with numbers and quantities may be learned without teacher supervision.
翻訳日:2023-11-10 19:24:10 公開日:2023-11-09
# 2層ニューラルネットワークのトレーニング精度:ランダムデータセットを用いた推定と理解

The training accuracy of two-layer neural networks: its estimation and understanding using random datasets ( http://arxiv.org/abs/2010.13380v2 )

ライセンス: Link先を確認
Shuyue Guan, Murray Loew(参考訳) ニューラルネットワーク(NN)技術は機械学習において重要な役割を果たすが、NNモデルのメカニズムとディープラーニングの透明性を理解するには、より基本的な研究が必要である。 本研究では,空間分割に基づく新しい理論を提案し,ランダムデータセット上の2層ニューラルネットワークのトレーニング精度をトレーニングなしで推定する。 入力データやトレーニングモデルを用いずにトレーニング精度を推定する方法を提唱した研究は他にないようである。 本手法は,入力の次元性(d),入力数(N),隠蔽層(L)内のニューロン数(L)の3つの引数のみを用いて,2層完全連結ニューラルネットワークのトレーニング精度を推定する。 実験では,実際のトレーニング精度を用いて本手法を検証した。 その結果,提案手法は任意の次元に対して有効であり,より深いnnモデルの推定にも拡張できることが示唆された。 本研究の目的は, 学習精度を推定する手法を用いてnnモデルのメカニズムを理解することであるが, 実世界のアプリケーションにおける一般化や性能の解析は行わない。 この研究は、研究者がディープラーニングを理解する難しい問題を前進させる新しい方法の出発点となるかもしれない。

Although the neural network (NN) technique plays an important role in machine learning, understanding the mechanism of NN models and the transparency of deep learning still require more basic research. In this study, we propose a novel theory based on space partitioning to estimate the approximate training accuracy for two-layer neural networks on random datasets without training. There appear to be no other studies that have proposed a method to estimate training accuracy without using input data and/or trained models. Our method estimates the training accuracy for two-layer fully-connected neural networks on two-class random datasets using only three arguments: the dimensionality of inputs (d), the number of inputs (N), and the number of neurons in the hidden layer (L). We have verified our method using real training accuracies in our experiments. The results indicate that the method will work for any dimension, and the proposed theory could extend also to estimate deeper NN models. The main purpose of this paper is to understand the mechanism of NN models by the approach of estimating training accuracy but not to analyze their generalization nor their performance in real-world applications. This study may provide a starting point for a new way for researchers to make progress on the difficult problem of understanding deep learning.
翻訳日:2023-11-10 19:23:36 公開日:2023-11-09
# 神経形態の遺伝的特徴に対する因子的判別分析

Factorized Discriminant Analysis for Genetic Signatures of Neuronal Phenotypes ( http://arxiv.org/abs/2010.02171v6 )

ライセンス: Link先を確認
Mu Qiao(参考訳) 単細胞転写データの複雑な景観をナビゲートすることは大きな課題である。 この課題の中心は、細胞タイプの構造的および機能的特性に光を当てる高次元遺伝子発現パターンの有意義な表現の同定である。 モデル解釈性と計算の単純さを追求し、しばしば細胞の重要な表現型の特徴と整合する元のデータの線形変換を求める。 そこで本稿では,このニーズに対応するために,新しい線形次元低減法である因子化線形判別分析(flda)を提案する。 FLDAのくちばしは、他の影響を最小限に抑えつつ、1つの表現型の特徴と高い相関を持つ遺伝子発現レベルの線形機能を特定することである。 本研究では,この手法をスパーシティーベース正規化アルゴリズムと統合する。 この統合は、特定の表現型の特徴またはそれらの組み合わせに欠かせない遺伝子のサブセットを選択するために重要である。 fldaの有効性を説明するために,ショウジョウバエ視葉の神経細胞からの転写学的データセットに適用する。 FLDAは表現型の特徴に沿った構造パターンを捉えるだけでなく,各表現型に関連する重要な遺伝子を明らかにする。

Navigating the complex landscape of single-cell transcriptomic data presents significant challenges. Central to this challenge is the identification of a meaningful representation of high-dimensional gene expression patterns that sheds light on the structural and functional properties of cell types. Pursuing model interpretability and computational simplicity, we often look for a linear transformation of the original data that aligns with key phenotypic features of cells. In response to this need, we introduce factorized linear discriminant analysis (FLDA), a novel method for linear dimensionality reduction. The crux of FLDA lies in identifying a linear function of gene expression levels that is highly correlated with one phenotypic feature while minimizing the influence of others. To augment this method, we integrate it with a sparsity-based regularization algorithm. This integration is crucial as it selects a subset of genes pivotal to a specific phenotypic feature or a combination thereof. To illustrate the effectiveness of FLDA, we apply it to transcriptomic datasets from neurons in the Drosophila optic lobe. We demonstrate that FLDA not only captures the inherent structural patterns aligned with phenotypic features but also uncovers key genes associated with each phenotype.
翻訳日:2023-11-10 19:23:16 公開日:2023-11-09
# 後部トレーディングによるモデルフリー時系列分割

A posteriori Trading-inspired Model-free Time Series Segmentation ( http://arxiv.org/abs/1912.06708v2 )

ライセンス: Link先を確認
Mogens Graf Plessen(参考訳) 本稿では,多変量時系列セグメンテーションの文脈内で,後続最適取引にインスパイアされた手法を提案する。 正規化ステップの時系列の後に、株式または現金のいずれかを保持する仮想ポートフォリオにおいて、最適な後方取引が可能な株価の代理としてチャネル回りに扱われる。 線形取引コストはノイズフィルタリングのハイパーパラメータとして解釈される。 結果として得られるトレーディング信号と、逆時系列で得られたトレーディング信号は、セグメンテーション時間インスタントを決定するチャネル上のコンセンサスに到達する前に、教師なしのラベリングに使用される。 この方法は、セグメントのモデル処方薬が作成されないように、モデルフリーである。 提案手法の利点は、単純さ、時系列の様々な形状への適応性、特にビッグデータに適した計算効率である。 合成および実世界のデータに対して,1000次元の多変量時系列と長さ2709の大規模データセットを含む性能を示す。 提案手法は, ファインワイドアフィンモデルに適合する一般的なモデルベースボトムアップアプローチと, ガウスモデルに適合する最先端のモデルベーストップダウンアプローチを比較し, より直感的な結果が得られるとともに, 常に高速であることがわかった。

Within the context of multivariate time series segmentation this paper proposes a method inspired by a posteriori optimal trading. After a normalization step time series are treated channel-wise as surrogate stock prices that can be traded optimally a posteriori in a virtual portfolio holding either stock or cash. Linear transaction costs are interpreted as hyperparameters for noise filtering. Resulting trading signals as well as resulting trading signals obtained on the reversed time series are used for unsupervised labeling, before a consensus over channels is reached that determines segmentation time instants. The method is model-free such that no model prescriptions for segments are made. Benefits of proposed approach include simplicity, adaptability to a wide range of different shapes of time series, and in particular computational efficiency that make it suitable for big data. Performance is demonstrated on synthetic and real-world data, including a large-scale dataset comprising a multivariate time series of dimension 1000 and length 2709. Proposed method is compared to a popular model-based bottom-up approach fitting piecewise affine models and to a state-of-the-art model-based top-down approach fitting Gaussian models, and found to be consistently faster while producing more intuitive results.
翻訳日:2023-11-10 19:22:58 公開日:2023-11-09
# 単一光子パルス誘起過渡絡み力

Single-Photon Pulse Induced Transient Entanglement Force ( http://arxiv.org/abs/1904.02796v2 )

ライセンス: Link先を確認
Li-Ping Yang, Chinmay Khandekar, Tongcang Li, Zubin Jacob(参考訳) 2つの相互作用する2つの原子に1つの光子パルス(SPP)が入射すると、その間に過渡的な絡み合いが生じる。 多モードフォック状態パルスの吸収後、真空変動による時間依存原子間相互作用はファンデルワールス相互作用から共鳴双極子-双極子相互作用(RDDI)へと変化する。 SPPによって誘導されるRDDI力は、原子間の2体の過渡的絡み合いから基本的に生じることを示す。 このSPP誘起絡み合い力は、パルスの偏極を変化させることで、反発性から誘惑性へと連続的に調整することができる。 さらに,原子間相互作用がグラフェンプラズモンによって媒介される場合,絡み合い力は3桁以上増強できることを示した。 これらの結果は、この絡み合いを操る強力なツールとしての形状SPPの可能性を示し、また、一過性原子-絡み合いを目撃するための新しいアプローチを提供する。

We show that a single photon pulse (SPP) incident on two interacting two-level atoms induces a transient entanglement force between them. After absorption of a multi-mode Fock state pulse, the time-dependent atomic interaction mediated by the vacuum fluctuations changes from the van der Waals interaction to the resonant dipole-dipole interaction (RDDI). We explicitly show that the RDDI force induced by the SPP fundamentally arises from the two-body transient entanglement between the atoms. This SPP induced entanglement force can be continuously tuned from being repulsive to attractive by varying the polarization of the pulse. We further demonstrate that the entanglement force can be enhanced by more than three orders of magnitude if the atomic interactions are mediated by graphene plasmons. These results demonstrate the potential of shaped SPPs as a powerful tool to manipulate this entanglement force and also provides a new approach to witness transient atom-atom entanglement.
翻訳日:2023-11-10 19:22:37 公開日:2023-11-09
# グローバルクエンチ後の三部構成情報の普遍性

Universality in the tripartite information after global quenches ( http://arxiv.org/abs/2209.14253v3 )

ライセンス: Link先を確認
Vanja Mari\'c, Maurizio Fagotti(参考訳) マクロ的に大きな3部分 $(A,B,C)$ 連結部分系の$A\cup B \cup C$ を無限量子スピン鎖において考慮し、R\enyi-$\alpha$三部分情報 $I_3^{(\alpha)}(A,B,C)$ を研究する。 局所ハミルトニアンとクリーンな1Dシステムの平衡では、一般的に消滅する。 注目すべき例外は共形臨界系の基底状態であり、$I_3^{(\alpha)}(A,B,C)$は、$x=|A||C|/[(|A|+|B|)(|C|+|B|)]$のクロス比の普遍函数であることが知られている。 我々は、翻訳的不変ハミルトニアンの時間発展の下で、非零(r\'enyi)三成分情報を持つ状態に対して局所的に緩和し、さらに$x$への普遍的な依存を示す異なる状態のクラスを特定する。 自由フェルミオンに双対な系における$i_3^{(\alpha)}$の数値的研究を報告し、フィールド理論記述を提案し、それらの漸近的挙動を一般に$\alpha=2$と、システムサブクラスにおけるジェネリック$\alpha$について検討する。 これにより、スケーリング制限 $x\rightarrow 1^-$ において $i_3^{(\alpha)}$ の値を推測することができ、これは ``residual tripartite information'' と呼ばれる。 非ゼロであれば、我々の分析は R\'enyi index $\alpha$ とは独立に普遍残留値 $-\log 2$ を指し、従って真の (von Neumann) 三部情報にも適用される。

We consider macroscopically large 3-partitions $(A,B,C)$ of connected subsystems $A\cup B \cup C$ in infinite quantum spin chains and study the R\'enyi-$\alpha$ tripartite information $I_3^{(\alpha)}(A,B,C)$. At equilibrium in clean 1D systems with local Hamiltonians it generally vanishes. A notable exception is the ground state of conformal critical systems, in which $I_3^{(\alpha)}(A,B,C)$ is known to be a universal function of the cross ratio $x=|A||C|/[(|A|+|B|)(|C|+|B|)]$, where $|A|$ denotes $A$'s length. We identify different classes of states that, under time evolution with translationally invariant Hamiltonians, locally relax to states with a nonzero (R\'enyi) tripartite information, which furthermore exhibits a universal dependency on $x$. We report a numerical study of $I_3^{(\alpha)}$ in systems that are dual to free fermions, propose a field-theory description, and work out their asymptotic behaviour for $\alpha=2$ in general and for generic $\alpha$ in a subclass of systems. This allows us to infer the value of $I_3^{(\alpha)}$ in the scaling limit $x\rightarrow 1^-$, which we call ``residual tripartite information''. If nonzero, our analysis points to a universal residual value $-\log 2$ independently of the R\'enyi index $\alpha$, and hence applies also to the genuine (von Neumann) tripartite information.
翻訳日:2023-11-10 19:16:10 公開日:2023-11-09
# Top-Tuning:高速カーネル法による画像分類のための微細チューニングの効率的な代替のための転写学習に関する研究

Top-Tuning: a study on transfer learning for an efficient alternative to fine tuning for image classification with fast kernel methods ( http://arxiv.org/abs/2209.07932v3 )

ライセンス: Link先を確認
Paolo Didier Alfano, Vito Paolo Pastore, Lorenzo Rosasco, Francesca Odone(参考訳) ディープラーニングアーキテクチャの印象的なパフォーマンスは、モデル複雑性の大幅な増加に関連しています。 数百万のパラメータをチューニングし、トレーニングと推論時間のスケーリングとエネルギー消費を調整する必要があります。 しかし、大規模な微調整は必要か? 本稿では,画像の分類に焦点をあて,事前学習された畳み込み特徴を素早いカーネル手法の入力として利用する,簡単な転送学習手法を提案する。 カーネル分類器のみをターゲットデータセットでトレーニングするため、このアプローチを \textit{top-tuning} と呼ぶ。 本研究では,小中規模の32のターゲットデータセットに着目し,3000以上のトレーニングプロセスを実施し,転送学習が必要な典型的状況について述べる。 トップチューニングアプローチは,1~2桁のトレーニング時間を桁違いに小さくすることで,微調整に対して同等の精度を提供することを示す。 これらの結果から,トップチューニングは小/中規模データセットの微調整に有効な代替手段であり,特にトレーニング時間効率と計算資源の節約が重要であることが示唆された。

The impressive performance of deep learning architectures is associated with a massive increase in model complexity. Millions of parameters need to be tuned, with training and inference time scaling accordingly, together with energy consumption. But is massive fine-tuning always necessary? In this paper, focusing on image classification, we consider a simple transfer learning approach exploiting pre-trained convolutional features as input for a fast-to-train kernel method. We refer to this approach as \textit{top-tuning} since only the kernel classifier is trained on the target dataset. In our study, we perform more than 3000 training processes focusing on 32 small to medium-sized target datasets, a typical situation where transfer learning is necessary. We show that the top-tuning approach provides comparable accuracy with respect to fine-tuning, with a training time between one and two orders of magnitude smaller. These results suggest that top-tuning is an effective alternative to fine-tuning in small/medium datasets, being especially useful when training time efficiency and computational resources saving are crucial.
翻訳日:2023-11-10 19:15:31 公開日:2023-11-09
# 量子測定の最小時間の境界

Bounding the Minimum Time of a Quantum Measurement ( http://arxiv.org/abs/2209.06248v2 )

ライセンス: Link先を確認
Nathan Shettell, Federico Centrone, Luis Pedro Garc\'ia-Pintos(参考訳) 測定は量子論において特異な役割を果たす。 それらはしばしば即時のプロセスとして理想化されるが、これは自然界の他の全ての物理的プロセスと相反する。 本報告では,環境との相互作用が測定の発生に重要な要素となるという視点を取り入れた。 このフレームワーク内では、測定に必要な時間に基づいて低い境界を導出します。 我々の境界は測定システムのエントロピーの変化に比例してスケールし、測定可能な測定結果の数や測定を駆動する相互作用強度が増加するにつれて減少する。 我々は,環境をボソニックモードでモデル化し,測定装置をスピンやボソンでモデル化した2つの例で評価した。

Measurements take a singular role in quantum theory. While they are often idealized as an instantaneous process, this is in conflict with all other physical processes in nature. In this Letter, we adopt a standpoint where the interaction with an environment is a crucial ingredient for the occurrence of a measurement. Within this framework, we derive lower bounds on the time needed for a measurement to occur. Our bound scales proportionally to the change in entropy of the measured system, and decreases as the number of of possible measurement outcomes or the interaction strength driving the measurement increases. We evaluate our bound in two examples where the environment is modelled by bosonic modes and the measurement apparatus is modelled by spins or bosons.
翻訳日:2023-11-10 19:15:12 公開日:2023-11-09
# 概念化による埋め込み空間の解釈

Interpreting Embedding Spaces by Conceptualization ( http://arxiv.org/abs/2209.00445v3 )

ライセンス: Link先を確認
Adi Simhi and Shaul Markovitch(参考訳) テキストの計算解釈の主要な方法の1つは、それを埋め込み空間内のベクトルにマッピングすることである。 このようなベクトルは、様々なテキスト処理タスクに使用できる。 近年、ほとんどの埋め込み空間は、大規模言語モデル(LLM)を訓練する製品である。 この種の表現の大きな欠点は、人間に対する理解不能である。 埋め込み空間を理解することは、組み込みメソッドをデバッグし、代替メソッドと比較する必要性や、モデルに隠されているバイアスを検出する必要性など、いくつかの重要なニーズに不可欠である。 本稿では,埋め込み空間を理解可能な概念空間に変換することによって,埋め込みを理解する新しい手法を提案する。 動的オンデマンドな粒度を持つ概念空間を導出するアルゴリズムを提案する。 本研究では,人間のリサーとllmベースのリサーを用いて,概念化されたベクターが本来の潜在ベクターの意味を実際に表現していることを示す新しい評価手法を提案する。 代替モデルのセマンティクスを比較し,LLMの層をトレースするなど,様々なタスクに本手法を用いることを示す。 コードはオンラインhttps://github.com/adiSimhi/Interpreting-Embedding-Spaces-by-Conceptualizationで入手できる。

One of the main methods for computational interpretation of a text is mapping it into a vector in some embedding space. Such vectors can then be used for a variety of textual processing tasks. Recently, most embedding spaces are a product of training large language models (LLMs). One major drawback of this type of representation is their incomprehensibility to humans. Understanding the embedding space is crucial for several important needs, including the need to debug the embedding method and compare it to alternatives, and the need to detect biases hidden in the model. In this paper, we present a novel method of understanding embeddings by transforming a latent embedding space into a comprehensible conceptual space. We present an algorithm for deriving a conceptual space with dynamic on-demand granularity. We devise a new evaluation method, using either human rater or LLM-based raters, to show that the conceptualized vectors indeed represent the semantics of the original latent ones. We show the use of our method for various tasks, including comparing the semantics of alternative models and tracing the layers of the LLM. The code is available online https://github.com/adiSimhi/Interpreting-Embedding-Spaces-by-Conceptualization.
翻訳日:2023-11-10 19:14:31 公開日:2023-11-09
# harrow-hassidim-lloydアルゴリズム

Harrow-Hassidim-Lloyd algorithm without ancilla postselection ( http://arxiv.org/abs/2208.02200v2 )

ライセンス: Link先を確認
D. V. Babukhin(参考訳) harrow-hassidim-lloyd algorithm (hhl) は線形方程式系の指数関数的に高速な解法である。 しかし、このアルゴリズムでは解を得るにはアンシラキュービットのポストセレクションが必要となる。 このポストセレクションはアルゴリズム結果を確率的にする。 ここでは、hhlアルゴリズムがancilla qubitの事後選択なしで機能する条件を示す。 ancilla qubit が $\ket{0}$ と $\ket{1}$ で測定された場合の hhl の結果状態の観測可能な $m$ に対する期待値を導出し、ポストセレクションフリー hhl の実行条件を示す。 我々は,ポスト選択フリーなhhl条件を満たす,事実上興味のある入力行列とオブザーバブルの明示的な例を示す。 我々の研究は、HHLベースのアルゴリズムの性能を向上させることができる。

Harrow-Hassidim-Lloyd algorithm (HHL) allows for the exponentially faster solution of a system of linear equations. However, this algorithm requires the postselection of an ancilla qubit to obtain the solution. This postselection makes the algorithm result probabilistic. Here we show conditions when the HHL algorithm can work without postselection of ancilla qubit. We derive expectation values for an observable $M$ on the HHL outcome state when ancilla qubit is measured in $\ket{0}$ and $\ket{1}$ and show condition for postselection-free HHL running. We provide an explicit example of a practically-interesting input matrix and an observable, which satisfy postselection-free HHL condition. Our work can improve the performance of the HHL-based algorithms.
翻訳日:2023-11-10 19:14:13 公開日:2023-11-09
# グローバルコントラストマスク自動エンコーダは強力な病理表現学習者である

Global Contrast Masked Autoencoders Are Powerful Pathological Representation Learners ( http://arxiv.org/abs/2205.09048v3 )

ライセンス: Link先を確認
Hao Quan, Xingyu Li, Weixing Chen, Qun Bai, Mingchen Zou, Ruijie Yang, Tingting Zheng, Ruiqun Qi, Xinghua Gao, Xiaoyu Cui(参考訳) デジタル病理スライススキャン技術に基づき、ディープラーニングで表現される人工知能アルゴリズムは、計算病理学の分野で驚くべき結果を得た。 他の医療画像と比較すると、病理画像は注釈が難しいため、堅牢なディープラーニングモデルをトレーニングするための教師付き学習を行うためのデータセットが極めて不足している。 本稿では,自己教師付き学習(SSL)モデルを提案する。このモデルでは,画像の局所的グローバルな特徴を表現できるようにエンコーダを訓練し,データセット間での移動学習の性能を大幅に向上させることができる。 本研究は,gcmaeが偏在表現を学習する能力について,camlyon16,nctcrc,breakhisの3種類の病特異的ヘマトキシリンおよびエオシン(he)持続性病理データを用いて広範な実験を行った。 本研究は,臨床応用のためのGCMAEに基づく効果的な自動病理診断プロセスを設計した。 本論文のソースコードはhttps://github.com/staruniversus/gcmaeで公開されている。

Based on digital pathology slice scanning technology, artificial intelligence algorithms represented by deep learning have achieved remarkable results in the field of computational pathology. Compared to other medical images, pathology images are more difficult to annotate, and thus, there is an extreme lack of available datasets for conducting supervised learning to train robust deep learning models. In this paper, we propose a self-supervised learning (SSL) model, the global contrast-masked autoencoder (GCMAE), which can train the encoder to have the ability to represent local-global features of pathological images, also significantly improve the performance of transfer learning across data sets. In this study, the ability of the GCMAE to learn migratable representations was demonstrated through extensive experiments using a total of three different disease-specific hematoxylin and eosin (HE)-stained pathology datasets: Camelyon16, NCTCRC and BreakHis. In addition, this study designed an effective automated pathology diagnosis process based on the GCMAE for clinical applications. The source code of this paper is publicly available at https://github.com/StarUniversus/gcmae.
翻訳日:2023-11-10 19:13:35 公開日:2023-11-09
# 予測市場の価格解釈可能性:収束分析

Price Interpretability of Prediction Markets: A Convergence Analysis ( http://arxiv.org/abs/2205.08913v2 )

ライセンス: Link先を確認
Dian Yu, Jianjun Gao, Weiping Wu, Zizhuo Wang(参考訳) 予測市場は予測精度で知られている。 本研究は,予測市場の基本特性を体系的に探究し,その情報集約過程とその有効性に寄与する要因について考察する。 本稿では,既存の自動市場形成方式を統一する新しい多変量ユーティリティ(MU)機構を提案する。 このメカニズムを用いて、不均質な信念を持ち、繰り返しマーケットメーカと相互作用するリスク回避トレーダーからなる市場の収束結果を確立する。 その結果, 富の分配は, すべての市場参加者の効用によって定義されたパレート・効率的なフロンティアと一致することが示された。 この結果から,市場モデルの違いによる限界価格に対する解析的および数値的結果が得られた。 具体的には,指数的ユーティリティベース市場におけるエージェント信念の幾何学的平均に限定価格が収束することを示す。 リスク測定に基づく市場では,コンバージェンス基準を満たし,エージェント信念の重み付け力平均で表される一意な水準に価格が収束できることを証明するリスク対策のファミリーを構築する。 crra(constant relative risk aversion)ユーティリティを持つ幅広い市場では、制限価格がエージェントの信念、リスクパラメータ、富をカプセル化する方程式系によって特徴づけられることが明らかとなる。 トレーダーのトレーディングシーケンスが価格制限に与える影響の可能性にもかかわらず、大きなトレーディング人口を持つ市場における価格変動の結果を確立します。 この結果を用いて,限界価格に対する効率的な近似スキームを提案する。

Prediction markets are long known for prediction accuracy. This study systematically explores the fundamental properties of prediction markets, addressing questions about their information aggregation process and the factors contributing to their remarkable efficacy. We propose a novel multivariate utility (MU) based mechanism that unifies several existing automated market-making schemes. Using this mechanism, we establish the convergence results for markets comprised of risk-averse traders who have heterogeneous beliefs and repeatedly interact with the market maker. We demonstrate that the resulting limiting wealth distribution aligns with the Pareto efficient frontier defined by the utilities of all market participants. With the help of this result, we establish analytical and numerical results for the limiting price in different market models. Specifically, we show that the limiting price converges to the geometric mean of agent beliefs in exponential utility-based markets. In risk-measure-based markets, we construct a family of risk measures that satisfy the convergence criteria and prove that the price can converge to a unique level represented by the weighted power mean of agent beliefs. In broader markets with Constant Relative Risk Aversion (CRRA) utilities, we reveal that the limiting price can be characterized by systems of equations that encapsulate agent beliefs, risk parameters, and wealth. Despite the potential impact of traders' trading sequences on the limiting price, we establish a price invariance result for markets with a large trader population. Using this result, we propose an efficient approximation scheme for the limiting price.
翻訳日:2023-11-10 19:13:15 公開日:2023-11-09
# 意図に基づく文脈インフォーマル性予測モデルとカリキュラム学習への応用

An Attention-Based Model for Predicting Contextual Informativeness and Curriculum Learning Applications ( http://arxiv.org/abs/2204.09885v2 )

ライセンス: Link先を確認
Sungjin Nam, David Jurgens, Gwen Frishkoff, Kevyn Collins-Thompson(参考訳) 人間と機械は文中の文脈情報を通じて未知の単語の意味を学習するが、全ての文脈が学習に等しく役立つわけではない。 目的語に対する文脈情報化のレベルをキャプチャする効果的な手法を提案する。 私たちの研究は3つの主な貢献をしている。 まず,文の指導的側面に着目し,文脈情報度を推定するモデルを開発した。 事前学習した埋め込みを用いた注意ベースのアプローチは、単一コンテキストデータセットと既存のマルチセンスコンテキストデータセットに対して最先端のパフォーマンスを示す。 第二に、我々のモデルは、対象語に対する読者の理解に最も寄与するであろう文中の重要な文脈要素を特定する方法を示す。 第3に,学習者のための語彙学習アプリケーション用に開発された文脈情報モデルが,バッチ学習やマイナショット機械学習の設定において,単語埋め込みモデルの訓練用キュリキュラの開発にどのように役立つかを検討する。 我々は,人間と機械の学習者の両方に言語学習をサポートするアプリケーションに新たな可能性を開くと信じている。

Both humans and machines learn the meaning of unknown words through contextual information in a sentence, but not all contexts are equally helpful for learning. We introduce an effective method for capturing the level of contextual informativeness with respect to a given target word. Our study makes three main contributions. First, we develop models for estimating contextual informativeness, focusing on the instructional aspect of sentences. Our attention-based approach using pre-trained embeddings demonstrates state-of-the-art performance on our single-context dataset and an existing multi-sentence context dataset. Second, we show how our model identifies key contextual elements in a sentence that are likely to contribute most to a reader's understanding of the target word. Third, we examine how our contextual informativeness model, originally developed for vocabulary learning applications for students, can be used for developing better training curricula for word embedding models in batch learning and few-shot machine learning settings. We believe our results open new possibilities for applications that support language learning for both human and machine learners.
翻訳日:2023-11-10 19:12:51 公開日:2023-11-09
# コードクローン検出のためのショットおよびコントラスト学習手法の評価

Evaluating few shot and Contrastive learning Methods for Code Clone Detection ( http://arxiv.org/abs/2204.07501v3 )

ライセンス: Link先を確認
Mohamad Khajezade, Fatemeh Hendijani Fard and Mohamed S. Shehata(参考訳) コンテキスト: コードクローン検出(ccd: code clone detection)は、盗作の検出、コード検索、コード理解に使用されるソフトウェアエンジニアリングタスクである。 近年、ディープラーニングベースのモデルは、codexglueベンチマークで$\sim$95\%のf1スコア(分類器の評価に使用されるメトリクス)を達成している。 これらのモデルは、主にJavaまたはC++データセットに微調整された多くのトレーニングデータを必要とする。 しかし、注釈付きデータの限られた量が利用できるこれらのモデルの一般化可能性を評価する以前の研究はない。 目的: 本研究の目的は, ccdモデルの能力を評価することと, 未熟なプログラミング問題や新しい言語に対するショット学習アルゴリズム(つまり, モデルがこれらの問題/言語に基づいて訓練されていないこと)を評価することである。 方法:3つのシナリオを設定して,CCD用アートモデルの一般化可能性を評価する。 i) 目に見えない問題 ii) 未知の言語 三 新しい言語と新しい問題の組み合わせ BigCloneBench、POJ-104、CodeNet、Java、C++、Ruby言語の3つのデータセットを選択します。 次にモデル非依存型メタラーニング(maml)を採用し、モデルが列車セットから転送可能な知識を抽出できるメタリーナーを学習し、いくつかのサンプルを用いてモデルを微調整する。 最後に,MAMLと対比学習を組み合わせることで,MAMLの結果を改善することができるかどうかをさらに研究する。

Context: Code Clone Detection (CCD) is a software engineering task that is used for plagiarism detection, code search, and code comprehension. Recently, deep learning-based models have achieved an F1 score (a metric used to assess classifiers) of $\sim$95\% on the CodeXGLUE benchmark. These models require many training data, mainly fine-tuned on Java or C++ datasets. However, no previous study evaluates the generalizability of these models where a limited amount of annotated data is available. Objective: The main objective of this research is to assess the ability of the CCD models as well as few shot learning algorithms for unseen programming problems and new languages (i.e., the model is not trained on these problems/languages). Method: We assess the generalizability of the state of the art models for CCD in few shot settings (i.e., only a few samples are available for fine-tuning) by setting three scenarios: i) unseen problems, ii) unseen languages, iii) combination of new languages and new problems. We choose three datasets of BigCloneBench, POJ-104, and CodeNet and Java, C++, and Ruby languages. Then, we employ Model Agnostic Meta-learning (MAML), where the model learns a meta-learner capable of extracting transferable knowledge from the train set; so that the model can be fine-tuned using a few samples. Finally, we combine contrastive learning with MAML to further study whether it can improve the results of MAML.
翻訳日:2023-11-10 19:12:34 公開日:2023-11-09
# プロキシフリーフェデレーション蒸留における分散知識の一致の探索

Exploring the Distributed Knowledge Congruence in Proxy-data-free Federated Distillation ( http://arxiv.org/abs/2204.07028v5 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Quyang Pan, Junbo Zhang, Zeju Li, Qingxiang Liu(参考訳) Federated Learning(FL)は、サーバがプライベートデータを組み立てることなく、クライアントからのローカルモデルパラメータを定期的に集約する、プライバシー保護機械学習パラダイムである。 制約のあるコミュニケーションとパーソナライズ要件はFLに深刻な課題をもたらす。 サーバとクライアント間で知識を交換し、異種局所モデルをサポートし、通信オーバーヘッドを大幅に低減するフェデレート蒸留(FD)を提案している。 しかし、既存のFDメソッドのほとんどはプロキシデータセットを必要としており、現実には利用できないことが多い。 最近のプロキシデータフリーなFDアプローチでは、追加の公開データの必要性を排除できるが、クライアント側モデルの不均一性によるローカル知識の相違により、サーバ上で曖昧な表現が行われ、必然的に精度が低下する。 この問題に対処するため,分散知識合同(FedDKC)に基づくプロキシフリーFDアルゴリズムを提案する。 FedDKCは、よく設計された洗練戦略を利用して、局所的な知識の違いを許容できる上限に絞り込み、知識の不一致の負の効果を軽減する。 具体的には、局所知識のピーク確率とシャノンエントロピーの観点から、カーネルベースの知識精錬(KKR)と探索ベースの知識精錬(SKR)をそれぞれ設計し、局所知識がほぼ同種の分布を満たすことを理論的に保証し、同種と見なす。 3つの共通データセットで行った大規模な実験により,提案したFedDKCは,様々な異種環境における最先端性を著しく向上しつつ,収束速度を著しく向上させることが示された。

Federated learning (FL) is a privacy-preserving machine learning paradigm in which the server periodically aggregates local model parameters from clients without assembling their private data. Constrained communication and personalization requirements pose severe challenges to FL. Federated distillation (FD) is proposed to simultaneously address the above two problems, which exchanges knowledge between the server and clients, supporting heterogeneous local models while significantly reducing communication overhead. However, most existing FD methods require a proxy dataset, which is often unavailable in reality. A few recent proxy-data-free FD approaches can eliminate the need for additional public data, but suffer from remarkable discrepancy among local knowledge due to client-side model heterogeneity, leading to ambiguous representation on the server and inevitable accuracy degradation. To tackle this issue, we propose a proxy-data-free FD algorithm based on distributed knowledge congruence (FedDKC). FedDKC leverages well-designed refinement strategies to narrow local knowledge differences into an acceptable upper bound, so as to mitigate the negative effects of knowledge incongruence. Specifically, from perspectives of peak probability and Shannon entropy of local knowledge, we design kernel-based knowledge refinement (KKR) and searching-based knowledge refinement (SKR) respectively, and theoretically guarantee that the refined-local knowledge can satisfy an approximately-similar distribution and be regarded as congruent. Extensive experiments conducted on three common datasets demonstrate that our proposed FedDKC significantly outperforms the state-of-the-art on various heterogeneous settings while evidently improving the convergence speed.
翻訳日:2023-11-10 19:12:09 公開日:2023-11-09
# 連合学習における不正中央サーバによる完全高精度メンバーシップ推定

Perfectly Accurate Membership Inference by a Dishonest Central Server in Federated Learning ( http://arxiv.org/abs/2203.16463v2 )

ライセンス: Link先を確認
Georg Pichler and Marco Romanelli and Leonardo Rey Vega and Pablo Piantanida(参考訳) Federated Learningは、グラデーションやモデルパラメータだけでなく、クライアント間またはクライアントと中央サーバ間でのプレーンテキストトレーニングデータが交換されることはないため、強力なプライバシー保証を提供すると期待されている。 本稿では,1つのトレーニングステップにのみ依存する,シンプルだが非常に効果的なメンバシップ推論攻撃アルゴリズムを導入することで,この主張に挑戦する。 一般的な正直な、しかし厳密なモデルとは対照的に、我々は不正な中央サーバを持つフレームワークを調査します。 我々の戦略は、ReLUアクティベーションを持つモデルに適用可能であり、このアクティベーション関数の特性を利用して完全な精度を実現する。 MNIST, CIFAR10, CIFAR100, CelebAデータセットを用いた視覚的分類課題の実証評価により, 数千のサンプルを用いたトレーニングセットにおける1つのサンプルの同定に最適な精度が得られた。 また,cifar100 と celeba のデータセットでは,重複画像が検出されることがある。

Federated Learning is expected to provide strong privacy guarantees, as only gradients or model parameters but no plain text training data is ever exchanged either between the clients or between the clients and the central server. In this paper, we challenge this claim by introducing a simple but still very effective membership inference attack algorithm, which relies only on a single training step. In contrast to the popular honest-but-curious model, we investigate a framework with a dishonest central server. Our strategy is applicable to models with ReLU activations and uses the properties of this activation function to achieve perfect accuracy. Empirical evaluation on visual classification tasks with MNIST, CIFAR10, CIFAR100 and CelebA datasets show that our method provides perfect accuracy in identifying one sample in a training set with thousands of samples. Occasional failures of our method lead us to discover duplicate images in the CIFAR100 and CelebA datasets.
翻訳日:2023-11-10 19:11:37 公開日:2023-11-09
# GANによる顔検出:調査と新たな展望

GAN-generated Faces Detection: A Survey and New Perspectives ( http://arxiv.org/abs/2202.07145v6 )

ライセンス: Link先を確認
Xin Wang, Hui Guo, Shu Hu, Ming-Ching Chang, Siwei Lyu(参考訳) generative adversarial networks (gan) は、偽のソーシャルメディアアカウントやその他の偽情報に使われ、重大な影響をもたらすような、非常に現実的な顔画像の生成につながった。 したがって、対応するGAN顔検出技術は、そのような偽の顔を調べ、露出させることのできる活発な開発が進められている。 本稿では,gan顔検出の最近の進歩を総合的に検討することを目的とする。 我々は、GANモデルから生成または合成された顔画像を検出する方法に焦点を当てる。 既存の検出作業は,(1)深層学習に基づく,(2)物理に基づく,(3)生理的手法,(4)人間の視覚性能に対する評価と比較の4つのカテゴリに分類した。 各カテゴリについて、キーとなるアイデアをまとめ、メソッドの実装と結びつけます。 オープンな問題も議論し、今後の研究方向性を提案する。

Generative Adversarial Networks (GAN) have led to the generation of very realistic face images, which have been used in fake social media accounts and other disinformation matters that can generate profound impacts. Therefore, the corresponding GAN-face detection techniques are under active development that can examine and expose such fake faces. In this work, we aim to provide a comprehensive review of recent progress in GAN-face detection. We focus on methods that can detect face images that are generated or synthesized from GAN models. We classify the existing detection works into four categories: (1) deep learning-based, (2) physical-based, (3) physiological-based methods, and (4) evaluation and comparison against human visual performance. For each category, we summarize the key ideas and connect them with method implementations. We also discuss open problems and suggest future research directions.
翻訳日:2023-11-10 19:11:17 公開日:2023-11-09
# ボソンサンプリングによる複数同一ボソンの作業分布の効率良くシミュレーション

Efficiently simulating the work distribution of multiple identical bosons with boson sampling ( http://arxiv.org/abs/2201.01562v4 )

ライセンス: Link先を確認
Wen-Qiang Liu and Zhang-qi Yin(参考訳) ボーソンサンプリングは理論的に提案され、量子計算の利点を示すために実験的に実証されている。 しかし、ボソンサンプリングの実践的応用の深い理解はいまだに欠けている。 本稿では,複数の同一ボソンの作業分布を効率的にシミュレートするために,ボソンサンプリングを用いることを提案する。 作業分布をボソンサンプリングにリンクし、1次元量子ピストン系における単一ボソン固有状態間の遷移振幅行列を数値計算し、その行列をボソンサンプリングの線形光ネットワークにマッピングする。 グループ化確率推定法を用いて、ボソンサンプリングの出力確率により効率よく作業分布をシミュレートすることができる。 このスキームは、少なくともサンプルと光学素子の多項式数を必要とする。 我々の研究は、光子と線形光学のみを用いた複雑な量子ワーク分布の計算への新しい道を開く。

Boson sampling has been theoretically proposed and experimentally demonstrated to show quantum computational advantages. However, it still lacks the deep understanding of the practical applications of boson sampling. Here we propose that boson sampling can be used to efficiently simulate the work distribution of multiple identical bosons. We link the work distribution to boson sampling and numerically calculate the transition amplitude matrix between the single-boson eigenstates in a one-dimensional quantum piston system, and then map the matrix to a linear optical network of boson sampling. The work distribution can be efficiently simulated by the output probabilities of boson sampling using the method of the grouped probability estimation. The scheme requires at most a polynomial number of the samples and the optical elements. Our work opens up a new path towards the calculation of complex quantum work distribution using only photons and linear optics.
翻訳日:2023-11-10 19:11:03 公開日:2023-11-09
# 条件付き生成逆ネットワークを用いたCNN予測の解釈

Interpreting CNN Predictions using Conditional Generative Adversarial Networks ( http://arxiv.org/abs/2301.08067v3 )

ライセンス: Link先を確認
R T Akash Guna, Raul Benitez, O K Sikha(参考訳) 本稿では,コンボリューショナルニューラルネットワーク(CNN)の視覚的解釈を生成するために,条件付きGAN(Generative Adversarial Network)を訓練する手法を提案する。 CNNを理解するために、GANは予測を行う際に、CNNがどのように画像を処理しているかに関する情報を訓練する。 情報の提供には、この情報をGANに供給可能な形でどのように表現するか、GANに効果的に表現する方法の2つの主な課題がある。 これらの問題に対処するために,中間解釈マップの累積平均化によるCNNアーキテクチャの適切な表現を開発した。 また、GANに表現を供給し、効果的なトレーニング戦略を選択するための2つの方法を提案する。 我々のアプローチはCNNの一般的な側面を学び、データセットやCNNアーキテクチャに非依存でした。 この研究は質的および定量的評価の両方を含み、提案したGANと最先端のアプローチを比較している。 CNNの初期層と最終層は,提案したGANの解釈において,CNNの解釈に等しく重要であることがわかった。 我々は,CNN を解釈するための GAN の訓練が,速いペースの深層学習の進歩を活用することで,解釈を改善するための扉を開くと信じている。 実験に使われるコードはhttps://github.com/Akash-guna/Explain-CNN-With-GANSで公開されている。

We propose a novel method that trains a conditional Generative Adversarial Network (GAN) to generate visual interpretations of a Convolutional Neural Network (CNN). To comprehend a CNN, the GAN is trained with information on how the CNN processes an image when making predictions. Supplying that information has two main challenges: how to represent this information in a form that is feedable to the GANs and how to effectively feed the representation to the GAN. To address these issues, we developed a suitable representation of CNN architectures by cumulatively averaging intermediate interpretation maps. We also propose two alternative approaches to feed the representations to the GAN and to choose an effective training strategy. Our approach learned the general aspects of CNNs and was agnostic to datasets and CNN architectures. The study includes both qualitative and quantitative evaluations and compares the proposed GANs with state-of-the-art approaches. We found that the initial layers of CNNs and final layers are equally crucial for interpreting CNNs upon interpreting the proposed GAN. We believe training a GAN to interpret CNNs would open doors for improved interpretations by leveraging fast-paced deep learning advancements. The code used for experimentation is publicly available at https://github.com/Akash-guna/Explain-CNN-With-GANS
翻訳日:2023-11-10 19:04:04 公開日:2023-11-09
# 携帯型フリーハンド3次元超音波画像システムによる頸動脈硬化の診断

Automatic Diagnosis of Carotid Atherosclerosis Using a Portable Freehand 3D Ultrasound Imaging System ( http://arxiv.org/abs/2301.03081v2 )

ライセンス: Link先を確認
Jiawen Li, Yunqian Huang, Sheng Song, Hongbo Chen, Junni Shi, Duo Xu, Haibin Zhang, Man Chen, Rui Zheng(参考訳) 本研究の目的は,携帯型3次元超音波画像システムを用いた頸動脈硬化症の深層学習に基づく診断法を開発することである。 ハンドヘルドusスキャナーと電磁追跡システムからなる携帯型3d usシステムを用いて,総計127個の頸動脈スキャンを行った。 まず, u-netセグメンテーションネットワークを用いて2次元横行フレーム上の頸動脈を抽出し, 頸動脈容積の再構成のために高速ドット投影(fdp)法を用いた新しい3次元再構成アルゴリズムを提案した。 さらに,convolutional neural network(畳み込みニューラルネットワーク)を用いて,健康的および病的症例を定性的に分類した。 経時的画像取得と狭窄度測定を含む3次元体積分析法を開発し, 定量的に測定した。 提案システムは, 頸動脈硬化症の診断において0.714, 0.851, 0.803の感度を得た。 自動測定した狭窄度(r=0.762)は経験者測定と良好な相関を示した。 頸動脈硬化症の自動診断には, 3D US 画像を用いた技術が有効である。 提案手法は,より便利な頸動脈動脈硬化検査と臨床経験への依存度を低減できる携帯型3dフリーハンドusシステムのために特別に設計された。

The objective of this study is to develop a deep-learning based detection and diagnosis technique for carotid atherosclerosis using a portable freehand 3D ultrasound (US) imaging system. A total of 127 3D carotid artery scans were acquired using a portable 3D US system which consisted of a handheld US scanner and an electromagnetic tracking system. A U-Net segmentation network was firstly applied to extract the carotid artery on 2D transverse frame, then a novel 3D reconstruction algorithm using fast dot projection (FDP) method with position regularization was proposed to reconstruct the carotid artery volume. Furthermore, a convolutional neural network was used to classify healthy and diseased cases qualitatively. 3D volume analysis methods including longitudinal image acquisition and stenosis grade measurement were developed to obtain the clinical metrics quantitatively. The proposed system achieved sensitivity of 0.714, specificity of 0.851 and accuracy of 0.803 respectively for diagnosis of carotid atherosclerosis. The automatically measured stenosis grade illustrated good correlation (r=0.762) with the experienced expert measurement. The developed technique based on 3D US imaging can be applied to the automatic diagnosis of carotid atherosclerosis. The proposed deep-learning based technique was specially designed for a portable 3D freehand US system, which can provide more convenient carotid atherosclerosis examination and decrease the dependence on clinician's experience.
翻訳日:2023-11-10 19:03:15 公開日:2023-11-09
# 非IIDデータを用いたバッチ正規化損傷フェデレーション学習

Why Batch Normalization Damage Federated Learning on Non-IID Data? ( http://arxiv.org/abs/2301.02982v3 )

ライセンス: Link先を確認
Yanmeng Wang, Qingjiang Shi, Tsung-Hui Chang(参考訳) 有望な分散学習パラダイムとして、フェデレーション学習(FL)では、エッジクライアントのプライバシを保護するとともに、ネットワークエッジでディープニューラルネットワーク(DNN)モデルをトレーニングする。 大規模DNNモデルを訓練するために,バッチ正規化(BN)は訓練を加速し,一般化能力を向上させるためのシンプルかつ効果的な手段であると考えられてきた。 しかし、最近の研究では、BNは非i.d.データの存在下でFLの性能を著しく損なうことが示されている。 この問題に対処するためにいくつかのFLアルゴリズムが提案されているが、中央集権方式と比較しても性能は著しく低下している。 さらに、どちらもBNがFL収束をいかに損なうかを理論的に説明していない。 本稿では,非二項データの下で,BNの局所的パラメータと大域的パラメータのミスマッチが局所的モデルと大域的モデルとの勾配ずれを引き起こし,結果としてFL収束が遅くなり,偏りが生じることを示す最初の収束解析を提案する。 そこで我々は,複数のデータ分布において,反復層ワイドパラメータアグリゲーションを用いて,堅牢なFL性能を実現することができるFedTANというBNに適合した新しいFLアルゴリズムを開発した。 BNベースDNNモデルのトレーニングにおいて,既存のベースラインよりもFedTANの方が優れていることを示す。

As a promising distributed learning paradigm, federated learning (FL) involves training deep neural network (DNN) models at the network edge while protecting the privacy of the edge clients. To train a large-scale DNN model, batch normalization (BN) has been regarded as a simple and effective means to accelerate the training and improve the generalization capability. However, recent findings indicate that BN can significantly impair the performance of FL in the presence of non-i.i.d. data. While several FL algorithms have been proposed to address this issue, their performance still falls significantly when compared to the centralized scheme. Furthermore, none of them have provided a theoretical explanation of how the BN damages the FL convergence. In this paper, we present the first convergence analysis to show that under the non-i.i.d. data, the mismatch between the local and global statistical parameters in BN causes the gradient deviation between the local and global models, which, as a result, slows down and biases the FL convergence. In view of this, we develop a new FL algorithm that is tailored to BN, called FedTAN, which is capable of achieving robust FL performance under a variety of data distributions via iterative layer-wise parameter aggregation. Comprehensive experimental results demonstrate the superiority of the proposed FedTAN over existing baselines for training BN-based DNN models.
翻訳日:2023-11-10 19:02:53 公開日:2023-11-09
# 量子多体理論へのhhlアルゴリズムの適用

Adapting the HHL algorithm to quantum many-body theory ( http://arxiv.org/abs/2212.14781v3 )

ライセンス: Link先を確認
Nishanth Baskaran, Abhishek Singh Rawat, Akshaya Jayashankar, Dibyajyoti Chakravarti, K. Sugisaki, Shibdas Roy, Sudhindu Bikash Mandal, D. Mukherjee, and V. S. Prasannaa(参考訳) 量子化学の近・長期量子アルゴリズム開発における急速な進歩は、従来のアプローチを超えて、量子コンピューティングを電子構造計算に適用する新しい方法を模索する契機となった。 本研究では、量子多体理論と量子線形解法の関係を同定し、Harrow-Hassidim-Lloyd (HHL)アルゴリズムを実装し、(非単位)線形結合クラスタ理論を用いて光分子系の相関エネルギーの正確な予測を行う。 hhlアルゴリズムを2つの新しい側面を統合するために変更する。 (a)任意の対称正定値行列 a をスケールして ax = b を解き、a の固有値を計算することなく、常に合理的な精度で x を達成することができる新しいスケーリング手法を定式化している。 (b)回路全体の深さを減らす手法を考案する。 本稿では, 量子コンピューティングの異なる時代におけるhhlの変種について紹介する。adapthhliteは, 雑音型中間スケール量子(nisq), 後期nisq, 初期のフォールトトレラント時代の適切な形式であり, フォールトトレラント量子コンピューティング時代のadapthhlである。 シミュレーションと11量子ビットのIonQ量子ハードウェアを用いて, 相関エネルギーを高精度に取得し, 同時にリソースリーン化を図りながら, NISQ のAdaptHHLite 変異体を実演する。

Rapid progress in developing near- and long-term quantum algorithms for quantum chemistry has provided us with an impetus to move beyond traditional approaches and explore new ways to apply quantum computing to electronic structure calculations. In this work, we identify the connection between quantum many-body theory and a quantum linear solver, and implement the Harrow-Hassidim-Lloyd (HHL) algorithm to make precise predictions of correlation energies for light molecular systems via the (non-unitary) linearised coupled cluster theory. We alter the HHL algorithm to integrate two novel aspects- (a) we prescribe a novel scaling approach that allows one to scale any arbitrary symmetric positive definite matrix A, to solve for Ax = b and achieve x with reasonable precision, all the while without having to compute the eigenvalues of A, and (b) we devise techniques that reduce the depth of the overall circuit. In this context, we introduce the following variants of HHL for different eras of quantum computing- AdaptHHLite in its appropriate forms for noisy intermediate scale quantum (NISQ), late-NISQ, and the early fault-tolerant eras, as well as AdaptHHL for the fault-tolerant quantum computing era. We demonstrate the ability of the NISQ variant of AdaptHHLite to capture correlation energy precisely, while simultaneously being resource-lean, using simulation as well as the 11-qubit IonQ quantum hardware.
翻訳日:2023-11-10 19:02:29 公開日:2023-11-09
# ブラックボックス機械学習モデルのための一般化可変重要度指標と推定器

A Generalized Variable Importance Metric and Estimator for Black Box Machine Learning Models ( http://arxiv.org/abs/2212.09931v2 )

ライセンス: Link先を確認
Mohammad Kaviul Anam Khan and Rafal Kustra(参考訳) 本研究の目的は,予測関数が複雑であり,統計的パラメータで表現できないブラックボックス機械学習手法における予測器の重要性を定義することである。 本稿では,連続変数やバイナリ応答変数に対する条件付き期待関数を用いて,「一般化変数重要度指標(GVIM)」を定義した。 さらに,定義したGVIMは,多項および連続予測器の条件平均処理効果(CATE)の関数として表せることを示した。 次に,任意の機械学習モデルを用いてメトリクスを推定する方法を提案する。 最後にシミュレーションを用いて,XGBoost,Random Forest,および不特定一般化加法モデルから推定した推定器の特性を評価した。

The aim of this study is to define importance of predictors for black box machine learning methods, where the prediction function can be complex and cannot be represented by statistical parameters. In this paper we defined a ``Generalized Variable Importance Metric (GVIM)'' using the true conditional expectation function for a continuous or a binary response variable. We further showed that the defined GVIM can be represented as a function of the Conditional Average Treatment Effect (CATE) for multinomial and continuous predictors. Then we propose how the metric can be estimated using using any machine learning models. Finally using simulations we evaluated the properties of the estimator when estimated from XGBoost, Random Forest and a mis-specified generalized additive model.
翻訳日:2023-11-10 19:02:03 公開日:2023-11-09
# 近似クエリ処理における合成構築のためのGANベースタブラルデータジェネレータ:課題と解決

GAN-based Tabular Data Generator for Constructing Synopsis in Approximate Query Processing: Challenges and Solutions ( http://arxiv.org/abs/2212.09015v2 )

ライセンス: Link先を確認
Mohammadali Fallahian, Mohsen Dorodchi, Kyle Kreth(参考訳) データ駆動システムでは、リアルタイムな意思決定にはデータ探索が不可欠である。 しかし、ビッグデータは取得が困難な巨大なデータベースに格納される。 近似クエリ処理(英: Approximate Query Processing、AQP)は、実際のデータの振る舞いを忠実に再現するデータ(シノプシス)の要約に基づいて、集約されたクエリに近似的な回答を提供する技術である。 本研究では,AQPを用いて合成構築を行うことのできる表データ生成におけるGAN(Generative Adversarial Networks)の新規活用について検討する。 本稿では,データ分散特性の維持,境界データの扱い,意味的関係の保存,そしてこれらの課題を克服する表型GANアーキテクチャの進歩など,シナプス構築プロセスがもたらす固有の課題について,徹底的に検討する。 さらに,gan生成シナプスの信頼性を評価するために調整された統計指標の組を提案・検証する。 以上の結果から,データ駆動システムにおけるAQPの効率と有効性に変化をもたらす可能性が示唆された。

In data-driven systems, data exploration is imperative for making real-time decisions. However, big data is stored in massive databases that are difficult to retrieve. Approximate Query Processing (AQP) is a technique for providing approximate answers to aggregate queries based on a summary of the data (synopsis) that closely replicates the behavior of the actual data, which can be useful where an approximate answer to the queries would be acceptable in a fraction of the real execution time. This study explores the novel utilization of Generative Adversarial Networks (GANs) in the generation of tabular data that can be employed in AQP for synopsis construction. We thoroughly investigate the unique challenges posed by the synopsis construction process, including maintaining data distribution characteristics, handling bounded continuous and categorical data, and preserving semantic relationships and then introduce the advancement of tabular GAN architectures that overcome these challenges. Furthermore, we propose and validate a suite of statistical metrics tailored for assessing the reliability of the GAN-generated synopses. Our findings demonstrate that advanced GAN variations exhibit a promising capacity to generate high-fidelity synopses, potentially transforming the efficiency and effectiveness of AQP in data-driven systems.
翻訳日:2023-11-10 19:01:50 公開日:2023-11-09
# PT対称量子ラビモデル

PT-symmetric quantum Rabi model ( http://arxiv.org/abs/2212.06586v3 )

ライセンス: Link先を確認
Xilin Lu, Hui Li, Jia-Kai Shi, Li-Bao Fan, Vladimir Mangazeev, Zi-Min Li, and Murray T. Batchelor(参考訳) 本研究では,pt対称量子ラビモデルについて,量子化された光場に結合したpt対称量子ビットを記述する。 アディバティック近似(AA)を用いることで、関心のパラメータ構造を解析的に解き、様々な物理的側面を分析することができる。 AAと数値対角化の両方を用いて,モデルの静的および動的特性について検討する。 我々の分析では、モデルのエルミート対応の正確な解点と密接な関係を持つ多数の例外点(EP)を明らかにする。 興味深いことに、これらのEPは光-物質結合強度によって消滅し、復活する。 さらに、非エルミート・ハミルトニアンの下での物理可観測物の時間発展についても論じる。 リッチおよびエキゾチックな挙動は、強結合と超強結合の双方で観察される。 我々の研究はPT対称性の理論を完全な量子光-物質相互作用系に拡張し、量子光学系の幅広いクラスに容易に拡張できる洞察を提供する。

In this work, we explore the PT-symmetric quantum Rabi model, which describes a PT-symmetric qubit coupled to a quantized light field. By employing the adiabatic approximation (AA), we are able to solve this model analytically in the parameter regime of interest and analyze various physical aspects. We investigate the static and dynamic properties of the model, using both the AA and numerical diagonalization. Our analysis reveals a multitude of exceptional points (EPs) that are closely connected with the exactly solvable points in the Hermitian counterpart of the model. Intriguingly, these EPs vanish and revive depending on the light-matter coupling strength. Furthermore, we discuss the time evolution of physical observables under the non-Hermitian Hamiltonian. Rich and exotic behaviors are observed in both strong and ultra-strong coupling regimes. Our work extends the theory of PT symmetry into the full quantum light-matter interaction regime and provides insights that can be readily enlarged to a broad class of quantum optical systems.
翻訳日:2023-11-10 19:01:28 公開日:2023-11-09
# ストラグラー-弾力性差分型分散型学習

Straggler-Resilient Differentially-Private Decentralized Learning ( http://arxiv.org/abs/2212.03080v2 )

ライセンス: Link先を確認
Yauhen Yakimenka, Chung-Wei Weng, Hsuan-Yin Lin, Eirik Rosnes, and J\"org Kliewer(参考訳) ユーザデータのプライバシを保ちながら,論理リング上の分散学習におけるストラグラー問題を考える。 特に,Cyffers と Bellet による分散化により,最近提案された差分プライバシー(DP)増幅フレームワークを拡張して,計算処理と通信遅延の両面でのトレーニング遅延を包含する。 収束速度とDPレベルの両方の分析結果は、スキップスキーム(タイムアウト後にストラグラーを無視する)と、トレーニングが続く前に各ノードが終了するのを待つベースラインスキームの両方に対して導出される。 スキップスキームのタイムアウトによってパラメータ化され,実世界のデータセット上でのロジスティック回帰と,MNISTとCIFAR-10データセットを用いた画像分類において,全体のトレーニングレイテンシ,精度,プライバシのトレードオフを識別し,実証的に検証する。

We consider the straggler problem in decentralized learning over a logical ring while preserving user data privacy. Especially, we extend the recently proposed framework of differential privacy (DP) amplification by decentralization by Cyffers and Bellet to include overall training latency--comprising both computation and communication latency. Analytical results on both the convergence speed and the DP level are derived for both a skipping scheme (which ignores the stragglers after a timeout) and a baseline scheme that waits for each node to finish before the training continues. A trade-off between overall training latency, accuracy, and privacy, parameterized by the timeout of the skipping scheme, is identified and empirically validated for logistic regression on a real-world dataset and for image classification using the MNIST and CIFAR-10 datasets.
翻訳日:2023-11-10 19:01:12 公開日:2023-11-09
# 遅発性特徴に対する単一画像の超解像再構成

Super-resolution Reconstruction of Single Image for Latent features ( http://arxiv.org/abs/2211.12845v3 )

ライセンス: Link先を確認
Xin Wang, Jing-Ke Yan, Jing-Ye Cai, Jian-Hua Deng, Qin Qin, Yao Cheng(参考訳) 単一像超解像(SISR)は、通常、様々な劣化した低分解能(LR)画像を単一の高分解能(HR)画像に復元することに焦点を当てる。 しかし、SISRタスクの間、モデルが細部やテクスチャの多様性を保ちながら高品質かつ迅速なサンプリングを同時に維持することはしばしば困難である。 この課題は、モデル崩壊、再構成されたHR画像における豊富な詳細とテクスチャの欠如、モデルサンプリングの過剰な時間消費などの問題を引き起こす可能性がある。 これらの問題に対処するため,本稿では遅延特徴指向拡散確率モデル(LDDPM)を提案する。 まず、LR画像を効果的に符号化し、モデル画像再構成のための解空間を小さくし、再構成画像の品質を向上させる条件エンコーダを設計した。 次に,複雑なマルチモーダル分布から学習し,正規化フローとマルチモーダル逆学習を行い,分母分布をモデル化した。 これにより、最小限のサンプリングステップで生成モデリング能力が向上する。 提案モデルと既存のSISR法との比較実験により,本モデルがより現実的なHR画像を再構成し,複数の評価指標の性能向上を実現し,SISRタスクの新たな視点を提供することを示す。

Single-image super-resolution (SISR) typically focuses on restoring various degraded low-resolution (LR) images to a single high-resolution (HR) image. However, during SISR tasks, it is often challenging for models to simultaneously maintain high quality and rapid sampling while preserving diversity in details and texture features. This challenge can lead to issues such as model collapse, lack of rich details and texture features in the reconstructed HR images, and excessive time consumption for model sampling. To address these problems, this paper proposes a Latent Feature-oriented Diffusion Probability Model (LDDPM). First, we designed a conditional encoder capable of effectively encoding LR images, reducing the solution space for model image reconstruction and thereby improving the quality of the reconstructed images. We then employed a normalized flow and multimodal adversarial training, learning from complex multimodal distributions, to model the denoising distribution. Doing so boosts the generative modeling capabilities within a minimal number of sampling steps. Experimental comparisons of our proposed model with existing SISR methods on mainstream datasets demonstrate that our model reconstructs more realistic HR images and achieves better performance on multiple evaluation metrics, providing a fresh perspective for tackling SISR tasks.
翻訳日:2023-11-10 19:00:35 公開日:2023-11-09
# 量子集合反転のための計算機実験のベイズ的逐次設計

Bayesian sequential design of computer experiments for quantile set inversion ( http://arxiv.org/abs/2211.01008v3 )

ライセンス: Link先を確認
Romain Ait Abdelmalek-Lomenech (L2S, GdR MASCOT-NUM), Julien Bect (L2S, GdR MASCOT-NUM), Vincent Chabridon (EDF R&D PRISME, GdR MASCOT-NUM), Emmanuel Vazquez (L2S, GdR MASCOT-NUM)(参考訳) 複雑な数値シミュレータのようなシステムを表す未知の多変量関数が決定論的入力と不確定入力の両方を取る。 我々の目的は、与えられた集合に属する確率(不確実な入力の分布に関する)が与えられた閾値未満である出力につながる決定論的入力の集合を推定することである。 この問題はQuantile Set Inversion (QSI)と呼ばれ、例えば十分に大きな確率で制約を満たす解の集合を探す際に、堅牢な(信頼性に基づく)最適化問題の文脈で発生する。 QSI問題を解決するために,ガウス過程モデリングとステップワイド不確実性低減(SUR)原理に基づくベイズ戦略を提案する。 いくつかの数値実験を通して提案したSUR戦略の性能と関心について述べる。

We consider an unknown multivariate function representing a system-such as a complex numerical simulator-taking both deterministic and uncertain inputs. Our objective is to estimate the set of deterministic inputs leading to outputs whose probability (with respect to the distribution of the uncertain inputs) of belonging to a given set is less than a given threshold. This problem, which we call Quantile Set Inversion (QSI), occurs for instance in the context of robust (reliability-based) optimization problems, when looking for the set of solutions that satisfy the constraints with sufficiently large probability. To solve the QSI problem, we propose a Bayesian strategy based on Gaussian process modeling and the Stepwise Uncertainty Reduction (SUR) principle, to sequentially choose the points at which the function should be evaluated to efficiently approximate the set of interest. We illustrate the performance and interest of the proposed SUR strategy through several numerical experiments.
翻訳日:2023-11-10 18:59:46 公開日:2023-11-09
# グラフガウス過程による多様体の最適化

Optimization on Manifolds via Graph Gaussian Processes ( http://arxiv.org/abs/2210.10962v3 )

ライセンス: Link先を確認
Hwanwoo Kim, Daniel Sanz-Alonso, and Ruiyi Yang(参考訳) 本稿では,多様体上の目的関数を最適化するために,<emph{Gaussian process upper confidence bound} アルゴリズム内に多様体学習技術を統合する。 我々のアプローチは、多様体の完全な表現が得られず、目的を問うのが高価であるアプリケーションによって動機付けられている。 目的のためのグラフガウス過程代理モデルを定義するために、多様体サンプルの点雲を利用する。 クエリポイントは、以前の全てのクエリに対してサロゲートモデルの後方分布を用いて順次選択される。 クエリの数とポイントクラウドのサイズに関して、後悔すべき境界を定めています。 いくつかの数値的な例がこの理論を補完し、本手法の性能を示す。

This paper integrates manifold learning techniques within a \emph{Gaussian process upper confidence bound} algorithm to optimize an objective function on a manifold. Our approach is motivated by applications where a full representation of the manifold is not available and querying the objective is expensive. We rely on a point cloud of manifold samples to define a graph Gaussian process surrogate model for the objective. Query points are sequentially chosen using the posterior distribution of the surrogate model given all previous queries. We establish regret bounds in terms of the number of queries and the size of the point cloud. Several numerical examples complement the theory and illustrate the performance of our method.
翻訳日:2023-11-10 18:59:27 公開日:2023-11-09
# 任意サイズのブラックボックス量子演算における誤差抑制

Error Suppression for Arbitrary-Size Black Box Quantum Operations ( http://arxiv.org/abs/2210.10733v2 )

ライセンス: Link先を確認
Gideon Lee, Connor T. Hann, Shruti Puri, S. M. Girvin, Liang Jiang(参考訳) NISQデバイスを用いたアプリケーションでは,完全誤り訂正のないエラーの効率的な抑制が不可欠である。 誤り緩和により、誤り訂正符号を必要とせずに期待値を抽出するエラーを抑制できるが、その応用は期待値の推定に限定され、任意の量子状態に作用する高忠実な量子演算を提供することはできない。 この課題に対処するために,完全量子誤り訂正を使わずに,ゲートベースの量子計算にエラーフィルタ(EF)を実用的なエラー抑制手法として用いることを提案する。 その結果、エラー抑制に必要なリソースは量子演算のサイズとは無関係にスケールし、操作の論理的なエンコーディングを必要としない汎用的エラー抑制プロトコルとなる。 このプロトコルは、エラー階層が尊重されるたびにエラーを抑圧する -- すなわち、アシリヤのcSWAP操作が修正される操作よりもノイズが少ない場合。 さらに、EFの量子ランダムアクセスメモリへの応用を解析し、ハードウェア効率のよいエラー抑制を提供する。

Efficient suppression of errors without full error correction is crucial for applications with NISQ devices. Error mitigation allows us to suppress errors in extracting expectation values without the need for any error correction code, but its applications are limited to estimating expectation values, and cannot provide us with high-fidelity quantum operations acting on arbitrary quantum states. To address this challenge, we propose to use error filtration (EF) for gate-based quantum computation, as a practical error suppression scheme without resorting to full quantum error correction. The result is a general-purpose error suppression protocol where the resources required to suppress errors scale independently of the size of the quantum operation, and does not require any logical encoding of the operation. The protocol provides error suppression whenever an error hierarchy is respected -- that is, when the ancilliary cSWAP operations are less noisy than the operation to be corrected. We further analyze the application of EF to quantum random access memory, where EF offers hardware-efficient error suppression.
翻訳日:2023-11-10 18:59:11 公開日:2023-11-09
# 変分自由エネルギー最小化によるベイズニューラルネットワークの原理的プルーニング

Principled Pruning of Bayesian Neural Networks through Variational Free Energy Minimization ( http://arxiv.org/abs/2210.09134v3 )

ライセンス: Link先を確認
Jim Beckers, Bart van Erp, Ziyue Zhao, Kirill Kondrashov and Bert de Vries(参考訳) ベイズモデル還元は、これらのサブモデルを再評価することなく、モデルのネストした全てのサブモデルのパフォーマンスを比較するための効率的なアプローチを提供する。 これまでベイズモデル還元は、主に計算神経科学のコミュニティで単純なモデルに応用されてきた。 本稿では,変分自由エネルギー最小化に基づくベイズニューラルネットワークの原理的プルーニングを行うためにベイズモデル削減を定式化し,適用する。 しかし、ベイズモデル還元の直接的適用は近似誤差をもたらす。 そこで,様々な推論アルゴリズムに対して,公開可能なuciデータセット上で実験的にサポートされているような,ナイーブベイズモデル還元に起因する問題を緩和するために,新しい反復pruningアルゴリズムを提案する。 この新たなパラメータプルーニングスキームは,信号処理コミュニティが使用する最先端プルーニング手法の欠点を解決する。 提案手法は、明確な停止基準を持ち、トレーニング中に使用されるのと同じ目的を最小化する。 これらの利点の次は、最先端プルーニング方式と比較してモデル性能が良いことを示す。

Bayesian model reduction provides an efficient approach for comparing the performance of all nested sub-models of a model, without re-evaluating any of these sub-models. Until now, Bayesian model reduction has been applied mainly in the computational neuroscience community on simple models. In this paper, we formulate and apply Bayesian model reduction to perform principled pruning of Bayesian neural networks, based on variational free energy minimization. Direct application of Bayesian model reduction, however, gives rise to approximation errors. Therefore, a novel iterative pruning algorithm is presented to alleviate the problems arising with naive Bayesian model reduction, as supported experimentally on the publicly available UCI datasets for different inference algorithms. This novel parameter pruning scheme solves the shortcomings of current state-of-the-art pruning methods that are used by the signal processing community. The proposed approach has a clear stopping criterion and minimizes the same objective that is used during training. Next to these benefits, our experiments indicate better model performance in comparison to state-of-the-art pruning schemes.
翻訳日:2023-11-10 18:58:53 公開日:2023-11-09
# 低密度のパイロットを持つ大規模mimoシステムのためのデュアルアテンションベースのチャネル推定ネットワーク

Pay Less But Get More: A Dual-Attention-based Channel Estimation Network for Massive MIMO Systems with Low-Density Pilots ( http://arxiv.org/abs/2303.00986v2 )

ライセンス: Link先を確認
Binggui Zhou, Xi Yang, Shaodan Ma, Feifei Gao, and Guanghua Yang(参考訳) 大規模マルチインプット・マルチアウトプット(MIMO)システムの有望な利点を享受するには,チャネル推定により正確なチャネル状態情報(CSI)が必要となる。 しかし、複雑な無線伝搬環境と大規模アンテナアレーにより、大規模mimoシステムの正確なチャネル推定は極めて困難であり、膨大なトレーニングオーバーヘッドがかかる。 CSIの十分な精度を得るために時間的資源が消費され、それによってシステムのスペクトルとエネルギー効率が著しく低下する。 本稿では,時間的注意モジュールと空間的注意モジュールを併用した大規模mimoチャネルの空間-時間領域特徴を共同で学習することにより,低密度パイロットによる正確なチャネル推定を実現するdacenを提案する。 推定精度をさらに向上するため,トレーニングデータセット収集期間中に取得した高密度パイロットから学んだチャネル知識を伝達するためのパラメータ-インスタンス変換学習手法を提案する。 実験結果から,提案手法はパイロット密度設定と信号対雑音比の異なる既存手法よりも優れたチャネル推定性能が得られることがわかった。 さらに,提案手法のパラメータ-インスタンス間移動学習手法により,DACEN法はさらなる性能向上を実現し,提案手法の有効性と優位性を示す。

To reap the promising benefits of massive multiple-input multiple-output (MIMO) systems, accurate channel state information (CSI) is required through channel estimation. However, due to the complicated wireless propagation environment and large-scale antenna arrays, precise channel estimation for massive MIMO systems is significantly challenging and costs an enormous training overhead. Considerable time-frequency resources are consumed to acquire sufficient accuracy of CSI, which thus severely degrades systems' spectral and energy efficiencies. In this paper, we propose a dual-attention-based channel estimation network (DACEN) to realize accurate channel estimation via low-density pilots, by jointly learning the spatial-temporal domain features of massive MIMO channels with the temporal attention module and the spatial attention module. To further improve the estimation accuracy, we propose a parameter-instance transfer learning approach to transfer the channel knowledge learned from the high-density pilots pre-acquired during the training dataset collection period. Experimental results reveal that the proposed DACEN-based method achieves better channel estimation performance than the existing methods under various pilot-density settings and signal-to-noise ratios. Additionally, with the proposed parameter-instance transfer learning approach, the DACEN-based method achieves additional performance gain, thereby further demonstrating the effectiveness and superiority of the proposed method.
翻訳日:2023-11-10 18:52:26 公開日:2023-11-09
# プログレッシブアンサンブル蒸留:効率的な推論のためのアンサンブルの構築

Progressive Ensemble Distillation: Building Ensembles for Efficient Inference ( http://arxiv.org/abs/2302.10093v2 )

ライセンス: Link先を確認
Don Kurian Dennis, Abhishek Shetty, Anish Sevekari, Kazuhito Koishida, Virginia Smith(参考訳) 大規模で事前訓練された教師モデル$g$を前提として、モデルをより小さく低推論コストの学生モデル$f_i$に分解し、このアンサンブルに付加的なモデルを段階的に評価することで予測を改善する。 結果として得られるアンサンブルにより、実行時の精度と推論コストを柔軟に調整することが可能となり、オンデバイス推論における多くのアプリケーションに有用である。 提案手法であるb-distil は,中間アクティベーション上の関数合成を用いて,$g$ と類似の性能を持つ表現型アンサンブルを構築するアルゴリズム的手法に依拠している。 標準画像,音声,センサデータセット間で事前学習したモデルを分解することで,B-DISTILの有効性を示す。 また、収束と一般化の観点から理論的な保証を提供する。

We study the problem of progressive ensemble distillation: Given a large, pretrained teacher model $g$, we seek to decompose the model into smaller, low-inference cost student models $f_i$, such that progressively evaluating additional models in this ensemble leads to improved predictions. The resulting ensemble allows for flexibly tuning accuracy vs. inference cost at runtime, which is useful for a number of applications in on-device inference. The method we propose, B-DISTIL , relies on an algorithmic procedure that uses function composition over intermediate activations to construct expressive ensembles with similar performance as $g$ , but with smaller student models. We demonstrate the effectiveness of B-DISTIL by decomposing pretrained models across standard image, speech, and sensor datasets. We also provide theoretical guarantees in terms of convergence and generalization.
翻訳日:2023-11-10 18:50:46 公開日:2023-11-09
# 悪意ノードのサブセットを持つ情報理論セキュア量子鍵分布ネットワーク

Information-theoretical Secure quantum key distribution Networks with a subset of malicious nodes ( http://arxiv.org/abs/2302.07688v2 )

ライセンス: Link先を確認
Yi Luo, Qiong Li, Hao-Kun Mao and Nan Chen(参考訳) 量子鍵分布(QKD)ネットワークは,大規模ネットワーク上でのITS通信を可能にすることが期待されている。 リレーベースのQKDネットワークに関するほとんどの研究は、すべてのリレーやノードが完全に信頼できると仮定している。 しかし、単一ノードの悪意ある振る舞いは、QKDネットワークのセキュリティを損なう可能性がある。 qkd(quantum key distribution)ネットワークに関する現在の研究は、主に悪意のあるノードによる盗聴などの受動的攻撃に対処している。 アクティブアタックに対抗するために、多数決やポイントツーポイントQKDシステムの秘密共有のようなソリューションが提案されているが、セキュリティ要件が異なるため、これらの戦略はQKDネットワーク研究に直接転送することはできない。 本稿では,QKDネットワークのセキュリティ要件に対する新たなパラダイムを提案し,悪意のあるノードの協調によるアクティブアタックに対処する。 まず、QKDネットワークに2つの重要なセキュリティ特性を提供するITS分散認証方式について紹介する。 次に,その正確性について,一貫性を確保するためのフォールトトレラントコンセンサススキームを提案する。 シミュレーションにより,本手法は従来の鍵共有方式に比べてキー使用量の増加傾向が著しく低いことを示した。 例えば、ノード番号が80であるような大きなネットワークでは、我々のスキームのキー消費は、事前共有されたキースキームの13.1\%に過ぎません。

Quantum key distribution (QKD) networks are expected to enable information-theoretical secure (ITS) communication over a large-scale network. Most researches on relay-based QKD network assume that all relays or nodes are completely trustworthy. However, the malicious behavior of any single node can undermine security of QKD networks. Current research on Quantum Key Distribution (QKD) networks primarily addresses passive attacks, such as eavesdropping, conducted by malicious nodes. Although there are proposed solutions like majority voting and secret sharing for point-to-point QKD systems to counter active attacks, these strategies are not directly transferable to QKD network research due to different security requirements. We propose the a new paradigm for the security requirements of QKD networks and addresses the active attack by collaborate malicious nodes. First, we introduce the ITS distributed authentication scheme, which additionally offers two crucial security properties to QKD networks: identity unforgeability and non-repudiation. Secondly, concerning correctness, we propose an ITS fault-tolerant consensus scheme to ensure consistency, enabling participating nodes to collaborate correctly in a more practical manner. Through our simulation, we have shown that our scheme exhibits a significantly lower growth trend in key consumption compared to the original pre-shared keys scheme. For instance, in larger networks such as when the nodes number is 80, our scheme's key consumption is only 13.1\% of the pre-shared keys scheme.
翻訳日:2023-11-10 18:50:10 公開日:2023-11-09
# 推論・幻覚・対話性におけるchatgptのマルチタスク・マルチリンガル・マルチモーダル評価

A Multitask, Multilingual, Multimodal Evaluation of ChatGPT on Reasoning, Hallucination, and Interactivity ( http://arxiv.org/abs/2302.04023v3 )

ライセンス: Link先を確認
Yejin Bang, Samuel Cahyawijaya, Nayeon Lee, Wenliang Dai, Dan Su, Bryan Wilie, Holy Lovenia, Ziwei Ji, Tiezheng Yu, Willy Chung, Quyet V. Do, Yan Xu, Pascale Fung(参考訳) 本稿では,ChatGPT などの対話型 LLM を公開データセットを用いて定量的に評価するためのフレームワークを提案する。 8種類の共通NLPアプリケーションタスクをカバーする23のデータセットを用いてChatGPTの広範な技術的評価を行う。 これらのデータセットと、新たに設計されたマルチモーダルデータセットに基づいて、ChatGPTのマルチタスク、マルチ言語、マルチモーダルの側面を評価する。 また、ChatGPTは、ほとんどのタスクでゼロショット学習でLLMよりも優れており、一部のタスクでは微調整モデルよりも優れています。 生成するよりも、非ラテン語のスクリプト言語を理解する方が優れていることが分かりました。 中間のコード生成ステップを通じて、テキストプロンプトからマルチモーダルコンテンツを生成することができる。 さらに、ChatGPTは論理的推論、非テクスト的推論、コモンセンス推論の10種類の推論カテゴリで平均63.41%正確であることから、信頼できない推論となる。 例えば、帰納的推論よりも推論的に優れている。 ChatGPTは、他のLLMのような幻覚障害に悩まされており、外部知識ベースにアクセスできないため、そのパラメトリックメモリから外因性幻覚を生成する。 最後に、ChatGPTの対話的機能により、基礎となるLLMとの人間によるコラボレーションにより、要約における8%のROUGE-1、機械翻訳における2%のChrF++をマルチターンの"プロンプトエンジニアリング"方式で改善することができる。 評価セット抽出のためのコードベースもリリースしています。

This paper proposes a framework for quantitatively evaluating interactive LLMs such as ChatGPT using publicly available data sets. We carry out an extensive technical evaluation of ChatGPT using 23 data sets covering 8 different common NLP application tasks. We evaluate the multitask, multilingual and multi-modal aspects of ChatGPT based on these data sets and a newly designed multimodal dataset. We find that ChatGPT outperforms LLMs with zero-shot learning on most tasks and even outperforms fine-tuned models on some tasks. We find that it is better at understanding non-Latin script languages than generating them. It is able to generate multimodal content from textual prompts, via an intermediate code generation step. Moreover, we find that ChatGPT is 63.41% accurate on average in 10 different reasoning categories under logical reasoning, non-textual reasoning, and commonsense reasoning, hence making it an unreliable reasoner. It is, for example, better at deductive than inductive reasoning. ChatGPT suffers from hallucination problems like other LLMs and it generates more extrinsic hallucinations from its parametric memory as it does not have access to an external knowledge base. Finally, the interactive feature of ChatGPT enables human collaboration with the underlying LLM to improve its performance, i.e, 8% ROUGE-1 on summarization and 2% ChrF++ on machine translation, in a multi-turn "prompt engineering" fashion. We also release codebase for evaluation set extraction.
翻訳日:2023-11-10 18:49:44 公開日:2023-11-09
# データ混乱の回避に向けて - データメッシュ実装からの業界洞察

Towards Avoiding the Data Mess: Industry Insights from Data Mesh Implementations ( http://arxiv.org/abs/2302.01713v3 )

ライセンス: Link先を確認
Jan Bode, Niklas K\"uhl, Dominik Kreuzberger, Sebastian Hirschl, Carsten Holtmann(参考訳) データと人工知能の重要性が高まり、組織はデータ駆動型になることを目指している。 しかし、現在のデータアーキテクチャは必ずしもデータとアナリティクスのユースケースの規模と範囲に対応するように設計されているわけではない。 実際、既存のアーキテクチャは、しばしばそれらに関連する約束された価値を提供できない。 data meshは、エンタープライズデータ管理のための、社会技術的、分散化された分散概念である。 データメッシュの概念はまだ新しいので、現場からの経験的な洞察が欠けている。 具体的には、データメッシュの導入に伴うモチベーション要因、関連する課題、実装戦略、ビジネスへの影響、潜在的なアーキタイプが欠落している。 このギャップに対処するため、業界の専門家との15の半構造化インタビューを実施します。 我々の結果は、組織が、データメッシュの概念に関連するフェデレートガバナンスへの移行、データ製品の開発、プロビジョニング、保守に対する責任のシフト、全体的な概念の理解に苦慮していることを示している。 当社の作業では、複数の実装戦略を導き、クロスドメインなステアリングユニットを導入し、データ製品の使用を観察し、初期段階で素早く成果を上げ、データプロダクトを優先する小さな専用チームを好むことを推奨しています。 組織は個々のニーズに応じて実装戦略を適用する必要があることを認めていますが、より詳細な提案を提供する2つのアーキタイプを減じています。 本研究は,業界の専門家による知見を総合し,データメッシュの採用を成功させるための予備的ガイドラインを研究者や専門家に提供する。

With the increasing importance of data and artificial intelligence, organizations strive to become more data-driven. However, current data architectures are not necessarily designed to keep up with the scale and scope of data and analytics use cases. In fact, existing architectures often fail to deliver the promised value associated with them. Data mesh is a socio-technical, decentralized, distributed concept for enterprise data management. As the concept of data mesh is still novel, it lacks empirical insights from the field. Specifically, an understanding of the motivational factors for introducing data mesh, the associated challenges, implementation strategies, its business impact, and potential archetypes is missing. To address this gap, we conduct 15 semi-structured interviews with industry experts. Our results show, among other insights, that organizations have difficulties with the transition toward federated governance associated with the data mesh concept, the shift of responsibility for the development, provision, and maintenance of data products, and the comprehension of the overall concept. In our work, we derive multiple implementation strategies and suggest organizations introduce a cross-domain steering unit, observe the data product usage, create quick wins in the early phases, and favor small dedicated teams that prioritize data products. While we acknowledge that organizations need to apply implementation strategies according to their individual needs, we also deduct two archetypes that provide suggestions in more detail. Our findings synthesize insights from industry experts and provide researchers and professionals with preliminary guidelines for the successful adoption of data mesh.
翻訳日:2023-11-10 18:49:17 公開日:2023-11-09
# 事前訓練された機能を超えて:ノイズ画像モデリングは敵の防御を提供する

Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial Defense ( http://arxiv.org/abs/2302.01056v3 )

ライセンス: Link先を確認
Zunzhi You, Daochang Liu, Bohyung Han, Chang Xu(参考訳) マスク付き画像モデリング(MIM)の最近の進歩により、自己教師付き視覚表現学習のフレームワークとして普及している。 MIMの事前訓練されたモデルは、ほとんどのディープニューラルネットワーク手法と同様に、敵の攻撃に弱いままであり、実用的応用を制限している。 本稿では,この強力な自己教師型学習パラダイムが,下流の分類器に逆方向の堅牢性をもたらすかを検討する。 調査中, ノイズ画像モデリング (NIM) は, 重度の汚職にもかかわらず, ノイズ画像の再構成が驚くほど良好であることがわかった。 そこで本研究では,プリトレーニングされたデコーダをデノージングに利用することにより,de^3と呼ばれる敵防御法を提案する。 De^3を通じて、NIMは事前訓練された特徴の提供を超えて、敵の堅牢性を高めることができる。 さらに、簡単な修正を加え、ランダム分布からノイズスケールハイパーパラメータをサンプリングし、ディフェンスが精度とロバストさのトレードオフをより良く調整可能なものにする。 実験結果から,対向ロバスト性の観点からみると,nimは効果的な分別能力によりmimよりも優れていることが示された。 さらに、NIMが提供する防御は、追加の調整性優位性を提供しながら、対人訓練と同等のパフォーマンスを達成する。 ソースコードとモデルはhttps://github.com/youzunzhi/NIM-AdvDefで入手できる。

Recent advancements in masked image modeling (MIM) have made it a prevailing framework for self-supervised visual representation learning. The MIM pretrained models, like most deep neural network methods, remain vulnerable to adversarial attacks, limiting their practical application, and this issue has received little research attention. In this paper, we investigate how this powerful self-supervised learning paradigm can provide adversarial robustness to downstream classifiers. During the exploration, we find that noisy image modeling (NIM), a simple variant of MIM that adopts denoising as the pre-text task, reconstructs noisy images surprisingly well despite severe corruption. Motivated by this observation, we propose an adversarial defense method, referred to as De^3, by exploiting the pretrained decoder for denoising. Through De^3, NIM is able to enhance adversarial robustness beyond providing pretrained features. Furthermore, we incorporate a simple modification, sampling the noise scale hyperparameter from random distributions, and enable the defense to achieve a better and tunable trade-off between accuracy and robustness. Experimental results demonstrate that, in terms of adversarial robustness, NIM is superior to MIM thanks to its effective denoising capability. Moreover, the defense provided by NIM achieves performance on par with adversarial training while offering the extra tunability advantage. Source code and models are available at https://github.com/youzunzhi/NIM-AdvDef.
翻訳日:2023-11-10 18:48:54 公開日:2023-11-09
# idt5:インドネシア版多言語t5トランスフォーマー

idT5: Indonesian Version of Multilingual T5 Transformer ( http://arxiv.org/abs/2302.00856v2 )

ライセンス: Link先を確認
Mukhlish Fuadi, Adhi Dharma Wibawa, Surya Sumpeno(参考訳) インドネシア語はおよそ2億人の人々が話しており、世界で10番目に多く話されている言語であるが、nlp(natural language processing)研究ではあまり語られていない。 言語資源の多さはインドネシアにおける以前の研究を妨げている。 Transformerは新しいアーキテクチャで、畳み込みニューラルネットワークやリカレントニューラルネットワークといった選択肢を超越して、NLPで急速に支配的になっている。 T5 (Text-to-Text Transfer Transformer) は、すべてのテキストベースの言語問題を英語のテキストからテキストへ変換するトランスフォーマーモデルである。 多言語型はmt5(multilingual t5)であり、言語間で多くのnlpタスクで有望な結果を示している。 しかし、この多言語モデルのサイズは、しばしば1つの言語しか必要としない実際の実運用アプリケーションに適用する上での欠点である。 本研究では,mT5モデルがインドネシア語にのみ適用され,インドネシア語のみに限定した訓練済みのT5モデルが得られた。 性能比較のために,このモデルとmT5モデルを,感覚分析(SA),質問生成(QG),質問回答(QA)タスクに,正確なメカニズムとデータセットで微調整した。 本モデルに基づく微調整モデルでは,SAでは77.18%,mT5モデルより8%高い精度を示し,QGおよびQAではmT5モデルとほぼ同じスコアを得た。 その結果、モデルサイズを最大58%削減しつつ、同等の収率を維持する、より小さな事前訓練モデルを作成することが可能であることが確認された。 さらに、結果のモデルではメモリの削減、ロードの高速化、推論の高速化が要求される。

Indonesian language is spoken by almost 200 million people and is the 10th most spoken language in the world, but it is under-represented in NLP (Natural Language Processing) research. A sparsity of language resources has hampered previous work on Indonesian. The Transformer is a new architecture rapidly becoming dominant for NLP, surpassing alternatives like convolutional and recurrent neural networks. T5 (Text-to-Text Transfer Transformer) is a Transformer model that converts all text-based language problems to text-to-text format for English. The multilingual variant is mT5 (multilingual T5) which has shown promising results on many NLP tasks across languages. However, the size of this multilingual model is a drawback for its application in real production applications, which sometimes require only one language. In this study, the mT5 model was adapted for only one language, Indonesian, resulting in a pre-trained T5 model that was specific only for Indonesian with a smaller size. For performance comparison, we fine-tuned this model and the mT5 model to the Sentiment Analysis (SA), Question Generation (QG), and Question Answering (QA) tasks with the exact mechanism and dataset. Fine-tuned model based on our model achieved 77.18% accuracy on SA, 8% higher than the mT5-based model, and obtained nearly the same score as the mT5-based model on QG and QA. The results confirm that it is possible to produce a smaller pre-trained model that maintains comparable yields while reducing the model size by up to 58%. In addition, the resulting model requires less memory, loads faster, and inference times faster.
翻訳日:2023-11-10 18:48:29 公開日:2023-11-09
# 攻撃型音声分類器の視覚的攻撃と騒音聴取:攻撃性に関する人間と機械の識別

Vicarious Offense and Noise Audit of Offensive Speech Classifiers: Unifying Human and Machine Disagreement on What is Offensive ( http://arxiv.org/abs/2301.12534v4 )

ライセンス: Link先を確認
Tharindu Cyril Weerasooriya and Sujan Dutta and Tharindu Ranasinghe and Marcos Zampieri and Christopher M. Homan and Ashiqur R. KhudaBukhsh(参考訳) 攻撃的音声検出はコンテンツモデレーションの重要な要素である。 しかし、攻撃的であることは極めて主観的である。 本稿では、実世界のソーシャルウェブの政治談話に関して、機械と人間のモデレーターが不快な点についてどのように意見が一致しているかを考察する。 1)モデレーター(人間と機械)の間には広範囲にわたる不一致があり、(2)人間と大言語モデルの分類器は、政治的傾向に基づいて他の人格がどう反応するかを予測できない。 1) 機械と人の両方の応答を組み合わせた前例のない規模で騒音監査を行う。 2)では,暴力的犯罪の第一種データセットを導入する。 ノイズ監査の結果、モデレーションの結果は異なるマシンモデレーターによって大きく異なることが明らかとなった。 人間のモデレーターによる実験では、政治的傾向とセンシティブな問題の組み合わせが、一人称と悪質な犯罪の両方に影響を及ぼすことが示唆された。 データセットはhttps://github.com/homan-lab/voicedで入手できる。

Offensive speech detection is a key component of content moderation. However, what is offensive can be highly subjective. This paper investigates how machine and human moderators disagree on what is offensive when it comes to real-world social web political discourse. We show that (1) there is extensive disagreement among the moderators (humans and machines); and (2) human and large-language-model classifiers are unable to predict how other human raters will respond, based on their political leanings. For (1), we conduct a noise audit at an unprecedented scale that combines both machine and human responses. For (2), we introduce a first-of-its-kind dataset of vicarious offense. Our noise audit reveals that moderation outcomes vary wildly across different machine moderators. Our experiments with human moderators suggest that political leanings combined with sensitive issues affect both first-person and vicarious offense. The dataset is available through https://github.com/Homan-Lab/voiced.
翻訳日:2023-11-10 18:47:39 公開日:2023-11-09
# ソフト適応しきい値スペクトル強調を用いたスペクトルクロスドメインニューラルネットワーク

Spectral Cross-Domain Neural Network with Soft-adaptive Threshold Spectral Enhancement ( http://arxiv.org/abs/2301.10171v2 )

ライセンス: Link先を確認
Che Liu, Sibo Cheng, Weiping Ding and Rossella Arcucci(参考訳) 心電図(ECG)信号は多変量時系列と見なすことができる。 最新のECGデータ分類アプローチは、機能エンジニアリングまたはディープラーニング技術に基づいて、機械学習システムにおけるスペクトル領域と時間領域を別々に扱う。 分類器モデル内のスペクトル時間領域通信機構は、現在のアプローチでは見つからないため、複雑なECG形式を特定するのが困難である。 本稿では,SCDNN(Spectral Cross-domain Neural Network)と呼ばれる新しい深層学習モデルを提案し,SCDNN(Soft-Adaptive threshold Spectrum enhancement)と呼ばれる新しいブロックを用いて,ニューラルネットワーク内のスペクトル領域と時間領域に埋め込まれた鍵情報を同時に明らかにする。 より正確には、一般畳み込みニューラルネットワーク(cnn)バックボーンでドメインクロス情報をキャプチャし、異なる情報ソースを自己適応機構でマージして時間領域とスペクトル領域間の接続をマイニングする。 SATSEでは、時間とスペクトル領域からの知識は、修正シグモイド関数のソフトトレーニング可能な閾値を持つ高速フーリエ変換(FFT)によって抽出される。 提案したSCDNNは、パブリックECGデータベース \textit{PTB-XL} と \textit{MIT-BIH} に実装されたいくつかの分類タスクでテストされる。 SCDNNは、無限スペクトルマッピングから適切な領域を見つけることにより、両方のデータベース上のすべての分類タスクにおける様々なメトリクスに関する計算コストの低い最先端アプローチよりも優れている。 スペクトル領域におけるトレーニング可能なしきい値の収束性についても数値解析を行った。 SCDNNの堅牢なパフォーマンスは、時間とスペクトルドメインからのディープラーニングモデル間の知識を活用するための、新たな視点を提供する。 リポジトリは以下のとおりである。 https://github.com/dl-wg/scdnn-ts

Electrocardiography (ECG) signals can be considered as multi-variable time-series. The state-of-the-art ECG data classification approaches, based on either feature engineering or deep learning techniques, treat separately spectral and time domains in machine learning systems. No spectral-time domain communication mechanism inside the classifier model can be found in current approaches, leading to difficulties in identifying complex ECG forms. In this paper, we proposed a novel deep learning model named Spectral Cross-domain neural network (SCDNN) with a new block called Soft-adaptive threshold spectral enhancement (SATSE), to simultaneously reveal the key information embedded in spectral and time domains inside the neural network. More precisely, the domain-cross information is captured by a general Convolutional neural network (CNN) backbone, and different information sources are merged by a self-adaptive mechanism to mine the connection between time and spectral domains. In SATSE, the knowledge from time and spectral domains is extracted via the Fast Fourier Transformation (FFT) with soft trainable thresholds in modified Sigmoid functions. The proposed SCDNN is tested with several classification tasks implemented on the public ECG databases \textit{PTB-XL} and \textit{MIT-BIH}. SCDNN outperforms the state-of-the-art approaches with a low computational cost regarding a variety of metrics in all classification tasks on both databases, by finding appropriate domains from the infinite spectral mapping. The convergence of the trainable thresholds in the spectral domain is also numerically investigated in this paper. The robust performance of SCDNN provides a new perspective to exploit knowledge across deep learning models from time and spectral domains. The repository can be found: https://github.com/DL-WG/SCDNN-TS
翻訳日:2023-11-10 18:47:21 公開日:2023-11-09
# マルチクラスデータセットにおけるトポロジ学習

Topological Learning in Multi-Class Data Sets ( http://arxiv.org/abs/2301.09734v2 )

ライセンス: Link先を確認
Christopher Griffin and Trevor Karn and Benjamin Apple(参考訳) トポロジカルデータ解析から,多クラスデータセットのトポロジカル複雑性(論文の本文で定義されている)を特徴付ける問題まで,その技法を専門とする。 副産物として、データセットのオープンサブカバーを使用するトポロジカル分類器が定義される。 この部分被覆は、位相的特徴(例えばベティ数)が分類問題に関する情報を提供する単純複体を構成するのに使うことができる。 これらのトポロジカル構成を用いて,feedforward deep neural networks (dnn) の学習におけるトポロジカル複雑度の影響について検討した。 位相的複雑性は、完全に接続されたフィードフォワード深層ニューラルネットワークがデータを正しく分類する能力と負の相関関係にあると仮定する。 我々は,複数の構築およびオープンソースデータセットのトポロジ分類アルゴリズムを評価する。 また,複数データセット上でのDNNにおける位相的複雑性と学習の関係に関する仮説を検証した。

We specialize techniques from topological data analysis to the problem of characterizing the topological complexity (as defined in the body of the paper) of a multi-class data set. As a by-product, a topological classifier is defined that uses an open sub-covering of the data set. This sub-covering can be used to construct a simplicial complex whose topological features (e.g., Betti numbers) provide information about the classification problem. We use these topological constructs to study the impact of topological complexity on learning in feedforward deep neural networks (DNNs). We hypothesize that topological complexity is negatively correlated with the ability of a fully connected feedforward deep neural network to learn to classify data correctly. We evaluate our topological classification algorithm on multiple constructed and open source data sets. We also validate our hypothesis regarding the relationship between topological complexity and learning in DNN's on multiple data sets.
翻訳日:2023-11-10 18:46:52 公開日:2023-11-09
# 予測動力推論

Prediction-Powered Inference ( http://arxiv.org/abs/2301.09633v4 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos, Stephen Bates, Clara Fannjiang, Michael I. Jordan, Tijana Zrnic(参考訳) 予測を用いた推論は、実験データセットに機械学習システムからの予測を補足した場合に有効な統計的推論を行うためのフレームワークである。 このフレームワークは、予測を提供する機械学習アルゴリズムを前提にすることなく、手段、分位数、線形およびロジスティック回帰係数などの量に対する信頼できる信頼区間を計算するための単純なアルゴリズムを提供する。 さらに、より正確な予測は信頼性間隔を小さくする。 予測駆動推論は、機械学習を使用して、研究者が有効でよりデータ効率の良い結論を導き出すことができる。 予測による推論の利点は、プロテオミクス、天文学、ゲノム学、リモートセンシング、国勢調査分析、生態学のデータセットで示される。

Prediction-powered inference is a framework for performing valid statistical inference when an experimental dataset is supplemented with predictions from a machine-learning system. The framework yields simple algorithms for computing provably valid confidence intervals for quantities such as means, quantiles, and linear and logistic regression coefficients, without making any assumptions on the machine-learning algorithm that supplies the predictions. Furthermore, more accurate predictions translate to smaller confidence intervals. Prediction-powered inference could enable researchers to draw valid and more data-efficient conclusions using machine learning. The benefits of prediction-powered inference are demonstrated with datasets from proteomics, astronomy, genomics, remote sensing, census analysis, and ecology.
翻訳日:2023-11-10 18:46:37 公開日:2023-11-09
# 宇宙から何か分離する?

Segment anything, from space? ( http://arxiv.org/abs/2304.13000v4 )

ライセンス: Link先を確認
Simiao Ren, Francesco Luzi, Saad Lahrichi, Kaleb Kassaw, Leslie M. Collins, Kyle Bradbury, Jordan M. Malof(参考訳) 近年,イメージセグメンテーションタスク用に開発された最初の基礎モデルが開発され,SAM (Segment Anything Model) と呼ばれる。 SAMは、1つ(またはそれ以上)のポイント、バウンディングボックス、マスクなどの安価な入力プロンプトに基づいて、入力画像にオブジェクトを分割することができる。 著者らは、SAMの画像分割精度を多数の視覚ベンチマークタスクで検証し、SAMは通常、目標タスクで訓練された視覚モデルと似ているか、あるいはそれ以上の認識精度を達成していることを示した。 セグメンテーションのためのSAMの印象的な一般化は、自然画像の研究に重要な意味を持つ。 本研究では,SAMの性能が画像上の問題にまで及んでいるかどうかを考察し,その開発に対するコミュニティの反応を導くのに役立てる。 SAMの性能を多様で広く研究されているベンチマークタスクのセットで検証する。 SAMはオーバヘッド画像によく当てはまるが、オーバヘッド画像の独特の特徴と、その共通のターゲットオブジェクトのため、いくつかのケースでは失敗する。 リモートセンシング画像に対するこれらのユニークな系統的障害事例について報告する。

Recently, the first foundation model developed specifically for image segmentation tasks was developed, termed the "Segment Anything Model" (SAM). SAM can segment objects in input imagery based on cheap input prompts, such as one (or more) points, a bounding box, or a mask. The authors examined the \textit{zero-shot} image segmentation accuracy of SAM on a large number of vision benchmark tasks and found that SAM usually achieved recognition accuracy similar to, or sometimes exceeding, vision models that had been trained on the target tasks. The impressive generalization of SAM for segmentation has major implications for vision researchers working on natural imagery. In this work, we examine whether SAM's performance extends to overhead imagery problems and help guide the community's response to its development. We examine SAM's performance on a set of diverse and widely studied benchmark tasks. We find that SAM does often generalize well to overhead imagery, although it fails in some cases due to the unique characteristics of overhead imagery and its common target objects. We report on these unique systematic failure cases for remote sensing imagery that may comprise useful future research for the community.
翻訳日:2023-11-10 18:39:40 公開日:2023-11-09
# レストレス量子ゲート校正における漏洩

Leakage in restless quantum gate calibration ( http://arxiv.org/abs/2304.09297v2 )

ライセンス: Link先を確認
Conrad J. Haupt and Daniel J. Egger(参考訳) 量子コンピュータは高忠実度量子ゲートを必要とする。 これらのゲートは、クラウドベースのデバイスの可用性を消費する定期的なキャリブレーションタスクによって得られる。 restless circuit execution speeds up キャラクタリゼーションとキャリブレーションは、回路間で量子ビットのリセットを前もって行う。 処理後、測定したデータは所望の信号を回復する。 しかし、キュービットはリセットされないため、通常キャリブレーションの開始時に発生するリークは問題を引き起こす可能性がある。 本稿では,漏洩の影響を調べるために,マルコフ連鎖に基づくレストレス回路実行シミュレータを開発した。 単一キュービットゲート列の誤り増幅の文脈において、レストレスキャリブレーションは、現代の単一キュービットゲートの10^{-4}$ゲート忠実度と比較すると、リークの最大0.5%を許容することを示している。 さらに, リークゲートを用いたレスレス回路の実行は, J. Kellyらによって開発されたORBITコスト関数の感度が33%低下することを示し, 一般に閉ループ最適制御(Phys. Rev. Lett. 112, 240504 (2014))]で使用される。 この結果から、レスレス回路の実行は非計算状態の誤分類に対してレジリエンスであることを示す。 まとめると、レストレス法は標準と閉ループの最適制御ゲートのキャリブレーションの両方においてリークに対して十分に頑健であり、正確な結果が得られる。

Quantum computers require high fidelity quantum gates. These gates are obtained by routine calibration tasks that eat into the availability of cloud-based devices. Restless circuit execution speeds-up characterization and calibration by foregoing qubit reset in between circuits. Post-processing the measured data recovers the desired signal. However, since the qubits are not reset, leakage -- typically present at the beginning of the calibration -- may cause issues. Here, we develop a simulator of restless circuit execution based on a Markov Chain to study the effect of leakage. In the context of error amplifying single-qubit gates sequences, we show that restless calibration tolerates up to 0.5% of leakage which is large compared to the $10^{-4}$ gate fidelity of modern single-qubit gates. Furthermore, we show that restless circuit execution with leaky gates reduces by 33% the sensitivity of the ORBIT cost function developed by J. Kelly et al. which is typically used in closed-loop optimal control~[Phys. Rev. Lett. 112, 240504 (2014)]. Our results are obtained with standard qubit state discrimination showing that restless circuit execution is resilient against misclassified non-computational states. In summary, the restless method is sufficiently robust against leakage in both standard and closed-loop optimal control gate calibration to provided accurate results.
翻訳日:2023-11-10 18:39:21 公開日:2023-11-09
# Sabi\'a: ポルトガルの大規模言語モデル

Sabi\'a: Portuguese Large Language Models ( http://arxiv.org/abs/2304.07880v4 )

ライセンス: Link先を確認
Ramon Pires, Hugo Abonizio, Thales Sales Almeida, Rodrigo Nogueira(参考訳) 言語モデルの能力が向上し続ければ、"ワンサイズフィットオール"モデルが主要なパラダイムとして残ることは考えられます。 例えば、世界中の膨大な数の言語が低リソースであることを考えれば、一般的なプラクティスは、複数の言語で単一のモデルを事前学習することだ。 本稿では,この実践に挑戦するエビデンスを増大させ,対象言語での単言語事前学習が,すでに多様なコーパスで広く訓練されているモデルを大幅に改善することを示す。 より具体的には、ポルトガル語テキストのGPT-JおよびLLaMAモデルを、当初の事前訓練予算の3%以下で事前訓練する。 ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。 私たちのベストモデルであるSabi\'a-65Bは、GPT-3.5-turboと同等に動作します。 対象言語と翻訳言語で当初考えられたデータセットから評価することにより,言語固有の事前学習の貢献度について検討する。 1)対象言語固有の言語ニュアンス及び構造を捉えること、及び 2) ドメインや文化に関するモデルの知識を豊かにする。 以上の結果から,効果の大部分は単言語前訓練によって獲得したドメイン固有知識によるものであることが示唆された。

As the capabilities of language models continue to advance, it is conceivable that "one-size-fits-all" model will remain as the main paradigm. For instance, given the vast number of languages worldwide, many of which are low-resource, the prevalent practice is to pretrain a single model on multiple languages. In this paper, we add to the growing body of evidence that challenges this practice, demonstrating that monolingual pretraining on the target language significantly improves models already extensively trained on diverse corpora. More specifically, we further pretrain GPT-J and LLaMA models on Portuguese texts using 3% or less of their original pretraining budget. Few-shot evaluations on Poeta, a suite of 14 Portuguese datasets, reveal that our models outperform English-centric and multilingual counterparts by a significant margin. Our best model, Sabi\'a-65B, performs on par with GPT-3.5-turbo. By evaluating on datasets originally conceived in the target language as well as translated ones, we study the contributions of language-specific pretraining in terms of 1) capturing linguistic nuances and structures inherent to the target language, and 2) enriching the model's knowledge about a domain or culture. Our results indicate that the majority of the benefits stem from the domain-specific knowledge acquired through monolingual pretraining.
翻訳日:2023-11-10 18:38:57 公開日:2023-11-09
# MLRegTest: 正規言語の機械学習のためのベンチマーク

MLRegTest: A Benchmark for the Machine Learning of Regular Languages ( http://arxiv.org/abs/2304.07687v2 )

ライセンス: Link先を確認
Sam van der Poel, Dakotah Lambert, Kalina Kostyszyn, Tiantian Gao, Rahul Verma, Derek Andersen, Joanne Chau, Emily Peterson, Cody St. Clair, Paul Fodor, Chihiro Shibata, Jeffrey Heinz(参考訳) 機械学習(ML)システムの評価と、既知の分類器の学習能力により、学習可能なパターンのきめ細かい検査が可能になり、未知の分類器の学習に適用された場合の信頼性を高める。 本稿では,MLRegTestと呼ばれる,1,800の正規言語からのトレーニング,開発,テストセットを含むシーケンス分類におけるMLシステムのベンチマークについて述べる。 異なる形式言語は、異なる種類の長距離依存を表現し、シーケンス内の長距離依存を正しく識別することは、MLシステムがうまく一般化する上で既知の課題である。 MLRegTestは、その論理的複雑さ(モナディック二階数、一階数、命題数、単項式)と論理的リテラル(文字列、階層文字列、サブシーケンス、またはそれらの組み合わせ)に基づいて言語を編成する。 リテラルの論理的複雑さと選択は、通常の言語におけるさまざまな長距離依存関係を理解するための体系的な方法を提供する。 最後に, MLRegTestにおける異なるニューラルネットワーク(RNN, LSTM, GRU, 変圧器)の性能について検討した。 主な結論は、それらのパフォーマンスがテストセットの種類、言語クラス、ニューラルネットワークアーキテクチャに大きく依存しているということだ。

Evaluating machine learning (ML) systems on their ability to learn known classifiers allows fine-grained examination of the patterns they can learn, which builds confidence when they are applied to the learning of unknown classifiers. This article presents a new benchmark for ML systems on sequence classification called MLRegTest, which contains training, development, and test sets from 1,800 regular languages. Different kinds of formal languages represent different kinds of long-distance dependencies, and correctly identifying long-distance dependencies in sequences is a known challenge for ML systems to generalize successfully. MLRegTest organizes its languages according to their logical complexity (monadic second order, first order, propositional, or monomial expressions) and the kind of logical literals (string, tier-string, subsequence, or combinations thereof). The logical complexity and choice of literal provides a systematic way to understand different kinds of long-distance dependencies in regular languages, and therefore to understand the capacities of different ML systems to learn such long-distance dependencies. Finally, the performance of different neural networks (simple RNN, LSTM, GRU, transformer) on MLRegTest is examined. The main conclusion is that their performance depends significantly on the kind of test set, the class of language, and the neural network architecture.
翻訳日:2023-11-10 18:38:36 公開日:2023-11-09
# 変分演算子学習:訓練ニューラルネットワークと偏微分方程式を融合した統一パラダイム

Variational operator learning: A unified paradigm marrying training neural operators and solving partial differential equations ( http://arxiv.org/abs/2304.04234v3 )

ライセンス: Link先を確認
Tengfei Xu, Dachuan Liu, Peng Hao, Bo Wang(参考訳) 偏微分方程式(PDE)の高速近似解演算子のための新しいニューラルネットワークとしてのニューラル演算子は、将来の科学計算にかなりの可能性を示してきた。 しかしながら、ニューラルネットワークのトレーニングの主流はまだデータ駆動であり、トレーニングステージのコストに加えて、さまざまなソース(例えば、従来のソルバによるpdesのサンプルの解決、実世界の実験など)からの高価な地上データセットが必要である。 計算の観点からは、PDEを解決するために演算子学習と特定のドメイン知識を組み合わせることは、データセットコストとラベルなし学習を減らすための重要なステップである。 本稿では,変分演算子学習(VOL)と呼ばれる,ニューラル演算子を訓練し,PDEを変分形式で解くための統一的な枠組みを提供する新しいパラダイムを提案する。 有限要素離散化によるリッツとガレルキンのアプローチをVOLに対して開発し,VOLの2つの最適化手法として,系関数と残差の行列自由近似を行い,直接最小化と反復更新を提案する。 可変熱源, ダーシー流, 可変剛性弾性に関する妥当なベンチマークに基づく各種実験を行い, VOLの有効性を実証した。 ラベルなしのトレーニングセットと5ラベルのみのシフトセットで、VOLは未ラベルデータの量に関して、そのテストエラーが電力法則で減少して解演算子を学習する。 著者の知識を最大限に活用するために、弱形式の視点と疎線形系をエンドツーエンドの演算子学習タスクに解く効率的な反復法を統合する最初の研究である。

Neural operators as novel neural architectures for fast approximating solution operators of partial differential equations (PDEs), have shown considerable promise for future scientific computing. However, the mainstream of training neural operators is still data-driven, which needs an expensive ground-truth dataset from various sources (e.g., solving PDEs' samples with the conventional solvers, real-world experiments) in addition to training stage costs. From a computational perspective, marrying operator learning and specific domain knowledge to solve PDEs is an essential step in reducing dataset costs and label-free learning. We propose a novel paradigm that provides a unified framework of training neural operators and solving PDEs with the variational form, which we refer to as the variational operator learning (VOL). Ritz and Galerkin approach with finite element discretization are developed for VOL to achieve matrix-free approximation of system functional and residual, then direct minimization and iterative update are proposed as two optimization strategies for VOL. Various types of experiments based on reasonable benchmarks about variable heat source, Darcy flow, and variable stiffness elasticity are conducted to demonstrate the effectiveness of VOL. With a label-free training set and a 5-label-only shift set, VOL learns solution operators with its test errors decreasing in a power law with respect to the amount of unlabeled data. To the best of the authors' knowledge, this is the first study that integrates the perspectives of the weak form and efficient iterative methods for solving sparse linear systems into the end-to-end operator learning task.
翻訳日:2023-11-10 18:38:14 公開日:2023-11-09
# SALUDA: 表面をベースとした自動車用ライダー

SALUDA: Surface-based Automotive Lidar Unsupervised Domain Adaptation ( http://arxiv.org/abs/2304.03251v3 )

ライセンス: Link先を確認
Bjoern Michele, Alexandre Boulch, Gilles Puy, Tuan-Hung Vu, Renaud Marlet, Nicolas Courty(参考訳) あるラベル付きデータセット上で、別のドメインでうまく一般化するモデルを学ぶことは、データドメイン間でいくつかのシフトが発生する可能性があるため、難しい作業である。 これはライダーデータにおいて特に顕著であり、例えば、異なるライダーパターンや取得条件の変化により、モデルが大きなパフォーマンスの相違を示すことができる。 本稿では,意味的セグメンテーションのためのUnsupervised Domain Adaptation (UDA)タスクについて述べる。 この問題を軽減するために、ソースデータとターゲットデータに基づいて暗黙的な表面表現を同時に学習する教師なし補助タスクを導入する。 両方のドメインが同じ潜在表現を共有しているため、モデルは2つのデータソース間の不一致に対応せざるを得ない。 この新しい戦略は、統計的分岐の古典的な最小化やライダー固有のドメイン適応技術とは異なる。 実験により,本手法は実物と合成物の両方のシナリオにおいて,現在の技術よりも優れた性能が得られることを示した。

Learning models on one labeled dataset that generalize well on another domain is a difficult task, as several shifts might happen between the data domains. This is notably the case for lidar data, for which models can exhibit large performance discrepancies due for instance to different lidar patterns or changes in acquisition conditions. This paper addresses the corresponding Unsupervised Domain Adaptation (UDA) task for semantic segmentation. To mitigate this problem, we introduce an unsupervised auxiliary task of learning an implicit underlying surface representation simultaneously on source and target data. As both domains share the same latent representation, the model is forced to accommodate discrepancies between the two sources of data. This novel strategy differs from classical minimization of statistical divergences or lidar-specific domain adaptation techniques. Our experiments demonstrate that our method achieves a better performance than the current state of the art, both in real-to-real and synthetic-to-real scenarios.
翻訳日:2023-11-10 18:37:45 公開日:2023-11-09
# 変分量子固有解法における変分Denoising

Variational Denoising for Variational Quantum Eigensolver ( http://arxiv.org/abs/2304.00549v2 )

ライセンス: Link先を確認
Quoc Hoan Tran, Shinji Kikuchi, and Hirotaka Oshima(参考訳) 変分量子固有解法 (VQE) は、古典的コンピュータで現在チューリング可能な実用的な化学問題に量子的優位性を与える可能性を持つハイブリッドアルゴリズムである。 VQEは古典最適化器を用いてパラメータ化された量子回路を訓練し、与えられたハミルトニアンの固有値と固有状態を近似する。 しかしながら、VQEは特にノイズの多い量子デバイス上で動作する場合、タスク固有の設計とマシン固有のアーキテクチャの課題に直面している。 これは、そのトレーサビリティ、正確性、効率に悪影響を与え、ノイズ量子データを引き起こす可能性がある。 本稿では、パラメータ化量子ニューラルネットワークを用いて、ノイズの多いVQE出力から学習することでVQEの解を改善する、教師なし学習手法である変分分解を提案する。 提案手法は, 分子ハミルトニアンおよび逆場イジングモデルに対して, $\text{H}_2$, LiH, $\text{BeH}_2$分子ハミルトニアンのノイズ入力データと比較して, エネルギー推定誤差を著しく低減し, 基底状態の忠実度を増大させることができる。 驚いたことに、トレーニングには騒がしいデータしか必要ありません。 変動分母化は量子ハードウェアに組み込むことができ、量子データのエンドツーエンドの量子処理として汎用性を高めることができる。

The variational quantum eigensolver (VQE) is a hybrid algorithm that has the potential to provide a quantum advantage in practical chemistry problems that are currently intractable on classical computers. VQE trains parameterized quantum circuits using a classical optimizer to approximate the eigenvalues and eigenstates of a given Hamiltonian. However, VQE faces challenges in task-specific design and machine-specific architecture, particularly when running on noisy quantum devices. This can have a negative impact on its trainability, accuracy, and efficiency, resulting in noisy quantum data. We propose variational denoising, an unsupervised learning method that employs a parameterized quantum neural network to improve the solution of VQE by learning from noisy VQE outputs. Our approach can significantly decrease energy estimation errors and increase fidelities with ground states compared to noisy input data for the $\text{H}_2$, LiH, and $\text{BeH}_2$ molecular Hamiltonians, and the transverse field Ising model. Surprisingly, it only requires noisy data for training. Variational denoising can be integrated into quantum hardware, increasing its versatility as an end-to-end quantum processing for quantum data.
翻訳日:2023-11-10 18:37:22 公開日:2023-11-09
# 慣性幾何学的量子論理ゲート

Inertial geometric quantum logic gates ( http://arxiv.org/abs/2303.13674v3 )

ライセンス: Link先を確認
Daniel Turyansky, Oded Ovdat, Roie Dann, Ziv Aqua, Ronnie Kosloff, Barak Dayan, Adi Pick(参考訳) 我々はSTIRAPと量子論理ゲートの高速かつ堅牢なプロトコルを提案する。 我々のゲートは、徐々に加速する慣性ハミルトニアンの瞬時固有状態によって得られる幾何学的位相に基づいている。 まず、慣性進化の基準を確立し、その後これらの条件を満たすパルス形状を設計する。 これらの調整パルスは、幾何学的論理ゲートの最適化に使用される。 我々のプロトコルを$^{87}$Rb原子で解析し、その結果ゲートの忠実度が現在の最先端に近づき、ロバスト性は著しく向上した。

We present rapid and robust protocols for STIRAP and quantum logic gates. Our gates are based on geometric phases acquired by instantaneous eigenstates of a slowly accelerating inertial Hamiltonian. To begin, we establish the criteria for inertial evolution and subsequently engineer pulse shapes that fulfill these conditions. These tailored pulses are then used to optimize geometric logic gates. We analyze a realization of our protocols with $^{87}$Rb atoms, resulting in gate fidelity that approaches the current state-of-the-art, with marked improvements in robustness.
翻訳日:2023-11-10 18:36:56 公開日:2023-11-09
# ナノワイヤのパーコレーションネットワークにおける活性電流密度の量子ガス対応直接マッピング

Quantum gas-enabled direct mapping of active current density in percolating networks of nanowires ( http://arxiv.org/abs/2303.12035v2 )

ライセンス: Link先を確認
J. Fekete, P. Joshi, T. J. Barrett, T. M. James, R. Shah, A. Gadge, S. Bhumbra, F. Oru\v{c}evi\'c, P. Kr\"uger(参考訳) 電気的にパーコレーションするナノワイヤネットワークは、次世代透明電極の最も有望な候補である。 これらの物質に対する科学的な関心は、固有の電流分布の不均一性に起因し、パーコレーション経路の再描画や局所的な自己加熱のような現象を引き起こし、不可逆的な損傷を引き起こす。 現在の分布を解くための実験的手法や非線形パーコレーションモデルがなければ、これらの材料を設計するには経験則と安全因子に依存する。 本稿ではBose-Einstein顕微鏡を導入し、2次元材料におけるアクティブ電流流の長期的問題に対処する。 本稿では,本手法の性能向上について報告し,電流経路の動的再分布の観測が可能となる。 既存のサーマルイメージング法と組み合わせることで、電気的性質と熱的性質の間の仮定が不要になることを示す。 これにより、個々の接合挙動とホットスポット形成のテストとモデリングが可能になる。 可逆性と不可逆性の両方のメカニズムを調査することは、性能と信頼性を改善したデバイスの進歩に寄与する。

Electrically percolating nanowire networks are amongst the most promising candidates for next-generation transparent electrodes. Scientific interest in these materials stems from their intrinsic current distribution heterogeneity, leading to phenomena like percolating pathway re-routing and localized self-heating, which can cause irreversible damage. Without an experimental technique to resolve the current distribution, and an underpinning nonlinear percolation model, one relies on empirical rules and safety factors to engineer these materials. We introduce Bose-Einstein microscopy to address the long-standing problem of imaging active current flow in 2D materials. We report on improvement of the performance of this technique, whereby observation of dynamic redistribution of current pathways becomes feasible. We show how this, combined with existing thermal imaging methods, eliminates the need for assumptions between electrical and thermal properties. This will enable testing and modelling individual junction behaviour and hotspot formation. Investigating both reversible and irreversible mechanisms will contribute to the advancement of devices with improved performance and reliability.
翻訳日:2023-11-10 18:36:46 公開日:2023-11-09
# 分散検出のためのコントラスト言語画像事前学習(clip)モデルの適用

Adapting Contrastive Language-Image Pretrained (CLIP) Models for Out-of-Distribution Detection ( http://arxiv.org/abs/2303.05828v2 )

ライセンス: Link先を確認
Nikolas Adaloglou and Felix Michels and Tim Kaiser and Markus Kollmann(参考訳) 本稿では,コントラスト言語イメージプリトレーニング(clip)モデルの適用に焦点をあてた,ビジュアル・アウト・オブ・ディストリビューション(ood)検出のための事前学習特徴抽出器に関する包括的実験を行った。 トレーニングデータを微調整することなく、4ドルのベンチマークでCLIPモデルの分布内分類と教師なしOOD検出の正の相関(R^2\geq0.92$)を確立することができる。 さらに,OOD検出に視覚言語モデルを適用するための,新しい単純でスケーラブルな手法である「textit{pseudo-label probing} (PLP)」を提案する。 トレーニングセットのラベル名のセットが与えられると、plpはクリップのテキストエンコーダから派生した擬似ラベルを使用してリニア層を訓練する。 事前訓練されたモデルのOOD検出堅牢性をテストするために,新しい特徴量に基づくOODデータ操作手法を開発した。 興味深いことに (i)plpは,imagenetに基づく5ドルの大規模ベンチマーク,特に最大クリップモデル (vit-g) を用いた平均 auroc 利得 3.4\% において,それまでの最先端の \citep{ming2022mcm} を上回っている。 (II) 線形探索はCLIPアーキテクチャ(CLIP ViT-H)における大きなマージンによる微調整よりも優れており、画像Netベースのベンチマークでは平均7.3\%のAUROCが得られる。 3)10億パラメータCLIPモデルでは,OOD画像の逆操作は検出できない。 コードと逆生成されたデータセットが公開される。

We present a comprehensive experimental study on pretrained feature extractors for visual out-of-distribution (OOD) detection, focusing on adapting contrastive language-image pretrained (CLIP) models. Without fine-tuning on the training data, we are able to establish a positive correlation ($R^2\geq0.92$) between in-distribution classification and unsupervised OOD detection for CLIP models in $4$ benchmarks. We further propose a new simple and scalable method called \textit{pseudo-label probing} (PLP) that adapts vision-language models for OOD detection. Given a set of label names of the training set, PLP trains a linear layer using the pseudo-labels derived from the text encoder of CLIP. To test the OOD detection robustness of pretrained models, we develop a novel feature-based adversarial OOD data manipulation approach to create adversarial samples. Intriguingly, we show that (i) PLP outperforms the previous state-of-the-art \citep{ming2022mcm} on all $5$ large-scale benchmarks based on ImageNet, specifically by an average AUROC gain of 3.4\% using the largest CLIP model (ViT-G), (ii) we show that linear probing outperforms fine-tuning by large margins for CLIP architectures (i.e. CLIP ViT-H achieves a mean gain of 7.3\% AUROC on average on all ImageNet-based benchmarks), and (iii) billion-parameter CLIP models still fail at detecting adversarially manipulated OOD images. The code and adversarially created datasets will be made publicly available.
翻訳日:2023-11-10 18:36:12 公開日:2023-11-09
# 非線形およびカオス時系列予測のための量子ノイズ誘起貯水池計算の最適化

Optimizing quantum noise-induced reservoir computing for nonlinear and chaotic time series prediction ( http://arxiv.org/abs/2303.05488v2 )

ライセンス: Link先を確認
Daniel Fry, Amol Deshmukh, Samuel Yen-Chi Chen, Vladimir Rastunkov, Vanio Markov(参考訳) 量子リザーバコンピューティングは、量子機械学習におけるシーケンシャルおよび時系列データ予測のために強く出現している。 単一の線形出力層で効率的に学習される表現豊かで非線形な信号を生成するために, 貯留層ノイズを資源として用いる量子ノイズ型貯留層を進化させる。 そこで本研究では,量子回路のパラメータ化に広く適用可能な新しい手法を用いて,量子貯留層チューニングの必要性に対処し,量子貯留層回路に可変ノイズモデルをプログラムし,効率的な最適化のために完全に制御する。 系統的アプローチでは,量子リザーバ回路の量子ビット数の減少や絡み合いスキームの複雑さも含む。 一つのノイズモデルと少ないメモリ容量しか持たないため,100ステップ先までMackey-Glassシステムを含む非線形ベンチマークで優れたシミュレーション結果が得られた。

Quantum reservoir computing is strongly emerging for sequential and time series data prediction in quantum machine learning. We make advancements to the quantum noise-induced reservoir, in which reservoir noise is used as a resource to generate expressive, nonlinear signals that are efficiently learned with a single linear output layer. We address the need for quantum reservoir tuning with a novel and generally applicable approach to quantum circuit parameterization, in which tunable noise models are programmed to the quantum reservoir circuit to be fully controlled for effective optimization. Our systematic approach also involves reductions in quantum reservoir circuits in the number of qubits and entanglement scheme complexity. We show that with only a single noise model and small memory capacities, excellent simulation results were obtained on nonlinear benchmarks that include the Mackey-Glass system for 100 steps ahead in the challenging chaotic regime.
翻訳日:2023-11-10 18:35:12 公開日:2023-11-09
# 複合開量子系の断熱除去:還元モデル定式化と数値シミュレーション

Adiabatic elimination for composite open quantum systems: reduced model formulation and numerical simulations ( http://arxiv.org/abs/2303.05089v5 )

ライセンス: Link先を確認
Fran\c{c}ois-Marie Le R\'egent, Pierre Rouchon(参考訳) 複合開量子系のシミュレーションのための数値計算法を提案する。 これはリンドブラッドマスター方程式と断熱除去に基づいている。 各サブシステムは定常部分空間に向かって指数関数的に収束し、いくつかのデコヒーレンスチャネルにわずかに影響され、他のサブシステムと弱結合すると仮定される。 この数値計算は漸近展開を伴う摂動解析に基づいている。 これは低次元のスローダイナミクスの定式化を利用する。 これは各サブシステムに付随する局所および名目散逸ダイナミクスの不変作用素に依存する。 2階展開は局所的な数値計算でのみ計算できる。 フルシステムに付随するテンソル積ヒルベルト空間上の計算を回避している。 この数値手法は、自律的量子誤差補正スキームに特に適している。 このような縮小モデルのシミュレーションは、各猫量子ビットの平均光子数が8未満である場合、1および2つの猫量子ビット(Z, ZZ, CNOT)に作用する典型的なゲートの完全なモデルシミュレーションと一致する。 3つの猫量子ビット (ZZZ と CCNOT) を持つより大きな平均光子数とゲートでは、モデルシミュレーションの削減は不可能である。 特に、位相フリップエラーレートと非常に小さなビットフリップエラーレートの両方を、指数関数的な抑制と平均光子数の両方で捉えている。

A numerical method is proposed for simulation of composite open quantum systems. It is based on Lindblad master equations and adiabatic elimination. Each subsystem is assumed to converge exponentially towards a stationary subspace, slightly impacted by some decoherence channels and weakly coupled to the other subsystems. This numerical method is based on a perturbation analysis with an asymptotic expansion. It exploits the formulation of the slow dynamics with reduced dimension. It relies on the invariant operators of the local and nominal dissipative dynamics attached to each subsystem. Second-order expansion can be computed only with local numerical calculations. It avoids computations on the tensor-product Hilbert space attached to the full system. This numerical method is particularly well suited for autonomous quantum error correction schemes. Simulations of such reduced models agree with complete full model simulations for typical gates acting on one and two cat-qubits (Z, ZZ and CNOT) when the mean photon number of each cat-qubit is less than 8. For larger mean photon numbers and gates with three cat-qubits (ZZZ and CCNOT), full model simulations are almost impossible whereas reduced model simulations remain accessible. In particular, they capture both the dominant phase-flip error-rate and the very small bit-flip error-rate with its exponential suppression versus the mean photon number.
翻訳日:2023-11-10 18:34:56 公開日:2023-11-09
# 標準正規化におけるバイアスの緩和はスパーシリティを強制する

Penalising the biases in norm regularisation enforces sparsity ( http://arxiv.org/abs/2303.01353v3 )

ライセンス: Link先を確認
Etienne Boursier and Nicolas Flammarion(参考訳) パラメータのノルムを制御することは、ニューラルネットワークのトレーニング時によく一般化される。 単純な直観以外にも、パラメータのノルムの正規化と得られた推定値の関係は理論的に誤解されている。 一次元データを持つ1つの隠れReLU層ネットワークに対して、この研究は関数を表すのに必要なパラメータのノルムが、その2階微分の総変分によって与えられることを示す。 特に、この重み付け係数はバイアス項のノルムが正規化されないときに消失する。 この付加的な重み付け因子の存在は、極小ノルム補間器の特異性と(キンク数において)スパーシティを強制することが示されるため、最も重要である。 逆に、バイアスのノルムを省略することは非スパース解を可能にする。 正規化におけるバイアス項を明示的にまたは暗黙的に解析すると、スパース推定器が生じる。

Controlling the parameters' norm often yields good generalisation when training neural networks. Beyond simple intuitions, the relation between regularising parameters' norm and obtained estimators remains theoretically misunderstood. For one hidden ReLU layer networks with unidimensional data, this work shows the parameters' norm required to represent a function is given by the total variation of its second derivative, weighted by a $\sqrt{1+x^2}$ factor. Notably, this weighting factor disappears when the norm of bias terms is not regularised. The presence of this additional weighting factor is of utmost significance as it is shown to enforce the uniqueness and sparsity (in the number of kinks) of the minimal norm interpolator. Conversely, omitting the bias' norm allows for non-sparse solutions. Penalising the bias terms in the regularisation, either explicitly or implicitly, thus leads to sparse estimators.
翻訳日:2023-11-10 18:33:52 公開日:2023-11-09
# カオスアトラクションの不変性維持のためのニューラルオペレーターの訓練

Training neural operators to preserve invariant measures of chaotic attractors ( http://arxiv.org/abs/2306.01187v2 )

ライセンス: Link先を確認
Ruoxi Jiang, Peter Y. Lu, Elena Orlova, Rebecca Willett(参考訳) カオスシステムは、初期状態の小さな摂動がトラジェクトリを指数的な速度で発散させるため、長期の水平予測を難しくする。 この設定では、ニューラルネットワークオペレータは2乗誤差損失を最小限に抑えながら、正確な短期予測が可能でありながら、長い時間的地平線上での力学の統計的または構造的特性の再現に失敗し、縮退する結果をもたらすことができる。 本稿では,力学の時間不変な統計特性を特徴付けるカオス的アトラクタの不変測度を保存するための代替フレームワークを提案する。 具体的には,マルチ環境設定(各サンプル軌道がわずかに異なるダイナミクスによって制御される)において,ノイズデータを用いたトレーニングを行うための2つの新しい手法を検討する。 まず、観測されたダイナミクスとニューラルネットワークの出力との間の最適な輸送距離に基づく損失を提案する。 このアプローチでは、最適な輸送損失に含まれる統計的特徴を決定するために基礎となる物理学の専門知識が必要である。 第2に,特別な事前知識を必要としないコントラスト学習フレームワークは,最適移動アプローチと同様に,力学の統計的性質を保存できることを示した。 様々なカオス系において, 本手法はカオスアトラクタの不変測度を保存するための実証的手法である。

Chaotic systems make long-horizon forecasts difficult because small perturbations in initial conditions cause trajectories to diverge at an exponential rate. In this setting, neural operators trained to minimize squared error losses, while capable of accurate short-term forecasts, often fail to reproduce statistical or structural properties of the dynamics over longer time horizons and can yield degenerate results. In this paper, we propose an alternative framework designed to preserve invariant measures of chaotic attractors that characterize the time-invariant statistical properties of the dynamics. Specifically, in the multi-environment setting (where each sample trajectory is governed by slightly different dynamics), we consider two novel approaches to training with noisy data. First, we propose a loss based on the optimal transport distance between the observed dynamics and the neural operator outputs. This approach requires expert knowledge of the underlying physics to determine what statistical features should be included in the optimal transport loss. Second, we show that a contrastive learning framework, which does not require any specialized prior knowledge, can preserve statistical properties of the dynamics nearly as well as the optimal transport approach. On a variety of chaotic systems, our method is shown empirically to preserve invariant measures of chaotic attractors.
翻訳日:2023-11-10 18:26:18 公開日:2023-11-09
# オブジェクト発見のための複素値オートエンコーダのコントラストトレーニング

Contrastive Training of Complex-Valued Autoencoders for Object Discovery ( http://arxiv.org/abs/2305.15001v3 )

ライセンス: Link先を確認
Aleksandar Stani\'c, Anand Gopalakrishnan, Kazuki Irie, J\"urgen Schmidhuber(参考訳) 現在の最先端のオブジェクト中心モデルは、バインディングにスロットと注意に基づくルーティングを使用する。 しかしながら、このモデルのクラスにはいくつかの概念的な制限がある: スロットの数はハードワイヤであり、全てのスロットは同等の容量を持ち、訓練は高い計算コストを持ち、スロット内にオブジェクトレベルの関係因子は存在しない。 同期ベースのモデルは、それらの相成分に結合情報を格納する複雑な値のアクティベーションを使用することで、これらの制限に対処することができる。 しかし、このような同期ベースのモデルの動作例はごく最近まで開発されており、まだおもちゃのグレースケールデータセットと3つ未満のオブジェクトの同時保存に限られている。 ここでは,最新の同期モデルを大幅に改善する,アーキテクチャ修正と新しいコントラスト学習手法を紹介する。 マルチオブジェクトカラーデータセットにおいて、教師なしの方法でオブジェクトを発見でき、3つ以上のオブジェクトを同時に表現できる同期ベースモデルのクラスを初めて得る。

Current state-of-the-art object-centric models use slots and attention-based routing for binding. However, this class of models has several conceptual limitations: the number of slots is hardwired; all slots have equal capacity; training has high computational cost; there are no object-level relational factors within slots. Synchrony-based models in principle can address these limitations by using complex-valued activations which store binding information in their phase components. However, working examples of such synchrony-based models have been developed only very recently, and are still limited to toy grayscale datasets and simultaneous storage of less than three objects in practice. Here we introduce architectural modifications and a novel contrastive learning method that greatly improve the state-of-the-art synchrony-based model. For the first time, we obtain a class of synchrony-based models capable of discovering objects in an unsupervised manner in multi-object color datasets and simultaneously representing more than three objects.
翻訳日:2023-11-10 18:25:40 公開日:2023-11-09
# アラビア語文法的誤りの検出と訂正の進歩:実証的研究

Advancements in Arabic Grammatical Error Detection and Correction: An Empirical Investigation ( http://arxiv.org/abs/2305.14734v2 )

ライセンス: Link先を確認
Bashar Alhafni, Go Inoue, Christian Khairallah, Nizar Habash(参考訳) 文法的誤り訂正(英: Grammatical error correction, GEC)は、多くの既存のモデルやデータセットを持つ英語でよく研究されている問題である。 しかし、データ不足や言語の複雑さといった問題により、形態学的に豊かな言語におけるGECの研究は限られている。 本稿では,2つの新しいトランスフォーマーを用いた事前学習シーケンス・ツー・シーケンスモデルを用いて,アラビア語 GEC に関する最初の結果を示す。 また,多クラスアラビア語文法誤り検出(GED)の課題を定義し,多クラスアラビア語GEDにおける最初の結果を示す。 GECモデルの補助入力としてGED情報を使用することで、異なるジャンルにまたがる3つのデータセット間のGEC性能が向上することを示す。 また, GEC 支援システムにおける文脈形態素前処理の利用についても検討した。 我々のモデルは、2つのアラビアGEC共有タスクデータセット上でSOTA結果を達成し、最近作成されたデータセット上で強力なベンチマークを確立する。 コード、データ、事前訓練されたモデルを公開しています。

Grammatical error correction (GEC) is a well-explored problem in English with many existing models and datasets. However, research on GEC in morphologically rich languages has been limited due to challenges such as data scarcity and language complexity. In this paper, we present the first results on Arabic GEC using two newly developed Transformer-based pretrained sequence-to-sequence models. We also define the task of multi-class Arabic grammatical error detection (GED) and present the first results on multi-class Arabic GED. We show that using GED information as an auxiliary input in GEC models improves GEC performance across three datasets spanning different genres. Moreover, we also investigate the use of contextual morphological preprocessing in aiding GEC systems. Our models achieve SOTA results on two Arabic GEC shared task datasets and establish a strong benchmark on a recently created dataset. We make our code, data, and pretrained models publicly available.
翻訳日:2023-11-10 18:25:24 公開日:2023-11-09
# vipでフレーム・バイ・フレームを考える:ビデオ・チェーン・オブ・マインド評価のためのビデオインフィルメントと予測データセット

Let's Think Frame by Frame with VIP: A Video Infilling and Prediction Dataset for Evaluating Video Chain-of-Thought ( http://arxiv.org/abs/2305.13903v3 )

ライセンス: Link先を確認
Vaishnavi Himakunthala, Andy Ouyang, Daniel Rose, Ryan He, Alex Mei, Yujie Lu, Chinmay Sonar, Michael Saxon, William Yang Wang(参考訳) 視覚言語システムの自然言語による画像の推論能力は,近年のエキサイティングな結果が得られているが,ビデオ推論の能力は未検討のままである。 我々は,少数のキーフレームの逐次的理解としてフレーミングビデオ推論の動機付けを行い,映像処理の計算複雑性を緩和しつつ,視覚言語のパワーと頑健性を活用する。 この新たな応用を評価するために,ビデオチェーン・オブ・シントによるモデル推論能力の探索を目的とした推論時課題データセットであるVIPを導入する。 視覚的な説明的なシーンプレイに触発されて,キーフレーム記述の2つの形式を提案する。非構造化の密集したキャプションと,キーフレームのフォーカス,アクション,ムード,オブジェクト,設定(有名)を識別する構造化シーン記述である。 ビデオ・インフィルディングとビデオ予測という,複数の中間キーフレームを生成し,将来のキーフレームを予測する能力をテストする2つのタスクを提案する。 我々は,vip上でgpt-4,gpt-3,vicunaをベンチマークし,これらの複雑なビデオ推論タスクにおける性能ギャップを実証し,効率的かつ汎用的なビデオ推論のために言語モデルを優先する今後の作業を促す。

Despite exciting recent results showing vision-language systems' capacity to reason about images using natural language, their capacity for video reasoning remains under-explored. We motivate framing video reasoning as the sequential understanding of a small number of keyframes, thereby leveraging the power and robustness of vision-language while alleviating the computational complexities of processing videos. To evaluate this novel application, we introduce VIP, an inference-time challenge dataset designed to explore models' reasoning capabilities through video chain-of-thought. Inspired by visually descriptive scene plays, we propose two formats for keyframe description: unstructured dense captions and structured scene descriptions that identify the focus, action, mood, objects, and setting (FAMOuS) of the keyframe. To evaluate video reasoning, we propose two tasks: Video Infilling and Video Prediction, which test abilities to generate multiple intermediate keyframes and predict future keyframes, respectively. We benchmark GPT-4, GPT-3, and VICUNA on VIP, demonstrate the performance gap in these complex video reasoning tasks, and encourage future work to prioritize language models for efficient and generalized video reasoning.
翻訳日:2023-11-10 18:25:11 公開日:2023-11-09
# 人的フィードバックを活用して教育データセットをスケールする:群集労働者と比較判断を組み合わせる

Leveraging Human Feedback to Scale Educational Datasets: Combining Crowdworkers and Comparative Judgement ( http://arxiv.org/abs/2305.12894v2 )

ライセンス: Link先を確認
Owen Henkel and Libby Hills(参考訳) 機械学習モデルは、教育環境では有益かもしれない多くの応用があるが、彼らの開発における鍵となる障壁は、これらのモデルを訓練するための十分なデータを確保することである。 教育データのラベル付けは、伝統的に複雑で多層的なルーブリックを使用して高度に熟練したレートラーに依存しており、プロセスは高価でスケールが困難である。 代わりに、よりスケーラブルなアプローチは、非専門家のクラウドワーカーを使って学生の作業を評価することであるが、非専門家の作業を行う場合、十分な高いレベルの正確さと信頼性を維持することは困難である。 本稿では,非熟練の群集作業員を用いた2つの実験と,複雑な学生データを評価するための比較判断について報告する。 オープンエンドの読解質問に対する学生の反応を評価するために、群衆労働者が雇われた。 群集労働者は2つの条件のうちの1つにランダムに割り当てられた: 対照: 答えが正しいか正しくないか(すなわちカテゴリー判断)、あるいは治療、同じ質問と回答を提示されたが、その代わりに2つの候補回答のうちどちらが正しいかを決定するように求められた(すなわち、比較/基準に基づく判断)。 比較判定により,両タスクの信頼性は大幅に向上した。 これらの結果は、教育評価の分野における比較判断の利点に関する確立された文献や、非熟練のクラウドワーカーと作業する際にモデルアウトプットに人的フィードバックを提供する手段として比較判断が好まれる人工知能研究の最近のトレンドと合致している。 しかし, これらの結果は, 比較判断とクラウドワーカーの併用による教育データ評価の有効効果を示す上で, 新規かつ重要なものである。

Machine Learning models have many potentially beneficial applications in education settings, but a key barrier to their development is securing enough data to train these models. Labelling educational data has traditionally relied on highly skilled raters using complex, multi-class rubrics, making the process expensive and difficult to scale. An alternative, more scalable approach could be to use non-expert crowdworkers to evaluate student work, however, maintaining sufficiently high levels of accuracy and inter-rater reliability when using non-expert workers is challenging. This paper reports on two experiments investigating using non-expert crowdworkers and comparative judgement to evaluate complex student data. Crowdworkers were hired to evaluate student responses to open-ended reading comprehension questions. Crowdworkers were randomly assigned to one of two conditions: the control, where they were asked to decide whether answers were correct or incorrect (i.e., a categorical judgement), or the treatment, where they were shown the same question and answers, but were instead asked to decide which of two candidate answers was more correct (i.e., a comparative/preference-based judgement). We found that using comparative judgement substantially improved inter-rater reliability on both tasks. These results are in-line with well-established literature on the benefits of comparative judgement in the field of educational assessment, as well as with recent trends in artificial intelligence research, where comparative judgement is becoming the preferred method for providing human feedback on model outputs when working with non-expert crowdworkers. However, to our knowledge, these results are novel and important in demonstrating the beneficial effects of using the combination of comparative judgement and crowdworkers to evaluate educational data.
翻訳日:2023-11-10 18:24:47 公開日:2023-11-09
# ディリクレエネルギーを用いた$k $-NNグラフの連成特徴と微分可能学習

Joint Feature and Differentiable $ k $-NN Graph Learning using Dirichlet Energy ( http://arxiv.org/abs/2305.12396v2 )

ライセンス: Link先を確認
Lei Xu, Lei Chen, Rong Wang, Feiping Nie, Xuelong Li(参考訳) 特徴選択(FS)は、重要な特徴を抽出し、学習プロセスを加速する機械学習において重要な役割を果たす。 本稿では,ディリクレエネルギーに基づく特徴選択と微分可能な$k$-nnグラフ学習を同時に行う深層fs法を提案する。 ディリクレエネルギーは、グラフ構造上の滑らかさを測定することによって重要な特徴を特定し、新しい特徴部分空間に固有の構造を反映した新しいグラフの学習を容易にする。 我々は、ニューラルネットワークにおけるk$-nnグラフの学習における非微分可能性問題に対処するために最適な輸送理論を用い、理論的には、動的グラフ学習のための他のグラフニューラルネットワークに適用できる。 さらに、全てのモジュールがアルゴリズムで設計されているため、提案するフレームワークは解釈可能である。 本モデルの有効性を,合成データセットと実世界のデータセットの両方で広範な実験により検証する。

Feature selection (FS) plays an important role in machine learning, which extracts important features and accelerates the learning process. In this paper, we propose a deep FS method that simultaneously conducts feature selection and differentiable $ k $-NN graph learning based on the Dirichlet Energy. The Dirichlet Energy identifies important features by measuring their smoothness on the graph structure, and facilitates the learning of a new graph that reflects the inherent structure in new feature subspace. We employ Optimal Transport theory to address the non-differentiability issue of learning $ k $-NN graphs in neural networks, which theoretically makes our method applicable to other graph neural networks for dynamic graph learning. Furthermore, the proposed framework is interpretable, since all modules are designed algorithmically. We validate the effectiveness of our model with extensive experiments on both synthetic and real-world datasets.
翻訳日:2023-11-10 18:24:16 公開日:2023-11-09
# 既知分類器の偽比較

Counterfactually Comparing Abstaining Classifiers ( http://arxiv.org/abs/2305.10564v2 )

ライセンス: Link先を確認
Yo Joong Choe, Aditya Gangrade, Aaditya Ramdas(参考訳) abstaining classifiersには、不確かである入力に対する予測を省略するオプションがある。 これらの分類器は、信頼性と安全性を改善するための不確実な予測を無視できるため、高い意思決定問題で人気が高まっている。 しかし、ブラックボックスのabstaining classifier(s)を評価する場合、分類器がアブステンションで何を予測していたかを説明する原則的なアプローチが欠けている。 これらの不足した予測は、最終的にいつ、直接または障害モードのバックアップオプションとして利用できるかが重要となる。 本稿では,禁忌を欠いたデータとして扱うことにより,禁忌者の評価・比較の問題に対する新しいアプローチと展望を提案する。 評価手法は, 分類器が回避できない場合の期待性能として定義される, 分類器の反事実スコアを定義することに集中する。 評価データがトレーニングデータから独立している場合(予測がランダムに欠落していることを保証する)、そのスコアが識別可能である。 注意すべき点は、棄権が決定論的であれば、分類器はその棄権に対して任意に不利な動作を行うことができるので、スコアは特定できないことである。 観測因果推論からツールを活用することで,非パラメトリックかつ二重ロバストな手法を開発し,同定下でこの量を効率的に推定する。 本手法はシミュレーションと実データ実験の両方で検討した。

Abstaining classifiers have the option to abstain from making predictions on inputs that they are unsure about. These classifiers are becoming increasingly popular in high-stakes decision-making problems, as they can withhold uncertain predictions to improve their reliability and safety. When evaluating black-box abstaining classifier(s), however, we lack a principled approach that accounts for what the classifier would have predicted on its abstentions. These missing predictions matter when they can eventually be utilized, either directly or as a backup option in a failure mode. In this paper, we introduce a novel approach and perspective to the problem of evaluating and comparing abstaining classifiers by treating abstentions as missing data. Our evaluation approach is centered around defining the counterfactual score of an abstaining classifier, defined as the expected performance of the classifier had it not been allowed to abstain. We specify the conditions under which the counterfactual score is identifiable: if the abstentions are stochastic, and if the evaluation data is independent of the training data (ensuring that the predictions are missing at random), then the score is identifiable. Note that, if abstentions are deterministic, then the score is unidentifiable because the classifier can perform arbitrarily poorly on its abstentions. Leveraging tools from observational causal inference, we then develop nonparametric and doubly robust methods to efficiently estimate this quantity under identification. Our approach is examined in both simulated and real data experiments.
翻訳日:2023-11-10 18:24:00 公開日:2023-11-09
# ネルソンの確率力学における量子平衡への緩和とボルン則

Relaxation to quantum equilibrium and the Born rule in Nelson's stochastic dynamics ( http://arxiv.org/abs/2305.04084v2 )

ライセンス: Link先を確認
Vincent Hardel, Paul-Antoine Hervieux, Giovanni Manfredi(参考訳) ネルソンの確率量子力学は、波動関数の平方モジュラスと同一ではない初期確率分布からどのように生まれた規則が確立されるかをテストする理想的な場を提供する。 本稿では,2分割干渉装置,高調波発振器,均一重力場における量子粒子の3つの問題について数値解析を行った。 すべての場合において、ネルソンの確率軌道は当初定位置で局所化され、したがってボルン規則に違反する。 二重スリット振動子と調和振動子では、干渉のような典型的な量子現象は、生まれた規則の確立後に常によく起こる。 対照的に、地球の重力場に自由落下する量子粒子の場合、干渉パターンは、量子緩和の完了によって観測される。 この発見は、完全な量子緩和が起こる前に初期の準量子力学が存在するかもしれないネルソンの理論から、生まれた規則が常に満足される標準量子力学を識別できる実験への道を開くかもしれない。 量子粒子が生まれながらの規則を破るメカニズムは未だ不明だが、ベータ崩壊や粒子-粒子対生成といった基本的な過程において起こるのではないかと推測する。

Nelson's stochastic quantum mechanics provides an ideal arena to test how the Born rule is established from an initial probability distribution that is not identical to the square modulus of the wave function. Here, we investigate numerically this problem for three relevant cases: a double-slit interference setup, a harmonic oscillator, and a quantum particle in a uniform gravitational field. For all cases, Nelson's stochastic trajectories are initially localized at a definite position, thereby violating the Born rule. For the double slit and harmonic oscillator, typical quantum phenomena, such as interferences, always occur well after the establishment of the Born rule. In contrast, for the case of quantum particles free-falling in the gravity field of the Earth, an interference pattern is observed \emph{before} the completion of the quantum relaxation. This finding may pave the way to experiments able to discriminate standard quantum mechanics, where the Born rule is always satisfied, from Nelson's theory, for which an early subquantum dynamics may be present before full quantum relaxation has occurred. Although the mechanism through which a quantum particle might violate the Born rule remains unknown to date, we speculate that this may occur during fundamental processes, such as beta decay or particle-antiparticle pair production.
翻訳日:2023-11-10 18:23:17 公開日:2023-11-09
# アインシュタイン、ボーム、ベルの作品における局所因果関係

Local causality in the works of Einstein, Bohm and Bell ( http://arxiv.org/abs/2305.03335v3 )

ライセンス: Link先を確認
Aur\'elien Drezet(参考訳) 本章ではアインシュタイン・ポドルスキー・ローゼンの定理とそのベルの定理との強い関係について論じる。 ベルがもたらした可能性の概念によって果たす中心的な役割は強調される。 特に、EPR とベルの定理に関係するベタブルは、隠れた補足変数(例えば、de Broglie-Bohm (dBB) のパイロット波動理論のように)に限らず、波動関数も含んでいることを強調する。 ベルとの完全な合意により、EPRとベルの結果を量子力学自体の非局所性に関する強い定理として再構成することができ、しばしば誤って仮定されるような隠れ変数アプローチに限らない。 さらに,「局所現実主義」に関する繰り返しの曖昧さを明らかにし,現実主義も決定論も反事実確定性もeprやベルの定理の前提条件ではないことを強調する。

In this chapter we discuss the Einstein Podolsky Rosen theorem and its strong relation with Bell's theorem. The central role played by the concept of beable introduced by Bell is emphasized. In particular we stress that beables involved in EPR and Bell theorems are not limited to hidden supplementary variables (e.g., like in the de Broglie-Bohm (dBB) pilot-wave theory) but also include the wave function. In full agreement with Bell this allows us the reformulate the EPR and Bell results as strong theorems concerning nonlocality for quantum mechanics itself and not only for hidden-variables approaches as it is often mistakenly assumed. Furthermore, we clarify some repeated ambiguities concerning `local-realism' and emphasize that neither realism nor determinism nor counterfactual definiteness are prerequisites of EPR and Bell theorems.
翻訳日:2023-11-10 18:22:57 公開日:2023-11-09
# 勾配クリッピングの再検討:確率バイアスと厳密収束保証

Revisiting Gradient Clipping: Stochastic bias and tight convergence guarantees ( http://arxiv.org/abs/2305.01588v2 )

ライセンス: Link先を確認
Anastasia Koloskova, Hadrien Hendrikx, Sebastian U. Stich(参考訳) グラディエント・クリッピング(Gradient clipping)は、標準(確率的な)勾配勾配に対する一般的な修正であり、各イテレーションは勾配ノルムをある値$c > 0$に制限する。 ディープラーニングモデルのトレーニングの安定化(Goodfellow et al., 2016)や、差分プライバシーの強化(Abadi et al., 2016)など、広く使用されている。 クリッピング機構の人気と単純さにもかかわらず、その収束保証はしばしば$c$の特定の値と強い雑音の仮定を必要とする。 本稿では,任意のクリッピングしきい値に正確に依存するコンバージェンス保証を$c$で示し,決定的および確率的勾配に厳密な保証を示す。 特に私たちが示すのは (i) 決定論的勾配降下の場合, クリッピング閾値は高次収束項にのみ影響する。 (ii) 真の最適値への確率的収束は、任意の小さなステップサイズであっても、標準雑音仮定の下では保証できない。 sgdをクリップした場合の勾配ノルムの収束に上下界と下界の一致を与え,実験によりこれらの結果を示す。

Gradient clipping is a popular modification to standard (stochastic) gradient descent, at every iteration limiting the gradient norm to a certain value $c >0$. It is widely used for example for stabilizing the training of deep learning models (Goodfellow et al., 2016), or for enforcing differential privacy (Abadi et al., 2016). Despite popularity and simplicity of the clipping mechanism, its convergence guarantees often require specific values of $c$ and strong noise assumptions. In this paper, we give convergence guarantees that show precise dependence on arbitrary clipping thresholds $c$ and show that our guarantees are tight with both deterministic and stochastic gradients. In particular, we show that (i) for deterministic gradient descent, the clipping threshold only affects the higher-order terms of convergence, (ii) in the stochastic setting convergence to the true optimum cannot be guaranteed under the standard noise assumption, even under arbitrary small step-sizes. We give matching upper and lower bounds for convergence of the gradient norm when running clipped SGD, and illustrate these results with experiments.
翻訳日:2023-11-10 18:22:39 公開日:2023-11-09
# カオスマップでレアな事象を典型化する効果的なダイナミクスを見つける

Finding the effective dynamics to make rare events typical in chaotic maps ( http://arxiv.org/abs/2304.13754v2 )

ライセンス: Link先を確認
Ricardo Guti\'errez, Adri\'an Canella-Ortiz and Carlos P\'erez-Espigares(参考訳) 特定の初期条件によるカオス写像の非定型的軌道に付随する力学的な揺らぎや稀な事象は、それらの運命を決定的に決定することができる。 しかし、そのような初期条件の発見は、システムのカオス的な性質のため、非常に難しい作業である。 本研究では,典型的な軌道が元の写像の非定型値に対応する実効的な位相共役写像を求める枠組みを提案することにより,この問題を回避する。 これは、固定点と周期軌道の不安定性の相反する例と、有限時間リャプノフ指数を含む動的相転移の特性に焦点を当てた例によって説明される。 この手順は、マルコフ連鎖、拡散過程、および開量子系の確率力学における一般化されたドゥーブ変換の適用のそれと平行であり、それぞれの場合において、所定の統計を定常状態に持つ新しい過程をもたらす。 この研究は、希少なゆらぎ(動的観測可能量の所定の統計を維持)が大きな偏りの形式主義によって特徴づけられ制御されるシステム群にカオスマップをもたらす。

Dynamical fluctuations or rare events associated with atypical trajectories in chaotic maps due to specific initial conditions can crucially determine their fate, as the may lead to stability islands or regions in phase space otherwise displaying unusual behavior. Yet, finding such initial conditions is a daunting task precisely because of the chaotic nature of the system. In this work, we circumvent this problem by proposing a framework for finding an effective topologically-conjugate map whose typical trajectories correspond to atypical ones of the original map. This is illustrated by means of examples which focus on counterbalancing the instability of fixed points and periodic orbits, as well as on the characterization of a dynamical phase transition involving the finite-time Lyapunov exponent. The procedure parallels that of the application of the generalized Doob transform in the stochastic dynamics of Markov chains, diffusive process and open quantum systems, which in each case results in a new process having the prescribed statistics in its stationary state. This work thus brings chaotic maps into the growing family of systems whose rare fluctuations -- sustaining prescribed statistics of dynamical observables -- can be characterized and controlled by means of a large-deviation formalism.
翻訳日:2023-11-10 18:21:42 公開日:2023-11-09
# byzantine-robust分散オンライン学習: 敵の参加者を敵の環境に改ざんする

Byzantine-Robust Distributed Online Learning: Taming Adversarial Participants in An Adversarial Environment ( http://arxiv.org/abs/2307.07980v2 )

ライセンス: Link先を確認
Xingrong Dong, Zhaoxian Wu, Qing Ling, Zhi Tian(参考訳) 本稿では,ビザンチン攻撃下でのオンライン学習について検討する。 オンライン学習アルゴリズムの性能は、しばしば(逆)後悔によって特徴づけられ、環境が対向的な損失を与えるときのワンステップ決定の質を評価し、サブ線形境界が好ましい。 しかし, 逆境環境やビザンチンの参加者の存在下では, 最先端の頑健な集約ルールのクラスであっても, オンライン勾配の分散は, 厳密な線形的反逆的後悔境界を達成できないことが証明された。 これはビザンツ攻撃の避けられない結果であり、線形敵の後悔の定数を合理的なレベルに制御することができる。 興味深いことに、正直な参加者の損失が無依存かつ均等に分配されるように環境が完全に敵対的でない場合は、上記の敵対的後悔とは対照的に、亜線形確率的後悔が可能となる。 そこで我々は, ビザンチン・ロバスト分散オンラインモーメントアルゴリズムを開発し, このような半線形確率的後悔境界を実現する。 大規模な数値実験は我々の理論解析を裏付ける。

This paper studies distributed online learning under Byzantine attacks. The performance of an online learning algorithm is often characterized by (adversarial) regret, which evaluates the quality of one-step-ahead decision-making when an environment provides adversarial losses, and a sublinear bound is preferred. But we prove that, even with a class of state-of-the-art robust aggregation rules, in an adversarial environment and in the presence of Byzantine participants, distributed online gradient descent can only achieve a linear adversarial regret bound, which is tight. This is the inevitable consequence of Byzantine attacks, even though we can control the constant of the linear adversarial regret to a reasonable level. Interestingly, when the environment is not fully adversarial so that the losses of the honest participants are i.i.d. (independent and identically distributed), we show that sublinear stochastic regret, in contrast to the aforementioned adversarial regret, is possible. We develop a Byzantine-robust distributed online momentum algorithm to attain such a sublinear stochastic regret bound. Extensive numerical experiments corroborate our theoretical analysis.
翻訳日:2023-11-10 18:15:16 公開日:2023-11-09
# World Modelのバックボーンに挑戦する - RNN、Transformers、S4

Facing Off World Model Backbones: RNNs, Transformers, and S4 ( http://arxiv.org/abs/2307.02064v2 )

ライセンス: Link先を確認
Fei Deng, Junyeong Park, Sungjin Ahn(参考訳) 世界モデルはモデルベース強化学習(mbrl)の基本要素である。 部分的に観測可能な環境で未来を時間的に拡張し一貫したシミュレーションを行うには、世界モデルは長期記憶を持つ必要がある。 しかしながら、dreamerのような最先端のmbrlエージェントは、メモリ容量を制限した世界モデルバックボーンとしてrecurrent neural networks(rnn)を主に採用している。 本稿では,長期記憶改善のための代替世界モデルバックボーンについて検討する。 特に、トランスフォーマーと構造化状態空間シーケンス(S4)モデルの有効性について検討し、低次元列における長距離依存性と相補的強みを捉えることによる顕著な能力に動機づけられた。 我々はS4を含む並列化可能なSSMと互換性のある最初の世界モデルであるS4WMを提案する。 潜時変数モデリングを取り入れることで、S4WMは潜時想像力によって高次元画像列を効率的に生成することができる。 さらに、RNN-、Transformer-、S4-based world modelを4つの環境群で比較し、長期的想像力、文脈依存リコール、報酬予測、メモリベースの推論を含む世界モデルの重要な記憶能力を評価するように調整した。 以上の結果から,S4WMは長期記憶においてトランスフォーマーをベースとした世界モデルより優れており,トレーニングや想像力の面では効率が優れていた。 これらの結果は、より強力なMBRL剤の開発への道を開いた。

World models are a fundamental component in model-based reinforcement learning (MBRL). To perform temporally extended and consistent simulations of the future in partially observable environments, world models need to possess long-term memory. However, state-of-the-art MBRL agents, such as Dreamer, predominantly employ recurrent neural networks (RNNs) as their world model backbone, which have limited memory capacity. In this paper, we seek to explore alternative world model backbones for improving long-term memory. In particular, we investigate the effectiveness of Transformers and Structured State Space Sequence (S4) models, motivated by their remarkable ability to capture long-range dependencies in low-dimensional sequences and their complementary strengths. We propose S4WM, the first world model compatible with parallelizable SSMs including S4 and its variants. By incorporating latent variable modeling, S4WM can efficiently generate high-dimensional image sequences through latent imagination. Furthermore, we extensively compare RNN-, Transformer-, and S4-based world models across four sets of environments, which we have tailored to assess crucial memory capabilities of world models, including long-term imagination, context-dependent recall, reward prediction, and memory-based reasoning. Our findings demonstrate that S4WM outperforms Transformer-based world models in terms of long-term memory, while exhibiting greater efficiency during training and imagination. These results pave the way for the development of stronger MBRL agents.
翻訳日:2023-11-10 18:14:54 公開日:2023-11-09
# 複数のカメラビューからの監視映像におけるMILによる異常検出

A MIL Approach for Anomaly Detection in Surveillance Videos from Multiple Camera Views ( http://arxiv.org/abs/2307.00562v3 )

ライセンス: Link先を確認
Silas Santiago Lopes Pereira, Jos\'e Everardo Bessa Maia(参考訳) 閉塞と乱れは、監視ビデオで異常を検出するのが難しくなる2つのシーン状態である。 さらに、異常事象は稀であり、結果として、クラス不均衡とラベル付き異常データの欠如もこの課題の重要な特徴である。 そのため、この用途には弱い教師付き手法が深く研究されている。 本稿では、ラベルの欠如に対処するためにMIL(Multiple Instance Learning)とMC(Multiple Camera Views)を組み合わせることで、監視ビデオにおける異常検出の典型的な問題に取り組む。 得られたMC-MILアルゴリズムでは、SultaniのMILランキング関数を用いた回帰ネットワークのトレーニングに多重カメラ複合損失関数を適用した。 ここで最初に提案されたMC-MILアルゴリズムを評価するために、複数のカメラビューからの異常検出タスクに対して、複数のカメラPETS-2009ベンチマークデータセットを再ラベルした。 その結果、シングルカメラ構成に比べてF1スコアが大幅に向上した。

Occlusion and clutter are two scene states that make it difficult to detect anomalies in surveillance video. Furthermore, anomaly events are rare and, as a consequence, class imbalance and lack of labeled anomaly data are also key features of this task. Therefore, weakly supervised methods are heavily researched for this application. In this paper, we tackle these typical problems of anomaly detection in surveillance video by combining Multiple Instance Learning (MIL) to deal with the lack of labels and Multiple Camera Views (MC) to reduce occlusion and clutter effects. In the resulting MC-MIL algorithm we apply a multiple camera combined loss function to train a regression network with Sultani's MIL ranking function. To evaluate the MC-MIL algorithm first proposed here, the multiple camera PETS-2009 benchmark dataset was re-labeled for the anomaly detection task from multiple camera views. The result shows a significant performance improvement in F1 score compared to the single-camera configuration.
翻訳日:2023-11-10 18:14:27 公開日:2023-11-09
# 空腹nlp研究の実態調査(dis)と課題

Surveying (Dis)Parities and Concerns of Compute Hungry NLP Research ( http://arxiv.org/abs/2306.16900v2 )

ライセンス: Link先を確認
Ji-Ung Lee, Haritz Puerto, Betty van Aken, Yuki Arase, Jessica Zosa Forde, Leon Derczynski, Andreas R\"uckl\'e, Iryna Gurevych, Roy Schwartz, Emma Strubell, Jesse Dodge(参考訳) NLPの最近の多くの改良は、数十億のパラメータを持つ大規模事前学習言語モデル(PLM)の開発と使用に起因している。 大きなモデルサイズは、計算コストをそのようなモデルを訓練し評価するための主な制限要素にし、plmの研究の持続可能性、再現性、包括性に関する深刻な懸念を提起している。 これらの懸念はしばしば個人的な経験と観察に基づいている。 しかし、それらを調査する大規模な調査は行われていなかった。 本研究は, 環境影響, 株式, ピアレビューの影響の3つのトピックについて, これらの懸念を定量化するための最初の試みである。 NLPコミュニティから312人の参加者を対象に調査を行い、高齢者、アカデミア、産業におけるグループ内およびグループ内における既存(格差)と、それらがピアレビュープロセスに与える影響を把握した。 それぞれのトピックについて分析を行い、発見された格差を軽減するためのレコメンデーションを作成します。 最後に、自由テキスト応答における多くの参加者による追加の懸念について論じる。

Many recent improvements in NLP stem from the development and use of large pre-trained language models (PLMs) with billions of parameters. Large model sizes makes computational cost one of the main limiting factors for training and evaluating such models; and has raised severe concerns about the sustainability, reproducibility, and inclusiveness for researching PLMs. These concerns are often based on personal experiences and observations. However, there had not been any large-scale surveys that investigate them. In this work, we provide a first attempt to quantify these concerns regarding three topics, namely, environmental impact, equity, and impact on peer reviewing. By conducting a survey with 312 participants from the NLP community, we capture existing (dis)parities between different and within groups with respect to seniority, academia, and industry; and their impact on the peer reviewing process. For each topic, we provide an analysis and devise recommendations to mitigate found disparities, some of which already successfully implemented. Finally, we discuss additional concerns raised by many participants in free-text responses.
翻訳日:2023-11-10 18:13:55 公開日:2023-11-09
# 変圧器の量子化:アテンションヘッドが何もしないようにする

Quantizable Transformers: Removing Outliers by Helping Attention Heads Do Nothing ( http://arxiv.org/abs/2306.12929v2 )

ライセンス: Link先を確認
Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort(参考訳) トランスフォーマーモデルはここ数年、様々な領域で広く採用され、特に大きな言語モデルはAIの分野を著しく進歩させてきた。 その規模のため、これらのネットワークの能力は大幅に増加したが、必要な計算量を大幅に増加させるコストがかかっている。 量子化は、ニューラルネットワークの計算時間とメモリ消費を減らす最も効果的な方法の1つである。 しかし、多くの研究により、現代のトランスフォーマーモデルはアクティベーションにおいて強い外れ値を学ぶ傾向にあり、定量化が難しいことが示されている。 許容される性能を維持するために、これらの異常値の存在は、ビット幅の高いアクティベーションや、異なる数値フォーマット、追加の微調整、その他の回避策を必要とする。 我々は、強い外れ値が「ノーオップ」または単に残像の部分的な更新を学習しようとする注意頭の動きに非常に関係していることを示す。 ノーアップデートのためのアテンションマトリックスで必要とされる正確なゼロを達成するために、トレーニング中にソフトマックスへの入力がより大きくなり、ネットワークの他の部分で異常が発生する。 これらの観察に基づいて,注意機構の単純(独立)な2つの修正(クリップングソフトマックスとゲート付き注意)を提案する。 我々は,本手法を用いて事前学習したモデルにおいて,浮動小数点タスク性能を維持・改善しながら,はるかに小さなアウトレーラを学習できることを実証的に示す。 これにより、追加の労力なしで、トランスフォーマーをint8量子化に量子化できます。 提案手法の有効性を言語モデル(BERT, OPT)と視覚変換器の両方で示す。

Transformer models have been widely adopted in various domains over the last years, and especially large language models have advanced the field of AI significantly. Due to their size, the capability of these networks has increased tremendously, but this has come at the cost of a significant increase in necessary compute. Quantization is one of the most effective ways to reduce the computational time and memory consumption of neural networks. Many studies have shown, however, that modern transformer models tend to learn strong outliers in their activations, making them difficult to quantize. To retain acceptable performance, the existence of these outliers requires activations to be in higher bitwidth or the use of different numeric formats, extra fine-tuning, or other workarounds. We show that strong outliers are related to very specific behavior of attention heads that try to learn a "no-op" or just a partial update of the residual. To achieve the exact zeros needed in the attention matrix for a no-update, the input to the softmax is pushed to be larger and larger during training, causing outliers in other parts of the network. Based on these observations, we propose two simple (independent) modifications to the attention mechanism - clipped softmax and gated attention. We empirically show that models pre-trained using our methods learn significantly smaller outliers while maintaining and sometimes even improving the floating-point task performance. This enables us to quantize transformers to full INT8 quantization of the activations without any additional effort. We demonstrate the effectiveness of our methods on both language models (BERT, OPT) and vision transformers.
翻訳日:2023-11-10 18:13:38 公開日:2023-11-09
# 隠れサブグループ量子オートエンコーダによる情報圧縮

Information compression via hidden subgroup quantum autoencoders ( http://arxiv.org/abs/2306.08047v2 )

ライセンス: Link先を確認
Feiyang Liu, Kaiming Bian, Fei Meng, Wen Zhang and Oscar Dahlsten(参考訳) 非線形古典情報圧縮のための量子法を設計する。 いわゆる隠れ部分群の対称性に従うデータを圧縮するために、クエリ複雑性の観点から量子アルゴリズムの指数関数的な高速化が証明される。 次に,本手法を変分量子アルゴリズムに一般化し,データベースに格納された時系列データを,隠蔽サブグループの未知の対称性で自動的に圧縮する。 自動圧縮は、隠されたサブグループを演算するエンコーダと、グループ構造を用いてデータを再構成するデコーダを利用する。 したがって、アルゴリズムは隠れたサブグループ量子コンピューティングと量子オートエンコーダの合成と見なすことができる。 このアルゴリズムの出力は、扱いやすい例のための深い古典的オートエンコーダと好適に比較できる。 量子コンピュータは,従来のコンピュータでは効率よく圧縮できないデータの種類を効率的に圧縮できることを示す。 追加の用途として、量子圧縮機を古典的な圧縮機よりも計算能力の利点は、知的エネルギーの収穫における量子のアドバンテージに変換できる。

We design a quantum method for non-linear classical information compression. For compressing data obeying symmetries of the so-called hidden subgroup type, we prove an exponential speedup of quantum algorithm in terms of query complexity. We then generalize the method to a variational quantum algorithm that automatically compresses time-series data stored in a database with a priori unknown symmetries of the hidden subgroup type. The automatic compression exploits an encoder that computes the hidden subgroup and a decoder that reconstructs the data using the group structure. The algorithm can thus be viewed as a synthesis of hidden subgroup quantum computing and quantum autoencoders. The output of our algorithm compares favourably with that of a deep classical autoencoder for a tractable illustrative example. Our results show how quantum computers can efficiently compress certain types of data that cannot be efficiently compressible by classical computers. As an additional application, the computational advantage of the quantum compressor over its classical counterpart can be transformed into a quantum advantage for intelligent energy harvesting.
翻訳日:2023-11-10 18:12:07 公開日:2023-11-09
# クロスアテンション強化デュアルストリームネットワークを用いたai画像検出

AI-Generated Image Detection using a Cross-Attention Enhanced Dual-Stream Network ( http://arxiv.org/abs/2306.07005v2 )

ライセンス: Link先を確認
Ziyi Xi, Wenmin Huang, Kangkang Wei, Weiqi Luo and Peijia Zheng(参考訳) AIGC(AI Generated Content)の急速な進化により、この技術によって生成された偽造画像は本質的には騙されやすく、従来のコンピュータ生成グラフィクス(CG)に比べて人間の介入が少なくなる。 しかし、CGとAIGCの相違により、従来のCG検出法はAIGC生成画像の同定に不十分な傾向にある。 本研究は,AIGCにおけるテキスト・画像生成プロセスに焦点をあてる。 まず、DALLE2とDreamStudioという2つの異なるAIシステムを利用した2つのテキスト画像データベースを最初に組み立てる。 aigcが生み出す固有の異常を確率的に捉えることを目的として,残留ストリームとコンテンツストリームからなる頑健なデュアルストリームネットワークを開発した。 前者は空間リッチモデル(SRM)を用いて画像から様々なテクスチャ情報を巧みに抽出し、後者は低周波で追加の鍛造された痕跡を捕捉し、残留ストリームが見落としてしまうような補完的な情報を抽出する。 これら2つのストリーム間の情報交換を強化するために,クロスマルチヘッドアテンション機構を導入する。 両データベースに比較実験を多数実施し,提案手法は画像解像度の範囲で従来型のCG検出技術より一貫して優れていることを示す。 さらに,本手法はロバスト性テストとデータベース間実験により,優れた性能を示す。 SPL2018やDsTokといった従来のCGベンチマークに適用した場合,本手法はCG検出分野における既存手法の能力をはるかに上回っている。

With the rapid evolution of AI Generated Content (AIGC), forged images produced through this technology are inherently more deceptive and require less human intervention compared to traditional Computer-generated Graphics (CG). However, owing to the disparities between CG and AIGC, conventional CG detection methods tend to be inadequate in identifying AIGC-produced images. To address this issue, our research concentrates on the text-to-image generation process in AIGC. Initially, we first assemble two text-to-image databases utilizing two distinct AI systems, DALLE2 and DreamStudio. Aiming to holistically capture the inherent anomalies produced by AIGC, we develope a robust dual-stream network comprised of a residual stream and a content stream. The former employs the Spatial Rich Model (SRM) to meticulously extract various texture information from images, while the latter seeks to capture additional forged traces in low frequency, thereby extracting complementary information that the residual stream may overlook. To enhance the information exchange between these two streams, we incorporate a cross multi-head attention mechanism. Numerous comparative experiments are performed on both databases, and the results show that our detection method consistently outperforms traditional CG detection techniques across a range of image resolutions. Moreover, our method exhibits superior performance through a series of robustness tests and cross-database experiments. When applied to widely recognized traditional CG benchmarks such as SPL2018 and DsTok, our approach significantly exceeds the capabilities of other existing methods in the field of CG detection.
翻訳日:2023-11-10 18:11:53 公開日:2023-11-09
# 時空間量子フォーマリズムの統一:複数時間状態によるプロセスと擬密度行列のマッピング

Unification of spatiotemporal quantum formalisms: mapping between process and pseudo-density matrices via multiple-time states ( http://arxiv.org/abs/2306.05958v2 )

ライセンス: Link先を確認
Xiangjing Liu, Zhian Jia, Yixian Qiu, Fei Li, and Oscar Dahlsten(参考訳) 疑似密度行列(pseudo-density matrix:pdm)、プロセス行列(process matrix)、多重時間状態アプローチ(multiple-time state approach)という3つの異なる量子状態の定義方法の関係を考察する。 以前の研究では、二成分二時間状態は二成分過程行列の統計を再現できることが示されている。 そこで本研究では,2時間状態に基づく運用シナリオをPDMとして表現し,プロセス行列からPDMへのマッピングを構築する。 このマッピングの存在は、PDMがプロセス行列と同様に、不明確な因果順序を持つプロセスをモデル化できることを意味する。 時間的相関の尺度であるPDMの負性は、リセットチャネルに関連する演算子の量子スイッチト順序を作成することによってどのように活性化されるかを示す。 結果は時空間状態の量子モデルの統一に寄与する。

We consider the relation between three different approaches to defining quantum states across several times and locations: the pseudo-density matrix (PDM), the process matrix, and the multiple-time state approaches. Previous studies have shown that bipartite two-time states can reproduce the statistics of bipartite process matrices. Here, we show that the operational scenarios underlying two-time states can be represented as PDMs, and thereby construct a mapping from process matrices with measurements to PDMs. The existence of this mapping implies that PDMs can, like the process matrix, model processes with indefinite causal orders. We illustrate this ability by showing how the negativity of the PDM, a measure of temporal correlations, is activated by creating a quantum-switched order of operators associated with reset channels. The results contribute to the unification of quantum models of spatiotemporal states.
翻訳日:2023-11-10 18:11:27 公開日:2023-11-09
# 教師にAIを教える: 制限なしのサリエンス・トレーニングに限定されたサリエンス・データを活用する

Teaching AI to Teach: Leveraging Limited Human Salience Data Into Unlimited Saliency-Based Training ( http://arxiv.org/abs/2306.05527v2 )

ライセンス: Link先を確認
Colton R. Crum, Aidan Boyd, Kevin Bowyer, Adam Czajka(参考訳) 機械学習モデルでは、トレーニングプロセスが人間の知覚情報を組み込むと、分類タスクの精度が向上している。 しかし、人間誘導モデルの訓練における課題は、人間のサリエンスのための画像アノテーション収集に伴うコストである。 大規模なトレーニングセット内のすべての画像に対するアノテーションデータ収集は,極めて高価である。 本研究では,教師モデルの給与マップを用いて追加データの注釈付けを行うために,教師モデル(少量の人間注釈データに基づく学習)を用いた。 そして、大量の注釈付きトレーニングデータを使って「学生」モデルを訓練する。 このアプローチにより、限られた数の人為的アノテーションを任意の数のモデル生成画像アノテーションで補うことができる。 本研究は,教師・生徒の学習パラダイムが達成した正確性と,(1)すべての人的敬礼アノテーションを用いた訓練,(2)人的敬礼アノテーションを使わずに利用可能なすべての訓練データとを比較した。 本研究では, 合成顔検出と偽虹彩検出を課題として用い, 4つのモデルアーキテクチャ(DenseNet, ResNet, Xception, Inception)と2つのサリエンシ推定手法(CAM, RISE)で結果を報告する。 その結果,教師の学習パラダイムは両ベースラインのパフォーマンスを大幅に上回るモデルとなり,本手法は少量の人的アノテーションを有効活用し,任意の量のトレーニングデータに対するサリエンスマップを生成することができることを示した。

Machine learning models have shown increased accuracy in classification tasks when the training process incorporates human perceptual information. However, a challenge in training human-guided models is the cost associated with collecting image annotations for human salience. Collecting annotation data for all images in a large training set can be prohibitively expensive. In this work, we utilize "teacher" models (trained on a small amount of human-annotated data) to annotate additional data by means of teacher models' saliency maps. Then, "student" models are trained using the larger amount of annotated training data. This approach makes it possible to supplement a limited number of human-supplied annotations with an arbitrarily large number of model-generated image annotations. We compare the accuracy achieved by our teacher-student training paradigm with (1) training using all available human salience annotations, and (2) using all available training data without human salience annotations. We use synthetic face detection and fake iris detection as example challenging problems, and report results across four model architectures (DenseNet, ResNet, Xception, and Inception), and two saliency estimation methods (CAM and RISE). Results show that our teacher-student training paradigm results in models that significantly exceed the performance of both baselines, demonstrating that our approach can usefully leverage a small amount of human annotations to generate salience maps for an arbitrary amount of additional training data.
翻訳日:2023-11-10 18:11:00 公開日:2023-11-09
# 介入一般化:因子グラフモデルからの考察

Intervention Generalization: A View from Factor Graph Models ( http://arxiv.org/abs/2306.04027v2 )

ライセンス: Link先を確認
Gecia Bravo-Hermsdorff, David S. Watson, Jialin Yu, Jakob Zeitler, and Ricardo Silva(参考訳) 因果推論の目標の1つは、過去の実験と観測データから新しい状態への一般化である。 新たな実験条件から関心の結果へのマッピングを最終的に学習することは原則として可能であるが、トレーニングデータで十分な種類の実験が利用可能であれば、大きな組合せ空間に対応することは困難である。 典型的なスパース実験設計では、この写像は重正規化や事前分布に頼らずに不適切である。 そのような仮定は信頼性があり、防御やテストが難しいかもしれない。 本稿では, 因子グラフモデルのよく理解された言語で伝達される操作系分布の因子化に関する最小限の仮定に基づいて, 過去の実験から新しい条件への飛躍をいかに保証するかを詳細に検討する。 仮定された$\textit{interventional factor model}$ (ifm) は必ずしも有益ではないが、測定されていない共起とフィードバックのメカニズムを明示的にモデル化する必要性を取り除き、直接テスト可能なクレームへと導く。 IFMと実験体制の集合からのデータセットが与えられた場合、これらのトレーニングデータでは観測されなかった新しい制度の結果の識別可能性の条件が導かれる。 提案手法は,複数の効率的なアルゴリズムを用いて実装し,様々な半合成実験に適用する。

One of the goals of causal inference is to generalize from past experiments and observational data to novel conditions. While it is in principle possible to eventually learn a mapping from a novel experimental condition to an outcome of interest, provided a sufficient variety of experiments is available in the training data, coping with a large combinatorial space of possible interventions is hard. Under a typical sparse experimental design, this mapping is ill-posed without relying on heavy regularization or prior distributions. Such assumptions may or may not be reliable, and can be hard to defend or test. In this paper, we take a close look at how to warrant a leap from past experiments to novel conditions based on minimal assumptions about the factorization of the distribution of the manipulated system, communicated in the well-understood language of factor graph models. A postulated $\textit{interventional factor model}$ (IFM) may not always be informative, but it conveniently abstracts away a need for explicitly modeling unmeasured confounding and feedback mechanisms, leading to directly testable claims. Given an IFM and datasets from a collection of experimental regimes, we derive conditions for identifiability of the expected outcomes of new regimes never observed in these training data. We implement our framework using several efficient algorithms, and apply them on a range of semi-synthetic experiments.
翻訳日:2023-11-10 18:10:30 公開日:2023-11-09
# 分散SGDと平均方向SAMは漸近的に等価である

Decentralized SGD and Average-direction SAM are Asymptotically Equivalent ( http://arxiv.org/abs/2306.02913v5 )

ライセンス: Link先を確認
Tongtian Zhu, Fengxiang He, Kaixuan Chen, Mingli Song, Dacheng Tao(参考訳) 分散確率勾配降下(D-SGD)は、中央サーバを制御せずに大規模デバイス上で協調学習を可能にする。 しかし、既存の理論では、分散化が一般化を弱めている。 本稿では,従来の信念に挑戦し,分散学習を理解するための全く新しい視点を提案する。 d-sgdは一般の非凸非$-\beta$-smooth設定下で平均指向シャープネス認識最小化(sam)アルゴリズムの損失関数を暗黙的に最小化する。 This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios. コードはhttps://github.com/Raiden-Zhu/ICML-2023-DSGD-and-SAMで公開されている。

Decentralized stochastic gradient descent (D-SGD) allows collaborative learning on massive devices simultaneously without the control of a central server. However, existing theories claim that decentralization invariably undermines generalization. In this paper, we challenge the conventional belief and present a completely new perspective for understanding decentralized learning. We prove that D-SGD implicitly minimizes the loss function of an average-direction Sharpness-aware minimization (SAM) algorithm under general non-convex non-$\beta$-smooth settings. This surprising asymptotic equivalence reveals an intrinsic regularization-optimization trade-off and three advantages of decentralization: (1) there exists a free uncertainty evaluation mechanism in D-SGD to improve posterior estimation; (2) D-SGD exhibits a gradient smoothing effect; and (3) the sharpness regularization effect of D-SGD does not decrease as total batch size increases, which justifies the potential generalization benefit of D-SGD over centralized SGD (C-SGD) in large-batch scenarios. The code is available at https://github.com/Raiden-Zhu/ICML-2023-DSGD-and-SAM.
翻訳日:2023-11-10 18:09:59 公開日:2023-11-09
# SourceP:ソースコードでEthereum上のPonziスキーマを検出する

SourceP: Detecting Ponzi Schemes on Ethereum with Source Code ( http://arxiv.org/abs/2306.01665v4 )

ライセンス: Link先を確認
Pengcheng Lu, Liang Cai, and Keting Yin(参考訳) ブロックチェーン技術がますます普及するにつれて、一般的な金融詐欺であるPonziスキームもブロックチェーンプラットフォームEthereumに登場している。 スマートコントラクトを通じて展開されるこのPonziスキームは、スマートPonziスキームとしても知られ、多くの経済的損失と負の影響を引き起こしている。 ethereum上でスマートポンジスキームを検出する既存の方法は、主にバイトコード機能、オペコード機能、アカウント機能、スマートコントラクトのトランザクション動作機能に依存しており、スキーム識別のパフォーマンスは不十分である。 本稿では、前訓練されたモデルとデータフローを使用してethereumプラットフォーム上でスマートポンジスキームを検出する方法であるsourcepを提案し、smart contractsのソースコードを機能として使用することで、別の方向からスマートポンジスキームを検出する可能性を検討する。 sourcepは、モデルの解釈性を高めながら、データ取得の難しさと既存の検出方法の特徴抽出を削減します。 具体的には、まずスマートコントラクトのソースコードをデータフローグラフに変換し、次に学習コード表現に基づく事前学習モデルを導入し、スマートコントラクト内のポンジスキームを識別するための分類モデルを構築する。 実験の結果, SourceP は Ethereum のスマートコントラクトデータセット内のスマート Ponzi スキームの検出において,87.2\% のリコールと90.7\% のFスコアを達成した。 我々はまた、事前訓練されたモデルとデータフローがSourcePに重要な貢献をしていること、およびSourcePが優れた一般化能力を持っていることを実証する追加の実験を通して実証する。

As blockchain technology becomes more and more popular, a typical financial scam, the Ponzi scheme, has also emerged in the blockchain platform Ethereum. This Ponzi scheme deployed through smart contracts, also known as the smart Ponzi scheme, has caused a lot of economic losses and negative impacts. Existing methods for detecting smart Ponzi schemes on Ethereum mainly rely on bytecode features, opcode features, account features, and transaction behavior features of smart contracts, and the performance of identifying schemes is insufficient. In this paper, we propose SourceP, a method to detect smart Ponzi schemes on the Ethereum platform using pre-trained models and data flow, which only requires using the source code of smart contracts as features to explore the possibility of detecting smart Ponzi schemes from another direction. SourceP reduces the difficulty of data acquisition and feature extraction of existing detection methods while increasing the interpretability of the model. Specifically, we first convert the source code of a smart contract into a data flow graph and then introduce a pre-trained model based on learning code representations to build a classification model to identify Ponzi schemes in smart contracts. The experimental results show that SourceP achieves 87.2\% recall and 90.7\% F-score for detecting smart Ponzi schemes within Ethereum's smart contract dataset, outperforming state-of-the-art methods in terms of performance and sustainability. We also demonstrate through additional experiments that pre-trained models and data flow play an important contribution to SourceP, as well as proving that SourceP has a good generalization ability.
翻訳日:2023-11-10 18:09:43 公開日:2023-11-09
# 自動変調分類における早期イグジットを用いた高速推論

Using Early Exits for Fast Inference in Automatic Modulation Classification ( http://arxiv.org/abs/2308.11100v2 )

ライセンス: Link先を確認
Elsayed Mohammed, Omar Mashaal and Hatem Abou-Zeid(参考訳) 自動変調分類(AMC)は、無線スペクトルを介して送信される信号を自律的に分類することで、無線通信において重要な役割を果たす。 深層学習(DL)技術は、複雑な無線信号の特徴を抽出する能力のため、AMCにますます使われている。 しかし、DLモデルは計算集約的であり、高い推論遅延をもたらす。 本稿では,AMC が推論を高速化するために利用する DL モデルに対する早期終了(EE) 手法の適用を提案する。 この問題に対して,4つの早期エグジットアーキテクチャとカスタマイズしたマルチブランチトレーニングアルゴリズムを提案する。 広汎な実験により、中程度の信号対雑音比(SNR)を持つ信号は分類が容易であり、深いアーキテクチャを必要としないため、提案したEEアーキテクチャを利用することができることを示す。 実験の結果,EE技術は分類精度を犠牲にすることなく,ディープニューラルネットワークの推論速度を大幅に削減できることが示された。 また,これらのアーキテクチャを用いた場合の分類精度と推定時間とのトレードオフを徹底的に検討する。 私たちの知る限りでは、この研究はamcに早期の退社方法を適用する最初の試みであり、この分野における将来の研究の基盤を提供する。

Automatic modulation classification (AMC) plays a critical role in wireless communications by autonomously classifying signals transmitted over the radio spectrum. Deep learning (DL) techniques are increasingly being used for AMC due to their ability to extract complex wireless signal features. However, DL models are computationally intensive and incur high inference latencies. This paper proposes the application of early exiting (EE) techniques for DL models used for AMC to accelerate inference. We present and analyze four early exiting architectures and a customized multi-branch training algorithm for this problem. Through extensive experimentation, we show that signals with moderate to high signal-to-noise ratios (SNRs) are easier to classify, do not require deep architectures, and can therefore leverage the proposed EE architectures. Our experimental results demonstrate that EE techniques can significantly reduce the inference speed of deep neural networks without sacrificing classification accuracy. We also thoroughly study the trade-off between classification accuracy and inference time when using these architectures. To the best of our knowledge, this work represents the first attempt to apply early exiting methods to AMC, providing a foundation for future research in this area.
翻訳日:2023-11-10 18:01:26 公開日:2023-11-09
# 大型言語モデルを用いた臨床ノートにおける表現型認識の強化: phenobcbert と phenogpt

Enhancing Phenotype Recognition in Clinical Notes Using Large Language Models: PhenoBCBERT and PhenoGPT ( http://arxiv.org/abs/2308.06294v2 )

ライセンス: Link先を確認
Jingye Yang, Cong Liu, Wendy Deng, Da Wu, Chunhua Weng, Yunyun Zhou, Kai Wang(参考訳) トランスフォーマーアーキテクチャに基づく大規模言語モデル(llms)は,hpoに記録されていない用語を含む臨床表現型の自動検出を可能にすると仮定した。 本研究では,PhenoBCBERT,Bio+Clinical BERTを事前学習モデルとして活用したBERTベースモデル,PhenoGPT,GPT-J,Falcon,LLaMAなどのオープンソースバージョン,GPT-3,GPT-3.5などのオープンソースバージョンを含む多様なGPTモデルから初期化可能なGPTベースモデルを開発した。 我々は,ルールベースとディープラーニングを組み合わせたHPO認識ツールであるPhenoTaggerとの比較を行った。 我々はHPOを特徴としない新しい概念を含む表現型概念を抽出できることを発見した。 また,新しい表現型情報を認識し,抽出する方法を説明するために,生物医学文献のケーススタディも行った。 モデルアーキテクチャ,メモリ使用量,速度,精度,プライバシ保護など,さまざまな面で,現在のbertベースとgptベースの表現型タグモデルを比較した。 また,hpoターゲティングの改善のために,トランスフォーマーモデルにネゲーションステップとhpo正規化層を追加することも検討した。 結論として、phenobcbert と phenogpt は臨床ノートや生物医学文献から表現型用語の自動発見を可能にし、ヒトの疾患に対する新しい生物学的洞察を導出するための下流のタスクの自動化を容易にする。

We hypothesize that large language models (LLMs) based on the transformer architecture can enable automated detection of clinical phenotype terms, including terms not documented in the HPO. In this study, we developed two types of models: PhenoBCBERT, a BERT-based model, utilizing Bio+Clinical BERT as its pre-trained model, and PhenoGPT, a GPT-based model that can be initialized from diverse GPT models, including open-source versions such as GPT-J, Falcon, and LLaMA, as well as closed-source versions such as GPT-3 and GPT-3.5. We compared our methods with PhenoTagger, a recently developed HPO recognition tool that combines rule-based and deep learning methods. We found that our methods can extract more phenotype concepts, including novel ones not characterized by HPO. We also performed case studies on biomedical literature to illustrate how new phenotype information can be recognized and extracted. We compared current BERT-based versus GPT-based models for phenotype tagging, in multiple aspects including model architecture, memory usage, speed, accuracy, and privacy protection. We also discussed the addition of a negation step and an HPO normalization layer to the transformer models for improved HPO term tagging. In conclusion, PhenoBCBERT and PhenoGPT enable the automated discovery of phenotype terms from clinical notes and biomedical literature, facilitating automated downstream tasks to derive new biological insights on human diseases.
翻訳日:2023-11-10 18:01:09 公開日:2023-11-09
# ニューラルネットワークベイズ推定におけるデータの変動性の理論

A theory of data variability in Neural Network Bayesian inference ( http://arxiv.org/abs/2307.16695v2 )

ライセンス: Link先を確認
Javed Lindner, David Dahmen, Michael Kr\"amer and Moritz Helias(参考訳) ベイズ推論とカーネル法は機械学習においてよく確立されている。 特にニューラルネットワークのガウス過程は、カーネルと推論手法を用いて無限に広い隠れレイヤの限界内でニューラルネットワークを調べる概念を提供する。 ここでは、この極限の上に構築し、無限に広いネットワークの一般化特性をカバーする場理論形式を提供する。 不均一なエントリを持つカーネル行列に対する線形・非線形・ディープ非線形ネットワークの一般化特性を系統的に計算する。 現在採用されているスペクトル法とは対照的に、入力の統計特性から一般化特性を導出し、入力次元の相互作用、トレーニングデータセットのサイズ、データの変動性を解明する。 データ変動性は、(\varphi^3+\varphi^4$)-理論を想起させる非ガウス作用をもたらす。 合成タスクとmnistに関する形式的手法を用いて,学習曲線に対する均質なカーネル行列近似と,無限に多くのトレーニングデータ点の場合の一般化特性の推定と学習曲線の境界に対する正確な結果を可能にするデータ変動による補正を求める。

Bayesian inference and kernel methods are well established in machine learning. The neural network Gaussian process in particular provides a concept to investigate neural networks in the limit of infinitely wide hidden layers by using kernel and inference methods. Here we build upon this limit and provide a field-theoretic formalism which covers the generalization properties of infinitely wide networks. We systematically compute generalization properties of linear, non-linear, and deep non-linear networks for kernel matrices with heterogeneous entries. In contrast to currently employed spectral methods we derive the generalization properties from the statistical properties of the input, elucidating the interplay of input dimensionality, size of the training data set, and variability of the data. We show that data variability leads to a non-Gaussian action reminiscent of a ($\varphi^3+\varphi^4$)-theory. Using our formalism on a synthetic task and on MNIST we obtain a homogeneous kernel matrix approximation for the learning curve as well as corrections due to data variability which allow the estimation of the generalization properties and exact results for the bounds of the learning curves in the case of infinitely many training data points.
翻訳日:2023-11-10 18:00:19 公開日:2023-11-09
# ガウス冷却とダイキンウォーク:ログコンケーブサンプリングにおける内部点法

Gaussian Cooling and Dikin Walks: The Interior-Point Method for Logconcave Sampling ( http://arxiv.org/abs/2307.12943v3 )

ライセンス: Link先を確認
Yunbum Kook, Santosh S. Vempala(参考訳) 凸)最適化と(対数)サンプリングのつながりは、過去10年間に多くの概念的および数学的類似によってかなり豊かになった。 例えば、ランジュバンアルゴリズムは勾配降下のサンプリングアナログと見なすことができ、その性能に条件数依存性の保証がある。 1990年代初頭、ネステロフとネミロフスキーは自己一致障壁に基づく凸最適化のための内部点法(IPM)を開発し、一般的な方法よりも高速な構造凸最適化のための効率的なアルゴリズムを提供した。 これは、構造化サンプリング問題に類似したIMMを開発することができるか? 2012年、kannan と narayanan は均一にポリトープをサンプリングするダイキンウォークを提案し、2020年にladdha-lee-vempala によって解析が改善された。 ディキンウォークは、線形制約に対する自己一致障壁によって定義される局所計量を用いる。 本稿では,多時間サンプリングアルゴリズムのためのディキンウォークと共にipm機械を開発し,適応することにより,このアプローチを一般化する。 ipmベースのサンプリングフレームワークは、均一な分布と線形制約を超えて、効率的なウォームスタートを提供します。 本稿では,psdコーン上の一様,指数的,あるいはガウス的分布のサンプルに,特に最速のアルゴリズムを与える,重要な特別な場合に対するアプローチを説明する。 このフレームワークは一般的なもので、他のサンプリングアルゴリズムにも適用できる。

The connections between (convex) optimization and (logconcave) sampling have been considerably enriched in the past decade with many conceptual and mathematical analogies. For instance, the Langevin algorithm can be viewed as a sampling analogue of gradient descent and has condition-number-dependent guarantees on its performance. In the early 1990s, Nesterov and Nemirovski developed the Interior-Point Method (IPM) for convex optimization based on self-concordant barriers, providing efficient algorithms for structured convex optimization, often faster than the general method. This raises the following question: can we develop an analogous IPM for structured sampling problems? In 2012, Kannan and Narayanan proposed the Dikin walk for uniformly sampling polytopes, and an improved analysis was given in 2020 by Laddha-Lee-Vempala. The Dikin walk uses a local metric defined by a self-concordant barrier for linear constraints. Here we generalize this approach by developing and adapting IPM machinery together with the Dikin walk for poly-time sampling algorithms. Our IPM-based sampling framework provides an efficient warm start and goes beyond uniform distributions and linear constraints. We illustrate the approach on important special cases, in particular giving the fastest algorithms to sample uniform, exponential, or Gaussian distributions on a truncated PSD cone. The framework is general and can be applied to other sampling algorithms.
翻訳日:2023-11-10 17:59:20 公開日:2023-11-09
# 量子線型光学における光子状態変換のノーゴー定理

No-go theorems for photon state transformations in quantum linear optics ( http://arxiv.org/abs/2307.11478v2 )

ライセンス: Link先を確認
Pablo V. Parellada, Vicent Gimeno i Garcia, Julio-Jos\'e Moyano-Fern\'andez, Juan Carlos Garcia-Escartin(参考訳) 我々は光子の総数を保存する線形光学装置において光子状態変換に必要な条件を与える。 量子進化を記述する代数の解析から、すべての許容された光学変換に現れる保存量を見つける。 サンプルコードを含むいくつかの例と数値アプリケーションにコメントし、3つの一般的なno-go結果を与える。 以下を含む。 (i)光子を1から2つの異なるモードに分配する決定論的変換の不可能性。 (二)任意の数のアシリー光子及びモードと固定ヘラルドに対して分離可能な入力で、ヘラルドされたスキームにおいて完全なベル状態を生成することができないことの証明 (iii)異なる種類の絡み合い(ghzからw状態への変換)間の変換の制限。

We give a necessary condition for photon state transformations in linear optical setups preserving the total number of photons. From an analysis of the algebra describing the quantum evolution, we find a conserved quantity that appears in all allowed optical transformations. We comment some examples and numerical applications, with example code, and give three general no-go results. These include (i) the impossibility of deterministic transformations which redistribute the photons from one to two different modes, (ii) a proof that it is impossible to generate a perfect Bell state in heralded schemes with a separable input for any number of ancillary photons and modes and a fixed herald and (iii) a restriction for the conversion between different types of entanglement (converting GHZ to W states).
翻訳日:2023-11-10 17:58:56 公開日:2023-11-09
# FDAPT: 言語モデルのためのドメイン適応型事前トレーニング

FDAPT: Federated Domain-adaptive Pre-training for Language Models ( http://arxiv.org/abs/2307.06933v2 )

ライセンス: Link先を確認
Lekang Jiang, Filip Svoboda, Nicholas D. Lane(参考訳) ファンデーションモデル(FM)は幅広いタスクにおいて顕著な成功を収めている。 特定のドメインとタスクのペアリングへの適用性は、高品質なデータと重要な計算資源の可用性に依存する。 これらの課題はこの分野では新しいものではなく、実際、フェデレーション学習(fl)は同様のセットアップにおいて有望な解決策であることが示されている。 本稿では,fmsの適用における重要なステップであるdapt(domain-adaptive pre-training)について述べる。 fdapt(federated domain-adaptive pre-training)の性能を評価するため,最初の総合実験を行った。 FDAPT は,ID と非IID の両状況において,集中型ベースラインへの競争力を維持することができることを示した。 最後に,FFDAPT(Frozen Federated Domain-Adaptive Pre-Training)という新しいアルゴリズムを提案する。 FFDAPTは計算効率を平均で12.1%改善し、バニラFDAPTと同様のダウンストリームタスク性能を示し、一般的なパフォーマンス変動は1%未満である。

Foundation models (FMs) have shown prominent success in a wide range of tasks. Their applicability to specific domain-task pairings relies on the availability of, both, high-quality data and significant computational resources. These challenges are not new to the field and, indeed, Federated Learning (FL) has been shown to be a promising solution in similar setups. This paper tackles the specific case of Domain-Adaptive Pre-Training (DAPT), a key step in the application of FMs. We conduct the first comprehensive empirical study to evaluate the performance of Federated Domain-Adaptive Pre-Training (FDAPT). We demonstrate that FDAPT can maintain competitive downstream task performance to the centralized baseline in both IID and non-IID situations. Finally, we propose a novel algorithm, Frozen Federated Domain-Adaptive Pre-Training (FFDAPT). FFDAPT improves the computational efficiency by 12.1% on average and exhibits similar downstream task performance to vanilla FDAPT, with general performance fluctuations remaining less than 1%.
翻訳日:2023-11-10 17:58:45 公開日:2023-11-09
# ソフトインターベンションからの因果解離に対する識別可能性保証

Identifiability Guarantees for Causal Disentanglement from Soft Interventions ( http://arxiv.org/abs/2307.06250v3 )

ライセンス: Link先を確認
Jiaqi Zhang, Chandler Squires, Kristjan Greenewald, Akash Srivastava, Karthikeyan Shanmugam, Caroline Uhler(参考訳) 因果解離は因果モデルを通して相互に関係する潜伏変数を用いてデータの表現を明らかにすることを目的としている。 このような表現は、データを説明する潜在モデルが一意であれば識別できる。 本稿では,各介入が潜在変数のメカニズムを変化させることにより,非ペア型観察データや介入データが得られるシナリオに焦点を当てる。 因果変数が完全に観測されると、忠実性の仮定の下で因果モデルを特定するために統計的に一貫したアルゴリズムが開発された。 ここでは、信頼という一般化された概念を考えると、未観測の因果変数で識別性は依然として達成可能であることを示す。 この結果から,潜在因果関係モデルを等価クラスまで復元し,無限データに制限された干渉の見当たらない組み合わせの効果を予測できることを確認した。 本研究では,自動符号化変分ベイズアルゴリズムを開発し,ゲノム学における組合せ摂動効果の予測問題に適用する。

Causal disentanglement aims to uncover a representation of data using latent variables that are interrelated through a causal model. Such a representation is identifiable if the latent model that explains the data is unique. In this paper, we focus on the scenario where unpaired observational and interventional data are available, with each intervention changing the mechanism of a latent variable. When the causal variables are fully observed, statistically consistent algorithms have been developed to identify the causal model under faithfulness assumptions. We here show that identifiability can still be achieved with unobserved causal variables, given a generalized notion of faithfulness. Our results guarantee that we can recover the latent causal model up to an equivalence class and predict the effect of unseen combinations of interventions, in the limit of infinite data. We implement our causal disentanglement framework by developing an autoencoding variational Bayes algorithm and apply it to the problem of predicting combinatorial perturbation effects in genomics.
翻訳日:2023-11-10 17:58:27 公開日:2023-11-09
# 制限拡散モデルのためのメトロポリスサンプリング

Metropolis Sampling for Constrained Diffusion Models ( http://arxiv.org/abs/2307.05439v2 )

ライセンス: Link先を確認
Nic Fishman, Leo Klarner, Emile Mathieu, Michael Hutchinson, Valentin de Bortoli(参考訳) 近年,画像領域における生成モデルの主要なパラダイムとして拡散モデルが出現している。 さらに、リーマン多様体へのそれらの拡張は、自然科学の幅広い応用を促進した。 これらの問題の多くは、任意のドメインに依存しない制約を指定する能力の恩恵を受けるが、この設定は既存の(リーマン的)拡散モデル方法論には適用されない。 最近の研究は、反射ブラウン運動と対数障壁法に基づく新しいノーミングプロセスを構築してこの問題に対処しようと試みている。 しかし、関連するサンプルは計算的に重荷となるか、ユークリッド空間の凸部分集合にのみ適用される。 本稿では,メトロポリスのサンプリングをベースとした,従来のサンプルに比べて計算効率と経験的性能を大幅に向上させる,簡易な表記法を提案する。 独立利害関係において、この新しい過程は反射ブラウン運動の正当な離散化に対応することが証明される。 我々は,空間モデリング,ロボット工学,タンパク質設計などの応用を含む,凸制約や非凸制約を伴う様々な問題設定に対するアプローチのスケーラビリティと柔軟性を実証する。

Denoising diffusion models have recently emerged as the predominant paradigm for generative modelling on image domains. In addition, their extension to Riemannian manifolds has facilitated a range of applications across the natural sciences. While many of these problems stand to benefit from the ability to specify arbitrary, domain-informed constraints, this setting is not covered by the existing (Riemannian) diffusion model methodology. Recent work has attempted to address this issue by constructing novel noising processes based on the reflected Brownian motion and logarithmic barrier methods. However, the associated samplers are either computationally burdensome or only apply to convex subsets of Euclidean space. In this paper, we introduce an alternative, simple noising scheme based on Metropolis sampling that affords substantial gains in computational efficiency and empirical performance compared to the earlier samplers. Of independent interest, we prove that this new process corresponds to a valid discretisation of the reflected Brownian motion. We demonstrate the scalability and flexibility of our approach on a range of problem settings with convex and non-convex constraints, including applications from geospatial modelling, robotics and protein design.
翻訳日:2023-11-10 17:58:10 公開日:2023-11-09
# UMLS知識グラフを用いたマルチモーダルグラフ学習

Multi-modal Graph Learning over UMLS Knowledge Graphs ( http://arxiv.org/abs/2307.04461v2 )

ライセンス: Link先を確認
Manuel Burger, Gunnar R\"atsch, Rita Kuznetsova(参考訳) 臨床医は、患者の進化に関する洞察を得るために、機械学習にますます目を向けている。 本稿では,統一医療言語システムに基づく知識グラフ上のグラフニューラルネットワークを用いた医学概念の意味表現を学習するための,マルチモーダルumlsグラフ学習(mmugl)という新しい手法を提案する。 これらの表現は、患者の訪問全体を表すために集約され、シーケンスモデルに入力され、患者の複数の病院訪問の粒度で予測される。 事前の医療知識を取り入れ、複数のモダリティを考慮し、性能を向上させる。 提案手法をMIMIC-IIIデータセットの粒度の異なる表現を学習するために提案した既存アーキテクチャと比較し,本手法がこれらの手法より優れていることを示す。 その結果,先行医療知識に基づくマルチモーダル医療概念表現の重要性が示された。

Clinicians are increasingly looking towards machine learning to gain insights about patient evolutions. We propose a novel approach named Multi-Modal UMLS Graph Learning (MMUGL) for learning meaningful representations of medical concepts using graph neural networks over knowledge graphs based on the unified medical language system. These representations are aggregated to represent entire patient visits and then fed into a sequence model to perform predictions at the granularity of multiple hospital visits of a patient. We improve performance by incorporating prior medical knowledge and considering multiple modalities. We compare our method to existing architectures proposed to learn representations at different granularities on the MIMIC-III dataset and show that our approach outperforms these methods. The results demonstrate the significance of multi-modal medical concept representations based on prior medical knowledge.
翻訳日:2023-11-10 17:57:52 公開日:2023-11-09
# ランダム木との比較による自然言語文のストラー数

Strahler Number of Natural Language Sentences in Comparison with Random Trees ( http://arxiv.org/abs/2307.02697v3 )

ライセンス: Link先を確認
Kumiko Tanaka-Ishii and Akira Tanaka(参考訳) ストラー数は当初、河川分岐の複雑さを特徴付けるために提案され、様々な応用を見出した。 本稿では,自然言語文木構造に対するシュトララー数の上限と下限の計算を提案する。 文法的にアノテートされたデータによる経験的な測定により、ストラフラーの自然言語文の数は、ストラフラー (1957) が報告したように川の分岐の例と同様に、ほぼ3または4であると示される。 この数値の背後にある理論から、文を処理するのに必要なメモリ量の制限が1つ低いことが分かる。 我々は,Strahler数について,文処理に必要なメモリ領域の数が3から4であることを示すレポート(Schuler et al., 2010)と,心理的な「マジックナンバー」が3から5であることを示すレポート(Cowan, 2001)の推論を提供すると考えている。 分析的および経験的分析により、ストラー数は一定ではないが対数的に増加することが示され、したがってストラー数は文の長さの範囲から導かれる。 さらに、ストラー数はランダム木に対して異なるものではなく、その起源は自然言語に特有ではないことを示唆している。

The Strahler number was originally proposed to characterize the complexity of river bifurcation and has found various applications. This article proposes computation of the Strahler number's upper and lower limits for natural language sentence tree structures. Through empirical measurements across grammatically annotated data, the Strahler number of natural language sentences is shown to be almost 3 or 4, similarly to the case of river bifurcation as reported by Strahler (1957). From the theory behind the number, we show that it is one kind of lower limit on the amount of memory required to process sentences. We consider the Strahler number to provide reasoning that explains reports showing that the number of required memory areas to process sentences is 3 to 4 for parsing (Schuler et al., 2010), and reports indicating a psychological "magical number" of 3 to 5 (Cowan, 2001). An analytical and empirical analysis shows that the Strahler number is not constant but grows logarithmically; therefore, the Strahler number of sentences derives from the range of sentence lengths. Furthermore, the Strahler number is not different for random trees, which could suggest that its origin is not specific to natural language.
翻訳日:2023-11-10 17:57:18 公開日:2023-11-09
# 高次元後肢に対する暗黙的変分法

Implicit Variational Inference for High-Dimensional Posteriors ( http://arxiv.org/abs/2310.06643v3 )

ライセンス: Link先を確認
Anshuk Uppal, Kristoffer Stensbo-Smidt, Wouter Boomsma, and Jes Frellsen(参考訳) 変分推論において、ベイズモデルの利点は、真の後続分布を正確に捉えることに依存する。 高次元空間における複素マルチモーダルおよび相関後方の近似に適した暗黙的分布を規定するニューラル・サンプラーを用いる。 本手法では,局所線形化による暗黙分布を用いた近似推定のための新しい境界を導入する。 これは、追加の識別器ネットワークと不安定な敵対的目的に依存する既存の方法とは異なる。 さらに,数千万の潜伏変数に対する暗黙的な分布を初めて実現し,微分可能な数値近似を用いて計算上の問題に対処する新しいサンプルアーキテクチャを提案する。 実験により,本手法は大規模ベイズ型ニューラルネットワークにおいて層間相関を回復できることを示した。 我々の知る限りでは、このような大規模なモデルでこの課題を達成する方法は他にない。 下流タスクの実験を通して、表現的後部は最先端の不確実性定量化手法より優れており、トレーニングアルゴリズムの有効性と学習された暗黙近似の品質を検証する。

In variational inference, the benefits of Bayesian models rely on accurately capturing the true posterior distribution. We propose using neural samplers that specify implicit distributions, which are well-suited for approximating complex multimodal and correlated posteriors in high-dimensional spaces. Our approach introduces novel bounds for approximate inference using implicit distributions by locally linearising the neural sampler. This is distinct from existing methods that rely on additional discriminator networks and unstable adversarial objectives. Furthermore, we present a new sampler architecture that, for the first time, enables implicit distributions over tens of millions of latent variables, addressing computational concerns by using differentiable numerical approximations. We empirically show that our method is capable of recovering correlations across layers in large Bayesian neural networks, a property that is crucial for a network's performance but notoriously challenging to achieve. To the best of our knowledge, no other method has been shown to accomplish this task for such large models. Through experiments in downstream tasks, we demonstrate that our expressive posteriors outperform state-of-the-art uncertainty quantification methods, validating the effectiveness of our training algorithm and the quality of the learned implicit approximation.
翻訳日:2023-11-10 17:49:35 公開日:2023-11-09
# WIFIに基づく人間活動認識のためのアンテナ応答一貫性駆動型自己教師型学習

Antenna Response Consistency Driven Self-supervised Learning for WIFI-based Human Activity Recognition ( http://arxiv.org/abs/2310.06328v2 )

ライセンス: Link先を確認
Ke Xu, Jiangtao Wang, Hongyuan Zhu, Dingchang Zheng(参考訳) WiFiベースのヒューマンアクティビティ認識(HAR)のための自己教師付き学習(SSL)は、ラベル付きデータ不足の課題に対処する能力のため、大きな期待を持っている。 しかし、SSLアルゴリズムを直接移植する、特に対照的な学習は、本来は他のドメインのためにCSIデータに設計されていたが、期待する性能を達成できなかった。 この問題は,特徴空間と入力空間間の意味的距離の整合性を阻害する不適切なアライメント基準に起因する。 この課題に対処するために、適切なアライメント基準を定義するソリューションとして、 \textbf{A}ntenna \textbf{R}esponse \textbf{C}onsistency (ARC) を導入する。 ARCは、実世界の雑音に堅牢性を導入しながら、入力空間からの意味情報を保持するように設計されている。 さらに,WiFi ベース HAR の自己教師型学習性能を向上し,ほとんどの場合において 5 % 以上の精度を達成し,94.97 % の精度を達成することにより,ARC の有効性を実証した。

Self-supervised learning (SSL) for WiFi-based human activity recognition (HAR) holds great promise due to its ability to address the challenge of insufficient labeled data. However, directly transplanting SSL algorithms, especially contrastive learning, originally designed for other domains to CSI data, often fails to achieve the expected performance. We attribute this issue to the inappropriate alignment criteria, which disrupt the semantic distance consistency between the feature space and the input space. To address this challenge, we introduce \textbf{A}ntenna \textbf{R}esponse \textbf{C}onsistency (ARC) as a solution to define proper alignment criteria. ARC is designed to retain semantic information from the input space while introducing robustness to real-world noise. Moreover, we substantiate the effectiveness of ARC through a comprehensive set of experiments, demonstrating its capability to enhance the performance of self-supervised learning for WiFi-based HAR by achieving an increase of over 5\% in accuracy in most cases and achieving a best accuracy of 94.97\%.
翻訳日:2023-11-10 17:49:16 公開日:2023-11-09
# 多体系の基底状態特性の証明

Certifying ground-state properties of many-body systems ( http://arxiv.org/abs/2310.05844v2 )

ライセンス: Link先を確認
Jie Wang, Jacopo Surace, Ir\'en\'ee Fr\'erot, Beno\^it Legat, Marc-Olivier Renou, Victor Magron, Antonio Ac\'in(参考訳) 量子物理学におけるユビキタス問題は、多体系の基底状態の性質を理解することである。 システムサイズを増加させると、正確な対角化がすぐに不可能になるという事実に直面すると、変分的アプローチは一般的にスケーラブルな代替手段として採用される: エネルギーはすべての可能な状態のサブセット上で最小化され、解状態上で異なる物理量を計算する。 顕著な成功にもかかわらず、厳密に言えば、変分法が提供するものはすべて基底状態エネルギーの上限である。 一方、半有限計画法に基づく基底状態問題の緩和は相補的なアプローチであり、基底状態エネルギーの低い境界を与える。 しかし、現在の実装では、変分法も緩和法もエネルギー以外の基底状態にある他の観測物に証明可能な束縛を与えない。 本研究では,任意の順序の相関関数や構造因子,順序パラメータなど,基底状態における観測可能な任意の値に対する証明可能な境界を導出するために,この2つのアプローチの組み合わせが有効であることを示す。 このアプローチのパワーを1Dおよび2Dスピン1半ハイゼンベルクモデルのパラダイム的な例で説明する。 提案手法のスケーラビリティを向上させるため, 従来よりもはるかに高精度に数百個の粒子の粒度に到達するため, 検討されたシステムの対称性と疎性を利用する。 そこで本研究では,多体基底状態特性の検証可能な境界を,エネルギーを超えたスケーラブルな方法で得る方法を示す。

A ubiquitous problem in quantum physics is to understand the ground-state properties of many-body systems. Confronted with the fact that exact diagonalisation quickly becomes impossible when increasing the system size, variational approaches are typically employed as a scalable alternative: energy is minimised over a subset of all possible states and then different physical quantities are computed over the solution state. Despite remarkable success, rigorously speaking, all what variational methods offer are upper bounds on the ground-state energy. On the other hand, so-called relaxations of the ground-state problem based on semidefinite programming represent a complementary approach, providing lower bounds to the ground-state energy. However, in their current implementation, neither variational nor relaxation methods offer provable bound on other observables in the ground state beyond the energy. In this work, we show that the combination of the two classes of approaches can be used to derive certifiable bounds on the value of any observable in the ground state, such as correlation functions of arbitrary order, structure factors, or order parameters. We illustrate the power of this approach in paradigmatic examples of 1D and 2D spin-one-half Heisenberg models. To improve the scalability of the method, we exploit the symmetries and sparsity of the considered systems to reach sizes of hundreds of particles at much higher precision than previous works. Our analysis therefore shows how to obtain certifiable bounds on many-body ground-state properties beyond energy in a scalable way.
翻訳日:2023-11-10 17:48:53 公開日:2023-11-09
# ソフトウェア開発におけるドメイン駆動設計: 実装、挑戦、有効性に関する体系的文献レビュー

Domain-Driven Design in Software Development: A Systematic Literature Review on Implementation, Challenges, and Effectiveness ( http://arxiv.org/abs/2310.01905v3 )

ライセンス: Link先を確認
Ozan \"Ozkan, \"Onder Babur, Mark van den Brand(参考訳) コンテキスト: ドメイン駆動設計(DDD)はソフトウェアの課題に対処し、リファクタリング、再実装、導入に注目する。 複雑なビジネス問題を解決するためにドメイン知識に焦点を当てている。 Objective: This Systematic Literature Review (SLR)は、ソフトウェア開発におけるDDDの研究を分析し、アーキテクチャの問題を解決する上での有効性を評価し、課題を特定し、成果を探求する。 方法:36種類のピアレビュー研究を選択し,定量的および質的分析を行った。 結果: DDDはソフトウェアシステムを効果的に改善し、ユビキタス言語、コンテキスト境界、ドメインイベントを強調します。 マイクロサービスのdddは、システムの分解に目立った。 いくつかの研究は経験的評価を欠き、搭乗や専門知識の課題を特定した。 結論:DDDの採用は、エンジニア、アーキテクト、マネージャ、ドメインエキスパートといったステークホルダーを含むソフトウェア開発に恩恵をもたらす。 より経験的な評価と課題に関するオープンな議論が必要です。 産学と産学の連携はDDDの採用とプロジェクトにおける知識移転を促進する。

Context: Domain-Driven Design (DDD) addresses software challenges, gaining attention for refactoring, reimplementation, and adoption. It centers on domain knowledge to solve complex business problems. Objective: This Systematic Literature Review (SLR) analyzes DDD research in software development to assess its effectiveness in solving architecture problems, identify challenges, and explore outcomes. Method: We selected 36 peer-reviewed studies and conducted quantitative and qualitative analysis. Results: DDD effectively improved software systems, emphasizing Ubiquitous Language, Bounded Context, and Domain Events. DDD in microservices gained prominence for system decomposition. Some studies lacked empirical evaluations, identifying challenges in onboarding and expertise. Conclusion: Adopting DDD benefits software development, involving stakeholders like engineers, architects, managers, and domain experts. More empirical evaluations and open discussions on challenges are needed. Collaboration between academia and industry advances DDD adoption and knowledge transfer in projects.
翻訳日:2023-11-10 17:48:28 公開日:2023-11-09
# HIC-YOLOv5:小さなオブジェクト検出のために改善されたYOLOv5

HIC-YOLOv5: Improved YOLOv5 For Small Object Detection ( http://arxiv.org/abs/2309.16393v2 )

ライセンス: Link先を確認
Shiyi Tang, Shu Zhang, Yini Fang(参考訳) オブジェクト検出の分野では、小さなオブジェクト検出が難しい問題となっている。 いくつかの注意ブロックの追加や機能融合ネットワーク全体の構造の変更など、このタスクの改善を提案する作業がいくつかある。 しかし、これらのモデルの計算コストが大きいため、リアルタイムオブジェクト検出システムのデプロイは不可能であり、改善の余地は残されている。 この目的のために改良された YOLOv5 モデル HIC-YOLOv5 が提案されている。 まず、より高解像度な特徴マップを提供するために、小さなオブジェクトに特有の追加の予測ヘッドを追加する。 次に、バックボーンとネックとの間に畳み込みブロックを採用し、特徴マップのチャネル情報を増やす。 さらに,背骨の端部にCBAMというアテンション機構を適用し,従来の作業に比べて計算コストを低減させるだけでなく,チャネル領域と空間領域の両方において重要な情報を強調する。 我々の結果は、HIC-YOLOv5がmAP@[.5:.95]を6.42%改善し、mAP@0.5を9.38%改善したことを示している。

Small object detection has been a challenging problem in the field of object detection. There has been some works that proposes improvements for this task, such as adding several attention blocks or changing the whole structure of feature fusion networks. However, the computation cost of these models is large, which makes deploying a real-time object detection system unfeasible, while leaving room for improvement. To this end, an improved YOLOv5 model: HIC-YOLOv5 is proposed to address the aforementioned problems. Firstly, an additional prediction head specific to small objects is added to provide a higher-resolution feature map for better prediction. Secondly, an involution block is adopted between the backbone and neck to increase channel information of the feature map. Moreover, an attention mechanism named CBAM is applied at the end of the backbone, thus not only decreasing the computation cost compared with previous works but also emphasizing the important information in both channel and spatial domain. Our result shows that HIC-YOLOv5 has improved mAP@[.5:.95] by 6.42% and mAP@0.5 by 9.38% on VisDrone-2019-DET dataset.
翻訳日:2023-11-10 17:48:17 公開日:2023-11-09
# 量子粒子の過去と弱値」への回答

Reply to "Comment on `Weak values and the past of a quantum particle' '' ( http://arxiv.org/abs/2309.07599v2 )

ライセンス: Link先を確認
Jonte R Hance, John Rarity, James Ladyman(参考訳) vaidman氏の最近のコメント[\href{https://journals.aps.org/prresearch/abstract/10.1103/physrevresearch.5.048001}{phys]に返答する。 Rev. 5, 048001 (2023)}] on our paper [\href{https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.023048}{Phys. res. 5, 023048 (2023)} を参照。 ベイドマンはコメントの中で、弱いトレースが粒子の存在をもたらすと仮定して)定義しているだけであることを認めた。しかし、この場合、彼は存在以外の用語を使うべきであり、これは既に「弱いトレースがどこにあるか」以外の、直感的な意味を持っている。 この承認にもかかわらず、ヴァイドマンは、客観的に現存する存在の考えに関する考えに訴えることで、この定義を主張する。 これらの魅力は、量子粒子の位置については常に事実が存在するという、自身の結論に依存していることを示している。

We here reply to a recent comment by Vaidman [\href{https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.048001}{Phys. Rev. Res. 5, 048001 (2023)}] on our paper [\href{https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.5.023048}{Phys. Rev. Res. 5, 023048 (2023)}]. In his Comment, Vaidman first admits that he is just defining (assuming) the weak trace gives the presence of a particle -- however, in this case, he should use a term other than presence, as this already has a separate, intuitive meaning other than ``where a weak trace is''. Despite this admission, Vaidman then goes on to argue for this definition by appeal to ideas around an objectively-existing idea of presence. We show these appeals rely on their own conclusion -- that there is always a matter of fact about the location of a quantum particle.
翻訳日:2023-11-10 17:47:37 公開日:2023-11-09
# イメージされた人間の脳の正当性

The legibility of the imaged human brain ( http://arxiv.org/abs/2309.07096v2 )

ライセンス: Link先を確認
James K Ruffle, Robert J Gray, Samia Mohinta, Guilherme Pombo, Chaitanya Kaul, Harpreet Hyare, Geraint Rees, Parashkev Nachev(参考訳) 人口レベルでの人間の脳の組織に関する我々の知識は、個々のレベルでの機能的差異を予測し、臨床応用を制限し、推論されたメカニズムの一般化可能性に疑問を投げかける力にはまだ変換されていない。 この困難は、脳内の生物学的パターンが分別されていないことや、モデルでそれらにアクセスし、処理時に計算する能力が限られていることから生じるかどうかは不明である。 本稿では,このようなパターンの可解性をデータを用いて包括的に調査し,前例のない規模で計算する。 英国バイオバンクの23810名を対象に,構造的および機能的ニューロイメージングデータの組み合わせから,25個の生物学的特徴の予測可能性を体系的に評価した。 4526以上のgpu*時間計算を行い、人口、心理学、血清学的、慢性的形態、機能的接続特性の多層パーセプトロンを含む700以上の個別予測モデルを訓練、最適化、評価し、マクロおよびマイクロ構造脳イメージングの3次元畳み込みニューラルネットワークモデルを構築した。 性別の予測可能性(精度99.7%)、年齢(平均絶対誤差2.048年、R2 0.859)、体重(平均絶対誤差2.609Kg、R2 0.625)の間には顕著な相違が見られ、そこでは新たな最先端性能を設定し、他の特性の予想可能性も驚くほど低い。 構造的および機能的イメージングは、共通の慢性死の一致よりも個々の心理学を予測していない(p<0.05)。 血清学的には共通致死率 (p<0.05) が予測され, 好ましくはp<0.001) , 次いで構造的神経イメージング (p<0.05) が予測された。 以上の結果から、より情報的画像化やより強力なモデルが脳から個々のレベルの特徴を解読するために必要であることが示唆された。

Our knowledge of the organisation of the human brain at the population-level is yet to translate into power to predict functional differences at the individual-level, limiting clinical applications, and casting doubt on the generalisability of inferred mechanisms. It remains unknown whether the difficulty arises from the absence of individuating biological patterns within the brain, or from limited power to access them with the models and compute at our disposal. Here we comprehensively investigate the resolvability of such patterns with data and compute at unprecedented scale. Across 23810 unique participants from UK Biobank, we systematically evaluate the predictability of 25 individual biological characteristics, from all available combinations of structural and functional neuroimaging data. Over 4526 GPU*hours of computation, we train, optimize, and evaluate out-of-sample 700 individual predictive models, including multilayer perceptrons of demographic, psychological, serological, chronic morbidity, and functional connectivity characteristics, and both uni- and multi-modal 3D convolutional neural network models of macro- and micro-structural brain imaging. We find a marked discrepancy between the high predictability of sex (balanced accuracy 99.7%), age (mean absolute error 2.048 years, R2 0.859), and weight (mean absolute error 2.609Kg, R2 0.625), for which we set new state-of-the-art performance, and the surprisingly low predictability of other characteristics. Neither structural nor functional imaging predicted individual psychology better than the coincidence of common chronic morbidity (p<0.05). Serology predicted common morbidity (p<0.05) and was best predicted by it (p<0.001), followed by structural neuroimaging (p<0.05). Our findings suggest either more informative imaging or more powerful models will be needed to decipher individual level characteristics from the brain.
翻訳日:2023-11-10 17:47:18 公開日:2023-11-09
# 複数インスタンス学習における分散サンプルの検出について

On the detection of Out-Of-Distribution samples in Multiple Instance Learning ( http://arxiv.org/abs/2309.05528v2 )

ライセンス: Link先を確認
Lo\"ic Le Bescond, Maria Vakalopoulou, Stergios Christodoulidis, Fabrice Andr\'e, Hugues Talbot(参考訳) 機械学習ソリューションを現実のシナリオに展開するには、アウト・オブ・ディストリビューション(OOD)検出の課題に対処する必要があることが多い。 古典的教師付き環境でのood検出に多大な努力がなされているが、弱い教師付き学習、特にmultiple instance learning (mil)フレームワークの文脈は未調査のままである。 本研究では,弱教師付きシナリオにおけるOOD検出性能の評価に特化して設計された新しいベンチマークを導入しながら,ポストホックなOOD検出手法をMIL設定に適用することにより,この問題に対処する。 さまざまな公開データセットに基づく広範な実験を通じて、KNNは全体として最高のパフォーマンスの方法として登場した。 しかし、いくつかのデータセットには重大な欠点があり、この未熟で挑戦的なトピックの複雑さを強調している。 MILフレームワーク下でのOOD検出の複雑な性質に光を当て、弱教師付き文脈で効果的に一般化できる新規で堅牢で信頼性の高い手法の開発の重要性を強調した。 論文のコードは、https://github.com/loic-lb/OOD_MIL.comで公開されている。

The deployment of machine learning solutions in real-world scenarios often involves addressing the challenge of out-of-distribution (OOD) detection. While significant efforts have been devoted to OOD detection in classical supervised settings, the context of weakly supervised learning, particularly the Multiple Instance Learning (MIL) framework, remains under-explored. In this study, we tackle this challenge by adapting post-hoc OOD detection methods to the MIL setting while introducing a novel benchmark specifically designed to assess OOD detection performance in weakly supervised scenarios. Across extensive experiments based on diverse public datasets, KNN emerges as the best-performing method overall. However, it exhibits significant shortcomings on some datasets, emphasizing the complexity of this under-explored and challenging topic. Our findings shed light on the complex nature of OOD detection under the MIL framework, emphasizing the importance of developing novel, robust, and reliable methods that can generalize effectively in a weakly supervised context. The code for the paper is available here: https://github.com/loic-lb/OOD_MIL.
翻訳日:2023-11-10 17:46:18 公開日:2023-11-09
# 人工知能に基づく因果モデルによる物理法則の推定

Inferring physical laws by artificial intelligence based causal models ( http://arxiv.org/abs/2309.04069v2 )

ライセンス: Link先を確認
Jorawar Singh and Kishor Bharti and Arvind(参考訳) 人工知能(AI)と機械学習(ML)の進歩は、科学研究のための多くの道を開き、知識創造のプロセスに新たな次元を追加している。 しかし、これまでで最も強力で汎用的なMLアプリケーションでさえも、主に関連の分析の領域にあり、複雑なデータフィッティングに沸騰する。 ジュデア・パールは、人工知能は行動や想像に関わる介入を伴わなければならないと指摘している。 したがって、あらゆる機械による科学的発見は、カジュアルな分析と介入を含む必要がある。 そこで本研究では,相関を認識できるだけでなく,カジュアルな関係をも生み出す物理原理の因果学習モデルを提案する。 我々は因果推論と介入の原理を用いて、よく知られた物理現象の文脈における因果関係を研究する。 この手法は,データ間の関連性を解明するだけでなく,変数間の因果関係を正確に確認し,基礎となる物理プロセスのモデルに対する信頼度を高める(あるいは弱める)ことができることを示す。

The advances in Artificial Intelligence (AI) and Machine Learning (ML) have opened up many avenues for scientific research, and are adding new dimensions to the process of knowledge creation. However, even the most powerful and versatile of ML applications till date are primarily in the domain of analysis of associations and boil down to complex data fitting. Judea Pearl has pointed out that Artificial General Intelligence must involve interventions involving the acts of doing and imagining. Any machine assisted scientific discovery thus must include casual analysis and interventions. In this context, we propose a causal learning model of physical principles, which not only recognizes correlations but also brings out casual relationships. We use the principles of causal inference and interventions to study the cause-and-effect relationships in the context of some well-known physical phenomena. We show that this technique can not only figure out associations among data, but is also able to correctly ascertain the cause-and-effect relations amongst the variables, thereby strengthening (or weakening) our confidence in the proposed model of the underlying physical process.
翻訳日:2023-11-10 17:45:54 公開日:2023-11-09
# 量子場駆動の量子オットーエンジン

Quantum Otto engine driven by quantum fields ( http://arxiv.org/abs/2308.15528v2 )

ライセンス: Link先を確認
Kensuke Gallock-Yoshimura and Vaishant Thakur and Robert B. Mann(参考訳) 曲面時空における量子スカラー場と相互作用するUnruh-DeWitt粒子検出器モデルを用いた量子オットーエンジンを考える。 検出器の有効温度から正の仕事を抽出するための一般的な条件を示す。 この条件は、検出器が磁場と熱平衡に達する状況下で、文献でよく知られた正の作業条件に還元される。 次に,unruh量子オットーエンジンにインスパイアされた熱浴中の慣性検出器とミンコフスキー真空中の循環検出器の2つのシナリオにおいて,検出器が抽出した作業量を評価する。

We consider a quantum Otto engine using an Unruh-DeWitt particle detector model which interacts with a quantum scalar field in curved spacetime. We express a generic condition for extracting positive work in terms of the effective temperature of the detector. This condition reduces to the well-known positive work condition in the literature under the circumstances where the detector reaches thermal equilibrium with the field. We then evaluate the amount of work extracted by the detector in two scenarios: an inertial detector in a thermal bath and a circulating detector in the Minkowski vacuum, which is inspired by the Unruh quantum Otto engine.
翻訳日:2023-11-10 17:44:29 公開日:2023-11-09
# 人工知能における連続学習への神経インスパイアされた適応性の導入

Incorporating Neuro-Inspired Adaptability for Continual Learning in Artificial Intelligence ( http://arxiv.org/abs/2308.14991v2 )

ライセンス: Link先を確認
Liyuan Wang, Xingxing Zhang, Qian Li, Mingtian Zhang, Hang Su, Jun Zhu, Yi Zhong(参考訳) 継続的な学習は、現実世界に強い適応性を持つ人工知能(AI)を強化することを目的としている。 この目的のためには、メモリ安定性と学習可塑性を適切にバランスさせ、観測された分布を捉えるのに十分な互換性を得る必要がある。 既存の進歩は主に破滅的な忘れを克服するために記憶の安定性を維持することに集中しているが、生物知能(bi)のように漸進的な変化を柔軟に対応させることは難しいままである。 本稿では,複数の学習モジュールによる記憶を積極的に制御する堅牢なショウジョウバエ学習システムをモデル化することにより,パラメータ分布の古い記憶を適切に抑制し,学習の可塑性を向上し,ソリューションの互換性を確保するために複数階層アーキテクチャをコーディネートする手法を提案する。 広範な理論的検証と経験的検証を通じて、このアプローチは、連続学習のパフォーマンス、特にタスク・インクリメンタルな設定におけるシナプス正規化法よりも明らかに向上するだけでなく、神経学的適応機構の理解を前進させ、aiとbiを共に進めるための新しいパラダイムとなる可能性がある。

Continual learning aims to empower artificial intelligence (AI) with strong adaptability to the real world. For this purpose, a desirable solution should properly balance memory stability with learning plasticity, and acquire sufficient compatibility to capture the observed distributions. Existing advances mainly focus on preserving memory stability to overcome catastrophic forgetting, but remain difficult to flexibly accommodate incremental changes as biological intelligence (BI) does. By modeling a robust Drosophila learning system that actively regulates forgetting with multiple learning modules, here we propose a generic approach that appropriately attenuates old memories in parameter distributions to improve learning plasticity, and accordingly coordinates a multi-learner architecture to ensure solution compatibility. Through extensive theoretical and empirical validation, our approach not only clearly enhances the performance of continual learning, especially over synaptic regularization methods in task-incremental settings, but also potentially advances the understanding of neurological adaptive mechanisms, serving as a novel paradigm to progress AI and BI together.
翻訳日:2023-11-10 17:44:17 公開日:2023-11-09
# おい それは 拡散生成出力で 地雷を感知できない透かしが 保存されている。

Hey That's Mine Imperceptible Watermarks are Preserved in Diffusion Generated Outputs ( http://arxiv.org/abs/2308.11123v2 )

ライセンス: Link先を確認
Luke Ditria, Tom Drummond(参考訳) 生成モデルは、MidjourneyやStable Diffusionのような巨大な生成拡散モデルが一般に公開されたことで、人気が高まっている。 この新しいアクセスの容易さのため、データの自動収集やコンテンツの所有に関する問題に関する疑問が生まれ始めている。 本稿では,公開時にコンテンツを保護する方法を提供することを目的とした新しい研究について述べる。 そこで本研究では, 透かしのあるデータに基づいて学習した生成拡散モデルを用いて, 透かしが存在する新しい画像を生成することを示す。 さらに、与えられた透かしがトレーニングデータの特定の特徴と相関している場合、生成された画像もこの相関を持つことを示す。 統計的テストを用いて、モデルがマークされたデータでトレーニングされたかどうか、どのデータがマークされたかを決定することができることを示す。 その結果,オンラインコンテンツ共有における知的財産権保護のソリューションが提供された。

Generative models have seen an explosion in popularity with the release of huge generative Diffusion models like Midjourney and Stable Diffusion to the public. Because of this new ease of access, questions surrounding the automated collection of data and issues regarding content ownership have started to build. In this paper we present new work which aims to provide ways of protecting content when shared to the public. We show that a generative Diffusion model trained on data that has been imperceptibly watermarked will generate new images with these watermarks present. We further show that if a given watermark is correlated with a certain feature of the training data, the generated images will also have this correlation. Using statistical tests we show that we are able to determine whether a model has been trained on marked data, and what data was marked. As a result our system offers a solution to protect intellectual property when sharing content online.
翻訳日:2023-11-10 17:43:57 公開日:2023-11-09
# オープンアクセス型マルチセンサー衛星画像とgedilidarデータによる森林高とバイオマスの推定:フランス大都市圏の高解像度地図

Estimation of forest height and biomass from open-access multi-sensor satellite imagery and GEDI Lidar data: high-resolution maps of metropolitan France ( http://arxiv.org/abs/2310.14662v2 )

ライセンス: Link先を確認
David Morin (CESBIO), Milena Planells (CESBIO), St\'ephane Mermoz (globeo), Florian Mouret (UO, CESBIO)(参考訳) 森林資源と炭素のマッピングは、森林管理を改善し、炭素の貯蔵と環境保全の目的を満たすために重要である。 宇宙からのリモートセンシングアプローチは、広範囲にわたる高空間解像度で繰り返し観測を行うことにより、森林高度モニタリングを支援する可能性がある。 本研究は,かつて森林パラメータの局所的地図(ベース面積,高さ,直径など)を作成するために開発された機械学習アプローチを用いる。 本稿の目的は,フランスの全国報道など,より広い範囲へのアプローチの展開について述べることである。 我々はGEDI Lidarミッションを基準高度データとして,Sentinel-1,Sentinel-2,ALOS-2 PALSA-2の衛星画像を用いて森林高度を推定し,2020年のフランス地図を作成する。 高さマップは、アロメトリ方程式を用いて体積および地上バイオマス (agb) に導出される。 ALSデータからの局所地図による高さマップの検証は、平均絶対誤差(MAE)が4.3mである技術の状態に近い精度を示している。 フランスの森林に代表される在庫計画の検証では、標高は3.7mである。 針葉樹は広葉樹林より推定がやや優れている。 高さから得られたボリュームマップとagbマップはそれぞれ75トン/haと93m${}^3$/haである。 sylvo-ecoregionと森林種(所有者と種)によって集計された結果はさらに改善され、maesは23t/ha、30m${}^3$/haである。 これらの地図の正確さは、森林資源や炭素を地域規模や特定の種類の森林で分析し、地理的情報(行政区域、種、所有者の種類、保護地域、環境条件など)と地図を組み合わせることで、ローカルにモニタリングすることができる。 本研究で作成した高さ,体積およびAGBマップは無償で利用可能である。

Mapping forest resources and carbon is important for improving forest management and meeting the objectives of storing carbon and preserving the environment. Spaceborne remote sensing approaches have considerable potential to support forest height monitoring by providing repeated observations at high spatial resolution over large areas. This study uses a machine learning approach that was previously developed to produce local maps of forest parameters (basal area, height, diameter, etc.). The aim of this paper is to present the extension of the approach to much larger scales such as the French national coverage. We used the GEDI Lidar mission as reference height data, and the satellite images from Sentinel-1, Sentinel-2 and ALOS-2 PALSA-2 to estimate forest height and produce a map of France for the year 2020. The height map is then derived into volume and aboveground biomass (AGB) using allometric equations. The validation of the height map with local maps from ALS data shows an accuracy close to the state of the art, with a mean absolute error (MAE) of 4.3 m. Validation on inventory plots representative of French forests shows an MAE of 3.7 m for the height. Estimates are slightly better for coniferous than for broadleaved forests. Volume and AGB maps derived from height shows MAEs of 75 tons/ha and 93 m${}^3$/ha respectively. The results aggregated by sylvo-ecoregion and forest types (owner and species) are further improved, with MAEs of 23 tons/ha and 30 m${}^3$/ha. The precision of these maps allows to monitor forests locally, as well as helping to analyze forest resources and carbon on a territorial scale or on specific types of forests by combining the maps with geolocated information (administrative area, species, type of owner, protected areas, environmental conditions, etc.). Height, volume and AGB maps produced in this study are made freely available.
翻訳日:2023-11-10 17:36:03 公開日:2023-11-09
# chatgptはジオコーディングのためのゲームチェンジャーか - ジオコーディングアドレス解析テクニックのベンチマーク

Is ChatGPT a game changer for geocoding -- a benchmark for geocoding address parsing techniques ( http://arxiv.org/abs/2310.14360v2 )

ライセンス: Link先を確認
Zhengcong Yin, Diya Li, Daniel W. Goldberg(参考訳) トポニーミー認識を含む様々なタスクにおけるGPTモデルの顕著な成功は、ジオコーディングアドレス解析タスクにおけるGPT-3モデルの性能を評価する動機となる。 そこで本研究では,実運用中のジオコーディングシステムの実際の入力ログからマイニングした人間の入力パターンに基づいて合成された低品質アドレス記述のベンチマークデータセットを提案する。 このデータセットには21の異なる入力エラーとバリエーションがあり、米国50州とワシントンD.C.の通りから一意に選択された239,000以上のアドレス記録が含まれており、トレーニング、検証、テストセットとして使用される3つのサブセットで構成されている。 そこで我々は,GPT-3モデルを用いてアドレス成分抽出の性能をトレーニングし,その性能をトランスフォーマモデルとLSTMモデルと対比する。 評価結果から,両方向LSTM-CRFモデルは,これらのトランスモデルとGPT-3モデルよりも優れた性能を示した。 トランスフォーマーベースのモデルは、双方向LSTM-CRFモデルと非常によく似た結果を示す。 GPT-3モデルは性能に追随するが、いくつかの例でアドレス解析タスクのポテンシャルを示し、追加の微調整による改善の余地を示す。 このベンチマークのコードとデータをオープンソースにして、研究者が将来のモデル開発に利用したり、ドキュメントジオコーディングのような同様のタスクを評価するために拡張したりできるようにします。

The remarkable success of GPT models across various tasks, including toponymy recognition motivates us to assess the performance of the GPT-3 model in the geocoding address parsing task. To ensure that the evaluation more accurately mirrors performance in real-world scenarios with diverse user input qualities and resolve the pressing need for a 'gold standard' evaluation dataset for geocoding systems, we introduce a benchmark dataset of low-quality address descriptions synthesized based on human input patterns mining from actual input logs of a geocoding system in production. This dataset has 21 different input errors and variations; contains over 239,000 address records that are uniquely selected from streets across all U.S. 50 states and D.C.; and consists of three subsets to be used as training, validation, and testing sets. Building on this, we train and gauge the performance of the GPT-3 model in extracting address components, contrasting its performance with transformer-based and LSTM-based models. The evaluation results indicate that Bidirectional LSTM-CRF model has achieved the best performance over these transformer-based models and GPT-3 model. Transformer-based models demonstrate very comparable results compared to the Bidirectional LSTM-CRF model. The GPT-3 model, though trailing in performance, showcases potential in the address parsing task with few-shot examples, exhibiting room for improvement with additional fine-tuning. We open source the code and data of this presented benchmark so that researchers can utilize it for future model development or extend it to evaluate similar tasks, such as document geocoding.
翻訳日:2023-11-10 17:35:31 公開日:2023-11-09
# 言語モデルにおける情報理論と幾何圧縮の橋渡し

Bridging Information-Theoretic and Geometric Compression in Language Models ( http://arxiv.org/abs/2310.13620v2 )

ライセンス: Link先を確認
Emily Cheng, Corentin Kervadec, and Marco Baroni(参考訳) 言語モデル(LM)が人間の言語を忠実にモデル化するには、膨大な無限の情報を比較的少数の次元に圧縮する必要がある。 本稿では,(事前学習された)LMの圧縮を幾何学的および情報理論の2点から解析する。 言語データの内在的な幾何学的次元は, LMの下での符号化長を予測する。 次に,言語データセットの高圧縮は,そのデータセットへの迅速な適応を予測し,言語情報を圧縮できることがLM性能の重要な部分であることを確認した。 本分析の実践的副産物として,言語データから本質的次元推定器の電池を初めて評価し,情報理論的圧縮,幾何学的圧縮,適応の容易性の関係をカプセル化したもののみを示した。

For a language model (LM) to faithfully model human language, it must compress vast, potentially infinite information into relatively few dimensions. We propose analyzing compression in (pre-trained) LMs from two points of view: geometric and information-theoretic. We demonstrate that the two views are highly correlated, such that the intrinsic geometric dimension of linguistic data predicts their coding length under the LM. We then show that, in turn, high compression of a linguistic dataset predicts rapid adaptation to that dataset, confirming that being able to compress linguistic information is an important part of successful LM performance. As a practical byproduct of our analysis, we evaluate a battery of intrinsic dimension estimators for the first time on linguistic data, showing that only some encapsulate the relationship between information-theoretic compression, geometric compression, and ease-of-adaptation.
翻訳日:2023-11-10 17:35:04 公開日:2023-11-09
# セマンティックコミュニケーションシステムの訓練のための効果的なフェデレーション学習フレームワーク

An Efficient Federated Learning Framework for Training Semantic Communication System ( http://arxiv.org/abs/2310.13236v2 )

ライセンス: Link先を確認
Loc X. Nguyen, Huy Q. Le, Ye Lin Tun, Pyae Sone Aung, Yan Kyaw Tun, Zhu Han, Choong Seon Hong(参考訳) データ冗長性を緩和する能力により,次世代通信システムの柱としてセマンティック通信が出現している。 ほとんどのセマンティックコミュニケーションシステムは、トレーニングパフォーマンスがデータ可用性に大きく依存する高度なディープラーニングモデル上に構築されている。 既存の研究はしばしば、アクセスしやすいデータソースの非現実的な仮定を行うが、実際には、データは主にクライアント側で作成される。 プライバシーやセキュリティ上の懸念から、データの送信は制限されており、これは従来の集中型トレーニングスキームに必要である。 この課題に対処するために、プライバシを漏らさずにクライアントデータを利用するフェデレートラーニング(FL)環境でセマンティックコミュニケーションを検討する。 さらに,グローバルラウンド毎に配信される情報量を削減することで,通信オーバーヘッドに対処するシステムを設計する。 このように、リソース制限されたデバイスに対してかなりの帯域幅を節約し、ネットワーク全体のトラフィックを削減できる。 最後に、FedLolと呼ばれるクライアントからグローバルモデルを集約するメカニズムを紹介します。 その結果,提案手法の有効性をベースライン法と比較した。

Semantic communication has emerged as a pillar for the next generation of communication systems due to its capabilities in alleviating data redundancy. Most semantic communication systems are built upon advanced deep learning models whose training performance heavily relies on data availability. Existing studies often make unrealistic assumptions of a readily accessible data source, where in practice, data is mainly created on the client side. Due to privacy and security concerns, the transmission of data is restricted, which is necessary for conventional centralized training schemes. To address this challenge, we explore semantic communication in a federated learning (FL) setting that utilizes client data without leaking privacy. Additionally, we design our system to tackle the communication overhead by reducing the quantity of information delivered in each global round. In this way, we can save significant bandwidth for resource-limited devices and reduce overall network traffic. Finally, we introduce a mechanism to aggregate the global model from clients, called FedLol. Extensive simulation results demonstrate the effectiveness of our proposed technique compared to baseline methods.
翻訳日:2023-11-10 17:34:49 公開日:2023-11-09
# 変圧器の追加を理解する

Understanding Addition in Transformers ( http://arxiv.org/abs/2310.13121v3 )

ライセンス: Link先を確認
Philip Quirke, Fazl Barez(参考訳) Transformersのような機械学習モデルの内部動作を理解することは、安全で倫理的な使用に不可欠である。 本稿では,n桁整数加算のための1層トランスフォーマーモデルの詳細解析を行う。 本モデルでは,タスクを並列な桁別ストリームに分割し,異なる桁位置の異なるアルゴリズムを用いる。 我々の研究は、モデルが計算を遅く開始するが、迅速に実行することも見出した。 高損失の稀なユースケースが同定され、説明される。 全体として、モデルのアルゴリズムは詳細に説明されている。 これらの発見は厳密なテストと数学的モデリングを通じて検証され、機械的解釈可能性、AI安全性、アライメントにおける幅広い研究に貢献した。 我々のアプローチは、より複雑なタスクと多層トランスフォーマーモデルを分析するための扉を開く。

Understanding the inner workings of machine learning models like Transformers is vital for their safe and ethical use. This paper presents an in-depth analysis of a one-layer Transformer model trained for n-digit integer addition. We reveal that the model divides the task into parallel, digit-specific streams and employs distinct algorithms for different digit positions. Our study also finds that the model starts calculations late but executes them rapidly. A rare use case with high loss is identified and explained. Overall, the model's algorithm is explained in detail. These findings are validated through rigorous testing and mathematical modeling, contributing to the broader works in Mechanistic Interpretability, AI safety, and alignment. Our approach opens the door for analyzing more complex tasks and multi-layer Transformer models.
翻訳日:2023-11-10 17:34:33 公開日:2023-11-09
# 集団深層学習の効果的な理論

An effective theory of collective deep learning ( http://arxiv.org/abs/2310.12802v2 )

ライセンス: Link先を確認
Llu\'is Arola-Fern\'andez and Lucas Lacasa(参考訳) 結合型ニューラルネットワークシステムにおける集団学習の出現は、機械学習、神経科学、社会に広範な意味を示している。 本稿では、ニューラルネットワーク単位のパラメータにおける局所学習ダイナミクスと、アンサンブルのパラメータを均質化する単位間の拡散結合という2つの用語の競合を考慮して、最近の分散アルゴリズムを凝縮する最小モデルを提案する。 線形ネットワークの有効理論を導出し, このシステムの粗粒化挙動は, 緩衝障害を伴う変形型ギンツブルク・ランダウモデルと同値であることを示した。 本フレームワークは,集合学習フェーズと低ランクの顕微鏡学習パスの深度遅延オンセットを明らかにするパラメータの解における,深さ依存性の障害秩序相転移を予測する。 プライバシ制約下でMNISTデータセットでトレーニングされたリアルニューラルネットワークの結合アンサンブルにおいて,この理論を検証した。 興味深いことに、プライベートデータに基づいてトレーニングされた個々のネットワークが、集合学習フェーズが出現すると、見つからないデータクラスに完全に一般化できることが実験によって確認されている。 我々の研究は集団学習の物理を確立し,分散環境での深層学習の機械論的解釈に寄与する。

Unraveling the emergence of collective learning in systems of coupled artificial neural networks points to broader implications for machine learning, neuroscience, and society. Here we introduce a minimal model that condenses several recent decentralized algorithms by considering a competition between two terms: the local learning dynamics in the parameters of each neural network unit, and a diffusive coupling among units that tends to homogenize the parameters of the ensemble. We derive an effective theory for linear networks to show that the coarse-grained behavior of our system is equivalent to a deformed Ginzburg-Landau model with quenched disorder. This framework predicts depth-dependent disorder-order-disorder phase transitions in the parameters' solutions that reveal a depth-delayed onset of a collective learning phase and a low-rank microscopic learning path. We validate the theory in coupled ensembles of realistic neural networks trained on the MNIST dataset under privacy constraints. Interestingly, experiments confirm that individual networks -- trained on private data -- can fully generalize to unseen data classes when the collective learning phase emerges. Our work establishes the physics of collective learning and contributes to the mechanistic interpretability of deep learning in decentralized settings.
翻訳日:2023-11-10 17:34:23 公開日:2023-11-09
# 因果モデルを用いた二項分類におけるアルゴリズムバイアスの検出と緩和

Detecting and Mitigating Algorithmic Bias in Binary Classification using Causal Modeling ( http://arxiv.org/abs/2310.12421v2 )

ライセンス: Link先を確認
Wendy Hui, Wai Kwong Lau(参考訳) 本稿では,因果モデルを用いたアルゴリズムバイアスの検出と軽減について述べる。 本稿では,因果モデリングの概要とアプローチの概要について述べる。 次に、UCアーバイン機械学習リポジトリからダウンロード可能なアダルトデータセットを用いて、(1)ブラックボックスとして扱われる予測モデル、(2)バイアス軽減のための因果モデルを開発する。 本稿では、性別バイアスと二項分類の問題に焦点を当てる。 予測モデルの性別バイアスは0.05レベルで統計的に有意であることを示す。 本研究は,性別バイアス軽減のための因果モデルの有効性を示す。 さらに,全体の分類精度がわずかに向上したことを示す。 我々の新しいアプローチは直感的で使いやすく、Rの"lavaan"のような既存の統計ソフトウェアツールを使って実装することができる。

This paper proposes the use of causal modeling to detect and mitigate algorithmic bias. We provide a brief description of causal modeling and a general overview of our approach. We then use the Adult dataset, which is available for download from the UC Irvine Machine Learning Repository, to develop (1) a prediction model, which is treated as a black box, and (2) a causal model for bias mitigation. In this paper, we focus on gender bias and the problem of binary classification. We show that gender bias in the prediction model is statistically significant at the 0.05 level. We demonstrate the effectiveness of the causal model in mitigating gender bias by cross-validation. Furthermore, we show that the overall classification accuracy is improved slightly. Our novel approach is intuitive, easy-to-use, and can be implemented using existing statistical software tools such as "lavaan" in R. Hence, it enhances explainability and promotes trust.
翻訳日:2023-11-10 17:34:04 公開日:2023-11-09
# ニュートリノ振動の時間-エネルギー不確実性関係--歴史的発展, 応用, 将来展望

Time-energy uncertainty relation for neutrino oscillations: historical development, applications and future prospects ( http://arxiv.org/abs/2310.12124v2 )

ライセンス: Link先を確認
Giuseppe Gaetano Luciano and Luca Smaldone(参考訳) 時間エネルギーの不確実性関係(英語版)(teur)は量子力学において基本的な役割を担っており、理論の非常に一般的な原理と対称性に基づいて様々な現象の特異な側面を把握できる。 マンデルシュタム-タム法を用いて、ニュートリノエネルギーの不確かさと振動の時間スケールを結びつけることでニュートリノ振動を導出してきた。 興味深いことに、ニュートリノを不安定な粒子と解釈することは、この文脈で自然に現れることが証明されている。 その後、一般定常時空におけるニュートリノエネルギーの不確かさの補正を計算し、半古典重力においてさらなる側面が議論され、量子場理論では、クロック観測可能が保存されないフレーバー電荷演算子と同一であることが判明した。 本報告では, 上記の成果について概観する。 特に、チュールの影響を分析し、ニュートリノ振動の標準条件に対する重力および非相対論的影響の影響を探究する。

Time-energy uncertainty relation (TEUR) plays a fundamental role in quantum mechanics, as it allows to grasp peculiar aspects of a variety of phenomena based on very general principles and symmetries of the theory. Using the Mandelstam-Tamm method, TEUR has been recently derived for neutrino oscillations by connecting the uncertainty on neutrino energy with the characteristic time-scale of oscillations. Interestingly enough, the suggestive interpretation of neutrinos as unstable-like particles has proved to naturally emerge in this context. Further aspects have been later discussed in semiclassical gravity by computing corrections to the neutrino energy uncertainty in a generic stationary curved spacetime, and in quantum field theory, where the clock observable turns out to be identified with the non-conserved flavor charge operator. In the present work, we give an overview on the above achievements. In particular, we analyze the implications of TEUR and explore the impact of gravitational and non-relativistic effects on the standard condition for neutrino oscillations.
翻訳日:2023-11-10 17:33:52 公開日:2023-11-09
# 多言語言語モデルにおける事実知識の言語間一貫性

Cross-Lingual Consistency of Factual Knowledge in Multilingual Language Models ( http://arxiv.org/abs/2310.10378v4 )

ライセンス: Link先を確認
Jirui Qi, Raquel Fern\'andez, Arianna Bisazza(参考訳) 多言語の大規模事前学習言語モデル(plm)は、かなりの量の事実知識を蓄積していることが示されているが、言語間で大きな変化が見られる。 異なる言語背景を持つユーザが同じモデルから一貫したフィードバックを得るための究極の目標として,多言語PLMにおける事実知識の言語間整合性(CLC)について検討する。 そこで我々は,言語間の知識の整合性を評価するために,RankC(Rank-based Consistency)尺度を提案する。 この測定値を用いて、モデルレベルと言語ペアレベルの両方において、CLCの決定因子の詳細な分析を行う。 以上の結果から,モデルサイズが大きくなると,言語間一貫性は向上しないものの,実測精度は高まることが判明した。 最後に,モデル編集により新たな事実関連をPLMに挿入する場合に,LCCのケーススタディを行う。 英語に挿入された事実の小さなサンプルの結果から、新しい知識の断片が、高いランクCスコアを持つ言語にのみ伝達される明確なパターンが明らかとなった。

Multilingual large-scale Pretrained Language Models (PLMs) have been shown to store considerable amounts of factual knowledge, but large variations are observed across languages. With the ultimate goal of ensuring that users with different language backgrounds obtain consistent feedback from the same model, we study the cross-lingual consistency (CLC) of factual knowledge in various multilingual PLMs. To this end, we propose a Ranking-based Consistency (RankC) metric to evaluate knowledge consistency across languages independently from accuracy. Using this metric, we conduct an in-depth analysis of the determining factors for CLC, both at model level and at language-pair level. Among other results, we find that increasing model size leads to higher factual probing accuracy in most languages, but does not improve cross-lingual consistency. Finally, we conduct a case study on CLC when new factual associations are inserted in the PLMs via model editing. Results on a small sample of facts inserted in English reveal a clear pattern whereby the new piece of knowledge transfers only to languages with which English has a high RankC score.
翻訳日:2023-11-10 17:33:34 公開日:2023-11-09
# AP$n$P:未知の異方性スケーリングまたは焦点長を用いた詩推定のための低制約P$n$Pソルバー

AP$n$P: A Less-constrained P$n$P Solver for Pose Estimation with Unknown Anisotropic Scaling or Focal Lengths ( http://arxiv.org/abs/2310.09982v3 )

ライセンス: Link先を確認
Jiaxin Wei, Stefan Leutenegger and Laurent Kneip(参考訳) perspective-$n$-point (p$n$p) は様々な応用におけるポーズ推定の基本的なアルゴリズムである。 本稿では,P$n$P問題に対して,制約を緩和し,正確な3次元座標や完全校正データを必要としない新しいアプローチを提案する。 我々は3d座標の未知の異方性スケーリング係数や、従来の剛体変換に加えて2つの異なる焦点長を扱うことができるため、ap$n$pと呼ぶ。 代数的操作と新しいパラメトリゼーションにより、どちらのケースも、回転の順序と異方性スケーリング操作によって自身を区別する類似の形式に変換される。 AP$n$P は、Gr\ "obner basis approach" によって解かれる一意多項式問題に沸騰する。 シミュレーションと実データの両方の実験結果から,AP$n$Pがカメラポーズ推定のより柔軟で実用的な解であることを示す。 コード:https://github.com/goldoak/APnP。

Perspective-$n$-Point (P$n$P) stands as a fundamental algorithm for pose estimation in various applications. In this paper, we present a new approach to the P$n$P problem with relaxed constraints, eliminating the need for precise 3D coordinates or complete calibration data. We refer to it as AP$n$P due to its ability to handle unknown anisotropic scaling factors of 3D coordinates or alternatively two distinct focal lengths in addition to the conventional rigid transformation. Through algebraic manipulations and a novel parametrization, both cases are brought into similar forms that distinguish themselves primarily by the order of a rotation and an anisotropic scaling operation. AP$n$P then boils down to one unique polynomial problem, which is solved by the Gr\"obner basis approach. Experimental results on both simulated and real datasets demonstrate the effectiveness of AP$n$P as a more flexible and practical solution to camera pose estimation. Code: https://github.com/goldoak/APnP.
翻訳日:2023-11-10 17:33:15 公開日:2023-11-09
# Chameleon: 検索強化言語モデルのための異種・非凝集型加速器システム

Chameleon: a heterogeneous and disaggregated accelerator system for retrieval-augmented language models ( http://arxiv.org/abs/2310.09949v2 )

ライセンス: Link先を確認
Wenqi Jiang, Marco Zeller, Roger Waleffe, Torsten Hoefler, Gustavo Alonso(参考訳) Retrieval-Augmented Language Model (RALM)は、外部データベースからコンテキスト固有の知識を取得することで、生成言語モデルを拡張する。 この戦略は、小さなモデルでも印象的なテキスト生成品質を促進し、計算要求の桁違いを削減します。 しかし、ALMは独自のシステム設計の課題を導入している。 (a)lm推論と検索の多様なワークロード特性 (b)モデルサイズ,データベースサイズ,検索頻度など,さまざまなALM構成に対するさまざまなシステム要件とボトルネック。 分散アーキテクチャにおいてlmと検索アクセラレータを統合したヘテロジニアスアクセラレータシステムchameleonを提案する。 不均一性は、LM推論と検索の両方の効率的な加速を保証する一方、加速器の分解により、システムは両方のタイプの加速器を独立にスケールし、様々なRALM要求を満たすことができる。 我々のChameleonプロトタイプはFPGA上で検索アクセラレータを実装し、LM推論をGPUに割り当て、CPUサーバがこれらのアクセラレータをネットワーク上でオーケストレーションする。 CPUベースとCPU-GPUベクターサーチシステムと比較して、Chameleonは最大23.72倍のスピードアップと26.2倍のエネルギー効率を実現している。 様々なRALMを評価したChameleonは、ハイブリッドCPU-GPUアーキテクチャと比較してレイテンシが2.16倍、スループットが3.18倍に向上した。 これらの有望な結果は、将来のRALMシステムに加速器の不均一性と分解をもたらす道を開く。

A Retrieval-Augmented Language Model (RALM) augments a generative language model by retrieving context-specific knowledge from an external database. This strategy facilitates impressive text generation quality even with smaller models, thus reducing orders of magnitude of computational demands. However, RALMs introduce unique system design challenges due to (a) the diverse workload characteristics between LM inference and retrieval and (b) the various system requirements and bottlenecks for different RALM configurations such as model sizes, database sizes, and retrieval frequencies. We propose Chameleon, a heterogeneous accelerator system that integrates both LM and retrieval accelerators in a disaggregated architecture. The heterogeneity ensures efficient acceleration of both LM inference and retrieval, while the accelerator disaggregation enables the system to independently scale both types of accelerators to fulfill diverse RALM requirements. Our Chameleon prototype implements retrieval accelerators on FPGAs and assigns LM inference to GPUs, with a CPU server orchestrating these accelerators over the network. Compared to CPU-based and CPU-GPU vector search systems, Chameleon achieves up to 23.72x speedup and 26.2x energy efficiency. Evaluated on various RALMs, Chameleon exhibits up to 2.16x reduction in latency and 3.18x speedup in throughput compared to the hybrid CPU-GPU architecture. These promising results pave the way for bringing accelerator heterogeneity and disaggregation into future RALM systems.
翻訳日:2023-11-10 17:32:58 公開日:2023-11-09
# 安価な会話アルゴリズム

Cheap Talking Algorithms ( http://arxiv.org/abs/2310.07867v2 )

ライセンス: Link先を確認
Daniele Condorelli, Massimiliano Furlan(参考訳) 我々は、crawford and sobel (1982) game of strategic information transmission をプレイする独立強化学習アルゴリズムの挙動をシミュレートする。 送信側と受信側が協調して学習し、ゲームの最適均衡に近い戦略に収束することを示す。 したがって、コミュニケーションはナッシュ均衡によって予測される最も大きな範囲で行われる。 この結論は、学習ハイパーパラメータとゲームの代替仕様に対して堅牢である。 本稿では,情報伝達ゲームにおける平衡選択の理論,計算機科学におけるアルゴリズム間の新たなコミュニケーション,人工知能エージェントによる市場における共謀の経済性について論じる。

We simulate behavior of independent reinforcement learning algorithms playing the Crawford and Sobel (1982) game of strategic information transmission. We show that a sender and a receiver training together converge to strategies close to the ex-ante optimal equilibrium of the game. Hence, communication takes place to the largest extent predicted by Nash equilibrium. The conclusion is robust to alternative specifications of the learning hyperparameters and of the game. We discuss implications for theories of equilibrium selection in information transmission games, for work on emerging communication among algorithms in computer science, and for the economics of collusions in markets populated by artificially intelligent agents.
翻訳日:2023-11-10 17:32:33 公開日:2023-11-09
# 非ボゾン補正による閉殻分子の変分量子固有解法

Variational quantum eigensolver for closed-shell molecules with non-bosonic corrections ( http://arxiv.org/abs/2310.07650v2 )

ライセンス: Link先を確認
Kyungmin Kim, Sumin Lim, Kyujin Shin, Gwonhak Lee, Yousung Jung, Woomin Kyoung, June-Koo Kevin Rhee, and Young Min Rhee(参考訳) ノイズのある中間規模量子(NISQ)マシンによる量子優位性の実現は、計算科学における大きな課題の1つとなっている。 10キュービット以上の物理システムの一貫性を維持することは、アルゴリズムの複雑さを減らすためのコンパクトなシステム表現の研究を動機付ける重要な課題である。 この目的のために、変分量子固有解法(VQE)に基づく量子シミュレーションは、NISQ時代の量子化学にとって最も有望なアルゴリズムの1つであると考えられている。 1つの空間軌道から1つの量子ビットへのマッピングを縮小し、量子ビットのパウリ作用素が一重項電子対の生成/消滅にマッピングされるように基底状態エネルギーを分析する。 非ボソニック(または非ペア)励起の効果を含めるために、ボソニック(またはペア)項の幾何学平均によって近似される電子相関モデルにおいて単純な補正スキームを導入する。 VQEアルゴリズムを用いて,H2O,N2,Li2Oの基底状態エネルギーを,量子ゲート深さが量子ビット数に比例する6,8,12量子ビットのみを用いて,フル構成相互作用(FCI)モデルと良好な一致で評価する。 従来のVQEアルゴリズムの量子ビット数の半分しか利用していない高次数-ゼロ近似を用いて、少なくとも試験系では、我々の非ボゾン補正法は信頼性の高い量子化学シミュレーションに到達している。

The realization of quantum advantage with noisy-intermediate-scale quantum (NISQ) machines has become one of the major challenges in computational sciences. Maintaining coherence of a physical system with more than ten qubits is a critical challenge that motivates research on compact system representations to reduce algorithm complexity. Toward this end, quantum simulations based on the variational quantum eigensolver (VQE) is considered to be one of the most promising algorithms for quantum chemistry in the NISQ era. We investigate reduced mapping of one spatial orbital to a single qubit to analyze the ground state energy in a way that the Pauli operators of qubits are mapped to the creation/annihilation of singlet pairs of electrons. To include the effect of non-bosonic (or non-paired) excitations, we introduce a simple correction scheme in the electron correlation model approximated by the geometrical mean of the bosonic (or paired) terms. Employing it in a VQE algorithm, we assess ground state energies of H2O, N2, and Li2O in good agreements with full configuration interaction (FCI) models respectively, using only 6, 8, and 12 qubits with quantum gate depths proportional to the squares of the qubit counts. With the adopted seniority-zero approximation that uses only one half of the qubit counts of a conventional VQE algorithm, we find our non-bosonic correction method reaches reliable quantum chemistry simulations at least for the tested systems.
翻訳日:2023-11-10 17:32:25 公開日:2023-11-09
# Dual Radar: 自律走行のためのDual 4D Radarを備えたマルチモーダルデータセット

Dual Radar: A Multi-modal Dataset with Dual 4D Radar for Autonomous Driving ( http://arxiv.org/abs/2310.07602v3 )

ライセンス: Link先を確認
Xinyu Zhang, Li Wang, Jian Chen, Cheng Fang, Lei Yang, Ziying Song, Guangqi Yang, Yichen Wang, Xiaofei Zhang, Jun Li, Zhiwei Li, Qingshan Yang, Zhenlin Zhang, Shuzhi Sam Ge(参考訳) radarは、広く採用されているカメラやライダーと比較して、自律運転環境認識の悪いシナリオに適応性が高い。 一般的な3dレーダーと比較すると、最新の4dレーダーは正確な垂直解像度と高点の雲密度を持ち、複雑な環境知覚における自律運転のための非常に有望なセンサーである。 しかし、LiDARよりもはるかに高いノイズのため、メーカーは異なるフィルタリング戦略を選択し、ノイズレベルと点雲密度の逆比をもたらす。 自動運転における深層学習に基づく知覚アルゴリズムにとって、どの手法が有益かの比較分析がいまだに欠けている。 主な理由の1つは、現在のデータセットが1種類の4Dレーダーのみを採用するため、同じシーンで異なる4Dレーダーを比較するのは困難である。 そこで本研究では,2種類の4Dレーダを同時に撮影する大規模マルチモーダル・データセットを提案する。 このデータセットは、有効な4Dレーダ認識アルゴリズムのさらなる研究を可能にし、我々のデータセットは151の連続するシリーズで構成され、そのほとんどは、正確に同期された10,007フレームを含む。 さらに我々のデータセットは、多くの道路条件、天候条件、夜間と昼間の照明強度と期間を含む、様々な困難な運転シナリオをキャプチャします。 私たちのデータセットは、3dオブジェクト検出とトラッキングに適用可能な連続フレームを注釈し、マルチモーダルタスクの研究もサポートする。 我々はデータセットを実験的に検証し、異なる種類の4Dレーダーの研究に有用な結果を提供する。 このデータセットはhttps://github.com/adept-thu/Dual-Radarで公開されている。

Radar has stronger adaptability in adverse scenarios for autonomous driving environmental perception compared to widely adopted cameras and LiDARs. Compared with commonly used 3D radars, the latest 4D radars have precise vertical resolution and higher point cloud density, making it a highly promising sensor for autonomous driving in complex environmental perception. However, due to the much higher noise than LiDAR, manufacturers choose different filtering strategies, resulting in an inverse ratio between noise level and point cloud density. There is still a lack of comparative analysis on which method is beneficial for deep learning-based perception algorithms in autonomous driving. One of the main reasons is that current datasets only adopt one type of 4D radar, making it difficult to compare different 4D radars in the same scene. Therefore, in this paper, we introduce a novel large-scale multi-modal dataset featuring, for the first time, two types of 4D radars captured simultaneously. This dataset enables further research into effective 4D radar perception algorithms.Our dataset consists of 151 consecutive series, most of which last 20 seconds and contain 10,007 meticulously synchronized and annotated frames. Moreover, our dataset captures a variety of challenging driving scenarios, including many road conditions, weather conditions, nighttime and daytime with different lighting intensities and periods. Our dataset annotates consecutive frames, which can be applied to 3D object detection and tracking, and also supports the study of multi-modal tasks. We experimentally validate our dataset, providing valuable results for studying different types of 4D radars. This dataset is released on https://github.com/adept-thu/Dual-Radar.
翻訳日:2023-11-10 17:31:56 公開日:2023-11-09
# ニューラルオブジェクト形状コンプリートを用いた擬似グラスピング

Anthropomorphic Grasping with Neural Object Shape Completion ( http://arxiv.org/abs/2311.02510v2 )

ライセンス: Link先を確認
Diego Hidalgo-Carvajal, Hanzhi Chen, Gemma C. Bettelani, Jaesug Jung, Melissa Zavaglia, Laura Busse, Abdeldjallil Naceri, Stefan Leutenegger, Sami Haddadin(参考訳) 人間に合った環境におけるロボットの進歩的な普及は、デクスタリティが重要な役割を果たす無数のオブジェクト操作技術を生み出した。 人間は物体を扱う際、異常なデクスター性を示すことが確立されている。 このようなデキスタリティは、物体の性質(重量、大きさ、形状など)の堅牢な理解と、それらと相互作用する顕著な能力に由来すると考えられる。 手の姿勢は、通常、特定の領域が、特に部分的に見える場合は、把握する必要がある物体に与える影響を示す。 本研究では, 部分的観察から全形状を再構築し, 7自由度ロボットハンドで操作することで, 人間の物体理解を活用した。 提案手法は, 部分的再構成のみでベースラインの把持成功率を30%近く向上させ, 3つの異なる対象カテゴリで150以上の把持を達成した。 これは,現実のシナリオにおいて,様々な方向や位置から完成した物体形状に基づいて,把持姿勢を予測・実行するためのアプローチの一貫した能力を示す。 我々の研究は、現実世界の再構成された物体の正確な把握と操作のスキルを必要とするロボットアプリケーションを強化する新たな可能性を開く。

The progressive prevalence of robots in human-suited environments has given rise to a myriad of object manipulation techniques, in which dexterity plays a paramount role. It is well-established that humans exhibit extraordinary dexterity when handling objects. Such dexterity seems to derive from a robust understanding of object properties (such as weight, size, and shape), as well as a remarkable capacity to interact with them. Hand postures commonly demonstrate the influence of specific regions on objects that need to be grasped, especially when objects are partially visible. In this work, we leverage human-like object understanding by reconstructing and completing their full geometry from partial observations, and manipulating them using a 7-DoF anthropomorphic robot hand. Our approach has significantly improved the grasping success rates of baselines with only partial reconstruction by nearly 30% and achieved over 150 successful grasps with three different object categories. This demonstrates our approach's consistent ability to predict and execute grasping postures based on the completed object shapes from various directions and positions in real-world scenarios. Our work opens up new possibilities for enhancing robotic applications that require precise grasping and manipulation skills of real-world reconstructed objects.
翻訳日:2023-11-10 17:24:11 公開日:2023-11-09
# 科学論文の臨場感による要約

Citance-Contextualized Summarization of Scientific Papers ( http://arxiv.org/abs/2311.02408v2 )

ライセンス: Link先を確認
Shahbaz Syed, Ahmad Dawar Hakimi, Khalid Al-Khatib, Martin Potthast(参考訳) 科学論文の自動要約への最近のアプローチは、抽象的な形で情報的な要約を生成する。 しかし、要約は論文と引用された参考文献の関係を示すものではない。 本稿では,参照の引用(いわゆる'citance'')を含む与えられた文に条件付けされた情報的要約を生成する新しい文脈的要約手法を提案する。 この要約では引用位置に関連する引用論文の内容について概説する。 そこで,本稿では,論文のクタンスを抽出・モデル化し,引用論文から関連する節を抽出し,各クタンスに合わせた要約要約を生成する。 我々は,540Kのコンピュータ科学論文と4.6Mのアクセントを含む新しいデータセットである$\textbf{Webis-Context-SciSumm-2023}$を用いて,我々のアプローチを評価する。

Current approaches to automatic summarization of scientific papers generate informative summaries in the form of abstracts. However, abstracts are not intended to show the relationship between a paper and the references cited in it. We propose a new contextualized summarization approach that can generate an informative summary conditioned on a given sentence containing the citation of a reference (a so-called ``citance''). This summary outlines the content of the cited paper relevant to the citation location. Thus, our approach extracts and models the citances of a paper, retrieves relevant passages from cited papers, and generates abstractive summaries tailored to each citance. We evaluate our approach using $\textbf{Webis-Context-SciSumm-2023}$, a new dataset containing 540K~computer science papers and 4.6M~citances therein.
翻訳日:2023-11-10 17:23:52 公開日:2023-11-09
# 汎用低ランクテンソル周波数帯域

Efficient Generalized Low-Rank Tensor Contextual Bandits ( http://arxiv.org/abs/2311.01771v2 )

ライセンス: Link先を確認
Qianxin Yi, Yiyang Yang, Shaojie Tang, Yao Wang(参考訳) 本稿では,多次元データのパワーと報奨関数の固有非線形性を十分に活用し,高可用性かつ説明可能な意思決定サービスを実現するbanditsアルゴリズムを構築することを目的とする。 この目的のために、3つの特徴ベクトルから作用が生成され、従ってテンソルで表現できる一般化された低ランクテンソル文脈帯域モデルを導入する。 この定式化において、報酬は、アクションの特徴テンソルの内積に適用される一般化線形関数と、低い管状ランクを持つ固定だが未知のパラメータテンソルによって決定される。 探索と搾取のトレードオフを効果的に達成するために,「一般化された低ランクテンソル探索部分空間を精製する」(g-lowtestr)という新しいアルゴリズムを導入する。 このアルゴリズムは、まず生データを収集し、決定シナリオに埋め込まれた本質的な低ランクテンソル部分空間情報を探索し、元の問題をほぼ低次元の一般化線形文脈帯域問題に変換する。 厳密な理論解析により、G-LowTESTRの後悔境界はベクトル化や行列化の場合よりも優れていることが示された。 我々は,g-lowtestrの有効性をさらに強調するために,一連のシミュレーションと実データ実験を実施し,低ランクテンソル構造を活用して強化学習を行う。

In this paper, we aim to build a novel bandits algorithm that is capable of fully harnessing the power of multi-dimensional data and the inherent non-linearity of reward functions to provide high-usable and accountable decision-making services. To this end, we introduce a generalized low-rank tensor contextual bandits model in which an action is formed from three feature vectors, and thus can be represented by a tensor. In this formulation, the reward is determined through a generalized linear function applied to the inner product of the action's feature tensor and a fixed but unknown parameter tensor with a low tubal rank. To effectively achieve the trade-off between exploration and exploitation, we introduce a novel algorithm called "Generalized Low-Rank Tensor Exploration Subspace then Refine" (G-LowTESTR). This algorithm first collects raw data to explore the intrinsic low-rank tensor subspace information embedded in the decision-making scenario, and then converts the original problem into an almost lower-dimensional generalized linear contextual bandits problem. Rigorous theoretical analysis shows that the regret bound of G-LowTESTR is superior to those in vectorization and matricization cases. We conduct a series of simulations and real data experiments to further highlight the effectiveness of G-LowTESTR, leveraging its ability to capitalize on the low-rank tensor structure for enhanced learning.
翻訳日:2023-11-10 17:22:58 公開日:2023-11-09
# 低光環境下での視覚的タスク改善のための熱画像翻訳

Visible to Thermal image Translation for improving visual task in low light conditions ( http://arxiv.org/abs/2310.20190v2 )

ライセンス: Link先を確認
Md Azim Khan(参考訳) 歩行者検出や画像から画像への変換など、いくつかの視覚タスクは、rgb画像を用いた低照度での達成が難しい。 熱画像内の物体の熱変化は、これを解決するために使用できる。 本稿では,rgb画像を熱画像に変換し,生成した熱画像と実データを比較するために,生成ネットワークと検出器ネットワークからなるエンドツーエンドフレームワークを提案する。 parrot anafi thermal droneを使って、2つの異なる場所から画像を収集した。 その後、私たちは2ストリームネットワークを作成し、前処理、拡張、画像データを作成し、ジェネレータと識別器モデルをゼロから訓練しました。 GANを用いてRGBトレーニングデータを熱データに変換することは可能であった。 結果として、熱データをより迅速かつ安価に作成することが可能となり、セキュリティや監視アプリケーションに役立ちます。

Several visual tasks, such as pedestrian detection and image-to-image translation, are challenging to accomplish in low light using RGB images. Heat variation of objects in thermal images can be used to overcome this. In this work, an end-to-end framework, which consists of a generative network and a detector network, is proposed to translate RGB image into Thermal ones and compare generated thermal images with real data. We have collected images from two different locations using the Parrot Anafi Thermal drone. After that, we created a two-stream network, preprocessed, augmented, the image data, and trained the generator and discriminator models from scratch. The findings demonstrate that it is feasible to translate RGB training data to thermal data using GAN. As a result, thermal data can now be produced more quickly and affordably, which is useful for security and surveillance applications.
翻訳日:2023-11-10 17:22:33 公開日:2023-11-09
# フェデレーテッド・アンラーニングに関する調査研究 : 分類学,課題,今後の方向性

A Survey of Federated Unlearning: A Taxonomy, Challenges and Future Directions ( http://arxiv.org/abs/2310.19218v2 )

ライセンス: Link先を確認
Jiaxi Yang, Yang Zhao(参考訳) 信頼に値する連合学習(fl)の発展に伴い、忘れられる権利を実践する必要性が、連合学習(fu)の領域を生み出している。 FLでは、クライアントが生データを共有せずにグローバルモデルを共同でトレーニングすることで、特定の情報を選択的に学習する作業が大幅に複雑になる。 その意味では、FUの課題に取り組むために多くの努力がなされており、大きな進歩を遂げている。 本稿では,FUに関する総合的な調査を行う。 特に,既存のアルゴリズム,目標,評価指標を提供し,fuの課題を特定する。 いくつかの研究をレビューし比較することにより、様々なスキーム、潜在的な応用、今後の方向性の分類にまとめる。

With the development of trustworthy Federated Learning (FL), the requirement of implementing right to be forgotten gives rise to the area of Federated Unlearning (FU). Comparing to machine unlearning, a major challenge of FU lies in the decentralized and privacy-preserving nature of FL, in which clients jointly train a global model without sharing their raw data, making it substantially more intricate to selectively unlearn specific information. In that regard, many efforts have been made to tackle the challenges of FU and have achieved significant progress. In this paper, we present a comprehensive survey of FU. Specially, we provide the existing algorithms, objectives, evaluation metrics, and identify some challenges of FU. By reviewing and comparing some studies, we summarize them into a taxonomy for various schemes, potential applications and future directions.
翻訳日:2023-11-10 17:22:20 公開日:2023-11-09
# プロトンの絡み合いエントロピーと熱力学エントロピーとの関係

Entanglement entropy of proton and its relation to thermodynamics entropy ( http://arxiv.org/abs/2310.18510v2 )

ライセンス: Link先を確認
Krzysztof Kutak(参考訳) グルーオン系のエンタングルメントエントロピーの公式の熱力学に基づく導出について論じる。 この導出は \cite{kutak:2011rb} に基づいており、そこでは飽和とunruh効果を用いてグルーオンのエントロピーを議論した。 この公式は、高エネルギーの極限において、数値的な係数まで一致し、より最近の結果である \cite{kharzeev:2017qzs} では、密度行列と陽子の二分法に基づく議論を用いて公式を得る。 さらに, 飽和度に基づくアプローチとbfklの二重導対数極限が, エントロピー表現の関数形式に一致する理由について, 進化方程式の性質に基づく議論を行う。

I discuss the thermodynamics-based derivation of the formula for the entanglement entropy of a system of gluons. The derivation is based on \cite{Kutak:2011rb}, where saturation and the Unruh effect were used to obtain and discuss the entropy of gluons. The formula agrees, in the high-energy limit, up to a numerical factor, with more recent results by \cite{Kharzeev:2017qzs}, where arguments based on the density matrix and bipartition of the proton were used to obtain the formula. Furthermore, I present arguments based on the properties of evolution equations as to why the saturation-based approach, as well as the double leading logarithmic limit of BFKL, agree in the functional form of the expression for entanglement entropy.
翻訳日:2023-11-10 17:21:53 公開日:2023-11-09
# 混合前駆体を用いたベイズ予測型共変量調整

Bayesian Prognostic Covariate Adjustment With Additive Mixture Priors ( http://arxiv.org/abs/2310.18027v2 )

ライセンス: Link先を確認
Alyssa M. Vanderbeek and Arman Sabbaghi and Jon R. Walsh and Charles K. Fisher(参考訳) ランダム化対照試験(rcts)による効果的かつ迅速な意思決定には、偏りなく正確な治療効果推論が必要である。 この要求に対処する2つの戦略は、結果と高い相関関係を持つ共変分を調整し、ベイズの定理を通じて歴史的制御情報を活用することである。 我々は,これら2つの戦略を組み合わせた新たなベイズ予測型共変量調整手法であるベイズプロコバを提案する。 ベイジアン ProCOVA における共変量調整は、RCT 参加者のためのデジタルツインジェネレータ (DTG) を構築する生成人工知能 (AI) アルゴリズムに基づいている。 DTGは、履歴制御データに基づいてトレーニングされ、制御処理により各RTT参加者の結果に対してデジタルツイン(DT)確率分布を生成する。 DT分布の予測は、確率的スコアと呼ばれ、調整のための共変量を定義する。 履歴制御情報は、履歴制御データに基づいて指定された情報的事前確率分布と、弱情報的事前確率分布の2つの成分とを予め添加混合して活用される。 混合重みは、下位の推論が情報成分から引き出される程度を、弱い情報成分に対して決定する。 この重量も事前分布を持つため、前の添加剤の混合物はRCT情報を含まない状態で完全に特定可能である。 ベイジアン・プロコバにおいて,後方分布からサンプリングするための効率的なgibbsアルゴリズムを確立し,後平均と治療効果パラメータ条件のばらつきに対する閉形式表現を導出する。 異なる相違性を含むシミュレーション研究において,ベイジアン ProCOVA の効率向上を,そのバイアス制御と分散低減により評価した。 これらの利得はより小さなRDTに変換される。

Effective and rapid decision-making from randomized controlled trials (RCTs) requires unbiased and precise treatment effect inferences. Two strategies to address this requirement are to adjust for covariates that are highly correlated with the outcome, and to leverage historical control information via Bayes' theorem. We propose a new Bayesian prognostic covariate adjustment methodology, referred to as Bayesian PROCOVA, that combines these two strategies. Covariate adjustment in Bayesian PROCOVA is based on generative artificial intelligence (AI) algorithms that construct a digital twin generator (DTG) for RCT participants. The DTG is trained on historical control data and yields a digital twin (DT) probability distribution for each RCT participant's outcome under the control treatment. The expectation of the DT distribution, referred to as the prognostic score, defines the covariate for adjustment. Historical control information is leveraged via an additive mixture prior with two components: an informative prior probability distribution specified based on historical control data, and a weakly informative prior distribution. The mixture weight determines the extent to which posterior inferences are drawn from the informative component, versus the weakly informative component. This weight has a prior distribution as well, and so the entire additive mixture prior is completely pre-specifiable without involving any RCT information. We establish an efficient Gibbs algorithm for sampling from the posterior distribution, and derive closed-form expressions for the posterior mean and variance of the treatment effect parameter conditional on the weight, in Bayesian PROCOVA. We evaluate efficiency gains of Bayesian PROCOVA via its bias control and variance reduction compared to frequentist PROCOVA in simulation studies that encompass different discrepancies. These gains translate to smaller RCTs.
翻訳日:2023-11-10 17:21:29 公開日:2023-11-09
# 量子コンピュータ上の多体問題に対する対称性の破れと修復

Symmetry breaking and restoration for many-body problems treated on quantum computers ( http://arxiv.org/abs/2310.17996v2 )

ライセンス: Link先を確認
Andres Ruiz(参考訳) この論文は、量子コンピュータにおけるシンメトリー・ブレーキング・サイメトリー・リスタレーションの手法を適用し、多体物理学における変分フレームワークにおけるハミルトンの基底状態エネルギーをよりよく近似するものである。 これには、基底状態の変分探索の異なる段階で、波関数 ansatz の対称性を意図的に壊し、復元することが含まれる。 変分量子固有ソルバ(vqe)は、bardeen-cooper-schrieffer(bcs)理論に触発されたアンサッツとともに変分成分として用いられる。 これらの応用はペアリングとハバード・ハミルトン群を用いて実証された。 対称性回復前後の対称性破壊アンサッツパラメータの変化, 変化後の量子投影, 投影後の量子変動の2つの方法がvqe法で同定された。 この論文の主な貢献は、量子位相推定アルゴリズムの原理、量子「オラクル」の概念、古典的な影形式に基づく様々な対称性の復元技術の開発であった。 最終部では、ハミルトニアンの低層スペクトルの近似を抽出するためにハイブリッド量子古典法が導入された。 量子コンピュータを用いて生成関数から正確なハミルトニアンモーメントを抽出することを仮定し、スペクトル解析のための2つの方法、特に生存確率の進化に関する情報を提供するt-expansion法とkrylov法を提案した。 さらに量子クリロフ法(quantum krylov method)が導入され、ハミルトニアンモーメントを見積もる必要なしに同様の洞察を提供した。

This thesis explores the application of the Symmetry-Breaking/Symmetry-Restoration methodology on quantum computers to better approximate a Hamiltonian's ground state energy within a variational framework in many-body physics. This involves intentionally breaking and restoring the symmetries of the wave function ansatz at different stages of the variational search for the ground state. The Variational Quantum Eigensolver (VQE) is utilized for the variational component together with an ansatz inspired by the Bardeen-Cooper-Schrieffer (BCS) theory. The applications were demonstrated using the pairing and Hubbard Hamiltonians. Two approaches were identified with the VQE method: varying the symmetry-breaking ansatz parameters before or after symmetry restoration, termed Quantum Projection After Variation and Quantum Variation After Projection, respectively. The main contribution of this thesis was the development of a variety of symmetry restoration techniques based on the principles of the Quantum Phase Estimation algorithm, the notion of a Quantum "Oracle," and the Classical Shadow formalism. In the final part, hybrid quantum-classical techniques were introduced to extract an approximation of the low-lying spectrum of a Hamiltonian. Assuming accurate Hamiltonian moment extraction from their generating function with a quantum computer, two methods were presented for spectral analysis: the t-expansion method and the Krylov method, which provides, in particular, information about the evolution of the survival probability. Furthermore, the Quantum Krylov method was introduced, offering similar insights without the need to estimate Hamiltonian moments, a task that can be difficult on near-term quantum computers.
翻訳日:2023-11-10 17:20:39 公開日:2023-11-09
# 都市プランナーとしてのAIエージェント: 合意に基づくマルチエージェント強化学習による都市計画におけるステアリングステークホルダダイナミクス

AI Agent as Urban Planner: Steering Stakeholder Dynamics in Urban Planning via Consensus-based Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2310.16772v2 )

ライセンス: Link先を確認
Kejiang Qian, Lingjun Mao, Xin Liang, Yimin Ding, Jin Gao, Xinran Wei, Ziyi Guo, Jiajie Li(参考訳) 都市計画において、土地利用調整は、土地利用構成と持続可能な都市開発への現在の要求を整合させる上で重要な役割を担っている。 しかし、現在の都市計画の実践は2つの大きな問題に直面している。 まず、土地利用の決定は、主に人間の専門家に依存している。 また、都市計画への住民参加は、都市の持続可能性と居住性を促進することができるが、利害関係者の多様な利益を和解させることは困難である。 これらの課題に対処するために,実世界の土地利用再調整のためのコンセンサスに基づくマルチエージェント強化学習フレームワークを提案する。 この枠組みは参加型都市計画に役立ち、利害関係者として多様な知的エージェントが望ましい土地利用タイプに投票できる。 本枠組みでは,集団意思決定による土地利用の最適化を目的とした報酬設計における新たなコンセンサス機構を提案する。 複雑な都市システムの構造を抽象化するために、都市の地理情報は空間グラフ構造に変換され、グラフニューラルネットワークによって処理される。 従来のトップダウン計画と実世界のコミュニティによる参加型計画方法の両方に関する包括的な実験は、我々の計算フレームワークがグローバルな利益を高め、様々な関心事に対応し、異なる人口層間での満足度の向上をもたらすことを示している。 マルチエージェント強化学習を統合することで、参加型都市計画決定がよりダイナミックで、コミュニティのニーズに適応し、複雑な都市計画プロセスを自動化する堅牢なプラットフォームを提供する。

In urban planning, land use readjustment plays a pivotal role in aligning land use configurations with the current demands for sustainable urban development. However, present-day urban planning practices face two main issues. Firstly, land use decisions are predominantly dependent on human experts. Besides, while resident engagement in urban planning can promote urban sustainability and livability, it is challenging to reconcile the diverse interests of stakeholders. To address these challenges, we introduce a Consensus-based Multi-Agent Reinforcement Learning framework for real-world land use readjustment. This framework serves participatory urban planning, allowing diverse intelligent agents as stakeholder representatives to vote for preferred land use types. Within this framework, we propose a novel consensus mechanism in reward design to optimize land utilization through collective decision making. To abstract the structure of the complex urban system, the geographic information of cities is transformed into a spatial graph structure and then processed by graph neural networks. Comprehensive experiments on both traditional top-down planning and participatory planning methods from real-world communities indicate that our computational framework enhances global benefits and accommodates diverse interests, leading to improved satisfaction across different demographic groups. By integrating Multi-Agent Reinforcement Learning, our framework ensures that participatory urban planning decisions are more dynamic and adaptive to evolving community needs and provides a robust platform for automating complex real-world urban planning processes.
翻訳日:2023-11-10 17:19:52 公開日:2023-11-09
# 自己監督型コントラスト学習によるMRI超解像

Unpaired MRI Super Resolution with Self-Supervised Contrastive Learning ( http://arxiv.org/abs/2310.15767v2 )

ライセンス: Link先を確認
Hao Li, Quanwei Liu, Jianan Liu, Xiling Liu, Yanni Dong, Tao Huang, Zhihan Lv(参考訳) 高分解能mri(high- resolution (hr) magnetic resonance imaging, mri)は臨床における診断精度を高めるために重要である。 それでも、MRIの解像度に固有の制限が適用範囲を制限している。 深層学習に基づく画像超解像(SR)法は、追加コストなしでMRIの解像度を改善することを約束する。 しかし、これらの手法はトレーニングのために相当数のHR MRI画像を必要とすることが多く、取得は困難である。 本稿では、自己教師付きコントラスト学習を用いて、限られたトレーニングデータを用いてSR性能を向上させる未ペアMRI SRアプローチを提案する。 提案手法は,正および負のサンプル対を構築するために,正のHR画像と合成SR画像の両方を活用し,識別的特徴の学習を容易にする。 本研究で得られた実験結果は,hr画像のpaucityが利用可能であっても,ピーク信号対雑音比と構造類似度指数が著しく向上することを示す。 本研究は, 臨床応用における高分解能MRIの進歩に寄与し, 限られたトレーニングデータの課題に対処するためのアプローチの可能性を示すものである。

High-resolution (HR) magnetic resonance imaging (MRI) is crucial for enhancing diagnostic accuracy in clinical settings. Nonetheless, the inherent limitation of MRI resolution restricts its widespread applicability. Deep learning-based image super-resolution (SR) methods exhibit promise in improving MRI resolution without additional cost. However, these methods frequently require a substantial number of HR MRI images for training, which can be challenging to acquire. In this paper, we propose an unpaired MRI SR approach that employs self-supervised contrastive learning to enhance SR performance with limited training data. Our approach leverages both authentic HR images and synthetically generated SR images to construct positive and negative sample pairs, thus facilitating the learning of discriminative features. Empirical results presented in this study underscore significant enhancements in the peak signal-to-noise ratio and structural similarity index, even when a paucity of HR images is available. These findings accentuate the potential of our approach in addressing the challenge of limited training data, thereby contributing to the advancement of high-resolution MRI in clinical applications.
翻訳日:2023-11-10 17:19:18 公開日:2023-11-09
# 脳エンコーディングのためのタスク固有言語モデルのアンサンブル

Ensemble of Task-Specific Language Models for Brain Encoding ( http://arxiv.org/abs/2310.15720v2 )

ライセンス: Link先を確認
Arvindh Arun, Jerrin John, Sanjai Kumaran(参考訳) 言語モデルは、脳内の特定の関心領域のfMRIアクティベーションをエンコードするのに十分なほど豊富であることが示されている。 従来の研究は、脳の反応を予測するために人気のある自然言語処理タスクで学んだ表現から伝達学習を探索してきた。 本研究では,10言語モデル(構文2と意味8)からアンサンブルモデルを作成することにより,エンコーダの性能を向上させる。 アンサンブルメソッドを通じて、すべてのROIで、現在のベースラインを平均10%上回りました。

Language models have been shown to be rich enough to encode fMRI activations of certain Regions of Interest in our Brains. Previous works have explored transfer learning from representations learned for popular natural language processing tasks for predicting brain responses. In our work, we improve the performance of such encoders by creating an ensemble model out of 10 popular Language Models (2 syntactic and 8 semantic). We beat the current baselines by 10% on average across all ROIs through our ensembling methods.
翻訳日:2023-11-10 17:18:52 公開日:2023-11-09
# 身元確認課題における視聴覚融合アーキテクチャの挙動について

On the Behavior of Audio-Visual Fusion Architectures in Identity Verification Tasks ( http://arxiv.org/abs/2311.05071v1 )

ライセンス: Link先を確認
Daniel Claborne, Eric Slyman, Karl Pazdernik(参考訳) 同一性検証アーキテクチャをトレーニングし、比較対象の2つの例のいずれかに1つの入力が欠落しているシナリオを含む、音声と視覚表現を組み合わせたモデルの一部の変更を評価する。 出力埋め込みの平均化を示唆するVoxceleb1-Eテストセットの結果は、完全なモダリティ設定と単一モダリティの欠如によるエラー率の向上を示唆し、共有層を用いたシステムよりも組込みスペースの完全活用を図り、この動作の可能性を議論する。

We train an identity verification architecture and evaluate modifications to the part of the model that combines audio and visual representations, including in scenarios where one input is missing in either of two examples to be compared. We report results on the Voxceleb1-E test set that suggest averaging the output embeddings improves error rate in the full-modality setting and when a single modality is missing, and makes more complete use of the embedding space than systems which use shared layers and discuss possible reasons for this behavior.
翻訳日:2023-11-10 16:47:24 公開日:2023-11-09
# 信号時相論理誘導型認証学習

Signal Temporal Logic-Guided Apprenticeship Learning ( http://arxiv.org/abs/2311.05084v1 )

ライセンス: Link先を確認
Aniruddh G. Puranic, Jyotirmoy V. Deshmukh and Stefanos Nikolaidis(参考訳) 応募資格の学習は、効果的に報酬を学習することに依存しており、それによってユーザのデモンストレーションからポリシーを制御する。 特に難しいのは、望ましいタスクが時間依存の多くのサブゴールで構成される設定である。 予想される報酬の質とそれゆえ政策は、通常、デモの質によって制限され、これらの推測の不十分さは望ましくない結果につながる可能性がある。 本稿では,高レベルな課題目標を記述した時間論理仕様をグラフにエンコードして,実証者や学習者エージェントの行動に起因した時間的基準を定義し,評価された報酬やポリシーの質を向上させる方法を示す。 ロボットマニピュレータの多種多様なシミュレーション実験を通じて,制御方針の学習に必要なデモ数を大幅に改善し,先行文献の欠点を克服する手法を示す。

Apprenticeship learning crucially depends on effectively learning rewards, and hence control policies from user demonstrations. Of particular difficulty is the setting where the desired task consists of a number of sub-goals with temporal dependencies. The quality of inferred rewards and hence policies are typically limited by the quality of demonstrations, and poor inference of these can lead to undesirable outcomes. In this letter, we show how temporal logic specifications that describe high level task objectives, are encoded in a graph to define a temporal-based metric that reasons about behaviors of demonstrators and the learner agent to improve the quality of inferred rewards and policies. Through experiments on a diverse set of robot manipulator simulations, we show how our framework overcomes the drawbacks of prior literature by drastically improving the number of demonstrations required to learn a control policy.
翻訳日:2023-11-10 16:34:01 公開日:2023-11-09
# 極端多ラベル分類におけるロングテール性能のための一般化テストユーティリティ

Generalized test utilities for long-tail performance in extreme multi-label classification ( http://arxiv.org/abs/2311.05081v1 )

ライセンス: Link先を確認
Erik Schultheis, Marek Wydmuch, Wojciech Kot{\l}owski, Rohit Babbar, Krzysztof Dembczy\'nski(参考訳) Extreme Multi-label classification (XMLC)は、非常に大きなラベルセットから関連するラベルの小さなサブセットを選択するタスクである。 そのため、長い尾のラベルが特徴であり、ほとんどのラベルには正の例がほとんどない。 precision@kのような標準的なパフォーマンス対策では、分類器はテールラベルを無視し、良いパフォーマンスを報告できる。 しかし、尾部の正確な予測はより面白く、あるいは報われているとしばしば主張されるが、コミュニティはまだこの直感的な概念を捉える指標に決着をつけていない。 既存の適合度スコア付きメトリクスは、長いラベルと欠落ラベルの問題を埋め合わせることで、この目標を達成できない。 本稿では,代替手法として「at k」を予算とした一般化メトリクスを解析する。 これらのメトリクスを最適化する難しい問題に対処するため、固定されたテストセット上での期待性能の最適化を目的とした、期待テストユーティリティ(ETU)フレームワークでこれを定式化する。 最適予測規則を導出し,モデルの誤特定に対する証明可能な後悔保証と頑健性を備えた計算効率のよい近似を構築する。 ブロック座標の昇華に基づくアルゴリズムは、XMLC問題に懸命にスケールし、ロングテール性能の観点から有望な結果を得る。

Extreme multi-label classification (XMLC) is the task of selecting a small subset of relevant labels from a very large set of possible labels. As such, it is characterized by long-tail labels, i.e., most labels have very few positive instances. With standard performance measures such as precision@k, a classifier can ignore tail labels and still report good performance. However, it is often argued that correct predictions in the tail are more interesting or rewarding, but the community has not yet settled on a metric capturing this intuitive concept. The existing propensity-scored metrics fall short on this goal by confounding the problems of long-tail and missing labels. In this paper, we analyze generalized metrics budgeted "at k" as an alternative solution. To tackle the challenging problem of optimizing these metrics, we formulate it in the expected test utility (ETU) framework, which aims at optimizing the expected performance on a fixed test set. We derive optimal prediction rules and construct computationally efficient approximations with provable regret guarantees and robustness against model misspecification. Our algorithm, based on block coordinate ascent, scales effortlessly to XMLC problems and obtains promising results in terms of long-tail performance.
翻訳日:2023-11-10 16:33:45 公開日:2023-11-09
# dropout-ganを用いたソーシャルメディアボット検出

Social Media Bot Detection using Dropout-GAN ( http://arxiv.org/abs/2311.05079v1 )

ライセンス: Link先を確認
Anant Shukla and Martin Jurecek and Mark Stamp(参考訳) ソーシャルメディアプラットフォーム上でのボットの活動は広範な問題であり、オンライン会話の信頼性を損なうとともに、サイバー犯罪につながる可能性がある。 本稿では,GAN(Generative Adversarial Networks)を用いたボット検出手法を提案する。 本稿では,複数の識別器を用いて1つの生成器に対して訓練を行い,識別器を分離してソーシャルメディアボット検出を行い,データ拡張にジェネレータを活用することで,モード崩壊の問題を克服する方法について議論する。 分類精度の面では,この分野の最先端技術に勝るアプローチである。 また、GANのジェネレータがこのような分類手法を避けるためにどのように使用できるかを示す。

Bot activity on social media platforms is a pervasive problem, undermining the credibility of online discourse and potentially leading to cybercrime. We propose an approach to bot detection using Generative Adversarial Networks (GAN). We discuss how we overcome the issue of mode collapse by utilizing multiple discriminators to train against one generator, while decoupling the discriminator to perform social media bot detection and utilizing the generator for data augmentation. In terms of classification accuracy, our approach outperforms the state-of-the-art techniques in this field. We also show how the generator in the GAN can be used to evade such a classification technique.
翻訳日:2023-11-10 16:33:24 公開日:2023-11-09
# POISE:隠蔽下でのヒトシルエット抽出法

POISE: Pose Guided Human Silhouette Extraction under Occlusions ( http://arxiv.org/abs/2311.05077v1 )

ライセンス: Link先を確認
Arindam Dutta, Rohit Lal, Dripta S. Raychaudhuri, Calvin Khang Ta, Amit K. Roy-Chowdhury(参考訳) 人間のシルエット抽出は、様々な下流タスクで応用されるコンピュータビジョンの基本的なタスクである。 しかし、オクルージョンは大きな課題となり、不完全で歪んだシルエットへと繋がる。 この課題に対処するために、人間のシルエット予測の精度と堅牢性を高める新しい自己監督型融合フレームワークであるOcclusionsによるPose Guided Human Silhouette extractを導入する。 セグメンテーションモデルからの最初のシルエット推定と2次元ポーズ推定モデルからの人間の関節予測を組み合わせることで、POISEは両方のアプローチの相補的な強度を活用し、正確な体形情報と空間情報を効果的に統合してオクルージョンに取り組む。 さらに、POISEの自己管理的な性質は、コストのかかるアノテーションの必要性を排除し、スケーラブルで実用的なものになります。 広汎な実験結果は,閉塞下でのシルエット抽出の改善に優れ,歩行認識などの下流タスクにおいて有望な結果が得られた。 私たちのメソッドのコードはhttps://github.com/take2rohit/poise.comで利用可能です。

Human silhouette extraction is a fundamental task in computer vision with applications in various downstream tasks. However, occlusions pose a significant challenge, leading to incomplete and distorted silhouettes. To address this challenge, we introduce POISE: Pose Guided Human Silhouette Extraction under Occlusions, a novel self-supervised fusion framework that enhances accuracy and robustness in human silhouette prediction. By combining initial silhouette estimates from a segmentation model with human joint predictions from a 2D pose estimation model, POISE leverages the complementary strengths of both approaches, effectively integrating precise body shape information and spatial information to tackle occlusions. Furthermore, the self-supervised nature of \POISE eliminates the need for costly annotations, making it scalable and practical. Extensive experimental results demonstrate its superiority in improving silhouette extraction under occlusions, with promising results in downstream tasks such as gait recognition. The code for our method is available https://github.com/take2rohit/poise.
翻訳日:2023-11-10 16:33:14 公開日:2023-11-09
# デジタル時代のメンタルヘルス診断:超スパース特徴量に基づくソーシャルメディアプラットフォームにおける感情分析

Mental Health Diagnosis in the Digital Age: Harnessing Sentiment Analysis on Social Media Platforms upon Ultra-Sparse Feature Content ( http://arxiv.org/abs/2311.05075v1 )

ライセンス: Link先を確認
Haijian Shao, Ming Zhu, Shengjie Zhai(参考訳) グローバルなメンタルヘルスの懸念が高まり、特に脆弱なグループの間では、自然言語処理は、ソーシャルメディアプラットフォーム上での投稿や議論の分析を通じて、人々の精神障害を早期に検出し、介入する大きな可能性を秘めている。 しかし、膨大な語彙と低周波の単語が原因で、非常にスパースな訓練データが分析精度を妨げている。 症状のマルチラベルと共著もまた、類似/共関連障害の区別の境界を曖昧にする可能性がある。 これらの課題に対処するために,3次元構造を持つ新しい意味的特徴前処理手法を提案する。 1)弱い分類器で特徴スパーシティを緩和する。 2)モジュラスループを用いた適応的特徴次元 3) コンテキスト間の深いマイニングと拡張機能。 強化されたセマンティック機能により、精神障害を予測および分類するために機械学習モデルを訓練する。 Reddit Mental Health Dataset 2022を用いて、不安、ボーダーラインパーソナリティ障害(BPD)、双極性障害(BD)などの症状を調べ、99.81%の非ゼロ要素が強調したデータ空間の課題に対する解決策を示す。 プリプロセッシング技術を適用した後、特徴空間は85.4%に減少する。 本手法は,7つのベンチマークモデルと比較して,精度8.0%,精度0.069,リコール0.093,F1スコア0.102,AUC0.059の大幅な性能向上を示した。 本研究は、メンタルヘルス予測とモニタリングの基礎的な洞察を提供し、超スパースデータ機能に関連する課題をナビゲートするための革新的なソリューションを提供し、メンタルヘルス分析の領域における複雑なマルチラベル分類を提供する。

Amid growing global mental health concerns, particularly among vulnerable groups, natural language processing offers a tremendous potential for early detection and intervention of people's mental disorders via analyzing their postings and discussions on social media platforms. However, ultra-sparse training data, often due to vast vocabularies and low-frequency words, hinders the analysis accuracy. Multi-labeling and Co-occurrences of symptoms may also blur the boundaries in distinguishing similar/co-related disorders. To address these issues, we propose a novel semantic feature preprocessing technique with a three-folded structure: 1) mitigating the feature sparsity with a weak classifier, 2) adaptive feature dimension with modulus loops, and 3) deep-mining and extending features among the contexts. With enhanced semantic features, we train a machine learning model to predict and classify mental disorders. We utilize the Reddit Mental Health Dataset 2022 to examine conditions such as Anxiety, Borderline Personality Disorder (BPD), and Bipolar-Disorder (BD) and present solutions to the data sparsity challenge, highlighted by 99.81% non-zero elements. After applying our preprocessing technique, the feature sparsity decreases to 85.4%. Overall, our methods, when compared to seven benchmark models, demonstrate significant performance improvements: 8.0% in accuracy, 0.069 in precision, 0.093 in recall, 0.102 in F1 score, and 0.059 in AUC. This research provides foundational insights for mental health prediction and monitoring, providing innovative solutions to navigate challenges associated with ultra-sparse data feature and intricate multi-label classification in the domain of mental health analysis.
翻訳日:2023-11-10 16:32:55 公開日:2023-11-09
# 異種ラタグループ間の(離散的な)認識を評価する枠組み

A Framework to Assess (Dis)agreement Among Diverse Rater Groups ( http://arxiv.org/abs/2311.05074v1 )

ライセンス: Link先を確認
Vinodkumar Prabhakaran, Christopher Homan, Lora Aroyo, Alicia Parrish, Alex Taylor, Mark D\'iaz, Ding Wang(参考訳) 会話型AIの最近の進歩は、ユーザーが攻撃的で危険なコンテンツに晒されることを防ぐための、緊急の安全ガードレールの必要性を生み出している。 この研究の多くは人間の格付けとフィードバックに依存しているが、犯罪と安全の認識は本質的に主観的であり、社会デミックのアイデンティティに合致する格付け者の間に系統的な不一致があるという事実は考慮されていない。 代わりに、現在の機械学習のアプローチは、レートの主観性をほとんど無視し、不一致(多数決など)を曖昧にするゴールド標準を使用する。 これらの課題の社会的文化的傾向をよりよく理解するために,異なるレートラー群間の視点における系統的多様性を測定するための包括的不一致分析フレームワークを提案する。 次に、人口統計学的に多様なラッカーのプールによって評価された人間とチャットボットの会話のデータセットにこのフレームワークを適用することで、その実用性を実証する。 本研究は,他よりも多様な視点を持つ特定のパーサー群を明らかにし,安全アノテーションを考慮すべき要因を人口統計学的軸に知らせる。

Recent advancements in conversational AI have created an urgent need for safety guardrails that prevent users from being exposed to offensive and dangerous content. Much of this work relies on human ratings and feedback, but does not account for the fact that perceptions of offense and safety are inherently subjective and that there may be systematic disagreements between raters that align with their socio-demographic identities. Instead, current machine learning approaches largely ignore rater subjectivity and use gold standards that obscure disagreements (e.g., through majority voting). In order to better understand the socio-cultural leanings of such tasks, we propose a comprehensive disagreement analysis framework to measure systematic diversity in perspectives among different rater subgroups. We then demonstrate its utility by applying this framework to a dataset of human-chatbot conversations rated by a demographically diverse pool of raters. Our analysis reveals specific rater groups that have more diverse perspectives than the rest, and informs demographic axes that are crucial to consider for safety annotations.
翻訳日:2023-11-10 16:32:26 公開日:2023-11-09
# ラベルなし事前データによる探索の加速

Accelerating Exploration with Unlabeled Prior Data ( http://arxiv.org/abs/2311.05067v1 )

ライセンス: Link先を確認
Qiyang Li, Jason Zhang, Dibya Ghosh, Amy Zhang, Sergey Levine(参考訳) スパース報酬信号からタスクを学習することは、標準強化学習(RL)アルゴリズムの大きな課題である。 しかし、現実の世界では、エージェントがスクラッチからスパース報酬のタスクを完全に解決する必要はない。 より頻繁に、私たちは、世界においてどのようなアクションと成果が可能かに関する十分なガイダンスを提供するための事前の経験を持ち、新しいタスクをより効果的に探索するために使用できるかもしれません。 本研究では,報酬ラベルのない先行データを用いて,新たなスパース報酬課題を解決するエージェントの探索を指導し,促進する方法について検討する。 我々は,オンライン経験から報奨モデルを学び,ラベルのない先行データを楽観的な報奨でラベル付けし,それと同時に下流政策や批判的最適化のためのオンラインデータを使用するシンプルなアプローチを提案する。 この一般的な公式は、antmazeドメイン、adroitハンド操作ドメイン、視覚シミュレーションロボット操作ドメインなど、tabula rasa探索が不十分ないくつかの難解なスパースワードドメインでの迅速な探索に繋がる。 その結果、既存のオンラインRLアルゴリズムにラベルのない事前データを組み込むことの容易さと、それを実現するための(意外な)有効性を強調した。

Learning to solve tasks from a sparse reward signal is a major challenge for standard reinforcement learning (RL) algorithms. However, in the real world, agents rarely need to solve sparse reward tasks entirely from scratch. More often, we might possess prior experience to draw on that provides considerable guidance about which actions and outcomes are possible in the world, which we can use to explore more effectively for new tasks. In this work, we study how prior data without reward labels may be used to guide and accelerate exploration for an agent solving a new sparse reward task. We propose a simple approach that learns a reward model from online experience, labels the unlabeled prior data with optimistic rewards, and then uses it concurrently alongside the online data for downstream policy and critic optimization. This general formula leads to rapid exploration in several challenging sparse-reward domains where tabula rasa exploration is insufficient, including the AntMaze domain, Adroit hand manipulation domain, and a visual simulated robotic manipulation domain. Our results highlight the ease of incorporating unlabeled prior data into existing online RL algorithms, and the (perhaps surprising) effectiveness of doing so.
翻訳日:2023-11-10 16:32:06 公開日:2023-11-09
# ScribblePolyp: デュアル一貫性アライメントによるスクリブルスーパービジョンポリプセグメンテーション

ScribblePolyp: Scribble-Supervised Polyp Segmentation through Dual Consistency Alignment ( http://arxiv.org/abs/2311.05122v1 )

ライセンス: Link先を確認
Zixun Zhang, Yuncheng Jiang, Jun Wei, Hannah Cui, Zhen Li(参考訳) 自動ポリープセグメンテーションモデルは消化管疾患の診断において重要な役割を担っている。 これまでの研究では、ほとんどのメソッドは完全な教師付きアプローチに依存しており、モデルのトレーニングにはピクセルレベルのアノテーションを必要としていた。 しかし、ピクセルレベルのアノテーションの作成は高価かつ時間を要するため、モデル一般化の発展を妨げる。 この課題に対応するために,新しいスクリブル制御ポリプセグメンテーションフレームワークであるScribblePolypを紹介した。 完全な教師付きモデルとは異なり、scribblepolypは各画像に対して2行の注釈(クリブルラベル)しか必要とせず、ラベリングコストを大幅に削減する。 画素のかなりの部分がラベル付けされていないスクリブルラベルの粗い性質にもかかわらず、これらのラベル付けされていないピクセルを監督するための2分岐整合性アライメント手法を提案する。 第1分枝は、同じ入力画像の異なる変換の下での予測の間のギャップを狭めるために変換整合性を用いる。 第2分枝は親和性伝播を利用して予測をソフトバージョンに洗練し、ラベルなしピクセルへの追加の監督を延長する。 要約すると、scribblepolypは教師モデルやトレーニング中の平均的な擬似ラベルに依存しない効率的なモデルである。 SUN-SEGデータセットの大規模な実験は、ScribblePolypの有効性を立証し、Diceスコアが0.8155、Diceスコアが1.8%改善される可能性を示した。

Automatic polyp segmentation models play a pivotal role in the clinical diagnosis of gastrointestinal diseases. In previous studies, most methods relied on fully supervised approaches, necessitating pixel-level annotations for model training. However, the creation of pixel-level annotations is both expensive and time-consuming, impeding the development of model generalization. In response to this challenge, we introduce ScribblePolyp, a novel scribble-supervised polyp segmentation framework. Unlike fully-supervised models, ScribblePolyp only requires the annotation of two lines (scribble labels) for each image, significantly reducing the labeling cost. Despite the coarse nature of scribble labels, which leave a substantial portion of pixels unlabeled, we propose a two-branch consistency alignment approach to provide supervision for these unlabeled pixels. The first branch employs transformation consistency alignment to narrow the gap between predictions under different transformations of the same input image. The second branch leverages affinity propagation to refine predictions into a soft version, extending additional supervision to unlabeled pixels. In summary, ScribblePolyp is an efficient model that does not rely on teacher models or moving average pseudo labels during training. Extensive experiments on the SUN-SEG dataset underscore the effectiveness of ScribblePolyp, achieving a Dice score of 0.8155, with the potential for a 1.8% improvement in the Dice score through a straightforward self-training strategy.
翻訳日:2023-11-10 16:21:56 公開日:2023-11-09
# Quranic Conversations:アラビアNLP技術を用いたQuranのためのセマンティック検索ツールの開発

Quranic Conversations: Developing a Semantic Search tool for the Quran using Arabic NLP Techniques ( http://arxiv.org/abs/2311.05120v1 )

ライセンス: Link先を確認
Yasser Shohoud, Maged Shoman, Sarah Abdelazim(参考訳) コーランの聖典は、約23年間にわたって預言者ムハンマド(英語版)(pbuh)に明かされた神(アッラー)の文字通りの言葉であると信じられている。 神が、誠実さ、慈悲、慈善、正義といった原則を強調するとともに、個人的行為、家族的問題、ビジネス倫理などの規則を神に課す本である。 しかし、言語とクルアーンの組織に関する制約により、ムスリムが関心事や調査に関連するすべてのアヤ(詩)を入手することは困難である。 そこで我々は,ユーザの質問やプロンプトに関連する句を検索するQuranセマンティック検索ツールを開発した。 これを達成するために、30以上のtafsirの大きなデータセット上で複数のモデルをトレーニングしました。ここでは、典型的には、各tafsirは、クルアーンの1つの詩に対応し、コサインの類似性を用いて、関心のテンソルに最も近いtafsirテンソルを取得しました。 snxlmモデルを用いて,abdu tafsirに対応する0.97までのコサイン類似度スコアを,金融問題に関する詩として達成することができた。

The Holy Book of Quran is believed to be the literal word of God (Allah) as revealed to the Prophet Muhammad (PBUH) over a period of approximately 23 years. It is the book where God provides guidance on how to live a righteous and just life, emphasizing principles like honesty, compassion, charity and justice, as well as providing rules for personal conduct, family matters, business ethics and much more. However, due to constraints related to the language and the Quran organization, it is challenging for Muslims to get all relevant ayahs (verses) pertaining to a matter or inquiry of interest. Hence, we developed a Quran semantic search tool which finds the verses pertaining to the user inquiry or prompt. To achieve this, we trained several models on a large dataset of over 30 tafsirs, where typically each tafsir corresponds to one verse in the Quran and, using cosine similarity, obtained the tafsir tensor which is most similar to the prompt tensor of interest, which was then used to index for the corresponding ayah in the Quran. Using the SNxLM model, we were able to achieve a cosine similarity score as high as 0.97 which corresponds to the abdu tafsir for a verse relating to financial matters.
翻訳日:2023-11-10 16:21:29 公開日:2023-11-09
# 合成データと事前学習多言語エンコーダを用いた教師なし翻訳品質推定

Unsupervised Translation Quality Estimation Exploiting Synthetic Data and Pre-trained Multilingual Encoder ( http://arxiv.org/abs/2311.05117v1 )

ライセンス: Link先を確認
Yuto Kuroda, Atsushi Fujita, Tomoyuki Kajiwara, Takashi Ninomiya(参考訳) 翻訳品質推定(TQE)は、参照翻訳なしで翻訳品質を予測するタスクである。 TQEのトレーニングデータを作成するのに膨大なコストがかかるため、教師付きトレーニングの恩恵を受けるのは、わずかな翻訳方向のみである。 この問題に対処するため、教師なしのTQE手法が研究されている。 本稿では,教師なし文レベルtqeにおける合成tqeデータと事前学習された多言語エンコーダの有用性について詳細に検討した。 WMT20 と WMT21 のデータセットを用いた実験により,この手法は,高次・低次翻訳方向の教師なしTQE 手法よりも,後編集作業と人的評価スコアの予測,および後編集作業の予測におけるゼロリソース翻訳方向の予測に勝ることがわかった。

Translation quality estimation (TQE) is the task of predicting translation quality without reference translations. Due to the enormous cost of creating training data for TQE, only a few translation directions can benefit from supervised training. To address this issue, unsupervised TQE methods have been studied. In this paper, we extensively investigate the usefulness of synthetic TQE data and pre-trained multilingual encoders in unsupervised sentence-level TQE, both of which have been proven effective in the supervised training scenarios. Our experiment on WMT20 and WMT21 datasets revealed that this approach can outperform other unsupervised TQE methods on high- and low-resource translation directions in predicting post-editing effort and human evaluation score, and some zero-resource translation directions in predicting post-editing effort.
翻訳日:2023-11-10 16:21:02 公開日:2023-11-09
# 実代数多様体の被覆数:改良された境界と応用

Covering Number of Real Algebraic Varieties: Improved Bound and Applications ( http://arxiv.org/abs/2311.05116v1 )

ライセンス: Link先を確認
Yifan Zhang, Joe Kileel(参考訳) 実代数多様体の被覆数、多項式写像の像、半代数集合の上界を証明する。 境界はヨムディン・コンテの最もよく知られた境界を著しく改善し、その証明ははるかに単純である。 その結果,実多様体の管状近傍の体積を限定し,lotz と basu-lerario による結果を改善した。 この理論を3つの主要なアプリケーションドメインに適用します。 まず、低ランクCPテンソルの被覆数に準最適境界を導出する。 次に,(一般)多項式最適化問題に対するスケッチ次元の境界を証明した。 最後に,本論文の最もよく知られた結果に合理性あるいはreluアクティベーションを用いたディープニューラルネットワークの一般化誤差境界を推定する。

We prove an upper bound on the covering number of real algebraic varieties, images of polynomial maps and semialgebraic sets. The bound remarkably improves the best known bound by Yomdin-Comte, and its proof is much more straightforward. As a consequence, our result gives a bound on volume of the tubular neighborhood of a real variety, improving the results by Lotz and Basu-Lerario. We apply our theory to three main application domains. Firstly, we derive a near-optimal bound on the covering number of low rank CP tensors. Secondly, we prove a bound on the sketching dimension for (general) polynomial optimization problems. Lastly, we deduce generalization error bounds for deep neural networks with rational or ReLU activations, improving or matching the best known results in the literature.
翻訳日:2023-11-10 16:20:45 公開日:2023-11-09
# Conic10K: 数学問題理解と推論データセット

Conic10K: A Challenging Math Problem Understanding and Reasoning Dataset ( http://arxiv.org/abs/2311.05113v1 )

ライセンス: Link先を確認
Haoyi Wu, Wenyang Hui, Yezeng Chen, Weiqi Wu, Kewei Tu, Yi Zhou(参考訳) 数学的理解と推論は、人工知能(AI)の能力を評価する上で重要なタスクである。 しかし、既存のベンチマークでは、推論のほんの数ステップを必要とするか、特定のトピックに少量のデータしか含まないため、特定のトピック内のさまざまな問題を参照してAIの振る舞いを分析するのは難しい。 そこで本研究では,中国の高等学校におけるconicセクションにおける計算問題データセットconic10kを提案する。 我々のデータセットは、様々な推論深度を持つ様々な問題を含むが、円錐部分からの知識は必要である。 データセットは限られた範囲の知識しか含まないため、モデルが持つ知識と推論能力とを別々に分析することは容易である。 各問題に対して、私たちは高品質な形式表現、推論ステップ、最終的なソリューションを提供します。 GPT-4を含む既存の大規模言語モデルは複雑な推論において弱い性能を示す。 私たちの発見が、より高度な自然言語理解と推論のテクニックを刺激することを期待しています。 データセットとコードはhttps://github.com/whyNLP/Conic10Kで公開されています。

Mathematical understanding and reasoning are crucial tasks for assessing the capabilities of artificial intelligence (AI). However, existing benchmarks either require just a few steps of reasoning, or only contain a small amount of data in one specific topic, making it hard to analyse AI's behaviour with reference to different problems within a specific topic in detail. In this work, we propose Conic10K, a challenging math problem dataset on conic sections in Chinese senior high school education. Our dataset contains various problems with different reasoning depths, while only the knowledge from conic sections is required. Since the dataset only involves a narrow range of knowledge, it is easy to separately analyse the knowledge a model possesses and the reasoning ability it has. For each problem, we provide a high-quality formal representation, the reasoning steps, and the final solution. Experiments show that existing large language models, including GPT-4, exhibit weak performance on complex reasoning. We hope that our findings could inspire more advanced techniques for precise natural language understanding and reasoning. Our dataset and codes are available at https://github.com/whyNLP/Conic10K.
翻訳日:2023-11-10 16:20:32 公開日:2023-11-09
# 医学における大規模言語モデルに関する調査 : 進歩、応用、挑戦

A Survey of Large Language Models in Medicine: Progress, Application, and Challenge ( http://arxiv.org/abs/2311.05112v1 )

ライセンス: Link先を確認
Hongjian Zhou, Boyang Gu, Xinyu Zou, Yiru Li, Sam S. Chen, Peilin Zhou, Junling Liu, Yining Hua, Chengfeng Mao, Xian Wu, Zheng Li, Fenglin Liu(参考訳) ChatGPTのような大規模言語モデル(LLM)は、人間の言語理解と生成能力によって大きな注目を集めている。 したがって、医療におけるLLMの応用は、人工知能と臨床医学の両方において有望な研究方向として、医師や患者医療を支援するために現れる。 この目的のために、この調査は医学におけるllmが直面する現在の進歩、応用、課題の概要を提供する。 具体的には,以下の問題に対処することを目的とする。 1) LLMとは何で, 医療用 LLM はどのように構築できるのか? 2)医療用llmのダウンストリームパフォーマンスはどのようなものか? 3) 医療用llmは現実世界の診療にどのように活用できるのか? 4) 医療用LSMの使用による課題は何か。 5)医療用LLMの構築と活用について その結果,本調査は医学におけるLLMの機会と課題に関する知見を提供し,実用的で効果的なLLMを構築するための貴重な資源となることを目的としている。 医療用LCMの実践的ガイドリソースの定期的に更新されたリストは、https://github.com/AI-in-Health/MedLLMsPracticalGuideにある。

Large language models (LLMs), such as ChatGPT, have achieved substantial attention due to their impressive human language understanding and generation capabilities. Therefore, the application of LLMs in medicine to assist physicians and patient care emerges as a promising research direction in both artificial intelligence and clinical medicine. To this end, this survey provides a comprehensive overview of the current progress, applications, and challenges faced by LLMs in medicine. Specifically, we aim to address the following questions: 1) What are LLMs and how can medical LLMs be built? 2) What are the downstream performances of medical LLMs? 3) How can medical LLMs be utilized in real-world clinical practice? 4) What challenges arise from the use of medical LLMs? 5) How can we better construct and utilize medical LLMs? As a result, this survey aims to provide insights into the opportunities and challenges of LLMs in medicine and serve as a valuable resource for constructing practical and effective medical LLMs. A regularly updated list of practical guide resources of medical LLMs can be found at https://github.com/AI-in-Health/MedLLMsPracticalGuide.
翻訳日:2023-11-10 16:20:15 公開日:2023-11-09
# 断熱ホロノミック量子計算における平均値の推定

Average value estimation in nonadiabatic holonomic quantum computation ( http://arxiv.org/abs/2311.05110v1 )

ライセンス: Link先を確認
Guo-Fu Xu, P. Z. Zhao(参考訳) 断熱的ホロノミック量子計算が提案されて以来、継続的に注目されている。 これまで、非断熱ホロノミック量子計算の様々なスキームが開発され、その多くが実験的に実証されている。 計算の最後には、通常観測可能な平均値を推定する必要があることが知られている。 しかし、計算誤差は計算の最終状態を著しく乱し、誤った平均値推定を引き起こす。 したがって、非断熱的ホロノミック量子計算では、計算誤差の条件下で観測可能な平均値をどのように高めるかを検討することが重要となる。 上記のトピックは重要であるが、非断熱的ホロノミック量子計算の分野における以前の研究は、不適切な注意を払っている。 本稿では,計算誤差を考慮した場合,計測結果の再スケーリングにより観測可能なホロノミック量子計算の平均値が得られることを示す。 特に、測定結果を再スケーリングすることにより、量子計算コミュニティで広く採用されているノイズモデルである脱分極ノイズモデルを用いて、計算誤差の56.25.%を削減し、その利点を解析できることが示される。

Nonadiabatic holonomic quantum computation has been attracting continuous attention since it was proposed. Until now, various schemes of nonadiabatic holonomic quantum computation have been developed and many of them have been experimentally demonstrated. It is known that at the end of a computation, one usually needs to estimate the average value of an observable. However, computation errors severely disturb the final state of a computation, causing erroneous average value estimation. Thus for nonadiabatic holonomic quantum computation, an important topic is to investigate how to better give the average value of an observable under the condition of computation errors. While the above topic is important, the previous works in the field of nonadiabatic holonomic quantum computation pay woefully inadequate attention to it. In this paper, we show that rescaling the measurement results can better give the average value of an observable in nonadiabatic holonomic quantum computation when computation errors are considered. Particularly, we show that by rescaling the measurement results, $56.25\%$ of the computation errors can be reduced when using depolarizing noise model, a widely adopted noise model in quantum computation community, to analyse the benefit of our method.
翻訳日:2023-11-10 16:20:00 公開日:2023-11-09
# 量子化YOLOネットワークのトレーニングにおける振動の影響低減

Reducing the Side-Effects of Oscillations in Training of Quantized YOLO Networks ( http://arxiv.org/abs/2311.05109v1 )

ライセンス: Link先を確認
Kartik Gupta, Akshay Asthana(参考訳) 量子ネットワークは計算資源やメモリ資源が少なく、エッジデバイスへの展開に適している。 量子化対応トレーニングQATは、ネットワークを低精度で定量化するためのよく研究されている手法であるが、ほとんどの研究は、人気・エッジデバイスフレンドリーな単発物体検出とYOLOのようなセマンティックセマンティックセマンティック・セマンティクスに関する限られた研究による分類のための過パラメータネットワークに焦点を当てている。 さらに、QAT法の大半は、準最適ネットワーク量子化をもたらす振動現象に苦しむストレートスルー推定(STE)近似に依存している。 本稿では,振動問題によるsoma qat法においても,効率のよいヨーロモデルの精度が極めて低い(4ビット以下)ことは困難であり,この問題を克服するための既存の手法はこれらのモデルでは有効ではないことを示す。 発振の影響を緩和するため,我々はまず,指数移動平均(ema)に基づくqatモデルのアップデートを提案する。 さらに,標準QAT手順の後に1回のみ訓練を要し,重みとアクティベーションの振動による誤差を補正し,より正確な量子化モデルを実現する,簡単なQAT補正手法,すなわちQCを提案する。 様々な YOLO5 と YOLO7 の変種を用いてCOCO データセットを広範囲に評価することにより,低精度 (4bit と 3bit ) でオブジェクト検出およびセグメント化タスクの量子化 YOLO ネットワークを一貫した精度で改善することを示す。

Quantized networks use less computational and memory resources and are suitable for deployment on edge devices. While quantization-aware training QAT is the well-studied approach to quantize the networks at low precision, most research focuses on over-parameterized networks for classification with limited studies on popular and edge device friendly single-shot object detection and semantic segmentation methods like YOLO. Moreover, majority of QAT methods rely on Straight-through Estimator (STE) approximation which suffers from an oscillation phenomenon resulting in sub-optimal network quantization. In this paper, we show that it is difficult to achieve extremely low precision (4-bit and lower) for efficient YOLO models even with SOTA QAT methods due to oscillation issue and existing methods to overcome this problem are not effective on these models. To mitigate the effect of oscillation, we first propose Exponentially Moving Average (EMA) based update to the QAT model. Further, we propose a simple QAT correction method, namely QC, that takes only a single epoch of training after standard QAT procedure to correct the error induced by oscillating weights and activations resulting in a more accurate quantized model. With extensive evaluation on COCO dataset using various YOLO5 and YOLO7 variants, we show that our correction method improves quantized YOLO networks consistently on both object detection and segmentation tasks at low-precision (4-bit and 3-bit).
翻訳日:2023-11-10 16:19:41 公開日:2023-11-09
# 複数のカーネルによる個人化オンラインフェデレーション学習

Personalized Online Federated Learning with Multiple Kernels ( http://arxiv.org/abs/2311.05108v1 )

ライセンス: Link先を確認
Pouya M. Ghari, Yanning Shen(参考訳) マルチカーネル学習(mkl)は、オンライン非線形関数近似においてよく文書化された性能を示す。 フェデレーション学習(federated learning)は、学習者グループ(クライアントと呼ばれる)が、クライアント間で分散されたデータに基づいてmklモデルをトレーニングし、オンラインの非線形関数近似を可能にする。 オンラインフェデレーションMKLには、対処すべき課題がいくつかある。 i) 通信効率,特に多数のカーネルが考慮されている場合 二 顧客間での不均一なデータ配信 本稿では,クライアントが大規模なカーネル辞書を使用する間,クライアントがサーバと通信し,手頃な通信コストで更新を送信するためのアルゴリズムフレームワークを開発する。 本稿では,ランダム特徴量(rf)近似を用いて,スケーラブルなオンラインフェデレートmklアルゴリズムを提案する。 提案したオンラインフェデレーションMKLアルゴリズムを用いることで,提案アルゴリズムがクライアント間で分散したデータの不均一性を効果的に扱えることを示す。 実データを用いた実験の結果,提案アルゴリズムの利点を他のオンラインフェデレーションカーネル学習法と比較した。

Multi-kernel learning (MKL) exhibits well-documented performance in online non-linear function approximation. Federated learning enables a group of learners (called clients) to train an MKL model on the data distributed among clients to perform online non-linear function approximation. There are some challenges in online federated MKL that need to be addressed: i) Communication efficiency especially when a large number of kernels are considered ii) Heterogeneous data distribution among clients. The present paper develops an algorithmic framework to enable clients to communicate with the server to send their updates with affordable communication cost while clients employ a large dictionary of kernels. Utilizing random feature (RF) approximation, the present paper proposes scalable online federated MKL algorithm. We prove that using the proposed online federated MKL algorithm, each client enjoys sub-linear regret with respect to the RF approximation of its best kernel in hindsight, which indicates that the proposed algorithm can effectively deal with heterogeneity of the data distributed among clients. Experimental results on real datasets showcase the advantages of the proposed algorithm compared with other online federated kernel learning ones.
翻訳日:2023-11-10 16:19:09 公開日:2023-11-09
# 脳シミュレーションと脳インスパイアされたコンピュータによる脳シミュレータ

A differentiable brain simulator bridging brain simulation and brain-inspired computing ( http://arxiv.org/abs/2311.05106v1 )

ライセンス: Link先を確認
Chaoming Wang, Tianqiu Zhang, Sichao He, Yifeng Gong, Hongyaoxing Gu, Shangyang Li, Si Wu(参考訳) 脳シミュレーションは、脳の構造と機能を模倣する動的モデルを構築し、脳にインスパイアされたコンピューティング(BIC)は脳の構造と機能から学習することでインテリジェントなシステムを開発する。 この2つの分野は相互に絡み合っており、お互いの開発を促進する共通のプログラミングフレームワークを共有する必要がある。 従来のブレインシミュレータはトレーニングの差別化性に欠けるが、既存のディープラーニング(dl)フレームワークは生体物理学的現実主義と脳の力学の複雑さを捉えられていないため、この分野の既存のソフトウェアはこの目標を達成できない。 本稿では,JAXとXLAを用いた脳シミュレータBrainPyを紹介し,脳シミュレーションとBICのギャップを埋めることを目的とした。 BrainPyは、柔軟な、効率的な、スケーラブルな脳シミュレーションのための完全な機能を導入することで、強力なAIフレームワークであるJAXの機能を拡張する。 効率的でスケーラブルな脳シミュレーションのためのスパースとイベント駆動演算子、シナプス計算の複雑さを管理するための抽象化、マルチスケールの脳モデルを構築するためのモジュール的で柔軟なインターフェース、そして脳力学のメモリ集約性を扱うオブジェクト指向のジャストインタイムコンパイルアプローチを提供する。 我々は、ベンチマークタスクにおけるBrainPyの効率性とスケーラビリティを示し、生物学的に可塑性スパイクモデルの微分可能なシミュレーションを強調し、脳シミュレーションとBICの交差点における研究を支援する可能性について論じる。

Brain simulation builds dynamical models to mimic the structure and functions of the brain, while brain-inspired computing (BIC) develops intelligent systems by learning from the structure and functions of the brain. The two fields are intertwined and should share a common programming framework to facilitate each other's development. However, none of the existing software in the fields can achieve this goal, because traditional brain simulators lack differentiability for training, while existing deep learning (DL) frameworks fail to capture the biophysical realism and complexity of brain dynamics. In this paper, we introduce BrainPy, a differentiable brain simulator developed using JAX and XLA, with the aim of bridging the gap between brain simulation and BIC. BrainPy expands upon the functionalities of JAX, a powerful AI framework, by introducing complete capabilities for flexible, efficient, and scalable brain simulation. It offers a range of sparse and event-driven operators for efficient and scalable brain simulation, an abstraction for managing the intricacies of synaptic computations, a modular and flexible interface for constructing multi-scale brain models, and an object-oriented just-in-time compilation approach to handle the memory-intensive nature of brain dynamics. We showcase the efficiency and scalability of BrainPy on benchmark tasks, highlight its differentiable simulation for biologically plausible spiking models, and discuss its potential to support research at the intersection of brain simulation and BIC.
翻訳日:2023-11-10 16:18:52 公開日:2023-11-09
# 非教師付き遠隔生理計測のための自己相似性優先蒸留

Self-similarity Prior Distillation for Unsupervised Remote Physiological Measurement ( http://arxiv.org/abs/2311.05100v1 )

ライセンス: Link先を確認
Xinyu Zhang, Weiyu Sun, Hao Lu, Ying Chen, Yun Ge, Xiaolin Huang, Jie Yuan, Yingcong Chen(参考訳) remote photoplethysmography(rppg)は、心臓活動による血液量の変化によって生じる顔面のピクセルの微妙な変化を捉えることを目的とした非侵襲的手法である。 既存のrPPGタスクの教師なし手法のほとんどは、生理的信号の前の自己相似性を無視しながら、サンプル間の対照的な学習に焦点を当てている。 本稿では,心活動の本質的な自己相似性に着目した,教師なしrPPG推定のための自己相似事前蒸留(SSPD)フレームワークを提案する。 具体的には,まず,様々なノイズの影響を緩和する物理優先組込み拡張手法を導入する。 そして,より信頼性の高い自己相似生理的特徴を抽出するために,自己相似性認識ネットワークを調整した。 最後に,ネットワークが顔ビデオから自己相似する生理的パターンを分離するのを支援する階層的自己蒸留パラダイムを開発した。 包括的実験により、教師なしのSSPDフレームワークは、最先端の教師付き手法と比較して、同等またはそれ以上のパフォーマンスを達成することが示された。 一方、SSPDはエンドツーエンドモデルの中で最も低い推論時間と計算コストを維持している。 ソースコードはhttps://github.com/LinXi1C/SSPDで入手できる。

Remote photoplethysmography (rPPG) is a noninvasive technique that aims to capture subtle variations in facial pixels caused by changes in blood volume resulting from cardiac activities. Most existing unsupervised methods for rPPG tasks focus on the contrastive learning between samples while neglecting the inherent self-similar prior in physiological signals. In this paper, we propose a Self-Similarity Prior Distillation (SSPD) framework for unsupervised rPPG estimation, which capitalizes on the intrinsic self-similarity of cardiac activities. Specifically, we first introduce a physical-prior embedded augmentation technique to mitigate the effect of various types of noise. Then, we tailor a self-similarity-aware network to extract more reliable self-similar physiological features. Finally, we develop a hierarchical self-distillation paradigm to assist the network in disentangling self-similar physiological patterns from facial videos. Comprehensive experiments demonstrate that the unsupervised SSPD framework achieves comparable or even superior performance compared to the state-of-the-art supervised methods. Meanwhile, SSPD maintains the lowest inference time and computation cost among end-to-end models. The source codes are available at https://github.com/LinXi1C/SSPD.
翻訳日:2023-11-10 16:18:25 公開日:2023-11-09
# geoformer: 生成プリトレーニングトランス(gpt)による人間の移動予測

GeoFormer: Predicting Human Mobility using Generative Pre-trained Transformer (GPT) ( http://arxiv.org/abs/2311.05092v1 )

ライセンス: Link先を確認
Aivin V. Solatorio(参考訳) ヒューマンモビリティの予測は、災害リスク計画の強化から流行拡大のシミュレーションまで、大きな実用的価値を持っている。 本稿では,GPTアーキテクチャを応用したデコーダのみのトランスモデルであるGeoFormerについて述べる。 提案するモデルは、標準化データセット上での予測モデルのパフォーマンスを評価し、人の移動性を予測するために設計された競争であるhumob challenge 2023の文脈で厳格にテストされています。 この課題は、75日間の期間に25,000人から10万人の都市規模のデータを含む2つのデータセットを活用する。 geoformerはコンテストでトップパフォーマーとして際立っており、上位3位にランクインしている。 その成功は、GEO-BLEU と Dynamic Time Warping (DTW) の2つの競合で選択されたパフォーマンス指標でよく評価されている。 humob challenge 2023でのジオフォーマーの性能は、災害対応、流行対策など、広範囲にわたる影響とともに、人間の移動予測の分野に多大な貢献をする可能性を強調している。

Predicting human mobility holds significant practical value, with applications ranging from enhancing disaster risk planning to simulating epidemic spread. In this paper, we present the GeoFormer, a decoder-only transformer model adapted from the GPT architecture to forecast human mobility. Our proposed model is rigorously tested in the context of the HuMob Challenge 2023 -- a competition designed to evaluate the performance of prediction models on standardized datasets to predict human mobility. The challenge leverages two datasets encompassing urban-scale data of 25,000 and 100,000 individuals over a longitudinal period of 75 days. GeoFormer stands out as a top performer in the competition, securing a place in the top-3 ranking. Its success is underscored by performing well on both performance metrics chosen for the competition -- the GEO-BLEU and the Dynamic Time Warping (DTW) measures. The performance of the GeoFormer on the HuMob Challenge 2023 underscores its potential to make substantial contributions to the field of human mobility prediction, with far-reaching implications for disaster preparedness, epidemic control, and beyond.
翻訳日:2023-11-10 16:18:07 公開日:2023-11-09
# Legal-HNet:Hartley変換とLong-Contextトークンの混合

Legal-HNet: Mixing Legal Long-Context Tokens with Hartley Transform ( http://arxiv.org/abs/2311.05089v1 )

ライセンス: Link先を確認
Daniele Giofr\'e and Sneha Ghantasala(参考訳) 導入以来、トランスフォーマーアーキテクチャはNLPアプリケーションに大きく採用されているが、制限もある。 自己認識機構は入力テキストの非常にリッチな表現を生成することができるが、その有効性は法律のような専門分野に限られており、例えば言語モデルは、非常に長いテキストを処理する必要がある。 本稿では,注目層を単純なトークン混合機構で置き換える代替手段として,ハートレー変換とフーリエ変換を提案する。 これらの非パラメトリック手法を用いて、法域設定において、長い入力文書を持つモデルをゼロから訓練する。 また,注意に基づくデコーダに接続された非アテンションベースのエンコーダであるseq2seqアーキテクチャも新たに導入した。 抽象的なテキスト要約タスクの長い相関の場合のように、性能が良くなくても、これらの単純なインフラを採用することで達成できると考えている。 これにより、スクラッチからトレーニングモデルをより多くの人に利用できるようになるだけでなく、トレーニング中の炭素フットプリントの削減にも寄与する。

Since its introduction, the transformers architecture has seen great adoption in NLP applications, but it also has limitations. Although the self-attention mechanism allows for generating very rich representations of the input text, its effectiveness may be limited in specialized domains such as legal, where, for example, language models often have to process very long texts. In this paper, we explore alternatives to replace the attention-based layers with simpler token-mixing mechanisms: Hartley and Fourier transforms. Using these non-parametric techniques, we train models with long input documents from scratch in the legal domain setting. We also introduce a new hybrid Seq2Seq architecture, a no-attention-based encoder connected with an attention-based decoder, which performs quite well on existing summarization tasks with much less compute and memory requirements. We believe that similar, if not better performance, as in the case of long correlations of abstractive text summarization tasks, can be achieved by adopting these simpler infrastructures. This not only makes training models from scratch accessible to more people, but also contributes to the reduction of the carbon footprint during training.
翻訳日:2023-11-10 16:17:47 公開日:2023-11-09
# 不均質属性空間を持つタスクからの半教師付き学習のメタラーニング

Meta-learning of semi-supervised learning from tasks with heterogeneous attribute spaces ( http://arxiv.org/abs/2311.05088v1 )

ライセンス: Link先を確認
Tomoharu Iwata, Atsutoshi Kumagai(参考訳) 異種属性空間を持つ複数のタスクから学習する半教師付き学習のためのメタラーニング手法を提案する。 既存の半教師付きメタ学習手法では、すべてのタスクが同じ属性空間を共有していると仮定しています。 提案手法では,ラベル付きデータの少ないタスクに対して,属性空間が異なる様々なタスクにおけるデータと同様にラベル付きデータによって,期待されるテスト性能が向上する。 提案手法では,ラベル付きデータとラベル付きデータを同時にニューラルネットワークを用いてタスク固有空間に埋め込み,ラベル付きデータのラベルを埋め込み空間に分類や回帰モデルを適用して推定する。 ニューラルネットワークでは、例、属性、ラベル間の相互作用を考慮して、単一のニューラルネットワークで異なる属性空間を持つデータの埋め込みを見つけることができる。 異種属性空間を用いた分類・回帰データセットの実験により,提案手法が既存のメタ学習および半教師付き学習法より優れていることを示す。

We propose a meta-learning method for semi-supervised learning that learns from multiple tasks with heterogeneous attribute spaces. The existing semi-supervised meta-learning methods assume that all tasks share the same attribute space, which prevents us from learning with a wide variety of tasks. With the proposed method, the expected test performance on tasks with a small amount of labeled data is improved with unlabeled data as well as data in various tasks, where the attribute spaces are different among tasks. The proposed method embeds labeled and unlabeled data simultaneously in a task-specific space using a neural network, and the unlabeled data's labels are estimated by adapting classification or regression models in the embedding space. For the neural network, we develop variable-feature self-attention layers, which enable us to find embeddings of data with different attribute spaces with a single neural network by considering interactions among examples, attributes, and labels. Our experiments on classification and regression datasets with heterogeneous attribute spaces demonstrate that our proposed method outperforms the existing meta-learning and semi-supervised learning methods.
翻訳日:2023-11-10 16:17:26 公開日:2023-11-09
# 知識集約型タスクの合理化としての大規模言語モデルの特徴付け

Characterizing Large Language Models as Rationalizers of Knowledge-intensive Tasks ( http://arxiv.org/abs/2311.05085v1 )

ライセンス: Link先を確認
Aditi Mishra and Sajjadur Rahman and Hannah Kim and Kushan Mitra and Estevam Hruschka(参考訳) 大規模言語モデル(LLM)は、タスク固有の最小限の監督力を持つ流動的なテキストを生成するのに熟練している。 しかし、知識集約的なタスクに対して十分に根拠のある合理化を提供する能力は、未検討のままである。 このようなタスクは、コモンセンスの多重選択問題のように、予測をサポートし、代替オプションに反論するためには、世界知識に基づいた合理性を必要とする。 専門家による事例を数ショットで表現することで,自然言語における知識誘導的合理化の課題を考察する。 驚いたことに、群衆労働者はクラウドソースの合理化よりも知識に基づく合理化を好んだ。 LLMの生成する論理は好ましいが、簡潔さと新規性をさらに改善する必要がある。 別の研究では、誤ったモデル予測の合理化が、LLM生成の合理性に対する人間の信頼を損なうことを示す。 これらの観察により、タスク予測をレビューし、合理化前の潜在的な誤った決定を排除し、信頼できる合理化生成を可能にする2段階のパイプラインを作成する。

Large language models (LLMs) are proficient at generating fluent text with minimal task-specific supervision. Yet, their ability to provide well-grounded rationalizations for knowledge-intensive tasks remains under-explored. Such tasks, like commonsense multiple-choice questions, require rationales based on world knowledge to support predictions and refute alternate options. We consider the task of generating knowledge-guided rationalization in natural language by using expert-written examples in a few-shot manner. Surprisingly, crowd-workers preferred knowledge-grounded rationales over crowdsourced rationalizations, citing their factuality, sufficiency, and comprehensive refutations. Although LLMs-generated rationales were preferable, further improvements in conciseness and novelty are required. In another study, we show how rationalization of incorrect model predictions erodes humans' trust in LLM-generated rationales. Motivated by these observations, we create a two-stage pipeline to review task predictions and eliminate potential incorrect decisions before rationalization, enabling trustworthy rationale generation.
翻訳日:2023-11-10 16:17:08 公開日:2023-11-09
# PRODIGy: Profile ベースのダイアログ生成データセット

PRODIGy: a PROfile-based DIalogue Generation dataset ( http://arxiv.org/abs/2311.05195v1 )

ライセンス: Link先を確認
Daniela Occhipinti, Serra Sinem Tekiroglu, Marco Guerini(参考訳) プロファイル表現を持つ対話エージェントを提供することで、一貫性と一貫性が向上し、会話の質が向上する。 しかし、このようなエージェントを訓練するための現在のプロファイルベースの対話データセットには、単純で対話特有の明示的なプロファイル表現、あるいは収集が難しい暗黙の表現が含まれる。 本研究では,コミュニケーションスタイルや伝記,パーソナリティなど,すべての話者表現にそれぞれの対話をアラインする新たなリソースを作成することにより,標準表現とより洗練されたプロファイル表現を結合する統一フレームワークを提案する。 このフレームワークは、複数のプロファイル設定を持つ生成言語モデルを使用して構築された複数のベースラインをテストすることができる。 自動評価により、プロファイルベースのモデルは、ドメイン内設定とドメイン間設定の両方で、対話のみで訓練されたモデルよりも、より優れた一般化能力を有することが示された。 これらの結果は、微調整されたモデルと命令ベースのLLMに一貫性がある。 さらに、人間の評価は、プロファイルとコンテキストの両方に一致した世代に対する明確な選好を示す。 最後に、プライバシーの懸念を考慮するために、すべての実験は2つの構成で行われます。 前者では、LMは文字に関する情報を内部表現に格納するが、後者では、LMは個人情報を一切保持せず、推論時にのみ使用する。

Providing dialogue agents with a profile representation can improve their consistency and coherence, leading to better conversations. However, current profile-based dialogue datasets for training such agents contain either explicit profile representations that are simple and dialogue-specific, or implicit representations that are difficult to collect. In this work, we propose a unified framework in which we bring together both standard and more sophisticated profile representations by creating a new resource where each dialogue is aligned with all possible speaker representations such as communication style, biographies, and personality. This framework allows to test several baselines built using generative language models with several profile configurations. The automatic evaluation shows that profile-based models have better generalisation capabilities than models trained on dialogues only, both in-domain and cross-domain settings. These results are consistent for fine-tuned models and instruction-based LLMs. Additionally, human evaluation demonstrates a clear preference for generations consistent with both profile and context. Finally, to account for possible privacy concerns, all experiments are done under two configurations: inter-character and intra-character. In the former, the LM stores the information about the character in its internal representation, while in the latter, the LM does not retain any personal information but uses it only at inference time.
翻訳日:2023-11-10 16:09:46 公開日:2023-11-09
# マシンインテリジェンスによる液体理論の完全化

Perfecting Liquid-State Theories with Machine Intelligence ( http://arxiv.org/abs/2311.05167v1 )

ライセンス: Link先を確認
Jianzhong Wu and Mengyang Gu(参考訳) 近年、電子構造、分子力場、および様々な凝縮系の物理化学的性質を予測するための機械知能の利用が著しく増加している。 しかし、幅広い原子組成と熱力学条件を扱える包括的枠組みの開発には大きな課題が残っている。 この観点からは,近年の関数型機械学習の進歩を活かした液体状態理論の今後の発展を論じる。 代理モデル,次元縮小,不確実性定量化などの理論解析および機械学習技術の強みを活用することで,液体状態理論が精度,拡張性,計算効率を大幅に向上し,多様な材料や化学システムにまたがる幅広い応用を可能にすることを期待する。

Recent years have seen a significant increase in the use of machine intelligence for predicting electronic structure, molecular force fields, and the physicochemical properties of various condensed systems. However, substantial challenges remain in developing a comprehensive framework capable of handling a wide range of atomic compositions and thermodynamic conditions. This perspective discusses potential future developments in liquid-state theories leveraging on recent advancements of functional machine learning. By harnessing the strengths of theoretical analysis and machine learning techniques including surrogate models, dimension reduction and uncertainty quantification, we envision that liquid-state theories will gain significant improvements in accuracy, scalability and computational efficiency, enabling their broader applications across diverse materials and chemical systems.
翻訳日:2023-11-10 16:09:26 公開日:2023-11-09
# 超薄膜トポロジカル絶縁膜に基づく電荷量子ビット

Charge qubits based on ultra-thin topological insulator films ( http://arxiv.org/abs/2311.05166v1 )

ライセンス: Link先を確認
Kexin Zhang, Hugo V. Lepage, Ying Dong, Crispin H. W. Barnes(参考訳) 量子コンピューティングを目的とし, 有限サイズ効果の影響を受ける超薄膜bi$_{2}$se$_{3}$トポロジカル絶縁体における表面状態の利用法について検討した。 私たちはそれを証明しています。 i) 有限サイズ効果の下での表面状態は、バルクエネルギーギャップと論理量子ビットの間にエネルギー準位が配置される2レベル系を効果的に形成することができる。 (ii)キュービットは、単純な形式の電気パルスを用いて初期化し、操作することができる。 (iii)2キュービットの絡み合いは、2つのキュービットが並列設定されているときに$\sqrt{\text{SWAP}}$演算によって達成され、 あるいは、Floquet状態を利用してqubitを構築し、2つのFloquet量子ビットを制御NOT操作で絡み合わせることができる。 Floquetキュービットは、常に振動電場が印加されているため、背景雑音に対して堅牢性を提供し、単一キュービット演算は、振動電場の振幅変調によって制御され、実験的に有用である。

We study how to use the surface states in a Bi$_{2}$Se$_{3}$ topological insulator ultra-thin film that are affected by finite size effects for the purpose of quantum computing. We demonstrate that: (i) surface states under the finite size effect can effectively form a two-level system where their energy levels lie in between the bulk energy gap and a logic qubit can be constructed, (ii) the qubit can be initialized and manipulated using electric pulses of simple forms, (iii) two-qubit entanglement is achieved through a $\sqrt{\text{SWAP}}$ operation when the two qubits are in a parallel setup, and (iv) alternatively, a Floquet state can be exploited to construct a qubit and two Floquet qubits can be entangled through a Controlled-NOT operation. The Floquet qubit offers robustness to background noise since there is always an oscillating electric field applied, and the single qubit operations are controlled by amplitude modulation of the oscillating field, which is convenient experimentally.
翻訳日:2023-11-10 16:09:12 公開日:2023-11-09
# 重みとアクティベーション量子化による大規模言語モデルの計算効率の向上

Enhancing Computation Efficiency in Large Language Models through Weight and Activation Quantization ( http://arxiv.org/abs/2311.05161v1 )

ライセンス: Link先を確認
Jangwhan Lee, Minsoo Kim, Seungcheol Baek, Seok Joong Hwang, Wonyong Sung and Jungwook Choi(参考訳) 大規模言語モデル(llm)は自然言語処理タスクに熟達しているが、その展開はしばしばパラメータのサイズや計算要求によって制限される。 本稿では, LLMにおける後学習量子化(PTQ), 特に4ビット重みと8ビットアクティベーション(W4A8)量子化に着目し, 計算効率の向上を図る。 本稿では,アクティベーション量子化対応スケーリング(AQAS)とシーケンス長対応キャリブレーション(SLAC)という2つの革新的な手法を提案する。 さらに、整数と非正規表現を組み合わせたハイブリッドデータ形式であるdINTを導入し、小値がゼロになるW4A8量子化のアンダーフロー問題に対処する。 OPT や LLaMA など LLM の厳密な評価を通じて,本手法がタスク精度を大幅に向上し,完全精度モデルに匹敵するレベルまで向上することを示す。 さらに、dINTと互換性のある算術単位を開発することにより、我々の手法が8ビット整数MACユニットと比較して2$\times$ハードウェア効率の改善をもたらすことを確認する。

Large Language Models (LLMs) are proficient in natural language processing tasks, but their deployment is often restricted by extensive parameter sizes and computational demands. This paper focuses on post-training quantization (PTQ) in LLMs, specifically 4-bit weight and 8-bit activation (W4A8) quantization, to enhance computational efficiency -- a topic less explored compared to weight-only quantization. We present two innovative techniques: activation-quantization-aware scaling (AQAS) and sequence-length-aware calibration (SLAC) to enhance PTQ by considering the combined effects on weights and activations and aligning calibration sequence lengths to target tasks. Moreover, we introduce dINT, a hybrid data format combining integer and denormal representations, to address the underflow issue in W4A8 quantization, where small values are rounded to zero. Through rigorous evaluations of LLMs, including OPT and LLaMA, we demonstrate that our techniques significantly boost task accuracies to levels comparable with full-precision models. By developing arithmetic units compatible with dINT, we further confirm that our methods yield a 2$\times$ hardware efficiency improvement compared to 8-bit integer MAC unit.
翻訳日:2023-11-10 16:08:53 公開日:2023-11-09
# RAPID:トークンレベル情報を考慮したPLMによる学習不要検索に基づくログ異常検出

RAPID: Training-free Retrieval-based Log Anomaly Detection with PLM considering Token-level information ( http://arxiv.org/abs/2311.05160v1 )

ライセンス: Link先を確認
Gunho No, Yukyung Lee, Hyeongwon Kang, Pilsung Kang(参考訳) IT業界が進むにつれ、システムログデータはますます重要になっています。 多くのコンピュータシステムは、ソースコードへのアクセスが制限されているため、管理のためにログテキストに依存している。 ログの異常検出の必要性は、特に現実世界のアプリケーションでは増加しているが、ログの迅速蓄積における異常の特定は、依然として難しい課題である。 従来のディープラーニングベースの異常検出モデルでは、データセット固有のトレーニングが必要となり、対応する遅延が発生する。 特に、ほとんどのメソッドはシーケンスレベルのログ情報のみに焦点を当てており、微妙な異常の検出が難しくなり、しばしばリアルタイムに利用が難しい推論プロセスが伴う。 ログデータの特徴を生かして,遅延をトレーニングすることなく異常検出を可能にし,リアルタイム機能を保証するモデルであるrapidを導入する。 RAPIDはログを自然言語として扱い、事前訓練された言語モデルを用いて表現を抽出する。 システムコンテキストに基づいてログを分類できるため,テストログと最も類似した通常のログを対比する検索ベースの手法を実装した。 この戦略はログ固有のトレーニングの必要性を損なうだけでなく、トークンレベルの情報を適切に取り入れることによって、特に目に見えないログに対して、洗練され堅牢な検出を実現する。 また,比較に必要な計算コストを削減できるコアセット手法を提案する。 実験結果から、ログデータをトレーニングしなくても、RAPIDは以前のモデルと比較して競合性能を示し、特定のデータセット上で最高のパフォーマンスを達成することが示された。 様々な研究課題を通じて,遅延なくリアルタイム検出が可能であることを検証した。

As the IT industry advances, system log data becomes increasingly crucial. Many computer systems rely on log texts for management due to restricted access to source code. The need for log anomaly detection is growing, especially in real-world applications, but identifying anomalies in rapidly accumulating logs remains a challenging task. Traditional deep learning-based anomaly detection models require dataset-specific training, leading to corresponding delays. Notably, most methods only focus on sequence-level log information, which makes the detection of subtle anomalies harder, and often involve inference processes that are difficult to utilize in real-time. We introduce RAPID, a model that capitalizes on the inherent features of log data to enable anomaly detection without training delays, ensuring real-time capability. RAPID treats logs as natural language, extracting representations using pre-trained language models. Given that logs can be categorized based on system context, we implement a retrieval-based technique to contrast test logs with the most similar normal logs. This strategy not only obviates the need for log-specific training but also adeptly incorporates token-level information, ensuring refined and robust detection, particularly for unseen logs. We also propose the core set technique, which can reduce the computational cost needed for comparison. Experimental results show that even without training on log data, RAPID demonstrates competitive performance compared to prior models and achieves the best performance on certain datasets. Through various research questions, we verified its capability for real-time detection without delay.
翻訳日:2023-11-10 16:08:27 公開日:2023-11-09
# 連続可変テレポーテーションによる恒星干渉計の量子優位性

Limited quantum advantage for stellar interferometry via continuous-variable teleportation ( http://arxiv.org/abs/2311.05159v1 )

ライセンス: Link先を確認
Zixin Huang, Ben Q. Baragiola, Nicolas C. Menicucci, Mark M. Wilde(参考訳) 我々は、連続可変(CV)量子情報形式における恒星干渉法を考察し、直接干渉法(DI)、局所ヘテロダイン測定、CVテレポーテーションに基づく戦略の3つの主要な戦略のパフォーマンスを特徴づけるために量子フィッシャー情報(QFI)を用いる。 損失のないシステムでは、di で達成可能な qfi の約 95% に達するためには、r\approx 2$ (18 db) のスクイージングパラメータが必要であり、そのようなスクイージングレベルは実験的に達成された値を超えている。 低損失状態では、CVテレポーテーション戦略はDIよりも劣り、損失の増加とともに性能ギャップが拡大する。 興味深いことに、高損失状態においては、cvテレポーテーション戦略がdiと局所ヘテロダインの両方をわずかに上回り、最適戦略の遷移を表す小さな損失領域が存在する。 この利点は、損失の小さな領域で発生するものであり、利点の規模も小さいため、限定的であると記述する。 我々は、現実的な困難は、星間干渉計におけるCVテレポーテーションに基づく戦略の利点を制限し、量子的優位性を達成することをさらに妨げていると論じる。

We consider stellar interferometry in the continuous-variable (CV) quantum information formalism and use the quantum Fisher information (QFI) to characterize the performance of three key strategies: direct interferometry (DI), local heterodyne measurement, and a CV teleportation-based strategy. In the lossless regime, we show that a squeezing parameter of $r\approx 2$ (18 dB) is required to reach $\approx$ 95% of the QFI achievable with DI; such a squeezing level is beyond what has been achieved experimentally. In the low-loss regime, the CV teleportation strategy becomes inferior to DI, and the performance gap widens as loss increases. Curiously, in the high-loss regime, a small region of loss exists where the CV teleportation strategy slightly outperforms both DI and local heterodyne, representing a transition in the optimal strategy. We describe this advantage as limited because it occurs for a small region of loss, and the magnitude of the advantage is also small. We argue that practical difficulties further impede achieving any quantum advantage, limiting the merits of a CV teleportation-based strategy for stellar interferometry.
翻訳日:2023-11-10 16:08:04 公開日:2023-11-09
# 閉鎖的関連言語の形態的知識を用いた低リソース言語のための弱教師付きディープコグネート検出フレームワーク

Weakly-supervised Deep Cognate Detection Framework for Low-Resourced Languages Using Morphological Knowledge of Closely-Related Languages ( http://arxiv.org/abs/2311.05155v1 )

ライセンス: Link先を確認
Koustava Goswami, Priya Rani, Theodorus Fransen, John P. McCrae(参考訳) アントラリソース言語でのトランスファーラーニングのためのコニャーテの爆発は、教師なし機械翻訳、名前付きエンティティ認識、情報検索など、言語理解タスクのエキサイティングな機会である。 それまでのアプローチは、主に正書法、音声学、最先端の文脈言語モデルに基づくコグネート検出タスクの監督に重点を置いていた。 本稿では, 近縁な言語からの形態的知識を用いたアンダーリソース言語のための, 言語に依存しない弱教師付き深層コグネート検出フレームワークを提案する。 我々は,言語の形態的知識を得るためにエンコーダを訓練し,その知識を教師なし・弱教師付きコグネート検出タスクに伝達する。 教師なしだが、cognatesの手書きアノテーションの必要性を克服する。 言語ファミリにまたがる異なるコグネイト検出データセットを用いて実験を行い,最先端の教師なしおよび教師なしの手法よりも優れた改善がみられた。 私たちのモデルは、トレーニングのためのコグネートペアのアノテーションの要件を克服するため、あらゆる言語ファミリから幅広い言語に拡張することができます。 コードとデータセットの構築スクリプトはhttps://github.com/koustavagoswami/Weakly_supervised-Cognate_Detectionで確認できる。

Exploiting cognates for transfer learning in under-resourced languages is an exciting opportunity for language understanding tasks, including unsupervised machine translation, named entity recognition and information retrieval. Previous approaches mainly focused on supervised cognate detection tasks based on orthographic, phonetic or state-of-the-art contextual language models, which under-perform for most under-resourced languages. This paper proposes a novel language-agnostic weakly-supervised deep cognate detection framework for under-resourced languages using morphological knowledge from closely related languages. We train an encoder to gain morphological knowledge of a language and transfer the knowledge to perform unsupervised and weakly-supervised cognate detection tasks with and without the pivot language for the closely-related languages. While unsupervised, it overcomes the need for hand-crafted annotation of cognates. We performed experiments on different published cognate detection datasets across language families and observed not only significant improvement over the state-of-the-art but also our method outperformed the state-of-the-art supervised and unsupervised methods. Our model can be extended to a wide range of languages from any language family as it overcomes the requirement of the annotation of the cognate pairs for training. The code and dataset building scripts can be found at https://github.com/koustavagoswami/Weakly_supervised-Cognate_Detection
翻訳日:2023-11-10 16:07:40 公開日:2023-11-09
# クロスモーダル・プロンプト:大規模事前学習モデルによる映像下流タスクの適応

Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual Downstream Tasks ( http://arxiv.org/abs/2311.05152v1 )

ライセンス: Link先を確認
Haoyi Duan, Yan Xia, Mingze Zhou, Li Tang, Jieming Zhu, Zhou Zhao(参考訳) 近年,視聴覚下タスクにおける大規模事前学習モデルの導入が目覚ましい結果をもたらしている。 しかしながら、これらのモデルは、主にシングルモダリティ非制約データセットでトレーニングされており、マルチモダリティタスクの機能抽出における課題に遭遇し、サブ最適パフォーマンスに繋がる。 この制限は、エンコーディング中に無関係なモダリティ固有の情報が導入されることによって生じ、下流タスクのパフォーマンスに悪影響を及ぼす。 本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。 このメカニズムは、ソフトプロンプトとしてオーディオと視覚のモダリティを活用し、現在のマルチモーダル入力特徴に基づいて事前訓練されたモデルのパラメータを動的に調整する。 具体的には、DG-SCTモジュールはトレーニング可能なクロスモーダル相互作用層を事前訓練されたオーディオ-視覚エンコーダに組み込み、大規模な事前訓練されたモデルの凍結パラメータを保存しながら、空間、チャネル、時間次元にわたる現在のモードから重要な情報を適応的に抽出することができる。 実験評価の結果,提案モデルはav,avvp,avs,avqaなど,複数の下流タスクにおいて最先端の結果が得られることが示された。 さらに,本モデルでは,数ショットとゼロショットのシナリオにおいて,有望な性能を示す。 ソースコードと事前訓練されたモデルはhttps://github.com/haoyi-duan/DG-SCTで入手できる。

In recent years, the deployment of large-scale pre-trained models in audio-visual downstream tasks has yielded remarkable outcomes. However, these models, primarily trained on single-modality unconstrained datasets, still encounter challenges in feature extraction for multi-modal tasks, leading to suboptimal performance. This limitation arises due to the introduction of irrelevant modality-specific information during encoding, which adversely affects the performance of downstream tasks. To address this challenge, this paper proposes a novel Dual-Guided Spatial-Channel-Temporal (DG-SCT) attention mechanism. This mechanism leverages audio and visual modalities as soft prompts to dynamically adjust the parameters of pre-trained models based on the current multi-modal input features. Specifically, the DG-SCT module incorporates trainable cross-modal interaction layers into pre-trained audio-visual encoders, allowing adaptive extraction of crucial information from the current modality across spatial, channel, and temporal dimensions, while preserving the frozen parameters of large-scale pre-trained models. Experimental evaluations demonstrate that our proposed model achieves state-of-the-art results across multiple downstream tasks, including AVE, AVVP, AVS, and AVQA. Furthermore, our model exhibits promising performance in challenging few-shot and zero-shot scenarios. The source code and pre-trained models are available at https://github.com/haoyi-duan/DG-SCT.
翻訳日:2023-11-10 16:07:11 公開日:2023-11-09
# 画像復元における自己認識と畳み込みのダイナミックアソシエーション学習

Dynamic Association Learning of Self-Attention and Convolution in Image Restoration ( http://arxiv.org/abs/2311.05147v1 )

ライセンス: Link先を確認
Kui Jiang, Xuemei Jia, Wenxin Huang, Wenbin Wang, Zheng Wang, Junjun Jiang(参考訳) CNNとSelf attentionは、画像修復における自己意識と畳み込みの動的関連学習のためのマルチメディアアプリケーションにおいて大きな成功を収めている。 しかし、CNNには少なくとも2つの欠点がある。 1) 限定受容領域 2) 推論時のスライディングウインドウの静的重みは, コンテンツの多様性に対処できない。cnnの長所と短所, 自己注意の観点から, アドバンテージを活用し, その欠点を抑制するための連想学習法を提案する。 降雨分布は降雨分布予測に加えて,降雨位置や程度を反映していると考えられる。 そこで本研究では,関連学習に先立って予測された劣化を伴う背景テクスチャを改良することを提案する。 その結果,2つのサブタスクに対して画像デライニングネットワークとバックグラウンドリカバリネットワークを設計し,雨害除去とバックグラウンドリカバリを関連付けることで画像デライニングを実現した。 関連学習の重要な部分は、新しい多入力アテンションモジュールである。 予測雨量分布に応じて, 先行して劣化を発生させ, 劣化マスクを生成する。 SAのグローバル相関計算から得られたMAMは、雨天の入力から劣化マスクを用いて情報補完成分を抽出し、正確なテクスチャ復元を支援する。 一方、SAは特徴写像を自己注意的重要性で集約する傾向にあるが、畳み込みによって局所的なテクスチャに焦点を絞る。 ハイブリッド融合ネットワークは、1つの残差変圧器分岐と1つのエンコーダ−デコーダ分岐を含む。 前者は入力として学習可能なトークンをいくつか取り、マルチヘッドの注意とフィードフォワードのネットワークを積み重ねて画像のグローバルな特徴を符号化する。 逆に後者は、コンテキスト知識を表現するためにマルチスケールエンコーダデコーダを利用する。

CNNs and Self attention have achieved great success in multimedia applications for dynamic association learning of self-attention and convolution in image restoration. However, CNNs have at least two shortcomings: 1) limited receptive field; 2) static weight of sliding window at inference, unable to cope with the content diversity.In view of the advantages and disadvantages of CNNs and Self attention, this paper proposes an association learning method to utilize the advantages and suppress their shortcomings, so as to achieve high-quality and efficient inpainting. We regard rain distribution reflects the degradation location and degree, in addition to the rain distribution prediction. Thus, we propose to refine background textures with the predicted degradation prior in an association learning manner. As a result, we accomplish image deraining by associating rain streak removal and background recovery, where an image deraining network and a background recovery network are designed for two subtasks. The key part of association learning is a novel multi-input attention module. It generates the degradation prior and produces the degradation mask according to the predicted rainy distribution. Benefited from the global correlation calculation of SA, MAM can extract the informative complementary components from the rainy input with the degradation mask, and then help accurate texture restoration. Meanwhile, SA tends to aggregate feature maps with self-attention importance, but convolution diversifies them to focus on the local textures. A hybrid fusion network involves one residual Transformer branch and one encoder-decoder branch. The former takes a few learnable tokens as input and stacks multi-head attention and feed-forward networks to encode global features of the image. The latter, conversely, leverages the multi-scale encoder-decoder to represent contexture knowledge.
翻訳日:2023-11-10 16:06:47 公開日:2023-11-09
# OW-SLR:超解像のための半局所領域上でのWindowsの重複

OW-SLR: Overlapping Windows on Semi-Local Region for Image Super-Resolution ( http://arxiv.org/abs/2311.05146v1 )

ライセンス: Link先を確認
Rishav Bhardwaj, Janarthanam Jothi Balaji, Vasudevan Lakshminarayanan(参考訳) 任意の解像度に画像をスケールアップするために、暗黙の神経表現はかなり進歩した。 しかし、既存の手法は、赤、緑、青(RGB)の値を4つの特定の軌跡から予測する関数を定義することに基づいている。 わずか4つのlociに依存するだけでは、隣接する領域から詳細を失うことになるため不十分である。 半局所領域を考慮することで性能が向上することを示す。 本稿では、半局所領域(ow-slr)上のオーバーラップウインドウという新しい手法を画像に適用し、半局所領域の座標を潜在空間の一点付近で取り込むことにより任意の解像度を得る。 この抽出された詳細は、点のRGB値を予測するために使用される。 光コヒーレンス・トモグラフィー・アンジオグラフィー(OCT-A)画像にアルゴリズムを適用し,それらをランダムな解像度にスケールアップできることを示す。 この技術は、OCT500データセットに適用した場合、既存の最先端メソッドよりも優れている。 OW-SLRは、糖尿病網膜症や正常なOCT-A画像から健康および疾患の網膜像を分類するためのより良い結果を提供する。 プロジェクトページはhttps://rishavbb.github.io/ow-slr/index.htmlで閲覧できます。

There has been considerable progress in implicit neural representation to upscale an image to any arbitrary resolution. However, existing methods are based on defining a function to predict the Red, Green and Blue (RGB) value from just four specific loci. Relying on just four loci is insufficient as it leads to losing fine details from the neighboring region(s). We show that by taking into account the semi-local region leads to an improvement in performance. In this paper, we propose applying a new technique called Overlapping Windows on Semi-Local Region (OW-SLR) to an image to obtain any arbitrary resolution by taking the coordinates of the semi-local region around a point in the latent space. This extracted detail is used to predict the RGB value of a point. We illustrate the technique by applying the algorithm to the Optical Coherence Tomography-Angiography (OCT-A) images and show that it can upscale them to random resolution. This technique outperforms the existing state-of-the-art methods when applied to the OCT500 dataset. OW-SLR provides better results for classifying healthy and diseased retinal images such as diabetic retinopathy and normals from the given set of OCT-A images. The project page is available at https://rishavbb.github.io/ow-slr/index.html
翻訳日:2023-11-10 16:06:17 公開日:2023-11-09
# 時間関連スコーリングシステムにおける対向強化学習に基づくカウンター・エミュラル・アタック

Counter-Empirical Attacking based on Adversarial Reinforcement Learning for Time-Relevant Scoring System ( http://arxiv.org/abs/2311.05144v1 )

ライセンス: Link先を確認
Xiangguo Sun, Hong Cheng, Hang Dong, Bo Qiao, Si Qin, Qingwei Lin(参考訳) スコアリングシステムはビッグデータ時代のプラットフォームで一般的に見られる。 金融サービスのクレジットスコアシステムからeコマースショッピングプラットフォームの会員スコアに至るまで、プラットフォームマネージャはこのようなシステムを使用して、奨励されたアクティビティパターンに向かってユーザーをガイドし、リソースをより効果的かつ効率的に管理する。 このようなスコアリングシステムを確立するために、まずいくつかの"empirical criteria"が決定され、その後にスコアの要素ごとに専用のトップダウン設計が行われ、新しいアプリケーションシナリオにおけるスコアリング機能の調整とチューニングに多大な労力がかかる。 さらに悪いことに、多くの新プロジェクトは通常、合理的なスコアリングシステムを評価するための基盤や経験を持っていません。 新たなスコアリングシステムにおけるスコアリング機能を手動で調整する作業の軽減を図るため,事前に設定した実験基準からスコアリングシステムを革新的に研究し,ゼロからシステムを改善するための新しい枠組みを提案する。 本稿では, 「攻撃」 行動トレースを生成し, スコアリングシステムの経験則を破ろうとする「カウンタ-empirical attack」メカニズムを提案する。 そして、相手の「エンハンサー」を適用してスコアシステムを評価し、改善戦略を見出す。 対人学習問題を訓練することにより、経験的基準を破ろうとする攻撃活動トレースに対して、適切なスコアリング機能が堅牢であることを学ぶことができる。 共有コンピューティングリソースプラットフォームと金融クレジットシステムを含む2つのスコアリングシステムに関する広範な実験が行われた。 実験により,提案手法の有効性が検証された。

Scoring systems are commonly seen for platforms in the era of big data. From credit scoring systems in financial services to membership scores in E-commerce shopping platforms, platform managers use such systems to guide users towards the encouraged activity pattern, and manage resources more effectively and more efficiently thereby. To establish such scoring systems, several "empirical criteria" are firstly determined, followed by dedicated top-down design for each factor of the score, which usually requires enormous effort to adjust and tune the scoring function in the new application scenario. What's worse, many fresh projects usually have no ground-truth or any experience to evaluate a reasonable scoring system, making the designing even harder. To reduce the effort of manual adjustment of the scoring function in every new scoring system, we innovatively study the scoring system from the preset empirical criteria without any ground truth, and propose a novel framework to improve the system from scratch. In this paper, we propose a "counter-empirical attacking" mechanism that can generate "attacking" behavior traces and try to break the empirical rules of the scoring system. Then an adversarial "enhancer" is applied to evaluate the scoring system and find the improvement strategy. By training the adversarial learning problem, a proper scoring function can be learned to be robust to the attacking activity traces that are trying to violate the empirical criteria. Extensive experiments have been conducted on two scoring systems including a shared computing resource platform and a financial credit system. The experimental results have validated the effectiveness of our proposed framework.
翻訳日:2023-11-10 16:05:50 公開日:2023-11-09
# scaat: サリエンシー制約付き適応敵訓練によるニューラルネットワークの解釈性の向上

SCAAT: Improving Neural Network Interpretability via Saliency Constrained Adaptive Adversarial Training ( http://arxiv.org/abs/2311.05143v1 )

ライセンス: Link先を確認
Rui Xu, Wenkang Qin, Peixiang Huang, Haowang, Lin Luo(参考訳) ディープニューラルネットワーク(dnn)は、ユーザがブラックボックス予測を理解するための説明を提供する。 塩分マップは特徴属性のヒートマップを示す一般的な説明であるが、重要な特徴を区別するのにノイズが伴う。 本稿では,このようなDNN解釈性を向上させるために,Saliency Constrained Adversarial Training (SCAAT) と呼ばれるモデルに依存しない学習手法を提案する。 逆さまのサンプルをサリエンシーマップの指導の下で構築することで、スカアトは実質的にほとんどのノイズを除去し、モデルアーキテクチャを変更することなく、サリエンシーマップをスペアリングし、より忠実にする。 複数のDNNにSCAATを適用し,様々な自然・病理画像データセット上で生成したサリエンシマップの品質を評価する。 異なる領域とメトリクスの評価から、SCAATは予測力を犠牲にすることなくより忠実な忠実度マップを提供することにより、DNNの解釈可能性を大幅に改善することを示している。

Deep Neural Networks (DNNs) are expected to provide explanation for users to understand their black-box predictions. Saliency map is a common form of explanation illustrating the heatmap of feature attributions, but it suffers from noise in distinguishing important features. In this paper, we propose a model-agnostic learning method called Saliency Constrained Adaptive Adversarial Training (SCAAT) to improve the quality of such DNN interpretability. By constructing adversarial samples under the guidance of saliency map, SCAAT effectively eliminates most noise and makes saliency maps sparser and more faithful without any modification to the model architecture. We apply SCAAT to multiple DNNs and evaluate the quality of the generated saliency maps on various natural and pathological image datasets. Evaluations on different domains and metrics show that SCAAT significantly improves the interpretability of DNNs by providing more faithful saliency maps without sacrificing their predictive power.
翻訳日:2023-11-10 16:05:24 公開日:2023-11-09
# ハード負サンプリングによる教師付きおよび教師なしコントラスト学習における神経的および次元的崩壊について

On neural and dimensional collapse in supervised and unsupervised contrastive learning with hard negative sampling ( http://arxiv.org/abs/2311.05139v1 )

ライセンス: Link先を確認
Ruijie Jiang, Thuan Nguyen, Shuchin Aeron, Prakash Ishwar(参考訳) 広く研究されているデータモデルと一般損失およびサンプル硬化関数について、教師付きコントラスト学習(scl)、ハードscl(hscl)、および教師なしコントラスト学習(ucl)のリスクは、神経崩壊を示す表現(nc)によって最小化されること、すなわち、クラス平均が等角的タイトフレーム(etf)を形成し、同じクラスからのデータを同一表現にマッピングすることを証明する。 また,任意の表現マッピングにおいて,HSCLとHard-UCL(HUCL)のリスクは対応するSCLとUCLのリスクによって低く抑えられていることを示す。 ETFの最適性はSCLで知られており、InfoNCEの損失に限られるが、HSCLとUCLの一般的な損失および硬化機能に対する最適性は新しくない。 さらに、私たちの証明はずっとシンプルでコンパクトで透明です。 単球特徴正規化や単球特徴正規化を組み込んだ場合、ランダム初期化と適切な硬度レベルを持つHSCLおよびHUCLリスクのADAM最適化がNC幾何に実際に収束できることを実証的に実証した。 しかし、ハードネガティブや特徴正規化を組み込まなければ、ADAMで学んだ表現は次元的崩壊(DC)に悩まされ、NC幾何を達成できない。

For a widely-studied data model and general loss and sample-hardening functions we prove that the Supervised Contrastive Learning (SCL), Hard-SCL (HSCL), and Unsupervised Contrastive Learning (UCL) risks are minimized by representations that exhibit Neural Collapse (NC), i.e., the class means form an Equianglular Tight Frame (ETF) and data from the same class are mapped to the same representation. We also prove that for any representation mapping, the HSCL and Hard-UCL (HUCL) risks are lower bounded by the corresponding SCL and UCL risks. Although the optimality of ETF is known for SCL, albeit only for InfoNCE loss, its optimality for HSCL and UCL under general loss and hardening functions is novel. Moreover, our proofs are much simpler, compact, and transparent. We empirically demonstrate, for the first time, that ADAM optimization of HSCL and HUCL risks with random initialization and suitable hardness levels can indeed converge to the NC geometry if we incorporate unit-ball or unit-sphere feature normalization. Without incorporating hard negatives or feature normalization, however, the representations learned via ADAM suffer from dimensional collapse (DC) and fail to attain the NC geometry.
翻訳日:2023-11-10 16:05:09 公開日:2023-11-09
# 変圧器を用いたタイト制約予測によるパワードライズ誘導の計算効率の向上

Improving Computational Efficiency for Powered Descent Guidance via Transformer-based Tight Constraint Prediction ( http://arxiv.org/abs/2311.05135v1 )

ライセンス: Link先を確認
Julia Briden, Trey Gurga, Breanna Johnson, Abhishek Cauligi, Richard Linares(参考訳) 本稿では,宇宙船搭載降下誘導問題の直接最適化定式化の計算複雑性を低減するためのスケーラブルなアルゴリズムであるtransformer-based powered descent guidance (t-pdg)を提案する。 t-pdgは、軌道最適化アルゴリズムの事前実行データを使用して、トランスニューラルネットワークをトレーニングし、動力降下誘導問題に対する問題パラメータとグローバル最適解の関係を正確に予測する。 この解は、制約された最小コスト軌道と最適着陸最終時刻に対応する厳密な制約の集合として符号化される。 変圧器ニューラルネットワークの注意機構を利用することで、宇宙船の状態と着陸地点パラメータのみを与えられた場合、時系列データの大規模なシーケンスを正確に予測することができる。 火星を動力とする降下誘導の実問題に適用すると、T-PDGは3自由度燃料最適軌道の計算に要する時間を1-8秒から500ミリ秒未満に短縮する。 安全で最適な解は、最終軌道に戻る前にt-pdgに実現可能性チェックを含めることで保証される。

In this work, we present Transformer-based Powered Descent Guidance (T-PDG), a scalable algorithm for reducing the computational complexity of the direct optimization formulation of the spacecraft powered descent guidance problem. T-PDG uses data from prior runs of trajectory optimization algorithms to train a transformer neural network, which accurately predicts the relationship between problem parameters and the globally optimal solution for the powered descent guidance problem. The solution is encoded as the set of tight constraints corresponding to the constrained minimum-cost trajectory and the optimal final time of landing. By leveraging the attention mechanism of transformer neural networks, large sequences of time series data can be accurately predicted when given only the spacecraft state and landing site parameters. When applied to the real problem of Mars powered descent guidance, T-PDG reduces the time for computing the 3 degree of freedom fuel-optimal trajectory, when compared to lossless convexification, from an order of 1-8 seconds to less than 500 milliseconds. A safe and optimal solution is guaranteed by including a feasibility check in T-PDG before returning the final trajectory.
翻訳日:2023-11-10 16:04:38 公開日:2023-11-09
# 機械学習技術を用いた森林火災データの探索と解析

Exploring and Analyzing Wildland Fire Data Via Machine Learning Techniques ( http://arxiv.org/abs/2311.05128v1 )

ライセンス: Link先を確認
Dipak Dulal, Joseph J. Charney, Michael Gallagher, Carmeliza Navasca, and Nicholas Skowronski(参考訳) 本研究は, ニュージャージー州サイラスリトル実験林において, 風速から算出した10Hz級熱電対温度と乱流運動エネルギー(TKE)の相関について検討した。 この計画の主な目的は、森林火災によるTKEを推定するための予測器として熱電対温度を使用する可能性を探ることであった。 Deep Neural Networks、Random Forest Regressor、Gradient Boosting、Gaussian Process Regressorなどの機械学習モデルを使用して、TKE値を予測するために熱電対温度摂動の可能性を評価する。 データビジュアライゼーションと相関分析により、熱電対温度とTKEのパターンと関係を明らかにし、基礎となるダイナミクスの洞察を与える。 予測器と対象変数の相関が弱いにもかかわらず,様々な機械学習モデルを用いて,TKEの予測精度を向上させる。 その結果,tkeの正確な推定において,特に回帰モデルから有意な成功を収めた。 この研究結果は、火災行動と煙モデリング科学に寄与し、機械学習アプローチの導入の重要性を強調し、大規模火災行動と乱流の間の複雑な関係を同定する。 熱電対温度を用いた正確なTKE推定は、火災管理戦略における意思決定を通知し、効果的なリスク軽減を促進し、火災管理の取り組みを最適化するモデルの改良を可能にする。 本研究は, 森林火災データ解析における機械学習技術の意義を強調し, 火災調査・管理の推進力を示すものである。

This research project investigated the correlation between a 10 Hz time series of thermocouple temperatures and turbulent kinetic energy (TKE) computed from wind speeds collected from a small experimental prescribed burn at the Silas Little Experimental Forest in New Jersey, USA. The primary objective of this project was to explore the potential for using thermocouple temperatures as predictors for estimating the TKE produced by a wildland fire. Machine learning models, including Deep Neural Networks, Random Forest Regressor, Gradient Boosting, and Gaussian Process Regressor, are employed to assess the potential for thermocouple temperature perturbations to predict TKE values. Data visualization and correlation analyses reveal patterns and relationships between thermocouple temperatures and TKE, providing insight into the underlying dynamics. The project achieves high accuracy in predicting TKE by employing various machine learning models despite a weak correlation between the predictors and the target variable. The results demonstrate significant success, particularly from regression models, in accurately estimating the TKE. The research findings contribute to fire behavior and smoke modeling science, emphasizing the importance of incorporating machine learning approaches and identifying complex relationships between fine-scale fire behavior and turbulence. Accurate TKE estimation using thermocouple temperatures allows for the refinement of models that can inform decision-making in fire management strategies, facilitate effective risk mitigation, and optimize fire management efforts. This project highlights the valuable role of machine learning techniques in analyzing wildland fire data, showcasing their potential to advance fire research and management practices.
翻訳日:2023-11-10 16:04:19 公開日:2023-11-09
# whisper in focus: エンコーダ層最適化による頑丈な音声分類の強化

Whisper in Focus: Enhancing Stuttered Speech Classification with Encoder Layer Optimization ( http://arxiv.org/abs/2311.05203v1 )

ライセンス: Link先を確認
Huma Ameer, Seemab Latif, Rabia Latif, Sana Mukhtar(参考訳) 近年,音声処理の分野での進歩により,最先端のディープラーニングアルゴリズムが実現され,現実的な応用の可能性が高まっている。 発声音声の自動識別は、ディープラーニング技術を用いて研究者が取り組んでいる応用の1つである。 近年, 音声認識モデルであるWav2vec2.0を用いて, 発声における拡散型を分類している。 wav2vec2.0は賞賛に値する結果を示したが、すべての不流動型を一般化する能力は限られている。 さらに、ベースモデルは12のエンコーダ層を使っているため、リソース集約型モデルと見なされる。 本研究は, 発声音声における不流動型分類のためのささやきの能力を明らかにするものである。 SEP28-kベンチマークデータセットの品質向上、分類のためのWhisperの探索、効率的なエンコーダ層凍結戦略の導入である。 最適化されたウィスパーモデルは平均F1スコア0.81を達成した。 本研究は, 拡散型同定におけるディープエンコーダ層の重要性を, 初期層と比較して大きく寄与したことを示すものである。 この研究は実質的な貢献を示し、効率的なソリューションに重点を移し、それによって将来的なイノベーションへと発展します。

In recent years, advancements in the field of speech processing have led to cutting-edge deep learning algorithms with immense potential for real-world applications. The automated identification of stuttered speech is one of such applications that the researchers are addressing by employing deep learning techniques. Recently, researchers have utilized Wav2vec2.0, a speech recognition model to classify disfluency types in stuttered speech. Although Wav2vec2.0 has shown commendable results, its ability to generalize across all disfluency types is limited. In addition, since its base model uses 12 encoder layers, it is considered a resource-intensive model. Our study unravels the capabilities of Whisper for the classification of disfluency types in stuttered speech. We have made notable contributions in three pivotal areas: enhancing the quality of SEP28-k benchmark dataset, exploration of Whisper for classification, and introducing an efficient encoder layer freezing strategy. The optimized Whisper model has achieved the average F1-score of 0.81, which proffers its abilities. This study also unwinds the significance of deeper encoder layers in the identification of disfluency types, as the results demonstrate their greater contribution compared to initial layers. This research represents substantial contributions, shifting the emphasis towards an efficient solution, thereby thriving towards prospective innovation.
翻訳日:2023-11-10 15:56:34 公開日:2023-11-09
# サイバー物理システムのグリーンレジリエンス

Green Resilience of Cyber-Physical Systems ( http://arxiv.org/abs/2311.05201v1 )

ライセンス: Link先を確認
Diaeddin Rimawi(参考訳) Cyber-Physical System (CPS) は、ハードウェアコンポーネントとソフトウェアコンポーネントの両方を結合してリアルタイムサービスを実行するシステムである。 システムの信頼性を維持することは、これらのサービスの継続的デリバリにとって重要です。 しかし、CPS実行環境は不確実性に満ちており、容易に性能劣化につながる可能性がある。 その結果、システムのレジリエンスを達成するためには、回復技術の必要性が高く、この技術は可能な限り緑色であることに留意する必要がある。 この初期の博士号の提案は、CPSにおけるレジリエンスとグリーンを達成するためのゲーム理論のソリューションを提案する。 ゲーム理論は意思決定の速さで知られており、システムが利益を最大化するものを選択するのに役立っている。 提案したゲームモデルは,人間とロボットが共通の目標を達成するための,現実の協調人工知能システム(CAIS)上で記述される。 システムの期待される結果は,CO2フットプリントを最小限に抑えたCAISのレジリエンスを実現する方法を示している。

Cyber-Physical System (CPS) represents systems that join both hardware and software components to perform real-time services. Maintaining the system's reliability is critical to the continuous delivery of these services. However, the CPS running environment is full of uncertainties and can easily lead to performance degradation. As a result, the need for a recovery technique is highly needed to achieve resilience in the system, with keeping in mind that this technique should be as green as possible. This early doctorate proposal, suggests a game theory solution to achieve resilience and green in CPS. Game theory has been known for its fast performance in decision-making, helping the system to choose what maximizes its payoffs. The proposed game model is described over a real-life collaborative artificial intelligence system (CAIS), that involves robots with humans to achieve a common goal. It shows how the expected results of the system will achieve the resilience of CAIS with minimized CO2 footprint.
翻訳日:2023-11-10 15:56:14 公開日:2023-11-09
# brainnetdiff:マルチモーダル拡散モデルによる脳ネットワーク生成を促進する生成ai

BrainNetDiff: Generative AI Empowers Brain Network Generation via Multimodal Diffusion Model ( http://arxiv.org/abs/2311.05199v1 )

ライセンス: Link先を確認
Yongcheng Zong, Shuqiang Wang(参考訳) 脳のネットワーク解析は、脳の機能や疾患のメカニズムをより深く理解するための重要な方法である。 様々なネットワーク構築アプローチが存在するにもかかわらず、構造的脳画像データと機能的脳画像データの相関の学習には欠点が残っている。 そこで我々は,fMRI時系列から関連する特徴を抽出するためにマルチヘッドトランスフォーマーエンコーダを組み合わせたBrainNetDiffという新しい手法を導入し,脳ネットワーク生成のための条件付き潜時拡散モデルを統合する。 条件付きプロンプトと融合注意機構を利用して、脳ネットワーク生成の精度と安定性を大幅に向上させる。 私たちの知る限りでは、このフレームワークは、マルチモーダル脳イメージングと、画像からグラフへの脳ネットワーク生成の融合に拡散を利用する最初のフレームワークです。 本研究は,本研究の枠組みを用いて,健常者および神経学的障害のあるコホート間の脳ネットワーク構築における有用性を検証する。 実験の結果, 下流病の分類課題において, 提案手法が有意な有効性を示した。 これらの知見は、脳ネットワーク研究の分野における将来的な価値、特に神経画像解析と疾患診断における重要な意義を強調している。 本研究は,マルチモーダル脳イメージングデータの処理に有用なリファレンスを提供し,ニューロイメージングの分野における新しい効率的な解決法を提案する。

Brain network analysis has emerged as pivotal method for gaining a deeper understanding of brain functions and disease mechanisms. Despite the existence of various network construction approaches, shortcomings persist in the learning of correlations between structural and functional brain imaging data. In light of this, we introduce a novel method called BrainNetDiff, which combines a multi-head Transformer encoder to extract relevant features from fMRI time series and integrates a conditional latent diffusion model for brain network generation. Leveraging a conditional prompt and a fusion attention mechanism, this method significantly improves the accuracy and stability of brain network generation. To the best of our knowledge, this represents the first framework that employs diffusion for the fusion of the multimodal brain imaging and brain network generation from images to graphs. We validate applicability of this framework in the construction of brain network across healthy and neurologically impaired cohorts using the authentic dataset. Experimental results vividly demonstrate the significant effectiveness of the proposed method across the downstream disease classification tasks. These findings convincingly emphasize the prospective value in the field of brain network research, particularly its key significance in neuroimaging analysis and disease diagnosis. This research provides a valuable reference for the processing of multimodal brain imaging data and introduces a novel, efficient solution to the field of neuroimaging.
翻訳日:2023-11-10 15:55:59 公開日:2023-11-09
# リモートセンシングクラウド理解を支援するAdaptive-Labeling

Adaptive-Labeling for Enhancing Remote Sensing Cloud Understanding ( http://arxiv.org/abs/2311.05198v1 )

ライセンス: Link先を確認
Jay Gala, Sauradip Nag, Huichou Huang, Ruirui Liu and Xiatian Zhu(参考訳) クラウド分析は気象と気候科学の重要な要素であり、災害管理など様々な分野に影響を及ぼす。 しかしながら、クラウドセグメンテーションのようなきめ細かいクラウド分析をリモートセンシングで達成することは、正確なラベルを取得することが本質的に困難であるため、トレーニングデータのエラーを著しくラベリングすることに繋がる。 既存のメソッドは、信頼できるセグメンテーションアノテーションを前提として、全体的なパフォーマンスを制限します。 この本質的な制限に対処するために,我々は,データアノテーションのトレーニングの質向上と学習モデルの性能向上のために反復的に動作する,革新的なモデル非依存クラウド適応ラベル(cal)アプローチを導入する。 本手法は,クラウドセグメンテーションモデルをオリジナルのアノテーションを用いてトレーニングすることで開始する。 その後、雲のトレーニング画像に適応的にラベル付けするためのトレーニング可能なピクセル強度閾値を導入する。 新たに生成されたラベルはモデルを微調整するために使用される。 複数の標準クラウドセグメンテーションベンチマークで行った大規模な実験は、既存のセグメンテーションモデルの性能を大幅に向上させるアプローチの有効性を示した。 我々のCAL法は,既存手法と比較して,新しい最先端結果を確立する。

Cloud analysis is a critical component of weather and climate science, impacting various sectors like disaster management. However, achieving fine-grained cloud analysis, such as cloud segmentation, in remote sensing remains challenging due to the inherent difficulties in obtaining accurate labels, leading to significant labeling errors in training data. Existing methods often assume the availability of reliable segmentation annotations, limiting their overall performance. To address this inherent limitation, we introduce an innovative model-agnostic Cloud Adaptive-Labeling (CAL) approach, which operates iteratively to enhance the quality of training data annotations and consequently improve the performance of the learned model. Our methodology commences by training a cloud segmentation model using the original annotations. Subsequently, it introduces a trainable pixel intensity threshold for adaptively labeling the cloud training images on the fly. The newly generated labels are then employed to fine-tune the model. Extensive experiments conducted on multiple standard cloud segmentation benchmarks demonstrate the effectiveness of our approach in significantly boosting the performance of existing segmentation models. Our CAL method establishes new state-of-the-art results when compared to a wide array of existing alternatives.
翻訳日:2023-11-10 15:55:40 公開日:2023-11-09
# ct肺血管造影画像における深部学習 : 肺塞栓症検出のためのデュアルプロングアプローチ

Deep Learning in Computed Tomography Pulmonary Angiography Imaging: A Dual-Pronged Approach for Pulmonary Embolism Detection ( http://arxiv.org/abs/2311.05197v1 )

ライセンス: Link先を確認
Fabiha Bushra, Muhammad E. H. Chowdhury, Rusab Sarmun, Saidul Kabir, Menatalla Said, Sohaib Bassam Zoghoul, Adam Mushtak, Israa Al-Hashimi, Abdulrahman Alqahtani, Anwarul Hasan(参考訳) 肺塞栓症 (PE) は肺動脈閉塞を特徴とする重篤な疾患である。 主要な健康上の懸念にもかかわらず、しばしばうつ病の臨床的結果につながる。 診断のためのct肺血管造影法への依存が高まり,診断ソリューションの強化が求められている。 本研究の目的は,深層学習技術を活用し,PEのコンピュータ支援診断を強化することである。 本研究はPE診断の分類と検出を併用した包括的2段階的アプローチを提案する。 本稿では,大域および局所の病変領域に対処する意識誘導畳み込みニューラルネットワーク(AG-CNN)を提案する。 検出には、潜在的PE領域をピンポイントするために最先端モデルを用いる。 異なるアンサンブル技術は、異なるモデルからの予測を組み合わせることにより、検出精度をさらに向上する。 最後に、ヒューリスティック戦略は、分類器出力と検出結果を統合し、堅牢で正確なPE識別を保証する。 FUMPE(Ferdowsi University of Mashhad's lung Embolism)データセットを用いた注意誘導型分類法は,受信者操作特性下での面積の8.1%増加を達成し,ベースラインモデルであるDenseNet-121を上回った。 検出モデルを用いたアンサンブル技術を用いることで、平均平均精度(mAP)は4.7%向上した。 分類器誘導フレームワークは、さらにmAPとF1のスコアをアンサンブルモデルよりも洗練させた。 本研究は, 深層学習を用いたPE診断への包括的アプローチを提供し, 診断下診断と誤診の問題に対処する。 我々は、臨床ワークフローにAIソリューションを統合することにより、PE患者のケアを改善することを目指しており、医療診断における人間とAIの連携の可能性を強調している。

Pulmonary Embolism (PE) is a critical medical condition characterized by obstructions in the pulmonary arteries. Despite being a major health concern, it often goes underdiagnosed leading to detrimental clinical outcomes. The increasing reliance on Computed Tomography Pulmonary Angiography for diagnosis presents challenges and a pressing need for enhanced diagnostic solutions. The primary objective of this study is to leverage deep learning techniques to enhance the Computer Assisted Diagnosis of PE. This study presents a comprehensive dual-pronged approach combining classification and detection for PE diagnosis. We introduce an Attention-Guided Convolutional Neural Network (AG-CNN) for classification, addressing both global and local lesion region. For detection, state-of-the-art models are employed to pinpoint potential PE regions. Different ensembling techniques further improve detection accuracy by combining predictions from different models. Finally, a heuristic strategy integrates classifier outputs with detection results, ensuring robust and accurate PE identification. Our attention-guided classification approach, tested on the Ferdowsi University of Mashhad's Pulmonary Embolism (FUMPE) dataset, outperformed the baseline model DenseNet-121 by achieving an 8.1% increase in the Area Under the Receiver Operating Characteristic. By employing ensemble techniques with detection models, the mean average precision (mAP) was considerably enhanced by a 4.7% increase. The classifier-guided framework further refined the mAP and F1 scores over the ensemble models. Our research offers a comprehensive approach to PE diagnostics using deep learning, addressing the prevalent issues of underdiagnosis and misdiagnosis. We aim to improve PE patient care by integrating AI solutions into clinical workflows, highlighting the potential of human-AI collaboration in medical diagnostics.
翻訳日:2023-11-10 15:55:22 公開日:2023-11-09
# 富士通デジタルアニーラーにおける組合せ最適化問題の解法

Solving Combinatorial Optimization Problems on Fujitsu Digital Annealer ( http://arxiv.org/abs/2311.05196v1 )

ライセンス: Link先を確認
Yu-Ting Kao, Jia-Le Liao, Hsiu-Chuan Hsu(参考訳) 組合せ最適化問題は様々な分野や応用においてユビキタスである。 この種の問題を解決するために多くのヒューリスティックアルゴリズムが費やされている。 最適解を見つけるための効率を高めるために,2次非制約二元最適化(QUBO)を用いた組合せ最適化問題を解くために,DA(Digital Annealer)と呼ばれるアプリケーション固有のハードウェアを開発した。 本研究では,数分割問題とグラフ分割問題をQUBO形式に定式化し,富士通製DAを用いてこの問題を解いた。 数分割問題のqubo定式化は完全連結である。 DAは6500のバイナリ変数に対して、最適なソリューション全体のランタイムが30秒未満であることを発見した。 グラフ分割問題に対して,我々は分割の品質を決定する指標としてモジュール性を採用した。 Zachary の Karate Club グラフでは、モジュラリティは 0.445 であり、D-wave Quantum Annealer と Simulated Annealing に対して6%増加した。 さらに,実世界の問題に対するdaの潜在的な応用を探求するために,電力流通ネットワークにおけるコミュニティや仮想マイクログリッドの探索を例として用いた。 問題はグラフ分割に定式化された。 その結果,DAはIEEE 33-busとIEEE 118-busネットワークのコミュニティ構造を効果的に同定した。

Combinatorial optimization problems are ubiquitous in various disciplines and applications. Many heuristic algorithms have been devoted to solve these types of problems. In order to increase the efficiency for finding the optimal solutions, an application-specific hardware, called digital annealer (DA) has been developed for solving combinatorial optimization problems using quadratic unconstrained binary optimization (QUBO) formulations. In this study, we formulated the number partitioning problem and the graph partitioning problem into QUBO forms and solved such problems with the DA developed by Fujitsu Ltd. The QUBO formulation of the number partitioning problem is fully connected. The DA found the overall runtime for the optimal solution to be less than 30 seconds for 6500 binary variables. For the graph partitioning problem, we adopted modularity as the metric for determining the quality of the partitions. For Zachary's Karate Club graph, the modularity obtained was 0.445, a 6% increase against D-wave Quantum Annealer and Simulated Annealing. Moreover, to explore the DA's potential applications to real-world problems, we used the search for communities or virtual microgrids in a power distribution network as an example. The problem was formulated into graph partitioning. It is shown that the DA effectively identified community structures in the IEEE 33-bus and IEEE 118-bus network.
翻訳日:2023-11-10 15:54:55 公開日:2023-11-09
# TransReg:マルチビューマンモグラムマス検出のための自動登録モジュールとしてのクロストランス

TransReg: Cross-transformer as auto-registration module for multi-view mammogram mass detection ( http://arxiv.org/abs/2311.05192v1 )

ライセンス: Link先を確認
Hoang C. Nguyen, Chi Phan, Hieu H. Pham(参考訳) スクリーニングマンモグラフィは乳がんの早期発見に最も広く用いられている方法であり、死亡率を著しく低下させる。 マルチビューマンモグラムからの情報の統合は、放射線医の信頼性を高め、同じ乳房の二重視で病変の存在と位置を相互参照できるため、偽陽性率を低下させる。 そこで本研究では, craniocaudal (cc) と mediolateral oblique (mlo) の関係を利用するコンピュータ支援検出 (cad) システムである transreg を提案する。 本システムでは,siamese fast rcnnネットワークによって抽出された関心領域(rois)間の関係をモデルとするクロストランスフォーマを含む。 我々の研究は、クロストランスフォーマーをオブジェクト検出フレームワークに統合して、異方性ビューの関係をモデル化した初めてのものです。 DDSMおよびVinDr-Mammoデータセットの実験的評価により,SwinTを特徴抽出器として搭載したTransRegが最先端性能を実現することを示す。 具体的には、0.5イメージ当たりの偽陽性率で、SwinTを使用したTransRegはDDSMデータセットの83.3%、VinDr-Mammoデータセットの79.7%でリコールされる。 さらに,クロストランスフォーマが自動登録モジュールとして機能することを示すために,総合的な解析を行い,この情報を用いて最終的な予測を行う。 専門家放射線科医の 複製診断ワークフローです

Screening mammography is the most widely used method for early breast cancer detection, significantly reducing mortality rates. The integration of information from multi-view mammograms enhances radiologists' confidence and diminishes false-positive rates since they can examine on dual-view of the same breast to cross-reference the existence and location of the lesion. Inspired by this, we present TransReg, a Computer-Aided Detection (CAD) system designed to exploit the relationship between craniocaudal (CC), and mediolateral oblique (MLO) views. The system includes cross-transformer to model the relationship between the region of interest (RoIs) extracted by siamese Faster RCNN network for mass detection problems. Our work is the first time cross-transformer has been integrated into an object detection framework to model the relation between ipsilateral views. Our experimental evaluation on DDSM and VinDr-Mammo datasets shows that our TransReg, equipped with SwinT as a feature extractor achieves state-of-the-art performance. Specifically, at the false positive rate per image at 0.5, TransReg using SwinT gets a recall at 83.3% for DDSM dataset and 79.7% for VinDr-Mammo dataset. Furthermore, we conduct a comprehensive analysis to demonstrate that cross-transformer can function as an auto-registration module, aligning the masses in dual-view and utilizing this information to inform final predictions. It is a replication diagnostic workflow of expert radiologists
翻訳日:2023-11-10 15:54:34 公開日:2023-11-09
# 指向性ビデオの視覚的サリエンシ

Audio-visual Saliency for Omnidirectional Videos ( http://arxiv.org/abs/2311.05190v1 )

ライセンス: Link先を確認
Yuxin Zhu, Xilei Zhu, Huiyu Duan, Jie Li, Kaiwei Zhang, Yucheng Zhu, Li Chen, Xiongkuo Min, Guangtao Zhai(参考訳) 全方向ビデオ(ODV)の視覚的サリエンシ予測は、全方向ビデオがODV符号化、ODV伝送、ODVレンダリングなどを支援する上で非常に重要かつ必要であることを示している。 しかし、ほとんどの研究は、ODVの視聴行動に大きな影響を及ぼすにもかかわらず、音声はめったに考慮されないが、ODVの精度予測のための視覚情報のみを考慮する。 これは主に、大規模オーディオ視覚型ODVデータセットの欠如とそれに対応する分析が原因である。 そこで,本稿では,全方位映像,音声,およびミュート,モノ,アンビソニックといった3種類の映像音声の視線追跡データを含む全方位映像(avs-odv)に対して,最大規模の音声ビジュアルサリエンシーデータセットを構築した。 次に、AVS-ODVデータセットに基づいて、全方向のオーディオモーダルと視覚シーンの観察者の視覚的注意行動を分析する。 さらに,avs-odvデータセットにおける最先端のsaliency予測モデルの性能を比較し,新しいベンチマークを構築した。 AVS-ODVデータセットとベンチマークは、将来の研究を促進するためにリリースされます。

Visual saliency prediction for omnidirectional videos (ODVs) has shown great significance and necessity for omnidirectional videos to help ODV coding, ODV transmission, ODV rendering, etc.. However, most studies only consider visual information for ODV saliency prediction while audio is rarely considered despite its significant influence on the viewing behavior of ODV. This is mainly due to the lack of large-scale audio-visual ODV datasets and corresponding analysis. Thus, in this paper, we first establish the largest audio-visual saliency dataset for omnidirectional videos (AVS-ODV), which comprises the omnidirectional videos, audios, and corresponding captured eye-tracking data for three video sound modalities including mute, mono, and ambisonics. Then we analyze the visual attention behavior of the observers under various omnidirectional audio modalities and visual scenes based on the AVS-ODV dataset. Furthermore, we compare the performance of several state-of-the-art saliency prediction models on the AVS-ODV dataset and construct a new benchmark. Our AVS-ODV datasets and the benchmark will be released to facilitate future research.
翻訳日:2023-11-10 15:54:05 公開日:2023-11-09
# 超高速全光第2高調波面整形

Ultrafast all-optical second harmonic wavefront shaping ( http://arxiv.org/abs/2311.05187v1 )

ライセンス: Link先を確認
A. Sinelnik, S. H. Lam, F. Coviello, S. Klimmer, G. Della Valle, D.-Y.Choi, T. Pertsch, G. Soavi, I. Staude(参考訳) 光通信は、データを光ビームの軌道角運動量にエンコードすることで回転させることができる。 しかし、複雑な光波面の動的制御のための最先端のアプローチは、本質的に応答時間が遅い液晶空間光変調器や小型ミラーを主に用いている。 そこで我々は,光の波面の複雑な制御をパルス拡散制限力学で実現するハイブリッドメタ光学系を実験的に実現した。 具体的には、WSe2単層における超高速偏光スイッチングと誘電体準曲面を組み合わせることで、フェムト秒時間スケールにおける第2高調波ビームの偏向と軌道角運動量の構造を示す。 その結果,実世界の通信アプリケーションと互換性のある応答時間に到達しながら,自由空間光リンクのための情報の堅牢なエンコーディングへの道が開けた。

Optical communication can be revolutionized by encoding data into the orbital angular momentum of light beams. However, state-of-the-art approaches for dynamic control of complex optical wavefronts are mainly based on liquid crystal spatial light modulators or miniaturized mirrors, which suffer from intrinsically slow response times. Here, we experimentally realize a hybrid meta-optical system that enables complex control of the wavefront of light with pulse-duration limited dynamics. Specifically, by combining ultrafast polarization switching in a WSe2 monolayer with a dielectric metasurface, we demonstrate second harmonic beam deflection and structuring of orbital angular momentum on the femtosecond timescale. Our results pave the way to robust encoding of information for free space optical links, while reaching response times compatible with real-world telecom applications.
翻訳日:2023-11-10 15:53:44 公開日:2023-11-09
# グラフの弱さと強烈な専門家の混在

Mixture of Weak & Strong Experts on Graphs ( http://arxiv.org/abs/2311.05185v1 )

ライセンス: Link先を確認
Hanqing Zeng, Hanjia Lyu, Diyi Hu, Yinglong Xia, Jiebo Luo(参考訳) 実数グラフは、ノードの豊富な自己特徴と近隣の情報構造の両方を含み、典型的な設定でGNNが共同で扱う。 本稿では,弱い専門家と強い専門家(Mowst)が混在し,弱い専門家が軽量多層パーセプトロン(MLP)であり,強い専門家が既製のグラフニューラルネットワーク(GNN)である2つのモードを分離することを提案する。 専門家の協力関係を異なる目標ノードに適応させるために,弱い専門家の予測ロジットの分散に基づく「自信」機構を提案する。 強い専門家は、ノードの分類が近隣情報に依存するか、弱い専門家がモデル品質の低い場合に条件的に活性化される。 我々は,信頼度関数が損失に与える影響を分析することによって,興味深いトレーニングダイナミクスを明らかにする。 さらに、我々の"自信"設計は、GNNのより良い一般化能力の恩恵を受けるために、強力な専門家に対して望ましいバイアスを与えます。 Mowstは最適化が容易で、単一のGNNに匹敵する計算コストで強力な表現力を実現する。 経験的に、mowstは6つの標準ノード分類ベンチマーク(ホモフィアグラフとヘテロフィアグラフの両方を含む)においてかなりの精度向上を示している。

Realistic graphs contain both rich self-features of nodes and informative structures of neighborhoods, jointly handled by a GNN in the typical setup. We propose to decouple the two modalities by mixture of weak and strong experts (Mowst), where the weak expert is a light-weight Multi-layer Perceptron (MLP), and the strong expert is an off-the-shelf Graph Neural Network (GNN). To adapt the experts' collaboration to different target nodes, we propose a "confidence" mechanism based on the dispersion of the weak expert's prediction logits. The strong expert is conditionally activated when either the node's classification relies on neighborhood information, or the weak expert has low model quality. We reveal interesting training dynamics by analyzing the influence of the confidence function on loss: our training algorithm encourages the specialization of each expert by effectively generating soft splitting of the graph. In addition, our "confidence" design imposes a desirable bias toward the strong expert to benefit from GNN's better generalization capability. Mowst is easy to optimize and achieves strong expressive power, with a computation cost comparable to a single GNN. Empirically, Mowst shows significant accuracy improvement on 6 standard node classification benchmarks (including both homophilous and heterophilous graphs).
翻訳日:2023-11-10 15:53:28 公開日:2023-11-09
# 原子メカニカルオシレータにおける2モードスクイーズ状態の創製

Creation of Two-Mode Squeezed States in Atomic Mechanical Oscillators ( http://arxiv.org/abs/2311.05175v1 )

ライセンス: Link先を確認
Wui Seng Leong, Mingjie Xin, Zilong Chen, Yu Wang, and Shau-Yu Lan(参考訳) 連続変数系における2成分量子相関を持つ絡み合った状態である2モード圧縮状態は、量子情報処理とメトロロジーにおいて重要である。 近年、閉じ込められた原子の振動モードを持つ連続変数量子コンピューティングは、スピン量子ビットとのハイブリダイゼーションにおいて高い制御性を備えた大きな進歩を遂げている。 このようなプラットフォームで2モードの圧縮状態を作成することで、光子しか使えないアプリケーションが可能になる。 ここでは,2次元光学格子の原子を量子レジスタとして利用することにより,2モード圧縮状態の実験的実証を行う。 状態は、2つの独立した圧縮状態の相対位相に条件付けられた制御プロジェクションによって生成される。 個々のスクイージングは発振器の周波数の突然のジャンプによって生成され、2モードのスクイージング状態は発振周波数の分数以内の速度で発生する。 コンタングルメントステアリング基準とフォック状態解析による状態の検証を行った。 この結果は、量子センシングおよび連続可変量子情報のための他の機械振動子に適用できる。

Two-mode squeezed states, which are entangled states with bipartite quantum correlations in continuous-variable systems, are crucial in quantum information processing and metrology. Recently, continuous-variable quantum computing with the vibrational modes of trapped atoms has emerged with significant progress, featuring a high degree of control in hybridizing with spin qubits. Creating two-mode squeezed states in such a platform could enable applications that are only viable with photons. Here, we experimentally demonstrate two-mode squeezed states by employing atoms in a two-dimensional optical lattice as quantum registers. The states are generated by a controlled projection conditioned on the relative phase of two independent squeezed states. The individual squeezing is created by sudden jumps of the oscillators' frequencies, allowing generating of the two-mode squeezed states at a rate within a fraction of the oscillation frequency. We validate the states by entanglement steering criteria and Fock state analysis. Our results can be applied in other mechanical oscillators for quantum sensing and continuous-variable quantum information.
翻訳日:2023-11-10 15:53:07 公開日:2023-11-09
# 大規模スパイクニューラルネットワークの訓練における残留接続の再考

Rethinking Residual Connection in Training Large-Scale Spiking Neural Networks ( http://arxiv.org/abs/2311.05171v1 )

ライセンス: Link先を確認
Yudong Li, Yunlin Lei, Xu Yang(参考訳) spiking neural network (snn)は、最も有名な脳に触発されたモデルとして知られている。 大規模SNNの訓練を容易にするため,多くのトレーニング手法が人工ニューラルネットワーク(ANN)から借用されている。 しかし、SNNのユニークな特徴は、SNNでは利用できないANNに事前の直観を組み込むことである。 spiking resnetのトポロジーについていくつかの先駆的な試みを行った研究があるが、異なる接続の利点はいまだに不明である。 この問題に取り組むために,様々なコネクションのメリットと限界を分析し,広範な実験で実証的にアイデアを実証する。 そこで,我々は,最も優れた接続を高密度付加性(DA)接続に抽象化し,その概念を他のトポロジに拡張し,大規模SNNをトレーニングするための4つのアーキテクチャを提案し,これをDANetと呼び,13.24%の精度向上を実現した。 さらに、大規模SNNのトポロジを設計するための詳細な方法論を示すため、様々なスケールのデータセットのパフォーマンスの観点から、それらの適用シナリオについて詳細な議論を行い、先行アーキテクチャよりもその利点を実証する。 トレーニングコストが低い場合には、最高のパフォーマンスのResNet-50/101/152が、ImageNetの73.71%/76.13%/77.22%のトップ-1の精度を4ステップで取得します。 本研究は今後,ネットワークのトポロジを設計し,大規模SNNの開発を促進するための知見を与えるだろうと考えている。 コードは公開される予定だ。

Spiking Neural Network (SNN) is known as the most famous brain-inspired model, but the non-differentiable spiking mechanism makes it hard to train large-scale SNNs. To facilitate the training of large-scale SNNs, many training methods are borrowed from Artificial Neural Networks (ANNs), among which deep residual learning is the most commonly used. But the unique features of SNNs make prior intuition built upon ANNs not available for SNNs. Although there are a few studies that have made some pioneer attempts on the topology of Spiking ResNet, the advantages of different connections remain unclear. To tackle this issue, we analyze the merits and limitations of various residual connections and empirically demonstrate our ideas with extensive experiments. Then, based on our observations, we abstract the best-performing connections into densely additive (DA) connection, extend such a concept to other topologies, and propose four architectures for training large-scale SNNs, termed DANet, which brings up to 13.24% accuracy gain on ImageNet. Besides, in order to present a detailed methodology for designing the topology of large-scale SNNs, we further conduct in-depth discussions on their applicable scenarios in terms of their performance on various scales of datasets and demonstrate their advantages over prior architectures. At a low training expense, our best-performing ResNet-50/101/152 obtain 73.71%/76.13%/77.22% top-1 accuracy on ImageNet with 4 time steps. We believe that this work shall give more insights for future works to design the topology of their networks and promote the development of large-scale SNNs. The code will be publicly available.
翻訳日:2023-11-10 15:52:50 公開日:2023-11-09
# 多文書要約に着目したバイオメディカルクエリのための大規模言語モデルとプロンプトエンジニアリング

Large Language Models and Prompt Engineering for Biomedical Query Focused Multi-Document Summarisation ( http://arxiv.org/abs/2311.05169v1 )

ライセンス: Link先を確認
Diego Moll\'a(参考訳) 本稿では, バイオメディカルクエリに着目した多文書要約におけるプロンプトエンジニアリングとGPT-3.5の利用について報告する。 GPT-3.5と適切なプロンプトを用いて,2023年のBioASQ Challenge (BioASQ 11b) において, バイオメディカル質問に対する短時間の回答を得ることで, ROUGE-F1の上位に到達した。 本稿では,他の領域で何が観察されたかを確認する。 1) 少数ショットサンプルを組み込んだプロンプトは,通常,その反対のゼロショット変種に対して改善される。 2) 最大改良は, 検索強化により達成された。 これらのプロンプトにより、トップランがbioasq 11bのトップ2にランクインできるという事実は、大言語モデル全般、特にgpt-3.5でクエリ中心の要約に適切なプロンプトを使用することのパワーを示しています。

This paper reports on the use of prompt engineering and GPT-3.5 for biomedical query-focused multi-document summarisation. Using GPT-3.5 and appropriate prompts, our system achieves top ROUGE-F1 results in the task of obtaining short-paragraph-sized answers to biomedical questions in the 2023 BioASQ Challenge (BioASQ 11b). This paper confirms what has been observed in other domains: 1) Prompts that incorporated few-shot samples generally improved on their counterpart zero-shot variants; 2) The largest improvement was achieved by retrieval augmented generation. The fact that these prompts allow our top runs to rank within the top two runs of BioASQ 11b demonstrate the power of using adequate prompts for Large Language Models in general, and GPT-3.5 in particular, for query-focused summarisation.
翻訳日:2023-11-10 15:52:19 公開日:2023-11-09
# firematch:一貫性と分布アライメントに基づく半教師付きビデオ火災検出ネットワーク

FireMatch: A Semi-Supervised Video Fire Detection Network Based on Consistency and Distribution Alignment ( http://arxiv.org/abs/2311.05168v1 )

ライセンス: Link先を確認
Qinghua Lin, Zuoyong Li, Kun Zeng, Haoyi Fan, Wei Li, Xiaoguang Zhou(参考訳) 深層学習技術はビデオにおける火災検知性能を大幅に向上させた。 しかし、ビデオベースの火災検知モデルはラベル付きデータに大きく依存しており、特にビデオを扱う場合、特にデータラベリングはコストと時間を要する。 ラベル付きビデオデータの限られた量を考慮すると,整合性正規化と対向分布アライメントに基づくFireMatchと呼ばれる半教師付き火災検知モデルを提案する。 具体的には、まず整合正則化と擬似ラベルを組み合わせる。 ラベルのないデータに対して,ビデオデータ拡張を設計し,弱い拡張と強い拡張のサンプルを得る。 提案モデルでは,弱い拡張サンプルを予測し,しきい値以上の擬似ラベルを保持するとともに,これらの擬似ラベルをトレーニングして,より堅牢な特徴表現を学習する。 次に,逆分布アライメントによる映像クロスセット拡張サンプルを生成し,トレーニングデータを拡大し,ラベル付きデータ不足による分類性能の低下を緩和する。 最後に,火災分類シナリオにおける非火災クラスに対する高い信頼性の問題に対処するため,モデルが入力サンプルの多様な予測を生成するのに役立つフェアネスロスを導入する。 2つの実世界の火災データセットで76.92%と91.81%の精度を達成した。 実験の結果,提案手法は最先端の半教師付き分類法よりも優れていた。

Deep learning techniques have greatly enhanced the performance of fire detection in videos. However, video-based fire detection models heavily rely on labeled data, and the process of data labeling is particularly costly and time-consuming, especially when dealing with videos. Considering the limited quantity of labeled video data, we propose a semi-supervised fire detection model called FireMatch, which is based on consistency regularization and adversarial distribution alignment. Specifically, we first combine consistency regularization with pseudo-label. For unlabeled data, we design video data augmentation to obtain corresponding weakly augmented and strongly augmented samples. The proposed model predicts weakly augmented samples and retains pseudo-label above a threshold, while training on strongly augmented samples to predict these pseudo-labels for learning more robust feature representations. Secondly, we generate video cross-set augmented samples by adversarial distribution alignment to expand the training data and alleviate the decline in classification performance caused by insufficient labeled data. Finally, we introduce a fairness loss to help the model produce diverse predictions for input samples, thereby addressing the issue of high confidence with the non-fire class in fire classification scenarios. The FireMatch achieved an accuracy of 76.92% and 91.81% on two real-world fire datasets, respectively. The experimental results demonstrate that the proposed method outperforms the current state-of-the-art semi-supervised classification methods.
翻訳日:2023-11-10 15:52:02 公開日:2023-11-09
# 単一アノテーションを無駄にしない:ソフトラベルによるシングルラベル分類の改善

Don't Waste a Single Annotation: Improving Single-Label Classifiers Through Soft Labels ( http://arxiv.org/abs/2311.05265v1 )

ライセンス: Link先を確認
Ben Wu, Yue Li, Yida Mu, Carolina Scarton, Kalina Bontcheva and Xingyi Song(参考訳) 本稿では,目的とする単一ラベル分類タスクに対する共通データアノテーションとトレーニング手法の限界に対処する。 通常、アノテータのアノテータはサンプル毎に1つのラベルしか提供せず、アノテータの不一致は、多数決によって最終ハードラベルが決定されるときに破棄される。 私たちはこの従来のアプローチに挑戦し、データサンプルの曖昧さとコンテキストの欠如のために適切なラベルを決定することは困難であることを認めます。 このようなあいまいなアノテーションから情報を破棄する代わりに、soft labelメソッドはそれらをトレーニングに利用します。 以上の結果から,信頼度,二次ラベル,不一致などの付加的な注釈情報を用いて,ソフトラベルを効果的に生成できることが示唆された。 これらのソフトラベルを用いたトレーニング分類器は、ハードラベルテストセットのパフォーマンスとキャリブレーションを改善する。

In this paper, we address the limitations of the common data annotation and training methods for objective single-label classification tasks. Typically, when annotating such tasks annotators are only asked to provide a single label for each sample and annotator disagreement is discarded when a final hard label is decided through majority voting. We challenge this traditional approach, acknowledging that determining the appropriate label can be difficult due to the ambiguity and lack of context in the data samples. Rather than discarding the information from such ambiguous annotations, our soft label method makes use of them for training. Our findings indicate that additional annotator information, such as confidence, secondary label and disagreement, can be used to effectively generate soft labels. Training classifiers with these soft labels then leads to improved performance and calibration on the hard label test set.
翻訳日:2023-11-10 15:42:55 公開日:2023-11-09
# モデルベース最小ベイズリスク復号

Model-Based Minimum Bayes Risk Decoding ( http://arxiv.org/abs/2311.05263v1 )

ライセンス: Link先を確認
Yuu Jinnai, Tetsuro Morimura, Ukyo Honda, Kaito Ariu, Kenshi Abe(参考訳) 最小ベイズリスク(MBR)デコーディングは、テキスト生成タスクにおけるビームサーチデコーディングの強力な代替手段であることが示されている。 MBR復号法は、与えられたユーティリティ関数に従って確率モデルの下で最小のリスクを持つ仮説のプールから仮説を選択する。 予想されるリスクを全ての仮説で正確に計算することは不可能であるため、MBRでは2つの近似が一般的に用いられる。 まず、すべての可能な仮説よりもむしろ、サンプル化された仮説の集合を統合する。 第二に、モンテカルロ推定器を用いて各仮説の確率を推定する。 第1の近似は計算可能となるために必要であるが、第2の近似は通常、推論時にモデル確率にアクセスするため必須ではない。 MBR のモデルベース MBR (MBMBR) は,モデル確率自体をモンテカルロ推定の代わりに確率分布の推定値として用いる。 テキスト生成タスクにおけるモンテカルロ推定よりもモデルに基づく推定の方が有望であることを示す。 実験の結果,MBMBRはエンコーダデコーダモデルと大規模言語モデルの両方で,テキスト生成タスクにおいてMBRよりも優れていた。

Minimum Bayes Risk (MBR) decoding has been shown to be a powerful alternative to beam search decoding in a variety of text generation tasks. MBR decoding selects a hypothesis from a pool of hypotheses that has the least expected risk under a probability model according to a given utility function. Since it is impractical to compute the expected risk exactly over all possible hypotheses, two approximations are commonly used in MBR. First, it integrates over a sampled set of hypotheses rather than over all possible hypotheses. Second, it estimates the probability of each hypothesis using a Monte Carlo estimator. While the first approximation is necessary to make it computationally feasible, the second is not essential since we typically have access to the model probability at inference time. We propose Model-Based MBR (MBMBR), a variant of MBR that uses the model probability itself as the estimate of the probability distribution instead of the Monte Carlo estimate. We show analytically and empirically that the model-based estimate is more promising than the Monte Carlo estimate in text generation tasks. Our experiments show that MBMBR outperforms MBR in several text generation tasks, both with encoder-decoder models and with large language models.
翻訳日:2023-11-10 15:42:41 公開日:2023-11-09
# 希薄測定による多体基底状態の冷却

Dilute measurement-induced cooling into many-body ground states ( http://arxiv.org/abs/2311.05258v1 )

ライセンス: Link先を確認
Josias Langbehn, Kyrylo Snizhko, Igor Gornyi, Giovanna Morigi, Yuval Gefen, Christiane P. Koch(参考訳) 量子システムを基底状態まで冷却することは、非自明な相互作用系の特徴づけや、様々な量子情報プラットフォームの文脈において重要である。 原則として、測定に基づく受動ステアリングプロトコルを用いることで、ステアリングステップが予め決められており、測定読み出しに基づいていない。 しかしながら、システムと補助的な量子自由度を結合する測定は、かなりコストがかかり、測定数とシステムサイズをスケールするプロトコルは、実用的適用性に制限がある。 本稿では、測定に基づく冷却プロトコルを希薄な限界に持ち込むことができる条件を特定する。 フラストレーションフリーな1次元スピン鎖の2つの例に対して、単一リンク上でのステアリングは、これらのシステムを独自の基底状態に冷却するのに十分であることを示す。 我々は,有限次元数値シミュレーションを用いて解析的議論を行い,さらなる応用について考察する。

Cooling a quantum system to its ground state is important for the characterization of non-trivial interacting systems, and in the context of a variety of quantum information platforms. In principle, this can be achieved by employing measurement-based passive steering protocols, where the steering steps are predetermined and are not based on measurement readouts. However, measurements, i.e., coupling the system to auxiliary quantum degrees of freedom, is rather costly, and protocols in which the number of measurements scales with system size will have limited practical applicability. Here, we identify conditions under which measurement-based cooling protocols can be taken to the dilute limit. For two examples of frustration-free one-dimensional spin chains, we show that steering on a single link is sufficient to cool these systems into their unique ground states. We corroborate our analytical arguments with finite-size numerical simulations and discuss further applications.
翻訳日:2023-11-10 15:42:22 公開日:2023-11-09
# 潜在タスク固有グラフネットワークシミュレータ

Latent Task-Specific Graph Network Simulators ( http://arxiv.org/abs/2311.05256v1 )

ライセンス: Link先を確認
Philipp Dahlinger, Niklas Freymuth, Michael Volpp, Tai Hoang, Gerhard Neumann(参考訳) 動的物理的相互作用のシミュレーションは、ロボット工学から物質科学まで、複数の科学分野において重要な課題である。 メッシュベースのシミュレーションでは、グラフネットワークシミュレータ(GNS)が従来の物理ベースのシミュレータに代わる効率的な代替となる。 それらの固有の微分性と速度は、特に逆設計問題に適している。 しかし、利用可能な限られたデータから新しいタスクに適応することは、現在の方法が苦しむ現実のアプリケーションにとって重要な側面である。 我々は,メッシュに基づくシミュレーションをメタラーニング問題として捉え,最近のベイズメタラーニング手法を用いて,文脈データを活用し,不確実性に対処することで,新たなシナリオへのGASの適応性を向上させる。 提案手法では,非アモタイズされたタスク後続近似を用いて,未知のシステム特性の潜在記述をサンプリングする。 さらに,移動プリミティブを効率よく全軌道予測に利用し,従来の自己回帰手法による誤りの蓄積問題に効果的に対処する。 提案手法の有効性を,様々な実験により検証し,確立されたベースライン法と同等以上の性能を示した。 運動プリミティブは、推論中の点雲の利用を通して示されるように、さまざまな種類のコンテキストデータに適合する。 GNSとメタラーニングを組み合わせることで、特に小さなデータセットを持つシナリオにおいて、現実の応用性に近づきます。

Simulating dynamic physical interactions is a critical challenge across multiple scientific domains, with applications ranging from robotics to material science. For mesh-based simulations, Graph Network Simulators (GNSs) pose an efficient alternative to traditional physics-based simulators. Their inherent differentiability and speed make them particularly well-suited for inverse design problems. Yet, adapting to new tasks from limited available data is an important aspect for real-world applications that current methods struggle with. We frame mesh-based simulation as a meta-learning problem and use a recent Bayesian meta-learning method to improve GNSs adaptability to new scenarios by leveraging context data and handling uncertainties. Our approach, latent task-specific graph network simulator, uses non-amortized task posterior approximations to sample latent descriptions of unknown system properties. Additionally, we leverage movement primitives for efficient full trajectory prediction, effectively addressing the issue of accumulating errors encountered by previous auto-regressive methods. We validate the effectiveness of our approach through various experiments, performing on par with or better than established baseline methods. Movement primitives further allow us to accommodate various types of context data, as demonstrated through the utilization of point clouds during inference. By combining GNSs with meta-learning, we bring them closer to real-world applicability, particularly in scenarios with smaller datasets.
翻訳日:2023-11-10 15:42:06 公開日:2023-11-09
# 医療領域における不確実性ラッパー--不透明機械学習モデルの透明不確実性定量化の実際

Uncertainty Wrapper in the medical domain: Establishing transparent uncertainty quantification for opaque machine learning models in practice ( http://arxiv.org/abs/2311.05245v1 )

ライセンス: Link先を確認
Lisa J\"ockel, Michael Kl\"as, Georg Popp, Nadja Hilger, Stephan Fricke(参考訳) システムは機械学習(ML)に基づくデータベースモデルを使用する場合、結果のエラーを除外することはできない。 特に重要なのは、これらのモデルがどのように決定に到達したのか、そしてエラーが医療現場でよく見られるように、安全関連の結果をもたらす可能性があるかどうかがユーザーに不明確である場合である。 このような場合、結果に残る不確実性を定量化するための信頼可能な方法を使用することで、ユーザは、さらなる使用について情報的決定を行い、与えられた結果に基づいて可能な結論を引き出すことができる。 本稿では,フローサイトメトリーを用いた不確かさラッパーの適用性および実用性について,信頼性と透明な不確実性定量化とともにMLモデルの利用の恩恵を受けることができる医療分野の応用として示す。

When systems use data-based models that are based on machine learning (ML), errors in their results cannot be ruled out. This is particularly critical if it remains unclear to the user how these models arrived at their decisions and if errors can have safety-relevant consequences, as is often the case in the medical field. In such cases, the use of dependable methods to quantify the uncertainty remaining in a result allows the user to make an informed decision about further usage and draw possible conclusions based on a given result. This paper demonstrates the applicability and practical utility of the Uncertainty Wrapper using flow cytometry as an application from the medical field that can benefit from the use of ML models in conjunction with dependable and transparent uncertainty quantification.
翻訳日:2023-11-10 15:41:44 公開日:2023-11-09
# グラフ変換システムを用いたBPMNの形式化と分析のための高次変換手法

A higher-order transformation approach to the formalization and analysis of BPMN using graph transformation systems ( http://arxiv.org/abs/2311.05243v1 )

ライセンス: Link先を確認
Tim Kr\"auter, Adrian Rutle, Harald K\"onig, Yngve Lamo(参考訳) ビジネスプロセスモデリング表記法(BPMN)は、組織内および組織間ワークフローを定義するための広く使われている標準表記法である。 しかし、BPMN実行セマンティクスの非公式な記述は、BPMN要素の異なる解釈と振る舞い特性のチェックの困難をもたらす。 本稿では、BPMNの実行セマンティクスの形式化を提案し、既存のアプローチと比較して、より多くのBPMN要素をカバーし、プロパティチェックを容易にする。 当社のアプローチは、bpmnモデルからグラフ変換システムへの高次変換に基づいている。 このアプローチの能力を示すため、オープンソースのWebベースツールとして実装しました。 私たちのツールのデモはhttps://youtu.be/mxxbnul6ijeで閲覧できます。

The Business Process Modeling Notation (BPMN) is a widely used standard notation for defining intra- and inter-organizational workflows. However, the informal description of the BPMN execution semantics leads to different interpretations of BPMN elements and difficulties in checking behavioral properties. In this article, we propose a formalization of the execution semantics of BPMN that, compared to existing approaches, covers more BPMN elements while also facilitating property checking. Our approach is based on a higher-order transformation from BPMN models to graph transformation systems. To show the capabilities of our approach, we implemented it as an open-source web-based tool. A demonstration of our tool is available at https://youtu.be/MxXbNUl6IjE.
翻訳日:2023-11-10 15:41:26 公開日:2023-11-09
# Meta-Learningがオンラインと継続的学習に出会った時

When Meta-Learning Meets Online and Continual Learning: A Survey ( http://arxiv.org/abs/2311.05241v1 )

ライセンス: Link先を確認
Jaehyeon Son, Soochan Lee, Gunhee Kim(参考訳) 過去10年間で、ディープニューラルネットワークは、広範囲なデータセットに対するミニバッチ確率勾配降下を伴うトレーニングスキームを使用して大きな成功を収めた。 この成果を拡大して、他の学習シナリオにおけるニューラルネットワークの適用を探求する研究が急増している。 注目すべきフレームワークのひとつにメタ学習がある。 しばしば"学習のための学習"と表現されるメタラーニングは、学習アルゴリズムを最適化するためのデータ駆動アプローチである。 その他の関心分野としては、連続的な学習とオンライン学習があり、どちらもストリーミングデータでモデルを漸進的に更新する。 これらのフレームワークは当初独立して開発されたが、最近の研究はそれらの組み合わせを調査し始め、新しい問題設定と学習アルゴリズムを提案している。 しかし、複雑化と統一用語の欠如により、経験豊富な研究者でさえ、学習フレームワークの違いを識別することは困難である。 本稿では,一貫した用語と形式記述を用いて,様々な問題設定を整理する総合的な調査を行う。 これらの学習パラダイムの概要を提供することで、この有望な研究領域におけるさらなる進歩を促進することを目指しています。

Over the past decade, deep neural networks have demonstrated significant success using the training scheme that involves mini-batch stochastic gradient descent on extensive datasets. Expanding upon this accomplishment, there has been a surge in research exploring the application of neural networks in other learning scenarios. One notable framework that has garnered significant attention is meta-learning. Often described as "learning to learn," meta-learning is a data-driven approach to optimize the learning algorithm. Other branches of interest are continual learning and online learning, both of which involve incrementally updating a model with streaming data. While these frameworks were initially developed independently, recent works have started investigating their combinations, proposing novel problem settings and learning algorithms. However, due to the elevated complexity and lack of unified terminology, discerning differences between the learning frameworks can be challenging even for experienced researchers. To facilitate a clear understanding, this paper provides a comprehensive survey that organizes various problem settings using consistent terminology and formal descriptions. By offering an overview of these learning paradigms, our work aims to foster further advancements in this promising area of research.
翻訳日:2023-11-10 15:41:14 公開日:2023-11-09
# 量子ネイティブ通信システムに向けて:新しい発展、トレンド、課題

Towards Quantum-Native Communication Systems: New Developments, Trends, and Challenges ( http://arxiv.org/abs/2311.05239v1 )

ライセンス: Link先を確認
Xiaolin Zhou, Anqi Shen, Shuyan Hu, Wei Ni, Xin Wang, Ekram Hossain, and Lajos Hanzo(参考訳) 量子通信と将来の無線通信システムとのシナジーの可能性を探る。 量子ドメイン(QD)マルチインプットマルチアウトプット(MIMO)、QD非直交多重アクセス(NOMA)、量子セキュアダイレクト通信(QSDC)、QDリソース割り当て、QDルーティング、QD人工知能(AI)などの技術を検討する。 これらの分野での最近の研究成果を要約する。 フォトニックおよび粒子状テラヘルツ系(THz)の挙動を考えると、将来のシステムにおける量子通信の実現可能性を評価するための総合的なシステム指向の視点が採用される。 また、量子最適化アルゴリズムと量子ニューラルネットワークをレビューし、将来のシステムにおける量子通信と量子コンピューティングの潜在的な統合について検討する。 さらに、量子センシング、量子レーダ、量子タイミングの現在の状況は、将来の応用をサポートするために簡単にレビューされる。 絡み合うコヒーレンス時間の拡張、THz量子通信デバイスの開発、チャネル推定と追跡の課題への対処、量子通信、コンピューティング、センシングの理論的境界と性能トレードオフの確立など、関連する研究のギャップと今後の方向性が特定される。 この調査は、量子通信が将来のシステムに革命をもたらし、さらに高度な技術への道を開く可能性について、ユニークな視点を提供する。

The potential synergy between quantum communications and future wireless communication systems is explored. By proposing a quantum-native or quantum-by-design philosophy, the survey examines technologies such as quantum-domain (QD) multi-input multi-output (MIMO), QD non-orthogonal multiple access (NOMA), quantum secure direct communication (QSDC), QD resource allocation, QD routing, and QD artificial intelligence (AI). The recent research advances in these areas are summarized. Given the behavior of photonic and particle-like Terahertz (THz) systems, a comprehensive system-oriented perspective is adopted to assess the feasibility of using quantum communications in future systems. This survey also reviews quantum optimization algorithms and quantum neural networks to explore the potential integration of quantum communication and quantum computing in future systems. Additionally, the current status of quantum sensing, quantum radar, and quantum timing is briefly reviewed in support of future applications. The associated research gaps and future directions are identified, including extending the entanglement coherence time, developing THz quantum communications devices, addressing challenges in channel estimation and tracking, and establishing the theoretical bounds and performance trade-offs of quantum communication, computing, and sensing. This survey offers a unique perspective on the potential for quantum communications to revolutionize future systems and pave the way for even more advanced technologies.
翻訳日:2023-11-10 15:40:55 公開日:2023-11-09
# スポーツボール検出・追跡のための広く適用可能な強基線

Widely Applicable Strong Baseline for Sports Ball Detection and Tracking ( http://arxiv.org/abs/2311.05237v1 )

ライセンス: Link先を確認
Shuhei Tarashima, Muhammad Abdul Haq, Yushan Wang, Norio Tagawa(参考訳) 本稿では,様々なスポーツカテゴリに適用可能な新しいスポーツボール検出追跡法(sbdt)を提案する。 提案手法は,(1)高分解能特徴抽出,(2)位置認識モデルトレーニング,(3)時間的一貫性を考慮した推論から成り,これらすべてを新しいSBDTベースラインとしてまとめる。 さらに,本手法の適用性を検証するため,スポーツカテゴリーの5つのデータセットに対して,ベースラインを6つの最先端SBDT法と比較した。 2つのSBDTデータセットを新たに導入し、2つのデータセットに対して新しいボールアノテーションを提供し、拡張比較を容易にするためにすべてのメソッドを再実装することで、これを実現する。 実験の結果,本手法は,データセットでカバーされたすべてのスポーツカテゴリにおいて,既存の手法よりも大幅に優れていることがわかった。 提案手法はSBDTの広範適用性強いベースライン(WASB)として機能し,我々のデータセットとコードベースは将来のSBDT研究を促進するだろうと考えている。 データセットとコードは公開される予定だ。

In this work, we present a novel Sports Ball Detection and Tracking (SBDT) method that can be applied to various sports categories. Our approach is composed of (1) high-resolution feature extraction, (2) position-aware model training, and (3) inference considering temporal consistency, all of which are put together as a new SBDT baseline. Besides, to validate the wide-applicability of our approach, we compare our baseline with 6 state-of-the-art SBDT methods on 5 datasets from different sports categories. We achieve this by newly introducing two SBDT datasets, providing new ball annotations for two datasets, and re-implementing all the methods to ease extensive comparison. Experimental results demonstrate that our approach is substantially superior to existing methods on all the sports categories covered by the datasets. We believe our proposed method can play as a Widely Applicable Strong Baseline (WASB) of SBDT, and our datasets and codebase will promote future SBDT research. Datasets and codes will be made publicly available.
翻訳日:2023-11-10 15:40:28 公開日:2023-11-09
# 大規模言語モデルにおける幻覚に関する調査:原則,分類,課題,オープンな質問

A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions ( http://arxiv.org/abs/2311.05232v1 )

ライセンス: Link先を確認
Lei Huang, Weijiang Yu, Weitao Ma, Weihong Zhong, Zhangyin Feng, Haotian Wang, Qianglong Chen, Weihua Peng, Xiaocheng Feng, Bing Qin, Ting Liu(参考訳) 大規模言語モデル(LLM)の出現は、自然言語処理(NLP)において大きなブレークスルーをもたらし、テキスト理解と生成において顕著な進歩をもたらした。 それにもかかわらず、これらの進歩とともに、LLMは幻覚を生み出す重要な傾向を示し、結果として現実の事実やユーザ入力と矛盾する内容をもたらす。 この現象は現実のシナリオにおけるLSMの信頼性に対する懸念を提起し、これらの幻覚を検知し緩和するために注目を集める。 本研究は,llm幻覚の分野における最近の進歩について,徹底的かつ深く概観することを目的とする。 LLM幻覚の革新的な分類から始まり、幻覚に寄与する要因を掘り下げる。 その後,幻覚検出法とベンチマークの概要を概観する。 また、幻覚を緩和する代表的なアプローチも導入されている。 最後に,現在の限界を浮き彫りにしてオープン質問を定式化する課題を分析し,llmにおける幻覚研究の経路を明らかにすることを目的とした。

The emergence of large language models (LLMs) has marked a significant breakthrough in natural language processing (NLP), leading to remarkable advancements in text understanding and generation. Nevertheless, alongside these strides, LLMs exhibit a critical tendency to produce hallucinations, resulting in content that is inconsistent with real-world facts or user inputs. This phenomenon poses substantial challenges to their practical deployment and raises concerns over the reliability of LLMs in real-world scenarios, which attracts increasing attention to detect and mitigate these hallucinations. In this survey, we aim to provide a thorough and in-depth overview of recent advances in the field of LLM hallucinations. We begin with an innovative taxonomy of LLM hallucinations, then delve into the factors contributing to hallucinations. Subsequently, we present a comprehensive overview of hallucination detection methods and benchmarks. Additionally, representative approaches designed to mitigate hallucinations are introduced accordingly. Finally, we analyze the challenges that highlight the current limitations and formulate open questions, aiming to delineate pathways for future research on hallucinations in LLMs.
翻訳日:2023-11-10 15:40:09 公開日:2023-11-09
# conrad: 単一画像からの3次元生成のための画像制約ラミアンスフィールド

ConRad: Image Constrained Radiance Fields for 3D Generation from a Single Image ( http://arxiv.org/abs/2311.05230v1 )

ライセンス: Link先を確認
Senthil Purushwalkam and Nikhil Naik(参考訳) 単一のRGB画像から3Dオブジェクトを再構成する新しい手法を提案する。 本手法は,最新の画像生成モデルを利用して,入力画像に忠実なまま隠れた3d構造を推定する。 既存の方法ではテキストプロンプトから3Dモデルを生成するという印象的な結果が得られるが、入力されたRGBデータに対する条件付けは容易ではない。 これらの方法のna\"ive拡張は、入力画像と3次元再構成の間の外観の不適切なアライメントにつながることが多い。 ニューラル放射場の新しい変種である画像制約放射場(ConRad)を導入することで,これらの課題に対処する。 conradは1つの視点で入力画像の外観を明示的に捉える効率的な3d表現である。 本研究では,コンラッド表現のパラメータを最適化するために,事前学習した拡散モデルとともに単一のRGB画像を利用する訓練アルゴリズムを提案する。 広汎な実験により、ConRad表現はリアルな3D再構成を作成しながら、画像の保存を単純化できることが示された。 既存の最先端のベースラインと比較して、我々の3D再構成は入力に忠実であり、より一貫性のある3Dモデルを生成する一方で、ShapeNetオブジェクトベンチマーク上での定量的性能を著しく改善したことを示す。

We present a novel method for reconstructing 3D objects from a single RGB image. Our method leverages the latest image generation models to infer the hidden 3D structure while remaining faithful to the input image. While existing methods obtain impressive results in generating 3D models from text prompts, they do not provide an easy approach for conditioning on input RGB data. Na\"ive extensions of these methods often lead to improper alignment in appearance between the input image and the 3D reconstructions. We address these challenges by introducing Image Constrained Radiance Fields (ConRad), a novel variant of neural radiance fields. ConRad is an efficient 3D representation that explicitly captures the appearance of an input image in one viewpoint. We propose a training algorithm that leverages the single RGB image in conjunction with pretrained Diffusion Models to optimize the parameters of a ConRad representation. Extensive experiments show that ConRad representations can simplify preservation of image details while producing a realistic 3D reconstruction. Compared to existing state-of-the-art baselines, we show that our 3D reconstructions remain more faithful to the input and produce more consistent 3D models while demonstrating significantly improved quantitative performance on a ShapeNet object benchmark.
翻訳日:2023-11-10 15:39:51 公開日:2023-11-09
# kantian deontologyがaiアライメントを満たす - 道徳的に堅牢な公平性メトリクスに向けて

Kantian Deontology Meets AI Alignment: Towards Morally Robust Fairness Metrics ( http://arxiv.org/abs/2311.05227v1 )

ライセンス: Link先を確認
Carlos Mougan, Joshua Brand(参考訳) イマニュエル・カント(immanuel kant)によって特に理解されたデオントロジー倫理(deontological ethics)は、行動の結果よりも義務と原則の重要性を強調する道徳的枠組みを提供する。 この論文は、非オントロジーが卓越しているにもかかわらず、現在見過ごされているフェアネス指標のアプローチであり、AIアライメント分野の一部であるフェアネス指標におけるカンチアンデオントロジーフレームワークの互換性について考察する。 我々は、AI公正度測定における主要なアプローチである実用主義に対するカントの批判を再考し、公正性原理はカンティアン・デオントロジーの枠組みと一致すべきであると主張している。 カント倫理をAIアライメントに組み込むことで、広く受け入れられた顕著な道徳理論をもたらすだけでなく、公正さと正義の追求において結果と手続きのバランスを良くする、より道徳的に根ざしたAIの展望にも取り組みます。

Deontological ethics, specifically understood through Immanuel Kant, provides a moral framework that emphasizes the importance of duties and principles, rather than the consequences of action. Understanding that despite the prominence of deontology, it is currently an overlooked approach in fairness metrics, this paper explores the compatibility of a Kantian deontological framework in fairness metrics, part of the AI alignment field. We revisit Kant's critique of utilitarianism, which is the primary approach in AI fairness metrics and argue that fairness principles should align with the Kantian deontological framework. By integrating Kantian ethics into AI alignment, we not only bring in a widely-accepted prominent moral theory but also strive for a more morally grounded AI landscape that better balances outcomes and procedures in pursuit of fairness and justice.
翻訳日:2023-11-10 15:39:29 公開日:2023-11-09
# facsをストレートに - 妨害された顔の特徴の再構築

Let's Get the FACS Straight -- Reconstructing Obstructed Facial Features ( http://arxiv.org/abs/2311.05221v1 )

ライセンス: Link先を確認
Tim B\"uchner and Sven Sickert and Gerd Fabian Volk and Christoph Anders and Orlando Guntinas-Lichius and Joachim Denzler(参考訳) 人間の顔は、人間間コミュニケーションにおいて最も重要な部分の1つである。 顔の一部が隠されたり邪魔されたりしても、下層の顔の動きは理解できる。 機械学習のアプローチは、顔の構造が複雑であるために失敗することが多い。 この問題を緩和するために、そのような特定のアプリケーションのためにモデルを微調整する共通のアプローチがある。 しかし、これは計算量が多く、所望の分析タスクごとに繰り返す必要がある。 本稿では, 繰り返し微調整の作業を避けるため, 閉塞した顔面部を再構築することを提案する。 その結果、既存の顔分析手法は、データに関してさらなる変更を加えることなく利用できる。 本手法では,顔の特徴の復元を異なる記録装置間のスタイル伝達タスクとして解釈する。 サイクルガンアーキテクチャを使用することで、しばしば満たすのが難しいマッチしたペアの要求を排除できる。 提案手法の実用性を証明するため,実記録との比較を行った。 実験対象者の顔に62個の表面筋電図センサを装着した状態で36名の被験者を記録した。 評価では、顔の動作単位の計算や感情の検出など、典型的な顔分析タスクを特徴とする。 さらに,修復の質を評価するために,知覚距離を比較する。 このスコアは、センサーを妨害することなく、ビデオと同じようなものになります。

The human face is one of the most crucial parts in interhuman communication. Even when parts of the face are hidden or obstructed the underlying facial movements can be understood. Machine learning approaches often fail in that regard due to the complexity of the facial structures. To alleviate this problem a common approach is to fine-tune a model for such a specific application. However, this is computational intensive and might have to be repeated for each desired analysis task. In this paper, we propose to reconstruct obstructed facial parts to avoid the task of repeated fine-tuning. As a result, existing facial analysis methods can be used without further changes with respect to the data. In our approach, the restoration of facial features is interpreted as a style transfer task between different recording setups. By using the CycleGAN architecture the requirement of matched pairs, which is often hard to fullfill, can be eliminated. To proof the viability of our approach, we compare our reconstructions with real unobstructed recordings. We created a novel data set in which 36 test subjects were recorded both with and without 62 surface electromyography sensors attached to their faces. In our evaluation, we feature typical facial analysis tasks, like the computation of Facial Action Units and the detection of emotions. To further assess the quality of the restoration, we also compare perceptional distances. We can show, that scores similar to the videos without obstructing sensors can be achieved.
翻訳日:2023-11-10 15:39:10 公開日:2023-11-09
# 三体力の包絡理論の検証

Tests of the envelope theory for three-body forces ( http://arxiv.org/abs/2311.05212v1 )

ライセンス: Link先を確認
Lorenzo Cimino, Clara Tourbez, Cyrille Chevalier, Gwendolyn Lacroix, Claude Semay(参考訳) 多体力(特に三体力)は、原子物理学、原子核物理学、ハドロン物理学など様々な分野の関連成分である。 その正確な構造は一般に解明や実装が困難であるため、現象学的有効力は実際にしばしば用いられる。 多体変数によく用いられる形式は、2体変数の和の平方根である。 この場合においても、数値的な扱いは非常に困難である。 しかし、この種の多体力は包絡理論によって二体力と同等の難易度で扱うことができる。 エンベロープ理論は多体系の近似だが信頼性の高い解を計算するための非常に効率的な手法であり、特に同一粒子に対するものである。 この技術の品質は、3つの同一粒子からなる非相対論的系を持つ様々な3体力に対して検証される。 エネルギー、固有関数、およびいくつかの可観測性は、数値変分法で計算された対応する正確な結果と比較される。

Many-body forces, and specially three-body forces, are sometimes a relevant ingredient in various fields, such as atomic, nuclear or hadronic physics. As their precise structure is generally difficult to uncover or to implement, phenomenological effective forces are often used in practice. A form commonly used for a many-body variable is the square-root of the sum of two-body variables. Even in this case, the problem can be very difficult to treat numerically. But this kind of many-body forces can be handled at the same level of difficulty than two-body forces by the envelope theory. The envelope theory is a very efficient technique to compute approximate, but reliable, solutions of many-body systems, specially for identical particles. The quality of this technique is tested here for various three-body forces with non-relativistic systems composed of three identical particles. The energies, the eigenfunctions, and some observables are compared with the corresponding accurate results computed with a numerical variational method.
翻訳日:2023-11-10 15:38:51 公開日:2023-11-09
# what"から"when"へ - まれな事象とその発生時間を予測するスパイクニューラルネットワーク

From "What" to "When" -- a Spiking Neural Network Predicting Rare Events and Time to their Occurrence ( http://arxiv.org/abs/2311.05210v1 )

ライセンス: Link先を確認
Mikhail Kiselev(参考訳) 強化学習(RL)タスクでは、近未来又は遠未来における受信報酬を予測する能力は、現在の状態を目標状態(報奨信号で遅延された)に近いものと評価する能力を意味する。 本研究では、スパイキングニューラルネットワーク(SNN)を用いて、次のターゲットイベント(RLの場合)の時間を予測する。 SNNのコンテキストでは、イベントはネットワークニューロンや入力ノードによって放出されるスパイクとして表現される。 ターゲットイベントは、特別なネットワーク入力ノードによって出力されるスパイクによって表される。 他の入力ノードからのスパイクの形で符号化された現在の状態を記述することで、ネットワークは次のターゲットイベントの近似時間を予測する必要がある。 本研究は,漏洩型統合火災(LIF)ニューロンからなるSNNを用いて,対応する予測モデルを学習するための新しいアプローチを提案する。 提案手法は, 特殊設計した局所シナプス塑性規則と新しいカラム層SNNアーキテクチャを利用する。 これまでの研究と同様に,本研究では,提案モデルのハードウェアフレンドリ性に強い重点を置いて,現代および将来のニューロプロセッサへの効率的な実装を保証する。 提案手法は,RTL ベンチマーク ATARI ゲームであるping-pong のコンテキストにおいて,単純な報奨予測タスクを用いて検証した。 本論文で述べるSNNは,決定木アルゴリズムや畳み込みニューラルネットワークなど,高精度な機械学習手法と比較して,予測精度が優れていることを示した。

In the reinforcement learning (RL) tasks, the ability to predict receiving reward in the near or more distant future means the ability to evaluate the current state as more or less close to the target state (labelled by the reward signal). In the present work, we utilize a spiking neural network (SNN) to predict time to the next target event (reward - in case of RL). In the context of SNNs, events are represented as spikes emitted by network neurons or input nodes. It is assumed that target events are indicated by spikes emitted by a special network input node. Using description of the current state encoded in the form of spikes from the other input nodes, the network should predict approximate time of the next target event. This research paper presents a novel approach to learning the corresponding predictive model by an SNN consisting of leaky integrate-and-fire (LIF) neurons. The proposed method leverages specially designed local synaptic plasticity rules and a novel columnar-layered SNN architecture. Similar to our previous works, this study places a strong emphasis on the hardware-friendliness of the proposed models, ensuring their efficient implementation on modern and future neuroprocessors. The approach proposed was tested on a simple reward prediction task in the context of one of the RL benchmark ATARI games, ping-pong. It was demonstrated that the SNN described in this paper gives superior prediction accuracy in comparison with precise machine learning techniques, such as decision tree algorithms and convolutional neural networks.
翻訳日:2023-11-10 15:38:38 公開日:2023-11-09
# 空間的注意に基づく人文推定のための分布統合ネットワーク

Spatial Attention-based Distribution Integration Network for Human Pose Estimation ( http://arxiv.org/abs/2311.05323v1 )

ライセンス: Link先を確認
Sihan Gao, Jing Zhu, Xiaoxuan Zhuang, Zhaoyue Wang, and Qijin Li(参考訳) 近年,人間のポーズ推定は深層学習技術の実装を通じて大きな進歩を遂げている。 しかし、これらのテクニックは、隠蔽、多様な外観、照明のバリエーション、重複など、困難なシナリオに直面した場合でも制限に直面している。 そこで,このような欠点に対処するため,spatial attention-based distribution integration network (sadi-net) を提案する。 我々のネットワークは, 受容強化モジュール(RFM), 空間融合モジュール(SFM), 分散学習モジュール(DLM)の3つの効率的なモデルで構成されている。 古典的なHourglassNetアーキテクチャを基盤として,提案したRAMを基本ブロックに置き換える。 rfmは、空間情報に対する感度を高めつつ受容野を広げるために拡張された残留ブロックと注意機構を組み込んでいる。 さらに、sfmは、グローバルとローカルの両方の注意機構を使用することで、マルチスケールの特徴を取り入れている。 さらに、残ログ類似度推定(RLE)にインスパイアされたDLMは、トレーニング可能な分布重みを使って予測されたヒートマップを再構成する。 本モデルの有効性を決定するため,MPIIおよびLSPベンチマークで広範囲にわたる実験を行った。 特に,MPIIテストデータセットの精度は92.10 %で,既存のモデルよりも大幅に改善され,最先端のパフォーマンスが確立した。

In recent years, human pose estimation has made significant progress through the implementation of deep learning techniques. However, these techniques still face limitations when confronted with challenging scenarios, including occlusion, diverse appearances, variations in illumination, and overlap. To cope with such drawbacks, we present the Spatial Attention-based Distribution Integration Network (SADI-NET) to improve the accuracy of localization in such situations. Our network consists of three efficient models: the receptive fortified module (RFM), spatial fusion module (SFM), and distribution learning module (DLM). Building upon the classic HourglassNet architecture, we replace the basic block with our proposed RFM. The RFM incorporates a dilated residual block and attention mechanism to expand receptive fields while enhancing sensitivity to spatial information. In addition, the SFM incorporates multi-scale characteristics by employing both global and local attention mechanisms. Furthermore, the DLM, inspired by residual log-likelihood estimation (RLE), reconfigures a predicted heatmap using a trainable distribution weight. For the purpose of determining the efficacy of our model, we conducted extensive experiments on the MPII and LSP benchmarks. Particularly, our model obtained a remarkable $92.10\%$ percent accuracy on the MPII test dataset, demonstrating significant improvements over existing models and establishing state-of-the-art performance.
翻訳日:2023-11-10 15:31:02 公開日:2023-11-09
# repq:再パラメータアーキテクチャのための量子化アウェアトレーニングの一般化

RepQ: Generalizing Quantization-Aware Training for Re-Parametrized Architectures ( http://arxiv.org/abs/2311.05317v1 )

ライセンス: Link先を確認
Anastasiia Prutianova, Alexey Zaytsev, Chung-Kuei Lee, Fengyu Sun, Ivan Koryakovskiy(参考訳) 既存のニューラルネットワークはメモリ消費と計算集約性が強く、リソース制約のある環境ではデプロイが難しい。 しかし、その効率を改善する方法は様々である。 そのような2つの方法は量子化であり、ネットワーク圧縮のためのよく知られたアプローチであり、モデル性能を改善するために設計された新しい手法である再パラメータ化である。 どちらの手法も個別に研究されているが、同時に適用する研究は限られている。 このギャップに対処するために,再パラメータ化ネットワークに量子化を適用するrepqと呼ばれる新しい手法を提案する。 本手法は,任意の再パラメータ化層のテストステージ重みを,学習可能なパラメータの微分可能関数として提示できるという知見に基づく。 この関数の上に量子化を適用することで、量子化認識トレーニングを可能にする。 RepQは様々な再パラメータ化モデルによく対応し、全ての実験においてベースライン法LSQ量子化スキームより優れる。

Existing neural networks are memory-consuming and computationally intensive, making deploying them challenging in resource-constrained environments. However, there are various methods to improve their efficiency. Two such methods are quantization, a well-known approach for network compression, and re-parametrization, an emerging technique designed to improve model performance. Although both techniques have been studied individually, there has been limited research on their simultaneous application. To address this gap, we propose a novel approach called RepQ, which applies quantization to re-parametrized networks. Our method is based on the insight that the test stage weights of an arbitrary re-parametrized layer can be presented as a differentiable function of trainable parameters. We enable quantization-aware training by applying quantization on top of this function. RepQ generalizes well to various re-parametrized models and outperforms the baseline method LSQ quantization scheme in all experiments.
翻訳日:2023-11-10 15:30:39 公開日:2023-11-09
# ABIGX: eXplainable Fault Detection and Classificationのための統一フレームワーク

ABIGX: A Unified Framework for eXplainable Fault Detection and Classification ( http://arxiv.org/abs/2311.05316v1 )

ライセンス: Link先を確認
Yue Zhuo, Jinchuan Qian, Zhihuan Song, Zhiqiang Ge(参考訳) 本稿では,fdc(adversarial fault detection and classification)の枠組みであるabigx(adversarial fault reconstruction-based integrated gradient description)を提案する。 abigxは、以前の失敗障害診断法、貢献プロット(cp)、再構成に基づく貢献(rbc)の必須部分に由来する。 一般的なFDCモデルに可変コントリビューションを提供する最初の説明フレームワークである。 abigxの中核となるのは、adversarial fault reconstruction (afr) 法であり、frをadversarial attackの観点から再考し、新しいフォールトインデックスでフォールト分類モデルに一般化する。 断層分類において,本研究は,本質的に正しい説明を妨げている断層クラススミアリングの新たな問題を提起した。 ABIGXはこの問題を効果的に軽減し、既存の勾配に基づく説明法より優れていることを示す。 故障検出には, CPとRBCがABIGXの線形仕様であることを証明し, 従来の故障診断手法でABIGXをブリッジする。 実験は, 定量的指標と直感的挿絵を用いてfdcの解説を評価し, 他の先進的な説明法に対するabigxの汎用性を示した。

For explainable fault detection and classification (FDC), this paper proposes a unified framework, ABIGX (Adversarial fault reconstruction-Based Integrated Gradient eXplanation). ABIGX is derived from the essentials of previous successful fault diagnosis methods, contribution plots (CP) and reconstruction-based contribution (RBC). It is the first explanation framework that provides variable contributions for the general FDC models. The core part of ABIGX is the adversarial fault reconstruction (AFR) method, which rethinks the FR from the perspective of adversarial attack and generalizes to fault classification models with a new fault index. For fault classification, we put forward a new problem of fault class smearing, which intrinsically hinders the correct explanation. We prove that ABIGX effectively mitigates this problem and outperforms the existing gradient-based explanation methods. For fault detection, we theoretically bridge ABIGX with conventional fault diagnosis methods by proving that CP and RBC are the linear specifications of ABIGX. The experiments evaluate the explanations of FDC by quantitative metrics and intuitive illustrations, the results of which show the general superiority of ABIGX to other advanced explanation methods.
翻訳日:2023-11-10 15:30:26 公開日:2023-11-09
# spades:イベントセンシングを用いた現実的な宇宙船ポーズ推定データセット

SPADES: A Realistic Spacecraft Pose Estimation Dataset using Event Sensing ( http://arxiv.org/abs/2311.05310v1 )

ライセンス: Link先を確認
Arunkumar Rathinam, Haytam Qadadri and Djamila Aouada(参考訳) 近年, ランデブーやドッキング, 近接操作などの軌道上での自律性向上への需要が高まっており, 深層学習に基づく宇宙機ポース推定技術への関心が高まっている。 しかし、実際のターゲットデータセットへのアクセスが制限されているため、アルゴリズムはしばしば合成データを使用して訓練され、実際のドメインに適用されるため、ドメイン間隙によってパフォーマンスが低下する。 最先端のアプローチでは、この問題を軽減するためにドメイン適応技術を採用している。 実行可能なソリューションの探索において、イベントセンシングは過去に研究され、シミュレーションと現実世界のシナリオの間のドメイン間ギャップを減らすことが示されている。 イベントセンサは近年,ハードウェアとソフトウェアに大きな進歩を遂げている。 さらに、イベントセンサの特性は、rgbセンサーと比較して宇宙応用にいくつかの利点がある。 DLベースモデルのさらなるトレーニングと評価を容易にするため,制御された実験室環境において取得された実イベントデータと,同じカメラ内在値を用いてイベントデータをシミュレートした新しいデータセットSPADESを導入する。 さらに、トレーニングデータの質を向上させるための効果的なデータフィルタリング手法を提案し、モデル性能を向上させる。 さらに,既存の表現よりも優れたイメージベースのイベント表現を導入する。 さまざまなイベント表現,イベントフィルタリング戦略,アルゴリズムフレームワークを用いて多面的なベースライン評価を行い,その結果を要約した。 データセットはhttp://cvi2.uni.lu/spadesで提供される。

In recent years, there has been a growing demand for improved autonomy for in-orbit operations such as rendezvous, docking, and proximity maneuvers, leading to increased interest in employing Deep Learning-based Spacecraft Pose Estimation techniques. However, due to limited access to real target datasets, algorithms are often trained using synthetic data and applied in the real domain, resulting in a performance drop due to the domain gap. State-of-the-art approaches employ Domain Adaptation techniques to mitigate this issue. In the search for viable solutions, event sensing has been explored in the past and shown to reduce the domain gap between simulations and real-world scenarios. Event sensors have made significant advancements in hardware and software in recent years. Moreover, the characteristics of the event sensor offer several advantages in space applications compared to RGB sensors. To facilitate further training and evaluation of DL-based models, we introduce a novel dataset, SPADES, comprising real event data acquired in a controlled laboratory environment and simulated event data using the same camera intrinsics. Furthermore, we propose an effective data filtering method to improve the quality of training data, thus enhancing model performance. Additionally, we introduce an image-based event representation that outperforms existing representations. A multifaceted baseline evaluation was conducted using different event representations, event filtering strategies, and algorithmic frameworks, and the results are summarized. The dataset will be made available at http://cvi2.uni.lu/spades.
翻訳日:2023-11-10 15:30:04 公開日:2023-11-09
# フェデレーション学習におけるデータ評価と検出

Data Valuation and Detections in Federated Learning ( http://arxiv.org/abs/2311.05304v1 )

ライセンス: Link先を確認
Wenqian Li, Shuran Fu, Fengrui Zhang, Yan Pang(参考訳) フェデレートラーニング(FL)は、生データを共有せずに協調的なモデルトレーニングを可能にし、最適なモデルパフォーマンスのために豊富な高品質なデータを要求する。 公正で効率的なデータ評価は、より高品質なデータを提供するクライアントにインセンティブを与えるための根本的な問題である。 一方、学習タスクには、クライアントとデータセットのサブセットのみが関係している可能性が高いが、残りの部分は、モデルのトレーニングに悪影響を及ぼす可能性がある。 本稿では,事前のトレーニングアルゴリズムを使わずに,クライアントの貢献度を評価し,関連するデータサンプルを選択するプライバシ保存手法を提案する。 提案手法であるFedBaryは,データ評価のための新たな先駆的ソリューションを提供し,検証データへの依存を軽減するために,Wasserstein Barycenterの透過的なデータ評価と効率的な計算を提供する。 我々は、この評価基準の有望な研究を示す広範な実証実験と理論的分析を行う。

Federated Learning (FL) enables collaborative model training without sharing raw data, demanding abundant, high-quality data for optimal model performance. Fair and efficient data evaluation is a fundamental issue for incentivizing clients to provide more high-quality data. Meanwhile, it is likely that only a subset of clients and datasets are relevant for a learning task while the rest of them may have a negative impact on the model training. This paper introduces a novel privacy-preserving method for evaluating client contributions and selecting relevant data samples without a pre-specified training algorithm. Our proposed approach, FedBary, utilizes Wasserstein distance within the federated context, offering a new pioneering solution for data valuation, which provides transparent data evaluation and efficient computation of Wasserstein barycenter to mitigate reliance on validation data. We conduct extensive empirical experiments and theoretical analysis, showing the promising research of this valuation metric.
翻訳日:2023-11-10 15:29:40 公開日:2023-11-09
# UAVベースのIoTネットワークにおける信頼性と効率的なデータ収集

Reliable and Efficient Data Collection in UAV-based IoT Networks ( http://arxiv.org/abs/2311.05303v1 )

ライセンス: Link先を確認
Poorvi Joshi (1), Alakesh Kalita (2), Mohan Gurusamy (1) ((1) National University of Singapore, (2) Singapore University of Technology and Design)(参考訳) IoT(Internet of Things)は、効率的な通信のための監視と無線ネットワークのためのセンサーである。 しかし、リソースが制限されたIoTデバイスと既存のワイヤレス技術の制限は、その大きな可能性を妨げている。 Unmanned Aerial Vehicles(UAV)をIoTネットワークに統合することは、そのカバレッジを拡張し、セキュリティを提供し、IoTデバイスにコンピューティングを近づけることで、いくつかの課題に対処することができる。 それでも、UAV支援IoTネットワークにおける効果的なデータ収集は、動的なUAV動作、環境変数、接続不安定性、セキュリティ上の考慮など、要因によって妨げられている。 本調査では,UAVベースのIoTネットワークをまず,通信とネットワークの面に注目して検討する。 次に、UAVベースのデータ収集手法の利点と欠点を取り上げ、続いてデータ収集のパフォーマンス指標について議論する。 この記事では、uav支援iotネットワークにおける信頼性と効率的なデータ収集を中心に、データの正確性と一貫性、ネットワーク接続性、およびデータのセキュリティとプライバシに関する既存の研究について簡単に論じて、信頼性のあるデータ収集に関する洞察を提供する。 さらに、UAVベースのIoTネットワークにおける効率的なデータ収集戦略について論じ、軌道と経路計画、衝突回避、センサネットワーククラスタリング、データ集約、UAVスワムの形成、最適化のための人工知能について論じる。 データ収集の信頼性と効率を向上させるためのサービスとして,UAVの2つのユースケースを提案する。 最後に、UAV支援IoTネットワークのデータ収集における今後の課題について論じる。

Internet of Things (IoT) involves sensors for monitoring and wireless networks for efficient communication. However, resource-constrained IoT devices and limitations in existing wireless technologies hinder its full potential. Integrating Unmanned Aerial Vehicles (UAVs) into IoT networks can address some challenges by expanding its' coverage, providing security, and bringing computing closer to IoT devices. Nevertheless, effective data collection in UAV-assisted IoT networks is hampered by factors, including dynamic UAV behavior, environmental variables, connectivity instability, and security considerations. In this survey, we first explore UAV-based IoT networks, focusing on communication and networking aspects. Next, we cover various UAV-based data collection methods their advantages and disadvantages, followed by a discussion on performance metrics for data collection. As this article primarily emphasizes reliable and efficient data collection in UAV-assisted IoT networks, we briefly discuss existing research on data accuracy and consistency, network connectivity, and data security and privacy to provide insights into reliable data collection. Additionally, we discuss efficient data collection strategies in UAV-based IoT networks, covering trajectory and path planning, collision avoidance, sensor network clustering, data aggregation, UAV swarm formations, and artificial intelligence for optimization. We also present two use cases of UAVs as a service for enhancing data collection reliability and efficiency. Finally, we discuss future challenges in data collection for UAV-assisted IoT networks.
翻訳日:2023-11-10 15:29:23 公開日:2023-11-09
# 空間関係モデリングによる視覚言語推論の改善

Improving Vision-and-Language Reasoning via Spatial Relations Modeling ( http://arxiv.org/abs/2311.05298v1 )

ライセンス: Link先を確認
Cheng Yang, Rui Xu, Ye Guo, Peixiang Huang, Yiru Chen, Wenkui Ding, Zhongyuan Wang, Hong Zhou(参考訳) visual commonsense reasoning (vcr) は、実世界に対する高度な認知と共通理解の推論能力を必要とする、挑戦的なマルチモーダルタスクである。 近年,大規模な事前学習手法が開発され,VCRの最先端性能が向上している。 しかし、既存のアプローチは、マルチモーダル表現を学ぶためにほとんどbertのような目的を用いる。 テキスト領域から動機づけられたこれらの目的は、視覚モダリティの複雑なシナリオの発掘には不十分である。 最も重要なのは、視覚オブジェクトの空間分布が基本的に無視されることだ。 上記の問題に対処するために,与えられた視覚シナリオに基づいて空間関係グラフを構築することを提案する。 さらに、対象位置回帰(OPR)と空間関係分類(SRC)という2つの事前学習タスクを設計し、それぞれに空間関係グラフを再構築する。 定量的分析により,提案手法はより空間的な文脈を維持するための表現を導出し,推論に必要な視覚領域への注意を促すことが示唆された。 VCRと他の2つの視覚・言語推論タスクであるVQAとNLVRについて、最先端の結果を得る。

Visual commonsense reasoning (VCR) is a challenging multi-modal task, which requires high-level cognition and commonsense reasoning ability about the real world. In recent years, large-scale pre-training approaches have been developed and promoted the state-of-the-art performance of VCR. However, the existing approaches almost employ the BERT-like objectives to learn multi-modal representations. These objectives motivated from the text-domain are insufficient for the excavation on the complex scenario of visual modality. Most importantly, the spatial distribution of the visual objects is basically neglected. To address the above issue, we propose to construct the spatial relation graph based on the given visual scenario. Further, we design two pre-training tasks named object position regression (OPR) and spatial relation classification (SRC) to learn to reconstruct the spatial relation graph respectively. Quantitative analysis suggests that the proposed method can guide the representations to maintain more spatial context and facilitate the attention on the essential visual regions for reasoning. We achieve the state-of-the-art results on VCR and two other vision-and-language reasoning tasks VQA, and NLVR.
翻訳日:2023-11-10 15:29:00 公開日:2023-11-09
# パーソナリティテストは大規模言語モデルに一般化するか?

Do personality tests generalize to Large Language Models? ( http://arxiv.org/abs/2311.05297v1 )

ライセンス: Link先を確認
Florian E. Dorner, Tom S\"uhr, Samira Samadi, Augustin Kelava(参考訳) 大きな言語モデル(LLM)は、テキストベースのインタラクションにおいて、ますます人間らしく振る舞うように見え、もともと人間用に設計されたテストを使用して、これらのモデルの様々な特性を評価する試みが一般的になっている。 既存のテストの再使用はllmを評価するのにリソース効率の良い方法であるが、通常、テスト結果が人間のサブ人口間でも有効であることを保証するために注意深い調整が必要である。 したがって、異なる試験の妥当性が LLM にどの程度一般化するかは明らかでない。 本研究は,人格検査に対するllmsの反応がヒトの典型的な反応から系統的に逸脱していることを示し,これらの結果がヒトの検査結果と同じような方法で解釈できないことを示唆する。 具体的には、逆符号の項目(例えば、"i am introverted" と "i am extraverted")はどちらも llms によって肯定的に答えられる。 加えて、特定の個性タイプをシミュレートするためにLLMを「操る」ために設計された異なるプロンプトのバリエーションは、人間のサンプルから5つの独立した個性要素に明確に分離するものではない。 これらの結果を踏まえ、LLMの「個性」のような潜在的に不明確な概念について強い結論を出す前に、LSMに対するテストの有効性にもっと注意を払うことが重要であると信じている。

With large language models (LLMs) appearing to behave increasingly human-like in text-based interactions, it has become popular to attempt to evaluate various properties of these models using tests originally designed for humans. While re-using existing tests is a resource-efficient way to evaluate LLMs, careful adjustments are usually required to ensure that test results are even valid across human sub-populations. Thus, it is not clear to what extent different tests' validity generalizes to LLMs. In this work, we provide evidence that LLMs' responses to personality tests systematically deviate from typical human responses, implying that these results cannot be interpreted in the same way as human test results. Concretely, reverse-coded items (e.g. "I am introverted" vs "I am extraverted") are often both answered affirmatively by LLMs. In addition, variation across different prompts designed to "steer" LLMs to simulate particular personality types does not follow the clear separation into five independent personality factors from human samples. In light of these results, we believe it is important to pay more attention to tests' validity for LLMs before drawing strong conclusions about potentially ill-defined concepts like LLMs' "personality".
翻訳日:2023-11-10 15:28:42 公開日:2023-11-09
# deelm: 文埋め込みのための依存性拡張型大規模言語モデル

DeeLM: Dependency-enhanced Large Language Model for Sentence Embeddings ( http://arxiv.org/abs/2311.05296v1 )

ライセンス: Link先を確認
Xianming Li, Jing Li(参考訳) 近年,文埋め込みのための言語モデル (LLM) が提案されている。 しかし、既存のLLMのほとんどは自動回帰アーキテクチャで構築されており、主に後方依存を無視しながら前方依存をキャプチャする。 これまでの研究は、文の埋め込みを改善するための後方依存の重要性を強調してきた。 本稿では, LLMにおける後方依存の学習に制限があることを示す定量的な証拠をまず提示する。 そこで本研究では,文の埋め込みを改善するために,依存性拡張大言語モデル(DeeLM)を提案する。 特に LLM では,特定の LLM 層を超えると意味的テキスト類似性 (STS) が著しく低下する。 STSは文の埋め込みを評価するための重要なタスクです。 その後、ターンポイントの後にレイヤを抽出して双方向にすることで、下位依存関係の学習を可能にします。 大規模な実験では、DeeLMがベースラインを上回り、さまざまなSTSタスクで最先端のパフォーマンスを実現している。

Recent studies have proposed using large language models (LLMs) for sentence embeddings. However, most existing LLMs are built with an autoregressive architecture that primarily captures forward dependencies while neglecting backward dependencies. Previous work has highlighted the importance of backward dependencies in improving sentence embeddings. To address this issue, in this paper, we first present quantitative evidence demonstrating the limited learning of backward dependencies in LLMs. Then, we propose a novel approach called Dependency-Enhanced Large Language Model (DeeLM) to improve sentence embeddings. Specifically, we found a turning point in LLMs, where surpassing specific LLM layers leads to a significant performance drop in the semantic textual similarity (STS) task. STS is a crucial task for evaluating sentence embeddings. We then extract the layers after the turning point to make them bidirectional, allowing for the learning of backward dependencies. Extensive experiments demonstrate that DeeLM outperforms baselines and achieves state-of-the-art performance across various STS tasks.
翻訳日:2023-11-10 15:28:18 公開日:2023-11-09
# VoxNeRF:拡張室内ビュー合成のためのブラッジボクセル表現とニューラル放射場

VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for Enhanced Indoor View Synthesis ( http://arxiv.org/abs/2311.05289v1 )

ライセンス: Link先を確認
Sen Wang, Wei Zhang, Stefano Gasperini, Shun-Cheng Wu, Nassir Navab(参考訳) ハイクオリティなビュー合成は没入型アプリケーションでは不可欠であるが、特に屋内環境やリアルタイムデプロイメントでは問題となっている。 現在の技術はトレーニングとレンダリングの両方に広範囲な計算時間を必要とし、幾何学的構造が不十分なため、理想的でない3D表現を生成することが多い。 これを解決するために,室内ビュー合成の品質と効率を高めるためにボリューム表現を活用する新しいアプローチであるVoxNeRFを導入する。 まず、voxnerfは構造化されたシーン幾何学を構築し、それをvoxelベースの表現に変換する。 我々は,空間的特徴を適応的に捉えるためにマルチレゾリューション・ハッシュ・グリッドを使用し,室内シーンの閉塞や複雑な形状を効果的に管理する。 次に,ユニークなボクセル誘導型効率的なサンプリング手法を提案する。 この革新は、レイセグメントの最も関連する部分に計算資源を選択的に集中させ、最適化時間を実質的に削減する。 我々は,3つの屋内データセットに対するアプローチを検証するとともに,VoxNeRFが最先端の手法より優れていることを示す。 驚くべきことに、トレーニングとレンダリングの両方の時間を短縮し、instant-ngpを高速に超え、この技術をリアルタイムに近づける。

Creating high-quality view synthesis is essential for immersive applications but continues to be problematic, particularly in indoor environments and for real-time deployment. Current techniques frequently require extensive computational time for both training and rendering, and often produce less-than-ideal 3D representations due to inadequate geometric structuring. To overcome this, we introduce VoxNeRF, a novel approach that leverages volumetric representations to enhance the quality and efficiency of indoor view synthesis. Firstly, VoxNeRF constructs a structured scene geometry and converts it into a voxel-based representation. We employ multi-resolution hash grids to adaptively capture spatial features, effectively managing occlusions and the intricate geometry of indoor scenes. Secondly, we propose a unique voxel-guided efficient sampling technique. This innovation selectively focuses computational resources on the most relevant portions of ray segments, substantially reducing optimization time. We validate our approach against three public indoor datasets and demonstrate that VoxNeRF outperforms state-of-the-art methods. Remarkably, it achieves these gains while reducing both training and rendering times, surpassing even Instant-NGP in speed and bringing the technology closer to real-time.
翻訳日:2023-11-10 15:28:01 公開日:2023-11-09
# テキストからの因果推論:変数間の相互作用を明らかにする

Causal Inference from Text: Unveiling Interactions between Variables ( http://arxiv.org/abs/2311.05286v1 )

ライセンス: Link先を確認
Yuxiang Zhou, Yulan He(参考訳) 観測テキストデータから因果効果を推定するには潜在共変量の調整が不可欠である。 既存の方法の多くは、治療と結果の両方に影響を及ぼす共変量の結合のみを考慮し、潜在的に偏りのある因果効果をもたらす。 このバイアスは、治療または結果にのみ関係する非共変量に対する不十分な考慮から生じる。 本研究では,テキストから因果効果を推定する際,異なる変数間の相互作用を露呈し,非折りたたみ共変体を乱すことによりバイアスを軽減することを目的とする。 分離過程は、共変数がそれぞれの目的にのみ寄与することを保証し、変数間の独立を可能にする。 さらに,選択バイアスを軽減するために,治療群と対照群からの表現のバランスをとるための制約を課す。 様々なシナリオにおいて, 2つの異なる治療因子について実験を行い, 提案モデルは近年の強基線を著しく上回っている。 さらに、収支報告書の徹底的な分析により、我々のモデルが変数を効果的に解体できることが示され、現実世界のシナリオに関するさらなる調査は、投資家が情報的な意思決定を行うためのガイダンスを提供する。

Adjusting for latent covariates is crucial for estimating causal effects from observational textual data. Most existing methods only account for confounding covariates that affect both treatment and outcome, potentially leading to biased causal effects. This bias arises from insufficient consideration of non-confounding covariates, which are relevant only to either the treatment or the outcome. In this work, we aim to mitigate the bias by unveiling interactions between different variables to disentangle the non-confounding covariates when estimating causal effects from text. The disentangling process ensures covariates only contribute to their respective objectives, enabling independence between variables. Additionally, we impose a constraint to balance representations from the treatment group and control group to alleviate selection bias. We conduct experiments on two different treatment factors under various scenarios, and the proposed model significantly outperforms recent strong baselines. Furthermore, our thorough analysis on earnings call transcripts demonstrates that our model can effectively disentangle the variables, and further investigations into real-world scenarios provide guidance for investors to make informed decisions.
翻訳日:2023-11-10 15:27:38 公開日:2023-11-09
# 有界モデルチェックによるオープンソースcプロジェクトのソフトウェア脆弱性発見

Finding Software Vulnerabilities in Open-Source C Projects via Bounded Model Checking ( http://arxiv.org/abs/2311.05281v1 )

ライセンス: Link先を確認
Janislley Oliveira de Sousa and Bruno Carvalho de Farias and Thales Araujo da Silva and Eddie Batista de Lima Filho and Lucas C. Cordeiro(参考訳) コンピュータベースのシステムは、産業、軍、教育、ウェアラブルなど、いくつかのドメイン問題を解決した。 それでも、これらのアレンジメントは、セキュリティと安全性を保証するために高品質なソフトウェアを必要としている。 我々は,汎用ソフトウェアシステムの脆弱性を効率的に検出できる境界モデルチェック技術を提案する。 しかし、このようなアプローチはスケールアップと広範なコードベースの検証に苦労している。 そこで我々は,最先端境界モデルチェッカーを用いた大規模ソフトウェアシステムの検証手法を開発し,評価した。 特に、入力ソースコードファイルを前処理し、各モデルチェッカーをガイドして体系的に検討します。 さらに,提案手法は,重要度尺度に従って,コードエンティティに容易に結果を提供する機能的優先順位付け戦略を含む。 提案手法の実際の実装による実験結果から,大規模ソフトウェアシステムの有効性が示された。 さらに、実行時のピークメモリ割り当ても低かった。 私たちは12の人気のあるオープンソースCプロジェクトを検証することで、私たちのアプローチを評価しました。

Computer-based systems have solved several domain problems, including industrial, military, education, and wearable. Nevertheless, such arrangements need high-quality software to guarantee security and safety as both are mandatory for modern software products. We advocate that bounded model-checking techniques can efficiently detect vulnerabilities in general software systems. However, such an approach struggles to scale up and verify extensive code bases. Consequently, we have developed and evaluated a methodology to verify large software systems using a state-of-the-art bounded model checker. In particular, we pre-process input source-code files and guide the respective model checker to explore them systematically. Moreover, the proposed scheme includes a function-wise prioritization strategy, which readily provides results for code entities according to a scale of importance. Experimental results using a real implementation of the proposed methodology show that it can efficiently verify large software systems. Besides, it presented low peak memory allocation when executed. We have evaluated our approach by verifying twelve popular open-source C projects, where we have found real software vulnerabilities that their developers confirmed.
翻訳日:2023-11-10 15:27:16 公開日:2023-11-09
# SAMVG:Segment-Anythingモデルを用いた多段階画像ベクトル化モデル

SAMVG: A Multi-stage Image Vectorization Model with the Segment-Anything Model ( http://arxiv.org/abs/2311.05276v1 )

ライセンス: Link先を確認
Haokun Zhu, Juang Ian Chong, Teng Hu, Ran Yi, Yu-Kun Lai, Paul L. Rosin(参考訳) ベクターグラフィックスはグラフィックデザインで広く使われており、ますます注目を集めている。 しかし、簡単に得ることができるラスター画像とは異なり、高品質なベクターグラフィックスを取得することは、ラスター画像から自動的に変換することで、特に写真やアートワークのようなより複雑な画像に対して大きな課題となる。 本稿では,ラスタ画像をSVG(Scalable Vector Graphics)にベクトル化する多段階モデルSAMVGを提案する。 第一に、SAMVGはSegment-Anything Modelによって提供される一般的な画像セグメンテーションを使い、新しいフィルタリング手法を用いて画像全体の最も高密度なセグメンテーションマップを識別する。 次に、SAMVGは欠落したコンポーネントを特定し、SVGにより詳細なコンポーネントを追加する。 一連の大規模な実験を通して,SAMVGは従来の最先端手法に比べて計算時間と複雑さを少なくしながら,高品質なSVGを任意の領域で生成できることを実証した。

Vector graphics are widely used in graphical designs and have received more and more attention. However, unlike raster images which can be easily obtained, acquiring high-quality vector graphics, typically through automatically converting from raster images remains a significant challenge, especially for more complex images such as photos or artworks. In this paper, we propose SAMVG, a multi-stage model to vectorize raster images into SVG (Scalable Vector Graphics). Firstly, SAMVG uses general image segmentation provided by the Segment-Anything Model and uses a novel filtering method to identify the best dense segmentation map for the entire image. Secondly, SAMVG then identifies missing components and adds more detailed components to the SVG. Through a series of extensive experiments, we demonstrate that SAMVG can produce high quality SVGs in any domain while requiring less computation time and complexity compared to previous state-of-the-art methods.
翻訳日:2023-11-10 15:27:02 公開日:2023-11-09
# 離散動的物体の単発トモグラフィ

Single-shot Tomography of Discrete Dynamic Objects ( http://arxiv.org/abs/2311.05269v1 )

ライセンス: Link先を確認
Ajinkya Kadu, Felix Lucka, Kees Joost Batenburg(参考訳) 本稿では,動的断層撮影における高分解能時空間像の再構成法について,特に時間とともに境界が変化する離散物体について述べる。 時間点当たりの限られた測定の課題に対して,動的対象の空間的・時間的情報を相乗的に組み込む手法を提案する。 これは、画像分割および正弦波基底による動きの表現に対するレベルセット法の適用により達成される。 その結果、フレーム毎に1つのプロジェクションで高品質な2dまたは3d画像シーケンスを再構築できる計算効率が高く、最適化が容易である。 提案手法は, 合成データと擬似動的実x線トモグラフィデータの両方において, 優れた性能を示す。 この研究の意義は、断層撮影におけるダイナミックプロセスの可視化と分析を改善し、様々な科学領域や産業領域で応用の可能性を見いだすことに及んでいる。

This paper presents a novel method for the reconstruction of high-resolution temporal images in dynamic tomographic imaging, particularly for discrete objects with smooth boundaries that vary over time. Addressing the challenge of limited measurements per time point, we propose a technique that synergistically incorporates spatial and temporal information of the dynamic objects. This is achieved through the application of the level-set method for image segmentation and the representation of motion via a sinusoidal basis. The result is a computationally efficient and easily optimizable variational framework that enables the reconstruction of high-quality 2D or 3D image sequences with a single projection per frame. Compared to current methods, our proposed approach demonstrates superior performance on both synthetic and pseudo-dynamic real X-ray tomography datasets. The implications of this research extend to improved visualization and analysis of dynamic processes in tomographic imaging, finding potential applications in diverse scientific and industrial domains.
翻訳日:2023-11-10 15:26:45 公開日:2023-11-09
# ウィザード・オブ・オズによる将来記憶とレジリエント位置通信のモデル化

Modelling prospective memory and resilient situated communications via Wizard of Oz ( http://arxiv.org/abs/2311.05268v1 )

ライセンス: Link先を確認
Yanzhe Li, Frank Broz, Mark Neerincx(参考訳) 本稿では,高齢者とロボットが介在するホーム環境での人間ロボット行動のシナリオを要約する。 このシナリオは、社会支援ロボット(SAR)とのコミュニケーションのためのメモリのモデル化を想定している。 このシナリオは、音声技術の障害に関するデータ収集と、音楽リスニング活動のような日々の活動中に発生する共有メモリを含む人間とロボットのコミュニケーションを可能にする。

This abstract presents a scenario for human-robot action in a home setting involving an older adult and a robot. The scenario is designed to explore the envisioned modelling of memory for communication with a socially assistive robots (SAR). The scenario will enable the gathering of data on failures of speech technology and human-robot communication involving shared memory that may occur during daily activities such as a music-listening activity.
翻訳日:2023-11-10 15:26:29 公開日:2023-11-09
# 合成ビデオデータを用いたロバスト深部生理計測モデルの訓練

Training Robust Deep Physiological Measurement Models with Synthetic Video-based Data ( http://arxiv.org/abs/2311.05371v1 )

ライセンス: Link先を確認
Yuxuan Ou, Yuzhe Zhang, Yuntang Wang, Shwetak Patel, Daniel McDuf, Xin Liu(参考訳) 近年の深層学習技術の進歩により、顔の映像のみから人間の生理的バイタルサイン(例えば、フォトプレチモグラフ、心拍数)を遠隔で測定できる可能性が証明されている。 しかし、これらの手法の性能は、実際のラベル付きデータの可用性と多様性に大きく依存している。 しかし、高品質なラベルで現実世界の大規模なデータを集めることは、通常困難でリソース集約的であり、パーソナルなバイオメトリックデータを保存する際のプライバシーの懸念も高まる。 合成ビデオベースのデータセット(SCAMPS~\cite{mcduff2022scamps} など)と写真リアルな合成アバターを導入し、高品質な合成データを提供しながら問題を緩和する。 しかし、合成データと現実世界データの間には大きなギャップがあり、これらの合成データセットで訓練された神経モデルの一般化を妨げる。 本稿では,合成生理信号と対応する顔映像に実世界のノイズを加える手法をいくつか提案する。 個別および複合的な拡張手法を実験し、3つの公開現実世界データセット上でフレームワークを評価した。 その結果,MAEの平均値は6.9から2.0に減少した。

Recent advances in supervised deep learning techniques have demonstrated the possibility to remotely measure human physiological vital signs (e.g., photoplethysmograph, heart rate) just from facial videos. However, the performance of these methods heavily relies on the availability and diversity of real labeled data. Yet, collecting large-scale real-world data with high-quality labels is typically challenging and resource intensive, which also raises privacy concerns when storing personal bio-metric data. Synthetic video-based datasets (e.g., SCAMPS~\cite{mcduff2022scamps}) with photo-realistic synthesized avatars are introduced to alleviate the issues while providing high-quality synthetic data. However, there exists a significant gap between synthetic and real-world data, which hinders the generalization of neural models trained on these synthetic datasets. In this paper, we proposed several measures to add real-world noise to synthetic physiological signals and corresponding facial videos. We experimented with individual and combined augmentation methods and evaluated our framework on three public real-world datasets. Our results show that we were able to reduce the average MAE from 6.9 to 2.0.
翻訳日:2023-11-10 15:18:26 公開日:2023-11-09
# トレーニングセットを超えて:モデルベース最適化における分布シフト検出のための直感的手法

Beyond the training set: an intuitive method for detecting distribution shift in model-based optimization ( http://arxiv.org/abs/2311.05363v1 )

ライセンス: Link先を確認
Farhan Damani, David H Brookes, Theodore Sternlieb, Cameron Webster, Stephen Malina, Rishi Jajoo, Kathy Lin, Sam Sinai(参考訳) モデルベース最適化(MBO)は、科学技術における設計問題にますます応用されている。 一般的なシナリオは、モデルトレーニングに固定されたトレーニングセットを使用することで、トレーニングデータに存在するものを上回る新しいサンプルを設計することにある。 この設定における大きな課題は、トレーニングと設計サンプルの分布が異なる分散シフトである。 何らかの変更が期待されているが、目標はよりよい設計を作ることであるが、この変更はモデルの正確さとその後の設計品質に悪影響を及ぼす可能性がある。 この問題の広範な性質にもかかわらず、ドメインの深い知識と巧妙な応用を必要とする。 そこで本研究では,分布変化を検知する簡易な設計手法を提案する。 この方法は、ラベルのない設計分布の知識を用いてバイナリ分類器を訓練し、トレーニングデータを設計データから分離する。 分類器のロジットスコアは、分布シフトの指標として使用される。 本手法は,オフラインのmboを実行して実世界のアプリケーションで検証し,分散シフトが設計品質に及ぼす影響を評価する。 最適化アルゴリズムによって得られるステップ数によって,設計分布の変化の強度が異なり,簡単なアプローチでこれらのシフトを識別できることがわかった。 これにより、モデルの予測が信頼できる領域に検索を限定することが可能となり、設計の品質が向上する。

Model-based optimization (MBO) is increasingly applied to design problems in science and engineering. A common scenario involves using a fixed training set to train models, with the goal of designing new samples that outperform those present in the training data. A major challenge in this setting is distribution shift, where the distributions of training and design samples are different. While some shift is expected, as the goal is to create better designs, this change can negatively affect model accuracy and subsequently, design quality. Despite the widespread nature of this problem, addressing it demands deep domain knowledge and artful application. To tackle this issue, we propose a straightforward method for design practitioners that detects distribution shifts. This method trains a binary classifier using knowledge of the unlabeled design distribution to separate the training data from the design data. The classifier's logit scores are then used as a proxy measure of distribution shift. We validate our method in a real-world application by running offline MBO and evaluate the effect of distribution shift on design quality. We find that the intensity of the shift in the design distribution varies based on the number of steps taken by the optimization algorithm, and our simple approach can identify these shifts. This enables users to constrain their search to regions where the model's predictions are reliable, thereby increasing the quality of designs.
翻訳日:2023-11-10 15:18:06 公開日:2023-11-09
# ボース・アインシュタイン凝縮体における不純物の臨界モーメントの下部境界

A Lower Bound on the Critical Momentum of an Impurity in a Bose-Einstein Condensate ( http://arxiv.org/abs/2311.05361v1 )

ライセンス: Link先を確認
Benjamin Hinrichs, Jonas Lampart(参考訳) ボース=アインシュタイン凝縮体に浸漬された不純物が、トータルモーメントが音速の質量よりも小さいとき、安定な準粒子を形成することをボゴリューボフ=Fr\\ohlichモデルで証明する。 この系は、この準粒子が摩擦を経験しないため、超流動的な挙動を示す。 我々は、質量のない励起と点のような相互作用を含むモデルの赤外線や紫外線の正則化を仮定しない。

In the Bogoliubov-Fr\"ohlich model, we prove that an impurity immersed in a Bose-Einstein condensate forms a stable quasi-particle when the total momentum is less than its mass times the speed of sound. The system thus exhibits superfluid behavior, as this quasi-particle does not experience friction. We do not assume any infrared or ultraviolet regularization of the model, which contains massless excitations and point-like interactions.
翻訳日:2023-11-10 15:17:44 公開日:2023-11-09
# 基底関数の非線形データ対応予測制御:一貫性と計算効率のよい定式化

Basis functions nonlinear data-enabled predictive control: Consistent and computationally efficient formulations ( http://arxiv.org/abs/2311.05360v1 )

ライセンス: Link先を確認
Mircea Lazar(参考訳) 本稿では,データ対応予測制御(DeePC)の一般機能による非線形システムへの拡張について考察する。 まず, 基本関数 DeePC の挙動予測を定式化し, 対応する基底関数と等価性を示す必要十分条件を特定する。 導出条件は動的正則化コスト関数となり、非線形DeePCの基底関数を適切に定式化することができる。 基底関数の計算効率を最適化するために、より単純でスパースな正規化コスト関数とリッジ回帰を用いた2つの別の定式化を開発する。 Koopman DeePCの一貫性と基底関数表現を構成するいくつかの方法も示す。 本研究では, 非線形振り子状態空間モデルを用いて, 雑音のないデータと雑音データの両方に対して, 提案手法の有効性を示す。

This paper considers the extension of data-enabled predictive control (DeePC) to nonlinear systems via general basis functions. Firstly, we formulate a basis functions DeePC behavioral predictor and we identify necessary and sufficient conditions for equivalence with a corresponding basis functions multi-step identified predictor. The derived conditions yield a dynamic regularization cost function that enables a well-posed (i.e., consistent) basis functions formulation of nonlinear DeePC. To optimize computational efficiency of basis functions DeePC we further develop two alternative formulations that use a simpler, sparse regularization cost function and ridge regression, respectively. Consistency implications for Koopman DeePC as well as several methods for constructing the basis functions representation are also indicated. The effectiveness of the developed consistent basis functions DeePC formulations is illustrated on a benchmark nonlinear pendulum state-space model, for both noise free and noisy data.
翻訳日:2023-11-10 15:17:34 公開日:2023-11-09
# 限られた接続性を持つガウスボソンサンプリングの古典シミュレーションの高速化

Speeding up the classical simulation of Gaussian boson sampling with limited connectivity ( http://arxiv.org/abs/2311.05355v1 )

ライセンス: Link先を確認
Tian-Yu Yang, Xiang-Bin Wang(参考訳) ガウスボソンサンプリング(GBS)は量子優位性を示す上で重要な役割を果たす。 主な欠陥として、線形光ネットワークの限られた接続は、最近の実験で量子優位性を弱める。 ここでは、限られた接続でGBSプロセスをシミュレートする高速な古典的アルゴリズムを提案する。 本稿では,接続性が制限されたgbsプロセスシミュレーションのための拡張古典アルゴリズムを提案する。 ループhafnianをn \times n$対称行列で計算し、帯域幅$w$ in $o(nw2^w)$ time で計算する。 この古典的アルゴリズムは、GBSの計算複雑性に限定的な接続がどう影響するかを明確にし、GBS問題における量子優位性の境界を狭めるのに役立つ。

Gaussian Boson sampling (GBS) plays a crucially important role in demonstrating quantum advantage. As a major imperfection, the limited connectivity of the linear optical network weakens the quantum advantage result in recent experiments. Here we present a faster classical algorithm to simulate the GBS process with limited connectivity. In this work, we introduce an enhanced classical algorithm for simulating GBS processes with limited connectivity. It computes the loop Hafnian of an $n \times n$ symmetric matrix with bandwidth $w$ in $O(nw2^w)$ time which is better than the previous fastest algorithm which runs in $O(nw^2 2^w)$ time. This classical algorithm is helpful on clarifying how limited connectivity affects the computational complexity of GBS and tightening the boundary of quantum advantage in the GBS problem.
翻訳日:2023-11-10 15:17:17 公開日:2023-11-09
# 懸濁ビーム機械共振器に結合した量子ドット:未解決状態から分解側バンド状態へ

A quantum dot coupled to a suspended-beam mechanical resonator: from the unresolved- to the resolved-sideband regime ( http://arxiv.org/abs/2311.05353v1 )

ライセンス: Link先を確認
Clemens Spinnler, Giang N. Nguyen, Ying Wang, Marcel Erbe, Alisa Javadi, Liang Zhai, Sven Scholz, Andreas D. Wieck, Arne Ludwig, Peter Lodahl, Leonardo Midolo, Richard J. Warburton(参考訳) 本稿では,InAs量子ドットを薄め,吊り下げたGaAs共振器に結合させる実験を行う。 量子ドットは共鳴的に駆動され、共鳴蛍光を検出する。 狭い量子ドットの線幅は、変換限界より3倍大きいだけであり、機械的な動きに対して高い感度をもたらす。 1つの量子ドット対から8つのメカニカルモードの周波数範囲が$30$から$600~$mathrm{MHz}$:1つの量子ドットが機械共振器を広範囲に特徴付けることを示す。 カップリングは未解決のサイドバンドと解決されたサイドバンドレギュレーションにまたがる。 最後に、共鳴蛍光スペクトル中の熱駆動フォノンサイドバンド(4.2〜\mathrm{k}$)を初めて検出する。

We present experiments in which self-assembled InAs quantum dots are coupled to a thin, suspended-beam GaAs resonator. The quantum dots are driven resonantly and the resonance fluorescence is detected. The narrow quantum-dot linewidths, just a factor of three larger than the transform limit, result in a high sensitivity to the mechanical motion. We show that one quantum dot couples to eight mechanical modes spanning a frequency range from $30$ to $600~\mathrm{MHz}$: one quantum dot provides an extensive characterisation of the mechanical resonator. The coupling spans the unresolved-sideband to the resolved-sideband regimes. Finally, we present the first detection of thermally-driven phonon sidebands (at $4.2~\mathrm{K}$) in the resonance-fluoresence spectrum.
翻訳日:2023-11-10 15:17:02 公開日:2023-11-09
# より優れたデータはない: MTデータフィルタリングにQEメトリックを使用する

There's no Data Like Better Data: Using QE Metrics for MT Data Filtering ( http://arxiv.org/abs/2311.05350v1 )

ライセンス: Link先を確認
Jan-Thorsten Peter, David Vilar, Daniel Deutsch, Mara Finkelstein, Juraj Juraska, Markus Freitag(参考訳) 明示的な参照を必要としない機械翻訳出力の評価である品質推定(qe)は、ここ数年間、ニューラルメトリックスの使用によって大きく改善されている。 本稿では,ニューラルマシン翻訳システム(nmt)の学習データにおいて,品質の悪い文対をフィルタリングするqe指標の有効性について検討する。 ほとんどのコーパスフィルタリング手法は、通常大量のウェブクローリングデータであるテキストの集合におけるノイズのあるサンプルを検出することに重点を置いているが、QEモデルはよりきめ細かい品質差を識別するために訓練されている。 トレーニングデータ中の高品質な文ペアを選択することで、トレーニングサイズを半分に減らしながら翻訳品質を向上させることができることを示す。 また, フィルタリング結果の詳細な解析を行い, 両手法の相違点を明らかにする。

Quality Estimation (QE), the evaluation of machine translation output without the need of explicit references, has seen big improvements in the last years with the use of neural metrics. In this paper we analyze the viability of using QE metrics for filtering out bad quality sentence pairs in the training data of neural machine translation systems~(NMT). While most corpus filtering methods are focused on detecting noisy examples in collections of texts, usually huge amounts of web crawled data, QE models are trained to discriminate more fine-grained quality differences. We show that by selecting the highest quality sentence pairs in the training data, we can improve translation quality while reducing the training size by half. We also provide a detailed analysis of the filtering results, which highlights the differences between both approaches.
翻訳日:2023-11-10 15:16:47 公開日:2023-11-09
# u-LLaVA:大規模言語モデルによるマルチモーダルタスクの統合

u-LLaVA: Unifying Multi-Modal Tasks via Large Language Model ( http://arxiv.org/abs/2311.05348v1 )

ライセンス: Link先を確認
Jinjin Xu, Liwu Xu, Yuzhe Yang, Xiang Li, Yanchun Xie, Yi-Jie Huang, Yaqian Li(参考訳) LLaVAやMini-GPT4といった最近の進歩は、視覚情報をLLMに統合し、刺激的な結果をもたらし、新しい世代のマルチモーダルLSM(MLLM)を生み出している。 それでもこれらの手法は幻覚とタスク間の相互干渉に苦しむ。 これらの問題に対処するために,LLMを橋梁として利用し,複数のエキスパートモデル,すなわちu-LLaVAを接続することで,下流タスクに適応する効率的かつ正確な手法を提案する。 まず,モダリティアライメントモジュールとマルチタスクモジュールをllmに組み込む。 次に,マルチタイプの公開データセットの再編成や再構築を行い,効率的なモダリティアライメントと命令追従を実現する。 最後に、トレーニングされたLLMからタスク固有情報を抽出し、下流タスクを解決するために異なるモジュールに供給する。 全体的なフレームワークはシンプルで効果的で、複数のベンチマークで最先端のパフォーマンスを実現する。 モデル、生成されたデータ、コードベースも公開しています。

Recent advances such as LLaVA and Mini-GPT4 have successfully integrated visual information into LLMs, yielding inspiring outcomes and giving rise to a new generation of multi-modal LLMs, or MLLMs. Nevertheless, these methods struggle with hallucinations and the mutual interference between tasks. To tackle these problems, we propose an efficient and accurate approach to adapt to downstream tasks by utilizing LLM as a bridge to connect multiple expert models, namely u-LLaVA. Firstly, we incorporate the modality alignment module and multi-task modules into LLM. Then, we reorganize or rebuild multi-type public datasets to enable efficient modality alignment and instruction following. Finally, task-specific information is extracted from the trained LLM and provided to different modules for solving downstream tasks. The overall framework is simple, effective, and achieves state-of-the-art performance across multiple benchmarks. We also release our model, the generated data, and the code base publicly available.
翻訳日:2023-11-10 15:16:34 公開日:2023-11-09
# データ評価のためのshapley値近似の高速化

Accelerated Shapley Value Approximation for Data Evaluation ( http://arxiv.org/abs/2311.05346v1 )

ライセンス: Link先を確認
Lauren Watson, Zeno Kujawa, Rayna Andreeva, Hao-Tsung Yang, Tariq Elahi, Rik Sarkar(参考訳) データバリュエーションは、データフィルタリング、効率的な学習、データ共有のインセンティブなど、さまざまな機械学習の応用を見出している。 データバリュエーションに対する現在の最も一般的なアプローチは、Shapley値である。 様々な応用で人気があるが、shapleyの値は、異なるサブセットのデータのトレーニングモデルの反復を必要とするため、近似しても計算コストが高い。 本稿では,機械学習問題の構造的特性を利用して,データポイントのシェープ値をより効率的に近似できることを示す。 凸損失関数と非凸損失関数を含む確率勾配降下を含む異なる学習環境における近似シャプリー値の精度に関する収束性を保証する。 我々の分析は、データバリュエーションの文脈において、小さなサブセットで訓練されたモデルはより重要であることを示唆している。 この考えに基づき、近似に小さな部分集合のみを使用する戦略である$\delta$-Shapleyについて説明する。 実験によると、このアプローチはデータの近似値とランクを保ち、最大9.9倍のスピードアップを達成する。 事前学習されたネットワークでは、小さなサブセットを用いて正確な評価を行うことで、より効率的な手法が期待できる。

Data valuation has found various applications in machine learning, such as data filtering, efficient learning and incentives for data sharing. The most popular current approach to data valuation is the Shapley value. While popular for its various applications, Shapley value is computationally expensive even to approximate, as it requires repeated iterations of training models on different subsets of data. In this paper we show that the Shapley value of data points can be approximated more efficiently by leveraging the structural properties of machine learning problems. We derive convergence guarantees on the accuracy of the approximate Shapley value for different learning settings including Stochastic Gradient Descent with convex and non-convex loss functions. Our analysis suggests that in fact models trained on small subsets are more important in the context of data valuation. Based on this idea, we describe $\delta$-Shapley -- a strategy of only using small subsets for the approximation. Experiments show that this approach preserves approximate value and rank of data, while achieving speedup of up to 9.9x. In pre-trained networks the approach is found to bring more efficiency in terms of accurate evaluation using small subsets.
翻訳日:2023-11-10 15:16:20 公開日:2023-11-09
# 分解側バンド系におけるフォノン結晶共振器に結合した単一光子エミッタ

A single-photon emitter coupled to a phononic-crystal resonator in the resolved-sideband regime ( http://arxiv.org/abs/2311.05342v1 )

ライセンス: Link先を確認
Clemens Spinnler, Giang N. Nguyen, Ying Wang, Liang Zhai, Alisa Javadi, Marcel Erbe, Sven Scholz, Andreas D. Wieck, Arne Ludwig, Peter Lodahl, Leonardo Midolo, Richard J. Warburton(参考訳) 単一フォノンのヘラルド生成と消滅への有望な経路は、単一光子エミッタを機械的共振器に結合することである。 この課題は、大きな結合率と高い機械的品質因子で解決されたサイドバンド体制に達することである。 自己集合したInAs量子ドットを、機械周波数$\Omega_\mathrm{m}/2\pi = 1.466~\mathrm{GHz}$と品質係数$Q_\mathrm{m} = 2.1\times10^3$の小さなモードのフォノン結晶共振器に結合することで、これらを実現できる。 g_\mathrm{ep}/2\pi = 2.9~\mathrm{mhz}$の結合率が高く、効果的なrabiと機械的周波数のマッチング条件を利用することで、2つのシステム間の相互作用を観測できる。 この結果は、単一光子エミッタによるメカニカル共振器の量子制御への大きな一歩である。

A promising route towards the heralded creation and annihilation of single-phonons is to couple a single-photon emitter to a mechanical resonator. The challenge lies in reaching the resolved-sideband regime with a large coupling rate and a high mechanical quality factor. We achieve all of this by coupling self-assembled InAs quantum dots to a small-mode-volume phononic-crystal resonator with mechanical frequency $\Omega_\mathrm{m}/2\pi = 1.466~\mathrm{GHz}$ and quality factor $Q_\mathrm{m} = 2.1\times10^3$. Thanks to the high coupling rate of $g_\mathrm{ep}/2\pi = 2.9~\mathrm{MHz}$, and by exploiting a matching condition between the effective Rabi and mechanical frequencies, we are able to observe the interaction between the two systems. Our results represent a major step towards quantum control of the mechanical resonator via a single-photon emitter.
翻訳日:2023-11-10 15:16:04 公開日:2023-11-09
# SynFacePAD 2023:プライバシ・アウェア・シンセティック・トレーニングデータに基づく顔提示攻撃検出コンペティション

SynFacePAD 2023: Competition on Face Presentation Attack Detection Based on Privacy-aware Synthetic Training Data ( http://arxiv.org/abs/2311.05336v1 )

ライセンス: Link先を確認
Meiling Fang, Marco Huber, Julian Fierrez, Raghavendra Ramachandra, Naser Damer, Alhasan Alkhaddour, Maksim Kasantcev, Vasiliy Pryadchenko, Ziyuan Yang, Huijie Huangfu, Yingyu Chen, Yi Zhang, Yuchen Pan, Junjun Jiang, Xianming Liu, Xianyun Sun, Caiyong Wang, Xingyu Liu, Zhaohua Chang, Guangzhe Zhao, Juan Tapia, Lazaro Gonzalez-Soler, Carlos Aravena, Daniel Schulz(参考訳) 本稿では,プライバシを意識した総合訓練データ(SynFacePAD 2023)に基づく顔提示攻撃検出コンペティションの概要を,2023年国際バイオメトリクス会議(IJCB 2023)で開催した。 コンペティションには8チームが参加し、アカデミックや業界からの応募が認められた。 このコンペは、個人データに関連するプライバシー、法的、倫理的な懸念に動機づけられた総合的なトレーニングデータを考慮しながら、顔のプレゼンテーション攻撃の検出を目標とするソリューションを動機付け、引き付けることを目的としている。 そのため、参加者が使用するトレーニングデータは、主催者が提供する合成データに限られていた。 提出されたソリューションは、調査されたベンチマークのベースラインを上回らせるイノベーションと新しいアプローチを提示した。

This paper presents a summary of the Competition on Face Presentation Attack Detection Based on Privacy-aware Synthetic Training Data (SynFacePAD 2023) held at the 2023 International Joint Conference on Biometrics (IJCB 2023). The competition attracted a total of 8 participating teams with valid submissions from academia and industry. The competition aimed to motivate and attract solutions that target detecting face presentation attacks while considering synthetic-based training data motivated by privacy, legal and ethical concerns associated with personal data. To achieve that, the training data used by the participants was limited to synthetic data provided by the organizers. The submitted solutions presented innovations and novel approaches that led to outperforming the considered baseline in the investigated benchmarks.
翻訳日:2023-11-10 15:15:41 公開日:2023-11-09
# リアルタイム出席者推定:iCubロボットにおける深層学習モデルの展開

Real-time Addressee Estimation: Deployment of a Deep-Learning Model on the iCub Robot ( http://arxiv.org/abs/2311.05334v1 )

ライセンス: Link先を確認
Carlo Mazzola, Francesco Rea, Alessandra Sciutti(参考訳) 宛先推定とは、相手が話している相手を理解する能力であり、社会ロボットが人間とスムーズに対話するために必要なスキルである。 この意味では、マルチパーティや非構造化のシナリオにおいて効果的な会話エージェントを開発するために取り組まなければならない問題の1つです。 人間として、このような推定を主に導くチャネルの1つは、話者の非言語的行動である: まず、その視線と身体のポーズ。 人間の知覚的スキルに触発されて,本研究では,これら2つの非言語的特徴に依拠して,icubロボットを設計,訓練,展開する,問答者推定のための深層学習モデルについて述べる。 本研究は, 実時間人間-ロボットインタラクションに展開されたモデルの実装手順と性能を, トレーニングに用いるデータセットの以前のテストと比較した。

Addressee Estimation is the ability to understand to whom a person is talking, a skill essential for social robots to interact smoothly with humans. In this sense, it is one of the problems that must be tackled to develop effective conversational agents in multi-party and unstructured scenarios. As humans, one of the channels that mainly lead us to such estimation is the non-verbal behavior of speakers: first of all, their gaze and body pose. Inspired by human perceptual skills, in the present work, a deep-learning model for Addressee Estimation relying on these two non-verbal features is designed, trained, and deployed on an iCub robot. The study presents the procedure of such implementation and the performance of the model deployed in real-time human-robot interaction compared to previous tests on the dataset used for the training.
翻訳日:2023-11-10 15:15:28 公開日:2023-11-09
# GPT-4V(Ision):自律走行における視覚言語モデルの早期探索

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving ( http://arxiv.org/abs/2311.05332v1 )

ライセンス: Link先を確認
Licheng Wen, Xuemeng Yang, Daocheng Fu, Xiaofeng Wang, Pinlong Cai, Xin Li, Tao Ma, Yingxuan Li, Linran Xu, Dengke Shang, Zheng Zhu, Shaoyan Sun, Yeqi Bai, Xinyu Cai, Min Dou, Shuanglu Hu, Botian Shi(参考訳) 自動運転技術の追求は、知覚、意思決定、制御システムの高度な統合にかかっている。 データ駆動型とルールベースの従来のアプローチは、複雑な運転環境のニュアンスや、他の道路利用者の意図を把握できないことで妨げられている。 これは特に、安全で信頼性の高い自動運転に必要な常識推論とニュアンスのあるシーン理解の開発において重要なボトルネックとなっている。 視覚言語モデル(VLM)の出現は、完全自律運転の実現における新たなフロンティアである。 本稿では,最新のVLMである \modelnamefull の総合評価と自動運転シナリオへの応用について述べる。 我々は、シーンを駆動し、決定を下し、最終的にはドライバーの能力で行動する、モデルを理解する能力について探求する。 我々の包括的なテストは、基本的なシーン認識から複雑な因果推論、様々な条件下でのリアルタイム意思決定まで幅広い。 以上の結果から,既存の自律型システムと比較して,シーン理解や因果推論に優れた性能を示すことが明らかとなった。 分散外のシナリオを処理し、意図を認識し、実際の運転状況でインフォームドな意思決定を行う可能性を示す。 しかし、特に方向識別、交通光認識、視覚の接地、空間的推論といった課題は残る。 これらの制限は、さらなる研究と開発の必要性を浮き彫りにした。 プロジェクトがGitHubで利用可能になった。 \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}

The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to grasp the nuance of complex driving environments and the intentions of other road users. This has been a significant bottleneck, particularly in the development of common sense reasoning and nuanced scene understanding necessary for safe and reliable autonomous driving. The advent of Visual Language Models (VLM) represents a novel frontier in realizing fully autonomous vehicle driving. This report provides an exhaustive evaluation of the latest state-of-the-art VLM, \modelnamefull, and its application in autonomous driving scenarios. We explore the model's abilities to understand and reason about driving scenes, make decisions, and ultimately act in the capacity of a driver. Our comprehensive tests span from basic scene recognition to complex causal reasoning and real-time decision-making under varying conditions. Our findings reveal that \modelname demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems. It showcases the potential to handle out-of-distribution scenarios, recognize intentions, and make informed decisions in real driving contexts. However, challenges remain, particularly in direction discernment, traffic light recognition, vision grounding, and spatial reasoning tasks. These limitations underscore the need for further research and development. Project is now available on GitHub for interested parties to access and utilize: \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}
翻訳日:2023-11-10 15:15:14 公開日:2023-11-09
# Web上での感情分析に新たなカテゴリアソシエーション推定器を適用する

Applying a new category association estimator to sentiment analysis on the Web ( http://arxiv.org/abs/2311.05330v1 )

ライセンス: Link先を確認
Henrique S. Xavier, Diogo Cortiz, Mateus Silvestrin, Ana Lu\'isa Freitas, Let\'icia Yumi Nakao Morello, Fernanda Naomi Pantale\~ao, Gabriel Gaudencio do R\^ego(参考訳) 本稿では,カテゴリー変数間の相関度を測定する新しいベイズ法を提案する。 この方法は変数独立の形式的定義に基づいており、MCMC技術を用いて実装された。 既存の手法とは異なり、このアプローチはあらゆるカテゴリーにおける発生回数に関する事前知識を前提とせず、感情分析のような応用に特に適している。 本手法は,ポルトガル語で書かれた4,613ツイートからなるデータセットに適用した。 この分析により,相互に排他的な関係を示す感情のペアを同定した。 さらに、この手法は、データで観察される特徴であるカテゴリ間の階層的関係を識別し、感情を基本的なレベルグループにクラスタリングするために使用しました。

This paper introduces a novel Bayesian method for measuring the degree of association between categorical variables. The method is grounded in the formal definition of variable independence and was implemented using MCMC techniques. Unlike existing methods, this approach does not assume prior knowledge of the total number of occurrences for any category, making it particularly well-suited for applications like sentiment analysis. We applied the method to a dataset comprising 4,613 tweets written in Portuguese, each annotated for 30 possibly overlapping emotional categories. Through this analysis, we identified pairs of emotions that exhibit associations and mutually exclusive pairs. Furthermore, the method identifies hierarchical relations between categories, a feature observed in our data, and was used to cluster emotions into basic level groups.
翻訳日:2023-11-10 15:14:50 公開日:2023-11-09
# ダイヤモンド中の高密度NV中心アンサンブル形成のためのホットイオン注入

Hot ion implantation to create dense NV centre ensembles in diamond ( http://arxiv.org/abs/2311.05328v1 )

ライセンス: Link先を確認
Midrel Wilfried Ngandeu Ngambou, Pauline Perrin, Ionut Balasa, Alexey Tiranov, Ovidiu Brinza, Fabien Benedic, Justine Renaud, Morgan Reveillard, Jeremie Silvent, Philippe Goldner, Jocelyn Achard, Alexandre Tallaire(参考訳) 高いスピン特性を持つ密度と浅い窒素空孔(NV)アンサンブルを作ることは、優れた性能を示すダイヤモンドベースの量子センサーを開発するための前提条件である。 イオン注入はダイヤモンド中のnv色中心の空間局在と密度を正確に制御するための重要な道具である。 しかし、生成率が低いのに対して、高いイオンフルエンスで結晶格子が著しく損傷する。 本研究では,30~40keV帯でのN2イオン注入を高温で実現した。 800cでは、nvアンサンブル発光は室温注入膜より3倍から4倍高いが、狭い電子スピン共鳴線幅は1.5mhzであり、十分に確立された注入技術に匹敵する。 また, 室温注入とは対照的に, 2e14イオン/cm2以上のイオンフルエンスはダイヤモンド膜の黒鉛化を伴わずに使用できることがわかった。 本研究は、量子センシングデバイスに組み込むことのできるnvアンサンブルを組み込んだダイヤモンド薄膜の最適化に有望な展望を開く。

Creating dense and shallow nitrogen vacancy (NV) ensembles with good spin properties, is a prerequisite for developing diamond-based quantum sensors exhibiting better performance. Ion implantation is a key enabling tool for precisely controlling spatial localisation and density of NV colour centres in diamond. However, it suffers from a low creation yield, while higher ion fluences significantly damage the crystal lattice. In this work, we realize N2 ion implantation in the 30 to 40 keV range at high temperatures. At 800 C, NV ensemble photoluminescence emission is three to four times higher than room temperature implanted films, while narrow electron spin resonance linewidths of 1.5 MHz, comparable to well established implantation techniques are obtained. In addition, we found that ion fluences above 2E14 ions per cm2 can be used without graphitization of the diamond film, in contrast to room temperature implantation. This study opens promising perspectives in optimizing diamond films with implanted NV ensembles that could be integrated into quantum sensing devices.
翻訳日:2023-11-10 15:14:37 公開日:2023-11-09
# Fair Wasserstein Coresets

Fair Wasserstein Coresets ( http://arxiv.org/abs/2311.05436v1 )

ライセンス: Link先を確認
Zikai Xiong, Niccol\`o Dalmasso, Vamsi K. Potluru, Tucker Balch, Manuela Veloso(参考訳) 近年の技術的進歩により、大量のデータを収集する能力が生まれ、一般的な機械学習アルゴリズムの能力を超えていることが多い。 coresetsやsynthetic data distillationといったアプローチは、下流トレーニングのためにより小さく、しかし代表的なサンプルセットを生成するためのフレームワークとして登場した。 機械学習が意思決定プロセスにますます適用されるにつれて、モデル作成者は人種、性別、その他の機密属性といった要因によって定義されるサブグループに関するデータの中でバイアスを考慮し、対処することが不可欠になる。 現在のアプローチは、原サンプルに対する局所特性を最適化することで、公正な合成代表サンプルを作成することに焦点を当てている。 しかし、これらの手法は下流学習プロセスの性能や公平性に肯定的な影響を及ぼすことは保証されていない。 本稿では,fair wasserstein coresets (fwc) を提案する。これは,下流学習タスクで使用するサンプルレベルの重みと合わせて,公正な合成代表サンプルを生成する新しいコアセットアプローチである。 FWCは、元のデータセットと重み付けされた合成サンプルの間のワッサースタイン距離を最小化することを目的としており、線形制約によってアルゴリズムの公正性の顕著な基準である(経験的なバージョンの)人口比率を強制する。 我々は,fwcをk-mediansあるいはk-meansクラスタリングのためのロイドアルゴリズムの制約付きバージョンと考えることができることを示した。 我々の実験は, 合成データセットと実データセットの両方で実施され, 我々のアプローチのスケーラビリティを実証し, 公正クラスタリング手法と比較してFWCの競争性能を強調した。

Recent technological advancements have given rise to the ability of collecting vast amounts of data, that often exceed the capacity of commonly used machine learning algorithms. Approaches such as coresets and synthetic data distillation have emerged as frameworks to generate a smaller, yet representative, set of samples for downstream training. As machine learning is increasingly applied to decision-making processes, it becomes imperative for modelers to consider and address biases in the data concerning subgroups defined by factors like race, gender, or other sensitive attributes. Current approaches focus on creating fair synthetic representative samples by optimizing local properties relative to the original samples. These methods, however, are not guaranteed to positively affect the performance or fairness of downstream learning processes. In this work, we present Fair Wasserstein Coresets (FWC), a novel coreset approach which generates fair synthetic representative samples along with sample-level weights to be used in downstream learning tasks. FWC aims to minimize the Wasserstein distance between the original datasets and the weighted synthetic samples while enforcing (an empirical version of) demographic parity, a prominent criterion for algorithmic fairness, via a linear constraint. We show that FWC can be thought of as a constrained version of Lloyd's algorithm for k-medians or k-means clustering. Our experiments, conducted on both synthetic and real datasets, demonstrate the scalability of our approach and highlight the competitive performance of FWC compared to existing fair clustering approaches, even when attempting to enhance the fairness of the latter through fair pre-processing techniques.
翻訳日:2023-11-10 15:09:02 公開日:2023-11-09
# 拡散に基づく因果表現学習

Diffusion Based Causal Representation Learning ( http://arxiv.org/abs/2311.05421v1 )

ライセンス: Link先を確認
Amir Mohammad Karimi Mamaghan, Andrea Dittadi, Stefan Bauer, Karl Henrik Johansson, Francesco Quinzan(参考訳) 因果推論はインテリジェントシステムの基盤と見なすことができる。 基礎となる因果グラフへのアクセスには、因果効果の推定と効率的かつ安全な介入の特定の約束が伴う。 しかし、多くの現実世界のシステムの複雑さのため、因果表現の学習は依然として大きな課題である。 因果表現学習に関するこれまでの研究は、主に変分オートエンコーダ(VAE)に焦点を当ててきた。 これらの手法は点推定からの表現しか提供せず、高次元を扱うには不適である。 これらの問題を解決するために,拡散に基づく因果表現学習(DCRL)アルゴリズムを提案する。 このアルゴリズムは因果発見に拡散に基づく表現を用いる。 DCRLは無限次元の潜伏符号へのアクセスを提供し、潜伏符号の様々なレベルの情報を符号化する。 第一原理証明では、因果表現学習におけるDCRLの使用について検討する。 さらに,この手法が因果構造と因果変数の同定に有効であることを実験的に示す。

Causal reasoning can be considered a cornerstone of intelligent systems. Having access to an underlying causal graph comes with the promise of cause-effect estimation and the identification of efficient and safe interventions. However, learning causal representations remains a major challenge, due to the complexity of many real-world systems. Previous works on causal representation learning have mostly focused on Variational Auto-Encoders (VAE). These methods only provide representations from a point estimate, and they are unsuitable to handle high dimensions. To overcome these problems, we proposed a new Diffusion-based Causal Representation Learning (DCRL) algorithm. This algorithm uses diffusion-based representations for causal discovery. DCRL offers access to infinite dimensional latent codes, which encode different levels of information in the latent code. In a first proof of principle, we investigate the use of DCRL for causal representation learning. We further demonstrate experimentally that this approach performs comparably well in identifying the causal structure and causal variables.
翻訳日:2023-11-10 15:08:32 公開日:2023-11-09
# 対訳 公正な表現

Counterfactually Fair Representation ( http://arxiv.org/abs/2311.05420v1 )

ライセンス: Link先を確認
Zhiqun Zuo and Mohammad Mahdi Khalili and Xueru Zhang(参考訳) 高リスクアプリケーション(医療、貸付、大学入学など)における機械学習モデルの利用は、保護された社会グループに対する潜在的なバイアスのために、懸念が高まっている。 このようなバイアスを軽減するために、様々な公正の概念や方法が提案されている。 本研究は,基礎となる因果グラフに依存し,Kusner \textit{et al.によって最初に提案されたフェアネスの概念である,対実フェアネス(CF)に焦点を当てる。 個人が知覚する成果は、その個人が別の社会集団に属している「偽物」の世界と同じである必要がある。 CFを満たす公正なモデルを学ぶことは難しい。 これは \cite{kusner2017counterfactual} で示され、cfを満たすのに十分条件は因果グラフの繊細な属性の子孫である機能である \textbf{not} を使用することである。 これは、すべての子孫を排除しながら、機密属性の非依存性のみを使用してCFモデルを学習する単純な方法である。 cfモデルのトレーニングにすべての機能を使用する方法が提案されているが、cfを満足できるという理論的保証はない。 対照的に、この研究は利用可能なすべての機能を使ってモデルを訓練する新しいアルゴリズムを提案する。 この方法でトレーニングされたモデルはcf\footnote{この作業のためのコードリポジトリは \url{https://github.com/osu-srml/cf_representation_learning}} で見ることができる。

The use of machine learning models in high-stake applications (e.g., healthcare, lending, college admission) has raised growing concerns due to potential biases against protected social groups. Various fairness notions and methods have been proposed to mitigate such biases. In this work, we focus on Counterfactual Fairness (CF), a fairness notion that is dependent on an underlying causal graph and first proposed by Kusner \textit{et al.}~\cite{kusner2017counterfactual}; it requires that the outcome an individual perceives is the same in the real world as it would be in a "counterfactual" world, in which the individual belongs to another social group. Learning fair models satisfying CF can be challenging. It was shown in \cite{kusner2017counterfactual} that a sufficient condition for satisfying CF is to \textbf{not} use features that are descendants of sensitive attributes in the causal graph. This implies a simple method that learns CF models only using non-descendants of sensitive attributes while eliminating all descendants. Although several subsequent works proposed methods that use all features for training CF models, there is no theoretical guarantee that they can satisfy CF. In contrast, this work proposes a new algorithm that trains models using all the available features. We theoretically and empirically show that models trained with this method can satisfy CF\footnote{The code repository for this work can be found in \url{https://github.com/osu-srml/CF_Representation_Learning}}.
翻訳日:2023-11-10 15:08:17 公開日:2023-11-09
# Mirror: さまざまな情報抽出タスクのためのユニバーサルフレームワーク

Mirror: A Universal Framework for Various Information Extraction Tasks ( http://arxiv.org/abs/2311.05419v1 )

ライセンス: Link先を確認
Tong Zhu, Junfei Ren, Zijian Yu, Mengsong Wu, Guoliang Zhang, Xiaoye Qu, Wenliang Chen, Zhefeng Wang, Baoxing Huai, Min Zhang(参考訳) 情報抽出タスク間の知識の共有は、さまざまなデータフォーマットとタスクのバリエーションのため、常に課題となっている。 一方、この分散は情報の無駄を招き、実際のシナリオにおける複雑なアプリケーション構築の困難を増す。 最近の研究は、しばしば三重項抽出問題としてIEタスクを定式化している。 しかし、そのようなパラダイムはマルチスパンとn-ary抽出をサポートしておらず、弱い汎用性をもたらす。 この目的のために、我々はIE問題を統一されたマルチスロットタプルに再編成し、様々なIEタスク、すなわちMirrorのための普遍的なフレームワークを提案する。 具体的には、既存のieタスクをマルチスパン循環グラフ抽出問題として再キャストし、非自己回帰グラフ復号アルゴリズムを考案し、すべてのスパンを1ステップで抽出する。 このグラフ構造は驚くほど汎用性があり、複雑なIEタスクだけでなく、機械読み取りの理解や分類タスクもサポートしています。 モデル事前学習のための57のデータセットを含むコーパスを手動で構築し、8つの下流タスクにわたる30のデータセットで実験を行う。 実験結果から,本モデルは良好な互換性を示し,ショット数やゼロショット数でSOTAシステムと競合する性能を示した。 コード、モデルの重み付け、事前トレーニングコーパスはhttps://github.com/Spico197/Mirror.orgで入手できる。

Sharing knowledge between information extraction tasks has always been a challenge due to the diverse data formats and task variations. Meanwhile, this divergence leads to information waste and increases difficulties in building complex applications in real scenarios. Recent studies often formulate IE tasks as a triplet extraction problem. However, such a paradigm does not support multi-span and n-ary extraction, leading to weak versatility. To this end, we reorganize IE problems into unified multi-slot tuples and propose a universal framework for various IE tasks, namely Mirror. Specifically, we recast existing IE tasks as a multi-span cyclic graph extraction problem and devise a non-autoregressive graph decoding algorithm to extract all spans in a single step. It is worth noting that this graph structure is incredibly versatile, and it supports not only complex IE tasks, but also machine reading comprehension and classification tasks. We manually construct a corpus containing 57 datasets for model pretraining, and conduct experiments on 30 datasets across 8 downstream tasks. The experimental results demonstrate that our model has decent compatibility and outperforms or reaches competitive performance with SOTA systems under few-shot and zero-shot settings. The code, model weights, and pretraining corpus are available at https://github.com/Spico197/Mirror .
翻訳日:2023-11-10 15:07:33 公開日:2023-11-09
# 医療aiの一般化:スケーラブルなモデル開発への展望

Generalization in medical AI: a perspective on developing scalable models ( http://arxiv.org/abs/2311.05418v1 )

ライセンス: Link先を確認
Joachim A. Behar, Jeremy Levy and Leo Anthony Celi(参考訳) 過去数年間、研究は大規模なデータセットでトレーニングされたディープラーニングモデルの進歩を目の当たりにしてきた。 隠れたテストセットでのこれらの印象的なパフォーマンスは、外部データセットでの評価では、パフォーマンスが低下することが多い。 医学的ai開発における一般化の重要役割を認識し、多くの権威あるジャーナルは、出版研究を考える前に、ローカルの隠れたテストセットと外部データセットの両方で結果を報告する必要がある。 効果的に、医療AIの分野は、トレーニングとテストに分割された単一のデータセットの伝統的な使用から、複数のデータセットを使用したより包括的なフレームワークへと移行した。 しかし、この新しい実験的な設定は必ずしも一般化の課題を解決しない。 これは、普遍的に一般化できるシステムの概念を神話として、病院の文化をまたがる意図的な使用や特異性に遭遇する変動性のためである。 一方, 病院レベルでのモデルの再校正は, 法的, 規制的, 技術的課題を考えると, 理想的ではあるが過度に最適化されている可能性がある。 転送学習を用いた再校正は、ターゲットドメインの参照ラベルが利用できないケースでは不可能である。 この観点から、医療AIアルゴリズムの一般化レベルを反映した階層的な3段階尺度システムを確立する。 このスケールは、モデルの再校正のためのターゲットドメインデータが利用可能であるかどうか、もし可能であれば、参照ラベルが体系的に利用可能であるかどうか、といった現実の医療シナリオの多様性を反映している。

Over the past few years, research has witnessed the advancement of deep learning models trained on large datasets, some even encompassing millions of examples. While these impressive performance on their hidden test sets, they often underperform when assessed on external datasets. Recognizing the critical role of generalization in medical AI development, many prestigious journals now require reporting results both on the local hidden test set as well as on external datasets before considering a study for publication. Effectively, the field of medical AI has transitioned from the traditional usage of a single dataset that is split into train and test to a more comprehensive framework using multiple datasets, some of which are used for model development (source domain) and others for testing (target domains). However, this new experimental setting does not necessarily resolve the challenge of generalization. This is because of the variability encountered in intended use and specificities across hospital cultures making the idea of universally generalizable systems a myth. On the other hand, the systematic, and a fortiori recurrent re-calibration, of models at the individual hospital level, although ideal, may be overoptimistic given the legal, regulatory and technical challenges that are involved. Re-calibration using transfer learning may not even be possible in some instances where reference labels of target domains are not available. In this perspective we establish a hierarchical three-level scale system reflecting the generalization level of a medical AI algorithm. This scale better reflects the diversity of real-world medical scenarios per which target domain data for re-calibration of models may or not be available and if it is, may or not have reference labels systematically available.
翻訳日:2023-11-10 15:06:56 公開日:2023-11-09
# 拡散モデルを用いた最接近時の位置不確かさの予測

Predicting the Position Uncertainty at the Time of Closest Approach with Diffusion Models ( http://arxiv.org/abs/2311.05417v1 )

ライセンス: Link先を確認
Marta Guimar\~aes, Cl\'audia Soares, Chiara Manfletti(参考訳) 近年では、居住する宇宙物体同士の衝突の危険性が著しく増大している。 その結果、宇宙船の衝突回避手順は衛星の運用に欠かせない部分となった。 安全で効果的な宇宙活動を確保するために、衛星所有者とオペレーターは絶えず更新された遭遇の見積もりに依存する。 これらの推定には、期待されたTCAにおける各オブジェクトの位置に関連する不確実性が含まれる。 これらの推定は衝突回避管理などリスク軽減策の立案に不可欠である。 TCAが近づくにつれて、これらの推定の精度が向上し、物体の軌道決定と伝播の手順はより短い時間間隔で行われるようになった。 しかし、この改善は決定の重大な瞬間近くで行われるコストがかかる。 これは、安全な回避操作は不可能かもしれないし、重大なコストを発生させる可能性があることを意味する。 したがって、前もってこの変数の進化を知ることは作用素にとって重要である。 本研究では, 拡散モデルに基づく機械学習モデルを提案し, 接近する物体の位置の不確かさ, 特に, 予測不能な2次物体(通常デブリ)の位置不確実性を予測する。 その結果,提案手法は宇宙船運用の安全性と有効性を大幅に向上できる可能性が示唆された。

The risk of collision between resident space objects has significantly increased in recent years. As a result, spacecraft collision avoidance procedures have become an essential part of satellite operations. To ensure safe and effective space activities, satellite owners and operators rely on constantly updated estimates of encounters. These estimates include the uncertainty associated with the position of each object at the expected TCA. These estimates are crucial in planning risk mitigation measures, such as collision avoidance manoeuvres. As the TCA approaches, the accuracy of these estimates improves, as both objects' orbit determination and propagation procedures are made for increasingly shorter time intervals. However, this improvement comes at the cost of taking place close to the critical decision moment. This means that safe avoidance manoeuvres might not be possible or could incur significant costs. Therefore, knowing the evolution of this variable in advance can be crucial for operators. This work proposes a machine learning model based on diffusion models to forecast the position uncertainty of objects involved in a close encounter, particularly for the secondary object (usually debris), which tends to be more unpredictable. We compare the performance of our model with other state-of-the-art solutions and a na\"ive baseline approach, showing that the proposed solution has the potential to significantly improve the safety and effectiveness of spacecraft operations.
翻訳日:2023-11-10 15:06:06 公開日:2023-11-09
# 指向性物体検出のための線形ガウス境界ボックス表現とリング型回転畳み込み

Linear Gaussian Bounding Box Representation and Ring-Shaped Rotated Convolution for Oriented Object Detection ( http://arxiv.org/abs/2311.05410v1 )

ライセンス: Link先を確認
Zhen Zhou, Yunkai Ma, Junfeng Fan, Zhaoyang Liu, Fengshui Jing and Min Tan(参考訳) 対象方向の頻繁な変動のため、方向情報の正確な予測はオブジェクト指向対象検出の課題である。 方向関連情報をよりよく抽出するために、現在の手法は主にオブジェクト指向境界ボックス(OBB)の合理的表現と回転感度特徴抽出の設計に焦点を当てている。 しかし、既存のobb表現はしばしば境界の不連続性と表現曖昧性の問題に苦しむ。 連続的かつ曖昧な回帰損失を設計する方法は、そのような問題を本質的には解決しない。 ガウス境界ボックス (GBB) はこれらの OBB 表現問題を回避するが、直接退避する GBB は数値不安定性の影響を受けやすい。 本稿では,新しい OBB 表現である線形 GBB (LGBB) を提案する。 GBBの要素を線形変換することにより、LGBBは境界不連続性や表現曖昧性の問題を持たず、高い数値安定性を有する。 一方、畳み込みに基づく現在の回転感応特徴抽出法は局所受容場下でのみ特徴を抽出することができ、回転感応特徴の集約が遅い。 この問題に対処するため,リング状回転畳み込み(RRC)を提案する。 任意の向きに適応的に回転する特徴写像により、rrcはリング状の受容場の下で回転感応特徴を抽出し、迅速に回転感応特徴と文脈情報を抽出する。 RRCは様々なモデルにプラグアンドプレイで適用することができる。 実験の結果,lgbb と rrc は実効性を示し,最新技術 (sota) 性能を達成した。 LGBBとRCを様々なモデルに統合することにより、DOTAとHRSC2016データセットで検出精度が効果的に向上する。

Due to the frequent variability of object orientation, accurate prediction of orientation information remains a challenge in oriented object detection. To better extract orientation-related information, current methods primarily focus on the design of reasonable representations of oriented bounding box (OBB) and rotation-sensitive feature extraction. However, existing OBB representations often suffer from boundary discontinuity and representation ambiguity problems. Methods of designing continuous and unambiguous regression losses do not essentially solve such problems. Gaussian bounding box (GBB) avoids these OBB representation problems, but directly regressing GBB is susceptible to numerical instability. In this paper, we propose linear GBB (LGBB), a novel OBB representation. By linearly transforming the elements of GBB, LGBB does not have the boundary discontinuity and representation ambiguity problems, and have high numerical stability. On the other hand, current rotation-sensitive feature extraction methods based on convolutions can only extract features under a local receptive field, which is slow in aggregating rotation-sensitive features. To address this issue, we propose ring-shaped rotated convolution (RRC). By adaptively rotating feature maps to arbitrary orientations, RRC extracts rotation-sensitive features under a ring-shaped receptive field, rapidly aggregating rotation-sensitive features and contextual information. RRC can be applied to various models in a plug-and-play manner. Experimental results demonstrate that the proposed LGBB and RRC are effective and achieve state-of-the-art (SOTA) performance. By integrating LGBB and RRC into various models, the detection accuracy is effectively improved on DOTA and HRSC2016 datasets.
翻訳日:2023-11-10 15:05:43 公開日:2023-11-09
# 基礎データに対するニューラルネットワークの可能性に関するデータ蒸留

Data Distillation for Neural Network Potentials toward Foundational Dataset ( http://arxiv.org/abs/2311.05407v1 )

ライセンス: Link先を確認
Gang Seob Jung, Sangkeun Lee, Jong Youl Choi(参考訳) 機械学習(ML)技術と原子モデルは急速に材料設計と発見を変えてきた。 具体的には、生成モデルは、ターゲットアプリケーションのための有望な材料を迅速に提案することができる。 しかし、生成モデルによる材料の予測特性は、アブ初期計算による計算特性と一致しないことが多い。 この相違は生成した座標が完全に緩和されないために生じるが、多くの性質は緩和された構造から導かれる。 ニューラルネットワークベースのポテンシャル(NNP)は、最初に生成されたものから緩和された構造を提供することで、プロセスの迅速化を可能にする。 それでも、NNPを訓練するためのデータを取得することは、これまで未知の構造を包含する必要があるため、非常に難しい。 本研究は, 拡張アンサンブル分子動力学(MD)を用いて, 金属系, ニッケル中の液相および固相の幅広い構成を確保した。 そして、多くの精度を失うことなく、アクティブな学習によってそれらを著しく削減できるのです。 蒸留データからトレーニングしたNNPは,これらの構造が初期データの一部ではないにもかかわらず,異なるエネルギー最小化クローズパック結晶構造を予測できることがわかった。 さらに、データはサンプリングと蒸留を繰り返すことなく他の金属系(アルミニウムとニオブ)に変換することができる。 データ取得と蒸留に対する我々のアプローチは、生成モデルを統合することにより、NNP開発を迅速化し、材料設計と発見を促進する可能性を実証した。

Machine learning (ML) techniques and atomistic modeling have rapidly transformed materials design and discovery. Specifically, generative models can swiftly propose promising materials for targeted applications. However, the predicted properties of materials through the generative models often do not match with calculated properties through ab initio calculations. This discrepancy can arise because the generated coordinates are not fully relaxed, whereas the many properties are derived from relaxed structures. Neural network-based potentials (NNPs) can expedite the process by providing relaxed structures from the initially generated ones. Nevertheless, acquiring data to train NNPs for this purpose can be extremely challenging as it needs to encompass previously unknown structures. This study utilized extended ensemble molecular dynamics (MD) to secure a broad range of liquid- and solid-phase configurations in one of the metallic systems, nickel. Then, we could significantly reduce them through active learning without losing much accuracy. We found that the NNP trained from the distilled data could predict different energy-minimized closed-pack crystal structures even though those structures were not explicitly part of the initial data. Furthermore, the data can be translated to other metallic systems (aluminum and niobium), without repeating the sampling and distillation processes. Our approach to data acquisition and distillation has demonstrated the potential to expedite NNP development and enhance materials design and discovery by integrating generative models.
翻訳日:2023-11-10 15:04:57 公開日:2023-11-09
# SIRE:グラフニューラルネットワークを用いた動脈方位のスケール不変、回転同変推定

SIRE: scale-invariant, rotation-equivariant estimation of artery orientations using graph neural networks ( http://arxiv.org/abs/2311.05400v1 )

ライセンス: Link先を確認
Dieuwertje Alblas, Julian Suk, Christoph Brune, Kak Khee Yeung, Jelmer M. Wolterink(参考訳) 3次元医用画像で可視化される血管の向きは、中心線抽出とその後のセグメンテーションと可視化に使用できる幾何学の重要な記述である。 動脈は様々なスケールで出現し、その正確な向きを決定することは困難である。 最近の研究では3次元畳み込みニューラルネットワーク(cnns)が使用されているが、cnnは容器のサイズや向きに敏感である。 局所容器配向のためのスケール不変な回転同変推定器 SIRE を提案する。 SIREはモジュラーであり、対称性の保存により一般化することができる。 SIREはゲージ同変メッシュCNN(GEM-CNN)で構成され、異なる大きさの複数のネストされた球状メッシュで動作する。 各メッシュの特徴は、対応する球面内の画像強度の投影である。 これらの特徴は球に固有のものであり、GEM-CNNと組み合わせることでSO(3)-等分散をもたらす。 近似スケール不変性は、重み共有と対称最大関数を用いて多スケール予測を組み合わせることで達成される。 したがって、sireは様々な半径を持つ任意の方向の船で訓練でき、幅広い口径と機動性を持つ船に一般化することができる。 血管モデルリポジトリ(vmr)、アソカ冠動脈セット(asoca coronary artery set)、腹部大動脈瘤(aaas)の3つの血管を含むデータセットを用いてsireの有効性を実証した。 センタライントラッカーにSIREを組み込み、SIREがトレーニングされているデータに関係なく、正確にAAAを追跡する。 さらに、SIREは、AAAでのみ訓練しても、冠動脈の追跡に使用できる。 so(3)とスケール対称性を組み込むことで、sireは訓練領域外の血管の向きを判定し、3次元医用画像における血管の幾何学的解析に対するロバストでデータ効率のよい解決法を形成することができる。

Blood vessel orientation as visualized in 3D medical images is an important descriptor of its geometry that can be used for centerline extraction and subsequent segmentation and visualization. Arteries appear at many scales and levels of tortuosity, and determining their exact orientation is challenging. Recent works have used 3D convolutional neural networks (CNNs) for this purpose, but CNNs are sensitive to varying vessel sizes and orientations. We present SIRE: a scale-invariant, rotation-equivariant estimator for local vessel orientation. SIRE is modular and can generalise due to symmetry preservation. SIRE consists of a gauge equivariant mesh CNN (GEM-CNN) operating on multiple nested spherical meshes with different sizes in parallel. The features on each mesh are a projection of image intensities within the corresponding sphere. These features are intrinsic to the sphere and, in combination with the GEM-CNN, lead to SO(3)-equivariance. Approximate scale invariance is achieved by weight sharing and use of a symmetric maximum function to combine multi-scale predictions. Hence, SIRE can be trained with arbitrarily oriented vessels with varying radii to generalise to vessels with a wide range of calibres and tortuosity. We demonstrate the efficacy of SIRE using three datasets containing vessels of varying scales: the vascular model repository (VMR), the ASOCA coronary artery set, and a set of abdominal aortic aneurysms (AAAs). We embed SIRE in a centerline tracker which accurately tracks AAAs, regardless of the data SIRE is trained with. Moreover, SIRE can be used to track coronary arteries, even when trained only with AAAs. In conclusion, by incorporating SO(3) and scale symmetries, SIRE can determine the orientations of vessels outside of the training domain, forming a robust and data-efficient solution to geometric analysis of blood vessels in 3D medical images.
翻訳日:2023-11-10 15:04:38 公開日:2023-11-09
# 確率凸最適化におけるermのサンプル複雑性

The Sample Complexity Of ERMs In Stochastic Convex Optimization ( http://arxiv.org/abs/2311.05398v1 )

ライセンス: Link先を確認
Daniel Carmon, Roi Livni, Amir Yehudayoff(参考訳) 確率凸最適化は、現代の機械学習における学習のための最もよく研究されたモデルの1つである。 それでも、この設定における根本的な問題は未解決のままであり、「実験的リスク最小化器(ERM)が真の人口に良いパフォーマンスを示すように、何つのデータポイントが観測されなければならないか? この問題はfeldman (2016) によって提案され、$\omega(\frac{d}{\epsilon}+\frac{1}{\epsilon^2})$データポイントが必要であることを証明した(ここでは$d$は次元であり$\epsilon>0$は精度パラメータである)。 開問題として$\omega(\frac{d}{\epsilon}+\frac{1}{\epsilon^2})$下界を証明した。 この研究で、実際に$\tilde{O}(\frac{d}{\epsilon}+\frac{1}{\epsilon^2})$データポイントも十分であることを示す。 この問題は解決し、ERMと一様収束の間に新たな分離をもたらす。 このサンプル複雑性は、ユークリッド単位球上の有界凸リプシッツ函数を学習する古典的なセットアップに当てはまる。 さらにこの結果を一般化し、すべての対称凸体に対して同様の上界が成り立つことを示す。 一般境界は2つの項からなる。 i) 精度パラメータに逆線形依存を持つ$\tilde{O}(\frac{d}{\epsilon})$という形の用語 (ii)$\textit{linear}$関数のクラスの統計的複雑性に依存する用語(ラデマッハ複雑性によって獲得される)。 この証明は確率凸最適化問題の挙動を制御するメカニズムを構築する。

Stochastic convex optimization is one of the most well-studied models for learning in modern machine learning. Nevertheless, a central fundamental question in this setup remained unresolved: "How many data points must be observed so that any empirical risk minimizer (ERM) shows good performance on the true population?" This question was proposed by Feldman (2016), who proved that $\Omega(\frac{d}{\epsilon}+\frac{1}{\epsilon^2})$ data points are necessary (where $d$ is the dimension and $\epsilon>0$ is the accuracy parameter). Proving an $\omega(\frac{d}{\epsilon}+\frac{1}{\epsilon^2})$ lower bound was left as an open problem. In this work we show that in fact $\tilde{O}(\frac{d}{\epsilon}+\frac{1}{\epsilon^2})$ data points are also sufficient. This settles the question and yields a new separation between ERMs and uniform convergence. This sample complexity holds for the classical setup of learning bounded convex Lipschitz functions over the Euclidean unit ball. We further generalize the result and show that a similar upper bound holds for all symmetric convex bodies. The general bound is composed of two terms: (i) a term of the form $\tilde{O}(\frac{d}{\epsilon})$ with an inverse-linear dependence on the accuracy parameter, and (ii) a term that depends on the statistical complexity of the class of $\textit{linear}$ functions (captured by the Rademacher complexity). The proof builds a mechanism for controlling the behavior of stochastic convex optimization problems.
翻訳日:2023-11-10 15:04:07 公開日:2023-11-09
# P1中心電子スピンクラスターはIb型ダイヤモンド中に存在する

P1 center electron spin clusters are prevalent in type Ib diamond ( http://arxiv.org/abs/2311.05396v1 )

ライセンス: Link先を確認
Santiago Bussandri, Daphna Shimon, Asif Equbal, Yuhang Ren, Susumu Takahashi, Chandrasekhar Ramanathan, Songi Han(参考訳) P1中心の空間分布を理解することはダイヤモンドベースのセンサーや量子デバイスにとって重要である。 P1中心はDNP量子センシングの偏極源となり、NV中心の緩和に重要な役割を果たしている。 さらに、NV中心の分布は、P1中心の変換によってNV中心が形成されるため、P1中心の分布と相関する。 動的核偏極 (DNP) とパルス電子常磁性共鳴 (EPR) 技術を用いて, 交換結合を示すP1中心の集団の強いクラスター化と非対称リニアップの生成を明らかにした。 高磁場における$^{13}$C DNP周波数プロファイルは、$^{13}$C核ラーモア周波数を超える電子-電子(e-e)結合強度を持つP1クラスターの非対称EPR線形状を必要とするパターンを明らかにした。 異なる電子-電子カップリングのエネルギー寄与を解くためには,高磁場下でのEPRおよびDNP特性の解明が必要であった。 2つの周波数のポンププローブパルス電子二重共鳴(eldor)技術を用いてp1中心とクラスター中心のクロストークを示した。 この発見は、p1中心が全てのp1集団に影響を及ぼすことを示唆している。 クラスター化されたp1中心とその非対称な直線形状の直接観察は、ダイヤモンドの量子情報応用のための磁気ノイズ源の理解と、$^{13}$cや他の核スピンのdnp効率を最適化したダイヤモンドベースの偏光剤の設計のための重要な洞察である。 既存の溶液NMRシステムに簡単な修正を加えることで実現可能な高磁場における室温$^{13}$C DNPは、ダイヤモンド欠陥を評価し制御するための強力なツールである。

Understanding the spatial distribution of P1 centers is crucial for diamond-based sensors and quantum devices. P1 centers serve as a polarization source for DNP quantum sensing and play a significant role in the relaxation of NV centers. Additionally, the distribution of NV centers correlates with the distribution of P1 centers, as NV centers are formed through the conversion of P1 centers. We utilized dynamic nuclear polarization (DNP) and pulsed electron paramagnetic resonance (EPR) techniques that revealed strong clustering of a significant population of P1 centers that exhibit exchange coupling and produce asymmetric lineshapes. The $^{13}$C DNP frequency profile at high magnetic field revealed a pattern that requires an asymmetric EPR lineshape of the P1 clusters with electron-electron (e-e) coupling strengths exceeding the $^{13}$C nuclear Larmor frequency. EPR and DNP characterization at high magnetic fields was necessary to resolve energy contributions from different e-e couplings. We employed a two-frequency pump-probe pulsed Electron Double Resonance (ELDOR) technique to show crosstalk between the isolated and clustered P1 centers. This finding implies that the clustered P1 centers affect all P1 populations. Direct observation of clustered P1 centers and their asymmetric lineshape is a novel and crucial insight into understanding magnetic noise sources for quantum information applications of diamonds and for designing diamond-based polarizing agents with optimized DNP efficiency for $^{13}$C and other nuclear spins of analytes. We propose that room temperature $^{13}$C DNP at high field, achievable through straightforward modifications to existing solution-state NMR systems, is a potent tool for evaluating and controlling diamond defects.
翻訳日:2023-11-10 15:03:37 公開日:2023-11-09
# 量子メトロジーによる連続可変量子通信プロトコルのセキュリティ検証

Verifying the security of a continuous variable quantum communication protocol via quantum metrology ( http://arxiv.org/abs/2311.05389v1 )

ライセンス: Link先を確認
Lorcan O. Conlon, Biveen Shajilal, Angus Walsh, Jie Zhao, Jiri Janousek, Ping Koy Lam and Syed M. Assad(参考訳) 量子力学は、複数のリモートパーティ間の無条件でセキュアな通信を可能にする。 このようなプロトコルのセキュリティ証明は通常、使用中の量子チャネルの容量の境界に依存する。 同様に、Cram\'er-Rao の量子距離論における境界は、ある量子状態から、ある未知の興味のあるパラメータについてどれだけの情報を抽出できるかに制限を与える。 この2つの領域間の接続を確立する。 まず,実現可能な精度は,複数の当事者が連携する程度に依存する3者センシングプロトコルを実証する。 このプロトコルはセキュアなアクセスプロトコルにマッピングされ、共同作業によってのみ、高セキュリティ資産へのアクセスが可能になる。 最後に,同一タスクを通信プロトコルにマップし,作業相手が単独で作業している相手と比較して協調的に作業することで,より高い相互情報が得られることを示す。

Quantum mechanics offers the possibility of unconditionally secure communication between multiple remote parties. Security proofs for such protocols typically rely on bounding the capacity of the quantum channel in use. In a similar manner, Cram\'er-Rao bounds in quantum metrology place limits on how much information can be extracted from a given quantum state about some unknown parameters of interest. In this work we establish a connection between these two areas. We first demonstrate a three-party sensing protocol, where the attainable precision is dependent on how many parties work together. This protocol is then mapped to a secure access protocol, where only by working together can the parties gain access to some high security asset. Finally, we map the same task to a communication protocol where we demonstrate that a higher mutual information can be achieved when the parties work collaboratively compared to any party working in isolation.
翻訳日:2023-11-10 15:03:05 公開日:2023-11-09
# 複数空間変換器と損失関数を用いた非制御・非協調環境における手話認識の改善

Improving Hand Recognition in Uncontrolled and Uncooperative Environments using Multiple Spatial Transformers and Loss Functions ( http://arxiv.org/abs/2311.05383v1 )

ライセンス: Link先を確認
Wojciech Michal Matkowski, Xiaojie Li and Adams Wai Kin Kong(参考訳) スマートフォンや消費者向けカメラの普及により、デジタル画像の形でより多くの証拠が得られ、ほとんどが非制御環境や非協力環境で撮影されている。 これらの画像では、犯罪者は手元に隠したり隠したりする可能性があり、法医学的な調査の難しいユースケースを生み出している。 既存の手動認識手法の多くは,ユーザ協力による手動画像の収集に有効である。 しかし,非制御環境と非協調環境では性能が著しく低下する。 最近の研究は、これらの環境での認識の可能性を明らかにしている。 しかし、パーマー領域のみが考慮され、認識性能はまだ満足のいくものではなかった。 認識精度を向上させるために,マルチ空間トランスフォーマネットワーク(mstn)と複数の損失関数を統合したアルゴリズムを提案する。 MSTNは、まず手のひらと指を局在させ、アライメントパラメータを推定するために使用される。 その後、アライメントされた画像はさらに事前訓練された畳み込みニューラルネットワークに供給され、特徴が抽出される。 最後に、ネットワークエンドツーエンドのトレーニングには、複数の損失関数を持つトレーニングスキームが使用される。 提案アルゴリズムの有効性を示すため,NTU-PI-v1データベースと異なる領域の6つのベンチマークデータベースを用いて,学習モデルの評価を行った。 実験結果から,提案アルゴリズムはこれらの非制御・非協調環境における既存手法よりも優れた性能を示し,異なる領域のサンプルに対して優れた一般化能力を有することがわかった。

The prevalence of smartphone and consumer camera has led to more evidence in the form of digital images, which are mostly taken in uncontrolled and uncooperative environments. In these images, criminals likely hide or cover their faces while their hands are observable in some cases, creating a challenging use case for forensic investigation. Many existing hand-based recognition methods perform well for hand images collected in controlled environments with user cooperation. However, their performance deteriorates significantly in uncontrolled and uncooperative environments. A recent work has exposed the potential of hand recognition in these environments. However, only the palmar regions were considered, and the recognition performance is still far from satisfactory. To improve the recognition accuracy, an algorithm integrating a multi-spatial transformer network (MSTN) and multiple loss functions is proposed to fully utilize information in full hand images. MSTN is firstly employed to localize the palms and fingers and estimate the alignment parameters. Then, the aligned images are further fed into pretrained convolutional neural networks, where features are extracted. Finally, a training scheme with multiple loss functions is used to train the network end-to-end. To demonstrate the effectiveness of the proposed algorithm, the trained model is evaluated on NTU-PI-v1 database and six benchmark databases from different domains. Experimental results show that the proposed algorithm performs significantly better than the existing methods in these uncontrolled and uncooperative environments and has good generalization capabilities to samples from different domains.
翻訳日:2023-11-10 15:02:49 公開日:2023-11-09
# 記憶地図学:神経機械翻訳における記憶一般化連続体のマッピング

Memorisation Cartography: Mapping out the Memorisation-Generalisation Continuum in Neural Machine Translation ( http://arxiv.org/abs/2311.05379v1 )

ライセンス: Link先を確認
Verna Dankers, Ivan Titov and Dieuwke Hupkes(参考訳) ニューラルネットワークのトレーニングでは、データセットからソースターゲットマッピングを素早く記憶するが、他を学ぶことはない。 しかし、暗記は良いか悪いかの2項の特徴として簡単には表現されない:個々のデータポイントは暗記-一般化連続体の上に置かれる。 そのスペクトル上のデータポイントの位置を決定するものは何で、そのスペクトルはニューラルモデルのパフォーマンスにどのように影響しますか? ニューラルネットワーク翻訳(NMT)モデルに対するこれらの2つの疑問に対処する。 本研究では,(1)記憶・一般化マップ上に5m nmtデータポイントを配置するリソースを構築し,(2)データポイントの表面レベル特性とモデル毎のトレーニング信号がどのようにnmtにおける記憶の予測であるかを記述し,(3)そのマップのサブセットがnmtシステムの性能に与える影響を説明する。

When training a neural network, it will quickly memorise some source-target mappings from your dataset but never learn some others. Yet, memorisation is not easily expressed as a binary feature that is good or bad: individual datapoints lie on a memorisation-generalisation continuum. What determines a datapoint's position on that spectrum, and how does that spectrum influence neural models' performance? We address these two questions for neural machine translation (NMT) models. We use the counterfactual memorisation metric to (1) build a resource that places 5M NMT datapoints on a memorisation-generalisation map, (2) illustrate how the datapoints' surface-level characteristics and a models' per-datum training signals are predictive of memorisation in NMT, (3) and describe the influence that subsets of that map have on NMT systems' performance.
翻訳日:2023-11-10 15:02:25 公開日:2023-11-09
# TencentLLMEval:LLMにおける実世界の能力の階層的評価

TencentLLMEval: A Hierarchical Evaluation of Real-World Capabilities for Human-Aligned LLMs ( http://arxiv.org/abs/2311.05374v1 )

ライセンス: Link先を確認
Shuyi Xie, Wenlin Yao, Yong Dai, Shaobo Wang, Donlin Zhou, Lifeng Jin, Xinhua Feng, Pengzhi Wei, Yujie Lin, Zhichao Hu, Dong Yu, Zhengyou Zhang, Jing Nie, Yuhong Liu(参考訳) 大規模言語モデル(llm)は、様々な自然言語タスクにまたがる素晴らしい能力を示している。 しかしながら、人間の嗜好との整合性を評価することは依然として課題である。 そこで本研究では,LLMの習熟度を評価するための総合的人間評価フレームワークを提案する。 我々は,200以上のカテゴリと800以上のタスクをカバーする7つの主要領域を含む階層型タスクツリーを構築し,質問応答,推論,マルチターン対話,テキスト生成などの多様な機能を網羅的かつ詳細な方法で評価する。 また, 評価基準やプロセスの詳細も設計し, 人間の評価者からの一貫した偏りのない判断が容易になるようにした。 3000以上のインスタンスのテストセットがリリースされ、さまざまな困難レベルと知識ドメインにまたがる。 我々の研究は、英語と中国語の両方のLLMにおける人間のアライメントを評価するための標準化された方法論を提供する。 また,強力なLCM(GPT-4)による評価の自動化の可能性についても検討した。 本フレームワークは,実世界のアプリケーションに統合されたLCMの徹底的な評価を支援する。 我々は,Tencent Hunyuan LLMの性能評価に有効なタスクツリー,TencentLLMEvalデータセット,評価手法を公開している。 そこで我々は,安全・人為的LLMの開発における進歩のベンチマーク化を促進することを目的としている。

Large language models (LLMs) have shown impressive capabilities across various natural language tasks. However, evaluating their alignment with human preferences remains a challenge. To this end, we propose a comprehensive human evaluation framework to assess LLMs' proficiency in following instructions on diverse real-world tasks. We construct a hierarchical task tree encompassing 7 major areas covering over 200 categories and over 800 tasks, which covers diverse capabilities such as question answering, reasoning, multiturn dialogue, and text generation, to evaluate LLMs in a comprehensive and in-depth manner. We also design detailed evaluation standards and processes to facilitate consistent, unbiased judgments from human evaluators. A test set of over 3,000 instances is released, spanning different difficulty levels and knowledge domains. Our work provides a standardized methodology to evaluate human alignment in LLMs for both English and Chinese. We also analyze the feasibility of automating parts of evaluation with a strong LLM (GPT-4). Our framework supports a thorough assessment of LLMs as they are integrated into real-world applications. We have made publicly available the task tree, TencentLLMEval dataset, and evaluation methodology which have been demonstrated as effective in assessing the performance of Tencent Hunyuan LLMs. By doing so, we aim to facilitate the benchmarking of advances in the development of safe and human-aligned LLMs.
翻訳日:2023-11-10 15:02:09 公開日:2023-11-09
# 3dstyle-diffusion:2次元拡散モデルによるきめ細かなテキスト駆動3dスタイライゼーションの追求

3DStyle-Diffusion: Pursuing Fine-grained Text-driven 3D Stylization with 2D Diffusion Models ( http://arxiv.org/abs/2311.05464v1 )

ライセンス: Link先を確認
Haibo Yang and Yang Chen and Yingwei Pan and Ting Yao and Zhineng Chen and Tao Mei(参考訳) テキスト駆動型スタイリングによる3Dコンテンツ作成は、マルチメディアとグラフィックコミュニティにとって根本的な課題となっている。 クロスモーダル基盤モデル(例えばCLIP)の最近の進歩により、この問題は実現可能になった。 これらのアプローチは、sylized meshの全体的なセマンティクスを所定のテキストプロンプトに合わせるために、clipを一般的に活用している。 それでも、このようなセマンティックレベルのクロスモーダル監視のみに基づいて、より制御可能な3Dメッシュの詳細なスタイリングを可能にすることは容易ではない。 本研究では,3次元メッシュの細粒度スタイライゼーションをトリガーし,制御可能な外観と2次元拡散モデルからの幾何学的指導を付加した,新しい3次元型ディフフュージョンモデルを提案する。 技術的には、3DStyle-Diffusionは3Dメッシュのテクスチャを暗黙のMLPネットワークを用いた反射特性とシーンライティングにパラメータ化する。 一方、3Dメッシュ上で各サンプルビューの正確な深度マップを条件付けする。 次に、3DStyle-Diffusionは、事前学習可能な2次元拡散モデルを利用してレンダリング画像の学習を誘導し、テキストプロンプトにセマンティックに整合した各ビューの合成画像を深度マップに幾何学的に整合させる。 これにより、暗黙のMLPネットワークによる画像レンダリングと画像合成の拡散過程をエンドツーエンドでエレガントに統合し、高品質な3Dメッシュスタイリングを可能にする。 また、Objaverseから派生した新しいデータセットと、このタスクの評価プロトコルを構築した。 定性的および定量的な実験により、3DStyle-Diffusionの有効性を検証する。 ソースコードとデータは \url{https://github.com/yanghb22-fdu/3dstyle-diffusion-official} で入手できる。

3D content creation via text-driven stylization has played a fundamental challenge to multimedia and graphics community. Recent advances of cross-modal foundation models (e.g., CLIP) have made this problem feasible. Those approaches commonly leverage CLIP to align the holistic semantics of stylized mesh with the given text prompt. Nevertheless, it is not trivial to enable more controllable stylization of fine-grained details in 3D meshes solely based on such semantic-level cross-modal supervision. In this work, we propose a new 3DStyle-Diffusion model that triggers fine-grained stylization of 3D meshes with additional controllable appearance and geometric guidance from 2D Diffusion models. Technically, 3DStyle-Diffusion first parameterizes the texture of 3D mesh into reflectance properties and scene lighting using implicit MLP networks. Meanwhile, an accurate depth map of each sampled view is achieved conditioned on 3D mesh. Then, 3DStyle-Diffusion leverages a pre-trained controllable 2D Diffusion model to guide the learning of rendered images, encouraging the synthesized image of each view semantically aligned with text prompt and geometrically consistent with depth map. This way elegantly integrates both image rendering via implicit MLP networks and diffusion process of image synthesis in an end-to-end fashion, enabling a high-quality fine-grained stylization of 3D meshes. We also build a new dataset derived from Objaverse and the evaluation protocol for this task. Through both qualitative and quantitative experiments, we validate the capability of our 3DStyle-Diffusion. Source code and data are available at \url{https://github.com/yanghb22-fdu/3DStyle-Diffusion-Official}.
翻訳日:2023-11-10 14:54:37 公開日:2023-11-09
# 制御スタイル:拡散優先を用いたテキスト駆動スタイリズド画像生成

ControlStyle: Text-Driven Stylized Image Generation Using Diffusion Priors ( http://arxiv.org/abs/2311.05463v1 )

ライセンス: Link先を確認
Jingwen Chen and Yingwei Pan and Ting Yao and Tao Mei(参考訳) 近年,マルチメディアコミュニティでは,特にテキスト対画像生成の分野で,大規模マルチモーダルデータを用いた拡散モデルが普及している。 本稿では,「スタイライズ」テキスト・イメージモデル,すなわちテキスト駆動型スタイリング画像生成のための新しいタスクを提案し,コンテンツ作成における編集性をさらに向上させる。 本課題は,入力テキストプロンプトとスタイルイメージが与えられた場合,入力テキストプロンプトに意味的に関連し,スタイルイメージのスタイルに整合したスタイル化された画像を生成することである。 そこで本研究では,事前学習されたテキストから画像へのモデルと,学習可能な変調ネットワークをアップグレードすることで,テキストプロンプトやスタイル画像の条件を増大させる新しい拡散モデル(コントロールスタイル)を提案する。 さらに,これらの拡散前処理による変調ネットワークの学習を容易にするために,拡散スタイルとコンテンツ正規化を同時に導入し,高品質なテキスト・画像生成を追求する。 テキストから画像への単純なモデルと従来のスタイル転送技術の組み合わせを上回って,より視覚的で芸術的な結果を生み出すためのコントロールスタイルの有効性を広範な実験により実証した。

Recently, the multimedia community has witnessed the rise of diffusion models trained on large-scale multi-modal data for visual content creation, particularly in the field of text-to-image generation. In this paper, we propose a new task for ``stylizing'' text-to-image models, namely text-driven stylized image generation, that further enhances editability in content creation. Given input text prompt and style image, this task aims to produce stylized images which are both semantically relevant to input text prompt and meanwhile aligned with the style image in style. To achieve this, we present a new diffusion model (ControlStyle) via upgrading a pre-trained text-to-image model with a trainable modulation network enabling more conditions of text prompts and style images. Moreover, diffusion style and content regularizations are simultaneously introduced to facilitate the learning of this modulation network with these diffusion priors, pursuing high-quality stylized text-to-image generation. Extensive experiments demonstrate the effectiveness of our ControlStyle in producing more visually pleasing and artistic results, surpassing a simple combination of text-to-image model and conventional style transfer techniques.
翻訳日:2023-11-10 14:54:07 公開日:2023-11-09
# control3d: 制御可能なテキストから3d生成へ

Control3D: Towards Controllable Text-to-3D Generation ( http://arxiv.org/abs/2311.05461v1 )

ライセンス: Link先を確認
Yang Chen and Yingwei Pan and Yehao Li and Ting Yao and Tao Mei(参考訳) 大規模テキスト・画像拡散モデルにおける最近の顕著な進歩は、与えられたテキストプロンプトからのみ3Dコンテンツを作成することによって、テキスト・ツー・3D生成に大きなブレークスルーをもたらした。 しかし、既存のテキストから3dへの技術は、ユーザの望む仕様(例えばスケッチ)に従って合成された3dコンテンツをインタラクティブに制御し、形作るという、創造的なプロセスにおいて重要な能力を欠いている。 そこで本研究では,手書きスケッチによるテキストから3d生成条件付けの最初の試みである control3d について述べる。 特に、2D条件付き拡散モデル(ControlNet)を再構成して、NeRFとしてパラメータ化された3Dシーンの学習を誘導し、与えられたテキストプロンプトと手書きスケッチに整合した3Dシーンの各ビューを奨励する。 さらに,事前学習可能なフォト・ツー・スケッチ・モデルを用いて,合成3Dシーン上でのレンダリング画像のスケッチを直接推定する。 このような推定スケッチと各サンプルビューは、与えられたスケッチと幾何学的に整合するようにさらに強制され、より制御可能なテキスト・ツー・3D生成が追求される。 広範な実験を通じて,提案手法は,入力テキストのプロンプトやスケッチと密接に関連した,正確で忠実な3dシーンを生成できることを実証する。

Recent remarkable advances in large-scale text-to-image diffusion models have inspired a significant breakthrough in text-to-3D generation, pursuing 3D content creation solely from a given text prompt. However, existing text-to-3D techniques lack a crucial ability in the creative process: interactively control and shape the synthetic 3D contents according to users' desired specifications (e.g., sketch). To alleviate this issue, we present the first attempt for text-to-3D generation conditioning on the additional hand-drawn sketch, namely Control3D, which enhances controllability for users. In particular, a 2D conditioned diffusion model (ControlNet) is remoulded to guide the learning of 3D scene parameterized as NeRF, encouraging each view of 3D scene aligned with the given text prompt and hand-drawn sketch. Moreover, we exploit a pre-trained differentiable photo-to-sketch model to directly estimate the sketch of the rendered image over synthetic 3D scene. Such estimated sketch along with each sampled view is further enforced to be geometrically consistent with the given sketch, pursuing better controllable text-to-3D generation. Through extensive experiments, we demonstrate that our proposal can generate accurate and faithful 3D scenes that align closely with the input text prompts and sketches.
翻訳日:2023-11-10 14:53:44 公開日:2023-11-09
# スピンボソンハミルトニアンの多次元分光のための特殊表現

An Exact Expression for Multidimensional Spectroscopy of a Spin-Boson Hamiltonian ( http://arxiv.org/abs/2311.05458v1 )

ライセンス: Link先を確認
Albert Liu(参考訳) 多次元コヒーレント分光は非線形光学応答関数を特徴づける強力なツールである。 通常、多次元スペクトルは摂動的枠組みを通じて解釈され、特定のスペクトル特徴をもたらす密度行列のダイナミクスへの直感を直接提供する。 しかし、熱浴とのシステム結合を特徴づけることが目的である場合、摂動形式主義は弱くなり、直感が低下する。 ここでは、Vagovらによって開発されたアプローチを拡張して、スピン-ボソンハミルトニアンの多次元スペクトルを電場相互作用の任意の順序まで正確に表現する。 量子ドットにおけるポーラロン形成とコヒーレント励起子-フォノンカップリングのモデル化により,この表現の有用性を実証する。

Multidimensional coherent spectroscopy is a powerful tool to characterize nonlinear optical response functions. Typically, multidimensional spectra are interpreted via a perturbative framework that straightforwardly provides intuition into the density matrix dynamics that give rise to specific spectral features. When the goal is to characterize system coupling to a thermal bath however, the perturbative formalism becomes unwieldy and yields less intuition. Here, we extend an approach developed by Vagov et al. to provide an exact expression for multidimensional spectra of a spin-boson Hamiltonian up to arbitrary order of electric field interaction. We demonstrate the utility of this expression by modeling polaron formation and coherent exciton-phonon coupling in quantum dots, which strongly agree with experiment.
翻訳日:2023-11-10 14:53:17 公開日:2023-11-09
# 口腔上皮異形成に対するtransformer-based model

Transformer-based Model for Oral Epithelial Dysplasia Segmentation ( http://arxiv.org/abs/2311.05452v1 )

ライセンス: Link先を確認
Adam J Shephard, Hanya Mahmood, Shan E Ahmed Raza, Anna Luiza Damaceno Araujo, Alan Roger Santos-Silva, Marcio Ajudarte Lopes, Pablo Agustin Vargas, Kris McCombe, Stephanie Craig, Jacqueline James, Jill Brooks, Paul Nankivell, Hisham Mehanna, Syed Ali Khurram, Nasir M Rajpoot(参考訳) 口腔上皮性異形成症(OED)は,口腔病変を主訴とする病理組織学的診断である。 OEDグレーディングは、インター/イントラ・ラターの変動が大きく、患者の治療の過小評価につながる。 我々は, haematoxylin および eosin (h&e) における oed の検出とセグメンテーションを改善する新しいトランスフォーマーベースのパイプラインを開発した。 モデルでは,3種類のスキャナを用いてoedケース (n = 260) とコントロール (n = 105) を訓練し,イギリスとブラジルの3つの外部センター (n = 78) からテストデータに基づいて検証を行った。 内部実験ではOEDセグメンテーションの平均F1スコアが0.81であり, 外部試験では0.71にわずかに低下し, 一般性は良好であった。 これは、先天的な組織像のセグメンテーションにTransformerを用いた初めての外部検証研究である。 私たちの公開モデルは、完全に統合されたパイプラインの第1ステップとして、より早く、より効率的なOED診断を可能にし、最終的には患者の結果に利益をもたらすことを約束しています。

Oral epithelial dysplasia (OED) is a premalignant histopathological diagnosis given to lesions of the oral cavity. OED grading is subject to large inter/intra-rater variability, resulting in the under/over-treatment of patients. We developed a new Transformer-based pipeline to improve detection and segmentation of OED in haematoxylin and eosin (H&E) stained whole slide images (WSIs). Our model was trained on OED cases (n = 260) and controls (n = 105) collected using three different scanners, and validated on test data from three external centres in the United Kingdom and Brazil (n = 78). Our internal experiments yield a mean F1-score of 0.81 for OED segmentation, which reduced slightly to 0.71 on external testing, showing good generalisability, and gaining state-of-the-art results. This is the first externally validated study to use Transformers for segmentation in precancerous histology images. Our publicly available model shows great promise to be the first step of a fully-integrated pipeline, allowing earlier and more efficient OED diagnosis, ultimately benefiting patient outcomes.
翻訳日:2023-11-10 14:53:05 公開日:2023-11-09
# すべては言語モデルの視点で等しくなければならない:反事実的に公正なテキスト生成

All Should Be Equal in the Eyes of Language Models: Counterfactually Aware Fair Text Generation ( http://arxiv.org/abs/2311.05451v1 )

ライセンス: Link先を確認
Pragyan Banerjee, Abhinav Java, Surgan Jandial, Simra Shahid, Shaz Furniturewala, Balaji Krishnamurthy, Sumit Bhatia(参考訳) モデルによって持続され、下流のタスクに影響を及ぼす訓練データの固有のバイアスを考えると、言語モデル(lms)の公平性は依然として長年の課題である。 近年の手法では、モデル出力をバイアステンプレートや例題の参照セットと対照的に制約することで、推論中に高価なリトレーニングや試行脱バイアスを用いる。 いずれにせよ、フェアネスの第一の目的は、異なる人口集団間で平等を維持することである。 本研究では,同じ状況下での他の人口集団のアウトプットを意識せずに,ある人口集団のアンバイアスアウトプットを生成するためのLMを推論する。 そこで本研究では,多種多様な集団のモデル理解を動的に比較し,より公平な文を生成するフレームワークであるcafieを提案する。 異なるサイズと3つの多様なデータセットのベースLMを用いて広範な実験評価を行い、CAFIEが強いベースラインより優れていることを示した。 CAFIEはより公平なテキストを生成し、公平性と言語モデリング能力の最良のバランスを取る

Fairness in Language Models (LMs) remains a longstanding challenge, given the inherent biases in training data that can be perpetuated by models and affect the downstream tasks. Recent methods employ expensive retraining or attempt debiasing during inference by constraining model outputs to contrast from a reference set of biased templates or exemplars. Regardless, they dont address the primary goal of fairness to maintain equitability across different demographic groups. In this work, we posit that inferencing LMs to generate unbiased output for one demographic under a context ensues from being aware of outputs for other demographics under the same context. To this end, we propose Counterfactually Aware Fair InferencE (CAFIE), a framework that dynamically compares the model understanding of diverse demographics to generate more equitable sentences. We conduct an extensive empirical evaluation using base LMs of varying sizes and across three diverse datasets and found that CAFIE outperforms strong baselines. CAFIE produces fairer text and strikes the best balance between fairness and language modeling capability
翻訳日:2023-11-10 14:52:43 公開日:2023-11-09
# 社会的会話エージェントのための認知的刺激成分

Cognitively Inspired Components for Social Conversational Agents ( http://arxiv.org/abs/2311.05450v1 )

ライセンス: Link先を確認
Alex Clay, Eduardo Alonso, Esther Mondrag\'on(参考訳) 現在の会話エージェント(ca)は、gpt3のような大規模言語モデル(llm)の影響により、近年会話品質が向上している。 しかし、問題の2つの主要なカテゴリが残っている。 第一に、CA作成のアプローチから生じる固有の技術的問題があり、例えば、検索エージェントによるスコープや、しばしば以前の生成エージェントの非意味な回答がある。 第二に、人間はCAを社会的アクターとして認識しており、その結果、CAは社会的な慣例に従うことを期待している。 この点においてcaの部分の失敗は、相互作用の貧弱さや、ユーザによる脅威の認識に繋がる可能性がある。 そこで本稿では,caへの認知的インスパイア付加の導入を通じて,両問題カテゴリの潜在的な解決法を明らかにする。 セマンティックメモリ、エピソード記憶、感情、作業記憶、学習能力の計算ファクシミリを通じて、CAが直面する技術的および社会的問題に対処することが可能である。

Current conversational agents (CA) have seen improvement in conversational quality in recent years due to the influence of large language models (LLMs) like GPT3. However, two key categories of problem remain. Firstly there are the unique technical problems resulting from the approach taken in creating the CA, such as scope with retrieval agents and the often nonsensical answers of former generative agents. Secondly, humans perceive CAs as social actors, and as a result expect the CA to adhere to social convention. Failure on the part of the CA in this respect can lead to a poor interaction and even the perception of threat by the user. As such, this paper presents a survey highlighting a potential solution to both categories of problem through the introduction of cognitively inspired additions to the CA. Through computational facsimiles of semantic and episodic memory, emotion, working memory, and the ability to learn, it is possible to address both the technical and social problems encountered by CAs.
翻訳日:2023-11-10 14:52:23 公開日:2023-11-09
# 表データにおける新しいクラス発見への実践的アプローチ

A Practical Approach to Novel Class Discovery in Tabular Data ( http://arxiv.org/abs/2311.05440v1 )

ライセンス: Link先を確認
Colin Troisemaine, Alexandre Reiffers-Masson, St\'ephane Gosselin, Vincent Lemaire, Sandrine Vaton(参考訳) 新規クラス発見(ncd)の問題は、既知のクラスのラベル付き集合から知識を抽出して、ラベルのない新しいクラスの集合を正確に分割することである。 ncdは最近コミュニティから多くの注目を集めているが、コンピュータビジョンの問題や非現実的な状況下でしばしば解決されている。 特に、新しいクラスの数は通常事前に知られており、そのラベルは時折ハイパーパラメータをチューニングするために使われる。 これらの仮定に依存する手法は現実のシナリオでは適用できない。 本研究は,新規クラスの事前知識が得られない場合の表データによるncdの解決に焦点をあてる。 この目的のために,$k$-fold のクロスバリデーションプロセスを適用し,既知のクラスを各フォールドに隠して ncd メソッドのハイパーパラメータを調整することを提案する。 過パラメータが多すぎるメソッドがこれらの隠れクラスに過度に適合することを発見したので、単純な深いNCDモデルを定義する。 本手法は, NCD問題に必要な必須要素のみで構成され, 現実的な条件下では優れた性能を発揮する。 さらに,本手法の潜在空間を用いて,新規クラスの数を確実に推定できることを見いだした。 さらに、既知のクラスの知識を活用するために、2つの教師なしクラスタリングアルゴリズム(k$-meansとSpectral Clustering)を適用する。 7つの表型データセットについて広範な実験を行い,提案手法とハイパーパラメータチューニングプロセスの有効性を実証し,新しいクラスからの知識を頼らずにncd問題を解決できることを示した。

The problem of Novel Class Discovery (NCD) consists in extracting knowledge from a labeled set of known classes to accurately partition an unlabeled set of novel classes. While NCD has recently received a lot of attention from the community, it is often solved on computer vision problems and under unrealistic conditions. In particular, the number of novel classes is usually assumed to be known in advance, and their labels are sometimes used to tune hyperparameters. Methods that rely on these assumptions are not applicable in real-world scenarios. In this work, we focus on solving NCD in tabular data when no prior knowledge of the novel classes is available. To this end, we propose to tune the hyperparameters of NCD methods by adapting the $k$-fold cross-validation process and hiding some of the known classes in each fold. Since we have found that methods with too many hyperparameters are likely to overfit these hidden classes, we define a simple deep NCD model. This method is composed of only the essential elements necessary for the NCD problem and performs impressively well under realistic conditions. Furthermore, we find that the latent space of this method can be used to reliably estimate the number of novel classes. Additionally, we adapt two unsupervised clustering algorithms ($k$-means and Spectral Clustering) to leverage the knowledge of the known classes. Extensive experiments are conducted on 7 tabular datasets and demonstrate the effectiveness of the proposed method and hyperparameter tuning process, and show that the NCD problem can be solved without relying on knowledge from the novel classes.
翻訳日:2023-11-10 14:52:08 公開日:2023-11-09
# LLaVA-Plus:マルチモーダルエージェント作成ツールの学習

LLaVA-Plus: Learning to Use Tools for Creating Multimodal Agents ( http://arxiv.org/abs/2311.05437v1 )

ライセンス: Link先を確認
Shilong Liu, Hao Cheng, Haotian Liu, Hao Zhang, Feng Li, Tianhe Ren, Xueyan Zou, Jianwei Yang, Hang Su, Jun Zhu, Lei Zhang, Jianfeng Gao, Chunyuan Li(参考訳) LLaVA-Plusは、大規模マルチモーダルモデルの能力を拡張した汎用マルチモーダルアシスタントである。 事前訓練されたビジョンとビジョン言語モデルのスキルリポジトリを維持しており、ユーザの入力に基づいて関連するツールを活性化して実際のタスクを遂行することができる。 llava-plusはマルチモーダルインストラクションフォローデータに基づいてトレーニングされ、視覚的理解、生成、外部知識検索、構成など、ツールの使用能力を取得する。 LLaVA-Plusは既存の能力でLLaVAよりも優れており、新しい性能を示す。 画像クエリは、人間とaiのインタラクションセッション全体を通して直接接地され、活発に動作し、ツールの使用性能を大幅に改善し、新しいシナリオを可能にするという点では、異なる。

LLaVA-Plus is a general-purpose multimodal assistant that expands the capabilities of large multimodal models. It maintains a skill repository of pre-trained vision and vision-language models and can activate relevant tools based on users' inputs to fulfill real-world tasks. LLaVA-Plus is trained on multimodal instruction-following data to acquire the ability to use tools, covering visual understanding, generation, external knowledge retrieval, and compositions. Empirical results show that LLaVA-Plus outperforms LLaVA in existing capabilities and exhibits new ones. It is distinct in that the image query is directly grounded and actively engaged throughout the entire human-AI interaction sessions, significantly improving tool use performance and enabling new scenarios.
翻訳日:2023-11-10 14:51:41 公開日:2023-11-09
# 音声バイオマーカーと高度な機械学習アルゴリズムによるパーキンソン病の検出 : 総合的研究

Parkinson's Disease Detection through Vocal Biomarkers and Advanced Machine Learning Algorithms: A Comprehensive Study ( http://arxiv.org/abs/2311.05435v1 )

ライセンス: Link先を確認
Md Abu Sayed, Sabbir Ahamed, Duc M Cao, Md Eyasin Ul Islam Pavel, Malay Sarkar, Md Tuhin Mia(参考訳) パーキンソン病(英: Parkinson's disease、PD)は、運動ニューロンへの影響で知られる神経変性疾患であり、震動、硬度、歩行困難などの症状を引き起こす。 本研究は早期疾患予測の手段として, PD患者の声質変化の可能性を検討する。 本研究はパーキンソン病の発症を予測することを目的とする。 xgboost, lightgbm, bagging, adaboost, support vector machineなど,さまざまな高度な機械学習アルゴリズムを活用して,精度,曲線下領域,感度,特異性などの指標を用いて,これらのモデルの予測性能を評価する。 この総合的な分析の結果は、LightGBMが最も効果的なモデルであることを示し、96%の精度で、一致するAUCは96%である。 LightGBMは100%の感度と94.43%の特異性を示し、他の機械学習アルゴリズムの精度とAUCスコアを上回った。 パーキンソン病の複雑さと早期診断の課題を踏まえ, 高度な機械学習技術と声帯バイオマーカーを併用し, 正確かつタイムリーなPD検出の意義を浮き彫りにした。

Parkinson's disease (PD) is a prevalent neurodegenerative disorder known for its impact on motor neurons, causing symptoms like tremors, stiffness, and gait difficulties. This study explores the potential of vocal feature alterations in PD patients as a means of early disease prediction. This research aims to predict the onset of Parkinson's disease. Utilizing a variety of advanced machine-learning algorithms, including XGBoost, LightGBM, Bagging, AdaBoost, and Support Vector Machine, among others, the study evaluates the predictive performance of these models using metrics such as accuracy, area under the curve (AUC), sensitivity, and specificity. The findings of this comprehensive analysis highlight LightGBM as the most effective model, achieving an impressive accuracy rate of 96%, alongside a matching AUC of 96%. LightGBM exhibited a remarkable sensitivity of 100% and specificity of 94.43%, surpassing other machine learning algorithms in accuracy and AUC scores. Given the complexities of Parkinson's disease and its challenges in early diagnosis, this study underscores the significance of leveraging vocal biomarkers coupled with advanced machine-learning techniques for precise and timely PD detection.
翻訳日:2023-11-10 14:51:27 公開日:2023-11-09
# 入力分布の差分によるデュアルパイプライン型転送

Dual Pipeline Style Transfer with Input Distribution Differentiation ( http://arxiv.org/abs/2311.05432v1 )

ライセンス: Link先を確認
ShiQi Jiang, JunJie Kang, YuJian Li(参考訳) カラー・テクスチャ二重パイプラインアーキテクチャ(CTDP)は,マスク付き全変量損失(Mtv)によってテクスチャ表現やアーティファクトを抑圧し,スムーズな入力がテクスチャ表現をほぼ完全に排除できることを示した。 我々は,スムース入力がテクスチャ表現を取り除く重要な理由ではなく,むしろトレーニングデータセットの分散分化であることを示す実験を行った。 そこで本研究では,スムース分布がテクスチャを全く生成しないのに対して,テクスチャ生成をノイズ分布に完全に依存させる入力分布分化訓練戦略(idd)を提案する。 総じて,提案する分布分化訓練戦略により,2つの入力分布が2世代のタスクに寄与し,ノイズ分布がテクスチャ生成に,スムース分布がカラースムース転送に寄与する。 最後に,色伝達タスクにおけるテクスチャ表現やアーティファクトを完全に排除するために,前方推論段階の入力としてスムーズな分布を選択する。

The color and texture dual pipeline architecture (CTDP) suppresses texture representation and artifacts through masked total variation loss (Mtv), and further experiments have shown that smooth input can almost completely eliminate texture representation. We have demonstrated through experiments that smooth input is not the key reason for removing texture representations, but rather the distribution differentiation of the training dataset. Based on this, we propose an input distribution differentiation training strategy (IDD), which forces the generation of textures to be completely dependent on the noise distribution, while the smooth distribution will not produce textures at all. Overall, our proposed distribution differentiation training strategy allows for two pre-defined input distributions to be responsible for two generation tasks, with noise distribution responsible for texture generation and smooth distribution responsible for color smooth transfer. Finally, we choose a smooth distribution as the input for the forward inference stage to completely eliminate texture representations and artifacts in color transfer tasks.
翻訳日:2023-11-10 14:51:04 公開日:2023-11-09
# LEOにおける居住空間オブジェクトの分類 : 深層学習アプローチ

Taxonomy for Resident Space Objects in LEO: A Deep Learning Approach ( http://arxiv.org/abs/2311.05430v1 )

ライセンス: Link先を確認
Marta Guimar\~aes, Cl\'audia Soares, Chiara Manfletti(参考訳) RSOの増加は、宇宙の直接的および間接的なユーザーにとって、衝突や破滅的な事故のリスクを懸念している。 この問題を緩和するためには、軌道上の様々なROSとその振る舞いを十分に理解することが不可欠である。 RSOのいくつかのクラスを定義する確立された分類法は、この理解を達成するための重要なステップである。 この分類は、主な特性に基づいて、特定のカテゴリにオブジェクトを割り当てるのに役立つ。 さらに、確立された分類学は、宇宙におけるrsoの振る舞いに影響を与える要因をよりよく理解するための共通言語とフレームワークを提供することにより、研究と分析のプロセスを促進することができる。 これらの要因は、宇宙交通管理のためのより効率的で効果的な戦略の設計に役立つ。 本研究では,宇宙交通管理を強化するために,低軌道環境に着目したrsosの新しい分類法を提案する。 さらに, オートエンコーダアーキテクチャを用いて, RSOの特性を表す特徴を減らし, 深層学習に基づくモデルを提案する。 オートエンコーダは低次元空間表現を生成し、一様多様体近似や射影法などの手法を用いて、それらの特徴に基づいてrsosの基本クラスターを識別する。 このアプローチは、特徴と識別されるrsosクラスの間の複雑で非線形な関係を捉える。 提案する分類とモデルは、軌道上でのrsosの増加によって生じるリスクを軽減するための継続的な取り組みに重要な貢献をする。

The increasing number of RSOs has raised concerns about the risk of collisions and catastrophic incidents for all direct and indirect users of space. To mitigate this issue, it is essential to have a good understanding of the various RSOs in orbit and their behaviour. A well-established taxonomy defining several classes of RSOs is a critical step in achieving this understanding. This taxonomy helps assign objects to specific categories based on their main characteristics, leading to better tracking services. Furthermore, a well-established taxonomy can facilitate research and analysis processes by providing a common language and framework for better understanding the factors that influence RSO behaviour in space. These factors, in turn, help design more efficient and effective strategies for space traffic management. Our work proposes a new taxonomy for RSOs focusing on the low Earth orbit regime to enhance space traffic management. In addition, we present a deep learning-based model that uses an autoencoder architecture to reduce the features representing the characteristics of the RSOs. The autoencoder generates a lower-dimensional space representation that is then explored using techniques such as Uniform Manifold Approximation and Projection to identify fundamental clusters of RSOs based on their unique characteristics. This approach captures the complex and non-linear relationships between the features and the RSOs' classes identified. Our proposed taxonomy and model offer a significant contribution to the ongoing efforts to mitigate the overall risks posed by the increasing number of RSOs in orbit.
翻訳日:2023-11-10 14:50:43 公開日:2023-11-09
# ベイズ非一様ポアソン過程による結合データメッセージの統計的学習

Statistical Learning of Conjunction Data Messages Through a Bayesian Non-Homogeneous Poisson Process ( http://arxiv.org/abs/2311.05426v1 )

ライセンス: Link先を確認
Marta Guimar\~aes, Cl\'audia Soares, Chiara Manfletti(参考訳) 現在の衝突回避と宇宙交通管理のアプローチは、主に軌道上の物体数の増加とスケーラブルで自動化されたソリューションの欠如によって、多くの課題に直面している。 壊滅的な事故を避けるため、衛星所有者/オペレーターは、衝突回避操作を行う必要があるかどうかを決定するために、彼らの資産の衝突リスクを認識しなければならない。 このプロセスは典型的には、期待されるTCAや衝突の確率などの事象に関する情報を含むCDMの形式で発行される警告を使用して実行される。 これまでの研究では,2つの重要な質問に対して,統計的学習モデルを提示した。(1)新たな結合は,次の指定された時間間隔で発行されるのだろうか? 2)次回のCDMはいつ,いつ,いつ,どのような不確実性を持つのか? しかし、このモデルは経験的ベイズ均質ポアソン過程に基づいており、CDMの到着速度は時間とともに一定であると仮定している。 実際、CDMが発行されるレートは、第三者によって実行されるスクリーニングプロセスと同様に、オブジェクトの振る舞いに依存する。 そこで本研究では,ベイズ非均質ポアソン過程を確率型プログラミング言語を用いて高精度に実装し,基礎となる現象を十分に記述する手法を提案する。 提案手法をベースラインモデルと比較し,提案手法の付加価値を示す。 その結果, この問題をベイズ非均一ポアソンプロセスによりより高精度にモデル化することができ, 自動衝突回避システムの開発に寄与し, 衛星操作とタイムリーに反応するのに役立つことがわかった。

Current approaches for collision avoidance and space traffic management face many challenges, mainly due to the continuous increase in the number of objects in orbit and the lack of scalable and automated solutions. To avoid catastrophic incidents, satellite owners/operators must be aware of their assets' collision risk to decide whether a collision avoidance manoeuvre needs to be performed. This process is typically executed through the use of warnings issued in the form of CDMs which contain information about the event, such as the expected TCA and the probability of collision. Our previous work presented a statistical learning model that allowed us to answer two important questions: (1) Will any new conjunctions be issued in the next specified time interval? (2) When and with what uncertainty will the next CDM arrive? However, the model was based on an empirical Bayes homogeneous Poisson process, which assumes that the arrival rates of CDMs are constant over time. In fact, the rate at which the CDMs are issued depends on the behaviour of the objects as well as on the screening process performed by third parties. Thus, in this work, we extend the previous study and propose a Bayesian non-homogeneous Poisson process implemented with high precision using a Probabilistic Programming Language to fully describe the underlying phenomena. We compare the proposed solution with a baseline model to demonstrate the added value of our approach. The results show that this problem can be successfully modelled by our Bayesian non-homogeneous Poisson Process with greater accuracy, contributing to the development of automated collision avoidance systems and helping operators react timely but sparingly with satellite manoeuvres.
翻訳日:2023-11-10 14:50:20 公開日:2023-11-09
# 画像・テキストマッチングのためのアクティブマイニングサンプルペアセマンティクス

Active Mining Sample Pair Semantics for Image-text Matching ( http://arxiv.org/abs/2311.05425v1 )

ライセンス: Link先を確認
Yongfeng Chena, Jin Liua, Zhijing Yang, Ruihan Chena, Junpeng Tan(参考訳) 近年,画像テキストマッチングにおけるコモンセンス学習が話題となっている。 よりグラフィック的な相関を記述できるが、コモンセンス学習にはまだまだ欠点がある。 1) 既存の手法は3重項のセマンティック類似度測定損失に基づいており, 画像-テキストサンプルペアの難解な負値と効果的に一致できない。 2)モデルの弱い一般化能力は,大規模データセットに対する画像およびテキストマッチングの効果を低下させる。 これらの欠点により。 本稿では,Active Mining Sample Pair Semantics Image-text matching model (AMSPS)と呼ばれる新しい画像テキストマッチングモデルを提案する。 3重項損失関数を持つcommonsense学習モデルの単一意味学習モードと比較すると、amspsはアクティブな学習アイデアである。 まず,適応型階層型強化損失 (ahrl) の学習モードが多様化した。 アクティブな学習モードにより、モデルは難解な負のサンプルに集中し、識別能力を高めることができる。 さらに、AMSPSは、より隠れた関連する意味表現を非圧縮アイテムから適応的にマイニングすることができるため、モデルの性能と一般化能力は大幅に向上する。 Flickr30K と MSCOCO のユニバーサルデータセットを用いた実験結果から,提案手法は高度な比較法よりも優れていることが示された。

Recently, commonsense learning has been a hot topic in image-text matching. Although it can describe more graphic correlations, commonsense learning still has some shortcomings: 1) The existing methods are based on triplet semantic similarity measurement loss, which cannot effectively match the intractable negative in image-text sample pairs. 2) The weak generalization ability of the model leads to the poor effect of image and text matching on large-scale datasets. According to these shortcomings. This paper proposes a novel image-text matching model, called Active Mining Sample Pair Semantics image-text matching model (AMSPS). Compared with the single semantic learning mode of the commonsense learning model with triplet loss function, AMSPS is an active learning idea. Firstly, the proposed Adaptive Hierarchical Reinforcement Loss (AHRL) has diversified learning modes. Its active learning mode enables the model to more focus on the intractable negative samples to enhance the discriminating ability. In addition, AMSPS can also adaptively mine more hidden relevant semantic representations from uncommented items, which greatly improves the performance and generalization ability of the model. Experimental results on Flickr30K and MSCOCO universal datasets show that our proposed method is superior to advanced comparison methods.
翻訳日:2023-11-10 14:49:54 公開日:2023-11-09
# ディリクレアクティブラーニング

Dirichlet Active Learning ( http://arxiv.org/abs/2311.05501v1 )

ライセンス: Link先を確認
Kevin Miller and Ryan Murray(参考訳) 本稿では,アクティブラーニングアルゴリズムの設計に対するベイズ的アプローチであるdirichlet active learning (dial)を紹介する。 我々のフレームワークは、ディリクレ確率場としての特徴条件クラス確率をモデル化し、類似した特徴間の観測力を与えて確率場を校正する。 このランダムフィールドは、学習タスクに利用することができる。特に、ラベル付きデータが不足している状況において、平均と分散の現在の推定値を使って分類とアクティブな学習を行うことができる。 グラフラプラシアンに基づいて「プロパゲーション演算子」を構築し、低ラベルレートグラフ学習への適用性を実証し、その手法と最先端技術との競争性を実証した計算的研究を提案する。 最後に、クラスタ探索と意思決定境界への注意の増大という観点からそれぞれ表現された、探索と搾取の両方を保証するためのこのアプローチの能力に関する厳密な保証を提供する。

This work introduces Dirichlet Active Learning (DiAL), a Bayesian-inspired approach to the design of active learning algorithms. Our framework models feature-conditional class probabilities as a Dirichlet random field and lends observational strength between similar features in order to calibrate the random field. This random field can then be utilized in learning tasks: in particular, we can use current estimates of mean and variance to conduct classification and active learning in the context where labeled data is scarce. We demonstrate the applicability of this model to low-label rate graph learning by constructing ``propagation operators'' based upon the graph Laplacian, and offer computational studies demonstrating the method's competitiveness with the state of the art. Finally, we provide rigorous guarantees regarding the ability of this approach to ensure both exploration and exploitation, expressed respectively in terms of cluster exploration and increased attention to decision boundaries.
翻訳日:2023-11-10 14:42:38 公開日:2023-11-09
# trust your bms: 産業用ネットワークのための軽量認証アーキテクチャの設計

Trust your BMS: Designing a Lightweight Authentication Architecture for Industrial Networks ( http://arxiv.org/abs/2311.05498v1 )

ライセンス: Link先を確認
Fikret Basic, Christian Steger, Christian Seifert, Robert Kofler(参考訳) クリーンエネルギーの認識と広範なバッテリー使用に依存するシステムが出現したことで、コミュニティはより複雑でセキュアなバッテリー管理システム(bms)の開発への関心が高まっている。 特に、電気自動車や電力網のような現代の複雑なシステムにBMSを組み込むことは、新しいセキュリティ関連の課題を提示している。 bmsが外部システムネットワークとの通信を拡張することを目的としている場合、そのインタラクションは潜在的な攻撃者が悪用する可能性のあるバックドアを多数残す可能性があるため、懸念が示される。 したがって、BMSとそのシステムインクルージョンに使用できる一般的な設計を見つけることが非常に望ましい。 本研究では,BMSと他のシステムデバイス間の通信を目的としたセキュリティアーキテクチャソリューションを提案する。 提案されたアーキテクチャの目的は、異なる産業環境やシステムで容易に適用できると同時に、デザインを自然に軽量に保つことである。

With the advent of clean energy awareness and systems that rely on extensive battery usage, the community has seen an increased interest in the development of more complex and secure Battery Management Systems (BMS). In particular, the inclusion of BMS in modern complex systems like electric vehicles and power grids has presented a new set of security-related challenges. A concern is shown when BMS are intended to extend their communication with external system networks, as their interaction can leave many backdoors open that potential attackers could exploit. Hence, it is highly desirable to find a general design that can be used for BMS and its system inclusion. In this work, a security architecture solution is proposed intended for the communication between BMS and other system devices. The aim of the proposed architecture is to be easily applicable in different industrial settings and systems, while at the same time keeping the design lightweight in nature.
翻訳日:2023-11-10 14:42:24 公開日:2023-11-09
# 予熱プローブを用いた温度推定における熱化時間スケールのバイパス

Bypassing thermalization timescales in temperature estimation using prethermal probes ( http://arxiv.org/abs/2311.05496v1 )

ライセンス: Link先を確認
Nicholas Anto-Sztrikacs, Harry J. D. Miller, Ahsan Nazir, Dvira Segal(参考訳) 感度・高速・ロバストな温度推定のための予熱プローブを導入する。 準退化励起状態の多様体を持つ平衡熱プローブは、これまでその最大感度で認識されてきたが、長い熱化時間スケールに悩まされている。 温度測定における重要な資源として時間を考えると、これらの平衡プローブが理想的な性能に欠けていることが明らかになる。 そこで本研究では, もともと最適平衡温度測定のための設定を, 長寿命準平衡状態を用いて, 先熱プローブとして用いることを提案している。 この過渡状態は、準世代間における量子コヒーレンスの構築から生じる。 物理的に動機づけられた初期条件のクラスでは、予熱状態のエネルギー測定は平衡状態と同様の感度を示す。 しかし、これらは推定プロトコルに必要な時間において、大きな削減の順序の明確な利点を提供する。 推定プロトコル時間を考慮に入れた数値を導入すると、予熱プローブは、有効熱感度の観点から対応する平衡プローブを上回り、長寿命の予熱状態を利用して高速熱測定の道を開く。

We introduce prethermal temperature probes for sensitive, fast and robust temperature estimation. While equilibrium thermal probes with a manifold of quasidegenerate excited states have been previously recognized for their maximal sensitivity, they suffer from long thermalization timescales. When considering time as a critical resource in thermometry, it becomes evident that these equilibrium probes fall short of ideal performance. Here, we propose a different paradigm for thermometry, where setups originally suggested for optimal equilibrium thermometry should instead be employed as prethermal probes, by making use of their long-lived quasiequilibrium state. This transient state emerges from the buildup of quantum coherences among quasidegenerate levels. For a class of physically-motivated initial conditions, we find that energy measurements of the prethermal state exhibit a similar sensitivity as the equilibrium state. However, they offer the distinct benefit of orders of magnitude reduction in the time required for the estimation protocol. Upon introducing a figure-of-merit that accounts for the estimation protocol time, prethermal probes surpass the corresponding equilibrium probes in terms of effective thermal sensitivity, opening avenues for rapid thermometry by harnessing the long-lived prethermal states.
翻訳日:2023-11-10 14:42:11 公開日:2023-11-09
# イベントベース物体検出のためのオブジェクト中心のクロスモーダル特徴蒸留

Object-centric Cross-modal Feature Distillation for Event-based Object Detection ( http://arxiv.org/abs/2311.05494v1 )

ライセンス: Link先を確認
Lei Li, Alexander Liniger, Mario Millhaeusler, Vagia Tsiminaki, Yuanyou Li, Dengxin Dai(参考訳) イベントカメラは低レイテンシや高ダイナミックレンジといったユニークな特性によって人気を集めている。 これらの利点が重要なタスクのひとつは、リアルタイムオブジェクト検出です。 しかし、RGB検出器は、イベントデータの間隔と視覚的詳細の欠如により、イベントベースの検出器よりも優れている。 本稿では,これらの2つのモード間の性能ギャップを小さくする新しい知識蒸留手法を開発する。 そこで本研究では, 知識蒸留が最善である領域に焦点を絞ることができる, クロスモーダルオブジェクト検出蒸留法を提案する。 本研究では, オブジェクト中心のスロットアテンション機構を用いて, 対象中心の特徴とそれに対応する画素特徴とを反復的に分離する。 本稿では,灰色スケール画像を教師のモダリティとして配置した合成および実イベントデータセット上での新しい蒸留手法を評価する。 対象中心蒸留は,教師に対する性能ギャップを半減し,イベントベースの学生オブジェクト検出器の性能を著しく向上させることを示す。

Event cameras are gaining popularity due to their unique properties, such as their low latency and high dynamic range. One task where these benefits can be crucial is real-time object detection. However, RGB detectors still outperform event-based detectors due to the sparsity of the event data and missing visual details. In this paper, we develop a novel knowledge distillation approach to shrink the performance gap between these two modalities. To this end, we propose a cross-modality object detection distillation method that by design can focus on regions where the knowledge distillation works best. We achieve this by using an object-centric slot attention mechanism that can iteratively decouple features maps into object-centric features and corresponding pixel-features used for distillation. We evaluate our novel distillation approach on a synthetic and a real event dataset with aligned grayscale images as a teacher modality. We show that object-centric distillation allows to significantly improve the performance of the event-based student object detector, nearly halving the performance gap with respect to the teacher.
翻訳日:2023-11-10 14:41:52 公開日:2023-11-09
# 偏光エンタングルメントのヘラルド分布に向けて

Towards heralded distribution of polarization entanglement ( http://arxiv.org/abs/2311.05492v1 )

ライセンス: Link先を確認
Francis Marcellino, Patrik Caspar, Tiff Brydges, Hugo Zbinden, Rob Thew(参考訳) 遠距離での絡み合った状態の分散は、量子通信や量子暗号における多くのプロトコルにとって重要なリソースとなる。 理想的には、これを厳格に実施すべきである。 4つの単光子状態から始め、直交偏光で符号化された2つの単光子パス絡み合い状態をカスケードし、単一の量子リピータリンクアーキテクチャで偏光を分散およびヘラルド分極する。 入力状態が(局所的な)損失を最小限に抑えるように調整することにより、理論的に達成可能な忠実度は、選択が1に近づくことなく目標状態に到達し、棚上げ率を犠牲にする。 ポストセレクション後の95%以上の目標状態に対する忠実度を達成し、実験制御のためのベンチマークを提供する。 その結果, 選任後のない紋章状態の忠実性は予測可能であり, また, このアーキテクチャに特有の様々な実用的課題やエラー源を同定し, 生成状態への影響をモデル化することを示した。 本実験では, 自発パラメトリックダウンコンバージョンに基づく確率的光子ペア源を用いるが, これらの問題の多くは, 決定論的光子源を用いた変種にも関係している。

Distributing entangled states over potentially long distances provides a key resource for many protocols in quantum communication and quantum cryptography. Ideally, this should be implemented in a heralded manner. By starting with four single-photon states, we cascade two single-photon path-entangled states, coded in orthogonal polarizations, to distribute and herald polarization entanglement in a single quantum repeater link architecture. By tuning the input states to minimize (local) losses, the theoretically achievable fidelity to the target state without postselection approaches 1, while sacrificing heralding rates. We achieve a fidelity to the target state of over 95% after postselection, providing a benchmark for the experimental control. We show that the fidelity of the heralded state without postselection scales predictably and also identify various practical challenges and error sources specific to this architecture, and model their effects on the generated state. While our experiment uses probabilistic photon-pair sources based on spontaneous parametric down-conversion, many of these problems are also relevant for variants employing deterministic photon sources.
翻訳日:2023-11-10 14:41:32 公開日:2023-11-09
# 一般政策、下位構造、及び計画幅

General Policies, Subgoal Structure, and Planning Width ( http://arxiv.org/abs/2311.05490v1 )

ライセンス: Link先を確認
Blai Bonet and Hector Geffner(参考訳) 原子目標を持つ多くの古典的な計画領域は、問題幅で指数関数的に実行される単純な多項式探索手順(iw)によって解決できることが観察されている。 しかしながら、幅の概念はBFWSのような最先端の計画アルゴリズムの一部となっているが、原子目標を考慮した場合、なぜ多くのベンチマークドメインが境界幅を持つのかはよく説明できない。 本研究では,境界幅と,各計画例において有界サイズの原子のタプルで表される一般的な最適ポリシーの存在を関連付けて,この問題に対処する。 また、多くの領域が有界な直列化幅を持つが有界な幅を持たないため、(明示的な)直列化と直列化幅の概念も定義する。 このような問題は、Serialized IWアルゴリズムの適切な変種によって多項式時間で非最適に解決される。 最後に、一般的な方針の言語と直列化の意味論を組み合わせることで、手作業でドメイン制御の知識をエンコーディングしたり、小さな例から学習したりできる、コンパクトな形式の直列化を特定するためのシンプルで有意義で表現力のある言語が得られる。 スケッチは部分群の観点から一般問題分解を表し、境界幅のスケッチは多項式時間で解くことができる問題分解を表現する。

It has been observed that many classical planning domains with atomic goals can be solved by means of a simple polynomial exploration procedure, called IW, that runs in time exponential in the problem width, which in these cases is bounded and small. Yet, while the notion of width has become part of state-of-the-art planning algorithms such as BFWS, there is no good explanation for why so many benchmark domains have bounded width when atomic goals are considered. In this work, we address this question by relating bounded width with the existence of general optimal policies that in each planning instance are represented by tuples of atoms of bounded size. We also define the notions of (explicit) serializations and serialized width that have a broader scope as many domains have a bounded serialized width but no bounded width. Such problems are solved non-optimally in polynomial time by a suitable variant of the Serialized IW algorithm. Finally, the language of general policies and the semantics of serializations are combined to yield a simple, meaningful, and expressive language for specifying serializations in compact form in the form of sketches, which can be used for encoding domain control knowledge by hand or for learning it from small examples. Sketches express general problem decompositions in terms of subgoals, and sketches of bounded width express problem decompositions that can be solved in polynomial time.
翻訳日:2023-11-10 14:40:56 公開日:2023-11-09
# ヨーロッパにおけるニュースと誤情報消費 : 縦断的横断的視点

News and Misinformation Consumption in Europe: A Longitudinal Cross-Country Perspective ( http://arxiv.org/abs/2311.05487v1 )

ライセンス: Link先を確認
Anees Baqir, Alessandro Galeazzi, Fabiana Zollo(参考訳) インターネットとソーシャルメディアはニュースの可用性とアクセシビリティを変革し、情報消費と生産を変革した。 しかし、誤情報の急速な拡散を促進することもでき、社会的な大きな課題となる。 誤情報を効果的に扱うためには,オンライン情報環境とニュース消費パターンを理解することが重要である。 既存の研究のほとんどは、国間比較を欠いた単一のトピックや個々の国に焦点を当てている。 本研究は,4カ国における情報消費を調査し,フランス,ドイツ,イタリア,イギリスのニュースメディアアカウントから3年間のTwitter活動を分析し,誤情報ソースの役割に着目した。 我々の研究は、ヨーロッパの重要性のトピックが各国でどのように解釈されるかという視点を提供する。 信頼性のある情報源が情報ランドスケープを支配していることを示しているが、信頼性の低いコンテンツは依然としてすべての国やトピックに存在している。 ほとんどのユーザーは信頼できるソースを消費するが、少数のユーザーは疑わしいコンテンツを消費する。 興味深いことに、類似性ネットワークにおける疑わしいニュースと信頼できるニュースのギャップを埋める情報ダイエットを持っているユーザーは少ない。 クロスカントリー比較の結果、ニュースソースのオーディエンス重なりの違いが明らかとなり、政策立案者や学者が誤った情報と戦うための効果的かつ調整されたソリューションを開発する上で貴重なガイダンスとなった。

The Internet and social media have transformed news availability and accessibility, reshaping information consumption and production. However, they can also facilitate the rapid spread of misinformation, posing significant societal challenges. To combat misinformation effectively, it is crucial to understand the online information environment and news consumption patterns. Most existing research has primarily focused on single topics or individual countries, lacking cross-country comparisons. This study investigated information consumption in four European countries, analyzing three years of Twitter activity from news outlet accounts in France, Germany, Italy, and the UK and focusing on the role of misinformation sources. Our work offers a perspective on how topics of European significance are interpreted across various countries. Results indicate that reliable sources dominate the information landscape, although unreliable content is still present across all countries and topics. While most users engage with reliable sources, a small percentage consume questionable content. Interestingly, few users have a mixed information diet, bridging the gap between questionable and reliable news in the similarity network. Cross-country comparisons revealed differences in audience overlap of news sources, offering valuable guidance for policymakers and scholars in developing effective and tailored solutions to combat misinformation.
翻訳日:2023-11-10 14:40:15 公開日:2023-11-09
# 量子ウォークによる疾患遺伝子優先順位付け

Disease Gene Prioritization With Quantum Walks ( http://arxiv.org/abs/2311.05486v1 )

ライセンス: Link先を確認
Harto Saarinen, Mark Goldsmith, Rui-Sheng Wang, Joseph Loscalzo, Sabrina Maniscalco(参考訳) 疾患遺伝子プライオリティゼーション(英語版)は、与えられた種遺伝子セットに基づいて、与えられた疾患に関連のある遺伝子またはタンパク質にスコアを割り当てる。 本稿では,タンパク質-タンパク質相互作用(PPI)ネットワークの隣接行列を用いた連続時間量子ウォークに基づく疾患遺伝子優先順位付けの新しいアルゴリズムについて述べる。 このアルゴリズムは、拡散核として知られる以前の方法の量子バージョンと見なすことができるが、最も重要なのは、疾患遺伝子の予測において高い性能を持つと同時に、基礎となるハミルトニアンへのシードノードの自己ループのエンコードを可能にすることである。 提案手法を,7つの異なるPPIネットワーク上で,3つの疾患セットにおいてよく知られた遺伝子優先順位付け手法と比較することにより,その成功を実証する。 これらの方法を比較するために,クロスバリデーションを用いて,平均逆ランクとリコール値を調べる。 冠状動脈疾患の予測遺伝子の濃縮解析を行うことにより,本手法をさらに検証した。 また, 種子に自己ループを加えることの影響についても検討し, 量子ウォーカーが低次シードノードに対してより局所的に維持できると主張する。

Disease gene prioritization assigns scores to genes or proteins according to their likely relevance for a given disease based on a provided set of seed genes. Here, we describe a new algorithm for disease gene prioritization based on continuous-time quantum walks using the adjacency matrix of a protein-protein interaction (PPI) network. Our algorithm can be seen as a quantum version of a previous method known as the diffusion kernel, but, importantly, has higher performance in predicting disease genes, and also permits the encoding of seed node self-loops into the underlying Hamiltonian, which offers yet another boost in performance. We demonstrate the success of our proposed method by comparing it to several well-known gene prioritization methods on three disease sets, across seven different PPI networks. In order to compare these methods, we use cross-validation and examine the mean reciprocal ranks and recall values. We further validate our method by performing an enrichment analysis of the predicted genes for coronary artery disease. We also investigate the impact of adding self-loops to the seeds, and argue that they allow the quantum walker to remain more local to low-degree seed nodes.
翻訳日:2023-11-10 14:39:16 公開日:2023-11-09
# 重力による量子絡み合いから宇宙の曲率を求める

Probing the curvature of the cosmos from quantum entanglement due to gravity ( http://arxiv.org/abs/2311.05483v1 )

ライセンス: Link先を確認
Suddhasattwa Brahma and Abhinove Nagarajan Seenivasan(参考訳) 重力が基本量子である場合、2つの量子粒子は重力による相互相互作用のために互いに絡み合わなければならない。 この現象は重力を媒介とする絡み合いと呼ばれ、テーブルトップ実験で摂動量子重力を検出する最近の取り組みに繋がった。 本稿では、これを一般化して、2つの理想化された大振動子の基底状態が膨張する宇宙の重力によって絡み合うことを想像し、背景時空の曲率が結果として生じる絡み合いプロファイルにそのインプリントを残すことを発見した。 したがって、宇宙観測から重力を媒介とする絡み合いを検出することは、宇宙の局所膨張率を測定するエキサイティングな新しい方法を開くことになる。

If gravity is fundamentally quantum, any two quantum particles must get entangled with each other due to their mutual interaction through gravity. This phenomenon, dubbed gravity-mediated entanglement, has led to recent efforts of detecting perturbative quantum gravity in table-top experimental setups. In this paper, we generalize this to imagine two idealized massive oscillators, in their ground state, which get entangled due to gravity in an expanding universe, and find that the curvature of the background spacetime leaves its imprints on the resulting entanglement profile. Thus, detecting gravity-mediated entanglement from cosmological observations will open up an exciting new avenue of measuring the local expansion rate of the cosmos.
翻訳日:2023-11-10 14:38:53 公開日:2023-11-09
# meta4:自己教師付きテキストと音声表現を用いたメタファージェスチャのセマンティックアライメント生成

meta4: semantically-aligned generation of metaphoric gestures using self-supervised text and speech representation ( http://arxiv.org/abs/2311.05481v1 )

ライセンス: Link先を確認
Mireille Fares, Catherine Pelachaud, Nicolas Obin(参考訳) 画像スキーマは、音声に存在する様々な概念の概念化と推論の仕方に影響を与える反復的な認知パターンである。 これらのパターンは認知プロセスに深く埋め込まれており、ジェスチャーを含む身体表現に反映されます。 特に、比喩的ジェスチャーは抽象概念を視覚的に表現するためにイメージスキーマと整合する本質的な特徴と意味を持っている。 ジェスチャーの形状と形状は、前腕と手を伸ばしたり、手の動きで線をトレースしてPATHの画像スキーマを視覚的に表現したりといった抽象概念を伝達することができる。 従来の行動生成モデルは、主に音声(音響特徴とテキスト)を利用して仮想エージェントの生成モデルを推進することに重点を置いている。 彼らは重要な意味情報を、比喩的ジェスチャーを効果的に生成するイメージスキーマが持つものと見なしていない。 この制限に対処するために,音声と画像スキーマの両方からメタファ的ジェスチャーを生成する深層学習手法META4を導入する。 私たちのアプローチは、入力テキストから画像スキーマを計算して、基礎となる意味的およびメタファ的意味を捉え、音声と計算された画像スキーマによって駆動されるメタファー的ジェスチャーを生成するという2つの主要な目標を持っています。 本手法は,画像スキーマの可能性を生かしながら音声駆動のメタファージェスチャを生成する最初の手法である。 提案手法の有効性を実証し,メタファ的ジェスチャーのモデル化における音声および画像スキーマの重要性を強調した。

Image Schemas are repetitive cognitive patterns that influence the way we conceptualize and reason about various concepts present in speech. These patterns are deeply embedded within our cognitive processes and are reflected in our bodily expressions including gestures. Particularly, metaphoric gestures possess essential characteristics and semantic meanings that align with Image Schemas, to visually represent abstract concepts. The shape and form of gestures can convey abstract concepts, such as extending the forearm and hand or tracing a line with hand movements to visually represent the image schema of PATH. Previous behavior generation models have primarily focused on utilizing speech (acoustic features and text) to drive the generation model of virtual agents. They have not considered key semantic information as those carried by Image Schemas to effectively generate metaphoric gestures. To address this limitation, we introduce META4, a deep learning approach that generates metaphoric gestures from both speech and Image Schemas. Our approach has two primary goals: computing Image Schemas from input text to capture the underlying semantic and metaphorical meaning, and generating metaphoric gestures driven by speech and the computed image schemas. Our approach is the first method for generating speech driven metaphoric gestures while leveraging the potential of Image Schemas. We demonstrate the effectiveness of our approach and highlight the importance of both speech and image schemas in modeling metaphoric gestures.
翻訳日:2023-11-10 14:38:18 公開日:2023-11-09
# 層セグメンテーションのための拡散確率モデルによる網膜OCT合成

Retinal OCT Synthesis with Denoising Diffusion Probabilistic Models for Layer Segmentation ( http://arxiv.org/abs/2311.05479v1 )

ライセンス: Link先を確認
Yuli Wu, Weidong He, Dennis Eschweiler, Ningxin Dou, Zixin Fan, Shengli Mi, Peter Walter, Johannes Stegmaier(参考訳) ディープラーニングを用いた現代の生物医学的画像解析は、しばしば限定的な注釈付きデータの課題に遭遇する。 この問題を克服するために、現実的なバイオメディカル画像の合成に深層生成モデルを用いることができる。 本研究では拡散確率モデル(ddpms)を用いて網膜光コヒーレンス断層撮影(oct)を自動的に生成する画像合成法を提案する。 粗い層スケッチを提供することで、訓練されたDDPMは現実的な乳頭周囲CT画像を生成することができる。 さらに、より正確な擬似ラベルを知識適応によって得ることができ、セグメンテーションタスクに大きなメリットがある。 これにより,階層分割精度が一貫した改善が観察され,様々なニューラルネットワークを用いて検証される。 さらに,合成画像のみを訓練した層分割モデルが,実画像のみを訓練したモデルと同等の結果が得られることを見出した。 これらの結果から,網膜CT画像の手動アノテーションの必要性が軽減される可能性が示唆された。

Modern biomedical image analysis using deep learning often encounters the challenge of limited annotated data. To overcome this issue, deep generative models can be employed to synthesize realistic biomedical images. In this regard, we propose an image synthesis method that utilizes denoising diffusion probabilistic models (DDPMs) to automatically generate retinal optical coherence tomography (OCT) images. By providing rough layer sketches, the trained DDPMs can generate realistic circumpapillary OCT images. We further find that more accurate pseudo labels can be obtained through knowledge adaptation, which greatly benefits the segmentation task. Through this, we observe a consistent improvement in layer segmentation accuracy, which is validated using various neural networks. Furthermore, we have discovered that a layer segmentation model trained solely with synthesized images can achieve comparable results to a model trained exclusively with real images. These findings demonstrate the promising potential of DDPMs in reducing the need for manual annotations of retinal OCT images.
翻訳日:2023-11-10 14:37:54 公開日:2023-11-09
# パーソナライズによるロバストリトレーニングフリーganフィンガープリント

Robust Retraining-free GAN Fingerprinting via Personalized Normalization ( http://arxiv.org/abs/2311.05478v1 )

ライセンス: Link先を確認
Jianwei Fei, Zhihua Xia, Benedetta Tondi, and Mauro Barni(参考訳) 近年、モデル開発者がライセンスし、ユーザに配布する生成モデルの商業的応用において、大きな成長が見られ、それらを使用してサービスを提供している。 このシナリオでは、ライセンス契約違反や悪意のある使用法の存在下で、責任あるユーザを追跡し、識別する必要があります。 生成的敵ネットワーク(gan)が生成する画像に目に見えない透かしを含むことができる方法があるが、異なる透かしを持つモデルを生成する方法は指紋と呼ばれ、各ユーザが、望ましい指紋を含むようにモデルを再訓練する必要があるため、時間とリソースを消費する。 本稿では,モデル開発者が同じ機能を持つモデルコピーを,異なる指紋で簡単に生成できる,学習不要なGANフィンガープリント手法を提案する。 このジェネレータは、指紋を入力とする2つの専用浅層ネットワーク(ParamGen Nets)によってパラメータ(スケーリングとバイアス)が生成されるPN(Personalized Normalization)層を挿入することで変更される。 生成した画像から指紋を抽出するために、同時に透かしデコーダを訓練する。 提案手法では,paramgenネットの入力を変更してフィードフォワードパスを実行するだけで,微調整や再トレーニングをすることなく,gan内に異なる指紋を埋め込むことができる。 モデルレベルの攻撃と画像レベルの攻撃の両方に対するロバスト性の観点から,提案手法の性能は最先端の手法よりも優れている。

In recent years, there has been significant growth in the commercial applications of generative models, licensed and distributed by model developers to users, who in turn use them to offer services. In this scenario, there is a need to track and identify the responsible user in the presence of a violation of the license agreement or any kind of malicious usage. Although there are methods enabling Generative Adversarial Networks (GANs) to include invisible watermarks in the images they produce, generating a model with a different watermark, referred to as a fingerprint, for each user is time- and resource-consuming due to the need to retrain the model to include the desired fingerprint. In this paper, we propose a retraining-free GAN fingerprinting method that allows model developers to easily generate model copies with the same functionality but different fingerprints. The generator is modified by inserting additional Personalized Normalization (PN) layers whose parameters (scaling and bias) are generated by two dedicated shallow networks (ParamGen Nets) taking the fingerprint as input. A watermark decoder is trained simultaneously to extract the fingerprint from the generated images. The proposed method can embed different fingerprints inside the GAN by just changing the input of the ParamGen Nets and performing a feedforward pass, without finetuning or retraining. The performance of the proposed method in terms of robustness against both model-level and image-level attacks is also superior to the state-of-the-art.
翻訳日:2023-11-10 14:37:39 公開日:2023-11-09
# resnetを用いた高齢化のためのコリン作動性高血圧症尺度に基づく4級t2-flairスライス分類

Using ResNet to Utilize 4-class T2-FLAIR Slice Classification Based on the Cholinergic Pathways Hyperintensities Scale for Pathological Aging ( http://arxiv.org/abs/2311.05477v1 )

ライセンス: Link先を確認
Wei-Chun Kevin Tsai, Yi-Chien Liu, Ming-Chun Yu, Chia-Ju Chou, Sui-Hing Yan, Yang-Teng Fan, Yan-Hsiang Huang, Yen-Ling Chiu, Yi-Fang Chuang, Ran-Zan Wang, Yao-Chia Shih(参考訳) The Cholinergic Pathways Hyperintensities Scale (CHIPS)は、認知症重症度の指標として、T2-FLAIR画像におけるコリン作動性白質高強度度の評価に用いられる視覚的評価尺度である。 しかし、脳全体の評価のために4つの特定のスライスを手動で選択するのは時間がかかります。 私たちの目標は、チップに関連する4つのスライスを自動的に識別できるディープラーニングベースのモデルの開発でした。 そこで我々は,ADNI T2-FLAIRデータセット(N=150)を用いて,ResNetを用いて4クラススライス分類モデル(BSCA)を訓練した。 その後、ローカルデータセット(N=30)でモデルの性能を検証した。 その結果, 99.82%, F1スコア99.83%の精度で本モデルの有効性が示された。 この成果は、自動スクリーニングツールとしてのBSCAの潜在的影響を強調し、コリン作動性経路に沿って白い物質のランドマークを含む4つの特定のT2-FLAIRスライスの選択を合理化している。 臨床医はこのツールを利用して、臨床認知症の発症リスクを効率的に評価することができる。

The Cholinergic Pathways Hyperintensities Scale (CHIPS) is a visual rating scale used to assess the extent of cholinergic white matter hyperintensities in T2-FLAIR images, serving as an indicator of dementia severity. However, the manual selection of four specific slices for rating throughout the entire brain is a time-consuming process. Our goal was to develop a deep learning-based model capable of automatically identifying the four slices relevant to CHIPS. To achieve this, we trained a 4-class slice classification model (BSCA) using the ADNI T2-FLAIR dataset (N=150) with the assistance of ResNet. Subsequently, we tested the model's performance on a local dataset (N=30). The results demonstrated the efficacy of our model, with an accuracy of 99.82% and an F1-score of 99.83%. This achievement highlights the potential impact of BSCA as an automatic screening tool, streamlining the selection of four specific T2-FLAIR slices that encompass white matter landmarks along the cholinergic pathways. Clinicians can leverage this tool to assess the risk of clinical dementia development efficiently.
翻訳日:2023-11-10 14:37:14 公開日:2023-11-09
# ランダム化試験における組立とメタラーニングによる外乱検出は改善されるか?

Do Ensembling and Meta-Learning Improve Outlier Detection in Randomized Controlled Trials? ( http://arxiv.org/abs/2311.05473v1 )

ライセンス: Link先を確認
Walter Nelson, Jonathan Ranisau, Jeremy Petch(参考訳) 現代のmcrcts(multi-centre randomized controlled trials)は膨大な量の表データを集め、人間が不規則さを集中的に監視する。 まず,44カ国77,001人を対象に,実世界の7つのMCRCTから得られた838データセットの異常データを識別するタスクに対して,現代の機械学習に基づく異常検出アルゴリズムを実証的に評価した。 以上の結果から,他の領域のデータに対する異常検出文献の先行研究から重要な知見が得られた。 既存のアルゴリズムは、監視なしで不規則を識別するのに成功し、少なくとも1つのアルゴリズムが70.6%の正の成績を示している。 しかし、データセット間のパフォーマンスは、一貫したアルゴリズムが一貫して機能せず、教師なしモデル選択や他の複数の候補モデルからの潜在的不一致予測を集約する新しい手法を動機付けている。 本研究では,複数の教師なしモデルの予測を集約する単純なアルゴリズムであるmeta-learned probabilistic ensemble (mepe)を提案する。 メタラーニングは約束を示しているが、小さなアンサンブルは平均してすべての形態のメタラーニングを上回っている。

Modern multi-centre randomized controlled trials (MCRCTs) collect massive amounts of tabular data, and are monitored intensively for irregularities by humans. We began by empirically evaluating 6 modern machine learning-based outlier detection algorithms on the task of identifying irregular data in 838 datasets from 7 real-world MCRCTs with a total of 77,001 patients from over 44 countries. Our results reinforce key findings from prior work in the outlier detection literature on data from other domains. Existing algorithms often succeed at identifying irregularities without any supervision, with at least one algorithm exhibiting positive performance 70.6% of the time. However, performance across datasets varies substantially with no single algorithm performing consistently well, motivating new techniques for unsupervised model selection or other means of aggregating potentially discordant predictions from multiple candidate models. We propose the Meta-learned Probabilistic Ensemble (MePE), a simple algorithm for aggregating the predictions of multiple unsupervised models, and show that it performs favourably compared to recent meta-learning approaches for outlier detection model selection. While meta-learning shows promise, small ensembles outperform all forms of meta-learning on average, a negative result that may guide the application of current outlier detection approaches in healthcare and other real-world domains.
翻訳日:2023-11-10 14:36:50 公開日:2023-11-09
# 情報ボトルネック原理によるテキスト表現蒸留

Text Representation Distillation via Information Bottleneck Principle ( http://arxiv.org/abs/2311.05472v1 )

ライセンス: Link先を確認
Yanzhao Zhang, Dingkun Long, Zehan Li, Pengjun Xie(参考訳) プレトレーニング言語モデル(PLM)は、最近テキスト表現分野で大きな成功を収めている。 しかし、計算コストが高く、plmの高次元表現は実用上重要な課題となる。 モデルをより使いやすくするために、大きなモデルをより小さな表現モデルに蒸留する方法が効果的である。 蒸留後の性能劣化の問題を解消するために, IBKDと呼ばれる新しい知識蒸留法を提案する。 この手法はインフォメーション・ボトルネックの原則に動機付けられ,教師と学生モデルの最終表現間の相互情報を最大化しつつ,学生モデルと入力データとの相互情報を同時に低減することを目的としている。 これにより、学生モデルが不要な情報を避けながら重要な学習情報を保存でき、過剰フィッティングのリスクを低減できる。 テキスト表現の2つの主な下流への応用に関する実証的研究(semantic textual similarity and dense retrieval tasks)は,提案手法の有効性を示している。

Pre-trained language models (PLMs) have recently shown great success in text representation field. However, the high computational cost and high-dimensional representation of PLMs pose significant challenges for practical applications. To make models more accessible, an effective method is to distill large models into smaller representation models. In order to relieve the issue of performance degradation after distillation, we propose a novel Knowledge Distillation method called IBKD. This approach is motivated by the Information Bottleneck principle and aims to maximize the mutual information between the final representation of the teacher and student model, while simultaneously reducing the mutual information between the student model's representation and the input data. This enables the student model to preserve important learned information while avoiding unnecessary information, thus reducing the risk of over-fitting. Empirical studies on two main downstream applications of text representation (Semantic Textual Similarity and Dense Retrieval tasks) demonstrate the effectiveness of our proposed approach.
翻訳日:2023-11-10 14:36:27 公開日:2023-11-09
# 終端から終端への文法的誤り訂正に向けて

Towards End-to-End Spoken Grammatical Error Correction ( http://arxiv.org/abs/2311.05550v1 )

ライセンス: Link先を確認
Stefano Bann\`o, Rao Ma, Mengjie Qian, Kate M. Knill, Mark J.F. Gales(参考訳) 文法的なフィードバックはL2学習者、教師、テスターにとって不可欠です。 Spoken grammatical error correct (GEC) は,L2学習者に対して発話時の文法使用時のフィードバックの提供を目的としている。 このプロセスは通常、ASRシステム、拡散除去、GECで構成されるカスケードパイプラインに依存しており、これら個々のモジュール間のエラーの伝播に関する懸念がある。 本稿では,音声認識基盤モデルであるWhisperを利用して,音声GECに対する「エンドツーエンド」アプローチを提案する。 このファンデーションモデルは、フレームワーク全体またはその一部を置き換えるために、例えば、ASRとディスフルエンシ除去に使用することができる。 これらのエンドツーエンドのアプローチは、無料の言語アセスメントテストであるlinguaskillから得られたデータに対して、より標準的なカスケードされたアプローチと比較される。 このアーキテクチャでは,エンド・ツー・エンドのGECが実現可能であるが,利用可能なデータ不足は,大量のテキストベースのGECデータを用いたシステムと比較して,現在の性能を制限している。 逆に、注意に基づくささやき声が学習しやすいエンドツーエンドのディフルエンシー検出と削除は、カスケードアプローチよりも優れています。 さらに,音声GECのエンドツーエンドシステムにおいて,候補に対してフィードバックを提供することの課題についても論じる。

Grammatical feedback is crucial for L2 learners, teachers, and testers. Spoken grammatical error correction (GEC) aims to supply feedback to L2 learners on their use of grammar when speaking. This process usually relies on a cascaded pipeline comprising an ASR system, disfluency removal, and GEC, with the associated concern of propagating errors between these individual modules. In this paper, we introduce an alternative "end-to-end" approach to spoken GEC, exploiting a speech recognition foundation model, Whisper. This foundation model can be used to replace the whole framework or part of it, e.g., ASR and disfluency removal. These end-to-end approaches are compared to more standard cascaded approaches on the data obtained from a free-speaking spoken language assessment test, Linguaskill. Results demonstrate that end-to-end spoken GEC is possible within this architecture, but the lack of available data limits current performance compared to a system using large quantities of text-based GEC data. Conversely, end-to-end disfluency detection and removal, which is easier for the attention-based Whisper to learn, does outperform cascaded approaches. Additionally, the paper discusses the challenges of providing feedback to candidates when using end-to-end systems for spoken GEC.
翻訳日:2023-11-10 14:29:04 公開日:2023-11-09
# L-WaveBlock: 生成対向ネットワークのためのウェーブレットを活用する新機能

L-WaveBlock: A Novel Feature Extractor Leveraging Wavelets for Generative Adversarial Networks ( http://arxiv.org/abs/2311.05548v1 )

ライセンス: Link先を確認
Mirat Shah, Vansh Jain, Anmol Chokshi, Guruprasad Parasnis, Pramod Bide(参考訳) generative adversarial networks (gans) はディープラーニングの分野で注目を集め、ランダムノイズから現実的なデータを生成するのが容易になっている。 GANの有効性は、しばしばそのアーキテクチャの重要な側面である特徴抽出の品質に依存する。 本稿では,離散ウェーブレット変換(DWT)と深層学習手法を併用した,新規で堅牢な特徴抽出器L-WaveBlockを紹介する。 L-WaveBlockは、GANジェネレータの収束を迅速にし、同時に性能を向上する。 本稿は、道路衛星画像データセット、CelebAデータセット、GoProデータセットの3つのデータセットにまたがるL-WaveBlockの顕著な有用性を示し、特徴抽出を容易化し、より効率的にする能力を示している。 dwtを利用することで、l-waveblockは構造的詳細とテクスト的詳細の両方の複雑な詳細を効率的に捉え、機能マップを複数のスケールにまたがる直交サブバンドに分割し、同時に必須情報を保持する。 L-WaveBlockを利用することで、より早く収束するだけでなく、すべてのデータセットに有能な結果を与える。 提案手法は,マップデータセットにおけるインセプションスコア 3.6959 と構造類似度 index 0.4261 ,ピーク信号対雑音比 29.05 と celeba データセット上の構造類似度 index 0.874 を実現する。 提案手法は,従来の手法よりも高速に収束するが,画像デノイジングデータセットに対して有能な処理を行う。 これにより、l-waveblockはganベースの画像生成を強化するための堅牢で効率的なツールとして出現し、画像解像度、画像生成、画像デニュージングのための複数のデータセットで優れた収束速度と競合性能を示す。

Generative Adversarial Networks (GANs) have risen to prominence in the field of deep learning, facilitating the generation of realistic data from random noise. The effectiveness of GANs often depends on the quality of feature extraction, a critical aspect of their architecture. This paper introduces L-WaveBlock, a novel and robust feature extractor that leverages the capabilities of the Discrete Wavelet Transform (DWT) with deep learning methodologies. L-WaveBlock is catered to quicken the convergence of GAN generators while simultaneously enhancing their performance. The paper demonstrates the remarkable utility of L-WaveBlock across three datasets, a road satellite imagery dataset, the CelebA dataset and the GoPro dataset, showcasing its ability to ease feature extraction and make it more efficient. By utilizing DWT, L-WaveBlock efficiently captures the intricate details of both structural and textural details, and further partitions feature maps into orthogonal subbands across multiple scales while preserving essential information at the same time. Not only does it lead to faster convergence, but also gives competent results on every dataset by employing the L-WaveBlock. The proposed method achieves an Inception Score of 3.6959 and a Structural Similarity Index of 0.4261 on the maps dataset, a Peak Signal-to-Noise Ratio of 29.05 and a Structural Similarity Index of 0.874 on the CelebA dataset. The proposed method performs competently to the state-of-the-art for the image denoising dataset, albeit not better, but still leads to faster convergence than conventional methods. With this, L-WaveBlock emerges as a robust and efficient tool for enhancing GAN-based image generation, demonstrating superior convergence speed and competitive performance across multiple datasets for image resolution, image generation and image denoising.
翻訳日:2023-11-10 14:28:43 公開日:2023-11-09
# 進化最適化を用いたマルチエージェント量子強化学習

Multi-Agent Quantum Reinforcement Learning using Evolutionary Optimization ( http://arxiv.org/abs/2311.05546v1 )

ライセンス: Link先を確認
Michael K\"olle, Felix Topp, Thomy Phan, Philipp Altmann, Jonas N\"u{\ss}lein, Claudia Linnhoff-Popien(参考訳) 自動運転やその他のスマート産業アプリケーションにおいて、マルチエージェント強化学習はますます重要になりつつある。 同時に、強化学習に対する有望な新しいアプローチは、量子力学の固有の性質を使い、モデルのトレーニング可能なパラメータを著しく削減する。 しかし、勾配に基づくマルチエージェント量子強化学習法はしばしば不毛高原に苦しむことがあり、古典的アプローチのパフォーマンスと一致しない。 グラデーションフリー量子強化学習のための既存のアプローチを構築し,進化最適化を用いたマルチエージェント強化学習のための変分量子回路を用いた木アプローチを提案する。 コインゲーム環境でのアプローチを評価し,古典的アプローチと比較する。 その結果,同量の学習可能なパラメータを持つニューラルネットワークと比較して,変動量子回路アプローチが有意に優れていることがわかった。 より大きなニューラルネットワークと比較すると、同様の結果を97.88\%より少ないパラメータでアーカイブする手法がある。

Multi-Agent Reinforcement Learning is becoming increasingly more important in times of autonomous driving and other smart industrial applications. Simultaneously a promising new approach to Reinforcement Learning arises using the inherent properties of quantum mechanics, reducing the trainable parameters of a model significantly. However, gradient-based Multi-Agent Quantum Reinforcement Learning methods often have to struggle with barren plateaus, holding them back from matching the performance of classical approaches. We build upon a existing approach for gradient free Quantum Reinforcement Learning and propose tree approaches with Variational Quantum Circuits for Multi-Agent Reinforcement Learning using evolutionary optimization. We evaluate our approach in the Coin Game environment and compare them to classical approaches. We showed that our Variational Quantum Circuit approaches perform significantly better compared to a neural network with a similar amount of trainable parameters. Compared to the larger neural network, our approaches archive similar results using $97.88\%$ less parameters.
翻訳日:2023-11-10 14:28:06 公開日:2023-11-09
# regevのファクタリングアルゴリズムを拡張して離散対数を計算する

Extending Regev's factoring algorithm to compute discrete logarithms ( http://arxiv.org/abs/2311.05545v1 )

ライセンス: Link先を確認
Martin Eker{\aa} and Joel G\"artner(参考訳) Regevは最近、Shorのファクタリングアルゴリズムの$d$次元のバリエーションとして認識される量子ファクタリングアルゴリズムを導入した。 本研究では,レゲフの因子分解アルゴリズムを,離散対数を自然に計算するアルゴリズムに拡張する。 さらに, regev の因子分解アルゴリズムの自然拡張について検討し, 順序探索による完全因果化について考察した。

Regev recently introduced a quantum factoring algorithm that may be perceived as a $d$-dimensional variation of Shor's factoring algorithm. In this work, we extend Regev's factoring algorithm to an algorithm for computing discrete logarithms in a natural way. Furthermore, we discuss natural extensions of Regev's factoring algorithm to order finding, and to factoring completely via order finding.
翻訳日:2023-11-10 14:27:54 公開日:2023-11-09
# 圧縮量子回路を用いた断熱量子コンピューティングに向けて

Towards adiabatic quantum computing using compressed quantum circuits ( http://arxiv.org/abs/2311.05544v1 )

ライセンス: Link先を確認
Conor Mc Keever, Michael Lubasch(参考訳) 本稿では,量子回路を最適化するテンソルネットワークアルゴリズムについて述べる。 ダイアバティック遷移を抑制するために, 逆ダイアバティック駆動を最適化に含め, 変分行列積作用素を用いて断熱ゲージポテンシャルを表現する。 伝統的に、トロッター積公式は断熱時間進化を量子回路に変換するために用いられ、反断熱駆動の追加は時間ステップ当たりの回路深さを増加させる。 代わりに、固定深さのパラメータ化量子回路を古典的に最適化し、多くの時間ステップで反断熱駆動とともに断熱時間進化を同時に捉える。 これらの方法は、横方向および長手方向の場の量子イジング鎖の基底状態の準備にN = 7$ - 311$で適用される。 古典的に最適化された回路は、トロッター積公式を著しく上回ることを示す。 さらに,この手法が組合せ最適化にどのように利用できるかについて議論する。

We describe tensor network algorithms to optimize quantum circuits for adiabatic quantum computing. To suppress diabatic transitions, we include counterdiabatic driving in the optimization and utilize variational matrix product operators to represent adiabatic gauge potentials. Traditionally, Trotter product formulas are used to turn adiabatic time evolution into quantum circuits and the addition of counterdiabatic driving increases the circuit depth per time step. Instead, we classically optimize a parameterized quantum circuit of fixed depth to simultaneously capture adiabatic time evolution together with counterdiabatic driving over many time steps. The methods are applied to the ground state preparation of quantum Ising chains of sizes $N = 7$ - $31$ with transverse and longitudinal fields. We show that the classically optimized circuits can significantly outperform Trotter product formulas. Furthermore, we discuss how the approach can be used for combinatorial optimization.
翻訳日:2023-11-10 14:27:47 公開日:2023-11-09
# 極低温電子トモグラフィにおけるくさび形成と欠損同時再建のための深部学習法

A Deep Learning Method for Simultaneous Denoising and Missing Wedge Reconstruction in Cryogenic Electron Tomography ( http://arxiv.org/abs/2311.05539v1 )

ライセンス: Link先を確認
Simon Wiedemann and Reinhard Heckel(参考訳) 低温電子トモグラフィー(Cryo-ET)は、ウイルス、細胞、タンパク質などの生物学的試料を3Dでイメージングする技術である。 顕微鏡はサンプルの一連の2Dプロジェクションを収集し、その目標は、トモグラフィーと呼ばれるサンプルの3D密度を再構築することである。 2dプロジェクションは情報が不足しており、ノイズが多いため、これは難しい。 バックプロジェクションフィルタなどの従来の手法で再構成された断層図はノイズや、情報の欠落によるアーティファクトや異方性の解決に苦しむ。 このようなトモグラフィの視覚的品質と解像度を改善するために,DeepDeWedge と呼ばれるウェッジ再構築を同時に行う深層学習手法を提案する。 DeepDeWedgeは、ニューラルネットワークを2Dプロジェクションに適合させ、ノイズ2ノイズのような手法にインスパイアされた自己教師付き損失を発生させる。 アルゴリズムはトレーニングや根拠データを必要としない。 合成および実Cryo-ETデータを用いた実験により,DeepDeWedgeは深層学習に基づくDenoisingとWedge再構成の欠如に対して競合性能を発揮することが示された。

Cryogenic electron tomography (cryo-ET) is a technique for imaging biological samples such as viruses, cells, and proteins in 3D. A microscope collects a series of 2D projections of the sample, and the goal is to reconstruct the 3D density of the sample called the tomogram. This is difficult as the 2D projections have a missing wedge of information and are noisy. Tomograms reconstructed with conventional methods, such as filtered back-projection, suffer from the noise, and from artifacts and anisotropic resolution due to the missing wedge of information. To improve the visual quality and resolution of such tomograms, we propose a deep-learning approach for simultaneous denoising and missing wedge reconstruction called DeepDeWedge. DeepDeWedge is based on fitting a neural network to the 2D projections with a self-supervised loss inspired by noise2noise-like methods. The algorithm requires no training or ground truth data. Experiments on synthetic and real cryo-ET data show that DeepDeWedge achieves competitive performance for deep learning-based denoising and missing wedge reconstruction of cryo-ET tomograms.
翻訳日:2023-11-10 14:27:33 公開日:2023-11-09
# 埋め込み空間補間はミニバッチを超えて、ペアを超えて、例を超えて

Embedding Space Interpolation Beyond Mini-Batch, Beyond Pairs and Beyond Examples ( http://arxiv.org/abs/2311.05538v1 )

ライセンス: Link先を確認
Shashanka Venkataramanan, Ewa Kijak, Laurent Amsaleg, Yannis Avrithis(参考訳) Mixupは補間に基づくデータ拡張を指し、元々は経験的リスク最小化(ERM)を超える方法として動機付けられた。 その拡張は主に補間の定義とそれが起こる空間(入力または特徴)に焦点を当てているが、拡張プロセス自体はあまり研究されていない。 ほとんどの方法では、生成されたサンプルの数はミニバッチサイズに制限され、補間されるサンプルの数は入力空間内の2つ(ペア)に制限される。 我々は,ミニバッチサイズを超える多数の補間例を任意に生成し,組込み空間におけるミニバッチ全体を補間するMultiMixを導入することにより,この方向に進展する。 実例のペア間の線形セグメントに沿ってではなく,ミニバッチの凸殻全体をサンプリングする。 シーケンスデータでは、さらにDense MultiMixに拡張する。 我々は,各空間における特徴と対象ラベルを密に補間し,損失を密に適用する。 密度ラベルの欠如を軽減するため,信頼度尺度として,実例と重み補間係数のラベルを注意して継承する。 全体として、ミニバッチ当たりの損失項の数を桁違いに増やし、追加コストも少ない。 これは埋め込み空間における補間によってのみ可能となる。 補間は線形であるにもかかわらず、4つの異なるベンチマークにおいて、我々の解が最先端の混合法よりも大幅に改善されることを実証的に示す。 埋め込み空間を解析することにより, クラスがより密集し, 組込み空間に均一に分散していることを示し, 改良された振る舞いを説明する。

Mixup refers to interpolation-based data augmentation, originally motivated as a way to go beyond empirical risk minimization (ERM). Its extensions mostly focus on the definition of interpolation and the space (input or feature) where it takes place, while the augmentation process itself is less studied. In most methods, the number of generated examples is limited to the mini-batch size and the number of examples being interpolated is limited to two (pairs), in the input space. We make progress in this direction by introducing MultiMix, which generates an arbitrarily large number of interpolated examples beyond the mini-batch size and interpolates the entire mini-batch in the embedding space. Effectively, we sample on the entire convex hull of the mini-batch rather than along linear segments between pairs of examples. On sequence data, we further extend to Dense MultiMix. We densely interpolate features and target labels at each spatial location and also apply the loss densely. To mitigate the lack of dense labels, we inherit labels from examples and weight interpolation factors by attention as a measure of confidence. Overall, we increase the number of loss terms per mini-batch by orders of magnitude at little additional cost. This is only possible because of interpolating in the embedding space. We empirically show that our solutions yield significant improvement over state-of-the-art mixup methods on four different benchmarks, despite interpolation being only linear. By analyzing the embedding space, we show that the classes are more tightly clustered and uniformly spread over the embedding space, thereby explaining the improved behavior.
翻訳日:2023-11-10 14:27:13 公開日:2023-11-09
# quditベースの量子コンピュータにおける金融オプション価格の紹介

An introduction to financial option pricing on a qudit-based quantum computer ( http://arxiv.org/abs/2311.05537v1 )

ライセンス: Link先を確認
Nicholas Bornman(参考訳) 金融セクターは、ポートフォリオ最適化や金融デリバティブ価格へのリスク管理といった分野において、量子コンピュータの計算能力の増大から恩恵を受ける最初の産業の1つと期待されている。 金融数学、特にデリバティブ・プライス(英語版)は、量子物理学者が伝統的にそのようなトピックを理解するのに必要な生の技術を持っているにもかかわらず、訓練されている分野ではない。 一方、ほとんどの量子アルゴリズムは、情報キャリアとして2つの独立した状態からなる量子ビットに主に焦点を当てている。 しかし、離散的な高次元quditは、ノイズのロバスト性が増大し、特定のハードウェア実装で新しい誤り訂正プロトコルを可能にすることに加えて、対数的に情報ストレージと処理能力も向上している。 量子コンピューティングの現在のNISQ時代には、幅広いハードウェアパラダイムが研究され続けており、プラットフォームが提供する潜在的な利点は検討する価値がある。 ここでは金融デリバティブの背景にある基本的な概念を紹介するとともに、最も単純なデリバティブである欧州オプションの価格設定に必要な量子アルゴリズムルーチンを詳細に概説する。 これはキュービットからなる量子コンピュータのコンテキスト内で行われ、様々なサブルーチンを持つキュービットベースの価格アルゴリズムの自然な高次元のアナログを用いる。 これらの要素から、より複雑で現実的な金融デリバティブに比較的容易に調整できるべきである。 最後に、スタック全体を数値的にシミュレートし、quditベースのスキームのペイオフが、qudit次元のわずかな増加のためにエラー内で、同様の再ソースされたクラシックコンピュータと真のペイオフの両方に素早くアプローチする方法を示す。

The financial sector is anticipated to be one of the first industries to benefit from the increased computational power of quantum computers, in areas such as portfolio optimisation and risk management to financial derivative pricing. Financial mathematics, and derivative pricing in particular, are not areas quantum physicists are traditionally trained in despite the fact that they often have the raw technical skills needed to understand such topics. On the other hand, most quantum algorithms have largely focused on qubits, which are comprised of two discrete states, as the information carriers. However, discrete higher-dimensional qudits, in addition to possibly possessing increased noise robustness and allowing for novel error correction protocols in certain hardware implementations, also have logarithmically greater information storage and processing capacity. In the current NISQ era of quantum computing, a wide array of hardware paradigms are still being studied and any potential advantage a platform offers is worth exploring. Here we introduce the basic concepts behind financial derivatives for the unfamiliar enthusiast as well as outline in great detail the quantum algorithm routines needed to price a European option, the simplest derivative. This is done within the context of a quantum computer comprised of qudits and employing the natural higher-dimensional analogue of a qubit-based pricing algorithm with its various subroutines. From these pieces, one should relatively easily be able to tailor the scheme to more complex, realistic financial derivatives. Finally, the entire stack is numerically simulated with the results demonstrating how the qudit-based scheme's payoff quickly approaches that of both a similarly-resourced classical computer as well as the true payoff, within error, for a modest increase in qudit dimension.
翻訳日:2023-11-10 14:26:48 公開日:2023-11-09
# 高マルチモーダル光マッター系における量子揺らぎの理解と制御のためのab initioフレームワーク

An ab initio framework for understanding and controlling quantum fluctuations in highly multimoded light-matter systems ( http://arxiv.org/abs/2311.05535v1 )

ライセンス: Link先を確認
Shiekh Zia Uddin, Nicholas Rivera, Devin Seyler, Yannick Salamin, Jamison Sloan, Charles Roques-Carmes, Shutao Xu, Michelle Sander, and Marin Soljacic(参考訳) 量子力学は物理量にゆらぎを課し、古典世界にないノイズの原因となる。 光の場合、量子揺らぎは高感度、解像度、帯域幅を必要とする多くのアプリケーションを制限する。 多くの場合、量子揺らぎを改ざんするには、光と物質の両方の自由度を持つ高度にマルチモードなシステムを扱う必要がある。 本研究では,光・物質多モード系における量子ノイズを記述するための新しい理論的枠組みを,量子感度解析により導入し,実験的に検証する。 この枠組みは量子ノイズ伝搬の新しい一般的な規則と機構を導き、非線形光学における既知の全ての量子ノイズ現象を正確にモデル化する。 超高速マルチモードシステムの量子ノイズ力学における理論の未解明側面をテストする実験を開発した。 例えば、超連続生成に関する物理的効果では、真空変動の強い非線形増幅により個々の波長が非常にノイズが大きいにもかかわらず、超低雑音対の波長の拡散を観察し、説明する。 次に、量子ノイズのスペクトル力学を利用して、非線形性やラマン散乱の真空変動のスペクトル力学を利用して、非常にノイズの多い複雑な光状態であっても、圧縮状態のような量子光状態を生成することができることを示す。 このような効果は、量子メートルロジーに使える光源の範囲を広く広げ、より高いパワーとより複雑なソースに量子光学をもたらすことができる。 私たちが開発したフレームワークは、量子力学によって設定された究極の限界にパフォーマンスが近づく電磁スペクトル全体にわたる光源を実現するための、多くの新しいアプローチを可能にします。

Quantum mechanics imposes fluctuations onto physical quantities, leading to sources of noise absent in the classical world. For light, quantum fluctuations limit many applications requiring high sensitivities, resolutions, or bandwidths. In many cases, taming quantum fluctuations requires dealing with highly multimode systems with both light and matter degrees of freedom - a regime which has traditionally eluded mechanistic insights, and for which general rules are largely lacking. In this work, we introduce and experimentally test a new theoretical framework for describing quantum noise in multimode systems of light and matter, called quantum sensitivity analysis. The framework leads to new general rules and mechanisms for quantum noise propagation - and accurately models all known quantum noise phenomena in nonlinear optics. We develop experiments to test unexplored aspects of our theory in the quantum noise dynamics of ultrafast multimode systems. For example, in physical effects related to supercontinuum generation, we observe and account for a proliferation of ultra low-noise pairs of wavelengths, despite that individual wavelengths are very noisy due to strong nonlinear amplification of vacuum fluctuations. We then show that by taking advantage of the spectral dynamics of quantum noise, it is possible to generate quantum light states, such as squeezed states, even with very noisy and complex light states - by exploiting the spectral dynamics of vacuum fluctuations undergoing nonlinearity and Raman scattering. Effects like these can widely extend the range of sources that can be used for quantum metrology, bringing quantum optics to higher powers and more complex sources. Broadly, the framework we developed will enable many new approaches for realizing light sources across the entire electromagnetic spectrum whose performance approaches ultimate limits set by quantum mechanics.
翻訳日:2023-11-10 14:26:16 公開日:2023-11-09
# 量子データからの学習のための情報理論一般化境界

Information-theoretic generalization bounds for learning from quantum data ( http://arxiv.org/abs/2311.05529v1 )

ライセンス: Link先を確認
Matthias Caro, Tom Gur, Cambyse Rouz\'e, Daniel Stilck Fran\c{c}a, Sathyawageeswar Subramanian(参考訳) 学習タスクは、量子情報と計算においてますます顕著な役割を果たす。 これらは、おそらくほぼ正しい(PAC)学習の枠組みに関する状態判別や気象学といった基本的な問題から、最近提案された状態トモグラフィーの影変種まで幅広い。 しかし、量子学習理論の多くの方向は、これまで別々に進化してきた。 古典量子データに基づく学習により量子学習を記述するための一般的な数学的フォーマリズムを提案し、学習された仮説がいかに新しいデータに一般化するかをテストする。 本稿では,古典的および量子的情報理論量の観点から,量子学習者の期待する一般化誤差に,学習者の仮説が学習中に見る特定のデータに依存するかを測定する。 これを実現するために、量子最適輸送と量子濃度の不等式からのツールを用いて、古典的機械学習の最近の情報理論の一般化境界を満たす非可換なデカップリング補題を確立する。 このフレームワークは、量子状態識別、pac学習量子状態、量子パラメータ推定、量子pac学習古典関数など、様々な量子学習シナリオに対して直感的にアクセス可能な一般化境界を提供する。 これにより、量子学習に関する量子情報理論的な視点を統一するための基礎を築いた。

Learning tasks play an increasingly prominent role in quantum information and computation. They range from fundamental problems such as state discrimination and metrology over the framework of quantum probably approximately correct (PAC) learning, to the recently proposed shadow variants of state tomography. However, the many directions of quantum learning theory have so far evolved separately. We propose a general mathematical formalism for describing quantum learning by training on classical-quantum data and then testing how well the learned hypothesis generalizes to new data. In this framework, we prove bounds on the expected generalization error of a quantum learner in terms of classical and quantum information-theoretic quantities measuring how strongly the learner's hypothesis depends on the specific data seen during training. To achieve this, we use tools from quantum optimal transport and quantum concentration inequalities to establish non-commutative versions of decoupling lemmas that underlie recent information-theoretic generalization bounds for classical machine learning. Our framework encompasses and gives intuitively accessible generalization bounds for a variety of quantum learning scenarios such as quantum state discrimination, PAC learning quantum states, quantum parameter estimation, and quantumly PAC learning classical functions. Thereby, our work lays a foundation for a unifying quantum information-theoretic perspective on quantum learning.
翻訳日:2023-11-10 14:25:47 公開日:2023-11-09
# SeaTurtleID2022: 信頼できるウミガメ再同定のための長期データセット

SeaTurtleID2022: A long-span dataset for reliable sea turtle re-identification ( http://arxiv.org/abs/2311.05524v1 )

ライセンス: Link先を確認
Luk\'a\v{s} Adam, Vojt\v{e}ch \v{C}erm\'ak, Kostas Papafitsoros, Luk\'a\v{s} Picek(参考訳) 本稿では,野生で撮影されたシータートルID2022(https://www.kaggle.com/datasets/wildlifedatasets/seaturtleid2022)を用いた,最初の大規模・長期データセットを紹介する。 このデータセットには、13年以内に収集された438個体の8729枚の写真が含まれており、動物の再同定のための最長のデータセットとなっている。 すべての写真には、アイデンティティ、出会いのタイムスタンプ、ボディパーツのセグメンテーションマスクなど、様々なアノテーションが含まれている。 標準的な「ランダム」分割の代わりに、データセットは2つの現実的で生態学的に動機づけられた分割を可能にします。 (i)異なる日/年のトレーニング、検証、テストデータを含む時間対応クローズドセット (ii)テストおよび検証セットにおいて、新しい未知の個人とタイムアウェアのオープンセット。 乱数分割が性能過大評価につながるため、再同定手法のベンチマークには時間認識分割が不可欠であることを示す。 さらに、各種本体部に対するベースラインインスタンスセグメンテーション及び再識別性能を提供する。 最後に, カメ再同定のためのエンドツーエンドシステムを提案し, 評価を行った。 ヘッドインスタンスセグメンテーションのためのHybrid Task Cascadeに基づくシステムとArcFaceで訓練した特徴抽出器は86.8%の精度を実現した。

This paper introduces the first public large-scale, long-span dataset with sea turtle photographs captured in the wild -- SeaTurtleID2022 (https://www.kaggle.com/datasets/wildlifedatasets/seaturtleid2022). The dataset contains 8729 photographs of 438 unique individuals collected within 13 years, making it the longest-spanned dataset for animal re-identification. All photographs include various annotations, e.g., identity, encounter timestamp, and body parts segmentation masks. Instead of standard "random" splits, the dataset allows for two realistic and ecologically motivated splits: (i) a time-aware closed-set with training, validation, and test data from different days/years, and (ii) a time-aware open-set with new unknown individuals in test and validation sets. We show that time-aware splits are essential for benchmarking re-identification methods, as random splits lead to performance overestimation. Furthermore, a baseline instance segmentation and re-identification performance over various body parts is provided. Finally, an end-to-end system for sea turtle re-identification is proposed and evaluated. The proposed system based on Hybrid Task Cascade for head instance segmentation and ArcFace-trained feature-extractor achieved an accuracy of 86.8%.
翻訳日:2023-11-10 14:25:25 公開日:2023-11-09
# 原子トロンジョセフソン接合ネックレスにおける持続電流の安定化

Stabilizing persistent currents in an atomtronic Josephson junction necklace ( http://arxiv.org/abs/2311.05523v1 )

ライセンス: Link先を確認
Luca Pezz\`e, Klejdja Xhani, Cyprien Daix, Nicola Grani, Beatrice Donelli, Francesco Scazza, Diego Hernandez-Rajkov, Woo Jin Kwon, Giulia Del Pace, and Giacomo Roati(参考訳) ジョセフソン接合の配列は量子コンピューティング、シミュレーション、メトロジーのための量子回路の研究の最前線にある。 マクロな位相コヒーレンス、非線形性、散逸機構が競合する様々な基本的な物理的効果を探索するためのテストベッドを提供する。 ここでは、リング状超流動におけるトンネルリンクの調整可能な配列からなる原子線ジョセフソン接合ネックレスの有限循環状態を実現する。 循環と接合数の両方を調整し,原子流の安定性図について検討する。 理論的および実験的に、原子回路はジョセフソンリンクの数を増やすことにより、より高い循環に耐える(臨界電流に対応する)ことを予測し、実証した。 安定度の増加は、レジットの基準によって定量化される超流動分数(英語版)の傾向とは対照的であり、その代わりに接合数と対応する密度の枯渇によって減少する。 本研究では, メソスコピック構造リングポテンシャルにおける原子超流動を原子トロニクス応用の優れた候補として示し, 非自明な超高次状態の観察をめざす。

Arrays of Josephson junctions are at the forefront of research on quantum circuitry for quantum computing, simulation and metrology. They provide a testing bed for exploring a variety of fundamental physical effects where macroscopic phase coherence, nonlinearities and dissipative mechanisms compete. Here we realize finite-circulation states in an atomtronic Josephson junction necklace, consisting of a tunable array of tunneling links in a ring-shaped superfluid. We study the stability diagram of the atomic flow by tuning both the circulation and the number of junctions. We predict theoretically and demonstrate experimentally that the atomic circuit withstands higher circulations (corresponding to higher critical currents) by increasing the number of Josephson links. The increased stability contrasts with the trend of the superfluid fraction -- quantified by Leggett's criterion -- which instead decreases with the number of junctions and the corresponding density depletion. Our results demonstrate atomic superfluids in mesoscopic structured ring potentials as excellent candidates for atomtronics applications, with prospects towards the observation of non-trivial macroscopic superpositions of current states.
翻訳日:2023-11-10 14:25:06 公開日:2023-11-09
# BakedAvatar: リアルタイムアバター合成のためのバッキングニューラルネットワーク

BakedAvatar: Baking Neural Fields for Real-Time Head Avatar Synthesis ( http://arxiv.org/abs/2311.05521v1 )

ライセンス: Link先を確認
Hao-Bin Duan, Miao Wang, Jin-Chuan Shi, Xu-Chuan Chen and Yan-Pei Cao(参考訳) ビデオからフォトリアリスティックな4D人間の頭アバターを合成することは、VR/AR、テレプレゼンス、ビデオゲームアプリケーションに不可欠である。 既存のNeural Radiance Fields(NeRF)ベースの手法は高忠実性を実現するが、計算コストはリアルタイムアプリケーションでの使用を制限する。 この限界を克服するため,我々は,標準ポリゴンラスタライズパイプラインに展開可能な,リアルタイムニューラルネットワークヘッドアバター合成のための新しい表現であるbakedavatarを紹介する。 提案手法は, 学習した頭部の異面から変形可能な多層メッシュを抽出し, 静的なテクスチャに埋め込んだ表現-, ポーズ-, ビュー依存の外観を計算し, 効率的なラスタライズを行う。 そこで我々は, 連続的な変形, 多様体, 放射界の学習, 層状メッシュとテクスチャの抽出, ディファレンシャルラスタ化を伴う微調整テクスチャ詳細を含む, ニューラルヘッドアバター合成のための3段階パイプラインを提案する。 実験結果から,本表現は他の最先端手法と同等の品質の合成結果を生成するとともに,推定時間を大幅に削減できることを示した。 さらに,視覚合成,顔再現,表情編集,ポーズ編集など単眼映像からの頭部アバター合成結果をインタラクティブフレームレートで紹介する。

Synthesizing photorealistic 4D human head avatars from videos is essential for VR/AR, telepresence, and video game applications. Although existing Neural Radiance Fields (NeRF)-based methods achieve high-fidelity results, the computational expense limits their use in real-time applications. To overcome this limitation, we introduce BakedAvatar, a novel representation for real-time neural head avatar synthesis, deployable in a standard polygon rasterization pipeline. Our approach extracts deformable multi-layer meshes from learned isosurfaces of the head and computes expression-, pose-, and view-dependent appearances that can be baked into static textures for efficient rasterization. We thus propose a three-stage pipeline for neural head avatar synthesis, which includes learning continuous deformation, manifold, and radiance fields, extracting layered meshes and textures, and fine-tuning texture details with differential rasterization. Experimental results demonstrate that our representation generates synthesis results of comparable quality to other state-of-the-art methods while significantly reducing the inference time required. We further showcase various head avatar synthesis results from monocular videos, including view synthesis, face reenactment, expression editing, and pose editing, all at interactive frame rates.
翻訳日:2023-11-10 14:24:46 公開日:2023-11-09
# 学習管理システムからAffective Tutoringシステムへ:予備的検討

From Learning Management System to Affective Tutoring system: a preliminary study ( http://arxiv.org/abs/2311.05513v1 )

ライセンス: Link先を確認
Nadaud Edouard, Geoffroy Thibault, Khelifi Tesnim, Yaacoub Antoun, Haidar Siba, Ben Rabah Nourh\`Ene, Aubin Jean Pierre, Prevost Lionel, Le Grand Benedicte(参考訳) 本研究では,パフォーマンス,行動の関与,情緒的関与などの指標を組み合わせることで,困難に陥っている学生を識別する。 th e learning management system (lms) から抽出したデジタルトレースと,学生のwebカメラで撮影した画像について分析した。 デジタル・トレースは学生の教育内容との相互作用に関する洞察を提供し、画像は学習中の感情表現の分析に用いられた。 2022年度に記録されたフランス工学学校の学生から収集した実データを利用して,肯定的な感情状態と学力改善の相関を観察した。 これらの予備的な発見は、高学力と低学力の学生を区別する上で、感情が重要な役割を担っているという考えを裏付けている。

In this study, we investigate the combination of indicators, including performance, behavioral engagement, and emotional engagement, to identify students experiencing difficulties. We analyzed data from two primary sources: digital traces extracted from th e Learning Management System (LMS) and images captured by students' webcams. The digital traces provided insights into students' interactions with the educational content, while the images were utilized to analyze their emotional expressions during learnin g activities. By utilizing real data collected from students at a French engineering school, recorded during the 2022 2023 academic year, we observed a correlation between positive emotional states and improved academic outcomes. These preliminary findings support the notion that emotions play a crucial role in differentiating between high achieving and low achieving students.
翻訳日:2023-11-10 14:24:22 公開日:2023-11-09
# 時間制約強化学習

Anytime-Constrained Reinforcement Learning ( http://arxiv.org/abs/2311.05511v1 )

ライセンス: Link先を確認
Jeremy McMahan, Xiaojin Zhu(参考訳) 制約付きマルコフ決定過程(cMDP)を任意の制約で導入・研究する。 いかなる時でも、エージェントはいかなる時点でも、ほぼ確実にその予算に違反しないよう要求する。 マルコフの政策はもはや不十分であるが、累積コストで拡張された最適な決定論的政策が存在することを示す。 実際、時間制約のcMDPを非制約のMDPに還元する固定パラメータを提示する。 我々の削減は,cMDPの精度が対数的である限り,表型cMDPの時間的およびサンプル効率のよい計画および学習アルゴリズムが得られる。 しかし,非自明な近似的最適方針の計算は一般にnpハードであることが示される。 このボトルネックを回避するため,最大サポートコストがcMDPの多項式あるいは絶対予算で制限される限り,ほぼ実現可能なポリシを最適値で効率的に計算あるいは学習する,証明可能な近似アルゴリズムを設計する。 難易度を考慮すれば,最悪のケース解析では,トラクタビリティの観点から近似保証が最善である。

We introduce and study constrained Markov Decision Processes (cMDPs) with anytime constraints. An anytime constraint requires the agent to never violate its budget at any point in time, almost surely. Although Markovian policies are no longer sufficient, we show that there exist optimal deterministic policies augmented with cumulative costs. In fact, we present a fixed-parameter tractable reduction from anytime-constrained cMDPs to unconstrained MDPs. Our reduction yields planning and learning algorithms that are time and sample-efficient for tabular cMDPs so long as the precision of the costs is logarithmic in the size of the cMDP. However, we also show that computing non-trivial approximately optimal policies is NP-hard in general. To circumvent this bottleneck, we design provable approximation algorithms that efficiently compute or learn an approximately feasible policy with optimal value so long as the maximum supported cost is bounded by a polynomial in the cMDP or by the absolute budget. Given our hardness results, our approximation guarantees are the best possible in terms of tractability under worst-case analysis.
翻訳日:2023-11-10 14:24:07 公開日:2023-11-09
# 多次元データセットを可視化する会話型aiスレッド

Conversational AI Threads for Visualizing Multidimensional Datasets ( http://arxiv.org/abs/2311.05590v1 )

ライセンス: Link先を確認
Matt-Heun Hong, Anamaria Crisan(参考訳) 生成型大言語モデル(llm)は、データ分析の可能性を示していますが、その完全な能力は未解決です。 本研究は,対話インタフェースによる可視化作成と精細化のためのLLMの機能について考察する。 従来のウィザード・オブ・oz実験を再分析するためにllmを用いて,チャットボットを用いた視覚分析を行った。 LLM駆動型分析チャットボットの長所と短所を解析したところ、進行的な可視化改善を支援するには不十分であることが判明した。 これらの結果からai threadsを開発した。これはマルチスレッド分析チャットボットで、アナリストが積極的に会話コンテキストを管理し、そのアウトプットの有効性を向上させることができる。 クラウドソースによる調査(n=40)と専門家アナリストとの詳細なインタビュー(n=10)を通じてユーザビリティを評価する。 さらに、LLMのトレーニングコーパス外のデータセット上でAI Threadsの能力を実証する。 今後の研究の課題と実りある道のりを克服しつつ, LLM の可能性を示す。

Generative Large Language Models (LLMs) show potential in data analysis, yet their full capabilities remain uncharted. Our work explores the capabilities of LLMs for creating and refining visualizations via conversational interfaces. We used an LLM to conduct a re-analysis of a prior Wizard-of-Oz study examining the use of chatbots for conducting visual analysis. We surfaced the strengths and weaknesses of LLM-driven analytic chatbots, finding that they fell short in supporting progressive visualization refinements. From these findings, we developed AI Threads, a multi-threaded analytic chatbot that enables analysts to proactively manage conversational context and improve the efficacy of its outputs. We evaluate its usability through a crowdsourced study (n=40) and in-depth interviews with expert analysts (n=10). We further demonstrate the capabilities of AI Threads on a dataset outside the LLM's training corpus. Our findings show the potential of LLMs while also surfacing challenges and fruitful avenues for future research.
翻訳日:2023-11-10 14:17:59 公開日:2023-11-09
# SVRGを効果的にする係数

A Coefficient Makes SVRG Effective ( http://arxiv.org/abs/2311.05589v1 )

ライセンス: Link先を確認
Yida Yin, Zhiqiu Xu, Zhiyuan Li, Trevor Darrell, Zhuang Liu(参考訳) SVRG(Stochastic Variance Reduced Gradient)は、Johnson & Zhang (2013)によって導入された理論上魅力的な最適化手法である。 しかし、Defazio & Bottou (2019) が強調しているように、ディープラーニングの有効性はまだ証明されていない。 本研究では,実世界のニューラルネットワークを最適化するSVRGの可能性を示す。 分析の結果,より深いネットワークでは,svrgの分散還元期間の強度は,トレーニングが進むにつれて小さくなり,減少することが示唆された。 これに着想を得た乗算係数$\alpha$を導入し, 強度を制御し, 線形減衰スケジュールで調整する。 私たちのメソッドは $\alpha$-SVRG と命名します。 我々の結果によると、$\alpha$-SVRGはニューラルネットワークを最適化し、さまざまなアーキテクチャや画像分類データセットのベースラインと標準SVRGの両方と比較してトレーニング損失を一貫して低減する。 深層学習における分散低減手法のさらなる探求を促すことを期待する。 コードはhttps://github.com/davidyyd/alpha-SVRGで入手できる。

Stochastic Variance Reduced Gradient (SVRG), introduced by Johnson & Zhang (2013), is a theoretically compelling optimization method. However, as Defazio & Bottou (2019) highlights, its effectiveness in deep learning is yet to be proven. In this work, we demonstrate the potential of SVRG in optimizing real-world neural networks. Our analysis finds that, for deeper networks, the strength of the variance reduction term in SVRG should be smaller and decrease as training progresses. Inspired by this, we introduce a multiplicative coefficient $\alpha$ to control the strength and adjust it through a linear decay schedule. We name our method $\alpha$-SVRG. Our results show $\alpha$-SVRG better optimizes neural networks, consistently reducing training loss compared to both baseline and the standard SVRG across various architectures and image classification datasets. We hope our findings encourage further exploration into variance reduction techniques in deep learning. Code is available at https://github.com/davidyyd/alpha-SVRG.
翻訳日:2023-11-10 14:17:42 公開日:2023-11-09
# 形状とファンネル効果を考慮したメディア混合モデリングのためのベイズ法

Bayesian Methods for Media Mix Modelling with shape and funnel effects ( http://arxiv.org/abs/2311.05587v1 )

ライセンス: Link先を確認
Javier Marin(参考訳) 近年、生成AIの大きな進歩は、基礎物理学の原理に基づく高度な数学的概念を応用し、人工知能の能力を高める物理にインスパイアされたモデルの重要な役割を強調している。 これらのモデルの中で、拡散方程式に基づくモデルは画像品質を大幅に改善した。 本研究は, 気体の運動論の基礎となるマクスウェル・ボルツマン方程式と, マーケティング・ミックス・モデリング(MMM)応用におけるミカエル・メンテンモデルの可能性を検討することを目的とする。 本稿では,これらの方程式を階層ベイズモデルに組み込んで,消費者行動の分析を行う。 これらの方程式セットは、社会的相互作用や消費者広告的相互作用のような複雑なシステムのランダムなダイナミクスを正確に記述する上で優れている。

In recent years, significant progress in generative AI has highlighted the important role of physics-inspired models that utilize advanced mathematical concepts based on fundamental physics principles to enhance artificial intelligence capabilities. Among these models, those based on diffusion equations have greatly improved image quality. This study aims to explore the potential uses of Maxwell-Boltzmann equation, which forms the basis of the kinetic theory of gases, and the Michaelis-Menten model in Marketing Mix Modelling (MMM) applications. We propose incorporating these equations into Hierarchical Bayesian models to analyse consumer behaviour in the context of advertising. These equation sets excel in accurately describing the random dynamics in complex systems like social interactions and consumer-advertising interactions.
翻訳日:2023-11-10 14:17:25 公開日:2023-11-09
# 量子多体系の初検出戻り時間における熱力学的相

Thermodynamic phases in first detected return times of quantum many-body systems ( http://arxiv.org/abs/2311.05585v1 )

ライセンス: Link先を確認
Benjamin Walter, Gabriele Perfetto, Andrea Gambassi(参考訳) ストロボスコピック計測による量子多体系の初期状態への最初の戻り時間の確率分布について検討した。 この分布は、量子多体系のLoschmidt振幅によって完全に特徴づけられる非相互作用領域の平衡領域を持つスピン鎖の正準分配関数の連続として解釈できることを示す。 これにより、スピンモデルが強磁性相または常磁性相を示すかどうかによって、この確率が代数的にも指数的にも時間内に減衰することを示すことができる。 このアイデアは、強結合モデルにおける隣接するフェルミオンの戻り時間($N$)の例を例に説明し、豊かな位相挙動を明らかにし、これは、探索時間を$N$でスケーリングすることで調整できる。 解析的な予測は正確な数値計算によって裏付けられる。

We study the probability distribution of the first return time to the initial state of a quantum many-body system subject to stroboscopic projective measurements. We show that this distribution can be interpreted as a continuation of the canonical partition function of a spin chain with non-interacting domains at equilibrium, which is entirely characterised by the Loschmidt amplitude of the quantum many-body system. This allows us to show that this probability may decay either algebraically or exponentially asymptotically in time, depending on whether the spin model displays a ferromagnetic or a paramagnetic phase. We illustrate this idea on the example of the return time of $N$ adjacent fermions in a tight-binding model, revealing a rich phase behaviour, which can be tuned by scaling the probing time with $N$. Our analytical predictions are corroborated by exact numerical computations.
翻訳日:2023-11-10 14:17:11 公開日:2023-11-09
# 仮想会話におけるRLによるゼロショットゴール指向対話

Zero-Shot Goal-Directed Dialogue via RL on Imagined Conversations ( http://arxiv.org/abs/2311.05584v1 )

ライセンス: Link先を確認
Joey Hong and Sergey Levine and Anca Dragan(参考訳) 大規模言語モデル(LLM)は、多くの自然言語タスクに対する強力で一般的な解決策として登場した。 しかしながら、言語生成の最も重要なアプリケーションの多くは対話的であり、エージェントは望ましい結果に達するために相手と話し合わなければならない。 例えば、教師は生徒の現在の理解レベルを理解して、それに応じて指導を調整し、旅行代理店は客の好みを尋ねて、彼らが楽しむかもしれない活動を推奨する。 教師付き微調整や「シングルステップ」のRLで訓練されたLLMは、通常のRLHFと同様に、対話の複数のターン後に全体的な会話結果に最適化するように訓練されていないため、そのような目標指向の振る舞いを必要とするタスクに苦労する可能性がある。 本研究では,そのような目標指向対話に対して,RLでLLMを適応させる新しい手法を提案する。 我々の重要な洞察は、LLMはゴール指向の対話タスクを最初から効果的に解決するわけではないが、準最適だが人間的な振る舞いをシミュレートすることで、そのようなタスクを解くのに有用なデータを提供することができるということである。 目標指向対話タスクのテキスト記述を前提として,LLMを用いて仮説的ドメイン内人間間相互作用の多様な合成ロールアウトをサンプリングする。 このアルゴリズムはこのデータセットをオフラインで強化学習し、対話型会話エージェントを訓練し、複数のターンで目標指向の目標を最適化する。 事実上、LLMは相互作用の可能な例を生成し、RLはこれらの例を処理してより最適な相互作用を実行することを学ぶ。 実験により,提案手法が目標指向の対話タスクにおいて,教示や選好誘発を含む最先端のパフォーマンスを実現することを示す。

Large language models (LLMs) have emerged as powerful and general solutions to many natural language tasks. However, many of the most important applications of language generation are interactive, where an agent has to talk to a person to reach a desired outcome. For example, a teacher might try to understand their student's current comprehension level to tailor their instruction accordingly, and a travel agent might ask questions of their customer to understand their preferences in order to recommend activities they might enjoy. LLMs trained with supervised fine-tuning or "single-step" RL, as with standard RLHF, might struggle which tasks that require such goal-directed behavior, since they are not trained to optimize for overall conversational outcomes after multiple turns of interaction. In this work, we explore a new method for adapting LLMs with RL for such goal-directed dialogue. Our key insight is that, though LLMs might not effectively solve goal-directed dialogue tasks out of the box, they can provide useful data for solving such tasks by simulating suboptimal but human-like behaviors. Given a textual description of a goal-directed dialogue task, we leverage LLMs to sample diverse synthetic rollouts of hypothetical in-domain human-human interactions. Our algorithm then utilizes this dataset with offline reinforcement learning to train an interactive conversational agent that can optimize goal-directed objectives over multiple turns. In effect, the LLM produces examples of possible interactions, and RL then processes these examples to learn to perform more optimal interactions. Empirically, we show that our proposed approach achieves state-of-the-art performance in various goal-directed dialogue tasks that include teaching and preference elicitation.
翻訳日:2023-11-10 14:16:57 公開日:2023-11-09
# 確率依存グラフの推論

Inference for Probabilistic Dependency Graphs ( http://arxiv.org/abs/2311.05580v1 )

ライセンス: Link先を確認
Oliver E. Richardson, Joseph Y. Halpern, and Christopher De Sa(参考訳) 確率依存グラフ (PDGs) は確率的グラフィカルモデルの柔軟なクラスであり、ベイジアンネットワークとファクタグラフを仮定する。 彼らはまた、矛盾した信念を捉え、この矛盾の度合いを測る方法を提供する。 離散変数を持つPDGに対する最初のトラクタブル推論アルゴリズムを提案し、PDG推論の漸近的複雑さを一般化したグラフィカルモデルと同様にする。 主な構成要素は,(1) PDGが指定する分布が凸最適化問題(指数的コーン制約付き)として定式化できること,(2) 有界木幅のPDGに対してこれらの問題をコンパクトに表現できる構成,(3) 構成を正当化するPDGの理論への貢献,(4) 多項式時間でそのような問題を解くインテリアポイント法へのアピールである。 我々のアプローチの正確性と複雑さを検証し、その実装を提供する。 次に、実装を評価し、ベースラインアプローチよりも優れていることを示す。 私たちのコードはhttp://github.com/orichardson/pdg-infer-uaiで利用可能です。

Probabilistic dependency graphs (PDGs) are a flexible class of probabilistic graphical models, subsuming Bayesian Networks and Factor Graphs. They can also capture inconsistent beliefs, and provide a way of measuring the degree of this inconsistency. We present the first tractable inference algorithm for PDGs with discrete variables, making the asymptotic complexity of PDG inference similar that of the graphical models they generalize. The key components are: (1) the observation that, in many cases, the distribution a PDG specifies can be formulated as a convex optimization problem (with exponential cone constraints), (2) a construction that allows us to express these problems compactly for PDGs of boundeed treewidth, (3) contributions to the theory of PDGs that justify the construction, and (4) an appeal to interior point methods that can solve such problems in polynomial time. We verify the correctness and complexity of our approach, and provide an implementation of it. We then evaluate our implementation, and demonstrate that it outperforms baseline approaches. Our code is available at http://github.com/orichardson/pdg-infer-uai.
翻訳日:2023-11-10 14:16:28 公開日:2023-11-09
# SigScatNet: 署名偽造検出と類似性評価のためのシームズ+散乱に基づくディープラーニングアプローチ

SigScatNet: A Siamese + Scattering based Deep Learning Approach for Signature Forgery Detection and Similarity Assessment ( http://arxiv.org/abs/2311.05579v1 )

ライセンス: Link先を確認
Anmol Chokshi, Vansh Jain, Rajas Bhope, Sudhir Dhage(参考訳) 偽造署名の急増は、個人と組織双方にとって広範な不便さと恐ろしい挑戦を引き起こしている。 SigScatNetは、Scattering Waveletによって強化されたシームズ深層学習ネットワークのポテンシャルを利用して、署名偽造を検出し、署名類似性を評価することによってこの問題に対処する革新的なソリューションである。 siamese networkは、包括的な類似性インデックスを通じて署名の真正性を確認する権限を与え、正確な検証と比較を可能にします。 注目すべきは、Scattering Waveletの統合は、我々のモデルに例外的な効率を付与し、コスト効率の良いハードウェアシステムでシームレスに動作するのに十分な軽量化を可能にします。 提案手法の有効性を検証するため, ICDAR SigComp Dutch データセットと CEDAR データセットの2つのオープンソースデータセットに対して広範な実験を行った。 実験の結果,提案したSigScatNetの実用性と再帰的な成功を示し,IDDAR SigComp Dutch データセットでは3.689%,CEDAR データセットでは0.0578%となった。 SigScatNetの実装を通じて、EERスコアと計算効率の観点から、署名分析の新たな最先端を先導し、偽造を検知し、署名類似性を定量化する高度なソリューションを提供する。 最先端のシアム深層学習と散乱ウェーブレットを用いることで、安全かつ効率的なシグネチャ検証システムへの道を開くロバストなフレームワークを提供する。

The surge in counterfeit signatures has inflicted widespread inconveniences and formidable challenges for both individuals and organizations. This groundbreaking research paper introduces SigScatNet, an innovative solution to combat this issue by harnessing the potential of a Siamese deep learning network, bolstered by Scattering wavelets, to detect signature forgery and assess signature similarity. The Siamese Network empowers us to ascertain the authenticity of signatures through a comprehensive similarity index, enabling precise validation and comparison. Remarkably, the integration of Scattering wavelets endows our model with exceptional efficiency, rendering it light enough to operate seamlessly on cost-effective hardware systems. To validate the efficacy of our approach, extensive experimentation was conducted on two open-sourced datasets: the ICDAR SigComp Dutch dataset and the CEDAR dataset. The experimental results demonstrate the practicality and resounding success of our proposed SigScatNet, yielding an unparalleled Equal Error Rate of 3.689% with the ICDAR SigComp Dutch dataset and an astonishing 0.0578% with the CEDAR dataset. Through the implementation of SigScatNet, our research spearheads a new state-of-the-art in signature analysis in terms of EER scores and computational efficiency, offering an advanced and accessible solution for detecting forgery and quantifying signature similarities. By employing cutting-edge Siamese deep learning and Scattering wavelets, we provide a robust framework that paves the way for secure and efficient signature verification systems.
翻訳日:2023-11-10 14:16:07 公開日:2023-11-09
# Outlier-Robust Wasserstein DRO

Outlier-Robust Wasserstein DRO ( http://arxiv.org/abs/2311.05573v1 )

ライセンス: Link先を確認
Sloan Nietert, Ziv Goldfeld, Soroosh Shafiee(参考訳) 分散ロバスト最適化(DRO)は不確実性の存在下でのデータ駆動型意思決定に有効な手法である。 データ点のサンプリングや局所摂動による幾何学的不確実性をワッサースタインDRO (WDRO) が捉え、観測されたデータ分布を中心とするワッサースタイン球上で均一に機能するモデルを学習しようとする。 しかし、WDROは、ワッサーシュタイン距離の測定を著しく歪め、学習モデルを阻害する逆数外乱のような非幾何学的摂動を考慮できない。 我々は,幾何学的(wasserstein)摂動と非幾何学的(total variation(tv))汚染の両方の下で意思決定を行うための,新たなoutlier-robust wdroフレームワークを提案することで,このギャップに対処する。 我々は,この手順に対して,摂動型と極小極小極小過大リスク境界を考慮に入れた,ある種の頑健なワッサースタイン球を用いて不確実性集合を設計する。 我々は、トラクタブル凸の再構成と、外乱問題WDROの効率的な計算を可能にする強力な双対性を証明した。 損失関数がデータの低次元特徴のみに依存する場合、一般的な設定では避けられないリスク境界から一定の次元依存性を排除する。 最後に,標準回帰と分類タスクに関する理論を検証する実験を行った。

Distributionally robust optimization (DRO) is an effective approach for data-driven decision-making in the presence of uncertainty. Geometric uncertainty due to sampling or localized perturbations of data points is captured by Wasserstein DRO (WDRO), which seeks to learn a model that performs uniformly well over a Wasserstein ball centered around the observed data distribution. However, WDRO fails to account for non-geometric perturbations such as adversarial outliers, which can greatly distort the Wasserstein distance measurement and impede the learned model. We address this gap by proposing a novel outlier-robust WDRO framework for decision-making under both geometric (Wasserstein) perturbations and non-geometric (total variation (TV)) contamination that allows an $\varepsilon$-fraction of data to be arbitrarily corrupted. We design an uncertainty set using a certain robust Wasserstein ball that accounts for both perturbation types and derive minimax optimal excess risk bounds for this procedure that explicitly capture the Wasserstein and TV risks. We prove a strong duality result that enables tractable convex reformulations and efficient computation of our outlier-robust WDRO problem. When the loss function depends only on low-dimensional features of the data, we eliminate certain dimension dependencies from the risk bounds that are unavoidable in the general setting. Finally, we present experiments validating our theory on standard regression and classification tasks.
翻訳日:2023-11-10 14:15:37 公開日:2023-11-09
# バーチャルコーチと対話する高齢者の感情表現認識の検討

Exploring Emotion Expression Recognition in Older Adults Interacting with a Virtual Coach ( http://arxiv.org/abs/2311.05567v1 )

ライセンス: Link先を確認
Cristina Palmero, Mikel deVelasco, Mohamed Amine Hmani, Aymen Mtibaa, Leila Ben Letaifa, Pau Buch-Cardona, Raquel Justo, Terry Amorese, Eduardo Gonz\'alez-Fraile, Bego\~na Fern\'andez-Ruanova, Jofre Tenorio-Laranga, Anna Torp Johansen, Micaela Rodrigues da Silva, Liva Jenny Martinussen, Maria Stylianou Korsnes, Gennaro Cordasco, Anna Esposito, Mounim A. El-Yacoubi, Dijana Petrovska-Delacr\'etaz, M. In\'es Torres and Sergio Escalera(参考訳) EMPATHICプロジェクトは、健康な高齢者が健康を改善し、自立した高齢化を促進することができる感情表現型バーチャルコーチを設計することを目的としている。 システムの中核的な側面の1つは、人間の感知能力であり、感情状態の知覚がパーソナライズされた体験を提供できる。 本稿では, 仮想コーチの感情表現認識モジュールの開発について概説し, データ収集, アノテーション設計, およびプロジェクト要件に合わせた最初の方法論的アプローチについて述べる。 後者では,音声からの発話,表情,視線,映像からの頭部動画像など,感情表現認識における個人的および複合的な多様なモダリティの役割について検討する。 収集されたコーパスには、スペイン、フランス、ノルウェーのユーザが含まれており、異なる感情的なラベルを持つオーディオとビデオチャンネルのために別々に注釈付けされ、文化とラベルタイプ間のパフォーマンス比較を可能にした。 以上の結果から,感情カテゴリーを対象としたモダリティの伝達力は,音声ラベルでは約68%,ビデオラベルでは72~74%の精度で他よりも優れていた。 これらの結果は,高齢者の会話型人間-機械インタラクションにおける感情認識に関する限られた文献に寄与することが期待される。

The EMPATHIC project aimed to design an emotionally expressive virtual coach capable of engaging healthy seniors to improve well-being and promote independent aging. One of the core aspects of the system is its human sensing capabilities, allowing for the perception of emotional states to provide a personalized experience. This paper outlines the development of the emotion expression recognition module of the virtual coach, encompassing data collection, annotation design, and a first methodological approach, all tailored to the project requirements. With the latter, we investigate the role of various modalities, individually and combined, for discrete emotion expression recognition in this context: speech from audio, and facial expressions, gaze, and head dynamics from video. The collected corpus includes users from Spain, France, and Norway, and was annotated separately for the audio and video channels with distinct emotional labels, allowing for a performance comparison across cultures and label types. Results confirm the informative power of the modalities studied for the emotional categories considered, with multimodal methods generally outperforming others (around 68% accuracy with audio labels and 72-74% with video labels). The findings are expected to contribute to the limited literature on emotion recognition applied to older adults in conversational human-machine interaction.
翻訳日:2023-11-10 14:15:11 公開日:2023-11-09
# 早期畳み込みを必要とするテーブル構造認識用高性能トランス

High-Performance Transformers for Table Structure Recognition Need Early Convolutions ( http://arxiv.org/abs/2311.05565v1 )

ライセンス: Link先を確認
ShengYun Peng, Seongmin Lee, Xiaojing Wang, Rajarajeswari Balasubramaniyan, Duen Horng Chau(参考訳) 表構造認識(TSR)は、表形式の画像を機械可読フォーマットに変換し、視覚エンコーダが画像の特徴を抽出し、テキストデコーダがテーブル表現トークンを生成する。 既存のアプローチでは、従来の畳み込みニューラルネットワーク(cnn)バックボーンを視覚エンコーダに、トランスフォーマーをテキストデコーダに使用する。 しかし、このハイブリッドCNN-Transformerアーキテクチャは、モデルパラメータのほぼ半分を占める複雑なビジュアルエンコーダを導入し、トレーニングと推論速度の両方を著しく削減し、TSRにおける自己教師型学習の可能性を妨げている。 本研究では,表現力を犠牲にすることなく,tsr用の軽量ビジュアルエンコーダを設計する。 畳み込みステムは従来のCNNバックボーンのパフォーマンスとより単純なモデルで一致できることが判明した。 コンボリューションステムは、高い受容野(RF)比と長いシーケンス長という、高性能TSRの2つの重要な要因の最適なバランスをとる。 これにより、テーブルの適切な部分を"見る"ことができ、複雑なテーブル構造を、その後のトランスフォーマーの十分なコンテキスト長内に"保存"することができる。 再現性のあるアブレーション研究を行い、透明性を高め、イノベーションを刺激し、テーブルとしての私たちの領域における公正な比較を促進するために、https://github.com/poloclub/tsr-convstemでコードをオープンソース化しました。

Table structure recognition (TSR) aims to convert tabular images into a machine-readable format, where a visual encoder extracts image features and a textual decoder generates table-representing tokens. Existing approaches use classic convolutional neural network (CNN) backbones for the visual encoder and transformers for the textual decoder. However, this hybrid CNN-Transformer architecture introduces a complex visual encoder that accounts for nearly half of the total model parameters, markedly reduces both training and inference speed, and hinders the potential for self-supervised learning in TSR. In this work, we design a lightweight visual encoder for TSR without sacrificing expressive power. We discover that a convolutional stem can match classic CNN backbone performance, with a much simpler model. The convolutional stem strikes an optimal balance between two crucial factors for high-performance TSR: a higher receptive field (RF) ratio and a longer sequence length. This allows it to "see" an appropriate portion of the table and "store" the complex table structure within sufficient context length for the subsequent transformer. We conducted reproducible ablation studies and open-sourced our code at https://github.com/poloclub/tsr-convstem to enhance transparency, inspire innovations, and facilitate fair comparisons in our domain as tables are a promising modality for representation learning.
翻訳日:2023-11-10 14:14:31 公開日:2023-11-09
# ハイブリッド量子機械学習アーキテクチャにおける量子と古典的貢献の相違

Disentangling Quantum and Classical Contributions in Hybrid Quantum Machine Learning Architectures ( http://arxiv.org/abs/2311.05559v1 )

ライセンス: Link先を確認
Michael K\"olle, Jonas Maurer, Philipp Altmann, Leo S\"unkel, Jonas Stein, Claudia Linnhoff-Popien(参考訳) 量子コンピューティングは優れた計算能力、特にデータ集約的なタスクの可能性を秘めている。 しかし、量子ハードウェアの現状は、入力サイズに厳しい制限を与えている。 これに対処するために、雑多な入力を扱うことができる事前学習された古典モデルと変分量子回路を融合したハイブリッド転送学習ソリューションが開発されている。 しかし、各コンポーネント - 古典的および量子的 - がモデルの結果にどの程度貢献しているかは、まだ不明である。 本稿では,プレトレーニングされたネットワークを圧縮に利用する代わりに,オートエンコーダを用いて,圧縮したデータから圧縮したデータを導出するハイブリッドアーキテクチャを提案する。 この圧縮されたデータは、オートエンコーダのエンコーダ部から量子成分にチャネルされる。 2つの最先端ハイブリッド転送学習アーキテクチャ、2つの純粋古典的アーキテクチャ、1つの量子アーキテクチャに対して、モデルの分類能力を評価する。 その精度は、バンクノート認証、乳がんウィスコンシン、MNIST桁、オーディオMNISTの4つのデータセットで比較される。 我々の研究は、古典的成分がハイブリッドトランスファーラーニングにおける分類に大きな影響を与えることを示唆している。 我々のモデルの性能は振幅埋め込みを用いた変分量子回路の性能と一致し、実現可能な代替品として位置づける。

Quantum computing offers the potential for superior computational capabilities, particularly for data-intensive tasks. However, the current state of quantum hardware puts heavy restrictions on input size. To address this, hybrid transfer learning solutions have been developed, merging pre-trained classical models, capable of handling extensive inputs, with variational quantum circuits. Yet, it remains unclear how much each component - classical and quantum - contributes to the model's results. We propose a novel hybrid architecture: instead of utilizing a pre-trained network for compression, we employ an autoencoder to derive a compressed version of the input data. This compressed data is then channeled through the encoder part of the autoencoder to the quantum component. We assess our model's classification capabilities against two state-of-the-art hybrid transfer learning architectures, two purely classical architectures and one quantum architecture. Their accuracy is compared across four datasets: Banknote Authentication, Breast Cancer Wisconsin, MNIST digits, and AudioMNIST. Our research suggests that classical components significantly influence classification in hybrid transfer learning, a contribution often mistakenly ascribed to the quantum element. The performance of our model aligns with that of a variational quantum circuit using amplitude embedding, positioning it as a feasible alternative.
翻訳日:2023-11-10 14:13:24 公開日:2023-11-09
# 低消費電力DNN推論のための爆発的ニューラルネットワーク統計

Exploiting Neural-Network Statistics for Low-Power DNN Inference ( http://arxiv.org/abs/2311.05557v1 )

ライセンス: Link先を確認
Lennart Bamberg, Ardalan Najafi, Alberto Garcia-Ortiz(参考訳) 効率的なDNN実行のために特殊な計算ブロックが開発された。 しかし、膨大なデータとパラメータの動きのため、インターコネクトとオンチップメモリは別のボトルネックを形成し、電力と性能を損なう。 この研究は、オーバヘッドフリーコーディングとニューラルネットワークのデータとパラメータの統計分析を組み合わせたエッジAI推論エンジンの低消費電力技術に寄与することで、このボトルネックに対処する。 提案手法は,コンピュートブロックの消費電力を最大39%削減しつつ,最先端ベンチマークのインターコネクトとメモリ消費電力を最大80%削減する。 これらのパワー改善は、精度とハードウェアコストを損なうことなく達成される。

Specialized compute blocks have been developed for efficient DNN execution. However, due to the vast amount of data and parameter movements, the interconnects and on-chip memories form another bottleneck, impairing power and performance. This work addresses this bottleneck by contributing a low-power technique for edge-AI inference engines that combines overhead-free coding with a statistical analysis of the data and parameters of neural networks. Our approach reduces the interconnect and memory power consumption by up to 80% for state-of-the-art benchmarks while providing additional power savings for the compute blocks by up to 39%. These power improvements are achieved with no loss of accuracy and negligible hardware cost.
翻訳日:2023-11-10 14:12:40 公開日:2023-11-09
# LCM-LoRA: ユニバーサル安定拡散加速モジュール

LCM-LoRA: A Universal Stable-Diffusion Acceleration Module ( http://arxiv.org/abs/2311.05556v1 )

ライセンス: Link先を確認
Simian Luo, Yiqin Tan, Suraj Patil, Daniel Gu, Patrick von Platen, Apolin\'ario Passos, Longbo Huang, Jian Li, Hang Zhao(参考訳) LCM(Latent Consistency Models)は、テキストから画像への生成作業を高速化し、最小の推論ステップで高品質な画像を生成する。 LCMは、事前訓練された潜在拡散モデル(LDM)から蒸留され、32A100GPUのトレーニング時間しか必要としない。 まず, SD-V1.5, SSD-1B, SDXLを含む安定拡散モデルにロラ蒸留を適用することにより, LCMの範囲を, メモリ消費が著しく少ない大型モデルに拡張し, 画像生成品質の向上を実現した。 第2に, LCM蒸留により得られたLoRAパラメータを LCM-LoRA という汎用安定拡散加速モジュールとして同定した。 LCM-LoRAは、トレーニングなしで様々な安定拡散微調整モデルやLoRAに直接接続できるため、多様な画像生成タスクに普遍的に適用可能なアクセラレーターである。 DDIMやDPM-Solverのような従来の数値的なPF-ODEソルバと比較して、LCM-LoRAは強力な一般化能力を持つプラグインニューラルPF-ODEソルバと見なすことができる。 プロジェクトページ: https://github.com/luosiallen/latent-consistency-model

Latent Consistency Models (LCMs) have achieved impressive performance in accelerating text-to-image generative tasks, producing high-quality images with minimal inference steps. LCMs are distilled from pre-trained latent diffusion models (LDMs), requiring only ~32 A100 GPU training hours. This report further extends LCMs' potential in two aspects: First, by applying LoRA distillation to Stable-Diffusion models including SD-V1.5, SSD-1B, and SDXL, we have expanded LCM's scope to larger models with significantly less memory consumption, achieving superior image generation quality. Second, we identify the LoRA parameters obtained through LCM distillation as a universal Stable-Diffusion acceleration module, named LCM-LoRA. LCM-LoRA can be directly plugged into various Stable-Diffusion fine-tuned models or LoRAs without training, thus representing a universally applicable accelerator for diverse image generation tasks. Compared with previous numerical PF-ODE solvers such as DDIM, DPM-Solver, LCM-LoRA can be viewed as a plug-in neural PF-ODE solver that possesses strong generalization abilities. Project page: https://github.com/luosiallen/latent-consistency-model.
翻訳日:2023-11-10 14:12:29 公開日:2023-11-09
# 微細調整によるGPT-4のRLHF保護除去

Removing RLHF Protections in GPT-4 via Fine-Tuning ( http://arxiv.org/abs/2311.05553v1 )

ライセンス: Link先を確認
Qiusi Zhan, Richard Fang, Rohan Bindu, Akul Gupta, Tatsunori Hashimoto, Daniel Kang(参考訳) 大規模言語モデル(llm)の能力が向上するにつれ、デュアル利用の可能性も高まっている。 有害な出力を減らすため、LLMの製造と販売業者は人間フィードバックによる強化学習(RLHF)を使用している。 LLMベンダーはますます、最も強力なモデルの微調整を可能にしている。 しかし、同時に行われた研究は、微調整がRLHF保護を除去できることを示した。 現在利用可能な最も強力なモデル(GPT-4)は、微調整攻撃の影響を受けにくいだろう。 細調整により、攻撃者は340のサンプルと95%の成功率でRLHF保護を除去できる。 これらのトレーニング例は、より弱いモデルで自動的に生成できる。 さらに,RLHF保護の除去は非検閲出力の有用性を低下させるものではないことを示し,我々の微調整戦略がトレーニングデータを生成するために弱いモデルを用いても有用性を低下させないことを示す。 以上の結果から,LLMの保護に関するさらなる研究の必要性が示唆された。

As large language models (LLMs) have increased in their capabilities, so does their potential for dual use. To reduce harmful outputs, produces and vendors of LLMs have used reinforcement learning with human feedback (RLHF). In tandem, LLM vendors have been increasingly enabling fine-tuning of their most powerful models. However, concurrent work has shown that fine-tuning can remove RLHF protections. We may expect that the most powerful models currently available (GPT-4) are less susceptible to fine-tuning attacks. In this work, we show the contrary: fine-tuning allows attackers to remove RLHF protections with as few as 340 examples and a 95% success rate. These training examples can be automatically generated with weaker models. We further show that removing RLHF protections does not decrease usefulness on non-censored outputs, providing evidence that our fine-tuning strategy does not decrease usefulness despite using weaker models to generate training data. Our results show the need for further research on protections on LLMs.
翻訳日:2023-11-10 14:12:04 公開日:2023-11-09
# 鉄(ic)溶融鍋 : ユーモア, 皮肉, 皮肉の発生過程における人間評価の再検討

The Iron(ic) Melting Pot: Reviewing Human Evaluation in Humour, Irony and Sarcasm Generation ( http://arxiv.org/abs/2311.05552v1 )

ライセンス: Link先を確認
Tyler Loakman, Aaron Maladry, Chenghua Lin(参考訳) 人間の評価はしばしば自然言語生成システムを評価するための金の標準であると考えられている。 しかし、その重要性はコミュニティによって広く受け入れられているが、その実行の質は問題視されることが多い。 本稿では, ユウ, 皮肉, 皮肉といった難解な言語の生成が, 選択した評価器パネルの特性が最重要となるサブドメインを構成し, 透明性と複製性に関心を持って, 可能な限り, 人口統計学的特徴を報告すべきである,と論じる。 我々はこれらの主張を,各言語形式の概要と,それらの解釈が異なる変数にどのように影響されるかという観点からの事例分析で支援する。 さらに,本サブドメインにおける評価手順の充実度を評価するため,NLGにおける最近の研究の批判的調査を行い,評価対象人口統計情報の公開報告の欠如や,採用のためのクラウドソーシングプラットフォームへの大きな依存点に留意する。

Human evaluation is often considered to be the gold standard method of evaluating a Natural Language Generation system. However, whilst its importance is accepted by the community at large, the quality of its execution is often brought into question. In this position paper, we argue that the generation of more esoteric forms of language - humour, irony and sarcasm - constitutes a subdomain where the characteristics of selected evaluator panels are of utmost importance, and every effort should be made to report demographic characteristics wherever possible, in the interest of transparency and replicability. We support these claims with an overview of each language form and an analysis of examples in terms of how their interpretation is affected by different participant variables. We additionally perform a critical survey of recent works in NLG to assess how well evaluation procedures are reported in this subdomain, and note a severe lack of open reporting of evaluator demographic information, and a significant reliance on crowdsourcing platforms for recruitment.
翻訳日:2023-11-10 14:11:45 公開日:2023-11-09
# ウィンドウの注意:どうやって位置埋め込みを補間しないか

Window Attention is Bugged: How not to Interpolate Position Embeddings ( http://arxiv.org/abs/2311.05613v1 )

ライセンス: Link先を確認
Daniel Bolya, Chaitanya Ryali, Judy Hoffman, Christoph Feichtenhofer(参考訳) 窓の注意、位置埋め込み、高解像度の微調整は、現代のコンピュータビジョンのトランスフォーマー時代の中核概念である。 しかし,これらをユビキタスに組み合わせることで,性能に有害な影響が生じることが判明した。 ウィンドウアテンションを使用しながら位置埋め込みを補間することは間違っている。 これらの3つのコンポーネント、すなわちHieraとViTDetを持つ最先端の2つの手法を調査し、どちらも実際にこのバグに悩まされていることを発見した。 これにより、Hieraのバグを完全に解決し、ViTDetにおけるモデルの速度と性能の両方を向上させることができる。 これはcoco上で61.7のボックスマップを実現し、imagenet-1kプリトレーニングのみを使用するモデルでは最先端のものです。 これは、基本的には3行のバグ修正で、"絶対的な勝利"と名付けています。

Window attention, position embeddings, and high resolution finetuning are core concepts in the modern transformer era of computer vision. However, we find that naively combining these near ubiquitous components can have a detrimental effect on performance. The issue is simple: interpolating position embeddings while using window attention is wrong. We study two state-of-the-art methods that have these three components, namely Hiera and ViTDet, and find that both do indeed suffer from this bug. To fix it, we introduce a simple absolute window position embedding strategy, which solves the bug outright in Hiera and allows us to increase both speed and performance of the model in ViTDet. We finally combine the two to obtain HieraDet, which achieves 61.7 box mAP on COCO, making it state-of-the-art for models that only use ImageNet-1k pretraining. This all stems from what is essentially a 3 line bug fix, which we name "absolute win".
翻訳日:2023-11-10 14:03:12 公開日:2023-11-09
# 大規模分散モデルトレーニングのための効率的な並列化レイアウト

Efficient Parallelization Layouts for Large-Scale Distributed Model Training ( http://arxiv.org/abs/2311.05610v1 )

ライセンス: Link先を確認
Johannes Hagemann, Samuel Weinbach, Konstantin Dobler, Maximilian Schall, Gerard de Melo(参考訳) 大きな言語モデルを効果的に訓練するには、数百のハードウェアアクセラレーターを並列化し、様々な計算とメモリの最適化を実行する必要がある。 組み合わせると、これらの戦略の多くは最終訓練効率に関する複雑な相互作用を持つ。 この問題に取り組む以前の作業では、フラッシュアテンションやシーケンス並列処理など、最新の最適化セットにアクセスできなかった。 本研究では,大規模言語モデルのトレーニング構成に関する包括的アブレーション研究を行う。 この大規模な研究を、最も効率的なトレーニングのためのいくつかの重要な推奨事項にまとめます。 例えば、マイクロバッチサイズ1を使用することで、最も効率的なトレーニングレイアウトが可能になります。 より大きなマイクロバッチサイズは、アクティベーションチェックポイントやモデル並列性の高次化を必要とし、さらに大きなパイプラインバブルにつながる。 私たちの最も効率的な構成は、13bモデルのトレーニング時に70.5%のモデルフロップ使用率で、さまざまなモデルサイズで最先端のトレーニング効率を実現できることです。

Efficiently training large language models requires parallelizing across hundreds of hardware accelerators and invoking various compute and memory optimizations. When combined, many of these strategies have complex interactions regarding the final training efficiency. Prior work tackling this problem did not have access to the latest set of optimizations, such as FlashAttention or sequence parallelism. In this work, we conduct a comprehensive ablation study of possible training configurations for large language models. We distill this large study into several key recommendations for the most efficient training. For instance, we find that using a micro-batch size of 1 usually enables the most efficient training layouts. Larger micro-batch sizes necessitate activation checkpointing or higher degrees of model parallelism and also lead to larger pipeline bubbles. Our most efficient configurations enable us to achieve state-of-the-art training efficiency results over a range of model sizes, most notably a Model FLOPs utilization of 70.5% when training a 13B model.
翻訳日:2023-11-10 14:02:56 公開日:2023-11-09
# 何を聞いたらいいのか? ChatGPTによる視覚音の生成

What Do I Hear? Generating Sounds for Visuals with ChatGPT ( http://arxiv.org/abs/2311.05609v1 )

ライセンス: Link先を確認
David Chuan-En Lin, Nikolas Martelaro(参考訳) 本稿では,ビジュアルメディアのためのリアルなサウンドスケープを生成するワークフローを紹介する。 画面上の視覚にマッチする音を主に重視する先行研究とは対照的に,本手法は,すぐには見えないが,説得力と没入性を備えた聴覚環境を構築する上で必須な音の提案に拡張する。 私たちの重要な洞察は、ChatGPTのような言語モデルの推論能力を活用することです。 本稿では,シーンコンテキストの作成,ブレインストーミング音の生成,音の生成などを行うワークフローについて述べる。

This short paper introduces a workflow for generating realistic soundscapes for visual media. In contrast to prior work, which primarily focus on matching sounds for on-screen visuals, our approach extends to suggesting sounds that may not be immediately visible but are essential to crafting a convincing and immersive auditory environment. Our key insight is leveraging the reasoning capabilities of language models, such as ChatGPT. In this paper, we describe our workflow, which includes creating a scene context, brainstorming sounds, and generating the sounds.
翻訳日:2023-11-10 14:02:41 公開日:2023-11-09
# FigStep:タイポグラフィー・ビジュアル・プロンプトによる視覚言語モデルの脱獄

FigStep: Jailbreaking Large Vision-language Models via Typographic Visual Prompts ( http://arxiv.org/abs/2311.05608v1 )

ライセンス: Link先を確認
Yichen Gong and Delong Ran and Jinyuan Liu and Conglei Wang and Tianshuo Cong and Anyu Wang and Sisi Duan and Xiaoyun Wang(参考訳) GPT-4Vのような大規模な視覚言語モデル(VLM)は、人工知能(AI)分野における前例のない革命を表している。 llms(single-modal large language model)と比較して、vlmは追加のモダリティ(画像など)を組み込むことでより汎用性を持つ。 一方、LLaVAやMiniGPT4のようなオープンソースのVLMを開発するというAIコミュニティへの熱意は高まっている。 本稿では,VLMに対する新たなジェイルブレイクフレームワークであるFigStepを提案する。 FigStepはイメージチャネルを通じて有害な命令をVLMに供給し、良心的なテキストプロンプトを使用してVLMを誘導し、一般的なAI安全ポリシーに違反したコンテンツを出力する。 実験の結果,FigStepはオープンソースVLM,LLaVA,MiniGPT4(合計5VLM)の2つのファミリに対して平均94.8%の攻撃成功率を達成できることがわかった。 さらに、FigStepの手法は、有害なクエリをフィルタリングするために複数のシステムレベルメカニズムを既に活用しているGPT-4Vをジェイルブレイクさせることもできることを示した。 その結果,vlmはジェイルブレイク攻撃に対して脆弱であることが判明し,視覚とテキスト間の新たな安全アライメントの必要性が浮き彫りになった。

Large vision-language models (VLMs) like GPT-4V represent an unprecedented revolution in the field of artificial intelligence (AI). Compared to single-modal large language models (LLMs), VLMs possess more versatile capabilities by incorporating additional modalities (e.g., images). Meanwhile, there's a rising enthusiasm in the AI community to develop open-source VLMs, such as LLaVA and MiniGPT4, which, however, have not undergone rigorous safety assessment. In this paper, to demonstrate that more modalities lead to unforeseen AI safety issues, we propose FigStep, a novel jailbreaking framework against VLMs. FigStep feeds harmful instructions into VLMs through the image channel and then uses benign text prompts to induce VLMs to output contents that violate common AI safety policies. Our experimental results show that FigStep can achieve an average attack success rate of 94.8% across 2 families of popular open-source VLMs, LLaVA and MiniGPT4 (a total of 5 VLMs). Moreover, we demonstrate that the methodology of FigStep can even jailbreak GPT-4V, which already leverages several system-level mechanisms to filter harmful queries. Above all, our experimental results reveal that VLMs are vulnerable to jailbreaking attacks, which highlights the necessity of novel safety alignments between visual and textual modalities.
翻訳日:2023-11-10 14:02:32 公開日:2023-11-09
# 大規模シーンのためのリアルタイムニューラルラスタライゼーション

Real-Time Neural Rasterization for Large Scenes ( http://arxiv.org/abs/2311.05607v1 )

ライセンス: Link先を確認
Jeffrey Yunfan Liu, Yun Chen, Ze Yang, Jingkang Wang, Sivabalan Manivasagam, Raquel Urtasun(参考訳) 本研究では,大規模シーンのリアルタイムノベルビュー合成(nvs)のための新しい手法を提案する。 既存のニューラルネットワークレンダリング手法は現実的な結果を生成するが、主に小規模シーン(50平方メートル)で機能し、大規模シーン(10000平方メートル)では困難である。 従来のグラフィックベースのラスタライズレンダリングは大きなシーンでは高速だが、リアリズムに欠け、手作業で作る高価な資産を必要とする。 我々のアプローチは、中程度の質の足場メッシュを入力として取り、ニューラルネットワークのテクスチャフィールドとシェーダーを学習することで、現実性を高めるためにビュー依存効果をモデル化し、なおもリアルタイムレンダリングに標準グラフィックスパイプラインを使用しながら、両方の世界の長所を結合する。 提案手法は既存のニューラルレンダリング手法よりも優れており、大規模な自動運転およびドローンシーンにおいて、同等あるいはより良いリアリズムで少なくとも30倍高速なレンダリングを実現する。 私たちの仕事は、大規模な現実世界のシーンのリアルタイムレンダリングを可能にする最初のものです。

We propose a new method for realistic real-time novel-view synthesis (NVS) of large scenes. Existing neural rendering methods generate realistic results, but primarily work for small scale scenes (<50 square meters) and have difficulty at large scale (>10000 square meters). Traditional graphics-based rasterization rendering is fast for large scenes but lacks realism and requires expensive manually created assets. Our approach combines the best of both worlds by taking a moderate-quality scaffold mesh as input and learning a neural texture field and shader to model view-dependant effects to enhance realism, while still using the standard graphics pipeline for real-time rendering. Our method outperforms existing neural rendering methods, providing at least 30x faster rendering with comparable or better realism for large self-driving and drone scenes. Our work is the first to enable real-time rendering of large real-world scenes.
翻訳日:2023-11-10 14:02:06 公開日:2023-11-09
# 拡散生成多元性学習による物理シミュレーション

Diffusion-Generative Multi-Fidelity Learning for Physical Simulation ( http://arxiv.org/abs/2311.05606v1 )

ライセンス: Link先を確認
Zheng Wang, Shibo Li, Shikai Fang, Shandian Zhe(参考訳) 物理シミュレーション関連アプリケーションでは,コストがかかることが知られている数値ソルバのスクラッチ実行を回避し,トレーニングに多要素実例を用い,データ収集のコストを大幅に削減する,多要素代理学習が重要である。 既存のメソッドの多様性にもかかわらず、彼らはすべて、入力パラメータをソリューション出力に直接マッピングするモデルを構築します。 最近の生成モデルにおけるブレークスルーに触発されて、我々は別の視点を取り、ランダムノイズから生成された解のアウトプットを考察する。 確率微分方程式(SDE)に基づく拡散生成多相学習法(DGMF)を開発した。 入力パラメータと忠実度によって解の生成を制御する条件付きスコアモデルを提案する。 追加入力(時間変数や空間変数)を条件付けすることで,多次元解配列を効率的に学習し,予測することができる。 本手法は, 離散的および連続的忠実性モデリングを自然に統一する。 いくつかの典型的な応用における本手法の利点は、多要素学習に期待できる新しい方向性を示す。

Multi-fidelity surrogate learning is important for physical simulation related applications in that it avoids running numerical solvers from scratch, which is known to be costly, and it uses multi-fidelity examples for training and greatly reduces the cost of data collection. Despite the variety of existing methods, they all build a model to map the input parameters outright to the solution output. Inspired by the recent breakthrough in generative models, we take an alternative view and consider the solution output as generated from random noises. We develop a diffusion-generative multi-fidelity (DGMF) learning method based on stochastic differential equations (SDE), where the generation is a continuous denoising process. We propose a conditional score model to control the solution generation by the input parameters and the fidelity. By conditioning on additional inputs (temporal or spacial variables), our model can efficiently learn and predict multi-dimensional solution arrays. Our method naturally unifies discrete and continuous fidelity modeling. The advantage of our method in several typical applications shows a promising new direction for multi-fidelity learning.
翻訳日:2023-11-10 14:01:48 公開日:2023-11-09
# スピンオプティカル量子コンピューティングアーキテクチャ

A Spin-Optical Quantum Computing Architecture ( http://arxiv.org/abs/2311.05605v1 )

ライセンス: Link先を確認
Gr\'egoire de Gliniasty and Paul Hilaire and Pierre-Emmanuel Emeriau and Stephen C. Wein and Alexia Salavrakos and Shane Mansfield(参考訳) フォールトトレラント量子コンピューティング用に設計された適応性とモジュール型ハイブリッドアーキテクチャを提案する。 量子エミッタと線形光学的絡み合いゲートを組み合わせることで、物質ベースとフォトニックベースの両方のアプローチの強みを活用できる。 アーキテクチャの重要な特徴は実用性であり、実験的に証明された光学部品の利用に基づいている。 このフレームワークは量子誤り訂正コードの実行を可能にするが、特に遠距離光リンクによる非局所接続を活用し、低密度パリティチェックコードのスケーラビリティを維持している。 その効率を評価するために,物理的モチベーションの誤差モデルを用いてアーキテクチャを評価した。 既存の全フォトニックアーキテクチャに匹敵するロス耐性を示すが、従来のリソース集約型多重化に依存する複雑な線形オプティカルリソース状態生成モジュールは不要である。 アーキテクチャの汎用性は、さらなるパフォーマンス標準を向上するための、未知の道も提供します。

We introduce an adaptable and modular hybrid architecture designed for fault-tolerant quantum computing. It combines quantum emitters and linear-optical entangling gates to leverage the strength of both matter-based and photonic-based approaches. A key feature of the architecture is its practicality, grounded in the utilisation of experimentally proven optical components. Our framework enables the execution of any quantum error correcting code, but in particular maintains scalability for low-density parity check codes by exploiting built-in non-local connectivity through distant optical links. To gauge its efficiency, we evaluated the architecture using a physically motivated error model. It exhibits loss tolerance comparable to existing all-photonic architecture but without the need for intricate linear-optical resource-state-generation modules that conventionally rely on resource-intensive multiplexing. The versatility of the architecture also offers uncharted avenues for further advancing performance standards.
翻訳日:2023-11-10 14:01:27 公開日:2023-11-09
# 3D-QAE: 3Dポイントの完全量子オートエンコーディング

3D-QAE: Fully Quantum Auto-Encoding of 3D Point Clouds ( http://arxiv.org/abs/2311.05604v1 )

ライセンス: Link先を確認
Lakshika Rathi and Edith Tretschk and Christian Theobalt and Rishabh Dabral and Vladislav Golyanik(参考訳) 既存の3D表現学習方法は、古典的なハードウェアでトレーニングされ、テストされるディープニューラルネットワークである。 量子機械学習アーキテクチャは、速度と表現能力の点で理論的に予測された利点にもかかわらず、この問題や3Dデータ全般に関わるタスクについては、これまで検討されていない。 本稿では,3次元点群に対する最初の量子オートエンコーダを提案する。 我々の3D-QAEアプローチは完全に量子的であり、すなわち、すべてのデータ処理コンポーネントは量子ハードウェア用に設計されている。 圧縮表現を生成するために、3dポイント雲のコレクションで訓練される。 このような完全な量子モデルを設計する上での課題は,適切なアーキテクチャを見つけることに加えて,3次元データの正規化やパラメータ最適化などが挙げられる。 シミュレーションゲート型量子ハードウェアを用いた実験により,本手法は単純な古典的ベースラインよりも優れており,3次元コンピュータビジョンにおける新たな研究方向への道筋を拓いている。 ソースコードはhttps://4dqv.mpi-inf.mpg.de/QAE3D/で入手できる。

Existing methods for learning 3D representations are deep neural networks trained and tested on classical hardware. Quantum machine learning architectures, despite their theoretically predicted advantages in terms of speed and the representational capacity, have so far not been considered for this problem nor for tasks involving 3D data in general. This paper thus introduces the first quantum auto-encoder for 3D point clouds. Our 3D-QAE approach is fully quantum, i.e. all its data processing components are designed for quantum hardware. It is trained on collections of 3D point clouds to produce their compressed representations. Along with finding a suitable architecture, the core challenges in designing such a fully quantum model include 3D data normalisation and parameter optimisation, and we propose solutions for both these tasks. Experiments on simulated gate-based quantum hardware demonstrate that our method outperforms simple classical baselines, paving the way for a new research direction in 3D computer vision. The source code is available at https://4dqv.mpi-inf.mpg.de/QAE3D/.
翻訳日:2023-11-10 14:01:14 公開日:2023-11-09
# 現実的センサシミュレーションのための室内物体の再構成

Reconstructing Objects in-the-wild for Realistic Sensor Simulation ( http://arxiv.org/abs/2311.05602v1 )

ライセンス: Link先を確認
Ze Yang, Sivabalan Manivasagam, Yun Chen, Jingkang Wang, Rui Hu, Raquel Urtasun(参考訳) 現実世界のデータからオブジェクトを再構築し、それらを新しい視点でレンダリングすることは、ロボット工学のトレーニングとテストのためのシミュレーションに現実主義、多様性、スケールをもたらすために重要である。 本研究は,距離および限られた視点で取得した少ないデータから,正確な形状とリアルな外観を推定する新しい手法であるneusimを提案する。 この目的に向けて、物体表面を神経署名距離関数として表現し、lidarとカメラのセンサーデータを利用して滑らかで正確な幾何学と正規性を再構築する。 物体の外観を物理にインスパイアされた頑健な反射率表現でモデル化し,実測データに有効である。 実験結果から,neusimは難解なシナリオにおいて,少ないトレーニングビューで強いビュー合成性能を示すことがわかった。 さらに,ニュージミアセットを仮想世界に構成し,現実的マルチセンサデータを生成し,自律運転知覚モデルの評価を行う。

Reconstructing objects from real world data and rendering them at novel views is critical to bringing realism, diversity and scale to simulation for robotics training and testing. In this work, we present NeuSim, a novel approach that estimates accurate geometry and realistic appearance from sparse in-the-wild data captured at distance and at limited viewpoints. Towards this goal, we represent the object surface as a neural signed distance function and leverage both LiDAR and camera sensor data to reconstruct smooth and accurate geometry and normals. We model the object appearance with a robust physics-inspired reflectance representation effective for in-the-wild data. Our experiments show that NeuSim has strong view synthesis performance on challenging scenarios with sparse training views. Furthermore, we showcase composing NeuSim assets into a virtual world and generating realistic multi-sensor data for evaluating self-driving perception models.
翻訳日:2023-11-10 14:00:56 公開日:2023-11-09
# FAMuS: 複数のソースにまたがるフレーム

FAMuS: Frames Across Multiple Sources ( http://arxiv.org/abs/2311.05601v1 )

ライセンス: Link先を確認
Siddharth Vashishtha, Alexander Martin, William Gantt, Benjamin Van Durme, Aaron Steven White(参考訳) イベント記述を理解することは言語処理の中心的な側面であるが、現在のアプローチは単一の文や文書に圧倒的に集中している。 イベントに関する情報を集約する \emph{across document}は、よりリッチな理解を提供する。 この目的のために、famusという、あるイベントで \emph{report} と呼ばれる新しいwikipedia文のコーパスを、同じイベントの下位のジャンル(wikipedia以外の) \emph{source} 記事と組み合わせて提示する。 レポートとソースの両方のイベントと(クロスセンテンス)引数はframenetに対してアノテートされ、さまざまなイベントタイプの広範なカバレッジを提供する。 本稿では,FAMuSによって実現された2つの重要なイベント理解タスクについて報告する。 \emph{source validation} -- 文書が対象のレポートイベントの有効なソースであるか否かを判断する -- および,そのレポートと正しいソース記事の両方から対象のイベントの完全なドキュメント引数抽出を行う。 FAMuSと私たちのモデルの両方をリリースし、さらなる研究を支援します。

Understanding event descriptions is a central aspect of language processing, but current approaches focus overwhelmingly on single sentences or documents. Aggregating information about an event \emph{across documents} can offer a much richer understanding. To this end, we present FAMuS, a new corpus of Wikipedia passages that \emph{report} on some event, paired with underlying, genre-diverse (non-Wikipedia) \emph{source} articles for the same event. Events and (cross-sentence) arguments in both report and source are annotated against FrameNet, providing broad coverage of different event types. We present results on two key event understanding tasks enabled by FAMuS: \emph{source validation} -- determining whether a document is a valid source for a target report event -- and \emph{cross-document argument extraction} -- full-document argument extraction for a target event from both its report and the correct source article. We release both FAMuS and our models to support further research.
翻訳日:2023-11-10 14:00:40 公開日:2023-11-09
# SynH2R:人間とロボットのハンドオーバ学習のための手動の合成

SynH2R: Synthesizing Hand-Object Motions for Learning Human-to-Robot Handovers ( http://arxiv.org/abs/2311.05599v1 )

ライセンス: Link先を確認
Sammy Christen and Lan Feng and Wei Yang and Yu-Wei Chao and Otmar Hilliges and Jie Song(参考訳) ビジョンに基づく人間とロボットのハンドオーバは、人間とロボットのインタラクションにおいて重要かつ挑戦的なタスクである。 近年の研究では、ダイナミックな仮想人間と対話してロボットのポリシーを訓練しようと試みており、そこではその後、そのポリシーを現実世界に移すことができる。 しかし、大きなボトルネックは人間のモーションキャプチャーデータへの依存であり、これは取得が高価であり、任意の物体や人間のつかむ動きにスケールすることが困難である。 本稿では,ロボットの訓練に適した人間のつかみ動作を多目的に生成するフレームワークを提案する。 そこで本研究では,人間に類似したハンドオーバフレンドリーな動作を生成するために,手動オブジェクト合成法を提案する。 これにより、以前の作業よりも100倍多くのオブジェクトで、合成トレーニングとテストデータを生成することができます。 本研究では,シミュレーションと実システムの両方で実際の人間の動作データに依存する最先端の手法と,純粋に合成データで訓練された手法が競合することを示す。 また,従来の作業よりも大規模な評価を行うことができる。 新たに導入したテストセットによって,本モデルがベースラインと比較して,未知の物体や人間の動作を多種多様なものにスケールできることを示した。 プロジェクトページ: https://eth-ait.github.io/synthetic-handovers/

Vision-based human-to-robot handover is an important and challenging task in human-robot interaction. Recent work has attempted to train robot policies by interacting with dynamic virtual humans in simulated environments, where the policies can later be transferred to the real world. However, a major bottleneck is the reliance on human motion capture data, which is expensive to acquire and difficult to scale to arbitrary objects and human grasping motions. In this paper, we introduce a framework that can generate plausible human grasping motions suitable for training the robot. To achieve this, we propose a hand-object synthesis method that is designed to generate handover-friendly motions similar to humans. This allows us to generate synthetic training and testing data with 100x more objects than previous work. In our experiments, we show that our method trained purely with synthetic data is competitive with state-of-the-art methods that rely on real human motion data both in simulation and on a real system. In addition, we can perform evaluations on a larger scale compared to prior work. With our newly introduced test set, we show that our model can better scale to a large variety of unseen objects and human motions compared to the baselines. Project page: https://eth-ait.github.io/synthetic-handovers/
翻訳日:2023-11-10 14:00:18 公開日:2023-11-09
# 量子モンテカルロの分類

Sorting Out Quantum Monte Carlo ( http://arxiv.org/abs/2311.05598v1 )

ライセンス: Link先を確認
Jack Richter-Powell, Luca Thiede, Al\'an Asparu-Guzik, David Duvenaud(参考訳) 量子レベルでの分子モデリングは、必要な粒子対称性を尊重し、多くの粒子の系にスケーラブルな波動関数のパラメータ化を選択する必要がある。 フェルミオンのシミュレーションでは、有効なパラメータ化は粒子の交換に関して反対称でなければならない。 通常、反対称性は行列列の交換に関する行列式の反対称性を活用することで強制されるが、これは波動関数が評価されるたびに完全な行列式を計算することを伴う。 代わりに、ソートから派生した新しい反対称性層である$\textit{sortlet}$を導入し、行列式では$O(N^3)$とは対照的に、粒子の数に関して$O(N \log N)$にスケールする。 注意に基づくニューラルネットワークバックボーン上にこの反対称性層を適用すると、第一列原子と小分子の基底状態の近似時に化学精度に到達できる柔軟な波動関数パラメータ化が得られることを数値的に示す。

Molecular modeling at the quantum level requires choosing a parameterization of the wavefunction that both respects the required particle symmetries, and is scalable to systems of many particles. For the simulation of fermions, valid parameterizations must be antisymmetric with respect to the exchange of particles. Typically, antisymmetry is enforced by leveraging the anti-symmetry of determinants with respect to the exchange of matrix rows, but this involves computing a full determinant each time the wavefunction is evaluated. Instead, we introduce a new antisymmetrization layer derived from sorting, the $\textit{sortlet}$, which scales as $O(N \log N)$ with regards to the number of particles -- in contrast to $O(N^3)$ for the determinant. We show numerically that applying this anti-symmeterization layer on top of an attention based neural-network backbone yields a flexible wavefunction parameterization capable of reaching chemical accuracy when approximating the ground state of first-row atoms and small molecules.
翻訳日:2023-11-10 13:59:58 公開日:2023-11-09
# LLM強化階層型エージェント

LLM Augmented Hierarchical Agents ( http://arxiv.org/abs/2311.05596v1 )

ライセンス: Link先を確認
Bharat Prakash, Tim Oates, Tinoosh Mohsenin(参考訳) 強化学習(Reinforcement Learning, RL)を用いた長期的時間的拡張タスクの解決は困難であり, 事前知識(あるいは表層ラサ学習)を伴わない学習が一般的である。 人間は、時間的に拡張されたアクションで計画を作成し実行することができ、スクラッチからほとんど解決しないので、新しいタスクを迅速に実行することを学ぶことができる。 自律的なエージェントが同じ能力を持つようにしたいのです。 近年、LLMは世界に関する膨大な知識を符号化し、テキスト内学習と推論を印象的に行うことが示されている。 しかし,LLMを用いて現実の問題を解決することは,現状の課題に根ざしていないため難しい。 本稿では,LL を用いて環境から学習する上での LLM の計画能力を活用し,LLM を用いて長期的タスクを解く階層的エージェントを実現する。 LLMに完全に依存するのではなく、高いレベルのポリシーをガイドし、学習をはるかに効率的にする。 このアプローチは、MiniGrid、SkillHack、Crafterなどのシミュレーション環境や、ブロック操作タスクにおける実際のロボットアームで評価される。 我々は、我々のアプローチを用いて訓練されたエージェントが、他のベースラインメソッドよりも優れていることを示す。

Solving long-horizon, temporally-extended tasks using Reinforcement Learning (RL) is challenging, compounded by the common practice of learning without prior knowledge (or tabula rasa learning). Humans can generate and execute plans with temporally-extended actions and quickly learn to perform new tasks because we almost never solve problems from scratch. We want autonomous agents to have this same ability. Recently, LLMs have been shown to encode a tremendous amount of knowledge about the world and to perform impressive in-context learning and reasoning. However, using LLMs to solve real world problems is hard because they are not grounded in the current task. In this paper we exploit the planning capabilities of LLMs while using RL to provide learning from the environment, resulting in a hierarchical agent that uses LLMs to solve long-horizon tasks. Instead of completely relying on LLMs, they guide a high-level policy, making learning significantly more sample efficient. This approach is evaluated in simulation environments such as MiniGrid, SkillHack, and Crafter, and on a real robot arm in block manipulation tasks. We show that agents trained using our approach outperform other baselines methods and, once trained, don't need access to LLMs during deployment.
翻訳日:2023-11-10 13:59:39 公開日:2023-11-09
# QUBO問題に対する固定点グロバー適応探索

Fixed-point Grover Adaptive Search for QUBO Problems ( http://arxiv.org/abs/2311.05592v1 )

ライセンス: Link先を確認
\'Akos Nagy, Jaime Park, Cindy Zhang, Atithi Acharya, Alex Khan(参考訳) 二次連立最適化(qubo)問題に対してグローバー型手法を適用し,検討した。 まず、このような問題に対するマーカーオラクルを構築する。 n 次元 QUBO 問題に対して、これらのオラクルは回路深さとゲート数$O \left(n^2 \right)$を持つ。 我々はまた、オラクルの設計とli et alのハイブリッド固定点グローバー探索を用いて、qubo問題に対する新しい固定点グローバー適応探索を開発した。 [8]. この方法はGrover Adaptive Search of Gilliamなどよりも優れた性能を保証する。 [5].

We apply and study a Grover-type method for Quadratic Unconstrained Binary Optimization (QUBO) problems. First, we construct a marker oracle for such problems. For an $n$-dimensional QUBO problem, these oracles have a circuit depth and gate count of $O \left( n^2 \right)$. We also develop a novel Fixed-point Grover Adaptive Search for QUBO Problems, using our oracle design and a hybrid Fixed-point Grover Search of Li et al. [8]. This method has better performance guarantees than the Grover Adaptive Search of Gilliam et al. [5].
翻訳日:2023-11-10 13:59:17 公開日:2023-11-09
# 難治医療における視覚言語モデルの正確性

Accuracy of a Vision-Language Model on Challenging Medical Cases ( http://arxiv.org/abs/2311.05591v1 )

ライセンス: Link先を確認
Thomas Buckley, James A. Diao, Adam Rodman, Arjun K. Manrai(参考訳) 背景: テキストと画像の両方を利用する汎用大規模言語モデルは、様々な挑戦的な医療事例で評価されていない。 方法: 2005年から2023年にかけて公表されたnejm画像チャレンジの934例を用いて視覚モデル(gpt-4v)を用いた生成前訓練トランスフォーマ4の正確性を評価し,質問難易度,画像タイプ,皮膚トーンによる階層化を行った。 さらに,69 NEJM 臨床病理学的カンファレンス (CPCs) における GPT-4V の評価を行った。 テキストのみ、画像のみ、およびテキストと画像の両方を利用したモデルの解析を行った。 結果: GPT-4Vは全体の精度が61% (95% CI, 58~64%) であり, ヒトでは49% (95% CI, 49~50%) であった。 gpt-4vは、あらゆる難易度、不一致、肌色、画像タイプで人間を上回り、例外は、gpt-4vとヒトの回答者の間でパフォーマンスが同等であった放射線画像であった。 GPT-4Vの性能は向上したが,ヒトでは同等であった。 gpt-4vでは、テキストのみを使用する場合のcpcの80% (95% ci, 68から88%) と、画像とテキストの両方を使用する場合のcpcの58% (95% ci, 45から70%) が正しい診断であった。 結論: gpt-4vは, 難治な医療症例において, 被験者を上回っており, 画像とテキストの両方から情報を合成することができたが, 高情報テキストに画像を追加すると, 性能が低下した。 以上の結果から,マルチモーダルAIモデルは診断的推論に有用であるが,精度は文脈に大きく依存する可能性が示唆された。

Background: General-purpose large language models that utilize both text and images have not been evaluated on a diverse array of challenging medical cases. Methods: Using 934 cases from the NEJM Image Challenge published between 2005 and 2023, we evaluated the accuracy of the recently released Generative Pre-trained Transformer 4 with Vision model (GPT-4V) compared to human respondents overall and stratified by question difficulty, image type, and skin tone. We further conducted a physician evaluation of GPT-4V on 69 NEJM clinicopathological conferences (CPCs). Analyses were conducted for models utilizing text alone, images alone, and both text and images. Results: GPT-4V achieved an overall accuracy of 61% (95% CI, 58 to 64%) compared to 49% (95% CI, 49 to 50%) for humans. GPT-4V outperformed humans at all levels of difficulty and disagreement, skin tones, and image types; the exception was radiographic images, where performance was equivalent between GPT-4V and human respondents. Longer, more informative captions were associated with improved performance for GPT-4V but similar performance for human respondents. GPT-4V included the correct diagnosis in its differential for 80% (95% CI, 68 to 88%) of CPCs when using text alone, compared to 58% (95% CI, 45 to 70%) of CPCs when using both images and text. Conclusions: GPT-4V outperformed human respondents on challenging medical cases and was able to synthesize information from both images and text, but performance deteriorated when images were added to highly informative text. Overall, our results suggest that multimodal AI models may be useful in medical diagnostic reasoning but that their accuracy may depend heavily on context.
翻訳日:2023-11-10 13:59:08 公開日:2023-11-09
# 多言語数学的オートフォーマライゼーション

Multilingual Mathematical Autoformalization ( http://arxiv.org/abs/2311.03755v2 )

ライセンス: Link先を確認
Albert Q. Jiang, Wenda Li, Mateja Jamnik(参考訳) 自動形式化(autoformalization)は、自然言語を機械検証可能な形式に変換する作業である。 自己形式化研究の進展は、同じ本質を表現する非公式な形式対からなる大きなデータセットの欠如によって妨げられている。 既存の手法では、小さなコーパスを手動でキュレートしたり、大きな言語モデルで数発の学習を行うことで、この問題を回避する傾向にある。 しかし、これらの手法はデータの不足と正式な言語習得の困難に苦しんでいる。 本研究では,フォーマルな数学的文から対応する形式的文へ,言語モデルを用いて逆方向に翻訳することにより,非公式な形式的ペアの大規模,柔軟,多言語,多ドメインデータセットである$\texttt{mma}$を作成する。 実験によると、$\texttt{MMA}$で微調整された言語モデルは、$\texttt{miniF2F}$と$\texttt{ProofNet}$ベンチマークで最小限の修正で許容される文の16-18\%$を生成します。 多言語形式データの微調整により,単言語タスクにデプロイしても,より有能な自己形成モデルが得られることを示す。

Autoformalization is the task of translating natural language materials into machine-verifiable formalisations. Progress in autoformalization research is hindered by the lack of a sizeable dataset consisting of informal-formal pairs expressing the same essence. Existing methods tend to circumvent this challenge by manually curating small corpora or using few-shot learning with large language models. But these methods suffer from data scarcity and formal language acquisition difficulty. In this work, we create $\texttt{MMA}$, a large, flexible, multilingual, and multi-domain dataset of informal-formal pairs, by using a language model to translate in the reverse direction, that is, from formal mathematical statements into corresponding informal ones. Experiments show that language models fine-tuned on $\texttt{MMA}$ produce $16-18\%$ of statements acceptable with minimal corrections on the $\texttt{miniF2F}$ and $\texttt{ProofNet}$ benchmarks, up from $0\%$ with the base model. We demonstrate that fine-tuning on multilingual formal data results in more capable autoformalization models even when deployed on monolingual tasks.
翻訳日:2023-11-10 12:12:23 公開日:2023-11-09
# NLPモデル一般化のための臨床研究の原理

Principles from Clinical Research for NLP Model Generalization ( http://arxiv.org/abs/2311.03663v2 )

ライセンス: Link先を確認
Aparna Elangovan, Jiayuan He, Yuan Li, Karin Verspoor(参考訳) NLPコミュニティは通常、一般化を評価するためにホールドアウトテストセットでモデルのパフォーマンスに依存する。 公式のテストセット以外でデータセットで観察されるパフォーマンス低下は、一般的に"分散外"効果に起因する。 そこで本研究では,一般性の基礎を探求し,その影響する諸要因について考察し,臨床研究から一般性を学ぶ。 臨床研究の一般性は a)原因及び効果の制御された測定を確実にするための実験の内部妥当性及び (b)より広い人口に対して結果の外部的妥当性又は輸送性。 本稿では,自然言語処理における機械学習モデル構築において,内部的妥当性を確保する必要性について述べる。 本研究では,関係抽出タスクにおけるエンティティ間の距離などの素因がモデル内部の妥当性にどのように影響し,一般化に悪影響を及ぼすかを示す。 また、一般化失敗の分析方法に関するガイダンスも提供します。

The NLP community typically relies on performance of a model on a held-out test set to assess generalization. Performance drops observed in datasets outside of official test sets are generally attributed to "out-of-distribution'' effects. Here, we explore the foundations of generalizability and study the various factors that affect it, articulating generalizability lessons from clinical studies. In clinical research generalizability depends on (a) internal validity of experiments to ensure controlled measurement of cause and effect, and (b) external validity or transportability of the results to the wider population. We present the need to ensure internal validity when building machine learning models in natural language processing, especially where results may be impacted by spurious correlations in the data. We demonstrate how spurious factors, such as the distance between entities in relation extraction tasks, can affect model internal validity and in turn adversely impact generalization. We also offer guidance on how to analyze generalization failures.
翻訳日:2023-11-10 12:12:00 公開日:2023-11-09
# 造形回復性脳状態復号のためのホップフィールド強化深層ニューラルネットワーク

Hopfield-Enhanced Deep Neural Networks for Artifact-Resilient Brain State Decoding ( http://arxiv.org/abs/2311.03421v2 )

ライセンス: Link先を確認
Arnau Marin-Llobet and Arnau Manasanch and Maria V. Sanchez-Vives(参考訳) 睡眠覚醒サイクルのような、高度に同期した状態から非同期な神経パターンまで、脳の状態の研究は、脳の時空間的ダイナミクスと行動との密接な関係を評価するための基礎となる。 しかし、これらを正確に識別する新しい技術の開発は、ノイズ、アーティファクト、および準最適記録品質の存在によってしばしば損なわれるため、依然として課題である。 本研究では, ホップフィールド・ネットワークとコンボリューショナル・ニューラル・ネットワーク(CNN)を組み合わせた2段階の計算フレームワークを提案し, 麻酔レベルの違いによるラット神経記録の脳状態の分類を行った。 枠組みの堅牢性を評価するため,我々は意図的にノイズアーティファクトを神経記録に導入した。 2つの比較モデル – 同じノイズの入力を処理するスタンドアロンCNNと,アーティファクトフリーなデータでトレーニングおよびテストされた別のCNN – に対して,私たちのハイブリッドHopfield-CNNパイプラインを評価した。 様々なレベルのデータ圧縮とノイズ強度のパフォーマンスは、我々のフレームワークが効果的にアーティファクトを軽減し、より低いノイズレベルでクリーンデータcnnと同等のレベルに到達できることを示しました。 本研究は主に小規模実験に有効であるが, 多様な実世界の環境におけるスケーラビリティとロバスト性を改善するために, 高度なディープラーニングモデルとホップフィールドネットワークモデルの必要性を強調した。

The study of brain states, ranging from highly synchronous to asynchronous neuronal patterns like the sleep-wake cycle, is fundamental for assessing the brain's spatiotemporal dynamics and their close connection to behavior. However, the development of new techniques to accurately identify them still remains a challenge, as these are often compromised by the presence of noise, artifacts, and suboptimal recording quality. In this study, we propose a two-stage computational framework combining Hopfield Networks for artifact data preprocessing with Convolutional Neural Networks (CNNs) for classification of brain states in rat neural recordings under different levels of anesthesia. To evaluate the robustness of our framework, we deliberately introduced noise artifacts into the neural recordings. We evaluated our hybrid Hopfield-CNN pipeline by benchmarking it against two comparative models: a standalone CNN handling the same noisy inputs, and another CNN trained and tested on artifact-free data. Performance across various levels of data compression and noise intensities showed that our framework can effectively mitigate artifacts, allowing the model to reach parity with the clean-data CNN at lower noise levels. Although this study mainly benefits small-scale experiments, the findings highlight the necessity for advanced deep learning and Hopfield Network models to improve scalability and robustness in diverse real-world settings.
翻訳日:2023-11-10 12:11:47 公開日:2023-11-09
# 進化戦略に基づくコミュニケーション効率・プライバシ保護フェデレーション学習

Communication Efficient and Privacy-Preserving Federated Learning Based on Evolution Strategies ( http://arxiv.org/abs/2311.03405v2 )

ライセンス: Link先を確認
Guangchen Lan(参考訳) Federated Learning(FL)は、ディープニューラルネットワーク(DNN)を分散的にトレーニングするための新興パラダイムである。 現在のFLアプローチは、すべて高い通信オーバーヘッドと情報漏洩に悩まされている。 本研究では,ゼロオーダー学習法である進化戦略(FedES)に基づくフェデレーション学習アルゴリズムを提案する。 モデルパラメータを送信する代わりに、FedESは損失値のみを通信し、通信オーバーヘッドが非常に低い。 さらに、サードパーティは、データプライバシを保護する事前共有されたシードを知ることなく、勾配を見積もることができない。 実験の結果,fedesは逆伝播法と同様に収束性能を維持しつつ,上記の利点を享受できることがわかった。

Federated learning (FL) is an emerging paradigm for training deep neural networks (DNNs) in distributed manners. Current FL approaches all suffer from high communication overhead and information leakage. In this work, we present a federated learning algorithm based on evolution strategies (FedES), a zeroth-order training method. Instead of transmitting model parameters, FedES only communicates loss values, and thus has very low communication overhead. Moreover, a third party is unable to estimate gradients without knowing the pre-shared seed, which protects data privacy. Experimental results demonstrate FedES can achieve the above benefits while keeping convergence performance the same as that with back propagation methods.
翻訳日:2023-11-10 12:11:24 公開日:2023-11-09
# 混合整数線形最適化のための可変切削平面層

Differentiable Cutting-plane Layers for Mixed-integer Linear Optimization ( http://arxiv.org/abs/2311.03350v3 )

ライセンス: Link先を確認
Gabriele Dragotto, Stefan Clarke, Jaime Fern\'andez Fisac, Bartolomeo Stellato(参考訳) 入力データの一部が変化するパラメトリック混合整数線形最適化問題の一群を解決する問題を考える。 本稿では,切削平面層(CPL)の概念,すなわち,問題データと過去の繰り返しを切断平面にマッピングする識別可能な切削平面発生器を紹介する。 我々は分割カットを生成するためのCPLの実装を提案し、いくつかのCPLを組み合わせることでパラメトリックインスタンスの繰り返しの性質を生かした微分可能なカットプレーンアルゴリズムを考案した。 オフラインフェーズでは、CPLを制御する内部パラメータを更新し、カット生成を変更することでアルゴリズムを訓練する。 一度トレーニングすると、アルゴリズムは、予測可能な実行時間と一定数のカット、低い積分ギャップの解を計算します。 予備計算実験により,本アルゴリズムは未知のインスタンスを一般化し,基礎となるパラメトリック構造を捉える。

We consider the problem of solving a family of parametric mixed-integer linear optimization problems where some entries in the input data change. We introduce the concept of cutting-plane layer (CPL), i.e., a differentiable cutting-plane generator mapping the problem data and previous iterates to cutting planes. We propose a CPL implementation to generate split cuts, and by combining several CPLs, we devise a differentiable cutting-plane algorithm that exploits the repeated nature of parametric instances. In an offline phase, we train our algorithm by updating the internal parameters controlling the CPLs, thus altering cut generation. Once trained, our algorithm computes, with predictable execution times and a fixed number of cuts, solutions with low integrality gaps. Preliminary computational tests show that our algorithm generalizes on unseen instances and captures underlying parametric structures.
翻訳日:2023-11-10 12:11:13 公開日:2023-11-09
# 文脈付き1つの2dポーズは、人間の3dポーズ推定に数百ドルに値する

A Single 2D Pose with Context is Worth Hundreds for 3D Human Pose Estimation ( http://arxiv.org/abs/2311.03312v2 )

ライセンス: Link先を確認
Qitao Zhao, Ce Zheng, Mengyuan Liu, Chen Chen(参考訳) 2次元ポーズ列を3Dに引き上げる3次元ポーズ推定における支配的なパラダイムは、パフォーマンス飽和、難解な計算および非因果問題を引き起こす、精度を向上させるための長期的時間的手がかり(すなわち、ビデオフレームの数が多い)に大きく依存する。 これは、通常の2次元の関節座標が視覚的手がかりを持たないため、空間的文脈を知覚できないことに起因する。 この問題に対処するため,我々は,市販の2Dポーズ検出器が生成する,手軽に利用可能な中間的視覚表現を活用するという,簡単かつ強力なソリューションを提案する。 重要な観察は、ポーズ検出器が2dジョイントをローカライズすることを学ぶ一方で、そのような表現(例えば特徴マップ)はバックボーンネットワークの地域操作によって、暗黙的にジョイント中心の空間コンテキストを符号化する。 我々はContext-Aware PoseFormerというシンプルなベースラインを設計し、その効果を示す。 時間的情報へのアクセスがなければ、提案手法は、速度と精度の両方について最大数百のビデオフレームを使用して、文脈に依存しないコンテクスト、ポーズフォーマー、その他の最先端手法を大幅に上回る。 プロジェクトページ: https://qitaozhao.github.io/ContextAware-PoseFormer

The dominant paradigm in 3D human pose estimation that lifts a 2D pose sequence to 3D heavily relies on long-term temporal clues (i.e., using a daunting number of video frames) for improved accuracy, which incurs performance saturation, intractable computation and the non-causal problem. This can be attributed to their inherent inability to perceive spatial context as plain 2D joint coordinates carry no visual cues. To address this issue, we propose a straightforward yet powerful solution: leveraging the readily available intermediate visual representations produced by off-the-shelf (pre-trained) 2D pose detectors -- no finetuning on the 3D task is even needed. The key observation is that, while the pose detector learns to localize 2D joints, such representations (e.g., feature maps) implicitly encode the joint-centric spatial context thanks to the regional operations in backbone networks. We design a simple baseline named Context-Aware PoseFormer to showcase its effectiveness. Without access to any temporal information, the proposed method significantly outperforms its context-agnostic counterpart, PoseFormer, and other state-of-the-art methods using up to hundreds of video frames regarding both speed and precision. Project page: https://qitaozhao.github.io/ContextAware-PoseFormer
翻訳日:2023-11-10 12:10:57 公開日:2023-11-09
# SemanticTopoLoop: 擬似レベルオブジェクトマップに基づく3次元トポロジカルグラフを用いたセマンティックループクロージャ

SemanticTopoLoop: Semantic Loop Closure With 3D Topological Graph Based on Quadric-Level Object Map ( http://arxiv.org/abs/2311.02831v3 )

ライセンス: Link先を確認
Zhenzhong Cao(参考訳) SLAMにおける重要なコンポーネントの1つであるループクロージャは、蓄積したエラーを修正する上で重要な役割を果たす。 bag-of-wordsモデルのような伝統的な外観ベースの手法は、しばしば局所的な2d特徴とトレーニングデータの量によって制限され、現実世界のシナリオでは汎用性や堅牢性が低下し、ループクロージャでの誤検出や誤検出に繋がる。 これらの課題に対処するために,我々はまず,現在のフレームの2次元意味的特徴と地図の3次元オブジェクトランドマークを関連付ける多段階検証に基づくオブジェクトレベルのデータアソシエーション手法を提案する。 次に,これらの関係を生かした2次オブジェクトマップトポロジに基づくセマンティックループクロージャ手法を導入する。これはオブジェクトのトポロジグラフを通してシーンを表現し,トポロジグラフの違いを比較することによって,広い視野で正確なループクロージャを実現する。 最後に、これら2つの手法を完全なオブジェクト認識SLAMシステムに統合する。 定性的実験とアブレーション研究は、提案したオブジェクトレベルのデータアソシエーションアルゴリズムの有効性とロバスト性を示す。 定量的な実験により,semantic loop closure法が既存の最先端手法よりも精度,リコール,ローカライズ精度の指標で優れていることが示された。

Loop closure, as one of the crucial components in SLAM, plays an essential role in correcting the accumulated errors. Traditional appearance-based methods, such as bag-of-words models, are often limited by local 2D features and the volume of training data, making them less versatile and robust in real-world scenarios, leading to missed detections or false positives detections in loop closure. To address these issues, we first propose a object-level data association method based on multi-level verification, which can associate 2D semantic features of current frame with 3D objects landmarks of map. Next, taking advantage of these association relations, we introduce a semantic loop closure method based on quadric-level object map topology, which represents scenes through the topological graph of objects and achieves accurate loop closure at a wide field of view by comparing differences in the topological graphs. Finally, we integrate these two methods into a complete object-aware SLAM system. Qualitative experiments and ablation studies demonstrate the effectiveness and robustness of the proposed object-level data association algorithm. Quantitative experiments show that our semantic loop closure method outperforms existing state-of-the-art methods in terms of precision, recall and localization accuracy metrics.
翻訳日:2023-11-10 12:10:31 公開日:2023-11-09
# グリーンコンピューティングの機会について:調査

On the Opportunities of Green Computing: A Survey ( http://arxiv.org/abs/2311.00447v3 )

ライセンス: Link先を確認
You Zhou, Xiujing Lin, Xiang Zhang, Maolin Wang, Gangwei Jiang, Huakang Lu, Yupeng Wu, Kai Zhang, Zhe Yang, Kehang Wang, Yongduo Sui, Fengwei Jia, Zuoli Tang, Yao Zhao, Hongxuan Zhang, Tiannuo Yang, Weibo Chen, Yunong Mao, Yi Li, De Bao, Yu Li, Hongrui Liao, Ting Liu, Jingwen Liu, Jinchi Guo, Xiangyu Zhao, Ying WEI, Hong Qian, Qi Liu, Xiang Wang, Wai Kin (Victor) Chan, Chenliang Li, Yusen Li, Shiyu Yang, Jining Yan, Chao Mou, Shuai Han, Wuxia Jin, Guannan Zhang and Xiaodong Zeng(参考訳) 人工知能(AI)は、数十年にわたって技術と研究において大きな進歩を遂げており、コンピュータビジョン、自然言語処理、時系列分析、音声合成など、多くの分野で広く利用されている。 ディープラーニングの時代、特に大規模言語モデルの出現とともに、研究者の関心の多くは、新たな最先端(sota)結果の追求に費やされ、モデルサイズと計算複雑性が永遠に増大する結果となった。 高コンピューティングパワーの必要性は、研究に参加する資金が限られている中小規模の研究機関や企業を防ぎ、高い二酸化炭素排出量をもたらし、研究の公平性を損なう。 コンピューティングリソースの課題とAIの環境への影響に取り組むため、グリーンコンピューティングはホットな研究トピックとなっている。 本調査では,グリーンコンピューティングで使用される技術について,系統的に概説する。 グリーンコンピューティングの枠組みを提案し,(1)グリーンネスの尺度,(2)エネルギー効率のよいai,(3)エネルギー効率のよいコンピューティングシステム,(4)持続可能性のためのaiユースケース,の4つの要素に展開する。 各コンポーネントについて、AI効率を最適化する研究の進歩と、一般的に使われている技術について論じる。 この新たな研究の方向性は、リソース制約とai開発の間の衝突に対処する可能性を秘めていると結論づける。 私たちは、より多くの研究者がこの方向に注目し、aiをより環境にやさしいものにすることを奨励します。

Artificial Intelligence (AI) has achieved significant advancements in technology and research with the development over several decades, and is widely used in many areas including computing vision, natural language processing, time-series analysis, speech synthesis, etc. During the age of deep learning, especially with the arise of Large Language Models, a large majority of researchers' attention is paid on pursuing new state-of-the-art (SOTA) results, resulting in ever increasing of model size and computational complexity. The needs for high computing power brings higher carbon emission and undermines research fairness by preventing small or medium-sized research institutions and companies with limited funding in participating in research. To tackle the challenges of computing resources and environmental impact of AI, Green Computing has become a hot research topic. In this survey, we give a systematic overview of the technologies used in Green Computing. We propose the framework of Green Computing and devide it into four key components: (1) Measures of Greenness, (2) Energy-Efficient AI, (3) Energy-Efficient Computing Systems and (4) AI Use Cases for Sustainability. For each components, we discuss the research progress made and the commonly used techniques to optimize the AI efficiency. We conclude that this new research direction has the potential to address the conflicts between resource constraints and AI development. We encourage more researchers to put attention on this direction and make AI more environmental friendly.
翻訳日:2023-11-10 12:09:59 公開日:2023-11-09
# デブリ・破壊・アーティファクト粒子を用いたtem画像からの無傷アデノウイルス自動検出のための畳み込みニューラルネットワーク

Convolutional Neural Networks for Automatic Detection of Intact Adenovirus from TEM Imaging with Debris, Broken and Artefacts Particles ( http://arxiv.org/abs/2310.19630v3 )

ライセンス: Link先を確認
Olivier Rukundo, Andrea Behanova, Riccardo De Feo, Seppo Ronkko, Joni Oja, Jussi Tohka(参考訳) 製造および製造過程における医薬品の一次粒子および純度プロファイルの定期的なモニタリングは、製造者が製品の変動や汚染を避けるために不可欠である。 透過電子顕微鏡(TEM)イメージングは、ウイルスベースの遺伝子治療ベクター製品と中間体において、変化が粒子の特性と純度に与える影響を予測するのに役立つ。 無傷粒子は有効成分を特徴付けることができるため、粉体、破砕物、アーティファクト粒子を混合した非インタクトウイルス背景に対する無傷アデノウイルスの検出を自動化することが有用である。 このような粒子の存在下では、無傷アデノウイルスの検出がより困難になる。 この課題を克服するため,我々は,アデノウイルスのセミオートアノテーションとセグメンテーションのためのソフトウェアツールと,temイメージングシステムにおける無傷アデノウイルスの自動セグメンテーションと検出のためのソフトウェアツールを開発した。 開発した半自動ツールは従来の画像解析手法を活用し,畳み込みニューラルネットワークと画像解析技術に基づいて自動ツールを構築した。 定量・定性評価の結果, 真正検出率は偽陽性, 陰性で, アデノウイルスは本物のデブリや破断性アデノウイルス, 染色性アーティファクトと誤認することなく良好な検出率を示した。

Regular monitoring of the primary particles and purity profiles of a drug product during development and manufacturing processes is essential for manufacturers to avoid product variability and contamination. Transmission electron microscopy (TEM) imaging helps manufacturers predict how changes affect particle characteristics and purity for virus-based gene therapy vector products and intermediates. Since intact particles can characterize efficacious products, it is beneficial to automate the detection of intact adenovirus against a non-intact-viral background mixed with debris, broken, and artefact particles. In the presence of such particles, detecting intact adenoviruses becomes more challenging. To overcome the challenge, due to such a presence, we developed a software tool for semi-automatic annotation and segmentation of adenoviruses and a software tool for automatic segmentation and detection of intact adenoviruses in TEM imaging systems. The developed semi-automatic tool exploited conventional image analysis techniques while the automatic tool was built based on convolutional neural networks and image analysis techniques. Our quantitative and qualitative evaluations showed outstanding true positive detection rates compared to false positive and negative rates where adenoviruses were nicely detected without mistaking them for real debris, broken adenoviruses, and/or staining artefacts.
翻訳日:2023-11-10 12:09:09 公開日:2023-11-09
# pvシステムのリモートセンシング画像取得におけるロバスト性を確実に向上できるか?

Can We Reliably Improve the Robustness to Image Acquisition of Remote Sensing of PV Systems? ( http://arxiv.org/abs/2309.12214v3 )

ライセンス: Link先を確認
Gabriel Kasmi and Laurent Dubus and Yves-Marie Saint-Drenan and Philippe Blanc(参考訳) 太陽光発電(PV)エネルギーはエネルギーシステムの脱炭に不可欠である。 集中型データがないため、屋上PVの遠隔センシングは、屋根上に設置されたPVの進化を地域規模で監視する最良の選択肢である。 しかし、現在の技術は信頼性に欠けており、買収条件の変化に特に敏感である。 これを解決するために、宇宙スケール領域におけるモデルの予測を分解するウェーブレットスケール属性法(WCAM)を利用する。 WCAMは、PVモデルのどのスケールで表現するかを評価することができ、取得条件に対する堅牢性を改善する手法を導出するための洞察を与え、それによってディープラーニングシステムの信頼を高め、電気システムにおけるクリーンエネルギーの安全な統合を奨励する。

Photovoltaic (PV) energy is crucial for the decarbonization of energy systems. Due to the lack of centralized data, remote sensing of rooftop PV installations is the best option to monitor the evolution of the rooftop PV installed fleet at a regional scale. However, current techniques lack reliability and are notably sensitive to shifts in the acquisition conditions. To overcome this, we leverage the wavelet scale attribution method (WCAM), which decomposes a model's prediction in the space-scale domain. The WCAM enables us to assess on which scales the representation of a PV model rests and provides insights to derive methods that improve the robustness to acquisition conditions, thus increasing trust in deep learning systems to encourage their use for the safe integration of clean energy in electric systems.
翻訳日:2023-11-10 12:08:45 公開日:2023-11-09
# マルチモーダル微分方程式解法としての微動言語モデル

Fine-Tune Language Models as Multi-Modal Differential Equation Solvers ( http://arxiv.org/abs/2308.05061v3 )

ライセンス: Link先を確認
Liu Yang, Siting Liu, Stanley J. Osher(参考訳) 科学機械学習の領域が拡大する中で、文脈内演算子学習は、重み更新のない推論段階において、学習演算子や誘導データを用いた微分方程式の解法において顕著なポテンシャルを示した。 しかし、現在のモデルの関数データへの過度な依存は、不注意に操作者に対する人間的洞察を見落としているかもしれない。 そこで本稿では,マルチモーダルパラダイムへのインコンテクスト演算子学習の変換について述べる。 特に,近年の大規模言語モデルの成功から着想を得て,自然言語記述と方程式を用いて表現された操作者に関する人間知識を統合するための"captions"の利用を提案する。 また,言語モデルライクなアーキテクチャをトレーニングするための新しいアプローチや,コンテキスト内演算子学習のための言語モデルを直接微調整する手法も導入する。 我々は単一モーダル学習タスクのベースラインを破り、性能の向上と機能データ要求の低減にマルチモーダル学習の有効性を実証した。 提案手法は,文脈内演算子学習を著しく改善するだけでなく,言語モデルに適用するための新たなパスを生成する。

In the growing domain of scientific machine learning, in-context operator learning has shown notable potential in learning operators and solving differential equations using prompted data, during the inference stage without weight updates. However, the current model's overdependence on function data, may inadvertently overlook the invaluable human insight into the operator. To address this, we present a transformation of in-context operator learning into a multi-modal paradigm. In particular, we take inspiration from the recent success of large language models, and propose using "captions" to integrate human knowledge about the operator, expressed through natural language descriptions and equations. Also, we introduce a novel approach to train a language-model-like architecture, or directly fine-tune existing language models, for in-context operator learning. We beat the baseline on single-modal learning tasks, and also demonstrated the effectiveness of multi-modal learning in enhancing performance and reducing function data requirements. The proposed method not only significantly improves in-context operator learning, but also creates a new path for the application of language models.
翻訳日:2023-11-10 12:08:31 公開日:2023-11-09
# TopP&R: 生成モデルの忠実度と多様性を評価するロバスト支援推定手法

TopP&R: Robust Support Estimation Approach for Evaluating Fidelity and Diversity in Generative Models ( http://arxiv.org/abs/2306.08013v5 )

ライセンス: Link先を確認
Pum Jun Kim, Yoojin Jang, Jisu Kim, Jaejun Yoo(参考訳) 本稿では,厳密な支持推定のためのトポロジカルおよび統計的処理を導入することにより,生成モデルに対する堅牢で信頼性の高い評価指標を提案する。 inception score (is), frechet inception distance (fid), and the variants of precision and recall (p&r)といった既存のメトリクスは、サンプル機能から推定されるサポートに大きく依存している。 しかし、評価の質が全く依存しているにもかかわらず、それらの評価の信頼性は真剣に議論されていない(そして見落としている)。 本稿では,位相的および統計的に重要な特徴のみをある程度の信頼度で保持し,サポートを推定するための体系的アプローチとして,位相的精度とリコール(topp&r,「topper」と発音する)を提案する。 これにより、TopP&Rはノイズの多い機能に対して強固になるだけでなく、統計的一貫性も提供する。 理論および実験結果から,TopP&Rは試料の真の変化傾向を正確に把握しつつ,非独立かつ同一に分布する(Non-IID)摂動に対して堅牢であることが示された。 我々の知る限りでは、これはサポートの堅牢な見積もりに焦点を当てた最初の評価基準であり、ノイズ下での統計的一貫性を提供する。

We propose a robust and reliable evaluation metric for generative models by introducing topological and statistical treatments for rigorous support estimation. Existing metrics, such as Inception Score (IS), Frechet Inception Distance (FID), and the variants of Precision and Recall (P&R), heavily rely on supports that are estimated from sample features. However, the reliability of their estimation has not been seriously discussed (and overlooked) even though the quality of the evaluation entirely depends on it. In this paper, we propose Topological Precision and Recall (TopP&R, pronounced 'topper'), which provides a systematic approach to estimating supports, retaining only topologically and statistically important features with a certain level of confidence. This not only makes TopP&R strong for noisy features, but also provides statistical consistency. Our theoretical and experimental results show that TopP&R is robust to outliers and non-independent and identically distributed (Non-IID) perturbations, while accurately capturing the true trend of change in samples. To the best of our knowledge, this is the first evaluation metric focused on the robust estimation of the support and provides its statistical consistency under noise.
翻訳日:2023-11-10 12:08:10 公開日:2023-11-09
# Image Captionersはスケーラブルな視覚学習ツール

Image Captioners Are Scalable Vision Learners Too ( http://arxiv.org/abs/2306.07915v3 )

ライセンス: Link先を確認
Michael Tschannen, Manoj Kumar, Andreas Steiner, Xiaohua Zhai, Neil Houlsby, Lucas Beyer(参考訳) webからのイメージテキストペアでのコントラストプリトレーニングは、ビジョンバックボーン、特に大規模マルチモーダルモデルのコンテキストにおいて、最も一般的な大規模プリトレーニング戦略の1つです。 同時に、この種のデータに対する画像キャプションは、一般的に、劣等な事前訓練戦略とみなされる。 本稿では,この2つの事前学習戦略を公正に比較し,学習データ,計算量,モデル容量を慎重にマッチングする。 分類タスクにおいて、キャプションは、視覚と言語タスクでそれらを上回りながら、コントラスト的に事前学習されたエンコーダと競合する視覚エンコーダを生成します。 さらに,モデルアーキテクチャとスケール,および事前学習データが表現品質に与える影響を解析し,これらの軸に沿ってキャプションが同等かそれ以上のスケーリング行動を示すことを見出した。 その結果,画像の字幕化は従来考えられていたよりも強力な事前学習戦略であることが示唆された。

Contrastive pretraining on image-text pairs from the web is one of the most popular large-scale pretraining strategies for vision backbones, especially in the context of large multimodal models. At the same time, image captioning on this type of data is commonly considered an inferior pretraining strategy. In this paper, we perform a fair comparison of these two pretraining strategies, carefully matching training data, compute, and model capacity. Using a standard encoder-decoder transformer, we find that captioning alone is surprisingly effective: on classification tasks, captioning produces vision encoders competitive with contrastively pretrained encoders, while surpassing them on vision & language tasks. We further analyze the effect of the model architecture and scale, as well as the pretraining data on the representation quality, and find that captioning exhibits the same or better scaling behavior along these axes. Overall our results show that plain image captioning is a more powerful pretraining strategy than was previously believed.
翻訳日:2023-11-10 12:07:45 公開日:2023-11-09
# ウェーブレット領域への属性の一般化によるモデル決定の信頼性の評価

Assessment of the Reliablity of a Model's Decision by Generalizing Attribution to the Wavelet Domain ( http://arxiv.org/abs/2305.14979v5 )

ライセンス: Link先を確認
Gabriel Kasmi and Laurent Dubus and Yves-Marie Saint Drenan and Philippe Blanc(参考訳) ニューラルネットワークはコンピュータビジョンにおいて顕著な性能を示しているが、そのブラックボックスの性質から、多くの科学および技術分野への展開は困難である。 科学者や実践者は、意思決定の信頼性、すなわちモデルが関連する特徴に依存しているかどうか、そしてそれらの特徴が画像の腐敗に対して堅牢であるかどうかを同時に知る必要がある。 既存の属性法は、画像領域の重要な領域を強調することで、人間の理解可能な説明を提供することを目的としている。 このギャップを埋めるために、ウェーブレット変換を用いた画素領域から空間スケール領域への属性の一般化であるWavelet sCale Attribution Method (WCAM)を導入する。 ウェーブレット領域の属性は、モデルがどのスケールに焦点を当てているかを明らかにし、決定が信頼できるかどうかを評価することができる。 コードはここでアクセスできます。 \url{https://github.com/gabrielkasmi/spectral-attribution}。

Neural networks have shown remarkable performance in computer vision, but their deployment in numerous scientific and technical fields is challenging due to their black-box nature. Scientists and practitioners need to evaluate the reliability of a decision, i.e., to know simultaneously if a model relies on the relevant features and whether these features are robust to image corruptions. Existing attribution methods aim to provide human-understandable explanations by highlighting important regions in the image domain, but fail to fully characterize a decision process's reliability. To bridge this gap, we introduce the Wavelet sCale Attribution Method (WCAM), a generalization of attribution from the pixel domain to the space-scale domain using wavelet transforms. Attribution in the wavelet domain reveals where and on what scales the model focuses, thus enabling us to assess whether a decision is reliable. Our code is accessible here: \url{https://github.com/gabrielkasmi/spectral-attribution}.
翻訳日:2023-11-10 12:07:26 公開日:2023-11-09
# longqlora: 大きな言語モデルのコンテキスト長を拡張する効率的かつ効果的な方法

LongQLoRA: Efficient and Effective Method to Extend Context Length of Large Language Models ( http://arxiv.org/abs/2311.04879v2 )

ライセンス: Link先を確認
Jianxin Yang(参考訳) 学習リソースの少ない大規模言語モデルのコンテキスト長を拡張可能な,効率的かつ効果的な手法であるlongqloraを提案する。 LongQLoRAは、位置補間、QLoRA、LongLoRAのシフトショートアテンションの利点を組み合わせたものだ。 単一の32GB V100 GPUで、LongQLoRAはLLaMA2 7Bと13Bのコンテキスト長を4096年から8192、1000ステップ以内の12kまで拡張することができる。 LongQLoRA は PG19 および Proof-Pile データセット上での競合パープレキシティ性能を実現し,LongLoRA よりも優れ,評価コンテキスト長 8192 のMPT-7B-8K に非常に近い。 Vicuna-13Bのコンテキスト長を4096年から8192まで拡張するために,39k長の命令データを収集,構築し,長いコンテキスト生成タスクと短いコンテキスト生成タスクの両方で優れた性能を実現する。 また、loraランク、微調整ステップ、推論における注意パターンの影響を研究するために、いくつかのアブレーション実験も行っています。モデルの重み付け、トレーニングデータ、コードはhttps://github.com/yangjianxin1/longqlora.com.comで評価可能です。

We present LongQLoRA, an efficient and effective method to extend context length of large language models with less training resources. LongQLoRA combines the advantages of Position Interpolation, QLoRA and Shift Short Attention of LongLoRA. With a single 32GB V100 GPU, LongQLoRA can extend the context length of LLaMA2 7B and 13B from 4096 to 8192 and even to 12k within 1000 finetuning steps. LongQLoRA achieves competitive perplexity performance on PG19 and Proof-pile datasets, our model outperforms LongLoRA and is very close to MPT-7B-8K within the evaluation context length of 8192. We collect and build 39k long instruction data to extend context length of Vicuna-13B from 4096 to 8192 and achieve good performance both in long and short context generation task. We also do some ablation experiments to study the effect of LoRA rank, finetuning steps and attention patterns in inference.The model weights, training data and code are avaliable at https://github.com/yangjianxin1/LongQLoRA.
翻訳日:2023-11-10 12:00:11 公開日:2023-11-09
# SODAWideNet -- ImageNet事前トレーニングなしのアテンション拡張ワイドエンコーダデコーダネットワークによる有能なオブジェクト検出

SODAWideNet -- Salient Object Detection with an Attention augmented Wide Encoder Decoder network without ImageNet pre-training ( http://arxiv.org/abs/2311.04828v2 )

ライセンス: Link先を確認
Rohit Venkata Sai Dulam and Chandra Kambhamettu(参考訳) 新しいSalient Object Detection(SOD)モデルの開発には、ImageNet事前訓練されたバックボーンを選択し、バックボーン機能を使用するための新しい機能改善モジュールを作成することが含まれる。 しかし、トレーニング済みのバックボーンに新しいコンポーネントを追加するには、ImageNetデータセットでネットワーク全体をトレーニングする必要がある。 したがって、ImageNet事前学習なしでSODで直接訓練されたスクラッチからニューラルネットワークを開発することを検討する。 このような定式化はタスク固有のコンポーネントを設計するための完全な自律性を提供します。 そこで本研究では,オブジェクト検出のためのエンコーダデコーダ型ネットワークである sodawidenet を提案する。 我々は、狭く深い畳み込みモデルという一般的なパラダイムから、広く浅いアーキテクチャへと逸脱し、パラメータ効率のよいディープニューラルネットワークを生み出した。 より浅いネットワークを実現するために,拡張畳み込みと自己認識の組み合わせを用いて,ネットワークの開始から受容野を増加させる。 そこで我々は, 拡張畳み込みを用いた高分解能で, 遠方領域からの識別特性を効率的に取得するMRFFAM(Multi Receptive Field Feature Aggregation Module)を提案する。 次に,マルチスケール注意(Multi-Scale Attention,MSA)を提案する。これは特徴ピラミッドを作成し,複数の解像度にまたがる注意を効率よく計算し,より大きな特徴マップからグローバルな特徴を抽出する。 最後に,5つのデータセット上の最先端モデルに対する競合性能を実現するため,SODAWideNet-S (3.03M) と SODAWideNet (9.03M) の2つの変種を提案する。

Developing a new Salient Object Detection (SOD) model involves selecting an ImageNet pre-trained backbone and creating novel feature refinement modules to use backbone features. However, adding new components to a pre-trained backbone needs retraining the whole network on the ImageNet dataset, which requires significant time. Hence, we explore developing a neural network from scratch directly trained on SOD without ImageNet pre-training. Such a formulation offers full autonomy to design task-specific components. To that end, we propose SODAWideNet, an encoder-decoder-style network for Salient Object Detection. We deviate from the commonly practiced paradigm of narrow and deep convolutional models to a wide and shallow architecture, resulting in a parameter-efficient deep neural network. To achieve a shallower network, we increase the receptive field from the beginning of the network using a combination of dilated convolutions and self-attention. Therefore, we propose Multi Receptive Field Feature Aggregation Module (MRFFAM) that efficiently obtains discriminative features from farther regions at higher resolutions using dilated convolutions. Next, we propose Multi-Scale Attention (MSA), which creates a feature pyramid and efficiently computes attention across multiple resolutions to extract global features from larger feature maps. Finally, we propose two variants, SODAWideNet-S (3.03M) and SODAWideNet (9.03M), that achieve competitive performance against state-of-the-art models on five datasets.
翻訳日:2023-11-10 11:59:46 公開日:2023-11-09
# マイクロサービスへのリファクタリングツール: 予備的なユーザビリティレポート

Tools for Refactoring to Microservices: A Preliminary Usability Report ( http://arxiv.org/abs/2311.04798v2 )

ライセンス: Link先を確認
Jonas Fritzsch and Filipe Correia and Justus Bogner and Stefan Wagner(参考訳) マイクロサービスは現代的なクラウドベースのアプリケーションで好まれる選択肢だが、既存のレガシシステムのマイグレーションとアーキテクチャリファクタリングは、いまだに業界の主要な課題である。 これを解決するために、学界はモノリスを機能単位に分解するプロセスを自動化するための多くの戦略とアプローチを提案してきた。 本研究では,既存のマイグレーション手法とツールサポートについて概説する。 91の出版物から22のツールを抽出し,そのうち7つはサービス分解に対処した。 エンドユーザの観点から評価するため、インストール、ドキュメンテーション、ユーザビリティ、サポートなどの基礎となるテクニックを調査した。 そのうち5つは、参照アプリケーションを使ってサービスカットを生成しました。 予備研究の結果から,検査したツールは有望な概念を追求するが,業界で信頼性の高い利用には成熟度や一般化性が欠如していることが示唆された。

While Microservices are a preferred choice for modern cloud-based applications, the migration and architectural refactoring of existing legacy systems is still a major challenge in industry. To address this, academia has proposed many strategies and approaches that aim to automate the process of decomposing a monolith into functional units. In this study, we review existing migration approaches regarding techniques used and tool support. From 91 publications, we extracted 22 tools, 7 of which address service decomposition. To assess them from an end-user perspective, we investigated their underlying techniques, installation, documentation, usability and support. For 5 of them, we generated service cuts using reference applications. The results of our preliminary work suggest that the inspected tools pursue promising concepts, but lack maturity and generalizability for reliable use by industry.
翻訳日:2023-11-10 11:59:16 公開日:2023-11-09
# 異方性を考慮した共通乱数生成の通信複雑性

Communication Complexity of Common Randomness Generation with Isotropic States ( http://arxiv.org/abs/2311.04723v2 )

ライセンス: Link先を確認
Yangjing Dong, Penghui Yao(参考訳) 本稿では,Alice と Bob 間の通信が最小限に抑えられた,ノイズの多い EPR ペアや量子等方性状態の無制限供給を用いて,min-entropy k で共通乱弦を生成する問題に対処する。 この論文は、一方向古典通信と一方向量子通信の2つの通信モデルを検討し、両モデルの最適共通ランダム性率の上界を導出する。 古典的通信の場合、量子等方性状態はノイズの多い古典的相関[gr16]に勝らないことを示す。 量子通信の場合、量子等方性状態の超高密度符号化を用いて、共通乱数率を増大させることができることを示す。 また,一方向量子通信によって実現可能な最適共通乱数率の上界を証明した。 その結果,ノイズエンタングルメント[hhh+01]を補助する無ノイズ量子チャネルの古典的容量の上界が得られる。

This paper addresses the problem of generating a common random string with min-entropy k using an unlimited supply of noisy EPR pairs or quantum isotropic states, with minimal communication between Alice and Bob. The paper considers two communication models -- one-way classical communication and one-way quantum communication, and derives upper bounds on the optimal common randomness rate for both models. We show that in the case of classical communication, quantum isotropic states have no advantage over noisy classical correlation[GR16]. In the case of quantum communication, we demonstrate that the common randomness rate can be increased by using superdense coding on quantum isotropic states. We also prove an upper bound on the optimal common randomness rate achievable by using one-way quantum communication. As an application, our result yields upper bounds on the classical capacity of the noiseless quantum channel assisted by noisy entanglement[HHH+01].
翻訳日:2023-11-10 11:59:00 公開日:2023-11-09
# メタ学習による大規模言語モデルの大量編集

Massive Editing for Large Language Models via Meta Learning ( http://arxiv.org/abs/2311.04661v2 )

ライセンス: Link先を確認
Chenmien Tan and Ge Zhang and Jie Fu(参考訳) 大規模言語モデル(LLM)は、事前学習したコーパスから学習知識を可能にする一方で、習得した知識は時間とともに根本的に誤りまたは時代遅れになり、訓練後に言語モデル(LM)の知識を修正する必要がある。 有望なアプローチはパラメータシフトを生成するためにハイパーネットワークを使用するのに対して、既存のハイパーネットワークは同期編集操作量においてスケーラビリティが劣る。 この問題を軽減するために,パラメータシフト集約を最小二乗問題として定式化し,次に正規方程式を用いてLMパラメータを更新するMassive Language Model Editing Network (MALMEN)を提案する。 限られたメモリ予算で複数の事実を同時に編集できるように、ハイパーネットワークとlmの計算を分離し、両方のニューラルネットワークの任意のバッチサイズを可能にした。 本手法は,異なるアーキテクチャ,すなわちBERTベース,GPT-2,T5-XL (2.8B),GPT-J (6B) を用いて,様々な知識集約型NLPタスク,すなわちクローズドブックのファクトチェックと質問応答を用いて,最大数千の事実をLM上で編集することによって評価する。 驚くべきことに、malmenは、gpt用に特別に設計された同一のハイパーネットワークアーキテクチャとより強力なベースラインよりも数百倍の事実を編集できる。 私たちのコードはhttps://github.com/ChenmienTan/malmen.comから入手可能です。

While large language models (LLMs) have enabled learning knowledge from the pre-training corpora, the acquired knowledge may be fundamentally incorrect or outdated over time, which necessitates rectifying the knowledge of the language model (LM) after the training. A promising approach involves employing a hyper-network to generate parameter shift, whereas existing hyper-networks suffer from inferior scalability in synchronous editing operation amount. To mitigate the problem, we propose the MAssive Language Model Editing Network (MALMEN), which formulates the parameter shift aggregation as the least square problem, subsequently updating the LM parameters using the normal equation. To accommodate editing multiple facts simultaneously with limited memory budgets, we separate the computation on the hyper-network and LM, enabling arbitrary batch size on both neural networks. Our method is evaluated by editing up to thousands of facts on LMs with different architectures, i.e., BERT-base, GPT-2, T5-XL (2.8B), and GPT-J (6B), across various knowledge-intensive NLP tasks, i.e., closed book fact-checking and question answering. Remarkably, MALMEN is capable of editing hundreds of times more facts than strong baselines with the identical hyper-network architecture and outperforms editor specifically designed for GPT. Our code is available at https://github.com/ChenmienTan/malmen.
翻訳日:2023-11-10 11:58:45 公開日:2023-11-09
# Chrono DEM-Engine: カスタマイズ可能な接触力と素子形状を持つ離散要素法デュアルGPUシミュレータ

Chrono DEM-Engine: A Discrete Element Method dual-GPU simulator with customizable contact forces and element shape ( http://arxiv.org/abs/2311.04648v2 )

ライセンス: Link先を確認
Ruochun Zhang, Bonaventura Tagliafierro, Colin Vanden Heuvel, Shlok Sabarwal, Luning Bakke, Yulong Yue, Xin Wei, Radu Serban, Dan Negrut(参考訳) 本稿では、離散要素法(DEM)シミュレーションを実行するために設計されたProject Chronoの新たなサブモジュールであるDEM-Engineを紹介する。 球状原始形状に基づいて、DEM-Engineは多分散粒状材料をシミュレートし、プリミティブのアセンブリとして生成された複雑な形状を扱える。 DEM-Engineは2つのGPUで同時に動作するように最適化された多層並列構造を持つ。 メモリフットプリントを削減し、帯域幅を増加させるために、カスタム定義のデータ型を使用する。 新しい"delayed contact detection"アルゴリズムは、コンタクト検出とフォース計算の分離を可能にし、ワークロードを2つの非同期gpuストリームに分割する。 dem-engineはジャストインタイムコンパイルを使用して、ユーザ定義のコンタクトフォースモデルをサポートする。 本稿では, c++ と python のインターフェースについて述べるとともに, 衝撃力, 複雑形状粒子流, カスタム力モデルなど, 有名なベンチマークケースを考慮し, 様々な数値実験を行う。 さらに、このシミュレーターの完全なポテンシャルは、粒状地形における地球外ローバーの移動性を調べるために示される。 選択されたケーススタディでは、外部のマルチボディダイナミクスシステムと合わせて15秒にまたがる大規模共同シミュレーション(1100万要素を含む)が1日以内に効率的に実行可能であることが示されている。 最後に、パフォーマンステストによると、demエンジンは2つのnvidia a100 gpu上で最大1億5000万要素の線形スケーリングを示す。

This paper introduces DEM-Engine, a new submodule of Project Chrono, that is designed to carry out Discrete Element Method (DEM) simulations. Based on spherical primitive shapes, DEM-Engine can simulate polydisperse granular materials and handle complex shapes generated as assemblies of primitives, referred to as clumps. DEM-Engine has a multi-tier parallelized structure that is optimized to operate simultaneously on two GPUs. The code uses custom-defined data types to reduce memory footprint and increase bandwidth. A novel "delayed contact detection" algorithm allows the decoupling of the contact detection and force computation, thus splitting the workload into two asynchronous GPU streams. DEM-Engine uses just-in-time compilation to support user-defined contact force models. This paper discusses its C++ and Python interfaces and presents a variety of numerical tests, in which impact forces, complex-shaped particle flows, and a custom force model are validated considering well-known benchmark cases. Additionally, the full potential of the simulator is demonstrated for the investigation of extraterrestrial rover mobility on granular terrain. The chosen case study demonstrates that large-scale co-simulations (comprising 11 million elements) spanning 15 seconds, in conjunction with an external multi-body dynamics system, can be efficiently executed within a day. Lastly, a performance test suggests that DEM-Engine displays linear scaling up to 150 million elements on two NVIDIA A100 GPUs.
翻訳日:2023-11-10 11:58:18 公開日:2023-11-09
# 代数トポロジーを用いたニューラルネットワークの埋め込み空間の進化特性について

On Characterizing the Evolution of Embedding Space of Neural Networks using Algebraic Topology ( http://arxiv.org/abs/2311.04592v2 )

ライセンス: Link先を確認
Suryaka Suresh, Bishshoy Das, Vinayak Abrol, Sumantra Dutta Roy(参考訳) 特徴埋め込み空間のトポロジがベッチ数を介してよく訓練されたディープニューラルネットワーク(DNN)の層を通過するとき、どのように変化するかを検討する。 浅層完全連結ネットワーク (FCN) 上の単体錯体を用いた既存の研究により, 代わりに立方体ホモロジーを用いた拡張解析を行い, 様々なDeep Architectureと実画像データセットを用いた。 深度が増加するにつれて、トポロジカルに複雑なデータセットが単純なデータセットに変換され、ベッチ数はその最小値に達することが示される。 トポロジカル複雑性における崩壊率(計量として)は、一般化能力に対するアーキテクチャ選択の影響を定量化するのに役立つ。 表現学習の観点からは,(1)類似したデータセット上のアーキテクチャのトポロジ的不変性,(2)可変深さのアーキテクチャのためのデータセットの埋め込み空間,(3)入力解像度/サイズへの埋め込み空間,(4)データサブサンプリングなど,いくつかの不変性に注目した。 ネットワークの表現率と一般化能力の関連性をさらに実証するために,下流分類タスク(トランスファーラーニング)における事前学習モデルのランク付け作業について検討する。 既存の手法と比較して,提案手法は事前学習モデルの微調整により,実際に達成可能な精度との相関性が高い。

We study how the topology of feature embedding space changes as it passes through the layers of a well-trained deep neural network (DNN) through Betti numbers. Motivated by existing studies using simplicial complexes on shallow fully connected networks (FCN), we present an extended analysis using Cubical homology instead, with a variety of popular deep architectures and real image datasets. We demonstrate that as depth increases, a topologically complicated dataset is transformed into a simple one, resulting in Betti numbers attaining their lowest possible value. The rate of decay in topological complexity (as a metric) helps quantify the impact of architectural choices on the generalization ability. Interestingly from a representation learning perspective, we highlight several invariances such as topological invariance of (1) an architecture on similar datasets; (2) embedding space of a dataset for architectures of variable depth; (3) embedding space to input resolution/size, and (4) data sub-sampling. In order to further demonstrate the link between expressivity \& the generalization capability of a network, we consider the task of ranking pre-trained models for downstream classification task (transfer learning). Compared to existing approaches, the proposed metric has a better correlation to the actually achievable accuracy via fine-tuning the pre-trained model.
翻訳日:2023-11-10 11:57:52 公開日:2023-11-09
# 3次元イベント表現を用いた自律運転における姿勢推定の再考

Rethinking Human Pose Estimation for Autonomous Driving with 3D Event Representations ( http://arxiv.org/abs/2311.04591v2 )

ライセンス: Link先を確認
Xiaoting Yin, Hao Shi, Jiaan Chen, Ze Wang, Yaozu Ye, Huajian Ni, Kailun Yang, Kaiwei Wang(参考訳) 人間のポーズ推定は、自動運転と駐車において重要な要素であり、人間の行動を予測することによって安全性を高める。 従来のフレームベースのカメラやビデオは一般的に用いられるが、高いダイナミックレンジや重い動きのぼかしのシナリオでは信頼性が低下する。 対照的に、イベントカメラはこれらの困難なコンテキストをナビゲートするための堅牢なソリューションを提供する。 一般的な方法論では、イベントカメラを学習フレームワークに取り入れ、イベントをイベントフレームに蓄積する。 しかし、そのような手法は、イベントの固有非同期および高時間分解能特性を限界化する傾向がある。 この無視は、人間のダイナミックな活動に関連する安全クリティカルなタスクに不可欠な、重要な時間次元データを失うことにつながる。 この問題に対処し、イベント情報の3Dポテンシャルを解き放つために、Rasterized Event Point Cloud(RasEPC)とDecoupled Event Voxel(DEV)という2つの3Dイベント表現を導入します。 RasEPCは、正確な時間スライス内のイベントを同じ位置で照合し、3D属性を統計的手がかりで保存し、メモリと計算要求を著しく緩和する。 一方、dev表現はイベントをvoxelに識別し、3つの直交平面に投影し、分離されたイベントの注意を利用して2d平面から3dのヒントを取得する。 さらに,屋外シーンでのトレーニングや定量的分析を容易にするために,イベントベースの合成データセットEV-3DPWを開発した。 実世界のDHP19データセットでは,イベントポイントクラウド技術がリアルタイムなモバイル予測に優れており,デカップリングされたイベントボクセル法が最も精度が高い。 実験により,従来のrgb画像やイベントフレーム技術に対する3次元表現手法の優れた一般化能力が明らかになった。 私たちのコードとデータセットはhttps://github.com/masterhow/eventpointposeで利用可能です。

Human pose estimation is a critical component in autonomous driving and parking, enhancing safety by predicting human actions. Traditional frame-based cameras and videos are commonly applied, yet, they become less reliable in scenarios under high dynamic range or heavy motion blur. In contrast, event cameras offer a robust solution for navigating these challenging contexts. Predominant methodologies incorporate event cameras into learning frameworks by accumulating events into event frames. However, such methods tend to marginalize the intrinsic asynchronous and high temporal resolution characteristics of events. This disregard leads to a loss in essential temporal dimension data, crucial for safety-critical tasks associated with dynamic human activities. To address this issue and to unlock the 3D potential of event information, we introduce two 3D event representations: the Rasterized Event Point Cloud (RasEPC) and the Decoupled Event Voxel (DEV). The RasEPC collates events within concise temporal slices at identical positions, preserving 3D attributes with statistical cues and markedly mitigating memory and computational demands. Meanwhile, the DEV representation discretizes events into voxels and projects them across three orthogonal planes, utilizing decoupled event attention to retrieve 3D cues from the 2D planes. Furthermore, we develop and release EV-3DPW, a synthetic event-based dataset crafted to facilitate training and quantitative analysis in outdoor scenes. On the public real-world DHP19 dataset, our event point cloud technique excels in real-time mobile predictions, while the decoupled event voxel method achieves the highest accuracy. Experiments reveal our proposed 3D representation methods' superior generalization capacities against traditional RGB images and event frame techniques. Our code and dataset are available at https://github.com/MasterHow/EventPointPose.
翻訳日:2023-11-10 11:57:21 公開日:2023-11-09
# バグ自動再現のための多言語多言語モデルの評価

Evaluating Diverse Large Language Models for Automatic and General Bug Reproduction ( http://arxiv.org/abs/2311.04532v2 )

ライセンス: Link先を確認
Sungmin Kang, Juyeon Yoon, Nargiz Askarbekkyzy, Shin Yoo(参考訳) バグレポートは自然言語であることが多いため、常にテストケースに変換することが難しいため、バグ再現は自動化が難しい重要な開発者活動である。 その結果、既存のテクニックはクラッシュバグに重点を置いており、自動検出や検証が容易である。 本研究では,自然言語処理やコード生成に長けていることが証明された大規模言語モデル(LLM)を用いることで,この制限を克服する。 LLMにバグを再現するテストを生成するよう促すことで、後処理パイプラインを使って予測されるテストを自動的に識別することで、提案手法は広く使用されているDefects4Jベンチマークの3分の1のバグを再現することができた。 さらに,11個のオープンソース LLM を含む15個の LLM に関する広範な評価から,オープンソース LLM は,大規模な Defects4J ベンチマークでクローズドソース OpenAI LLM code-davinci-002 の再現性能の 70% を達成し,LLM のトレーニングデータに含まれない可能性のあるホールドアウトバグデータセットのパフォーマンスの 90% を達成している。 さらに, LIBROを用いたLLM実験により, LLMのサイズが大きくなるにつれて, LIBROを用いたバグ再現が向上し, LLMをLIBROパイプラインで使用可能な情報が得られることを示した。

Bug reproduction is a critical developer activity that is also challenging to automate, as bug reports are often in natural language and thus can be difficult to transform to test cases consistently. As a result, existing techniques mostly focused on crash bugs, which are easier to automatically detect and verify. In this work, we overcome this limitation by using large language models (LLMs), which have been demonstrated to be adept at natural language processing and code generation. By prompting LLMs to generate bug-reproducing tests, and via a post-processing pipeline to automatically identify promising generated tests, our proposed technique LIBRO could successfully reproduce about one-third of all bugs in the widely used Defects4J benchmark. Furthermore, our extensive evaluation on 15 LLMs, including 11 open-source LLMs, suggests that open-source LLMs also demonstrate substantial potential, with the StarCoder LLM achieving 70% of the reproduction performance of the closed-source OpenAI LLM code-davinci-002 on the large Defects4J benchmark, and 90% of performance on a held-out bug dataset likely not part of any LLM's training data. In addition, our experiments on LLMs of different sizes show that bug reproduction using LIBRO improves as LLM size increases, providing information as to which LLMs can be used with the LIBRO pipeline.
翻訳日:2023-11-10 11:56:50 公開日:2023-11-09
# Semantic-Aware Fine-TuningによるFew-shot CLIPの強化

Enhancing Few-shot CLIP with Semantic-Aware Fine-Tuning ( http://arxiv.org/abs/2311.04464v2 )

ライセンス: Link先を確認
Yao Zhu, Yuefeng Chen, Wei Wang, Xiaofeng Mao, Xiu Yan, Yue Wang, Zhigang Li, Wang lu, Jindong Wang, Xiangyang Ji(参考訳) 限られたトレーニングサンプルから一般的な表現を学ぶことは、低リソースのシナリオでディープニューラルネットワークを適用する上で非常に重要です。 近年,CLIP (Contrastive Language- Image Pre-Training) に基づく手法が,少数の適応タスクにおいて有望な性能を示した。 数ショットの微調整による破滅的な忘れと過度な調整を避けるため、既存の作業は通常、大規模なデータセットで事前トレーニングされたCLIPのパラメータを凍結し、一部のパラメータが下流タスクに適さない可能性を見越す。 この目的のために、我々はCLIPの視覚エンコーダを再検討し、高密度特徴写像の空間重み付きサマーを実行する特徴的アテンションプーリング層に着目した。 濃密な特徴マップには意味のある意味情報が含まれており、さまざまな下流タスク(例えば、サイドミラーではなくペット分類タスクにおける耳や目などのセマンティクスの優先順位付けなど)において異なる意味論は様々な重要性を持っている。 そこで本研究では,学習過程における注意プーリング層のパラメータを微調整し,モデルがタスク固有のセマンティクスに注目するよう促す。 推論プロセスでは、微調整層と本来の注目層によってプールされた特徴の残差ブレンドを行い、少数ショット知識と事前トレーニングされたCLIPの事前知識の両方を組み込む。 本手法をSemantic-Aware Fine-tuning (SAFE) と呼ぶ。 SAFEは従来の小ショットCLIPの強化に有効であり、既存のアダプタアプローチ(SAFE-Aと呼ばれる)と互換性がある。

Learning generalized representations from limited training samples is crucial for applying deep neural networks in low-resource scenarios. Recently, methods based on Contrastive Language-Image Pre-training (CLIP) have exhibited promising performance in few-shot adaptation tasks. To avoid catastrophic forgetting and overfitting caused by few-shot fine-tuning, existing works usually freeze the parameters of CLIP pre-trained on large-scale datasets, overlooking the possibility that some parameters might not be suitable for downstream tasks. To this end, we revisit CLIP's visual encoder with a specific focus on its distinctive attention pooling layer, which performs a spatial weighted-sum of the dense feature maps. Given that dense feature maps contain meaningful semantic information, and different semantics hold varying importance for diverse downstream tasks (such as prioritizing semantics like ears and eyes in pet classification tasks rather than side mirrors), using the same weighted-sum operation for dense features across different few-shot tasks might not be appropriate. Hence, we propose fine-tuning the parameters of the attention pooling layer during the training process to encourage the model to focus on task-specific semantics. In the inference process, we perform residual blending between the features pooled by the fine-tuned and the original attention pooling layers to incorporate both the few-shot knowledge and the pre-trained CLIP's prior knowledge. We term this method as Semantic-Aware FinE-tuning (SAFE). SAFE is effective in enhancing the conventional few-shot CLIP and is compatible with the existing adapter approach (termed SAFE-A).
翻訳日:2023-11-10 11:56:23 公開日:2023-11-09
# エンドツーエンドフレームワークによるビデオの再ターゲティング

Retargeting video with an end-to-end framework ( http://arxiv.org/abs/2311.04458v2 )

ライセンス: Link先を確認
Thi-Ngoc-Hanh Le, HuiGuang Huang, Yi-Ru Chen, and Tong-Yee Lee(参考訳) ビデオはコンピュータグラフィックスアプリケーションにおいて重要である。 デジタル機器の不均一性により、ビデオの再ターゲティングは、そのようなアプリケーションにおけるユーザー視聴エクスペリエンスを向上させる上で必須の機能となる。 ビデオ再ターゲティングの研究では、ビデオ内の関連するビジュアルコンテンツの保存、フリックの回避、処理時間の削減が重要な課題である。 ビデオ領域へのイメージリターゲティング技術の拡張は、高い実行時間のために困難である。 ビデオ再ターゲティングの以前の仕事は、主に時間消費の前処理を使用してフレームを分析する。 さらに、異なるビデオコンテンツに寛容であり、重要なオブジェクトの縮小を回避し、任意の比率でプレイする能力は、調査を必要とするこれらのシステムで解決すべき制限である。 本稿では,動画を任意のアスペクト比に再ターゲットするエンドツーエンドのRETVI手法を提案する。 本稿では、コンテンツ特徴分析器(CFA)と適応変形推定器(ADE)の2つのモジュールでRETVIを設計することで、従来の手法の計算ボトルネックを解消する。 広範な実験と評価の結果,システムの性能と実行時間の面では,これまでの作業よりも優れています。 プロジェクトのWebサイト(http://graphics.csie.ncku.edu.tw/RETVI)を見てください。

Video holds significance in computer graphics applications. Because of the heterogeneous of digital devices, retargeting videos becomes an essential function to enhance user viewing experience in such applications. In the research of video retargeting, preserving the relevant visual content in videos, avoiding flicking, and processing time are the vital challenges. Extending image retargeting techniques to the video domain is challenging due to the high running time. Prior work of video retargeting mainly utilizes time-consuming preprocessing to analyze frames. Plus, being tolerant of different video content, avoiding important objects from shrinking, and the ability to play with arbitrary ratios are the limitations that need to be resolved in these systems requiring investigation. In this paper, we present an end-to-end RETVI method to retarget videos to arbitrary aspect ratios. We eliminate the computational bottleneck in the conventional approaches by designing RETVI with two modules, content feature analyzer (CFA) and adaptive deforming estimator (ADE). The extensive experiments and evaluations show that our system outperforms previous work in quality and running time. Visit our project website for more results at http://graphics.csie.ncku.edu.tw/RETVI.
翻訳日:2023-11-10 11:55:46 公開日:2023-11-09
# 時系列センサデータを用いたCNNによる構造損傷検出

CNN-Based Structural Damage Detection using Time-Series Sensor Data ( http://arxiv.org/abs/2311.04252v2 )

ライセンス: Link先を確認
Ishan Pathak, Ishan Jha, Aditya Sadana, and Basuraj Bhowmik(参考訳) 構造健康モニタリング(SHM)は,センサデータ解析による損傷検出を目的とした構造状態の評価に不可欠である。 現代の産業における予測メンテナンスと整合し、潜在的な構造的な問題に対処することでダウンタイムとコストを最小化する。 様々な機械学習技術が振動データから貴重な情報を抽出するために使われており、しばしば事前の構造知識に依存している。 本研究では,新しい畳み込みニューラルネットワーク(CNN)アルゴリズムを用いて,構造損傷検出の革新的なアプローチを提案する。 時系列データから深い空間的特徴を抽出するために、cnnは長期的な時間的接続を認識するように教えられる。 この手法は空間的特徴と時間的特徴を組み合わせ、深部空間的特徴にのみ依存する手法と比較して識別能力を高める。 時系列データは、提案したニューラルネットワークを用いて2つのカテゴリに分けられる。 有効性を検証するため,ロスアラモス国立研究所(LANL)の3フロア構造から得られたベンチマークデータセットを用いて精度を検証した。 その結果,新しいCNNアルゴリズムは構造劣化の発見に極めて正確であることが示唆された。

Structural Health Monitoring (SHM) is vital for evaluating structural condition, aiming to detect damage through sensor data analysis. It aligns with predictive maintenance in modern industry, minimizing downtime and costs by addressing potential structural issues. Various machine learning techniques have been used to extract valuable information from vibration data, often relying on prior structural knowledge. This research introduces an innovative approach to structural damage detection, utilizing a new Convolutional Neural Network (CNN) algorithm. In order to extract deep spatial features from time series data, CNNs are taught to recognize long-term temporal connections. This methodology combines spatial and temporal features, enhancing discrimination capabilities when compared to methods solely reliant on deep spatial features. Time series data are divided into two categories using the proposed neural network: undamaged and damaged. To validate its efficacy, the method's accuracy was tested using a benchmark dataset derived from a three-floor structure at Los Alamos National Laboratory (LANL). The outcomes show that the new CNN algorithm is very accurate in spotting structural degradation in the examined structure.
翻訳日:2023-11-10 11:55:25 公開日:2023-11-09
# 人間の記憶と大規模言語モデル

Aspects of human memory and Large Language Models ( http://arxiv.org/abs/2311.03839v2 )

ライセンス: Link先を確認
Romuald A. Janik(参考訳) 大きな言語モデル(LLM)は、主にテキストを生成するのに役立ちながら、非常に洗練された言語使用確率モデルを提供する巨大な人工ニューラルネットワークである。 意味的に一貫性のあるテキストを生成するには有効なメモリが必要となるため、llmのメモリ特性を調べ、人間の記憶の重要な特徴と驚くほどの類似性を見いだす。 大規模言語モデルのヒューマンライクなメモリ特性は、llmアーキテクチャから自動的に従うのではなく、むしろトレーニングされたテキストデータの統計から学んでいると論じる。 これらの結果から,人間の記憶の生物学的特徴は,文章的語りの構造化方法に刻印が残されていることが示唆された。

Large Language Models (LLMs) are huge artificial neural networks which primarily serve to generate text, but also provide a very sophisticated probabilistic model of language use. Since generating a semantically consistent text requires a form of effective memory, we investigate the memory properties of LLMs and find surprising similarities with key characteristics of human memory. We argue that the human-like memory properties of the Large Language Model do not follow automatically from the LLM architecture but are rather learned from the statistics of the training textual data. These results strongly suggest that the biological features of human memory leave an imprint on the way that we structure our textual narratives.
翻訳日:2023-11-10 11:55:05 公開日:2023-11-09
# 人物再識別のための多視点情報統合と伝播

Multi-view Information Integration and Propagation for Occluded Person Re-identification ( http://arxiv.org/abs/2311.03828v2 )

ライセンス: Link先を確認
Neng Dong, Shuanglin Yan, Hao Tang, Jinhui Tang, Liyan Zhang(参考訳) 被占領者の再識別(re-ID)は,閉塞摂動による課題である。 閉塞音によるモデル障害を防止するために多大な努力がなされているが、現在のソリューションのほとんどは1つの画像からのみ情報をキャプチャし、同じ歩行者を描いた複数の画像で利用可能な豊富な補完情報を無視している。 本稿では,MVI$^{2}$P(Multi-view Information Integration and Propagation)と呼ばれる新しいフレームワークを提案する。 具体的には,対象歩行者を効果的にキャラクタリゼーションするマルチビュー画像の可能性を認識し,その特徴地図を統合して総合表現を作成する。 この過程で, 咬合音の導入を避けるため, 識別に寄与する情報を選択的に統合するcams対応ローカライズモジュールを開発した。 さらに,異なる画像の識別特性のばらつきを考慮し,信頼性の高い情報を統合するための確率認識量子化モジュールを設計する。 さらに、同一の同一性を持つ複数の画像がテスト段階ではアクセスできないため、包括的表現から単一の隠蔽画像の知識を抽出する情報伝達(IP)機構を考案する。 広範な実験と解析により、提案するmvi$^{2}$pの有効性と優位性が明らかに証明された。 コードは \url{https://github.com/nengdong96/MVIIP} でリリースされる。

Occluded person re-identification (re-ID) presents a challenging task due to occlusion perturbations. Although great efforts have been made to prevent the model from being disturbed by occlusion noise, most current solutions only capture information from a single image, disregarding the rich complementary information available in multiple images depicting the same pedestrian. In this paper, we propose a novel framework called Multi-view Information Integration and Propagation (MVI$^{2}$P). Specifically, realizing the potential of multi-view images in effectively characterizing the occluded target pedestrian, we integrate feature maps of which to create a comprehensive representation. During this process, to avoid introducing occlusion noise, we develop a CAMs-aware Localization module that selectively integrates information contributing to the identification. Additionally, considering the divergence in the discriminative nature of different images, we design a probability-aware Quantification module to emphatically integrate highly reliable information. Moreover, as multiple images with the same identity are not accessible in the testing stage, we devise an Information Propagation (IP) mechanism to distill knowledge from the comprehensive representation to that of a single occluded image. Extensive experiments and analyses have unequivocally demonstrated the effectiveness and superiority of the proposed MVI$^{2}$P. The code will be released at \url{https://github.com/nengdong96/MVIIP}.
翻訳日:2023-11-10 11:54:53 公開日:2023-11-09
# Neuro-GPT:脳波の基礎モデルの開発

Neuro-GPT: Developing A Foundation Model for EEG ( http://arxiv.org/abs/2311.03764v2 )

ライセンス: Link先を確認
Wenhui Cui, Woojae Jeong, Philipp Th\"olke, Takfarinas Medani, Karim Jerbi, Anand A. Joshi, Richard M. Leahy(参考訳) 脳-コンピューターインタフェース(bci)タスクにおける脳波(eeg)データの不足と不均一性を処理し、その膨大な公開データを活用するために、脳波エンコーダとgptモデルからなる基礎モデルであるneuro-gptを提案する。 ファンデーションモデルは、大規模なパブリックEEGデータセット上で事前トレーニングされ、自己監督タスクを使用して、EEGのマスキングチャンクの再構築方法を学ぶ。 次に、9名の被験者しかいない運動画像分類タスクで基礎モデルを微調整する。 実験により、基礎モデルの適用により、スクラッチから訓練されたモデルと比較して、分類性能が著しく向上することが示された。

To handle the scarcity and heterogeneity of electroencephalography (EEG) data in Brain-Computer Interface (BCI) tasks, and to harness the vast public data, we propose Neuro-GPT, a foundation model consisting of an EEG encoder and a GPT model. The foundation model is pre-trained on a large-scale public EEG dataset, using a self-supervised task which learns how to reconstruct the masked chunk in EEG. We then fine-tune the foundation model on a Motor Imagery Classification task where only 9 subjects are available. Experiments demonstrated that applying foundation model can significantly improve classification performance compared to the model trained from scratch, which provides evidence for the advanced generalizability of foundation model and the ability to address the challenges of data scarcity and heterogeneity.
翻訳日:2023-11-10 11:54:31 公開日:2023-11-09