このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240602となっている論文です。

PDF登録状況(公開日: 20240602)

TitleAuthorsAbstract論文公表日・翻訳日
# 人間行動認識におけるRNN, CNN, トランスフォーマー : 調査とハイブリッドモデル

RNNs, CNNs and Transformers in Human Action Recognition: A Survey and A Hybrid Model ( http://arxiv.org/abs/2407.06162v1 )

ライセンス: Link先を確認
Khaled Alomar, Halil Ibrahim Aysel, Xiaohao Cai, (参考訳) HAR(Human Action Recognition)は、医療、教育、エンターテイメント、視覚的監視、ビデオ検索、異常な活動の特定など、さまざまな領域にわたる人間の活動を監視するタスクを含む。 過去10年間で、HARの分野は、畳み込みニューラルネットワーク(CNN)を活用して、複雑な情報を効果的に抽出し、理解し、HARシステム全体のパフォーマンスを向上させることで、かなりの進歩をみせてきた。 近年、コンピュータビジョンの領域は、視覚変換器(ViT)が強力なソリューションとして出現するのを目撃している。 トランスフォーマーアーキテクチャの有効性は、画像解析の限界を超えて検証され、その適用性は多様なビデオ関連タスクに拡張されている。 特に、この状況の中で、研究コミュニティはHARへの強い関心を示し、多様体ユーティリティーを認め、様々な領域で広く採用されている。 本稿では、HARの領域における重要性を考慮し、CNNとリカレントニューラルネットワーク(RNN)のViTへの進化に焦点を当てた包括的調査を提案する。 本研究は,既存の文献を徹底的に調査し,新たな研究動向を探求することによって,この分野で蓄積した知識の批判的分析と合成を行う。 さらに、ハイブリッドアプローチの開発に向けた継続的な取り組みについても検討している。 本稿では,CNN と ViT の本質的強みを統合するための,新しいハイブリッドモデルを提案する。

Human Action Recognition (HAR) encompasses the task of monitoring human activities across various domains, including but not limited to medical, educational, entertainment, visual surveillance, video retrieval, and the identification of anomalous activities. Over the past decade, the field of HAR has witnessed substantial progress by leveraging Convolutional Neural Networks (CNNs) to effectively extract and comprehend intricate information, thereby enhancing the overall performance of HAR systems. Recently, the domain of computer vision has witnessed the emergence of Vision Transformers (ViTs) as a potent solution. The efficacy of transformer architecture has been validated beyond the confines of image analysis, extending their applicability to diverse video-related tasks. Notably, within this landscape, the research community has shown keen interest in HAR, acknowledging its manifold utility and widespread adoption across various domains. This article aims to present an encompassing survey that focuses on CNNs and the evolution of Recurrent Neural Networks (RNNs) to ViTs given their importance in the domain of HAR. By conducting a thorough examination of existing literature and exploring emerging trends, this study undertakes a critical analysis and synthesis of the accumulated knowledge in this field. Additionally, it investigates the ongoing efforts to develop hybrid approaches. Following this direction, this article presents a novel hybrid model that seeks to integrate the inherent strengths of CNNs and ViTs.
翻訳日:2024-07-22 14:07:46 公開日:2024-06-02
# 航空通信の将来:IRSによるUAV通信技術に関する調査

The Future of Aerial Communications: A Survey of IRS-Enhanced UAV Communication Technologies ( http://arxiv.org/abs/2407.01576v1 )

ライセンス: Link先を確認
Zina Chkirbene, Ala Gouissem, Ridha Hamila, Devrim Unal, (参考訳) Intelligent Reflecting Surfaces (IRS) と Unmanned Aerial Vehicles (UAVs) の出現は、無線通信分野における新たなベンチマークを設定している。 IRSは電磁波を操作するための画期的な能力を備えており、信号品質、ネットワーク効率、スペクトル利用の大幅な向上のための道を開いた。 これらの表面は伝搬環境を動的に再構成し、信号経路を最適化し干渉を減らす。 同時に、UAVは通信ネットワーク内の動的で汎用的な要素として出現し、従来の固定インフラが不足している地域で、高いモビリティとカバー範囲へのアクセスと拡張を可能にしている。 本稿では、無線ネットワークにおけるIRSとUAVの相乗的統合に関する総合的な調査を行い、この革新的な組み合わせがネットワーク性能、特にセキュリティ、エネルギー効率、信頼性を著しく向上させることを示す。 IRSの信号操作能力と組み合わさったUAVの汎用性は、従来の通信設備の限界を克服するための強力なソリューションを生み出し、特に困難で保守的な環境において。 さらに、調査は機械学習(ML)の最先端領域に踏み込み、IRSを備えたUAVの戦略的展開と運用最適化におけるその役割を探求した。 本稿は、この分野での最新の研究と実践的進歩を強調し、現実世界の応用と実験的な設定に関する洞察を提供する。 IRS-UAV統合は次世代無線のランドスケープにおけるトランスフォーメーションの力として位置づけられている。

The advent of Intelligent Reflecting Surfaces (IRS) and Unmanned Aerial Vehicles (UAVs) is setting a new benchmark in the field of wireless communications. IRS, with their groundbreaking ability to manipulate electromagnetic waves, have opened avenues for substantial enhancements in signal quality, network efficiency, and spectral usage. These surfaces dynamically reconfigure the propagation environment, leading to optimized signal paths and reduced interference. Concurrently, UAVs have emerged as dynamic, versatile elements within communication networks, offering high mobility and the ability to access and enhance coverage in areas where traditional, fixed infrastructure falls short. This paper presents a comprehensive survey on the synergistic integration of IRS and UAVs in wireless networks, highlighting how this innovative combination substantially boosts network performance, particularly in terms of security, energy efficiency, and reliability. The versatility of UAVs, combined with the signal-manipulating prowess of IRS, creates a potent solution for overcoming the limitations of conventional communication setups, especially in challenging and underserved environments. Furthermore, the survey delves into the cutting-edge realm of Machine Learning (ML), exploring its role in the strategic deployment and operational optimization of UAVs equipped with IRS. The paper also underscores the latest research and practical advancements in this field, providing insights into real-world applications and experimental setups. It concludes by discussing the future prospects and potential directions for this emerging technology, positioning the IRS-UAV integration as a transformative force in the landscape of next-generation wireless
翻訳日:2024-07-07 13:34:23 公開日:2024-06-02
# 大規模言語モデルに基づく知的機械相互作用エージェントを用いたBIMオーサリングツールの協調運用に向けて

Towards a copilot in BIM authoring tool using a large language model-based agent for intelligent human-machine interaction ( http://arxiv.org/abs/2406.16903v1 )

ライセンス: Link先を確認
Changyu Du, Stavros Nousias, André Borrmann, (参考訳) ますます複雑なBIMオーサリングソフトウェアと、それに伴う高価な学習コストに直面しているデザイナは、よりインテリジェントで軽量な方法でソフトウェアと対話しようとすることが多い。 彼らはモデリングワークフローを自動化し、ソフトウェアの使用による障害や困難を回避し、設計プロセス自体に集中することを目指している。 この問題に対処するため,我々は,BIMオーサリングツールの副産物として機能し,ソフトウェア使用に関する質問に回答し,自然言語からユーザの設計意図を理解し,適切なツールを呼び出してモデリングタスクを自律的に実行する,LLMベースの自律エージェントフレームワークを提案する。 BIMオーサリングソフトウェアであるVectorworksのケーススタディでは,提案したフレームワークをBIMオーサリングシナリオにシームレスに統合するソフトウェアプロトタイプを実装した。 我々は,複雑な命令に直面した場合,このフレームワーク内で異なるLLMの計画と推論能力を評価した。 我々の研究は、設計自動化と知的相互作用におけるLLMベースのエージェントの有意義な可能性を実証している。

Facing increasingly complex BIM authoring software and the accompanying expensive learning costs, designers often seek to interact with the software in a more intelligent and lightweight manner. They aim to automate modeling workflows, avoiding obstacles and difficulties caused by software usage, thereby focusing on the design process itself. To address this issue, we proposed an LLM-based autonomous agent framework that can function as a copilot in the BIM authoring tool, answering software usage questions, understanding the user's design intentions from natural language, and autonomously executing modeling tasks by invoking the appropriate tools. In a case study based on the BIM authoring software Vectorworks, we implemented a software prototype to integrate the proposed framework seamlessly into the BIM authoring scenario. We evaluated the planning and reasoning capabilities of different LLMs within this framework when faced with complex instructions. Our work demonstrates the significant potential of LLM-based agents in design automation and intelligent interaction.
翻訳日:2024-07-01 06:41:31 公開日:2024-06-02
# ガベージ電子地図を用いた画像処理とベクトル化ストレージに関する研究

Research on Image Processing and Vectorization Storage Based on Garage Electronic Maps ( http://arxiv.org/abs/2406.18567v1 )

ライセンス: Link先を確認
Nan Dou, Qi Shi, Zhigang Lian, (参考訳) 画像のより正確な定義とデータ解析を実現するため,大規模な地下駐車場マップに着目し,電子地図のベクトル化とラスタ化保存について検討した。 研究期間中、画像処理、ベクトル化、ラスタ化ストレージが実施された。 室内2次元地図ラスタデータのベクトル化分類格納法を提案する。 本手法は,ラスタデータをベクトルデータに変換し,その座標位置に基づく駐車スペース,経路,障害物などの要素をグリッドインデックス法で分類することにより,屋内地図の効率的な保存と迅速なクエリを容易にする。 さらに、補間アルゴリズムを用いてベクトルデータを抽出し、ラスタデータに変換する。 本手法により, 地図モデルの精度と信頼性を検証し, ガレージマップのディジタルストレージとナビゲーションを効果的に支援するためのナビゲーション試験を行った。

For the purpose of achieving a more precise definition and data analysis of images, this study conducted a research on vectorization and rasterization storage of electronic maps, focusing on a large underground parking garage map. During the research, image processing, vectorization and rasterization storage were performed. The paper proposed a method for the vectorization classification storage of indoor two-dimensional map raster data. This method involves converting raster data into vector data and classifying elements such as parking spaces, pathways, and obstacles based on their coordinate positions with the grid indexing method, thereby facilitating efficient storage and rapid querying of indoor maps. Additionally, interpolation algorithms were employed to extract vector data and convert it into raster data. Navigation testing was conducted to validate the accuracy and reliability of the map model under this method, providing effective technical support for the digital storage and navigation of garage maps.
翻訳日:2024-07-01 05:50:36 公開日:2024-06-02
# メタヒューリスティックスとディープラーニング法を用いた急性リンパ性白血病の診断モデル

A Diagnostic Model for Acute Lymphoblastic Leukemia Using Metaheuristics and Deep Learning Methods ( http://arxiv.org/abs/2406.18568v1 )

ライセンス: Link先を確認
M. Hosseinzadeh, P. Khoshaght, S. Sadeghi, P. Asghari, Z. Arabi, J. Lansky, P. Budinsky, A. Masoud Rahmani, S. W. Lee, (参考訳) 急性リンパ性白血病(ALL)重症度は、骨髄および末梢血の爆発細胞(異常な白血球)の存在と比率によって決定される。 手動によるこの疾患の診断は退屈で時間を要する手術であり、プロがブラスト細胞の特徴を正確に調べることは困難である。 この困難に対処するために、研究者はディープラーニングと機械学習を使用している。 本稿では,ResNetをベースとした特徴抽出器を用いて,さまざまな特徴抽出器や分類器とともにALLを検出する。 最良の結果を得るためには、Resnet、VGG、EfficientNet、DensNetファミリなど、さまざまなトランスファー学習モデルが深い特徴抽出器として使用される。 抽出後、遺伝的アルゴリズム、PCA、ANOVA、ランダムフォレスト、Univariate、Mutual Information、Lasso、XGB、Variance、バイナリアリコロニーなど、さまざまな特徴セレクタが使用される。 特徴認定後、様々な分類器が使用され、MLPは他よりも優れている。 推奨されるテクニックは、選択されたデータセットのALLとHEMを分類するために使用される。 この手法は90.71%の精度と95.76%の感度を達成し、このデータセットの指標は他よりも優れていた。

Acute lymphoblastic leukemia (ALL) severity is determined by the presence and ratios of blast cells (abnormal white blood cells) in both bone marrow and peripheral blood. Manual diagnosis of this disease is a tedious and time-consuming operation, making it difficult for professionals to accurately examine blast cell characteristics. To address this difficulty, researchers use deep learning and machine learning. In this paper, a ResNet-based feature extractor is utilized to detect ALL, along with a variety of feature selectors and classifiers. To get the best results, a variety of transfer learning models, including the Resnet, VGG, EfficientNet, and DensNet families, are used as deep feature extractors. Following extraction, different feature selectors are used, including Genetic algorithm, PCA, ANOVA, Random Forest, Univariate, Mutual information, Lasso, XGB, Variance, and Binary ant colony. After feature qualification, a variety of classifiers are used, with MLP outperforming the others. The recommended technique is used to categorize ALL and HEM in the selected dataset which is C-NMC 2019. This technique got an impressive 90.71% accuracy and 95.76% sensitivity for the relevant classifications, and its metrics on this dataset outperformed others.
翻訳日:2024-07-01 05:50:36 公開日:2024-06-02
# 大規模言語モデルによるビジネスとメディアの洞察の調和

Harnessing Business and Media Insights with Large Language Models ( http://arxiv.org/abs/2406.06559v1 )

ライセンス: Link先を確認
Yujia Bao, Ankit Parag Shah, Neeru Narang, Jonathan Rivers, Rajeev Maksey, Lan Guan, Louise N. Barrere, Shelley Evenson, Rahul Basole, Connie Miao, Ankit Mehta, Fabien Boulay, Su Min Park, Natalie E. Pearson, Eldhose Joy, Tiger He, Sumiran Thakur, Koustav Ghosal, Josh On, Phoebe Morrison, Tim Major, Eva Siqi Wang, Gina Escobar, Jiaheng Wei, Tharindu Cyril Weerasooriya, Queena Song, Daria Lashkevich, Clare Chen, Gyuhak Kim, Dengpan Yin, Don Hejna, Mo Nomeli, Wei Wei, (参考訳) 本稿では,Fortune Analytics Language Model (FALM)を紹介する。 FALMは、市場動向や企業パフォーマンス指標、専門家の洞察など、包括的なビジネス分析に直接アクセスできるようにする。 一般的なLCMとは異なり、FALMは専門的なジャーナリズムから構築された知識ベースを活用し、複雑なビジネス質問に対して正確かつ詳細な回答を提供する。 ユーザはさらに自然言語クエリを活用して、財務データを直接視覚化し、洞察に富んだチャートやグラフを生成して、さまざまなビジネスセクターのトレンドを明確に理解することができる。 FALMはユーザの信頼を育み、3つの新しい方法で出力精度を確保する。 1)時刻対応推論は、正確なイベント登録を保証し、最新の更新を優先する。 2)テーマ的傾向分析は、時間とともにトピックの進化を明示的に検証し、新興ビジネスの展望に関する洞察を提供する。 3)コンテンツ参照とタスク分解により,回答の忠実度とデータの可視化精度が向上した。 FALMは、AIプラクティスを優先しながら、ベースラインメソッドよりも重要なパフォーマンス改善を実証し、自動評価と人的評価の両方を行います。 これらのベンチマークは、FALMをビジネスおよびメディア領域における最先端のLCMとして確立し、極めて正確かつ信頼性が高い。

This paper introduces Fortune Analytics Language Model (FALM). FALM empowers users with direct access to comprehensive business analysis, including market trends, company performance metrics, and expert insights. Unlike generic LLMs, FALM leverages a curated knowledge base built from professional journalism, enabling it to deliver precise and in-depth answers to intricate business questions. Users can further leverage natural language queries to directly visualize financial data, generating insightful charts and graphs to understand trends across diverse business sectors clearly. FALM fosters user trust and ensures output accuracy through three novel methods: 1) Time-aware reasoning guarantees accurate event registration and prioritizes recent updates. 2) Thematic trend analysis explicitly examines topic evolution over time, providing insights into emerging business landscapes. 3) Content referencing and task decomposition enhance answer fidelity and data visualization accuracy. We conduct both automated and human evaluations, demonstrating FALM's significant performance improvements over baseline methods while prioritizing responsible AI practices. These benchmarks establish FALM as a cutting-edge LLM in the business and media domains, with exceptional accuracy and trustworthiness.
翻訳日:2024-06-23 13:45:35 公開日:2024-06-02
# 逆構成AI: 優先度を原則に圧縮する

Inverse Constitutional AI: Compressing Preferences into Principles ( http://arxiv.org/abs/2406.06560v1 )

ライセンス: Link先を確認
Arduin Findeis, Timo Kaufmann, Eyke Hüllermeier, Samuel Albanie, Robert Mullins, (参考訳) フィードバックデータは、最先端AIモデルの微調整と評価において重要な役割を果たす。 2つのテキストが与えられたら、人間(またはAI)アノテータが"better"を選択する。 このようなフィードバックデータは、モデルを人間の好み(例えば、人間のフィードバックからの強化学習)に合わせるために、あるいは人間の好み(例えば、Chatbot Arena)に応じてランク付けするために広く使用されている。 広範に使われているにもかかわらず、先行研究は、人間が注釈を付けたペアワイズテキストの嗜好データが意図しない偏見を示すことが多いことを実証している。 例えば、人間のアノテータは、特定の文脈における真偽のテキストよりも断定的を好むことが示されている。 このデータに基づいてトレーニングまたは評価されたモデルは、これらのバイアスを識別しにくい方法で暗黙的にエンコードする可能性がある。 本稿では,既存のテキスト嗜好データを圧縮タスクとして解釈する:逆構成型AI(ICAI)問題について述べる。 コンスティチューションAIでは、フィードバックと微調整AIモデルを提供するために、一連の原則(またはコンスティチューション)が使用される。 ICAI問題は、フィードバックのデータセットが与えられた場合、大言語モデル(LLM)が元のアノテーションを再構築できるように構成を抽出することを目的としている。 対応する初期ICAIアルゴリズムを提案し,その生成した構成を再構成アノテーションに基づいて定量的に検証する。 生成されたコンスティチューションには多くの潜在的なユースケースがあり、望ましくないバイアスを特定したり、見当たらないデータにフィードバックを拡大したり、個々のユーザの好みにLLMを適用するのに役立ちます。 さまざまなデータセットに対する私たちのアプローチを例示します。 (a) 既知の原理による合成フィードバックデータセット b) クロスアノテートされた人間のフィードバックのAlpacaEvalデータセット及び (c) クラウドソースされたChatbot Arenaデータセット。 アルゴリズムのコードと実験はhttps://github.com/rdnfn/icai で公開しています。

Feedback data plays an important role in fine-tuning and evaluating state-of-the-art AI models. Often pairwise text preferences are used: given two texts, human (or AI) annotators select the "better" one. Such feedback data is widely used to align models to human preferences (e.g., reinforcement learning from human feedback), or to rank models according to human preferences (e.g., Chatbot Arena). Despite its wide-spread use, prior work has demonstrated that human-annotated pairwise text preference data often exhibits unintended biases. For example, human annotators have been shown to prefer assertive over truthful texts in certain contexts. Models trained or evaluated on this data may implicitly encode these biases in a manner hard to identify. In this paper, we formulate the interpretation of existing pairwise text preference data as a compression task: the Inverse Constitutional AI (ICAI) problem. In constitutional AI, a set of principles (or constitution) is used to provide feedback and fine-tune AI models. The ICAI problem inverts this process: given a dataset of feedback, we aim to extract a constitution that best enables a large language model (LLM) to reconstruct the original annotations. We propose a corresponding initial ICAI algorithm and validate its generated constitutions quantitatively based on reconstructed annotations. Generated constitutions have many potential use-cases -- they may help identify undesirable biases, scale feedback to unseen data or assist with adapting LLMs to individual user preferences. We demonstrate our approach on a variety of datasets: (a) synthetic feedback datasets with known underlying principles; (b) the AlpacaEval dataset of cross-annotated human feedback; and (c) the crowdsourced Chatbot Arena data set. We release the code for our algorithm and experiments at https://github.com/rdnfn/icai .
翻訳日:2024-06-23 13:45:35 公開日:2024-06-02
# Brainstormingは、知識推論の大規模言語モデルに力をもたらす

Brainstorming Brings Power to Large Language Models of Knowledge Reasoning ( http://arxiv.org/abs/2406.06561v1 )

ライセンス: Link先を確認
Zining Qin, Chenhao Wang, Huiling Qin, Weijia Jia, (参考訳) 大規模言語モデル(LLM)は、言語生成、テキスト理解、知識推論において驚くべき能力を示した。 単一の強力なモデルは、すでに複数のタスクを処理できるが、単一の視点に依存すると、バイアスと不安定な結果につながる可能性がある。 近年の研究では、多モデルコラボレーションの導入により、幅広いタスクにおけるモデルの推論能力が向上している。 しかし、異なる機能を持つモデルは、同じ問題に対して矛盾する答えをもたらす可能性があり、複数の候補モデルから正しい答えを合理的に取得する方法は、難しい問題となっている。 本稿では,プロンプトに基づくマルチモデルブレインストーミングを提案する。 ブレインストーミングのためのグループに異なるモデルを取り込んでおり、推論と再推論の複数のラウンドを経て、グループ内でコンセンサス回答に到達する。 本研究では,3種類のデータセットについて実験を行い,ブレインストーミングが論理的推論と事実抽出の有効性を著しく向上できることを実証した。 さらに,2つの小パラメータモデルにより,脳ストーミングによる大パラメータモデルの近似精度が向上し,LLMの分散配置に新たなソリューションが提供されることがわかった。

Large Language Models (LLMs) have demonstrated amazing capabilities in language generation, text comprehension, and knowledge reasoning. While a single powerful model can already handle multiple tasks, relying on a single perspective can lead to biased and unstable results. Recent studies have further improved the model's reasoning ability on a wide range of tasks by introducing multi-model collaboration. However, models with different capabilities may produce conflicting answers on the same problem, and how to reasonably obtain the correct answer from multiple candidate models has become a challenging problem. In this paper, we propose the multi-model brainstorming based on prompt. It incorporates different models into a group for brainstorming, and after multiple rounds of reasoning elaboration and re-inference, a consensus answer is reached within the group. We conducted experiments on three different types of datasets, and demonstrate that the brainstorming can significantly improve the effectiveness in logical reasoning and fact extraction. Furthermore, we find that two small-parameter models can achieve accuracy approximating that of larger-parameter models through brainstorming, which provides a new solution for distributed deployment of LLMs.
翻訳日:2024-06-23 13:45:35 公開日:2024-06-02
# トランスを用いたBIMオーサリングツールにおけるコマンドレコメンデータシステムに向けて

Towards commands recommender system in BIM authoring tool using transformers ( http://arxiv.org/abs/2406.10237v1 )

ライセンス: Link先を確認
Changyu Du, Zihan Deng, Stavros Nousias, André Borrmann, (参考訳) BIMソフトウェアの複雑さは、アーキテクチャ、エンジニアリング、建設(AEC)分野におけるBIMとモデルベースの設計の普及に重大な障壁をもたらす。 エンドユーザーは、従来の2Dドラフトと比較して、十分に詳細なBIMモデルを作成するのに必要な追加の労力について、しばしば懸念を表明する。 本研究では,BIMモデリングプロセスの高速化を目的としたシーケンシャルレコメンデーションシステムの可能性について検討する。 本稿では,BIMソフトウェアコマンドを推奨項目として扱うことにより,ユーザの履歴的インタラクションに基づいて次の最良コマンドを予測する,新たなエンドツーエンドアプローチを提案する。 我々のフレームワークは、実世界の大規模BIMログデータを広範囲に前処理し、最新の大規模言語モデルのトランスフォーマーアーキテクチャをバックボーンネットワークとして利用し、最終的にBIMオーサリングツールであるVectorworks内でリアルタイムのコマンド提案を行うプロトタイプを作成する。 その後の実験では,提案モデルが先行研究より優れており,設計効率を向上させる上での推薦システムの可能性が実証された。

The complexity of BIM software presents significant barriers to the widespread adoption of BIM and model-based design within the Architecture, Engineering, and Construction (AEC) sector. End-users frequently express concerns regarding the additional effort required to create a sufficiently detailed BIM model when compared with conventional 2D drafting. This study explores the potential of sequential recommendation systems to accelerate the BIM modeling process. By treating BIM software commands as recommendable items, we introduce a novel end-to-end approach that predicts the next-best command based on user historical interactions. Our framework extensively preprocesses real-world, large-scale BIM log data, utilizes the transformer architectures from the latest large language models as the backbone network, and ultimately results in a prototype that provides real-time command suggestions within the BIM authoring tool Vectorworks. Subsequent experiments validated that our proposed model outperforms the previous study, demonstrating the immense potential of the recommendation system in enhancing design efficiency.
翻訳日:2024-06-23 13:45:35 公開日:2024-06-02
# 情報デミック管理における誤情報の早期検出--ドメイン適応アプローチ

Early Detection of Misinformation for Infodemic Management: A Domain Adaptation Approach ( http://arxiv.org/abs/2406.10238v1 )

ライセンス: Link先を確認
Minjia Mao, Xiaohang Zhao, Xiao Fang, (参考訳) インフォデミック(インフォデミック、英: infodemic)とは、病気の発生時に拡散する膨大な量の真の情報と誤報を指す。 インフォデミックの初期段階における誤情報の検出は、その管理と公衆衛生への害を軽減する鍵となる。 早期インフォデミックは、疾患に関する大量の未ラベル情報によって特徴づけられる。 その結果、従来の誤報検出方法は、インフォデミック領域のラベル付き情報に頼ってモデルを訓練するため、この誤報検出タスクには適していない。 従来の手法の限界に対処するために、最先端の手法は、他のドメインのラベル付き情報を用いてモデルを学習し、インフォデミック領域の誤情報を検出する。 これらの手法の有効性は、情報デミックドメインとラベル付き情報を利用するドメイン間の共変量シフトと概念シフトを緩和する能力に依存する。 これらの手法は共変量シフトの緩和に重点を置いているが、概念シフトを見落とし、タスクに対する効果を低下させる。 理論的には,共変量シフトと概念シフトの両方に対処する必要性と,それぞれの運用方法を示す。 理論的解析に基づいて,共変量シフトと概念シフトの両方に対処する新しい誤情報検出法を開発した。 2つの実世界のデータセットを用いて,提案手法の最先端の誤情報検出方法よりも優れた性能を実証し,また,誤情報検出タスクを解くように調整可能な領域適応手法について検討した。

An infodemic refers to an enormous amount of true information and misinformation disseminated during a disease outbreak. Detecting misinformation at the early stage of an infodemic is key to manage it and reduce its harm to public health. An early stage infodemic is characterized by a large volume of unlabeled information concerning a disease. As a result, conventional misinformation detection methods are not suitable for this misinformation detection task because they rely on labeled information in the infodemic domain to train their models. To address the limitation of conventional methods, state-of-the-art methods learn their models using labeled information in other domains to detect misinformation in the infodemic domain. The efficacy of these methods depends on their ability to mitigate both covariate shift and concept shift between the infodemic domain and the domains from which they leverage labeled information. These methods focus on mitigating covariate shift but overlook concept shift, rendering them less effective for the task. In response, we theoretically show the necessity of tackling both covariate shift and concept shift as well as how to operationalize each of them. Built on the theoretical analysis, we develop a novel misinformation detection method that addresses both covariate shift and concept shift. Using two real-world datasets, we conduct extensive empirical evaluations to demonstrate the superior performance of our method over state-of-the-art misinformation detection methods as well as prevalent domain adaptation methods that can be tailored to solve the misinformation detection task.
翻訳日:2024-06-23 13:35:51 公開日:2024-06-02
# DUDF:ハイパーボリックスケーリングによる微分不可能な距離場

DUDF: Differentiable Unsigned Distance Fields with Hyperbolic Scaling ( http://arxiv.org/abs/2402.08876v2 )

ライセンス: Link先を確認
Miguel Fainstein, Viviana Siless, Emmanuel Iarussi, (参考訳) 近年,3次元再構成の文脈で開放面を表現するために,Unsigned Distance Fields (UDF) を近似するためにニューラルネットワークを訓練することへの関心が高まっている。 しかし、UDFはゼロレベル集合では微分不可能であり、距離や勾配に大きな誤差を生じ、一般に断片化され、不連続な曲面をもたらす。 本稿では,符号のない距離場の双曲的スケーリングを学習し,境界条件の異なる新しいアイコン問題を定義することを提案する。 これにより、私たちの定式化は、署名された距離場を表現するために主に文献に適用される、最先端の連続的な識別可能な暗黙的ニューラルネットワークとシームレスに統合することができる。 提案手法は,オープンサーフェス表現の課題に対処するだけでなく,再構築品質とトレーニング性能の大幅な向上を示す。 さらに、アンロックされたフィールドの微分可能性により、通常の方向や曲率のような重要な位相特性の正確な計算が可能となり、レンダリングのような下流のタスクに広まる。 広範な実験を通じて、様々なデータセットにまたがるアプローチと、競合するベースラインに対するアプローチを検証する。 その結果, 従来法に比べて精度が向上し, 速度が最大級に向上した。

In recent years, there has been a growing interest in training Neural Networks to approximate Unsigned Distance Fields (UDFs) for representing open surfaces in the context of 3D reconstruction. However, UDFs are non-differentiable at the zero level set which leads to significant errors in distances and gradients, generally resulting in fragmented and discontinuous surfaces. In this paper, we propose to learn a hyperbolic scaling of the unsigned distance field, which defines a new Eikonal problem with distinct boundary conditions. This allows our formulation to integrate seamlessly with state-of-the-art continuously differentiable implicit neural representation networks, largely applied in the literature to represent signed distance fields. Our approach not only addresses the challenge of open surface representation but also demonstrates significant improvement in reconstruction quality and training performance. Moreover, the unlocked field's differentiability allows the accurate computation of essential topological properties such as normal directions and curvatures, pervasive in downstream tasks such as rendering. Through extensive experiments, we validate our approach across various data sets and against competitive baselines. The results demonstrate enhanced accuracy and up to an order of magnitude increase in speed compared to previous methods.
翻訳日:2024-06-07 23:30:46 公開日:2024-06-02
# 位置:大規模トラベリングセールスマン問題の解決のためのポストホック検索に基づくニューラルアプローチの再考

Position: Rethinking Post-Hoc Search-Based Neural Approaches for Solving Large-Scale Traveling Salesman Problems ( http://arxiv.org/abs/2406.03503v1 )

ライセンス: Link先を確認
Yifan Xia, Xianliang Yang, Zichuan Liu, Zhihao Liu, Lei Song, Jiang Bian, (参考訳) 大規模旅行セールスマン問題(TSP)の解決における最近の進歩は、機械学習(ML)モデルがヒートマップを生成し、各エッジの確率分布が最適解の一部であることを示す、ヒートマップ誘導モンテカルロ木探索(MCTS)パラダイムを用いて解を見つける。 しかし,我々の理論的および実験的分析は,MLに基づくヒートマップ生成の有効性に疑問を呈する。 これを支持するために、簡単なベースライン法が、ヒートマップ生成における複雑なMLアプローチより優れていることを示す。 さらに,熱マップ誘導MCTSパラダイムの実用的価値を疑問視する。 本研究は,問題固有の手作り戦略に依存しているにもかかわらず,LKH-3ヒューリスティックに劣ることを示すものである。 将来的には,より理論的に健全な熱マップ生成手法の開発と,組合せ問題に対する自律的で一般化可能なMLアプローチの探求に焦点をあてる研究の方向性を提案する。 コードは https://github.com/xyfffff/rethink_mcts_for_tsp でレビューすることができる。

Recent advancements in solving large-scale traveling salesman problems (TSP) utilize the heatmap-guided Monte Carlo tree search (MCTS) paradigm, where machine learning (ML) models generate heatmaps, indicating the probability distribution of each edge being part of the optimal solution, to guide MCTS in solution finding. However, our theoretical and experimental analysis raises doubts about the effectiveness of ML-based heatmap generation. In support of this, we demonstrate that a simple baseline method can outperform complex ML approaches in heatmap generation. Furthermore, we question the practical value of the heatmap-guided MCTS paradigm. To substantiate this, our findings show its inferiority to the LKH-3 heuristic despite the paradigm's reliance on problem-specific, hand-crafted strategies. For the future, we suggest research directions focused on developing more theoretically sound heatmap generation methods and exploring autonomous, generalizable ML approaches for combinatorial problems. The code is available for review: https://github.com/xyfffff/rethink_mcts_for_tsp.
翻訳日:2024-06-07 19:34:24 公開日:2024-06-02
# 低リソース設定のためのマルチモーダルディープラーニング:医療応用のためのベクトル埋め込みアプローチ

Multimodal Deep Learning for Low-Resource Settings: A Vector Embedding Alignment Approach for Healthcare Applications ( http://arxiv.org/abs/2406.02601v1 )

ライセンス: Link先を確認
David Restrepo, Chenwei Wu, Sebastián Andrés Cajas, Luis Filipe Nakayama, Leo Anthony Celi, Diego M López, (参考訳) 大規模マルチモーダルディープラーニングモデルは、医療などの領域に革命をもたらし、計算能力の重要性を強調している。 しかし、低所得国(LMIC)のようなリソース制約のある地域では、GPUやデータへのアクセスが限られており、CPUを唯一のリソースとして残す場合が多い。 そこで本稿では,ベクトル埋め込みを活用してフレキシブルで効率的な計算手法を実現し,多様なコンテキストにまたがるマルチモーダル深層学習の民主化を提唱する。 本稿では,低リソース環境,特に医療におけるマルチモーダル深層学習において,単一モーダル基礎モデルと多モーダル視覚言語モデル(VLM)を用いたベクトル埋め込みの有効性と有効性を検討した。 さらに,画像テキストの埋め込みを整列させることにより,性能を向上させるための簡易かつ効果的な推論時間法を提案する。 これらの手法を従来の手法と比較し、BRSET(眼科)、HAM10000(皮膚科)、サテライトベンチ(公衆衛生)の3つの医療指標の精度、F1スコア、推測時間、トレーニング時間、メモリ使用量などの指標を用いて計算効率とモデル性能への影響を評価する。 その結果,埋め込みはモデル性能を損なうことなく計算要求を減少させることがわかった。 さらに,我々のアライメント手法は,医療タスクのパフォーマンスを向上させる。 本研究は、制約のある環境で資源を最適化し、効率的なマルチモーダル学習のための埋め込みベースのアプローチの可能性を強調することによって、持続可能なAIプラクティスを促進する。 ベクトル埋め込みは、LMIC、特に医療におけるマルチモーダルディープラーニングを民主化し、さまざまなユースケースにおけるAI適応性を向上させる。

Large-scale multi-modal deep learning models have revolutionized domains such as healthcare, highlighting the importance of computational power. However, in resource-constrained regions like Low and Middle-Income Countries (LMICs), limited access to GPUs and data poses significant challenges, often leaving CPUs as the sole resource. To address this, we advocate for leveraging vector embeddings to enable flexible and efficient computational methodologies, democratizing multimodal deep learning across diverse contexts. Our paper investigates the efficiency and effectiveness of using vector embeddings from single-modal foundation models and multi-modal Vision-Language Models (VLMs) for multimodal deep learning in low-resource environments, particularly in healthcare. Additionally, we propose a simple yet effective inference-time method to enhance performance by aligning image-text embeddings. Comparing these approaches with traditional methods, we assess their impact on computational efficiency and model performance using metrics like accuracy, F1-score, inference time, training time, and memory usage across three medical modalities: BRSET (ophthalmology), HAM10000 (dermatology), and SatelliteBench (public health). Our findings show that embeddings reduce computational demands without compromising model performance. Furthermore, our alignment method improves performance in medical tasks. This research promotes sustainable AI practices by optimizing resources in constrained environments, highlighting the potential of embedding-based approaches for efficient multimodal learning. Vector embeddings democratize multimodal deep learning in LMICs, particularly in healthcare, enhancing AI adaptability in varied use cases.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-02
# D-FaST: 周波数・空間・テンポラルアテンションによる認知信号復号

D-FaST: Cognitive Signal Decoding with Disentangled Frequency-Spatial-Temporal Attention ( http://arxiv.org/abs/2406.02602v1 )

ライセンス: Link先を確認
Weiguo Chen, Changjian Wang, Kele Xu, Yuan Yuan, Yanru Bai, Dongsong Zhang, (参考訳) 自然言語処理(NLP)と認知科学の交差点に位置する認知言語処理(CLP)は、人工知能、認知知能、脳科学の分野において、徐々に重要な役割を担っている。 認知信号復号法(Cognitive Signal Decoding, CSD)は, CLPにおける重要な研究分野のひとつだが, グローバルな動的表現能力の不足, マルチドメイン機能統合の欠如など, まだまだ課題が残っている。 本稿では,D-FaST(Disentangled Frequency-Spatial-Temporal Attention)と呼ばれるCLPの新しいパラダイムを提案する。 具体的には,周波数空間領域の非絡み合いに着目した新しい認知信号デコーダを提案する。 このデコーダは、マルチビューアテンションを利用した周波数領域特徴抽出、ダイナミック脳接続グラフアテンションを利用した空間領域特徴抽出、局所時間スライディングウインドウアテンションを利用した時間特徴抽出の3つの重要な構成要素を含む。 これらのコンポーネントは、新しいアンタングルフレームワークに統合されている。 さらに、この分野の進歩を促進するために、我々は新しいCLPデータセットMNREDを作成しました。 その後,MNRED上でのD-FaSTの性能評価や,ZuCo,BCIC IV-2A,BCIC IV-2Bなどの公開データセットの検証を行った。 我々の実験結果によると、D-FaSTは、MNREDの最先端精度スコア78.72%、ZuCoの精度スコア78.35%、BCIC IV-2Aの精度スコア74.85%、BCIC IV-2Bの精度スコア76.81%など、我々のデータセットと従来のCSDデータセットの両方において、既存の手法よりも大幅に優れていた。

Cognitive Language Processing (CLP), situated at the intersection of Natural Language Processing (NLP) and cognitive science, plays a progressively pivotal role in the domains of artificial intelligence, cognitive intelligence, and brain science. Among the essential areas of investigation in CLP, Cognitive Signal Decoding (CSD) has made remarkable achievements, yet there still exist challenges related to insufficient global dynamic representation capability and deficiencies in multi-domain feature integration. In this paper, we introduce a novel paradigm for CLP referred to as Disentangled Frequency-Spatial-Temporal Attention(D-FaST). Specifically, we present an novel cognitive signal decoder that operates on disentangled frequency-space-time domain attention. This decoder encompasses three key components: frequency domain feature extraction employing multi-view attention, spatial domain feature extraction utilizing dynamic brain connection graph attention, and temporal feature extraction relying on local time sliding window attention. These components are integrated within a novel disentangled framework. Additionally, to encourage advancements in this field, we have created a new CLP dataset, MNRED. Subsequently, we conducted an extensive series of experiments, evaluating D-FaST's performance on MNRED, as well as on publicly available datasets including ZuCo, BCIC IV-2A, and BCIC IV-2B. Our experimental results demonstrate that D-FaST outperforms existing methods significantly on both our datasets and traditional CSD datasets including establishing a state-of-the-art accuracy score 78.72% on MNRED, pushing the accuracy score on ZuCo to 78.35%, accuracy score on BCIC IV-2A to 74.85% and accuracy score on BCIC IV-2B to 76.81%.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-02
# 透かしキー衝突時の歪みのない透かしは真に歪まない

Distortion-free Watermarks are not Truly Distortion-free under Watermark Key Collisions ( http://arxiv.org/abs/2406.02603v1 )

ライセンス: Link先を確認
Yihan Wu, Ruibo Chen, Zhengmian Hu, Yanshuo Chen, Junfeng Guo, Hongyang Zhang, Heng Huang, (参考訳) 言語モデル(LM)透かし技術は、ランダムなシードとして透かしキーを用いて、擬似ランダムサンプリングでランダムなサンプリングプロセスに代えて、統計信号をLM生成コンテンツに注入する。 これらの統計的透かし手法の中で、歪みのない透かしは、生成品質を損なうことなく、LM生成コンテンツに透かしを埋め込むため、特に重要である。 しかし、真ランダムサンプリングと比較して、擬ランダムサンプリングの顕著な制限は、同じ透かしキー(キー衝突)の下で、擬ランダムサンプリングの結果が相関を示すことである。 この制限は、歪みのない性質を損なう可能性がある。 従来の歪みのない透かしは,鍵衝突の有無で元のLM分布に対して有意な分布バイアスを示す。 さらに、鍵衝突下では統計的信号が埋め込めないため、完璧な歪みのない透かしを実現することは不可能である。 鍵衝突による分布バイアスを低減するため,新しい歪みのない透かし-β透かしを導入した。 実験結果から,β-透かしが鍵衝突時の分布バイアスを効果的に低減できることが確認された。

Language model (LM) watermarking techniques inject a statistical signal into LM-generated content by substituting the random sampling process with pseudo-random sampling, using watermark keys as the random seed. Among these statistical watermarking approaches, distortion-free watermarks are particularly crucial because they embed watermarks into LM-generated content without compromising generation quality. However, one notable limitation of pseudo-random sampling compared to true-random sampling is that, under the same watermark keys (i.e., key collision), the results of pseudo-random sampling exhibit correlations. This limitation could potentially undermine the distortion-free property. Our studies reveal that key collisions are inevitable due to the limited availability of watermark keys, and existing distortion-free watermarks exhibit a significant distribution bias toward the original LM distribution in the presence of key collisions. Moreover, achieving a perfect distortion-free watermark is impossible as no statistical signal can be embedded under key collisions. To reduce the distribution bias caused by key collisions, we introduce a new family of distortion-free watermarks--beta-watermark. Experimental results support that the beta-watermark can effectively reduce the distribution bias under key collisions.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-02
# TPEベイズ最適化を用いたGated Recurrent Neural Networkによる株価指数予測精度の向上

Gated recurrent neural network with TPE Bayesian optimization for enhancing stock index prediction accuracy ( http://arxiv.org/abs/2406.02604v1 )

ライセンス: Link先を確認
Bivas Dinda, (参考訳) 近年のディープラーニングアーキテクチャ、ニューラルネットワーク、豊富な金融データと強力なコンピュータの組み合わせは金融を変革させており、将来的な株価予測の先進的な方法が開発されている。 しかし、全ての指先での投資やトレーディングのアクセシビリティにより、株式市場はますます複雑になり、ボラティリティが悪化する傾向にあった。 株式市場の複雑さとボラティリティの増大により、より多くのモデルへの需要が押し上げられ、異なる株価の高ボラティリティと非線形な振る舞いを効果的に捉えることになる。 本研究では,LSTM (long short-term memory), GRU (gate recurrent unit), GRU-LSTM, LSTM-GRU, Tree-structured Parzen Estimator (TPE) Bayesian Optimization for hyperparameter optimization (TPE-GRNN) などのGRU-LSTM, LSTM-GRUなどのハイブリッドモデルについて検討した。 TPE-GRNNを用いて、インドの著名な株価指数であるNIFTY 50指数の翌日の終値の予測精度を改善することを目的とする。 8つの影響要因の組み合わせは、基本株価データ、技術指標、原油価格、マクロ経済データから慎重に選択され、より広範な経済要因による指数の価格変化を捉えるためのモデルを訓練する。 単層・多層TPE-GRNNモデルが開発されている。 モデルの性能は、R2、MAPE、RMSEなどの標準行列を用いて評価される。 モデルの性能分析により,株価指数の予測精度向上における特徴選択とハイパーパラメータ最適化(HPO)の影響が明らかになった。 その結果,提案手法のMAPEは,ストックインデックスの価格予測における過去の全てのモデルに対して,最も低い(ベスト)であることがわかった。

The recent advancement of deep learning architectures, neural networks, and the combination of abundant financial data and powerful computers are transforming finance, leading us to develop an advanced method for predicting future stock prices. However, the accessibility of investment and trading at everyone's fingertips made the stock markets increasingly intricate and prone to volatility. The increased complexity and volatility of the stock market have driven demand for more models, which would effectively capture high volatility and non-linear behavior of the different stock prices. This study explored gated recurrent neural network (GRNN) algorithms such as LSTM (long short-term memory), GRU (gated recurrent unit), and hybrid models like GRU-LSTM, LSTM-GRU, with Tree-structured Parzen Estimator (TPE) Bayesian optimization for hyperparameter optimization (TPE-GRNN). The aim is to improve the prediction accuracy of the next day's closing price of the NIFTY 50 index, a prominent Indian stock market index, using TPE-GRNN. A combination of eight influential factors is carefully chosen from fundamental stock data, technical indicators, crude oil price, and macroeconomic data to train the models for capturing the changes in the price of the index with the factors of the broader economy. Single-layer and multi-layer TPE-GRNN models have been developed. The models' performance is evaluated using standard matrices like R2, MAPE, and RMSE. The analysis of models' performance reveals the impact of feature selection and hyperparameter optimization (HPO) in enhancing stock index price prediction accuracy. The results show that the MAPE of our proposed TPE-LSTM method is the lowest (best) with respect to all the previous models for stock index price prediction.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-02
# フェデレートラーニング攻撃に対する新たな対策:オートエンコーダを併用したLayerCAM

A Novel Defense Against Poisoning Attacks on Federated Learning: LayerCAM Augmented with Autoencoder ( http://arxiv.org/abs/2406.02605v1 )

ライセンス: Link先を確認
Jingjing Zheng, Xin Yuan, Kai Li, Wei Ni, Eduardo Tovar, Jon Crowcroft, (参考訳) 連邦学習(FL)に対する最近の攻撃は、広く採用されているユークリッド距離に基づく検出方法を回避する悪質なモデル更新をもたらす可能性がある。 本稿では,フェデレート学習におけるモデル中毒対策として,LayerCAM-AEと呼ばれる新しい防衛戦略を提案する。 LayerCAM-AEは、新しいレイヤクラス活性化マッピング(LayerCAM)とオートエンコーダ(AE)を統合し、検出機能を大幅に強化した。 具体的には、LayerCAM-AEは各ローカルモデルの更新毎にヒートマップを生成し、さらにコンパクトなビジュアルフォーマットに変換する。 オートエンコーダは、ローカルモデル更新からLayerCAMヒートマップを処理し、それらの特徴を改善し、異常マップや悪意のあるローカルモデルを見つける精度を高めるように設計されている。 LayerCAM-AEによる誤分類のリスクに対処するため、複数の通信ラウンドで熱マップが常に疑わしい場合、ローカルモデル更新が悪意あるものとしてフラグ付けされる投票アルゴリズムが開発された。 SVHNおよびCIFAR-100データセット上のLayerCAM-AEの広範囲なテストは、既存のResNet-50およびREGNETY-800MFディフェンスモデルと比較して、Independent and Identically Distributed (IID)とNon-IID設定の両方で実行される。 実験の結果,LayerCAM-AEは検出率(recall: 1.0, Precision: 1.0, FPR: 0.0, Accuracy: 1.0, F1 score: 1.0, AUC: 1.0)とFLにおけるテスト精度を向上し,ResNet-50とREGNETY-800MFの性能を上回った。 私たちのコードは、https://github.com/jjzgeeks/LayerCAM-AEで利用可能です。

Recent attacks on federated learning (FL) can introduce malicious model updates that circumvent widely adopted Euclidean distance-based detection methods. This paper proposes a novel defense strategy, referred to as LayerCAM-AE, designed to counteract model poisoning in federated learning. The LayerCAM-AE puts forth a new Layer Class Activation Mapping (LayerCAM) integrated with an autoencoder (AE), significantly enhancing detection capabilities. Specifically, LayerCAM-AE generates a heat map for each local model update, which is then transformed into a more compact visual format. The autoencoder is designed to process the LayerCAM heat maps from the local model updates, improving their distinctiveness and thereby increasing the accuracy in spotting anomalous maps and malicious local models. To address the risk of misclassifications with LayerCAM-AE, a voting algorithm is developed, where a local model update is flagged as malicious if its heat maps are consistently suspicious over several rounds of communication. Extensive tests of LayerCAM-AE on the SVHN and CIFAR-100 datasets are performed under both Independent and Identically Distributed (IID) and non-IID settings in comparison with existing ResNet-50 and REGNETY-800MF defense models. Experimental results show that LayerCAM-AE increases detection rates (Recall: 1.0, Precision: 1.0, FPR: 0.0, Accuracy: 1.0, F1 score: 1.0, AUC: 1.0) and test accuracy in FL, surpassing the performance of both the ResNet-50 and REGNETY-800MF. Our code is available at: https://github.com/jjzgeeks/LayerCAM-AE
翻訳日:2024-06-06 23:39:37 公開日:2024-06-02
# 近所の人を知る:コール・グラフレットで使える一般機能とゼロショット機能

Know Your Neighborhood: General and Zero-Shot Capable Binary Function Search Powered by Call Graphlets ( http://arxiv.org/abs/2406.02606v1 )

ライセンス: Link先を確認
Joshua Collyer, Tim Watson, Iain Phillips, (参考訳) バイナリコードの類似性検出は、マルウェア分析、脆弱性調査、盗作検出といった分野のアプリケーションにとって重要な問題である。 本稿では,コールグラフレットと呼ばれる新しいグラフデータ表現を組み合わせた,新しいグラフニューラルネットワークアーキテクチャを提案する。 コールグラフレットは、各関数の周辺をバイナリ実行ファイルにエンコードし、一連の統計的特徴を通じて局所的およびグローバルなコンテキストをキャプチャする。 専門的なグラフニューラルネットワークモデルは、このグラフ表現で操作するように設計され、深いメトリック学習を使用してセマンティックコードの類似性を符号化する特徴ベクトルにマッピングすることを学習する。 提案されたアプローチは、異なるアーキテクチャ、コンパイラツールチェーン、最適化レベルをカバーする4つの異なるデータセットで評価されている。 実験結果から,コールグラフレットと新しいグラフニューラルネットワークアーキテクチャの組み合わせは,クロスアーキテクチャ,モノアーキテクチャ,ゼロショットタスク間のベースライン技術と比較して,最先端のパフォーマンスを実現することが示された。 さらに,提案手法は,ドメイン外関数インライン化タスクに対して評価した場合にも有効である。 全体的な研究は、バイナリコードの類似性検出を実行するための、汎用的で効果的なグラフニューラルネットワークベースのソリューションを提供する。

Binary code similarity detection is an important problem with applications in areas like malware analysis, vulnerability research and plagiarism detection. This paper proposes a novel graph neural network architecture combined with a novel graph data representation called call graphlets. A call graphlet encodes the neighborhood around each function in a binary executable, capturing the local and global context through a series of statistical features. A specialized graph neural network model is then designed to operate on this graph representation, learning to map it to a feature vector that encodes semantic code similarities using deep metric learning. The proposed approach is evaluated across four distinct datasets covering different architectures, compiler toolchains, and optimization levels. Experimental results demonstrate that the combination of call graphlets and the novel graph neural network architecture achieves state-of-the-art performance compared to baseline techniques across cross-architecture, mono-architecture and zero shot tasks. In addition, our proposed approach also performs well when evaluated against an out-of-domain function inlining task. Overall, the work provides a general and effective graph neural network-based solution for conducting binary code similarity detection.
翻訳日:2024-06-06 23:39:37 公開日:2024-06-02
# Amalgam: クラウド上の難読ニューラルネットワークトレーニングフレームワーク

Amalgam: A Framework for Obfuscated Neural Network Training on the Cloud ( http://arxiv.org/abs/2406.03405v1 )

ライセンス: Link先を確認
Sifat Ut Taki, Spyridon Mastorakis, (参考訳) 独自のニューラルネットワーク(NN)モデルをクラウド上にプロプライエタリなデータセットでトレーニングすることは、モデルアーキテクチャとデータセットをクラウドサービスプロバイダに公開するリスクを伴う。 本稿では,既存のクラウド環境において,NNモデルをプライバシ保護的にトレーニングするためのNN難読化フレームワークであるAmalgamを提案する。 Amalgamは、元のモデルアーキテクチャとクラウドからのトレーニングデータセットの両方を"隠蔽"するために、よく校正されたノイズでトレーニングするために使用されるNNモデルとデータセットを増設することで、実現している。 トレーニング後、Amalgamは拡張モデルからオリジナルのモデルを抽出し、ユーザに返却する。 異なるコンピュータビジョンと自然言語処理モデルとデータセットによる評価結果は、Amalgamが示す。 二 その正しさを損なうことなく、訓練工程に緩やかなオーバーヘッドを導入すること (ii)モデルの精度には影響しない。

Training a proprietary Neural Network (NN) model with a proprietary dataset on the cloud comes at the risk of exposing the model architecture and the dataset to the cloud service provider. To tackle this problem, in this paper, we present an NN obfuscation framework, called Amalgam, to train NN models in a privacy-preserving manner in existing cloud-based environments. Amalgam achieves that by augmenting NN models and the datasets to be used for training with well-calibrated noise to "hide" both the original model architectures and training datasets from the cloud. After training, Amalgam extracts the original models from the augmented models and returns them to users. Our evaluation results with different computer vision and natural language processing models and datasets demonstrate that Amalgam: (i) introduces modest overheads into the training process without impacting its correctness, and (ii) does not affect the model's accuracy.
翻訳日:2024-06-06 17:22:00 公開日:2024-06-02
# 異種情報補完と畳み込みニューラルネットワークに基づくLncRNA-解離関連予測法

LncRNA-disease association prediction method based on heterogeneous information completion and convolutional neural network ( http://arxiv.org/abs/2406.03406v1 )

ライセンス: Link先を確認
Wen-Yu Xi, Juan Wang, Yu-Lin Zhang, Jin-Xing Liu, Yin-Lian Gao, (参考訳) 新たな研究は、lncRNAが複雑なヒトの疾患のシリーズにおいて重要な研究価値を持っていることを示している。 したがって、lncRNA-disease associations (LDAs) の正確な同定は、疾患の警告と治療にとって非常に重要である。 しかし,既存の手法の多くは非線形LDAの同定に限界があり,新しいLDAの予測には大きな課題が残されている。 本稿では, HCNNLDA と命名されたlncRNA-解離関連予測に対して, 異種ネットワークと畳み込みニューラルネットワーク(CNN)に基づくディープラーニングモデルを提案する。 lncRNA、疾患、およびmiRNAノードを含む異種ネットワークを最初に構築する。 lncRNA-解離ノード対の埋め込みマトリックスは、lncRNA、疾患、miRNAに関する様々な生物学的前提に従って構築される。 そして、低次元特徴表現は畳み込みニューラルネットワークによって完全に学習される。 最終的に、XGBoot分類モデルは潜在的なLDAを予測するために訓練される。 HCNNLDAは、5倍のクロスバリデーションの下で高いAUC値 0.9752 と AUPR 0.9740 を得る。 実験結果から,提案モデルがいくつかの最新の予測モデルよりも優れた性能を示した。 一方,新しいLDAの同定におけるHCNNLDAの有効性は,3つの疾患のケーススタディにより明らかにされた。 HCNNLDAはLDAを予測するための計算モデルである。

The emerging research shows that lncRNA has crucial research value in a series of complex human diseases. Therefore, the accurate identification of lncRNA-disease associations (LDAs) is very important for the warning and treatment of diseases. However, most of the existing methods have limitations in identifying nonlinear LDAs, and it remains a huge challenge to predict new LDAs. In this paper, a deep learning model based on a heterogeneous network and convolutional neural network (CNN) is proposed for lncRNA-disease association prediction, named HCNNLDA. The heterogeneous network containing the lncRNA, disease, and miRNA nodes, is constructed firstly. The embedding matrix of a lncRNA-disease node pair is constructed according to various biological premises about lncRNAs, diseases, and miRNAs. Then, the low-dimensional feature representation is fully learned by the convolutional neural network. In the end, the XGBoot classifier model is trained to predict the potential LDAs. HCNNLDA obtains a high AUC value of 0.9752 and AUPR of 0.9740 under the 5-fold cross-validation. The experimental results show that the proposed model has better performance than that of several latest prediction models. Meanwhile, the effectiveness of HCNNLDA in identifying novel LDAs is further demonstrated by case studies of three diseases. To sum up, HCNNLDA is a feasible calculation model to predict LDAs.
翻訳日:2024-06-06 17:22:00 公開日:2024-06-02
# 物理と幾何情報を用いたニューラルオペレーターネットワークと音響散乱への応用

Physics and geometry informed neural operator network with application to acoustic scattering ( http://arxiv.org/abs/2406.03407v1 )

ライセンス: Link先を確認
Siddharth Nair, Timothy F. Walsh, Greg Pickrell, Fabio Semperlotti, (参考訳) 本稿では,音響散乱の前方シミュレーションに応用した物理・幾何学情報ニューラルオペレーターネットワークを提案する。 異なる計算領域の解演算子を学習できる幾何学情報深層学習モデルの開発は、様々な工学的応用において一般的な問題である。 そこで本研究では,非一様有理B-スプライン(NURBS)に基づく幾何パラメータ化手法を用いて,任意の形状の散乱器の散乱圧力場を予測できる物理インフォームド・ディープ・オペレーターネットワーク(DeepONet)を提案する。 このアプローチはまた、非自明な散乱体幾何学の同相表現をもたらす。 計算領域を変更する際にモデルの再評価を必要とする既存の物理ベースのアプローチとは対照的に、我々の訓練されたモデルは、任意の剛性散乱器形状に対してわずか数秒で物理的に一貫性のある散らばった圧力場を近似できる解演算子を学習することができる。 さらに,ラベル付きトレーニングデータを必要としない分散圧力場の評価も可能である。 理論的な手法を提示した後、任意の散乱体ジオメトリの任意の組み合わせによる音圧場をシミュレートするためのこのアプローチの顕著な能力を示すために、総合的な数値的研究も行われる。 これらの結果は,提案した演算子学習手法のユニークな一般化能力を強調した。

In this paper, we introduce a physics and geometry informed neural operator network with application to the forward simulation of acoustic scattering. The development of geometry informed deep learning models capable of learning a solution operator for different computational domains is a problem of general importance for a variety of engineering applications. To this end, we propose a physics-informed deep operator network (DeepONet) capable of predicting the scattered pressure field for arbitrarily shaped scatterers using a geometric parameterization approach based on non-uniform rational B-splines (NURBS). This approach also results in parsimonious representations of non-trivial scatterer geometries. In contrast to existing physics-based approaches that require model re-evaluation when changing the computational domains, our trained model is capable of learning solution operator that can approximate physically-consistent scattered pressure field in just a few seconds for arbitrary rigid scatterer shapes; it follows that the computational time for forward simulations can improve (i.e. be reduced) by orders of magnitude in comparison to the traditional forward solvers. In addition, this approach can evaluate the scattered pressure field without the need for labeled training data. After presenting the theoretical approach, a comprehensive numerical study is also provided to illustrate the remarkable ability of this approach to simulate the acoustic pressure fields resulting from arbitrary combinations of arbitrary scatterer geometries. These results highlight the unique generalization capability of the proposed operator learning approach.
翻訳日:2024-06-06 17:02:29 公開日:2024-06-02
# 線形時間における量子計算の古典的検証

Classical Verification of Quantum Computations in Linear Time ( http://arxiv.org/abs/2202.13997v5 )

ライセンス: Link先を確認
Jiayu Zhang, (参考訳) 量子計算検証問題において、量子サーバは、量子回路の$C$を評価する出力が、それが主張する結果であるということをクライアントに納得させようとする。 この問題は、量子計算 [arXiv:1709.06984], [arXiv:1704.04487], [arXiv:1209.0449] において理論的にも実用的にも非常に重要であると考えられている。 クライアントは計算能力に制限があると考えられており、クライアントは完全に古典的になり、量子計算(CVQC)問題の古典的検証に繋がる。 合計時間複雑性に関しては、これまで最速のシングルサーバCVQCプロトコルは、$O(poly(\kappa)|C|^3)$であり、$|C|$は検証対象回路のサイズであり、$\kappa$はMahadev [arXiv:1804.01082]によって与えられるセキュリティパラメータである。 本研究では,新しい手法を開発することにより,既存のプロトコルよりもはるかに高速な,複雑さの$O(poly(\kappa)|C|)$のCVQCプロトコルを提供する。 我々のプロトコルは、量子暗号において広く使われているノイズの多いトラップドアの爪のない関数 [arXiv:1804.00640] の存在を前提として、量子ランダムオラクルモデル [arXiv:1008.0931] において安全である。 その過程では、$\{|+_\theta\rangle=\frac{1}{\sqrt{2}}(|0\rangle+e^{i\theta\pi/4}|1\rangle):\theta\in \{0,1\cdots 7\}\}$という、量子暗号における別の基本的なプリミティブに対して、新しい古典的なチャネルリモート状態準備プロトコルも提供します。 我々のプロトコルは、この形式で独立に$L$のランダムな状態を並列で作成することを可能にし、O(poly(\kappa)L)$時間と定数のラウンドでしか実行できない。比較すると、既存の作業(おそらくはより単純な状態のファミリーでも)は、非常に大きな時間とラウンドの複雑さを必要とする[arXiv:1904.06320][arXiv:1904.06303][arXiv:2201.13445][arXiv:2201.13445]][arXiv:2201.13430]]]]。

In the quantum computation verification problem, a quantum server wants to convince a client that the output of evaluating a quantum circuit $C$ is some result that it claims. This problem is considered very important both theoretically and practically in quantum computation [arXiv:1709.06984], [arXiv:1704.04487], [arXiv:1209.0449]. The client is considered to be limited in computational power, and one desirable property is that the client can be completely classical, which leads to the classical verification of quantum computation (CVQC) problem. In terms of the total time complexity, the fastest single-server CVQC protocol so far has complexity $O(poly(\kappa)|C|^3)$ where $|C|$ is the size of the circuit to be verified and $\kappa$ is the security parameter, given by Mahadev [arXiv:1804.01082]. In this work, by developing new techniques, we give a new CVQC protocol with complexity $O(poly(\kappa)|C|)$, which is significantly faster than existing protocols. Our protocol is secure in the quantum random oracle model [arXiv:1008.0931] assuming the existence of noisy trapdoor claw-free functions [arXiv:1804.00640], which are both extensively used assumptions in quantum cryptography. Along the way, we also give a new classical channel remote state preparation protocol for states in $\{|+_\theta\rangle=\frac{1}{\sqrt{2}}(|0\rangle+e^{i\theta\pi/4}|1\rangle):\theta\in \{0,1\cdots 7\}\}$, another basic primitive in quantum cryptography. Our protocol allows for parallel verifiable preparation of $L$ independently random states in this form (up to a constant overall error and a possibly unbounded server-side simulator), and runs in only $O(poly(\kappa)L)$ time and constant rounds; for comparison, existing works (even for possibly simpler state families) all require very large or unestimated time and round complexities [arXiv:1904.06320][arXiv:1904.06303][arXiv:2201.13445][arXiv:2201.13430].
翻訳日:2024-06-06 16:52:40 公開日:2024-06-02
# ContextFlow++: 混合変数コンテキストエンコーディングによる汎用的なフローベース生成モデル

ContextFlow++: Generalist-Specialist Flow-based Generative Models with Mixed-Variable Context Encoding ( http://arxiv.org/abs/2406.00578v1 )

ライセンス: Link先を確認
Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, (参考訳) フローベース生成モデルの正規化は、正確な密度推定が重要となるアプリケーションで広く利用されている。 近年の研究では, 表現性向上のための多くの手法が提案されている。 しかし、文脈での条件付けは、主観的流れの研究においてほとんど見過ごされてしまう。 ベクトル連結による従来の条件付けは、数種類のフロータイプに制限される。 より重要なことに、このアプローチは、コンテキスト条件付き(特殊主義者)モデルのセットが、固定された事前訓練された一般知識(ジェネラリスト)モデルで訓練されるような実践的なセットアップをサポートしない。 本稿では,これらの制約を克服するためのContextFlow++アプローチを提案する。 さらに、コンテクストエンコーダを用いた混合変数アーキテクチャにより、個別のコンテキストをサポートする。 特に、離散変数の文脈エンコーダは、文脈条件付き連続変数がサンプリングされるサージェクティブフローである。 MNIST-R, 破損したCIFAR-10C, 現実世界のATMの予測保守, およびSMAPの教師なし異常検出ベンチマーク実験により, 提案したContextFlow++はより高速な安定トレーニングを提供し, 高性能なメトリクスを実現することを示す。 私たちのコードはhttps://github.com/gudovskiy/contextflow.comで公開されています。

Normalizing flow-based generative models have been widely used in applications where the exact density estimation is of major importance. Recent research proposes numerous methods to improve their expressivity. However, conditioning on a context is largely overlooked area in the bijective flow research. Conventional conditioning with the vector concatenation is limited to only a few flow types. More importantly, this approach cannot support a practical setup where a set of context-conditioned (specialist) models are trained with the fixed pretrained general-knowledge (generalist) model. We propose ContextFlow++ approach to overcome these limitations using an additive conditioning with explicit generalist-specialist knowledge decoupling. Furthermore, we support discrete contexts by the proposed mixed-variable architecture with context encoders. Particularly, our context encoder for discrete variables is a surjective flow from which the context-conditioned continuous variables are sampled. Our experiments on rotated MNIST-R, corrupted CIFAR-10C, real-world ATM predictive maintenance and SMAP unsupervised anomaly detection benchmarks show that the proposed ContextFlow++ offers faster stable training and achieves higher performance metrics. Our code is publicly available at https://github.com/gudovskiy/contextflow.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-02
# CMDBench: 複合AIシステムにおける粗大なマルチモーダルデータ発見のためのベンチマーク

CMDBench: A Benchmark for Coarse-to-fine Multimodal Data Discovery in Compound AI Systems ( http://arxiv.org/abs/2406.00583v1 )

ライセンス: Link先を確認
Yanlin Feng, Sajjadur Rahman, Aaron Feng, Vincent Chen, Eser Kandogan, (参考訳) LLMをエージェントとして使用して、ツールやデータレトリバーとのインタラクションを通じて知識集約的なタスクを実現する複合AIシステム(CAS)は、データベースやAIコミュニティにおいて大きな関心を集めている。 これらのシステムは、エンタープライズデータプラットフォームのデータアナリストの典型的な分析ワークフローを補完する可能性があるが、残念ながら、CASは、アナリストが長年にわたって直面してきたのと同じデータ発見の課題に直面する。 既存のデータ発見ベンチマークでは、そのようなマルチモーダル性とデータソースの多重性をモデル化していない。 さらに、CASのベンチマークは、エンドツーエンドのタスクパフォーマンスの評価のみを優先する。 実世界におけるCASにおけるマルチモーダルデータ検索器のデータ発見性能を評価するために,エンタープライズデータプラットフォームの複雑さをモデル化したベンチマークであるCMDBenchを提案する。 質問応答や複雑な推論タスクから構造化データに対する自然言語クエリに至るまで、既存のデータセットとベンチマークをオープンドメインに適応し、粗大できめ細かいデータ発見とタスク実行のパフォーマンスを評価します。 実験の結果、データ検索設計がダウンストリームタスクのパフォーマンス(平均46%のタスク精度低下)に与える影響を、様々なモダリティ、データソース、タスクの難易度で明らかにした。 その結果,企業データ上でCASを効率的に実行するためには,適切なLCMエージェントとレトリバーを識別するための最適化戦略を開発する必要があることが示唆された。

Compound AI systems (CASs) that employ LLMs as agents to accomplish knowledge-intensive tasks via interactions with tools and data retrievers have garnered significant interest within database and AI communities. While these systems have the potential to supplement typical analysis workflows of data analysts in enterprise data platforms, unfortunately, CASs are subject to the same data discovery challenges that analysts have encountered over the years -- silos of multimodal data sources, created across teams and departments within an organization, make it difficult to identify appropriate data sources for accomplishing the task at hand. Existing data discovery benchmarks do not model such multimodality and multiplicity of data sources. Moreover, benchmarks of CASs prioritize only evaluating end-to-end task performance. To catalyze research on evaluating the data discovery performance of multimodal data retrievers in CASs within a real-world setting, we propose CMDBench, a benchmark modeling the complexity of enterprise data platforms. We adapt existing datasets and benchmarks in open-domain -- from question answering and complex reasoning tasks to natural language querying over structured data -- to evaluate coarse- and fine-grained data discovery and task execution performance. Our experiments reveal the impact of data retriever design on downstream task performance -- a 46% drop in task accuracy on average -- across various modalities, data sources, and task difficulty. The results indicate the need to develop optimization strategies to identify appropriate LLM agents and retrievers for efficient execution of CASs over enterprise data.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-02
# 企業向け複合AIシステムの青写真アーキテクチャ

A Blueprint Architecture of Compound AI Systems for Enterprise ( http://arxiv.org/abs/2406.00584v1 )

ライセンス: Link先を確認
Eser Kandogan, Sajjadur Rahman, Nikita Bhutani, Dan Zhang, Rafael Li Chen, Kushan Mitra, Sairam Gurajada, Pouya Pezeshkpour, Hayate Iso, Yanlin Feng, Hannah Kim, Chen Shen, Jin Wang, Estevam Hruschka, (参考訳) 大規模言語モデル(LLM)は、従来のNLPの課題を超え、実運用での使用機会を生み出している。 この目標に向けて、複合AIシステムの構築には注目すべきシフトがあり、LLMはモデルやレトリバー、データベース、ツールなど、多くのコンポーネントを備えた拡張可能なソフトウェアインフラストラクチャに統合される。 本稿では,複合型AIシステムのための青写真アーキテクチャを導入し,企業環境での運用を費用対効果で実現している。 提案アーキテクチャは,既存の計算およびデータインフラストラクチャとのシームレスな統合を目標としており,‘stream’’がデータや命令をエージェントや他のコンポーネント間で協調するための鍵となるオーケストレーション概念として機能している。 タスクとデータプランナはそれぞれ,それぞれのレジストリで定義された利用可能なエージェントとデータソースにタスクとデータを分割,マップ,最適化する。

Large Language Models (LLMs) have showcased remarkable capabilities surpassing conventional NLP challenges, creating opportunities for use in production use cases. Towards this goal, there is a notable shift to building compound AI systems, wherein LLMs are integrated into an expansive software infrastructure with many components like models, retrievers, databases and tools. In this paper, we introduce a blueprint architecture for compound AI systems to operate in enterprise settings cost-effectively and feasibly. Our proposed architecture aims for seamless integration with existing compute and data infrastructure, with ``stream'' serving as the key orchestration concept to coordinate data and instructions among agents and other components. Task and data planners, respectively, break down, map, and optimize tasks and data to available agents and data sources defined in respective registries, given production constraints such as accuracy and latency.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-02
# VeriSplit:IoTデバイス間でのマシンラーニング推論のセキュアで実用的なオフロード

VeriSplit: Secure and Practical Offloading of Machine Learning Inferences across IoT Devices ( http://arxiv.org/abs/2406.00586v1 )

ライセンス: Link先を確認
Han Zhang, Zifan Wang, Mihir Dhamankar, Matt Fredrikson, Yuvraj Agarwal, (参考訳) 多くのIoT(Internet-of-Things)デバイスは、機械学習推論を実行するためにクラウド計算リソースに依存している。 これは高価で、ユーザーのプライバシーを心配する可能性がある。 これらのデバイスのコンシューマは、ゲームコンソールやグラフィックアクセラレーションを備えたPCのようなハードウェアを持ち、これらの計算を実行することができる。 これはクラウドオフロードの強力な代替手段であるが、推論の完全性、モデルのパラメータの機密性、ユーザのデータのプライバシに関する懸念は、デバイスベンダが推論を他のメーカーが管理するプラットフォームにオフロードすることをためらう可能性があることを意味している。 機械学習推論を、これらの懸念に対処するローカルデバイスにオフロードするフレームワークであるVeriSplitを提案する。 データプライバシとモデルの機密性を保護するためのマスキング手法と、整合性に対処するためのコミットメントベースの検証プロトコルを導入する。 これらの問題に対処するための従来の作業とは異なり、我々のアプローチは有限フィールド要素上の計算に頼らず、ハードウェアアクセラレータ上で浮動小数点演算を妨害し、既存のモデルの変更を必要とする可能性がある。 We implemented a prototype of VeriSplit and our evaluation results show that to performed compute local, our secure and private offloading solution can reduce inference latency by 28%--83%。

Many Internet-of-Things (IoT) devices rely on cloud computation resources to perform machine learning inferences. This is expensive and may raise privacy concerns for users. Consumers of these devices often have hardware such as gaming consoles and PCs with graphics accelerators that are capable of performing these computations, which may be left idle for significant periods of time. While this presents a compelling potential alternative to cloud offloading, concerns about the integrity of inferences, the confidentiality of model parameters, and the privacy of users' data mean that device vendors may be hesitant to offload their inferences to a platform managed by another manufacturer. We propose VeriSplit, a framework for offloading machine learning inferences to locally-available devices that address these concerns. We introduce masking techniques to protect data privacy and model confidentiality, and a commitment-based verification protocol to address integrity. Unlike much prior work aimed at addressing these issues, our approach does not rely on computation over finite field elements, which may interfere with floating-point computation supports on hardware accelerators and require modification to existing models. We implemented a prototype of VeriSplit and our evaluation results show that, compared to performing computation locally, our secure and private offloading solution can reduce inference latency by 28%--83%.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-02
# PVUW2024のための信頼できない擬似ラベルを用いた半教師付きビデオセマンティックセマンティックセマンティックセグメンテーション

Semi-supervised Video Semantic Segmentation Using Unreliable Pseudo Labels for PVUW2024 ( http://arxiv.org/abs/2406.00587v1 )

ライセンス: Link先を確認
Biao Wu, Diankai Zhang, Si Gao, Chengjian Zheng, Shaoli Liu, Ning Wang, (参考訳) 画像内の各ピクセルのオブジェクトクラス、マスク、セマンティクスを認識することを目的としている。 映像シーン解析と比較して、映像シーン解析は時間的情報を導入し、実際の世界は静的な状態ではなく、実際にビデオベースであるため、予測の一貫性と精度を効果的に向上させることができる。 本稿では,信頼できない擬似ラベルに基づく半教師付きビデオセマンティックセグメンテーション手法を採用する。 そこで,教師ネットワークモデルを学生ネットワークモデルとアンサンブルして擬似ラベルを生成し,学生ネットワークを再訓練する。 本手法では,mIoUが63.71%,67.83%,最終試験が67.83%であった。 最後に,CVPR 2024のワイルドチャレンジにおけるビデオ・シーン・パーシングにおいて,第1位を獲得した。

Pixel-level Scene Understanding is one of the fundamental problems in computer vision, which aims at recognizing object classes, masks and semantics of each pixel in the given image. Compared with image scene parsing, video scene parsing introduces temporal information, which can effectively improve the consistency and accuracy of prediction,because the real-world is actually video-based rather than a static state. In this paper, we adopt semi-supervised video semantic segmentation method based on unreliable pseudo labels. Then, We ensemble the teacher network model with the student network model to generate pseudo labels and retrain the student network. Our method achieves the mIoU scores of 63.71% and 67.83% on development test and final test respectively. Finally, we obtain the 1st place in the Video Scene Parsing in the Wild Challenge at CVPR 2024.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-02
# クリーンラベルバックドア攻撃のための一般化境界と新しいアルゴリズム

Generalization Bound and New Algorithm for Clean-Label Backdoor Attack ( http://arxiv.org/abs/2406.00588v1 )

ライセンス: Link先を確認
Lijia Yu, Shuang Liu, Yibo Miao, Xiao-Shan Gao, Lijun Zhang, (参考訳) 一般化境界は学習方法の一般化可能性を評価する重要な理論ツールであり、正規学習の一般化可能性、敵対学習、データ中毒に関する膨大な文献が存在する。 他のデータ中毒攻撃とは異なり、バックドア攻撃は、トレーニングセットとテストセットの両方に中毒トリガーが含まれているという特別な性質を持ち、攻撃の目的は2倍である。 我々の知る限り、バックドア攻撃に対する一般化は確立されていない。 本稿では,クリーンラベルバックドア攻撃シナリオにおいて,アルゴリズムに依存しない一般化境界を導出することにより,このギャップを埋める。 正確には, バックドア攻撃の目標に基づいて, 汚染されたトレーニングデータセットの試行錯誤から, クリーンサンプル集団エラーと有毒個体集団エラーに上限を与える。 さらに, 理論的結果から, 敵の騒音と無差別の毒を併用して毒を誘発する新たなクリーンラベルバックドア攻撃が提案されている。 さまざまな設定で有効性を示す。

The generalization bound is a crucial theoretical tool for assessing the generalizability of learning methods and there exist vast literatures on generalizability of normal learning, adversarial learning, and data poisoning. Unlike other data poison attacks, the backdoor attack has the special property that the poisoned triggers are contained in both the training set and the test set and the purpose of the attack is two-fold. To our knowledge, the generalization bound for the backdoor attack has not been established. In this paper, we fill this gap by deriving algorithm-independent generalization bounds in the clean-label backdoor attack scenario. Precisely, based on the goals of backdoor attack, we give upper bounds for the clean sample population errors and the poison population errors in terms of the empirical error on the poisoned training dataset. Furthermore, based on the theoretical result, a new clean-label backdoor attack is proposed that computes the poisoning trigger by combining adversarial noise and indiscriminate poison. We show its effectiveness in a variety of settings.
翻訳日:2024-06-06 06:15:52 公開日:2024-06-02
# 反復的グラディエントDescentとThreshold選択によるロバストな視覚追跡

Robust Visual Tracking via Iterative Gradient Descent and Threshold Selection ( http://arxiv.org/abs/2406.00589v1 )

ライセンス: Link先を確認
Zhuang Qi, Junlin Zhang, Xin Qi, (参考訳) 視覚的トラッキングは、基本的に、ビデオの各フレームにおけるターゲットの状態の後退を伴う。 大幅な進歩にもかかわらず、既存の回帰ベースのトラッカーは依然として失敗や不正確さを経験する傾向がある。 目標推定精度を高めるために,ロバスト回帰に基づく追跡手法を提案する。 まず, 誤差ベクトルがガウス-ラプラシアン分布に従えば, 良好な性能が得られる新しい線形回帰推定器を提案する。 第二に、アウトレイラの問題を迅速に解決するための反復的なプロセスを設計する。 実際、この係数は反復グラディエントDescent and Threshold Selection algorithm (IGDTS) によって得られる。 さらに、IGDTSを生成トラッカーに拡張し、IGDTS距離を適用してサンプルとモデル間のずれを測定する。 最後に、追跡対象の外観変化を捕捉し、モデルが正しく更新されることを保証する更新方式を提案する。 いくつかの難解な画像列の実験結果から,提案したトラッカーは既存のトラッカーより優れていた。

Visual tracking fundamentally involves regressing the state of the target in each frame of a video. Despite significant progress, existing regression-based trackers still tend to experience failures and inaccuracies. To enhance the precision of target estimation, this paper proposes a tracking technique based on robust regression. Firstly, we introduce a novel robust linear regression estimator, which achieves favorable performance when the error vector follows i.i.d Gaussian-Laplacian distribution. Secondly, we design an iterative process to quickly solve the problem of outliers. In fact, the coefficients are obtained by Iterative Gradient Descent and Threshold Selection algorithm (IGDTS). In addition, we expend IGDTS to a generative tracker, and apply IGDTS-distance to measure the deviation between the sample and the model. Finally, we propose an update scheme to capture the appearance changes of the tracked object and ensure that the model is updated correctly. Experimental results on several challenging image sequences show that the proposed tracker outperformance existing trackers.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# 教育広告配信における人種差別の取組み

Auditing for Racial Discrimination in the Delivery of Education Ads ( http://arxiv.org/abs/2406.00591v1 )

ライセンス: Link先を確認
Basileal Imana, Aleksandra Korolova, John Heidemann, (参考訳) ソーシャルメディアプラットフォーム上のデジタル広告は、経済的機会へのアクセスを形作る上で重要な役割を担っている。 本研究は,教育機会のための広告配信における人種的偏見を評価可能な,新たな第三者監査手法の提案と実装である。 サードパーティの監査は、外部の参加者がソーシャルメディアのアルゴリズムに偏見の有無を証明できるため重要である。 教育は差別や人種的ターゲットの懸念に対して法的に保護される領域であるが、広告配信アルゴリズムによって引き起こされる偏見は、これまでこの領域では研究されていない。 以前の監査では、プラットフォームが住宅や雇用広告のためにユーザーに広告を配信する際の差別が示されていた。 これらの監査の結果は、Metaが広告配信アルゴリズムを変更してバイアスを減らすための法的行動を支持したが、それは住宅、雇用、信用の領域に限られていた。 本研究では,教育広告のためのプラットフォーム広告配信アルゴリズムにおいて,差別を計測する新しい手法を提案する。 本稿では,本手法を実校向け広告を用いてMetaに適用し,納品結果を観察する。 メタのアルゴリズムによる教育機会の広告配信における人種差別の証拠を見つけ、法的および倫理的懸念を訴える。 本研究は, アルゴリズムによる差別の証拠を教育領域に拡張し, 現在の偏見緩和メカニズムは範囲が狭く, 非差別の確保が重要である分野において, ソーシャルメディアの第三者監査に幅広い役割を担っていることを示唆した。

Digital ads on social-media platforms play an important role in shaping access to economic opportunities. Our work proposes and implements a new third-party auditing method that can evaluate racial bias in the delivery of ads for education opportunities. Third-party auditing is important because it allows external parties to demonstrate presence or absence of bias in social-media algorithms. Education is a domain with legal protections against discrimination and concerns of racial-targeting, but bias induced by ad delivery algorithms has not been previously explored in this domain. Prior audits demonstrated discrimination in platforms' delivery of ads to users for housing and employment ads. These audit findings supported legal action that prompted Meta to change their ad-delivery algorithms to reduce bias, but only in the domains of housing, employment, and credit. In this work, we propose a new methodology that allows us to measure racial discrimination in a platform's ad delivery algorithms for education ads. We apply our method to Meta using ads for real schools and observe the results of delivery. We find evidence of racial discrimination in Meta's algorithmic delivery of ads for education opportunities, posing legal and ethical concerns. Our results extend evidence of algorithmic discrimination to the education domain, showing that current bias mitigation mechanisms are narrow in scope, and suggesting a broader role for third-party auditing of social media in areas where ensuring non-discrimination is important.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# モデル予測制御と強化学習:動的プログラミングに基づく統一フレームワーク

Model Predictive Control and Reinforcement Learning: A Unified Framework Based on Dynamic Programming ( http://arxiv.org/abs/2406.00592v1 )

ライセンス: Link先を確認
Dimitri P. Bertsekas, (参考訳) 本稿では、近似動的プログラミング(DP)、モデル予測制御(MPC)、強化学習(RL)を結合する新しい概念フレームワークについて述べる。 このフレームワークは2つのアルゴリズムを中心に設計されており、ニュートンの手法の強力なメカニズムを通じて互いに独立に設計され、シナジーで動作している。 オフライントレーニングとオンラインプレイアルゴリズムと呼んでいます。 主な例として、2017年のAlphaZeroプログラム(チェス、[SHS17]、[SSS17])、1990年代のTD-Gammonプログラム(バックギャモン、[Tes94]、[Tes95]、[TeG96])などがある。 これらのゲームコンテキストにおいて、オフライントレーニングアルゴリズムは、プログラムに位置を評価し、任意の位置で良い動きを生成する方法を教える方法であり、オンラインプレイアルゴリズムは、人間やコンピュータの対戦相手に対してリアルタイムにプレイする手法である。 重要なことに、オフライントレーニングとオンラインプレイの相乗効果は、MPC(および他のシーケンシャルな決定問題の主要なクラス)の基盤にもなり、実際、MPC設計アーキテクチャはAlphaZeroとTD-Gammonのものと非常によく似ている。 この概念的な洞察は、RLとMPCの文化的ギャップを埋める手段を提供し、MPCの基本的な問題に新たな光を当てる。 これには、ロールアウトによる安定性の強化、確実性等価性による不確実性処理、システムパラメータの変更を含む適応制御設定におけるMPCのレジリエンス、ニュートン法によって示唆された超線形性能境界による洞察などが含まれる。

In this paper we describe a new conceptual framework that connects approximate Dynamic Programming (DP), Model Predictive Control (MPC), and Reinforcement Learning (RL). This framework centers around two algorithms, which are designed largely independently of each other and operate in synergy through the powerful mechanism of Newton's method. We call them the off-line training and the on-line play algorithms. The names are borrowed from some of the major successes of RL involving games; primary examples are the recent (2017) AlphaZero program (which plays chess, [SHS17], [SSS17]), and the similarly structured and earlier (1990s) TD-Gammon program (which plays backgammon, [Tes94], [Tes95], [TeG96]). In these game contexts, the off-line training algorithm is the method used to teach the program how to evaluate positions and to generate good moves at any given position, while the on-line play algorithm is the method used to play in real time against human or computer opponents. Significantly, the synergy between off-line training and on-line play also underlies MPC (as well as other major classes of sequential decision problems), and indeed the MPC design architecture is very similar to the one of AlphaZero and TD-Gammon. This conceptual insight provides a vehicle for bridging the cultural gap between RL and MPC, and sheds new light on some fundamental issues in MPC. These include the enhancement of stability properties through rollout, the treatment of uncertainty through the use of certainty equivalence, the resilience of MPC in adaptive control settings that involve changing system parameters, and the insights provided by the superlinear performance bounds implied by Newton's method.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# ブロックチェーンにおけるマイニングフェアネスのモデルベース解析

Model-based Analysis of Mining Fairness in a Blockchain ( http://arxiv.org/abs/2406.00595v1 )

ライセンス: Link先を確認
Akira Sakurai, Kazuyuki Shudo, (参考訳) ブロックチェーンにおけるマイニングフェアネスは、マイニングに投資した計算リソースと、受け取ったブロック報酬の平等を指す。 ブロックチェーンのトランザクション処理能力を増加させるジレンマは、マイニングフェアネスを損なうため、その分散性を損なう。 このジレンマは、GHOSTのような手法でも未解決のままであり、マイニングフェアネスがシステムのトランザクション処理能力に固有のボトルネックであることを示している。 その重要性にもかかわらず、鉱業の公正さを定量的に分析する研究は不十分である。 本稿では,マイニングフェアネスを計算する手法を提案する。 まず、単純な数学的モデルを用いて複雑なブロックチェーンネットワークを近似し、ラウンド毎に2ブロックしか生成されないと仮定する。 本モデルでは, 地域鉱業公正度を定量的に決定し, 地域鉱業公正度に基づく世界鉱業公正度を導出する。 我々は,少数のマイナを持つネットワークにおけるマイニングフェアネスを精度良く計算する手法の有効性を検証した。 さらに,マイニングフェアネスの観点から様々なネットワークを分析した。

Mining fairness in blockchain refers to the equality between the computational resources invested in mining and the block rewards received. There exists a dilemma where increasing the blockchain's transaction processing capacity damages mining fairness, consequently undermining its decentralization. This dilemma remains unresolved even with methods such as GHOST, indicating that mining fairness is an inherent bottleneck to the system's transaction processing capacity. Despite its significance, there have been insufficient studies quantitatively analyzing mining fairness. In this paper, we propose a method to calculate mining fairness. Initially, we approximate a complex blockchain network using a simple mathematical model, assuming that no more than two blocks are generated per round. Within this model, we quantitatively determine local mining fairness and derive several measures of global mining fairness based on local mining fairness. We validated that our calculation method accurately computes mining fairness in networks with a small number of miners. Furthermore, we analyzed various networks from the perspective of mining fairness.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# 多変量対応型時系列予測モデル

Multi-variable Adversarial Time-Series Forecast Model ( http://arxiv.org/abs/2406.00596v1 )

ライセンス: Link先を確認
Xiaoqiao Chen, (参考訳) 短期的な産業用電力システムの予測は、負荷制御と機械保護の両方において重要な問題である。 科学者は負荷予測に重点を置いているが、電力システム保護のガイダンスを提供する他の貴重な電気メーターを無視する。 本稿では,Long Short-Term Memory(LSTM)モデルを逆処理により正規化する,多変数の逆時系列予測モデルを提案する。 新たなモデルでは、電力系統内の全ての変数(継続変数、カテゴリ変数など)を同時に予測し、単一変数の予測精度と変数変数変数の関係のトレードオフプロセスを支援する。 実験は、生成したサンプルの質的、定量的な評価を通じて、フレームワークの可能性を示す。 多変量対応型時系列予測モデルにより, 企業における電力消費の予測結果は, 提案手法が予測精度を向上できることを示している。 また、このモデルを、先進的な電力モニタを用いて、複数の大企業から収集した実産業の電力システムデータに適用し、予測結果に感銘を受けた。

Short-term industrial enterprises power system forecasting is an important issue for both load control and machine protection. Scientists focus on load forecasting but ignore other valuable electric-meters which should provide guidance of power system protection. We propose a new framework, multi-variable adversarial time-series forecasting model, which regularizes Long Short-term Memory (LSTM) models via an adversarial process. The novel model forecasts all variables (may in different type, such as continue variables, category variables, etc.) in power system at the same time and helps trade-off process between forecasting accuracy of single variable and variable-variable relations. Experiments demonstrate the potential of the framework through qualitative and quantitative evaluation of the generated samples. The predict results of electricity consumption of industrial enterprises by multi-variable adversarial time-series forecasting model show that the proposed approach is able to achieve better prediction accuracy. We also applied this model to real industrial enterprises power system data we gathered from several large industrial enterprises via advanced power monitors, and got impressed forecasting results.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# モバイルデバイスのための効率的なニューラルネットワーク(ENeLF)

Efficient Neural Light Fields (ENeLF) for Mobile Devices ( http://arxiv.org/abs/2406.00598v1 )

ライセンス: Link先を確認
Austin Peng, (参考訳) 新たなビュー合成 (NVS) はコンピュータビジョンとグラフィックスにおける課題であり、実際の入力画像のセットが限られているため、観測されていないカメラのポーズからシーンのリアルなイメージを生成することに焦点を当てている。 ニューラルレイディアンス場(NeRF)は、ボリュームレンダリングを利用して、レンダリング品質を著しく向上させた。 しかし、NeRFとその変種は、ボリュームレンダリングの計算コストが高いため、モバイルデバイスには適さない。 ニューラルライトフィールド(NeLF)における新たな研究は、光線表現からピクセル色へのマッピングを直接学習することで、ボリュームレンダリングの必要性を排除している。 NeLFはNeRFと同様の結果を得る能力を示したが、モバイルフレンドリーでないより広範囲で計算集約的なネットワークを必要としている。 既存の研究とは異なり、この研究はMobileR2Lが導入した新しいネットワークアーキテクチャに基づいており、低レイテンシと小型のモバイルデバイス上で効率よく動作するモデルを作成するための圧縮技術(チャネルワイド・ストラクチャー・プルーニング)を積極的に適用し、性能はわずかに低下する。

Novel view synthesis (NVS) is a challenge in computer vision and graphics, focusing on generating realistic images of a scene from unobserved camera poses, given a limited set of authentic input images. Neural radiance fields (NeRF) achieved impressive results in rendering quality by utilizing volumetric rendering. However, NeRF and its variants are unsuitable for mobile devices due to the high computational cost of volumetric rendering. Emerging research in neural light fields (NeLF) eliminates the need for volumetric rendering by directly learning a mapping from ray representation to pixel color. NeLF has demonstrated its capability to achieve results similar to NeRF but requires a more extensive, computationally intensive network that is not mobile-friendly. Unlike existing works, this research builds upon the novel network architecture introduced by MobileR2L and aggressively applies a compression technique (channel-wise structure pruning) to produce a model that runs efficiently on mobile devices with lower latency and smaller sizes, with a slight decrease in performance.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# グループメンバーシップの不確実性セットによるロバストフェアクラスタリング

Robust Fair Clustering with Group Membership Uncertainty Sets ( http://arxiv.org/abs/2406.00599v1 )

ライセンス: Link先を確認
Sharmila Duppala, Juan Luque, John P. Dickerson, Seyed A. Esmaeili, (参考訳) 本研究では,各集団の集団レベルでの表現に近づき,各集団が制約される正準公正クラスタリング問題について検討する。 重要な注意を払っているにもかかわらず、各点のグループメンバーシップに関する不完全な知識を持つという健全な問題は表面的に解決されている。 本稿では,割り当てられたグループメンバシップにエラーが存在する状況について考察する。 意思決定者によって与えられる少数のパラメータを必要とする、単純で解釈可能なエラーモデルのファミリーを導入する。 次に、証明可能なロバスト性保証を伴う公正クラスタリングのアルゴリズムを提案する。 私たちのフレームワークは、意思決定者に対して、堅牢性とクラスタリングの品質のトレードオフを可能にします。 これまでの研究とは異なり、我々のアルゴリズムは最悪の理論上の保証によって裏付けられている。 最後に、実世界のデータセット上でのアルゴリズムの性能を実証的に検証し、既存のベースラインよりも優れた性能を示す。

We study the canonical fair clustering problem where each cluster is constrained to have close to population-level representation of each group. Despite significant attention, the salient issue of having incomplete knowledge about the group membership of each point has been superficially addressed. In this paper, we consider a setting where errors exist in the assigned group memberships. We introduce a simple and interpretable family of error models that require a small number of parameters to be given by the decision maker. We then present an algorithm for fair clustering with provable robustness guarantees. Our framework enables the decision maker to trade off between the robustness and the clustering quality. Unlike previous work, our algorithms are backed by worst-case theoretical guarantees. Finally, we empirically verify the performance of our algorithm on real world datasets and show its superior performance over existing baselines.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# リモートセンシングにおける衛星画像分類のためのコルモゴロフ・アルノルドネットワーク

Kolmogorov-Arnold Network for Satellite Image Classification in Remote Sensing ( http://arxiv.org/abs/2406.00600v1 )

ライセンス: Link先を確認
Minjong Cheon, (参考訳) 本研究では,EuroSATデータセットを用いたリモートセンシング(RS)シーン分類タスクのために,KAN(Kolmogorov-Arnold Network)と各種トレーニング済みの畳み込みニューラルネットワーク(CNN)モデルを統合するための最初のアプローチを提案する。 KCNと呼ばれる新しい手法は、従来のマルチ層パーセプトロン(MLP)をKANに置き換えて、分類性能を向上させることを目的としている。 我々はVGG16, MobileNetV2, EfficientNet, ConvNeXt, ResNet101, Vision Transformer (ViT) など,複数のCNNベースのモデルを用いて, Kanと組み合わせて性能評価を行った。 実験の結果,KANはトレーニングのエポックやパラメータを少なくして高い精度を達成できた。 具体的には、ConvNeXtとkanのペアは、最初のエポックでは94%の精度で最高のパフォーマンスを示し、その後のエポックでは96%まで上昇し、一貫性を維持した。 以上の結果から,KAとMLPはいずれも類似の精度を達成し,KAは後期時代において若干優れていた。 EuroSATデータセットを利用することで、リモートセンシング分類タスクにkanが適しているかを調査するための堅牢なテストベッドを提供した。 Kanが新しいアルゴリズムであることを考えると、さらなる開発と最適化にはかなりの能力があり、KCNはRS分野における効率的な画像解析のための有望な代替手段であることを示している。

In this research, we propose the first approach for integrating the Kolmogorov-Arnold Network (KAN) with various pre-trained Convolutional Neural Network (CNN) models for remote sensing (RS) scene classification tasks using the EuroSAT dataset. Our novel methodology, named KCN, aims to replace traditional Multi-Layer Perceptrons (MLPs) with KAN to enhance classification performance. We employed multiple CNN-based models, including VGG16, MobileNetV2, EfficientNet, ConvNeXt, ResNet101, and Vision Transformer (ViT), and evaluated their performance when paired with KAN. Our experiments demonstrated that KAN achieved high accuracy with fewer training epochs and parameters. Specifically, ConvNeXt paired with KAN showed the best performance, achieving 94% accuracy in the first epoch, which increased to 96% and remained consistent across subsequent epochs. The results indicated that KAN and MLP both achieved similar accuracy, with KAN performing slightly better in later epochs. By utilizing the EuroSAT dataset, we provided a robust testbed to investigate whether KAN is suitable for remote sensing classification tasks. Given that KAN is a novel algorithm, there is substantial capacity for further development and optimization, suggesting that KCN offers a promising alternative for efficient image analysis in the RS field.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# 効率性から効率性へ:二言語プログラミング問題に対するLCGMによるコードの比較評価

From Effectiveness to Efficiency: Comparative Evaluation of Code Generated by LCGMs for Bilingual Programming Questions ( http://arxiv.org/abs/2406.00602v1 )

ライセンス: Link先を確認
Weipeng Jiang, Xuanqi Gao, Juan Zhai, Shiqing Ma, Xiaoyu Zhang, Chao Shen, (参考訳) 大規模コード生成モデル(LCGM)は、様々なプログラミングタスクにおいて大きな注目を集め、有望な結果を得た。 しかし、これらのモデルは主に英語中心のコーパスで訓練されており、ほとんどのプログラミング言語トークンは英語に似ているため、英語以外のプロンプトを使用する場合のパフォーマンスに関する懸念が生じる。 既存のベンチマークは、LCGMが生成したコードの品質を不十分に評価する、英語のプログラミング問題と限定的なユニットテストケースに依存していることが多い。 本稿では,異なる自然言語を入力として使用する場合のコード品質差,特に有効性と効率について検討し,その顕著なコーパスとLCGMの可用性から,中国語と英語に焦点をあてる。 LCGMが生成したコード品質の評価は,(1)高品質なバイリンガルプログラミング問題データセットの欠如,(2)包括的正当性検証のための単体テストケース不足,(3)生成されたコード性能を比較するための限定的なサポート,の3つの課題を提示する。 これらの課題に対処するため、52のバイリンガルプログラミング問題からなるテストスイートをキュレートし、それぞれに自動入力生成装置を開発した。 我々は、より大きな単体テストケースをサンプリングし、入力サイズの増加に対して実行時間をプロファイリングすることで、コード性能を推定することにより、精度検証を強化した。 この枠組みを用いて,6つの最先端LCGMの実証的研究を行った。 その結果、LCGM生成したコードは平均10.5%のタスクでバイリンガルな正確性を示し、39.5%のコードがバイリンガルなパフォーマンスの違いを示していることがわかった。 LCGMは,様々な言語にまたがる高品質なコードを生成することができず,今後の研究の方向性を示唆している。

Large Code Generation Models (LCGMs) have garnered significant attention and achieved promising results across various programming tasks. However, concerns arise regarding performance when using non-English prompts, as these models are primarily trained on English-centric corpora, and most programming language tokens resemble English. Existing benchmarks often rely on English programming questions and limited manual unit test cases, inadequately assessing LCGM-generated code quality. This paper investigates code quality differences, specifically effectiveness and efficiency, when employing different natural languages as inputs, focusing on Chinese and English due to their prominent corpora and LCGM availability. Evaluating LCGM-generated code quality under bilingual inputs presents three challenges: (1) lack of high-quality bilingual programming question datasets, (2) insufficient unit test cases for comprehensive correctness verification, and (3) limited support for comparing generated code performance. To address these challenges, we curated a test suite of 52 bilingual programming questions and developed automated input generators for each. We enhanced correctness verification by sampling larger unit test cases and estimated code performance by profiling execution time relative to input size growth. Using this framework, we conducted an empirical study on six state-of-the-art LCGMs. The results revealed that LCGM-generated code exhibits varying bilingual correctness on an average of 10.5% of tasks, with 39.5% of correct code showing diverse bilingual performance differences. Our findings suggested LCGMs may not consistently generate high-quality code across different languages, providing insights for future research directions.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# LongSkywork: 大規模言語モデルにおけるコンテキスト長を効率的に拡張するためのトレーニングレシピ

LongSkywork: A Training Recipe for Efficiently Extending Context Length in Large Language Models ( http://arxiv.org/abs/2406.00605v1 )

ライセンス: Link先を確認
Liang Zhao, Tianwen Wei, Liang Zeng, Cheng Cheng, Liu Yang, Peng Cheng, Lijie Wang, Chenxia Li, Xuejie Wu, Bo Zhu, Yimeng Gan, Rui Hu, Shuicheng Yan, Han Fang, Yahui Zhou, (参考訳) 最大20万個のトークンを処理できるLLM(long-context Large Language Model)について紹介する。 LLMの文脈長を効率的に拡張するためのトレーニングレシピを提供する。 長文処理能力の向上における重要な要素は、標準のSFTステージに続く長文SFTステージを組み込むことである。 200回のイテレーションで標準のSFTモデルを長いコンテキストモデルに変換することができる。 長文言語モデリングのためのデータ収集と注釈付けの労力を削減するため、合成データを作成する2つの新しい方法を開発した。 これらの方法はSFT(Supervised Fine-Tuning)フェーズと同様に継続事前訓練フェーズで適用され、長文LLMのトレーニング効率を大幅に向上させる。 以上の結果から, 合成長文SFTデータは, 人間が収集したデータの性能をある程度上回ることが可能であることが示唆された。 LongSkyworkは、様々なロングコンテキストベンチマークで優れたパフォーマンスを実現している。 長文情報検索のベンチマークであるNeedleテストでは,複数のコンテキストにまたがる完全精度が得られた。 さらに、現実的なアプリケーションシナリオでは、LongSkywork-13Bは、主要な長文モデルであるClaude2.1と同等の性能を示し、提案手法の有効性を実証する。

We introduce LongSkywork, a long-context Large Language Model (LLM) capable of processing up to 200,000 tokens. We provide a training recipe for efficiently extending context length of LLMs. We identify that the critical element in enhancing long-context processing capability is to incorporate a long-context SFT stage following the standard SFT stage. A mere 200 iterations can convert the standard SFT model into a long-context model. To reduce the effort in collecting and annotating data for long-context language modeling, we develop two novel methods for creating synthetic data. These methods are applied during the continual pretraining phase as well as the Supervised Fine-Tuning (SFT) phase, greatly enhancing the training efficiency of our long-context LLMs. Our findings suggest that synthetic long-context SFT data can surpass the performance of data curated by humans to some extent. LongSkywork achieves outstanding performance on a variety of long-context benchmarks. In the Needle test, a benchmark for long-context information retrieval, our models achieved perfect accuracy across multiple context spans. Moreover, in realistic application scenarios, LongSkywork-13B demonstrates performance on par with Claude2.1, the leading long-context model, underscoring the effectiveness of our proposed methods.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# LLMは外部の監督なしで自律的に学習できる

LLMs Could Autonomously Learn Without External Supervision ( http://arxiv.org/abs/2406.00606v1 )

ライセンス: Link先を確認
Ke Ji, Junying Chen, Anningzhe Gao, Wenya Xie, Xiang Wan, Benyou Wang, (参考訳) 超人的パフォーマンスの追求において、Large Language Models (LLM) は伝統的に、人間の注釈付きデータセットと事前定義された訓練目標に結び付けられてきた。 本稿では、人間の監督の制約からモデルを解放する自己充足学習パラダイムであるLSMのための自律学習という、変革的なアプローチを提案する。 本手法は, LLMに対して, 文章と直接対話して自己学習を行う能力を与える。 我々のアプローチは、アノテーション付きデータへの依存を排除し、モデルが独立して認識し、その知識ギャップを補強する自律学習環境を育む。 各種の学習材料を応用し,一般のクイズに対して評価した包括的実験の結果,自律学習は,事前学習と監視ファインチューニング(SFT, Supervised Fine-Tuning, SFT)の両方のパフォーマンスを超越し, 検索を増強する方法も示している。 これらの知見は、LLMトレーニングの効率性と効果を高めるだけでなく、より先進的で自律的なAIシステムを開発するための道を開くために、自律学習の可能性を強調している。

In the quest for super-human performance, Large Language Models (LLMs) have traditionally been tethered to human-annotated datasets and predefined training objectives-a process that is both labor-intensive and inherently limited. This paper presents a transformative approach: Autonomous Learning for LLMs, a self-sufficient learning paradigm that frees models from the constraints of human supervision. This method endows LLMs with the ability to self-educate through direct interaction with text, akin to a human reading and comprehending literature. Our approach eliminates the reliance on annotated data, fostering an Autonomous Learning environment where the model independently identifies and reinforces its knowledge gaps. Empirical results from our comprehensive experiments, which utilized a diverse array of learning materials and were evaluated against standard public quizzes, reveal that Autonomous Learning outstrips the performance of both Pre-training and Supervised Fine-Tuning (SFT), as well as retrieval-augmented methods. These findings underscore the potential of Autonomous Learning to not only enhance the efficiency and effectiveness of LLM training but also to pave the way for the development of more advanced, self-reliant AI systems.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# ロバストな共分散と条件付き値制約によるポートフォリオ最適化

Portfolio Optimization with Robust Covariance and Conditional Value-at-Risk Constraints ( http://arxiv.org/abs/2406.00610v1 )

ライセンス: Link先を確認
Qiqin Zhou, (参考訳) ポートフォリオリスクの測定は、Markowitzフレームワークの重要なインプットである。 本研究では、財務データノイズの影響を受けにくいロバストな共分散推定器を得るための様々な手法について検討した。 2012年から2022年にかけてのLedoit Shrinkage CovarianceおよびRobust Gerber CovarianceMatrixを用いた大規模ポートフォリオの性能評価を行った。 アウト・オブ・サンプルのパフォーマンスは、ロバストな共分散推定器が、特に強気相場で、市場資本化の重み付けされたベンチマークポートフォリオを上回っていることを示している。 ガーバーと平均絶対偏差(MAD)の共分散がトップパフォーマーとして浮上した。 しかし、ロバストな推定器は、例えばコビッド19期のような極端な市場条件下では、テールリスクをうまく管理しない。 テールリスクのコントロールを目指す場合には,リスク露光に関してより保守的な決定を下すために,条件付きバリュー・アット・リスク(CVaR)に制約を加える必要がある。 さらに,教師なしクラスタリングアルゴリズムK-meansを最適化アルゴリズム(Nested Clustering Optimization, NCO)に組み込んだ。 最適化アルゴリズムの数値不安定性を緩和するだけでなく、低下の低減にも寄与する。

The measure of portfolio risk is an important input of the Markowitz framework. In this study, we explored various methods to obtain a robust covariance estimators that are less susceptible to financial data noise. We evaluated the performance of large-cap portfolio using various forms of Ledoit Shrinkage Covariance and Robust Gerber Covariance matrix during the period of 2012 to 2022. Out-of-sample performance indicates that robust covariance estimators can outperform the market capitalization-weighted benchmark portfolio, particularly during bull markets. The Gerber covariance with Mean-Absolute-Deviation (MAD) emerged as the top performer. However, robust estimators do not manage tail risk well under extreme market conditions, for example, Covid-19 period. When we aim to control for tail risk, we should add constraint on Conditional Value-at-Risk (CVaR) to make more conservative decision on risk exposure. Additionally, we incorporated unsupervised clustering algorithm K-means to the optimization algorithm (i.e. Nested Clustering Optimization, NCO). It not only helps mitigate numerical instability of the optimization algorithm, but also contributes to lower drawdown as well.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# DISCRET: 治療効果推定のための忠実な説明の合成

DISCRET: Synthesizing Faithful Explanations For Treatment Effect Estimation ( http://arxiv.org/abs/2406.00611v1 )

ライセンス: Link先を確認
Yinjun Wu, Mayank Keoliya, Kan Chen, Neelay Velingker, Ziyang Li, Emily J Getzen, Qi Long, Mayur Naik, Ravi B Parikh, Eric Wong, (参考訳) 忠実で正確なAIモデルの設計は、特に個別処理効果推定(ITE)の分野で難しい。 医療などの重要な環境に展開されるITT予測モデルは理想的であるべきである (i)正確でかつ (二)忠実な説明。 しかし、現在の解決策は不十分である:最先端のブラックボックスモデルは説明を提供しておらず、ブラックボックスモデルのポストホック説明器は忠実性の保証を欠いており、自己解釈可能なモデルは精度を大幅に損なう。 これらの問題に対処するために,各サンプルに対して忠実で規則に基づく説明を合成する自己解釈型ITEフレームワークであるDisdisCRETを提案する。 DISCRETの背景にある重要な洞察は、説明が2つのデータベースクエリとして機能し、類似したサンプルのサブグループを識別できるということである。 大規模な探索空間からこれらの説明を効率的に合成する新しいRLアルゴリズムを提案する。 表、画像、テキストデータを含む多種多様なタスクにおけるDisCRETの評価を行う。 DISCRETは最高の自己解釈モデルより優れており、忠実な説明を提供しながら、最高のブラックボックスモデルに匹敵する精度を持っている。 DISCRETはhttps://github.com/wuyinjun-1993/DISCRET-ICML2024で利用可能である。

Designing faithful yet accurate AI models is challenging, particularly in the field of individual treatment effect estimation (ITE). ITE prediction models deployed in critical settings such as healthcare should ideally be (i) accurate, and (ii) provide faithful explanations. However, current solutions are inadequate: state-of-the-art black-box models do not supply explanations, post-hoc explainers for black-box models lack faithfulness guarantees, and self-interpretable models greatly compromise accuracy. To address these issues, we propose DISCRET, a self-interpretable ITE framework that synthesizes faithful, rule-based explanations for each sample. A key insight behind DISCRET is that explanations can serve dually as database queries to identify similar subgroups of samples. We provide a novel RL algorithm to efficiently synthesize these explanations from a large search space. We evaluate DISCRET on diverse tasks involving tabular, image, and text data. DISCRET outperforms the best self-interpretable models and has accuracy comparable to the best black-box models while providing faithful explanations. DISCRET is available at https://github.com/wuyinjun-1993/DISCRET-ICML2024.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# On-the-Fly State-Conditioned Action Abstractionによる効率的なモンテカルロ木探索

Efficient Monte Carlo Tree Search via On-the-Fly State-Conditioned Action Abstraction ( http://arxiv.org/abs/2406.00614v1 )

ライセンス: Link先を確認
Yunhyeok Kwak, Inwoo Hwang, Dooyoung Kim, Sanghack Lee, Byoung-Tak Zhang, (参考訳) Monte Carlo Tree Search (MCTS) は幅広い意思決定問題に対して有効性を示した。 しかし、その性能は、特にアクションが複数のサブアクションで構成されている場合において、大きな組合せアクション空間の下で劣化することが多い。 本研究では,状態とサブアクション間の構成構造に基づく動作抽象化を提案し,MCTSの効率性を向上させる。 提案手法は,状態条件付き動作抽象化と呼ばれる,状態遷移に関連するサブアクションをキャプチャする補助ネットワークを用いて,潜時ダイナミクスモデルを学習する。 特に、既知の環境モデルなしで高次元観測からそのような構成関係を推測する。 ツリートラバーサルの間,本手法は各ノードに対する状態条件付き動作抽象化を構築し,冗長なサブアクションの探索を廃止して探索空間を縮小する。 実験の結果,バニラ・ムゼロに比べて試料効率が良好であることが確認された。

Monte Carlo Tree Search (MCTS) has showcased its efficacy across a broad spectrum of decision-making problems. However, its performance often degrades under vast combinatorial action space, especially where an action is composed of multiple sub-actions. In this work, we propose an action abstraction based on the compositional structure between a state and sub-actions for improving the efficiency of MCTS under a factored action space. Our method learns a latent dynamics model with an auxiliary network that captures sub-actions relevant to the transition on the current state, which we call state-conditioned action abstraction. Notably, it infers such compositional relationships from high-dimensional observations without the known environment model. During the tree traversal, our method constructs the state-conditioned action abstraction for each node on-the-fly, reducing the search space by discarding the exploration of redundant sub-actions. Experimental results demonstrate the superior sample efficiency of our method compared to vanilla MuZero, which suffers from expansive action space.
翻訳日:2024-06-06 04:16:01 公開日:2024-06-02
# Recommender システムをより理解しやすいものにする - サイド情報を組み込むフレームワーク

Making Recommender Systems More Knowledgeable: A Framework to Incorporate Side Information ( http://arxiv.org/abs/2406.00615v1 )

ライセンス: Link先を確認
Yukun Jiang, Leo Guo, Xinyi Chen, Jing Xi Liu, (参考訳) セッションベースのレコメンデータシステムは、通常、ユーザの次のアクションを予測するために三重項(user_id、timetamp、Item_id)だけを使うことにフォーカスする。 本稿では,検出不能なパターンや信号の発見を支援するために,副次的情報を活用することを目的とする。 具体的には,商品特化側情報をレコメンダシステムに組み込んで,オリジナルのモデルアーキテクチャの変更を伴わずに性能を向上させるための汎用フレームワークを提案する。 いくつかのモデルとデータセットの実験結果から,提案システムでは,サイド情報により,最先端モデルよりもかなりのマージンで性能が向上し,より高速に収束することが証明された。 さらに,リコメンデータシステムで使用されるアテンションメカニズムを規則化し,モデル性能への影響を評価するために,新たなタイプのロスを提案する。 さらに、分析を通じて、さらなる改善の可能性についていくつかの知見を提出した。

Session-based recommender systems typically focus on using only the triplet (user_id, timestamp, item_id) to make predictions of users' next actions. In this paper, we aim to utilize side information to help recommender systems catch patterns and signals otherwise undetectable. Specifically, we propose a general framework for incorporating item-specific side information into the recommender system to enhance its performance without much modification on the original model architecture. Experimental results on several models and datasets prove that with side information, our recommender system outperforms state-of-the-art models by a considerable margin and converges much faster. Additionally, we propose a new type of loss to regularize the attention mechanism used by recommender systems and evaluate its influence on model performance. Furthermore, through analysis, we put forward a few insights on potential further improvements.
翻訳日:2024-06-06 04:06:07 公開日:2024-06-02
# 信号区間における旋回運動の短期予測のための多グラフ畳み込みニューラルネットワークモデル

A Multi-Graph Convolutional Neural Network Model for Short-Term Prediction of Turning Movements at Signalized Intersections ( http://arxiv.org/abs/2406.00619v1 )

ライセンス: Link先を確認
Jewel Rana Palit, Osama A Osman, (参考訳) 交通フロー予測は、インテリジェントで積極的な交通管理における重要な第一歩である。 交通フローパラメータは不安定で不確実であり、適切な予測モデルを使用しなければ交通フロー予測が難しい課題となる。 さらに、トラフィックフローパラメータの非ユークリッドデータ構造は、空間的および時間的視点の両方から分析することが困難である。 最先端のディープラーニングアプローチでは、純粋な畳み込み、リカレントニューラルネットワーク、ハイブリッド手法を使用して、この目的を効率的に達成している。 しかし、文学における多くのアプローチは、訓練が難しい複雑なアーキテクチャに依存している。 この複雑さは、ディープラーニングのブラックボックスの性質も増す。 本研究では,多グラフ畳み込みニューラルネットワーク(MGCNN)と呼ばれる新しいディープラーニングアーキテクチャを導入し,交差点での移動予測を行う。 提案アーキテクチャは,トラフィックデータの時間変動をモデル化する多グラフ構造と,グラフ上のトラフィックデータの空間変動をモデル化するためのスペクトル畳み込み演算を組み合わせた。 提案手法は, チャタヌーガ中心街の幹線道路から収集した20日間の流路データと交通制御データを用いて, 10つの信号化交差点を用いて実験を行った。 モデルが1, 2, 3, 4, 5分後に短期予測を行う能力は,4つのベースライン・オブ・ザ・アーティファクトモデルに対して評価された。 その結果,提案モデルは平均二乗誤差(MSE)0.9の回転運動予測において,他のベースラインモデルよりも優れていることがわかった。

Traffic flow forecasting is a crucial first step in intelligent and proactive traffic management. Traffic flow parameters are volatile and uncertain, making traffic flow forecasting a difficult task if the appropriate forecasting model is not used. Additionally, the non-Euclidean data structure of traffic flow parameters is challenging to analyze from both spatial and temporal perspectives. State-of-the-art deep learning approaches use pure convolution, recurrent neural networks, and hybrid methods to achieve this objective efficiently. However, many of the approaches in the literature rely on complex architectures that can be difficult to train. This complexity also adds to the black-box nature of deep learning. This study introduces a novel deep learning architecture, referred to as the multigraph convolution neural network (MGCNN), for turning movement prediction at intersections. The proposed architecture combines a multigraph structure, built to model temporal variations in traffic data, with a spectral convolution operation to support modeling the spatial variations in traffic data over the graphs. The proposed model was tested using twenty days of flow and traffic control data collected from an arterial in downtown Chattanooga, TN, with ten signalized intersections. The model's ability to perform short-term predictions over 1, 2, 3, 4, and 5 minutes into the future was evaluated against four baseline state-of-the-art models. The results showed that our proposed model is superior to the other baseline models in predicting turning movements with a mean squared error (MSE) of 0.9
翻訳日:2024-06-06 04:06:07 公開日:2024-06-02
# 自己主権アイデンティティシステムのモデル駆動型セキュリティ解析

Model-Driven Security Analysis of Self-Sovereign Identity Systems ( http://arxiv.org/abs/2406.00620v1 )

ライセンス: Link先を確認
Yepeng Ding, Hiroyuki Sato, (参考訳) 自己主権アイデンティティ(SSI)のベストプラクティスは、アカデミックや産業において集中的に研究されている。 ベストプラクティスから得られた再利用可能なソリューションは、体系的な分析と設計参照のためのアーキテクチャパターンとして一般化され、生産性が大幅に向上し、将来の実装の信頼性が向上する。 セキュリティに敏感なプロジェクトでは、アーキテクトは、正式な分析と実験結果に基づいて、セキュリティ問題とソリューションを慎重に考慮してアーキテクチャ上の決定を行う。 本稿では,SSIシステムのアーキテクチャパターンを分析するためのモデル駆動型セキュリティ分析フレームワークを提案する。 我々のフレームワークは、時間論理のセキュリティ特性を持つパターンや脅威を形式化するためのモデリング言語を機械化し、モデルチェックによる検証プログラムを自動生成する。 さらに,SecureSSIによって検証された典型的な脆弱なパターンを,一般的なパターンとアタッカーモデルを統合して,我々のフレームワークを実践する。

Best practices of self-sovereign identity (SSI) are being intensively explored in academia and industry. Reusable solutions obtained from best practices are generalized as architectural patterns for systematic analysis and design reference, which significantly boosts productivity and increases the dependability of future implementations. For security-sensitive projects, architects make architectural decisions with careful consideration of security issues and solutions based on formal analysis and experiment results. In this paper, we propose a model-driven security analysis framework for analyzing architectural patterns of SSI systems with respect to a threat model built on our investigation of real-world security concerns. Our framework mechanizes a modeling language to formalize patterns and threats with security properties in temporal logic and automatically generates programs for verification via model checking. Besides, we present typical vulnerable patterns verified by SecureSSI, a standalone integrated development environment, integrating commonly used pattern and attacker models to practicalize our framework.
翻訳日:2024-06-06 04:06:07 公開日:2024-06-02
# ビデオ質問応答における物理優先事項による構成的4次元動的シーンの理解

Compositional 4D Dynamic Scenes Understanding with Physics Priors for Video Question Answering ( http://arxiv.org/abs/2406.00622v1 )

ライセンス: Link先を確認
Xingrui Wang, Wufei Ma, Angtian Wang, Shuo Chen, Adam Kortylewski, Alan Yuille, (参考訳) 視覚言語モデル(VLM)では、映像からオブジェクトとその相互作用の動的特性を理解することが効果的な推論に不可欠である。 本稿では,オブジェクトの動的特性に着目したビデオ質問応答データセットSuperCLEVR-Physicsを紹介する。 私たちは、4Dシーン内の速度、加速度、衝突といった物理的な概念に集中しています。そこではモデルがこれらのダイナミクス特性を完全に理解し、その上に構築された質問に答える必要があります。 現状の様々なVLMの評価から,これらのモデルでは時間変化の空間構造や世界力学の空間構造に関する明示的な知識が欠如していることから,これらの動的特性の理解に苦慮していることが分かる。 さらに,映像からのシーン表現の下での4次元ダイナミクス特性の推論のためのニューラル・シンボリックモデルNS-4Dynamicsを提案する。 4Dシーンパーサは、物理的事前分布を組み合わせたシーンレンダリングの可能性を利用して、時間とともに物体の動的特性を推定し、4Dシーン表現を世界状態として解釈する。 ニューラルシンボリック推論をさらに取り入れることで、将来の予測、事実推論、反ファクト推論に先進的な応用が可能になる。 実験の結果, NS-4Dynamicsは, 過去のVLMを抑圧し, 動的特性を理解し, 現実的クエリ, 将来の予測, 反実的推論に関する質問に答えることを示した。 さらに、明示的な4Dシーン表現に基づいて、4Dシーンを再構成し、未来や反現実的な出来事を再現するのに有効である。

For vision-language models (VLMs), understanding the dynamic properties of objects and their interactions within 3D scenes from video is crucial for effective reasoning. In this work, we introduce a video question answering dataset SuperCLEVR-Physics that focuses on the dynamics properties of objects. We concentrate on physical concepts -- velocity, acceleration, and collisions within 4D scenes, where the model needs to fully understand these dynamics properties and answer the questions built on top of them. From the evaluation of a variety of current VLMs, we find that these models struggle with understanding these dynamic properties due to the lack of explicit knowledge about the spatial structure in 3D and world dynamics in time variants. To demonstrate the importance of an explicit 4D dynamics representation of the scenes in understanding world dynamics, we further propose NS-4Dynamics, a Neural-Symbolic model for reasoning on 4D Dynamics properties under explicit scene representation from videos. Using scene rendering likelihood combining physical prior distribution, the 4D scene parser can estimate the dynamics properties of objects over time to and interpret the observation into 4D scene representation as world states. By further incorporating neural-symbolic reasoning, our approach enables advanced applications in future prediction, factual reasoning, and counterfactual reasoning. Our experiments show that our NS-4Dynamics suppresses previous VLMs in understanding the dynamics properties and answering questions about factual queries, future prediction, and counterfactual reasoning. Moreover, based on the explicit 4D scene representation, our model is effective in reconstructing the 4D scenes and re-simulate the future or counterfactual events.
翻訳日:2024-06-06 04:06:07 公開日:2024-06-02
# SAM-LAD: ゼロショット論理異常検出に対応するセグメント任意のモデル

SAM-LAD: Segment Anything Model Meets Zero-Shot Logic Anomaly Detection ( http://arxiv.org/abs/2406.00625v1 )

ライセンス: Link先を確認
Yun Peng, Xiao Lin, Nachuan Ma, Jiayuan Du, Chuangwei Liu, Chengju Liu, Qijun Chen, (参考訳) 視覚異常検出は、産業的欠陥検出や診断など、現実世界の応用において不可欠である。 しかし、既存のほとんどの手法は局所的な構造的異常に焦点を当てており、論理的条件下では高レベルの機能的異常を検出することができない。 近年の研究では、論理的異常検出が研究されているが、それらは欠落や追加のような単純な異常にのみ対処でき、データ駆動性が高いため、一般化性に乏しい。 このギャップを埋めるために,任意のシーンにおける論理的異常検出のためのゼロショット・プラグイン・アンド・プレイフレームワークSAM-LADを提案する。 まず,事前学習したバックボーンを用いて,問合せ画像の特徴マップを取得する。 同時に、クエリ画像の近接探索により、参照画像とその対応する特徴マップを検索する。 次に、クエリと参照画像のオブジェクトマスクを取得するために、SAM(Segment Anything Model)を導入する。 各オブジェクトマスクは、画像全体の特徴マップに乗じて、オブジェクトの特徴マップを取得する。 次に,オブジェクトマッチングモデル(OMM)を提案する。 オブジェクトマッチングを容易にするために,各オブジェクトをキーポイントとして扱い,特徴マップを特徴ベクトルに変換する動的チャネルグラフアテンション(DCGA)モジュールを提案する。 最後に、オブジェクトマッチング関係に基づいて、論理異常のあるオブジェクトを検出するために、異常測定モデル(AMM)を提案する。 物体の構造異常も検出できる。 本稿では,産業用データセット (MVTec Loco AD, MVTec AD) や論理用データセット (DigitAnatomy) など,様々なベンチマークを用いてSAM-LADを検証した。 SAM-LADは既存のSoTA法、特に論理異常の検出において優れていた。

Visual anomaly detection is vital in real-world applications, such as industrial defect detection and medical diagnosis. However, most existing methods focus on local structural anomalies and fail to detect higher-level functional anomalies under logical conditions. Although recent studies have explored logical anomaly detection, they can only address simple anomalies like missing or addition and show poor generalizability due to being heavily data-driven. To fill this gap, we propose SAM-LAD, a zero-shot, plug-and-play framework for logical anomaly detection in any scene. First, we obtain a query image's feature map using a pre-trained backbone. Simultaneously, we retrieve the reference images and their corresponding feature maps via the nearest neighbor search of the query image. Then, we introduce the Segment Anything Model (SAM) to obtain object masks of the query and reference images. Each object mask is multiplied with the entire image's feature map to obtain object feature maps. Next, an Object Matching Model (OMM) is proposed to match objects in the query and reference images. To facilitate object matching, we further propose a Dynamic Channel Graph Attention (DCGA) module, treating each object as a keypoint and converting its feature maps into feature vectors. Finally, based on the object matching relations, an Anomaly Measurement Model (AMM) is proposed to detect objects with logical anomalies. Structural anomalies in the objects can also be detected. We validate our proposed SAM-LAD using various benchmarks, including industrial datasets (MVTec Loco AD, MVTec AD), and the logical dataset (DigitAnatomy). Extensive experimental results demonstrate that SAM-LAD outperforms existing SoTA methods, particularly in detecting logical anomalies.
翻訳日:2024-06-06 04:06:07 公開日:2024-06-02
# Prompt Framework for Role-playing: Generation and Evaluation

Prompt Framework for Role-playing: Generation and Evaluation ( http://arxiv.org/abs/2406.00627v1 )

ライセンス: Link先を確認
Xun Liu, Zhengwei Ni, (参考訳) 大規模言語モデル(LLM)は、自然言語の生成、ユーザ指導の理解、および人間の言語使用の模倣において顕著な能力を示した。 これらの機能はロールプレイングのようなアプリケーションにかなりの関心を寄せている。 しかし、個々のロールスクリプト(またはプロファイル)データを収集し、手動でパフォーマンスを評価するプロセスはコストがかかる。 本稿では,SOTA(State-of-the-art LLM)を利用して,ロールプレイング対話データセットを構築し,ロールプレイング性能を評価するフレームワークを提案する。 さらに、LLM評価器の結果を支援するために、リコール指向評価ルージュ-Lメトリクスを用いる。

Large language models (LLM) have demonstrated remarkable abilities in generating natural language, understanding user instruction, and mimicking human language use. These capabilities have garnered considerable interest in applications such as role-playing. However, the process of collecting individual role scripts (or profiles) data and manually evaluating the performance can be costly. We introduce a framework that uses prompts to leverage the state-of-the-art (SOTA) LLMs to construct role-playing dialogue datasets and evaluate the role-playing performance. Additionally, we employ recall-oriented evaluation Rouge-L metric to support the result of the LLM evaluator.
翻訳日:2024-06-06 04:06:06 公開日:2024-06-02
# 微調整大規模言語モデルの探索によるコンピュータセキュリティと公共信頼の変容

Transforming Computer Security and Public Trust Through the Exploration of Fine-Tuning Large Language Models ( http://arxiv.org/abs/2406.00628v1 )

ライセンス: Link先を確認
Garrett Crumrine, Izzat Alsmadi, Jesus Guerrero, Yuvaraj Munian, (参考訳) 大規模言語モデル(LLM)は、マシンとのインタラクション方法に革命をもたらした。 しかし、この技術進歩は、LLMを悪目的に利用した地下で活動する悪意あるサービスである"Mallas"の出現と平行している。 このようなサービスは、マルウェアやフィッシング攻撃、偽装Webサイトを作り、サイバーセキュリティの脅威をエスカレートする。 本稿では, 各種事前学習言語モデルと誤用時の効率, 脆弱性について検討し, マルラの増殖について考察する。 Common Vulnerabilities and Exposures (CVE)プログラムのデータセットに基づいて、特定された脆弱性に関連するコードと説明テキストを生成するための微調整方法論を探索する。 この研究は、Mallasの運用戦略と活用技術に光を当てることを目的としており、よりセキュアで信頼性の高いAIアプリケーションの開発につながっている。 この論文は、LSMの悪意ある適用に伴うリスクを軽減するために、さらなる研究の必要性、安全保護の強化、倫理的ガイドラインを強調して締めくくる。

Large language models (LLMs) have revolutionized how we interact with machines. However, this technological advancement has been paralleled by the emergence of "Mallas," malicious services operating underground that exploit LLMs for nefarious purposes. Such services create malware, phishing attacks, and deceptive websites, escalating the cyber security threats landscape. This paper delves into the proliferation of Mallas by examining the use of various pre-trained language models and their efficiency and vulnerabilities when misused. Building on a dataset from the Common Vulnerabilities and Exposures (CVE) program, it explores fine-tuning methodologies to generate code and explanatory text related to identified vulnerabilities. This research aims to shed light on the operational strategies and exploitation techniques of Mallas, leading to the development of more secure and trustworthy AI applications. The paper concludes by emphasizing the need for further research, enhanced safeguards, and ethical guidelines to mitigate the risks associated with the malicious application of LLMs.
翻訳日:2024-06-06 04:06:06 公開日:2024-06-02
# UHD画像復元のための相関マッチング変換器

Correlation Matching Transformation Transformers for UHD Image Restoration ( http://arxiv.org/abs/2406.00629v1 )

ライセンス: Link先を確認
Cong Wang, Jinshan Pan, Wei Wang, Gang Fu, Siyuan Liang, Mengzhu Wang, Xiao-Ming Wu, Jun Liu, (参考訳) 本稿では,UHD画像復元のための汎用変換器であるUHDformerを提案する。 UHDformerには2つの学習空間がある。 (a)高分解能空間での学習 (b)低分解能空間での学習。 前者は高解像度の特徴を学習し、低解像度の特徴を融合させ、残像を再構成する。 低分解能空間における特徴表現を改善するために,高分解能空間から低分解能空間への特徴変換を構築することを提案する。 そこで我々はDual-path correlation Matching Transformation Module (DualCMT)とAdaptive Channel Modulator (ACM)の2つの新しいモジュールを提案する。 DualCMTは、最大プール/平均プールの高解像度特徴からトップC/r(rは、スケズレベルを制御する1に等しい)相関チャネルを選択して、トランスフォーマーの低解像度特徴を置き換える。 ACMは、多レベル高解像度の機能を適応的に調整するために利用されており、より優れた学習のために低解像度の空間により有用な機能を提供する。 実験結果から,UHDフォーマは現状の手法と比較して約97%のモデルサイズを削減し,低照度画像強調,画像脱ハージング,画像劣化を含む3つのUHD画像復元タスクのトレーニングセットの違いによる性能向上を図った。 ソースコードはhttps://github.com/supersupercong/UHDformer.comで入手できる。

This paper proposes UHDformer, a general Transformer for Ultra-High-Definition (UHD) image restoration. UHDformer contains two learning spaces: (a) learning in high-resolution space and (b) learning in low-resolution space. The former learns multi-level high-resolution features and fuses low-high features and reconstructs the residual images, while the latter explores more representative features learning from the high-resolution ones to facilitate better restoration. To better improve feature representation in low-resolution space, we propose to build feature transformation from the high-resolution space to the low-resolution one. To that end, we propose two new modules: Dual-path Correlation Matching Transformation module (DualCMT) and Adaptive Channel Modulator (ACM). The DualCMT selects top C/r (r is greater or equal to 1 which controls the squeezing level) correlation channels from the max-pooling/mean-pooling high-resolution features to replace low-resolution ones in Transformers, which can effectively squeeze useless content to improve the feature representation in low-resolution space to facilitate better recovery. The ACM is exploited to adaptively modulate multi-level high-resolution features, enabling to provide more useful features to low-resolution space for better learning. Experimental results show that our UHDformer reduces about ninety-seven percent model sizes compared with most state-of-the-art methods while significantly improving performance under different training sets on 3 UHD image restoration tasks, including low-light image enhancement, image dehazing, and image deblurring. The source codes will be made available at https://github.com/supersupercong/UHDformer.
翻訳日:2024-06-06 04:06:06 公開日:2024-06-02
# 時間点過程におけるリカレントニューラルネットワークの非漸近理論について

On Non-asymptotic Theory of Recurrent Neural Networks in Temporal Point Processes ( http://arxiv.org/abs/2406.00630v1 )

ライセンス: Link先を確認
Zhiheng Chen, Guanhua Fang, Wen Yu, (参考訳) 時間的ポイントプロセス(TPP)は、様々な領域にわたる不規則な時間的イベントをモデル化し、予測するための重要なツールである。 近年、リカレントニューラルネットワーク(RNN)ベースのTPPは、従来のパラメトリックTPPモデルよりも実用的な優位性を示している。 しかし、現在の文献では、理論的な観点からの神経性TPPの理解はいまだに始まったばかりである。 本稿では,よく知られたTPP設定の下で,RNN-TPPの過剰なリスク境界を確立する。 特に,4層以内のRNN-TPPは,消滅する一般化誤差を実現できることを示す。 我々の技術貢献には、多層RNNクラスの複雑さのキャラクタリゼーション、動的事象強度関数を近似する$\tanh$のニューラルネットワークの構築、非有界事象列の問題を緩和するためのトランケーション技術が含まれる。 我々の結果は、TPPの応用とニューラルネットワーク理論のギャップを埋めるものである。

Temporal point process (TPP) is an important tool for modeling and predicting irregularly timed events across various domains. Recently, the recurrent neural network (RNN)-based TPPs have shown practical advantages over traditional parametric TPP models. However, in the current literature, it remains nascent in understanding neural TPPs from theoretical viewpoints. In this paper, we establish the excess risk bounds of RNN-TPPs under many well-known TPP settings. We especially show that an RNN-TPP with no more than four layers can achieve vanishing generalization errors. Our technical contributions include the characterization of the complexity of the multi-layer RNN class, the construction of $\tanh$ neural networks for approximating dynamic event intensity functions, and the truncation technique for alleviating the issue of unbounded event sequences. Our results bridge the gap between TPP's application and neural network theory.
翻訳日:2024-06-06 04:06:06 公開日:2024-06-02
# MGI(Multimodal Contrastive Pre-training of Genomic and Medical Imaging)

MGI: Multimodal Contrastive pre-training of Genomic and Medical Imaging ( http://arxiv.org/abs/2406.00631v1 )

ライセンス: Link先を確認
Jiaying Zhou, Mingzhou Jiang, Junde Wu, Jiayuan Zhu, Ziyue Wang, Yueming Jin, (参考訳) 医学は本質的にマルチモーダル分野である。 医用画像は癌や腫瘍の病理学的変化を反映しうるが、特定の遺伝子の発現はその形態学的特徴に影響を与える可能性がある。 しかし、これらの医療タスクに使用される深層学習モデルは、画像データまたはゲノムデータのみを用いて予測を行うため、ユニモーダル(unimodal)である。 本稿では,下流タスクにゲノムと医用画像を併用したマルチモーダル事前学習フレームワークを提案する。 MLP や Transformer アーキテクチャを用いた遺伝子配列モデリングにおいて、高い計算複雑性と長距離依存を捉えることの難しさに対処するために、Mamba を用いて長いゲノム配列をモデル化する。 我々は,マンバを遺伝子エンコーダとして,ビジョントランスフォーマー(ViT)を医用画像エンコーダとして組み合わせた,自己指導型コントラスト学習アプローチを用いて,医用画像と遺伝子を整合させる。 遺伝子解析データと画像データを用いて,TCGAデータセット上で事前トレーニングを行い,下流腫瘍セグメンテーションタスクのために微調整を行った。 以上の結果から,本モデルは様々な手法より優れていたことが示唆された。

Medicine is inherently a multimodal discipline. Medical images can reflect the pathological changes of cancer and tumors, while the expression of specific genes can influence their morphological characteristics. However, most deep learning models employed for these medical tasks are unimodal, making predictions using either image data or genomic data exclusively. In this paper, we propose a multimodal pre-training framework that jointly incorporates genomics and medical images for downstream tasks. To address the issues of high computational complexity and difficulty in capturing long-range dependencies in genes sequence modeling with MLP or Transformer architectures, we utilize Mamba to model these long genomic sequences. We aligns medical images and genes using a self-supervised contrastive learning approach which combines the Mamba as a genetic encoder and the Vision Transformer (ViT) as a medical image encoder. We pre-trained on the TCGA dataset using paired gene expression data and imaging data, and fine-tuned it for downstream tumor segmentation tasks. The results show that our model outperformed a wide range of related methods.
翻訳日:2024-06-06 04:06:06 公開日:2024-06-02
# ディフモザイク:拡散先行による赤外小ターゲット検出におけるリアリスティック表現の増強

Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior ( http://arxiv.org/abs/2406.00632v1 )

ライセンス: Link先を確認
Yukai Shi, Yupei Lin, Pengxu Wei, Xiaoyu Xian, Tianshui Chen, Liang Lin, (参考訳) 近年,不明瞭な形状やテクスチャを特徴とする赤外線ターゲットを正確に検出するための様々な深層学習手法が提案されている。 赤外線データセットが限られているため、優れた一般化によるディープラーニングモデルのトレーニングが課題となっている。 赤外線データセットを拡大するために、研究者は、異なるデータセットの画像を組み合わせて新しい画像を生成することを含む、データ拡張技術を使用している。 しかし、これらの方法は2つの点で欠落している。 リアリズムの観点では、ミックスアップ方式によって生成された画像はリアリズムを欠き、複雑な現実世界のシナリオを効果的にシミュレートすることは困難である。 多様性の観点では、現実世界のシーンと比較して、他のデータセットから知識を借りることは本質的に限られた多様性を持つ。 現在、拡散モデルは革新的な生成的アプローチとして際立っている。 大規模に訓練された拡散モデルは、様々な現実的な画像を生成するために、画像の現実的なモデリングを可能にする強力な生成前を持つ。 本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。 このモデルは、拡散前のデータ拡張手法の多様性とリアリズムの課題を効果的に軽減する。 具体的には,2つの段階から構成される。 まず,ピクセルを調和させてモザイク画像を生成するPixel-Priorという拡張ネットワークを導入する。 第2段階ではDiff-Priorという画像強調手法を提案する。 この戦略は、拡散先行を利用して現実世界のシーンのイメージをモデル化し、画像の多様性とリアリズムをさらに強化する。 大規模な実験により,本手法は検出ネットワークの性能を大幅に向上させることが示された。 コードはhttps://github.com/YupeiLin2388/Diff-Mosaicで公開されている。

Recently, researchers have proposed various deep learning methods to accurately detect infrared targets with the characteristics of indistinct shape and texture. Due to the limited variety of infrared datasets, training deep learning models with good generalization poses a challenge. To augment the infrared dataset, researchers employ data augmentation techniques, which often involve generating new images by combining images from different datasets. However, these methods are lacking in two respects. In terms of realism, the images generated by mixup-based methods lack realism and are difficult to effectively simulate complex real-world scenarios. In terms of diversity, compared with real-world scenes, borrowing knowledge from another dataset inherently has a limited diversity. Currently, the diffusion model stands out as an innovative generative approach. Large-scale trained diffusion models have a strong generative prior that enables real-world modeling of images to generate diverse and realistic images. In this paper, we propose Diff-Mosaic, a data augmentation method based on the diffusion model. This model effectively alleviates the challenge of diversity and realism of data augmentation methods via diffusion prior. Specifically, our method consists of two stages. Firstly, we introduce an enhancement network called Pixel-Prior, which generates highly coordinated and realistic Mosaic images by harmonizing pixels. In the second stage, we propose an image enhancement strategy named Diff-Prior. This strategy utilizes diffusion priors to model images in the real-world scene, further enhancing the diversity and realism of the images. Extensive experiments have demonstrated that our approach significantly improves the performance of the detection network. The code is available at https://github.com/YupeiLin2388/Diff-Mosaic
翻訳日:2024-06-06 04:06:06 公開日:2024-06-02
# テキスト・画像拡散アライメントのためのGFlowNetsの改良

Improving GFlowNets for Text-to-Image Diffusion Alignment ( http://arxiv.org/abs/2406.00633v1 )

ライセンス: Link先を確認
Dinghuai Zhang, Yizhe Zhang, Jiatao Gu, Ruixiang Zhang, Josh Susskind, Navdeep Jaitly, Shuangfei Zhai, (参考訳) 拡散モデルは、トレーニングデータセットの分布に合わせてトレーニングされた、視覚データを生成するための \textit{de-facto} アプローチになっている。 さらに、ブラックボックスの報酬関数で指定できるテキスト記述へのアライメントなど、所望のプロパティを満たすために生成を制御したいとも考えています。 前者は、強化学習に基づくアルゴリズムにより、この目標を達成するために、事前訓練された拡散モデルを微調整する。 それでも彼らは、クレジット割り当ての遅さや、生成されたサンプルの品質の低下といった問題に悩まされている。 本研究では,生成フローネットワーク(GFlowNets)のフレームワークにおいて,報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を検討する。 この目的のために、ブラックボックス特性関数を持つ後流拡散モデルに対して、 \textbf{D}iffusion \textbf{A}lignment with \textbf{G}FlowNet (DAG) アルゴリズムを提案する。 安定拡散および様々な報酬仕様に関する広範囲な実験は,提案手法が大規模テキスト・画像拡散モデルと与えられた報酬情報とを効果的に整合させることができることを裏付けるものである。

Diffusion models have become the \textit{de-facto} approach for generating visual data, which are trained to match the distribution of the training dataset. In addition, we also want to control generation to fulfill desired properties such as alignment to a text description, which can be specified with a black-box reward function. Prior works fine-tune pretrained diffusion models to achieve this goal through reinforcement learning-based algorithms. Nonetheless, they suffer from issues including slow credit assignment as well as low quality in their generated samples. In this work, we explore techniques that do not directly maximize the reward but rather generate high-reward images with relatively high probability -- a natural scenario for the framework of generative flow networks (GFlowNets). To this end, we propose the \textbf{D}iffusion \textbf{A}lignment with \textbf{G}FlowNet (DAG) algorithm to post-train diffusion models with black-box property functions. Extensive experiments on Stable Diffusion and various reward specifications corroborate that our method could effectively align large-scale text-to-image diffusion models with given reward information.
翻訳日:2024-06-06 04:06:06 公開日:2024-06-02
# T2LM:複数文からの長期3次元人体動作生成

T2LM: Long-Term 3D Human Motion Generation from Multiple Sentences ( http://arxiv.org/abs/2406.00636v1 )

ライセンス: Link先を確認
Taeryung Lee, Fabien Baradel, Thomas Lucas, Kyoung Mu Lee, Gregory Rogez, (参考訳) 本稿では,長期的3次元動作生成の課題に対処する。 具体的には、複数の文(段落)のストリームから、スムーズな接続されたアクションの長いシーケンスを生成することを目的としている。 従来の長期動作生成手法は、主に繰り返し手法に基づいており、前回生成した動作チャンクを次のステップの入力として用いた。 しかし、このアプローチには2つの欠点がある。 1)高価であるシーケンシャルデータセットに依存している。 2) これらの手法は各ステップで発生する動きの間に非現実的なギャップを生じさせる。 これらの問題に対処するために,シーケンシャルデータなしでトレーニング可能な連続的長期生成フレームワークであるT2LMを導入する。 T2LMは、潜伏ベクトルの列に動きを圧縮するように訓練された1D畳み込みVQVAEと、入力テキストが与えられた潜伏列を予測するTransformerベースのテキストエンコーダの2つのコンポーネントから構成される。 推論において、文列は潜在ベクトルの連続ストリームに変換される。 これはVQVAEデコーダによって動作にデコードされ、局所的な時間的受容場と1D畳み込みを使用することで、トレーニングと生成されたシーケンス間の時間的矛盾を回避する。 VQ-VAEのこの単純な制約により、短いシーケンスのみでトレーニングすることができ、より滑らかな遷移を生成することができる。 T2LMは、シーケンシャルデータを必要とする制約を克服しながら、以前の長期モデルよりも優れており、SOTAシングルアクション生成モデルと競合する。

In this paper, we address the challenging problem of long-term 3D human motion generation. Specifically, we aim to generate a long sequence of smoothly connected actions from a stream of multiple sentences (i.e., paragraph). Previous long-term motion generating approaches were mostly based on recurrent methods, using previously generated motion chunks as input for the next step. However, this approach has two drawbacks: 1) it relies on sequential datasets, which are expensive; 2) these methods yield unrealistic gaps between motions generated at each step. To address these issues, we introduce simple yet effective T2LM, a continuous long-term generation framework that can be trained without sequential data. T2LM comprises two components: a 1D-convolutional VQVAE, trained to compress motion to sequences of latent vectors, and a Transformer-based Text Encoder that predicts a latent sequence given an input text. At inference, a sequence of sentences is translated into a continuous stream of latent vectors. This is then decoded into a motion by the VQVAE decoder; the use of 1D convolutions with a local temporal receptive field avoids temporal inconsistencies between training and generated sequences. This simple constraint on the VQ-VAE allows it to be trained with short sequences only and produces smoother transitions. T2LM outperforms prior long-term generation models while overcoming the constraint of requiring sequential data; it is also competitive with SOTA single-action generation models.
翻訳日:2024-06-06 04:06:06 公開日:2024-06-02
# 因子化ニューラルネットワークによるアニマタブルアバターの表現

Representing Animatable Avatar via Factorized Neural Fields ( http://arxiv.org/abs/2406.00637v1 )

ライセンス: Link先を確認
Chunjin Song, Zhijie Wu, Bastian Wandt, Leonid Sigal, Helge Rhodin, (参考訳) 高忠実度人間の3Dモデルをモノクロビデオから再構築するためには、微妙にマッチしたしわとともに、一貫した大体形状を維持することが不可欠である。 本稿では,フレーム毎のレンダリング結果が,フレームの一貫性を高めるために,ポーズ非依存のコンポーネントとそれに対応するポーズ依存のコンポーネントに分解できることを考察する。 これら2つの成分の周波数帯域を制限することにより、ポース適応テクスチャをさらに改善することができる。 詳しくは、ポーズ非依存出力は低周波であることが期待され、高周波情報はポーズ依存因子に関連付けられる。 我々は、入力ビデオ全体にわたる粗い体輪郭のコヒーレントな保存と、異なる周波数成分を持つデュアルブランチネットワークの時間変化であるきめ細かなテクスチャ特性を実現する。 第1のブランチは、標準空間内の座標を入力とし、第2のブランチは、第1のブランチによって出力された特徴を付加的に考慮し、各フレームの情報をポーズする。 我々のネットワークは、両方の枝によって予測される情報を統合し、ボリュームレンダリングを利用して、フォトリアリスティックな3D画像を生成する。 実験により、我々のネットワークは、高周波の詳細を保存し、一貫した体輪郭を確保するために、NeRF(Near Radiance Field)に基づく最先端の手法を超越していることが実証された。

For reconstructing high-fidelity human 3D models from monocular videos, it is crucial to maintain consistent large-scale body shapes along with finely matched subtle wrinkles. This paper explores the observation that the per-frame rendering results can be factorized into a pose-independent component and a corresponding pose-dependent equivalent to facilitate frame consistency. Pose adaptive textures can be further improved by restricting frequency bands of these two components. In detail, pose-independent outputs are expected to be low-frequency, while highfrequency information is linked to pose-dependent factors. We achieve a coherent preservation of both coarse body contours across the entire input video and finegrained texture features that are time variant with a dual-branch network with distinct frequency components. The first branch takes coordinates in canonical space as input, while the second branch additionally considers features outputted by the first branch and pose information of each frame. Our network integrates the information predicted by both branches and utilizes volume rendering to generate photo-realistic 3D human images. Through experiments, we demonstrate that our network surpasses the neural radiance fields (NeRF) based state-of-the-art methods in preserving high-frequency details and ensuring consistent body contours.
翻訳日:2024-06-06 04:06:06 公開日:2024-06-02
# ゼロショット骨格に基づく行動認識のための情報補償フレームワーク

An Information Compensation Framework for Zero-Shot Skeleton-based Action Recognition ( http://arxiv.org/abs/2406.00639v1 )

ライセンス: Link先を確認
Haojun Xu, Yan Gao, Jie Li, Xinbo Gao, (参考訳) ゼロショットの人間の骨格に基づく行動認識は、トレーニング中に見られるカテゴリ外の行動を認識するモデルを構築することを目的としている。 従来の研究では、シーケンスの視覚的空間分布と意味的空間分布の整合性に焦点が当てられていた。 しかし、これらの手法は単純に意味的特徴を抽出する。 彼らは、リッチできめ細かいアクションキューのための適切なプロンプト設計は、堅牢な表現空間クラスタリングを提供できることを無視する。 骨格配列で利用可能な情報不足の問題を解決するため,情報理論の観点から情報補償学習フレームワークを設計し,多粒性意味的相互作用機構を用いてゼロショット動作認識精度を向上させる。 アンサンブル学習に触発されて,アクションクラスの情報を補うためのマルチレベルアライメント(MLA)手法を提案する。 MLAは、意味的に類似したアクション名と視覚的に類似したアクションを区別するマルチヘッドスコアリング機構を通じて、多粒度埋め込みと視覚的埋め込みを一致させる。 さらに,厳密でロバストな表現を得るために,新たな損失関数サンプリング手法を提案する。 最後に、これらの多粒性セマンティック埋め込みを合成し、分類のための適切な決定面を形成する。 NTU RGB+D、NTU RGB+D 120、PKU-MMDベンチマークで評価し、複数の粒度意味的特徴が類似した視覚的特徴を持つアクションクラスタの分化を促進することを検証する。

Zero-shot human skeleton-based action recognition aims to construct a model that can recognize actions outside the categories seen during training. Previous research has focused on aligning sequences' visual and semantic spatial distributions. However, these methods extract semantic features simply. They ignore that proper prompt design for rich and fine-grained action cues can provide robust representation space clustering. In order to alleviate the problem of insufficient information available for skeleton sequences, we design an information compensation learning framework from an information-theoretic perspective to improve zero-shot action recognition accuracy with a multi-granularity semantic interaction mechanism. Inspired by ensemble learning, we propose a multi-level alignment (MLA) approach to compensate information for action classes. MLA aligns multi-granularity embeddings with visual embedding through a multi-head scoring mechanism to distinguish semantically similar action names and visually similar actions. Furthermore, we introduce a new loss function sampling method to obtain a tight and robust representation. Finally, these multi-granularity semantic embeddings are synthesized to form a proper decision surface for classification. Significant action recognition performance is achieved when evaluated on the challenging NTU RGB+D, NTU RGB+D 120, and PKU-MMD benchmarks and validate that multi-granularity semantic features facilitate the differentiation of action clusters with similar visual features.
翻訳日:2024-06-06 04:06:06 公開日:2024-06-02
# 教師なし誘導によるクロスモーダル特徴アライメントを用いた超音波レポート生成

Ultrasound Report Generation with Cross-Modality Feature Alignment via Unsupervised Guidance ( http://arxiv.org/abs/2406.00644v1 )

ライセンス: Link先を確認
Jun Li, Tongkun Su, Baoliang Zhao, Faqin Lv, Qiong Wang, Nassir Navab, Ying Hu, Zhongliang Jiang, (参考訳) 自動レポート生成は, 臨床医の負担を軽減するために, 医用画像に基づいて自動レポート作成を行うことによって, 臨床医の負担を軽減することを目的として, コンピュータ支援診断において重要な研究領域となっている。 本研究では,教師なし学習法と教師なし学習法を組み合わせた自動超音波レポート生成手法を提案する。 本フレームワークは,超音波テキストレポートから潜在的知識を抽出するための教師なし学習手法を取り入れ,視覚的特徴とテキスト的特徴の整合性を導出するための事前情報として機能し,特徴の相違に対処する。 さらに,より包括的で正確な医療報告の生成性能を向上させるために,グローバルな意味比較機構を設計する。 超音波レポート生成を実現するために,異なる臓器から大規模超音波画像テキストデータセットを3つ構築し,訓練と検証を行った。 他の最先端のアプローチによる広範囲な評価は、3つのデータセットすべてで優れたパフォーマンスを示している。 コードとデータセットはこのリンクで価値がある。

Automatic report generation has arisen as a significant research area in computer-aided diagnosis, aiming to alleviate the burden on clinicians by generating reports automatically based on medical images. In this work, we propose a novel framework for automatic ultrasound report generation, leveraging a combination of unsupervised and supervised learning methods to aid the report generation process. Our framework incorporates unsupervised learning methods to extract potential knowledge from ultrasound text reports, serving as the prior information to guide the model in aligning visual and textual features, thereby addressing the challenge of feature discrepancy. Additionally, we design a global semantic comparison mechanism to enhance the performance of generating more comprehensive and accurate medical reports. To enable the implementation of ultrasound report generation, we constructed three large-scale ultrasound image-text datasets from different organs for training and validation purposes. Extensive evaluations with other state-of-the-art approaches exhibit its superior performance across all three datasets. Code and dataset are valuable at this link.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# FuRL:強化学習のためのファジィリワードとしての視覚言語モデル

FuRL: Visual-Language Models as Fuzzy Rewards for Reinforcement Learning ( http://arxiv.org/abs/2406.00645v1 )

ライセンス: Link先を確認
Yuwei Fu, Haichao Zhang, Di Wu, Wei Xu, Benoit Boulet, (参考訳) 本研究では,オンライン強化学習(RL)における事前学習型視覚言語モデル(VLM)の活用方法について検討する。 特に、事前に定義されたテキストタスク記述を伴うスパース報酬タスクに焦点をあてる。 まず,VLMをRLタスクの報酬として適用する際の報酬不一致の問題を同定する。 本稿では,報酬アライメントとリレーRLに基づくファジィVLM報酬支援RL(FuRL)という軽量微調整手法を提案する。 具体的には、細調整VLM表現とリレーRLを用いて局所最小化を回避することで、スパース報酬タスクにおけるSAC/DrQベースラインエージェントの性能を向上させる。 Meta-worldベンチマークタスクに関する大規模な実験により,提案手法の有効性が示された。 コードは: {\footnotesize\url{https://github.com/fuyw/FuRL}}で入手できる。

In this work, we investigate how to leverage pre-trained visual-language models (VLM) for online Reinforcement Learning (RL). In particular, we focus on sparse reward tasks with pre-defined textual task descriptions. We first identify the problem of reward misalignment when applying VLM as a reward in RL tasks. To address this issue, we introduce a lightweight fine-tuning method, named Fuzzy VLM reward-aided RL (FuRL), based on reward alignment and relay RL. Specifically, we enhance the performance of SAC/DrQ baseline agents on sparse reward tasks by fine-tuning VLM representations and using relay RL to avoid local minima. Extensive experiments on the Meta-world benchmark tasks demonstrate the efficacy of the proposed method. Code is available at: {\footnotesize\url{https://github.com/fuyw/FuRL}}.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# フィードバックによるゼロショットテキスト音声合成の強化

Enhancing Zero-shot Text-to-Speech Synthesis with Human Feedback ( http://arxiv.org/abs/2406.00654v1 )

ライセンス: Link先を確認
Chen Chen, Yuchen Hu, Wen Wu, Helin Wang, Eng Siong Chng, Chao Zhang, (参考訳) 近年、TTS(text-to-speech)技術は、特に大規模なトレーニングデータセットにおいて、人間のレベルの音声品質と、目に見えない話者に印象的なゼロショット機能を示す、印象的な進歩を目撃している。 しかしながら、平均世論スコア(MOS)のような人間の主観評価は、合成音声の質を評価するための金の基準を保っているが、最先端のTSSアプローチでさえ、トレーニングから人間のフィードバックを分離し、トレーニング目標と評価指標を誤マッチさせたままにしている。 本研究では,TTSトレーニングループに主観的人間評価を統合する新たなトピックについて検討する。 近年,人間のフィードバックによる強化学習の成功に触発されて,TTS最適化に適した総合的なサンプリングアノテーション学習フレームワーク,すなわち不確実性認識最適化(UNO)を提案する。 特に、UNOは、主観的人間の音声知覚と評価において固有の変動性にある不確実性を考慮して、音声世代の有用性を直接最大化することにより、報酬モデルや嗜好データの必要性を排除している。 主観的評価と客観的評価の両方の実験結果から, UNO は MOS, 単語誤り率, 話者類似度の観点から, TTS モデルのゼロショット性能を著しく向上することが示された。 さらに、感情的TTSにおいて、所望の話し方にシームレスかつ柔軟に対応できるUNOの顕著な能力を示す。

In recent years, text-to-speech (TTS) technology has witnessed impressive advancements, particularly with large-scale training datasets, showcasing human-level speech quality and impressive zero-shot capabilities on unseen speakers. However, despite human subjective evaluations, such as the mean opinion score (MOS), remaining the gold standard for assessing the quality of synthetic speech, even state-of-the-art TTS approaches have kept human feedback isolated from training that resulted in mismatched training objectives and evaluation metrics. In this work, we investigate a novel topic of integrating subjective human evaluation into the TTS training loop. Inspired by the recent success of reinforcement learning from human feedback, we propose a comprehensive sampling-annotating-learning framework tailored to TTS optimization, namely uncertainty-aware optimization (UNO). Specifically, UNO eliminates the need for a reward model or preference data by directly maximizing the utility of speech generations while considering the uncertainty that lies in the inherent variability in subjective human speech perception and evaluations. Experimental results of both subjective and objective evaluations demonstrate that UNO considerably improves the zero-shot performance of TTS models in terms of MOS, word error rate, and speaker similarity. Additionally, we present a remarkable ability of UNO that it can adapt to the desired speaking style in emotional TTS seamlessly and flexibly.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# 一般化指数勾配アルゴリズムとオンラインポートフォリオ選択への応用

Generalized Exponentiated Gradient Algorithms and Their Application to On-Line Portfolio Selection ( http://arxiv.org/abs/2406.00655v1 )

ライセンス: Link先を確認
Andrzej Cichocki, Sergio Cruces, Auxiliadora Sarmiento, Toshihisa Tanaka, (参考訳) 本稿では,Alpha-Beta分散正規化関数から得られた一般化指数勾配(EG)更新の新たなファミリーを紹介する。 EGABと呼ばれ、提案された更新は正のデータに対する乗法勾配アルゴリズムのカテゴリに属し、3つのハイパーパラメータ($\alpha$,$\beta$,および学習レート$\eta$)を通して繰り返し動作と性能を制御することにより、かなりの柔軟性を示す。 一般化されたEGABアルゴリズムの非負重みベクトルに対して、単位$l_1$ノルム制約を適用するために、2つの若干異なるアプローチを開発する。 1つの方法はスケール不変な損失関数を利用するが、もう1つは実現可能な領域への勾配射影に依存する。 適用可能性の図示として、勾配法を用いてオンラインポートフォリオ選択問題(OLPS)に対処する際の提案された更新について評価する。 ここでは、様々なOLPSアルゴリズムの探索方向(標準指数勾配と多様な平均回帰戦略を含む)について統一的な視点を提供するだけでなく、ハイパーパラメータ選択の柔軟性のため、スムーズな補間と拡張を容易にする。 これらの一般化された勾配更新の適応性は、特に取引コストを含むシナリオにおいて、いくつかのポートフォリオのパフォーマンスを効果的に向上させることができる。

This paper introduces a novel family of generalized exponentiated gradient (EG) updates derived from an Alpha-Beta divergence regularization function. Collectively referred to as EGAB, the proposed updates belong to the category of multiplicative gradient algorithms for positive data and demonstrate considerable flexibility by controlling iteration behavior and performance through three hyperparameters: $\alpha$, $\beta$, and the learning rate $\eta$. To enforce a unit $l_1$ norm constraint for nonnegative weight vectors within generalized EGAB algorithms, we develop two slightly distinct approaches. One method exploits scale-invariant loss functions, while the other relies on gradient projections onto the feasible domain. As an illustration of their applicability, we evaluate the proposed updates in addressing the online portfolio selection problem (OLPS) using gradient-based methods. Here, they not only offer a unified perspective on the search directions of various OLPS algorithms (including the standard exponentiated gradient and diverse mean-reversion strategies), but also facilitate smooth interpolation and extension of these updates due to the flexibility in hyperparameter selection. Simulation results confirm that the adaptability of these generalized gradient updates can effectively enhance the performance for some portfolios, particularly in scenarios involving transaction costs.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# 存在か存在か:辞書の未知語使用か?

Presence or Absence: Are Unknown Word Usages in Dictionaries? ( http://arxiv.org/abs/2406.00656v1 )

ライセンス: Link先を確認
Xianghe Ma, Dominik Schlechtweg, Wei Zhao, (参考訳) 本研究では,フィンランド語,ロシア語,ドイツ語の共用課題であるAXOLOTL-24に提案するシステムの構成と結果について概説する。 私たちのシステムは完全に教師なしです。 グラフベースのクラスタリング手法を利用して、未知の単語使用量とSubtask 1の辞書エントリ間のマッピングを予測し、Subtask 2のGPT-4やLLaMA-3のような最先端の大規模言語モデルを通して、それらの新しい単語使用量に対する辞書のような定義を生成する。 Subtask 1では,本システムでは,グラフベースのクラスタリング手法を用いて,一致した単語と未一致の単語を区別することで,マッピング結果の解釈可能性を実現する。 私たちのシステムはフィンランド語とドイツ語で第1位、ロシア語で第2位、Subtask 2テストフェーズのリーダーボードで第2位です。 これらの結果から,辞書項目の管理における本システムの有用性が示唆された。 私たちのコードとデータは公開されています。footnote{\url{https://github.com/xiaohemaikoo/axolotl24-ABDN-NLP}}。

In this work, we outline the components and results of our system submitted to the AXOLOTL-24 shared task for Finnish, Russian and German languages. Our system is fully unsupervised. It leverages a graph-based clustering approach to predict mappings between unknown word usages and dictionary entries for Subtask 1, and generates dictionary-like definitions for those novel word usages through the state-of-the-art Large Language Models such as GPT-4 and LLaMA-3 for Subtask 2. In Subtask 1, our system outperforms the baseline system by a large margin, and it offers interpretability for the mapping results by distinguishing between matched and unmatched (novel) word usages through our graph-based clustering approach. Our system ranks first in Finnish and German, and ranks second in Russian on the Subtask 2 test-phase leaderboard. These results show the potential of our system in managing dictionary entries, particularly for updating dictionaries to include novel sense entries. Our code and data are made publicly available\footnote{\url{https://github.com/xiaohemaikoo/axolotl24-ABDN-NLP}}.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# 共変量シフトを超えたブリッジング多重校正とアウト・オブ・ディストリビューション一般化

Bridging Multicalibration and Out-of-distribution Generalization Beyond Covariate Shift ( http://arxiv.org/abs/2406.00661v1 )

ライセンス: Link先を確認
Jiayun Wu, Jiashuo Liu, Peng Cui, Zhiwei Steven Wu, (参考訳) 重なり合うグループ群で予測器を校正する基準であるマルチキャリブレーションにより、分配外一般化のための新しいモデルに依存しない最適化フレームワークを構築した。 マルチキャリブレーションは、共変量シフトの下での統計的推測の堅牢性と関連している。 さらに、共変量シフトの内外における予測タスクに対する多重校正とロバストネスの関連性を確立する。 我々は、共変量やラベルを共同で考える群化関数を組み込むために、多重校正を拡張してこれを達成した。 これは、概念シフトの存在における堅牢な学習の目的である拡張多重校正と不変性の等価性をもたらす。 本研究では, グループ化関数の線形構造を密度比で表し, 特定のグループ化関数を設計することによって, 頑健な学習のための統一的な枠組みを導出する。 本稿では,マルチキャリブレーションとアウト・オブ・ディストリビューションの一般化を両立させるポストプロセッシングアルゴリズムMC-Pseudolabelを提案する。 このアルゴリズムは、軽量なハイパーパラメータと一連の教師付き回帰ステップによる最適化により、分散シフトを伴う実世界のデータセット上での優れたパフォーマンスを実現する。

We establish a new model-agnostic optimization framework for out-of-distribution generalization via multicalibration, a criterion that ensures a predictor is calibrated across a family of overlapping groups. Multicalibration is shown to be associated with robustness of statistical inference under covariate shift. We further establish a link between multicalibration and robustness for prediction tasks both under and beyond covariate shift. We accomplish this by extending multicalibration to incorporate grouping functions that consider covariates and labels jointly. This leads to an equivalence of the extended multicalibration and invariance, an objective for robust learning in existence of concept shift. We show a linear structure of the grouping function class spanned by density ratios, resulting in a unifying framework for robust learning by designing specific grouping functions. We propose MC-Pseudolabel, a post-processing algorithm to achieve both extended multicalibration and out-of-distribution generalization. The algorithm, with lightweight hyperparameters and optimization through a series of supervised regression steps, achieves superior performance on real-world datasets with distribution shift.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# SimSAM: シミュレーションインタラクションによるゼロショット医療画像セグメンテーション

SimSAM: Zero-shot Medical Image Segmentation via Simulated Interaction ( http://arxiv.org/abs/2406.00663v1 )

ライセンス: Link先を確認
Benjamin Towle, Xin Chen, Ke Zhou, (参考訳) 先日リリースされたSegment Anything Model(SAM)は、半自動アノテーション設定を通じて、クリックやバウンディングボックスという形でプロンプトを提供する、強力なゼロショットセグメンテーション機能を示している。 専門的なアノテーションを取得するコストが高く、プライバシの制限によって患者のデータの共有が制限され、モデル一般化が不十分な場合が多いため、医療画像に適用することへの関心が高まっている。 しかし、不明瞭な対象境界、低コントラストメディア、専門家のラベル付けスタイルの違いなど、医用画像に固有の不確実性が多数存在する。 現在SAMは、不確実性が最も大きい医療画像の構造の輪郭を適切に注釈付けするために、ゼロショット設定で苦労していることが知られている。 これを軽減するために、シミュレーションされたユーザインタラクションを活用して任意の数の候補マスクを生成するアプローチである \textbf{Sim}ulated Interaction for \textbf{S}egment \textbf{A}nything \textbf{M}odel (\textsc{\textbf{SimSAM}})を紹介する。 重要なことに,本手法はSAM上で直接推論を行う際に,追加のトレーニングを必要とせずに利用できる。 本手法は,3つの医用画像データセットに対して定量的に評価し,ゼロショットSAMと比較して,輪郭区分け精度が最大15.5倍に向上することが確認された。 私たちのコードは \url{https://github.com/BenjaminTowle/SimSAM} で利用可能です。

The recently released Segment Anything Model (SAM) has shown powerful zero-shot segmentation capabilities through a semi-automatic annotation setup in which the user can provide a prompt in the form of clicks or bounding boxes. There is growing interest around applying this to medical imaging, where the cost of obtaining expert annotations is high, privacy restrictions may limit sharing of patient data, and model generalisation is often poor. However, there are large amounts of inherent uncertainty in medical images, due to unclear object boundaries, low-contrast media, and differences in expert labelling style. Currently, SAM is known to struggle in a zero-shot setting to adequately annotate the contours of the structure of interest in medical images, where the uncertainty is often greatest, thus requiring significant manual correction. To mitigate this, we introduce \textbf{Sim}ulated Interaction for \textbf{S}egment \textbf{A}nything \textbf{M}odel (\textsc{\textbf{SimSAM}}), an approach that leverages simulated user interaction to generate an arbitrary number of candidate masks, and uses a novel aggregation approach to output the most compatible mask. Crucially, our method can be used during inference directly on top of SAM, without any additional training requirement. Quantitatively, we evaluate our method across three publicly available medical imaging datasets, and find that our approach leads to up to a 15.5\% improvement in contour segmentation accuracy compared to zero-shot SAM. Our code is available at \url{https://github.com/BenjaminTowle/SimSAM}.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# 医療画像における多モード大言語モデルの有用性に関する調査研究

An Early Investigation into the Utility of Multimodal Large Language Models in Medical Imaging ( http://arxiv.org/abs/2406.00667v1 )

ライセンス: Link先を確認
Sulaiman Khan, Md. Rafiul Biswas, Alina Murad, Hazrat Ali, Zubair Shah, (参考訳) MLLM(Multimodal large language model)の最近の発展は、様々な医用画像領域にまたがる潜在的な応用への大きな関心を喚起している。 一方、これらの生成モデルを用いて現実的な医用画像データを合成する誘惑があり、一方、データプール内の合成画像データを識別する能力も重要である。 本研究では,2種類の医用画像データを用いた医用画像解析のためのGemini(\textit{gemini-1.0-pro-vision-latst})モデルとGPT-4V(gpt-4-vision-preview)モデルの可能性を検討する。 Gemini AIとGPT-4Vは、合成画像と合成画像の両方を分類し、次に入力画像の解釈と解析を行う。 実験の結果,Gemini と GPT-4 はいずれも入力画像の解釈を行うことができた。 この特定の実験では、ジェミニは分類タスクにおいてGPT-4Vよりもわずかに性能が向上した。 対照的に、GPT-4Vに関連する反応は、本質的には概ね汎用的である。 本研究で紹介した早期研究は,網膜眼底鏡および肺X線像の分類と解釈を支援するMLLMの可能性についての知見を提供するものである。 また,医療画像解析における特殊課題に対するMLLMの早期調査に関連する重要な限界も明らかにした。

Recent developments in multimodal large language models (MLLMs) have spurred significant interest in their potential applications across various medical imaging domains. On the one hand, there is a temptation to use these generative models to synthesize realistic-looking medical image data, while on the other hand, the ability to identify synthetic image data in a pool of data is also significantly important. In this study, we explore the potential of the Gemini (\textit{gemini-1.0-pro-vision-latest}) and GPT-4V (gpt-4-vision-preview) models for medical image analysis using two modalities of medical image data. Utilizing synthetic and real imaging data, both Gemini AI and GPT-4V are first used to classify real versus synthetic images, followed by an interpretation and analysis of the input images. Experimental results demonstrate that both Gemini and GPT-4 could perform some interpretation of the input images. In this specific experiment, Gemini was able to perform slightly better than the GPT-4V on the classification task. In contrast, responses associated with GPT-4V were mostly generic in nature. Our early investigation presented in this work provides insights into the potential of MLLMs to assist with the classification and interpretation of retinal fundoscopy and lung X-ray images. We also identify key limitations associated with the early investigation study on MLLMs for specialized tasks in medical image analysis.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# Cascade-CLIP:ゼロショットセマンティックセマンティックセグメンテーションのためのカスケード型視覚言語埋め込み

Cascade-CLIP: Cascaded Vision-Language Embeddings Alignment for Zero-Shot Semantic Segmentation ( http://arxiv.org/abs/2406.00670v1 )

ライセンス: Link先を確認
Yunheng Li, ZhongYu Li, Quansheng Zeng, Qibin Hou, Ming-Ming Cheng, (参考訳) 事前訓練された視覚言語モデル、例えばCLIPは、ゼロショットセマンティックセマンティックセグメンテーションにうまく適用されている。 既存のCLIPベースのアプローチは、主に最終レイヤの視覚的特徴を利用して、テキストの埋め込みと整合する一方で、リッチなオブジェクトの詳細を含む中間層において重要な情報を無視する。 しかし,複数階層の視覚的特徴を直接集約することで,新規クラスのゼロショット能力を弱めることがわかった。 異なるレイヤの視覚的特徴の大きな違いは、これらの特徴をテキストの埋め込みとうまく一致させることを困難にしている。 そこで我々は,複数の独立したデコーダを導入して,多レベル視覚特徴とテキスト埋め込みをケースド方式で整合させ,Cascade-CLIPという斬新でシンプルなフレームワークを構築することで,この問題を解決する。 我々のCascade-CLIPは柔軟であり、既存のゼロショットセマンティックセグメンテーション手法にも容易に適用できる。 実験の結果,COCO-Stuff,Pascal-VOC,Pascal-Contextなどのセグメンテーションベンチマークにおいて,単純なCascade-CLIPが優れたゼロショット性能を実現することがわかった。 私たちのコードは、https://github.com/HVision-NKU/Cascade-CLIPで利用可能です。

Pre-trained vision-language models, e.g., CLIP, have been successfully applied to zero-shot semantic segmentation. Existing CLIP-based approaches primarily utilize visual features from the last layer to align with text embeddings, while they neglect the crucial information in intermediate layers that contain rich object details. However, we find that directly aggregating the multi-level visual features weakens the zero-shot ability for novel classes. The large differences between the visual features from different layers make these features hard to align well with the text embeddings. We resolve this problem by introducing a series of independent decoders to align the multi-level visual features with the text embeddings in a cascaded way, forming a novel but simple framework named Cascade-CLIP. Our Cascade-CLIP is flexible and can be easily applied to existing zero-shot semantic segmentation methods. Experimental results show that our simple Cascade-CLIP achieves superior zero-shot performance on segmentation benchmarks, like COCO-Stuff, Pascal-VOC, and Pascal-Context. Our code is available at: https://github.com/HVision-NKU/Cascade-CLIP
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# タスク指向埋め込み数:全スライド画像分類のためのヒューリスティッククラスタリング駆動特徴ファインタニング

Task-oriented Embedding Counts: Heuristic Clustering-driven Feature Fine-tuning for Whole Slide Image Classification ( http://arxiv.org/abs/2406.00672v1 )

ライセンス: Link先を確認
Xuenian Wang, Shanshan Shi, Renao Yan, Qiehe Sun, Lianghui Zhu, Tian Guan, Yonghong He, (参考訳) スライド画像全体(WSI)分類の分野では、多重インスタンス学習(MIL)が有望なアプローチとして機能し、通常は特徴抽出と集約に分離される。 このパラダイムでは,最終予測への集約には識別的埋め込みが不可欠であることが明らかとなった。 あらゆる機能更新戦略の中で、タスク指向のものは特定のタスクに特有な特徴を捉えることができる。 しかし、ノイズラベルが割り当てられたサンプルによって過剰に適合し汚染される傾向がある。 そこで本研究では,クラスタリング駆動型特徴微調整法(HC-FT)を提案する。 提案手法はまず,パッチの信頼性を評価するために,よく訓練されたMILモデルを用いている。 次に、信頼度の高いパッチは正のサンプルとしてマークされ、残りのパッチは重要な負のサンプルを特定するために使用される。 2ラウンドのヒューリスティッククラスタリングと選択の後、精製された正および硬負のサンプルを取得し、特徴的微調整を容易にする。 提案手法はCAMELYON16とBRACSの両方のデータセットで評価され,それぞれ97.13%,85.85%のAUCが得られた。

In the field of whole slide image (WSI) classification, multiple instance learning (MIL) serves as a promising approach, commonly decoupled into feature extraction and aggregation. In this paradigm, our observation reveals that discriminative embeddings are crucial for aggregation to the final prediction. Among all feature updating strategies, task-oriented ones can capture characteristics specifically for certain tasks. However, they can be prone to overfitting and contaminated by samples assigned with noisy labels. To address this issue, we propose a heuristic clustering-driven feature fine-tuning method (HC-FT) to enhance the performance of multiple instance learning by providing purified positive and hard negative samples. Our method first employs a well-trained MIL model to evaluate the confidence of patches. Then, patches with high confidence are marked as positive samples, while the remaining patches are used to identify crucial negative samples. After two rounds of heuristic clustering and selection, purified positive and hard negative samples are obtained to facilitate feature fine-tuning. The proposed method is evaluated on both CAMELYON16 and BRACS datasets, achieving an AUC of 97.13% and 85.85%, respectively, consistently outperforming all compared methods.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# W-Net: 顔に誘導された顔の超解像ネットワーク

W-Net: A Facial Feature-Guided Face Super-Resolution Network ( http://arxiv.org/abs/2406.00676v1 )

ライセンス: Link先を確認
Hao Liu, Yang Yang, Yunxia Liu, (参考訳) Face Super-Resolution (FSR) は、高解像度 (HR) の顔画像を低解像度 (LR) の顔画像から復元することを目的としている。 FSRにおける畳み込みニューラルネットワークの進歩にもかかわらず、再構成効率が低く、事前情報の利用が不十分なため、既存のアプローチの結果は理想的ではない。 顔が高度に構造化された物体であることを考えると、FSRの結果を改善するために顔の事前を効果的に活用することは、貴重な努力である。 本稿では,この課題に対処するため,W-Netと呼ばれる新しいネットワークアーキテクチャを提案する。 W-Netは、厳密に設計されたパーシングブロックを利用して、LR画像の解像度ポテンシャルを完全に活用する。 我々は、この解析マップを事前の注意として使用し、解析マップとLR画像の両方からの情報を効果的に統合する。 同時に、W字型ネットワーク構造とLPF(LR-Parsing Map Fusion Module)を組み合わせることで、様々な次元で複数の融合を行う。 さらに、マスクとして顔解析グラフを用い、異なる重みと損失関数を主要顔領域に割り当て、再建した顔画像の性能を知覚品質と画素精度のバランスをとる。 我々は,従来の顔超解像測定値に限らず,顔認識や顔のキーポイント検出などの下流タスクにも及んだ広範囲な比較実験を行った。 実験により、W-Netは定量的メトリクス、視覚的品質、下流タスクにおいて優れた性能を示すことが示された。

Face Super-Resolution (FSR) aims to recover high-resolution (HR) face images from low-resolution (LR) ones. Despite the progress made by convolutional neural networks in FSR, the results of existing approaches are not ideal due to their low reconstruction efficiency and insufficient utilization of prior information. Considering that faces are highly structured objects, effectively leveraging facial priors to improve FSR results is a worthwhile endeavor. This paper proposes a novel network architecture called W-Net to address this challenge. W-Net leverages meticulously designed Parsing Block to fully exploit the resolution potential of LR image. We use this parsing map as an attention prior, effectively integrating information from both the parsing map and LR images. Simultaneously, we perform multiple fusions in various dimensions through the W-shaped network structure combined with the LPF(LR-Parsing Map Fusion Module). Additionally, we utilize a facial parsing graph as a mask, assigning different weights and loss functions to key facial areas to balance the performance of our reconstructed facial images between perceptual quality and pixel accuracy. We conducted extensive comparative experiments, not only limited to conventional facial super-resolution metrics but also extending to downstream tasks such as facial recognition and facial keypoint detection. The experiments demonstrate that W-Net exhibits outstanding performance in quantitative metrics, visual quality, and downstream tasks.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# 拡散政策勾配によるスクラッチからのマルチモーダル行動の学習

Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient ( http://arxiv.org/abs/2406.00681v1 )

ライセンス: Link先を確認
Zechu Li, Rickmer Krohn, Tao Chen, Anurag Ajay, Pulkit Agrawal, Georgia Chalvatzaki, (参考訳) ディープ強化学習(英語版) (RL) アルゴリズムは通常、決定論的行動またはガウス分布としてモデル化された確率的行動のどちらかを出力するディープネットワークとしてポリシーをパラメータ化し、学習を単一の行動モードに制限する。 一方、拡散モデルはマルチモーダル学習のための強力なフレームワークとして出現した。 しかし、オンラインRLにおける拡散ポリシーの使用は、ポリシー可能性近似の難易度や、ポリシーを単一のモードに簡単にスキューできるRL手法の欲求目的によって妨げられている。 本稿では,拡散モデルとしてパラメータ化されたマルチモーダルポリシーをスクラッチから学習し,多目的な振る舞いを発見し,維持する新しいアクター批判アルゴリズムであるDeep Diffusion Policy Gradient(DDiffPG)を提案する。 DDiffPGは、非教師なしクラスタリングと新規性に基づく本質的なモチベーションを組み合わせることで、複数のモードを探索し、発見する。 DDiffPGは、マルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和し、すべてのモードにわたる拡散ポリシーの改善を保証する。 さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。 DDiffPGの複雑な高次元連続制御タスクにおけるマルチモーダル動作をスパース報酬でマスターする能力を検証する実証的研究、また、目に見えない障害物で迷路をナビゲートする際の概念の動的リプランニングの証明を示す。

Deep reinforcement learning (RL) algorithms typically parameterize the policy as a deep network that outputs either a deterministic action or a stochastic one modeled as a Gaussian distribution, hence restricting learning to a single behavioral mode. Meanwhile, diffusion models emerged as a powerful framework for multimodal learning. However, the use of diffusion policies in online RL is hindered by the intractability of policy likelihood approximation, as well as the greedy objective of RL methods that can easily skew the policy to a single mode. This paper presents Deep Diffusion Policy Gradient (DDiffPG), a novel actor-critic algorithm that learns from scratch multimodal policies parameterized as diffusion models while discovering and maintaining versatile behaviors. DDiffPG explores and discovers multiple modes through off-the-shelf unsupervised clustering combined with novelty-based intrinsic motivation. DDiffPG forms a multimodal training batch and utilizes mode-specific Q-learning to mitigate the inherent greediness of the RL objective, ensuring the improvement of the diffusion policy across all modes. Our approach further allows the policy to be conditioned on mode-specific embeddings to explicitly control the learned modes. Empirical studies validate DDiffPG's capability to master multimodal behaviors in complex, high-dimensional continuous control tasks with sparse rewards, also showcasing proof-of-concept dynamic online replanning when navigating mazes with unseen obstacles.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# 新興国及び発展途上国における有機残基のバロリゼーションのためのデータ駆動型アプローチによるレキシコンの取得と検証

A lexicon obtained and validated by a data-driven approach for organic residues valorization in emerging and developing countries ( http://arxiv.org/abs/2406.00682v1 )

ライセンス: Link先を確認
Christiane Rakotomalala, Jean-Marie Paillat, Frédéric Feder, Angel Avadí, Laurent Thuriès, Marie-Liesse Vermeire, Jean-Michel Médoc, Tom Wassenaar, Caroline Hottelart, Lilou Kieffer, Elisa Ndjie, Mathieu Picart, Jorel Tchamgoue, Alvin Tulle, Laurine Valade, Annie Boyer, Marie-Christine Duchamp, Mathieu Roche, (参考訳) 本研究では,低所得国と中所得国における農業における有機残基の生物変換と価値化に関する用語のアノテーションとして,テキストマイニング手法を用いた。 専門辞書は, 用語のコーパスと抽出, 抽出用語の注釈, 関連用語の選択など, 様々な段階から得られた。

The text mining method presented in this paper was used for annotation of terms related to biological transformation and valorization of organic residues in agriculture in low and middle-income country. Specialized lexicon was obtained through different steps: corpus and extraction of terms, annotation of extracted terms, selection of relevant terms.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# ハイパースペクトル画像再構成のための爆発周波数相関

Exploiting Frequency Correlation for Hyperspectral Image Reconstruction ( http://arxiv.org/abs/2406.00683v1 )

ライセンス: Link先を確認
Muge Yan, Lizhi Wang, Lin Zhu, Hua Huang, (参考訳) ハイパースペクトル画像 (HSI) 再構成における強力な手法として, 深層前駆体が出現している。 ほとんどの手法では、非局所的な類似性のような画像空間の先行性を用いた空間領域学習が重視されるが、画像周波数の先行性を用いた周波数領域学習は無視され、ネットワークの再構築能力が制限される。 本稿では,既存のHSIデータセットの詳細な統計周波数解析に先立って,HFC(Hyperspectral Frequency correlation)を提案する。 HFCを先行して,低周波成分と高周波成分を対象とし,SAF(Spectral-wise Self-Attention of Frequency)とSIF(Spectral-Spatial Interaction of Frequency)からなる周波数領域学習を確立した。 SAFとSIFの出力は学習可能なゲーティングフィルタによって適応的にマージされ、画像周波数先行を徹底的に活用する。 周波数領域学習と既存の空間領域学習を統合し,HSI再構成のための相関駆動混合領域変換器(CMDT)を開発した。 大規模な実験により,本手法は,再現性や計算効率において,様々な最先端(SOTA)手法を超越していることが明らかとなった。

Deep priors have emerged as potent methods in hyperspectral image (HSI) reconstruction. While most methods emphasize space-domain learning using image space priors like non-local similarity, frequency-domain learning using image frequency priors remains neglected, limiting the reconstruction capability of networks. In this paper, we first propose a Hyperspectral Frequency Correlation (HFC) prior rooted in in-depth statistical frequency analyses of existent HSI datasets. Leveraging the HFC prior, we subsequently establish the frequency domain learning composed of a Spectral-wise self-Attention of Frequency (SAF) and a Spectral-spatial Interaction of Frequency (SIF) targeting low-frequency and high-frequency components, respectively. The outputs of SAF and SIF are adaptively merged by a learnable gating filter, thus achieving a thorough exploitation of image frequency priors. Integrating the frequency domain learning and the existing space domain learning, we finally develop the Correlation-driven Mixing Domains Transformer (CMDT) for HSI reconstruction. Extensive experiments highlight that our method surpasses various state-of-the-art (SOTA) methods in reconstruction quality and computational efficiency.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# 拡散モデルを用いたOracle Bone Languageの解読

Deciphering Oracle Bone Language with Diffusion Models ( http://arxiv.org/abs/2406.00684v1 )

ライセンス: Link先を確認
Haisu Guan, Huanxin Yang, Xinyu Wang, Shengwei Han, Yongge Liu, Lianwen Jin, Xiang Bai, Yuliang Liu, (参考訳) 中国の宋代から約3000年前、Oracle Bone Script (OBS) は、多くの確立された書記体系に先立って、言語史の年代記の基盤となっている。 何千もの碑文が発見されたにも拘わらず、OBSの膨大な拡張は未解読のままであり、この古代の言語に謎のベールを投げつけている。 現代のAI技術の出現は、OBS解読の新たなフロンティアを示し、歴史的言語にはない高級品である大きなテキストコーパスに大きく依存する従来のNLP手法に挑戦する。 本稿では,Oracle Bone Script Decipher (OBSD) の開発を通じて,画像生成技術を採用する新たなアプローチを提案する。 条件付き拡散に基づく戦略を利用して、OBSDは解読のための重要な手がかりを生成し、古代の言語のAI支援分析の新しいコースをチャート化している。 その有効性を検証するため、OBSDの有効性を示す定量的な実験をオラクルの骨スクリプトデータセット上で行った。 コードと解読結果はhttps://github.com/guanhaisu/OBSD.comで公開される。

Originating from China's Shang Dynasty approximately 3,000 years ago, the Oracle Bone Script (OBS) is a cornerstone in the annals of linguistic history, predating many established writing systems. Despite the discovery of thousands of inscriptions, a vast expanse of OBS remains undeciphered, casting a veil of mystery over this ancient language. The emergence of modern AI technologies presents a novel frontier for OBS decipherment, challenging traditional NLP methods that rely heavily on large textual corpora, a luxury not afforded by historical languages. This paper introduces a novel approach by adopting image generation techniques, specifically through the development of Oracle Bone Script Decipher (OBSD). Utilizing a conditional diffusion-based strategy, OBSD generates vital clues for decipherment, charting a new course for AI-assisted analysis of ancient languages. To validate its efficacy, extensive experiments were conducted on an oracle bone script dataset, with quantitative results demonstrating the effectiveness of OBSD. Code and decipherment results will be made available at https://github.com/guanhaisu/OBSD.
翻訳日:2024-06-06 03:56:22 公開日:2024-06-02
# Pixel Reweighted Adversarial Trainingによる高精度ロバスト性トレードオフの改善

Improving Accuracy-robustness Trade-off via Pixel Reweighted Adversarial Training ( http://arxiv.org/abs/2406.00685v1 )

ライセンス: Link先を確認
Jiacheng Zhang, Feng Liu, Dawei Zhou, Jingfeng Zhang, Tongliang Liu, (参考訳) 敵対訓練(AT)は、特定の摂動で修正された自然なイメージである逆例(AE)を用いてモデルを訓練する。 これらの摂動は予め定義された摂動予算$\epsilon$で制約され、画像内の各ピクセルに等しく適用される。 しかし,本論文では,全ての画素がAEの精度(すなわち,頑健性)と自然画像の精度(すなわち,精度)に等しく寄与するわけではない。 この発見に触発されて、我々はPixel-reweighted AdveRsarial Training (PART)を提案する。これは、影響力の低いピクセルに対して$\epsilon$を部分的に削減し、出力に影響を与える重要な領域にもっとフォーカスするようモデルに誘導する新しいフレームワークである。 具体的には、まず、重要なピクセル領域を特定するためにクラスアクティベーションマッピング(CAM)法を使用し、その後、これらの領域の摂動予算を維持しながら、AEの生成時に残りの領域でそれを低下させる。 最終的に、私たちはこれらのピクセルリウェイトされたAEを使ってモデルをトレーニングします。 CIFAR-10、SVHN、TinyImagenet-200では、ロバストな分類において異なるピクセル領域に異なる重みを割り当てる必要性を正当化し、ロバスト性を損なうことなく、顕著な精度の向上を実現している。

Adversarial training (AT) trains models using adversarial examples (AEs), which are natural images modified with specific perturbations to mislead the model. These perturbations are constrained by a predefined perturbation budget $\epsilon$ and are equally applied to each pixel within an image. However, in this paper, we discover that not all pixels contribute equally to the accuracy on AEs (i.e., robustness) and accuracy on natural images (i.e., accuracy). Motivated by this finding, we propose Pixel-reweighted AdveRsarial Training (PART), a new framework that partially reduces $\epsilon$ for less influential pixels, guiding the model to focus more on key regions that affect its outputs. Specifically, we first use class activation mapping (CAM) methods to identify important pixel regions, then we keep the perturbation budget for these regions while lowering it for the remaining regions when generating AEs. In the end, we use these pixel-reweighted AEs to train a model. PART achieves a notable improvement in accuracy without compromising robustness on CIFAR-10, SVHN and TinyImagenet-200, justifying the necessity to allocate distinct weights to different pixel regions in robust classification.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# 人工知能強化記号レグレッションを用いたフルウインドタービンウェイクの解釈可能な数学的表現の発見

Discovering an interpretable mathematical expression for a full wind-turbine wake with artificial intelligence enhanced symbolic regression ( http://arxiv.org/abs/2406.00695v1 )

ライセンス: Link先を確認
Ding Wang, Yuntian Chen, Shiyi Chen, (参考訳) 世界中の風力発電の急速な拡大は、風力発電の設計と運用の両方において、エンジニアリングに焦点を当てた解析的なウェイクモデルの重要性を浮き彫りにしている。 これらの理論的に派生したアナリサーショナル・ウェイクモデルは、特にタービンローターに近い近ウェイク領域において、保持されない仮定のため、予測能力に制限がある。 知識発見法は、洞察を抽出し、理論的な仮定を調整し、物理的プロセスの正確なモデルを開発することによって、これらのギャップを埋めることができる。 本研究では,これまで利用できなかった平均速度障害に対する解釈可能な数学的表現を見つけるために,遺伝的記号回帰(SR)アルゴリズムを導入する。 二重ガウス分布をSRアルゴリズムにドメイン知識として組み込み、階層的な方程式構造を設計することにより、探索空間を小さくし、簡潔で物理的に情報があり、堅牢なウェイクモデルを見つける。 提案した数式(方程式)は、高精度で安定なフルウェイク領域の任意の位置における覚醒速度の欠陥を予測できる。 本モデルの有効性と実用性は,実験データと高忠実度数値シミュレーションを用いて検証する。

The rapid expansion of wind power worldwide underscores the critical significance of engineering-focused analytical wake models in both the design and operation of wind farms. These theoretically-derived ana lytical wake models have limited predictive capabilities, particularly in the near-wake region close to the turbine rotor, due to assumptions that do not hold. Knowledge discovery methods can bridge these gaps by extracting insights, adjusting for theoretical assumptions, and developing accurate models for physical processes. In this study, we introduce a genetic symbolic regression (SR) algorithm to discover an interpretable mathematical expression for the mean velocity deficit throughout the wake, a previously unavailable insight. By incorporating a double Gaussian distribution into the SR algorithm as domain knowledge and designing a hierarchical equation structure, the search space is reduced, thus efficiently finding a concise, physically informed, and robust wake model. The proposed mathematical expression (equation) can predict the wake velocity deficit at any location in the full-wake region with high precision and stability. The model's effectiveness and practicality are validated through experimental data and high-fidelity numerical simulations.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# マトリックス類似性に基づく関節損傷機能を用いた皮膚疾患分類のためのバイリニア畳み込みニューラルネットワーク

Bilinear-Convolutional Neural Network Using a Matrix Similarity-based Joint Loss Function for Skin Disease Classification ( http://arxiv.org/abs/2406.00696v1 )

ライセンス: Link先を確認
Belal Ahmad, Mohd Usama, Tanvir Ahmad, Adnan Saeed, Shabnam Khatoon, Long Hu, (参考訳) 本研究では,BCNN(Bilinear Convolutional Neural Network)とCTN(Constrained Triplet Network)を用いた皮膚疾患分類モデルを提案する。 BCNNは画像データの特徴間の豊富な空間的相互作用をキャプチャできる。 これにより、2つの異なるCNNからの特徴ベクトルの外積を双線形プールにより計算する。 結果として得られた特徴は2階統計を符号化し、異なるチャネルと空間的位置の間のより複雑な関係をネットワークが捉えることができる。 CTNは、Constrained Triplet Loss (CTL)層と呼ばれるアーキテクチャの最後に追加された新しい損失層を使用することで、トリプルト損失関数(TLF)を採用している。 これは、クラス間分類とクラス内濃度をできるだけ多く、皮膚疾患の分類に有効である2つの重要な学習目標を得るために行われる。 提案モデルは,深層ネットワークからクラス内特徴を抽出し,それらの特徴間の距離を増大させ,モデルの性能を向上させるよう訓練される。 平均精度は93.72%だった。

In this study, we proposed a model for skin disease classification using a Bilinear Convolutional Neural Network (BCNN) with a Constrained Triplet Network (CTN). BCNN can capture rich spatial interactions between features in image data. This computes the outer product of feature vectors from two different CNNs by a bilinear pooling. The resulting features encode second-order statistics, enabling the network to capture more complex relationships between different channels and spatial locations. The CTN employs the Triplet Loss Function (TLF) by using a new loss layer that is added at the end of the architecture called the Constrained Triplet Loss (CTL) layer. This is done to obtain two significant learning objectives: inter-class categorization and intra-class concentration with their deep features as often as possible, which can be effective for skin disease classification. The proposed model is trained to extract the intra-class features from a deep network and accordingly increases the distance between these features, improving the model's performance. The model achieved a mean accuracy of 93.72%.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# 大規模言語モデルを用いた短文のトピックモデリング

Topic Modeling for Short Texts with Large Language Models ( http://arxiv.org/abs/2406.00697v1 )

ライセンス: Link先を確認
Tomoki Doi, Masaru Isonuma, Hitomi Yanaka, (参考訳) 従来のトピックモデルは単語共起に頼って潜在トピックを推測するので、短いテキストのトピックモデリングは長年にわたる課題である。 大きな言語モデル(LLM)は、事前学習を通じて単語の意味を文脈的に学習することで、この課題を克服することができる。 本稿では,並列プロンプトと逐次プロンプトという2つの手法を用いてトピックモデリングを行う。 入力長制限のため、LLMは一度に多くのテキストを処理できない。 テキストを小さなサブセットに分割し、並列またはシーケンシャルに処理することで、任意の数のテキストをLCMで処理することができる。 実験の結果,提案手法は既存のトピックよりも一貫性のあるトピックを同定し,その多様性を維持できることがわかった。 さらに, 推定されたトピックが入力テキストを適切にカバーし, 幻覚的トピックがほとんど生成しないことが判明した。

As conventional topic models rely on word co-occurrence to infer latent topics, topic modeling for short texts has been a long-standing challenge. Large Language Models (LLMs) can potentially overcome this challenge by contextually learning the semantics of words via pretraining. This paper studies two approaches, parallel prompting and sequential prompting, to use LLMs for topic modeling. Due to the input length limitations, LLMs cannot process many texts at once. By splitting the texts into smaller subsets and processing them parallelly or sequentially, an arbitrary number of texts can be handled by LLMs. Experimental results demonstrated that our methods can identify more coherent topics than existing ones while maintaining the diversity of the induced topics. Furthermore, we found that the inferred topics adequately covered the input texts, while hallucinated topics were hardly generated.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# 効率的な量子状態変換のためのグループスパース行列最適化

Group Sparse Matrix Optimization for Efficient Quantum State Transformation ( http://arxiv.org/abs/2406.00698v1 )

ライセンス: Link先を確認
Lai Kin Man, Xin Wang, (参考訳) 量子状態を別の状態に変換する方法を見つけることは、量子情報処理の基本である。 本稿では,スパース行列法を量子状態変換問題に適用する。 特に,量子状態変換のための一元行列を探索するための新しい手法として,乗算器の交互方向法(ADMM)を用いて目的問題を直接最適化する手法を提案する。 さらに,量子状態変換問題において,群疎度を代替空間選択として利用することを検討する。 提案手法は,非凸問題として定式化することにより,空間性制約を量子状態変換に組み込む。 複雑な量子システムを効率的に処理し、正確な状態変換を実現するための有用なフレームワークを確立する。

Finding ways to transform a quantum state to another is fundamental to quantum information processing. In this paper, we apply the sparse matrix approach to the quantum state transformation problem. In particular, we present a new approach for searching for unitary matrices for quantum state transformation by directly optimizing the objective problem using the Alternating Direction Method of Multipliers (ADMM). Moreover, we consider the use of group sparsity as an alternative sparsity choice in quantum state transformation problems. Our approach incorporates sparsity constraints into quantum state transformation by formulating it as a non-convex problem. It establishes a useful framework for efficiently handling complex quantum systems and achieving precise state transformations.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# 線形近似によるマックスプール型畳み込みニューラルネットワークの汎用ロバスト性検証に向けて

Towards General Robustness Verification of MaxPool-based Convolutional Neural Networks via Tightening Linear Approximation ( http://arxiv.org/abs/2406.00699v1 )

ライセンス: Link先を確認
Yuan Xiao, Shiqing Ma, Juan Zhai, Chunrong Fang, Jinyuan Jia, Zhenyu Chen, (参考訳) 畳み込みニューラルネットワーク(CNN)の堅牢性は、現代のAI駆動システムにとって不可欠である。 これは、任意の摂動が元の入力の分類結果を変えない、認定された下限を提供することで、形式的な検証によって定量化することができる。 MaxPoolのような非線形コンポーネントのため、これは難しい。 現在, 検証手法の多くは, 効率とスケーラビリティを高めるためにある程度の精度を失うリスクがあるため, 検証ツールの性能を評価する上では, 認定下限が重要な基準となっている。 本稿では, 線形近似を用いた MaxPool ベース CNN のロバスト性検証器である MaxLin について述べる。 MaxPool関数の線形近似を厳格化することにより、より大きな認定されたCNNの下限を証明できる。 我々は、MNIST、CIFAR-10、Tiny ImageNetデータセットでトレーニングされたLeNetやネットワークを含むオープンソースのベンチマークでMaxLinを評価した。 その結果、MaxLinは、認定された下位境界に関する最大110.60%の改善と、同じニューラルネットワークの5.13ドル\times$スピードアップにより、最先端のツールよりも優れていた。 私たちのコードはhttps://github.com/xiaoyuanpigo/maxlin.comから入手可能です。

The robustness of convolutional neural networks (CNNs) is vital to modern AI-driven systems. It can be quantified by formal verification by providing a certified lower bound, within which any perturbation does not alter the original input's classification result. It is challenging due to nonlinear components, such as MaxPool. At present, many verification methods are sound but risk losing some precision to enhance efficiency and scalability, and thus, a certified lower bound is a crucial criterion for evaluating the performance of verification tools. In this paper, we present MaxLin, a robustness verifier for MaxPool-based CNNs with tight linear approximation. By tightening the linear approximation of the MaxPool function, we can certify larger certified lower bounds of CNNs. We evaluate MaxLin with open-sourced benchmarks, including LeNet and networks trained on the MNIST, CIFAR-10, and Tiny ImageNet datasets. The results show that MaxLin outperforms state-of-the-art tools with up to 110.60% improvement regarding the certified lower bound and 5.13 $\times$ speedup for the same neural networks. Our code is available at https://github.com/xiaoyuanpigo/maxlin.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# メル周波数ケプストラム係数を用いた心臓音の高次分類 : 単音・アンサンブル分類法の比較検討

Enhanced Classification of Heart Sounds Using Mel Frequency Cepstral Coefficients: A Comparative Study of Single and Ensemble Classifier Strategies ( http://arxiv.org/abs/2406.00702v1 )

ライセンス: Link先を確認
Amir Masoud Rahmani, Amir Haider, Parisa Khoshvaght, Mohammad Adeli, Entesar Gemeay, Yazeed Alkhrijah, Mokhtar Mohammadi, Mehdi Hosseinzadeh, (参考訳) 本稿では,Mel Frequency Cepstral Coefficients (MFCCs) の2つの分類法(単一分類法とアンサンブル分類法)を用いた異常心電図検出における有効性について検討する。 Phonocardiograms were segmented into S1, systole, S2, and diastole intervals, and 13 MFCCs estimated from each segment, by 52 MFCCs per beat。 単分類法では,9拍子のMFCCを平均化して心エコー図の分類を行った。 逆に、アンサンブル分類法は9つの分類法を用いて、ビートを正常または異常として個別に評価し、全体分類は多数決に基づいて行った。 どちらの方法も一般に公開されている心電図データベース上でテストされた。 その結果, 単一分類法よりも高い精度を達成し, MFCCを時間, 時間, 統計的特徴など他の特徴よりも有効とみなし, 同様の研究で評価した。

This paper explores the efficacy of Mel Frequency Cepstral Coefficients (MFCCs) in detecting abnormal phonocardiograms using two classification strategies: a single-classifier and an ensemble-classifier approach. Phonocardiograms were segmented into S1, systole, S2, and diastole intervals, with thirteen MFCCs estimated from each segment, yielding 52 MFCCs per beat. In the single-classifier strategy, the MFCCs from nine consecutive beats were averaged to classify phonocardiograms. Conversely, the ensemble-classifier strategy employed nine classifiers to individually assess beats as normal or abnormal, with the overall classification based on the majority vote. Both methods were tested on a publicly available phonocardiogram database. Results demonstrated that the ensemble-classifier strategy achieved higher accuracy compared to the single-classifier approach, establishing MFCCs as more effective than other features, including time, time-frequency, and statistical features, evaluated in similar studies.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# Tsetlin マシン複合材料を用いた高度な画像処理のための最適化ツールボックス

An Optimized Toolbox for Advanced Image Processing with Tsetlin Machine Composites ( http://arxiv.org/abs/2406.00704v1 )

ライセンス: Link先を確認
Ylva Grønningsæter, Halvor S. Smørvik, Ole-Christoffer Granmo, (参考訳) Tsetlin Machine (TM) は、MNIST、K-MNIST、F-MNIST、CIFAR-2など、いくつかの画像分類ベンチマークで競合する結果を得た。 しかし、色画像分類はTMの初期段階にあり、CIFAR-10は進捗追跡の焦点となっている。 過去数年間、TMのCIFAR-10の精度は2020年の61%から2023年の75.1%に向上した。 本稿では,最近提案されたTMコンポジットアーキテクチャを活用し,様々な画像処理技術を用いた様々なTMスペシャリストを紹介する。 カニーエッジ検出、配向勾配のヒストグラム、適応平均しきい値、適応ガウスしきい値、大津しきい値、色温度計、適応色温度計などである。 さらに、厳密なハイパーパラメータ探索を行い、いくつかのTMスペシャリストに対して最適なハイパーパラメータを明らかにする。 その結果、TMのCIFAR-10で82.8%の精度で最新の結果を提供するツールボックスが作られた。 結論として, TM スペシャリストのツールボックスは, 新しい TM アプリケーションの基礎となり, 画像解析における TM コンポジットのさらなる研究のランドマークとなっている。

The Tsetlin Machine (TM) has achieved competitive results on several image classification benchmarks, including MNIST, K-MNIST, F-MNIST, and CIFAR-2. However, color image classification is arguably still in its infancy for TMs, with CIFAR-10 being a focal point for tracking progress. Over the past few years, TM's CIFAR-10 accuracy has increased from around 61% in 2020 to 75.1% in 2023 with the introduction of Drop Clause. In this paper, we leverage the recently proposed TM Composites architecture and introduce a range of TM Specialists that use various image processing techniques. These include Canny edge detection, Histogram of Oriented Gradients, adaptive mean thresholding, adaptive Gaussian thresholding, Otsu's thresholding, color thermometers, and adaptive color thermometers. In addition, we conduct a rigorous hyperparameter search, where we uncover optimal hyperparameters for several of the TM Specialists. The result is a toolbox that provides new state-of-the-art results on CIFAR-10 for TMs with an accuracy of 82.8%. In conclusion, our toolbox of TM Specialists forms a foundation for new TM applications and a landmark for further research on TM Composites in image analysis.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# ロジスティックな変分ベイの再検討

Logistic Variational Bayes Revisited ( http://arxiv.org/abs/2406.00713v1 )

ライセンス: Link先を確認
Michael Komodromos, Marina Evangelou, Sarah Filippi, (参考訳) 変分ロジスティック回帰は、ベイジアン最適化、強化学習、複数インスタンス学習など、機械学習の多くの分野で広く使われているベイジアン推論の一般的な方法である。 しかしながら、エビデンス・ロウアー・バウンドの難易度のため、著者はモンテカルロ(モンテカルロ)の使用、すなわち二次的あるいは境界的境界(英語版)を推論に用いた。 本稿では,ソフトプラス関数の期待値に新たなバウンダリを導入し,変分ロジスティック回帰とガウス過程の分類にどのように適用できるかを示す。 他のバウンダリとは異なり、我々の提案は変動族を拡張することや、バウンダリがタイトであることを保証するために追加のパラメータを導入することに依存しない。 実際、このバウンダリは最先端よりも厳密であり、結果の変動後部は最先端の性能を達成する一方で、モンテカルロ法よりも計算がかなり高速であることを示す。

Variational logistic regression is a popular method for approximate Bayesian inference seeing wide-spread use in many areas of machine learning including: Bayesian optimization, reinforcement learning and multi-instance learning to name a few. However, due to the intractability of the Evidence Lower Bound, authors have turned to the use of Monte Carlo, quadrature or bounds to perform inference, methods which are costly or give poor approximations to the true posterior. In this paper we introduce a new bound for the expectation of softplus function and subsequently show how this can be applied to variational logistic regression and Gaussian process classification. Unlike other bounds, our proposal does not rely on extending the variational family, or introducing additional parameters to ensure the bound is tight. In fact, we show that this bound is tighter than the state-of-the-art, and that the resulting variational posterior achieves state-of-the-art performance, whilst being significantly faster to compute than Monte-Carlo methods.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# 自律走行における3次元物体検出のためのディープラーニングベースレーダとビジョンフュージョンの検討

A Survey of Deep Learning Based Radar and Vision Fusion for 3D Object Detection in Autonomous Driving ( http://arxiv.org/abs/2406.00714v1 )

ライセンス: Link先を確認
Di Wu, Feng Yang, Benlian Xu, Pan Liao, Bo Liu, (参考訳) 自動運転技術の急速な進歩により、運転中の車両の自動環境認識における安全性と効率の向上の必要性が高まっている。 現代の車両では、カメラとmmWaveレーダー(レーダー)が最も広く使用されるセンサーであり、相補的な特性を示しており、本質的には融合に寄与し、堅牢な性能とコスト効率の両方の達成を促進する。 本稿では,自律運転における3次元物体検出のためのディープラーニング手法に基づくレーダビジョン(RV)融合の包括的調査に着目する。 本稿では,各RV融合カテゴリ,特に関心領域融合(ROI)とエンドツーエンド融合戦略を利用する分野について概観する。 現在最も有望な融合戦略として、これらの3次元境界ボックス予測とBEVベースのアプローチを含む、エンドツーエンドの融合手法のより深い分類を提供する。 さらに、最近の進歩に合わせて、4Dレーダの最新情報と、自動運転車(AV)における最先端の応用について述べる。 最後に, RV融合の今後の動向を概説し, 本論文を要約する。

With the rapid advancement of autonomous driving technology, there is a growing need for enhanced safety and efficiency in the automatic environmental perception of vehicles during their operation. In modern vehicle setups, cameras and mmWave radar (radar), being the most extensively employed sensors, demonstrate complementary characteristics, inherently rendering them conducive to fusion and facilitating the achievement of both robust performance and cost-effectiveness. This paper focuses on a comprehensive survey of radar-vision (RV) fusion based on deep learning methods for 3D object detection in autonomous driving. We offer a comprehensive overview of each RV fusion category, specifically those employing region of interest (ROI) fusion and end-to-end fusion strategies. As the most promising fusion strategy at present, we provide a deeper classification of end-to-end fusion methods, including those 3D bounding box prediction based and BEV based approaches. Moreover, aligning with recent advancements, we delineate the latest information on 4D radar and its cutting-edge applications in autonomous vehicles (AVs). Finally, we present the possible future trends of RV fusion and summarize this paper.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# 一般確率論における文脈性の資源論的階層構造

Resource-theoretic hierarchy of contextuality for general probabilistic theories ( http://arxiv.org/abs/2406.00717v1 )

ライセンス: Link先を確認
Lorenzo Catani, Thomas D. Galley, Tomáš Gonda, (参考訳) この研究では、一般化された文脈性の階層を示す。 文脈的理論と非文脈的理論の伝統的な二項区別を洗練させ、文脈的理論と非文脈的理論との対比を促進する。 提案手法は,一般確率論(GPT)によって記述された準備・測定シナリオの文脈性に焦点をあてる。 階層化の動機付けとして, GPT-contextuality の新たな資源理論の資源順序付けとして定義する。 フリーオペレーションのビルディングブロックは古典的なシステムとGPT埋め込みである。 後者は別のGPTのシミュレーションであり、運用上の等価性を保ち、したがって文脈性を生成することができない。 非文脈理論は階層内の最小要素として回復することができる。 次に、GPTを無限古典系に埋め込む最小誤差によって与えられる古典的余剰と呼ばれる新しい文脈性単調性を定義する。 さらに,パリティ・オブリビラス多重化ゲームにおける最適成功確率は,資源理論におけるモノトーンを定義することも示している。 我々は、GPT-contextuality の資源理論の非自由な操作を、情報消去の一種を表すものとして解釈する可能性について論じる。

In this work we present a hierarchy of generalized contextuality. It refines the traditional binary distinction between contextual and noncontextual theories, and facilitates their comparison based on how contextual they are. Our approach focuses on the contextuality of prepare-and-measure scenarios, described by general probabilistic theories (GPTs). To motivate the hierarchy, we define it as the resource ordering of a novel resource theory of GPT-contextuality. The building blocks of its free operations are classical systems and GPT-embeddings. The latter are simulations of one GPT by another, which preserve the operational equivalences and thus cannot generate contextuality. Noncontextual theories can be recovered as least elements in the hierarchy. We then define a new contextuality monotone, called classical excess, given by the minimal error of embedding a GPT within an infinite classical system. In addition, we show that the optimal success probability in the parity oblivious multiplexing game also defines a monotone in our resource theory. We end with a discussion of a potential interpretation of the non-free operations of the resource theory of GPT-contextuality as expressing a kind of information erasure.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# グラフニューラルネットワークを用いた単一画像レイニングにおける内部的・外部的類似性の探索

Explore Internal and External Similarity for Single Image Deraining with Graph Neural Networks ( http://arxiv.org/abs/2406.00721v1 )

ライセンス: Link先を確認
Cong Wang, Wei Wang, Chengjin Yu, Jie Mu, (参考訳) パッチレベルの非局所的な自己相似性は、自然画像の重要な性質である。 しかし、既存のほとんどの手法では、この特性を画像デライニングのためのニューラルネットワークには考慮していないため、回復性能に影響を及ぼす。 この特性により、雨画像のパッチ再帰特性が顕著であること、すなわち、類似したパッチが1つの画像に何度も再帰する傾向にあり、そのマルチスケール画像と外部画像が存在することが判明した。 画像保持のためのこの特性をより良くモデル化するために,MSGNNと呼ばれる,2つの枝を含むマルチスケールグラフネットワークを開発した。 1) 内部データに基づく教師付きブランチを用いて雨天画像とそのマルチスケール画像からの類似パッチの内部関係をモデル化する。 2) 雨天画像における類似パッチの外部関係をモデル化するために, 外部データ参加型教師なしブランチを用いる。 具体的には,マルチスケール・フレームワークの降雨画像からk-アレスト近傍のパッチを探索し,グラフモデルを構築した。 マルチスケール画像から対応するk近傍のパッチを取得し,その類似したパッチからより詳細な情報を提供するために,グラフを構築して注意的に集約する。 提案したグラフをディープニューラルネットワークに埋め込んで、エンドツーエンドでトレーニングします。 大規模な実験により,提案アルゴリズムは,5つの公開合成データセットと1つの実世界のデータセットに対して,最先端の8つの手法に対して良好に動作することが示された。 ソースコードはhttps://github.com/supersupercong/MSGNNで入手できる。

Patch-level non-local self-similarity is an important property of natural images. However, most existing methods do not consider this property into neural networks for image deraining, thus affecting recovery performance. Motivated by this property, we find that there exists significant patch recurrence property of a rainy image, that is, similar patches tend to recur many times in one image and its multi-scale images and external images. To better model this property for image detaining, we develop a multi-scale graph network with exemplars, called MSGNN, that contains two branches: 1) internal data-based supervised branch is used to model the internal relations of similar patches from the rainy image itself and its multi-scale images and 2) external data-participated unsupervised branch is used to model the external relations of the similar patches in the rainy image and exemplar. Specifically, we construct a graph model by searching the k-nearest neighboring patches from both the rainy images in a multi-scale framework and the exemplar. After obtaining the corresponding k neighboring patches from the multi-scale images and exemplar, we build a graph and aggregate them in an attentional manner so that the graph can provide more information from similar patches for image deraining. We embed the proposed graph in a deep neural network and train it in an end-to-end manner. Extensive experiments demonstrate that the proposed algorithm performs favorably against eight state-of-the-art methods on five public synthetic datasets and one real-world dataset. The source codes will be available at https://github.com/supersupercong/MSGNN.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# 多体量子系の相関崩壊に対する普遍的スケーリング則

Universal scaling laws for correlated decay of many-body quantum systems ( http://arxiv.org/abs/2406.00722v1 )

ライセンス: Link先を確認
Wai-Keong Mok, Avishi Poddar, Eric Sierra, Cosimo C. Rusconi, John Preskill, Ana Asenjo-Garcia, (参考訳) 量子システムはオープンであり、周囲の環境とエネルギーと情報を継続的に交換している。 この相互作用は、量子状態のデコヒーレンスと崩壊を引き起こす。 多くの粒子によって形成される複雑な系では、崩壊は相関し、強化される。 量子系の最大崩壊速度と、その大きさでどのようにスケールするか? 本研究では,これらの問題に対して,一般スピンハミルトニアンの基底状態エネルギーを求める問題を再構成して解決する。 ハミルトンの複雑性理論における最近の研究に触発され、最大崩壊速度の厳密で一般的な上と下の境界を定めている。 これらの境界は、マルコフ多体量子系の幅広いクラスを保ちながら普遍的である。 多くの物理的関連系では、境界は漸近的に厳密であり、結果としてシステムサイズによる正確なスケーリング法則が導かれる。 具体的には、自由空間における大きな原子配列の場合、これらのスケーリングは配列の次元性にのみ依存し、短い長さスケールで詳細に敏感である。 スケーリング法則は、量子状態の崩壊速度の基本的な限界を確立し、多体量子力学、メートル法、フォールトトレラント量子計算の研究に貴重な洞察を与える。

Quantum systems are open, continually exchanging energy and information with the surrounding environment. This interaction leads to decoherence and decay of quantum states. In complex systems, formed by many particles, decay can become correlated and enhanced. A fundamental question then arises: what is the maximal decay rate of a large quantum system, and how does it scale with its size? In this work, we address these issues by reformulating the problem into finding the ground state energy of a generic spin Hamiltonian. Inspired by recent work in Hamiltonian complexity theory, we establish rigorous and general upper and lower bounds on the maximal decay rate. These bounds are universal, as they hold for a broad class of Markovian many-body quantum systems. For many physically-relevant systems, the bounds are asymptotically tight, resulting in exact scaling laws with system size. Specifically, for large atomic arrays in free space, these scalings depend only on the arrays' dimensionality and are insensitive to details at short length-scales. The scaling laws establish fundamental limits on the decay rates of quantum states and offer valuable insights for research in many-body quantum dynamics, metrology, and fault tolerant quantum computation.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# GLADformer:グラフレベルの異常検出のための混合視点

GLADformer: A Mixed Perspective for Graph-level Anomaly Detection ( http://arxiv.org/abs/2406.00734v1 )

ライセンス: Link先を確認
Fan Xu, Nan Wang, Hao Wu, Xuezhi Wen, Dalin Zhang, Siyang Lu, Binyong Li, Wei Gong, Hai Wan, Xibin Zhao, (参考訳) Graph-Level Anomaly Detection (GLAD)は、グラフデータセット内の異常グラフを識別することを目的としている。 しかし、現在の手法は受容場によって制約されており、グラフ内のグローバルな特徴を学習するのに苦労している。 さらに、現代のほとんどの手法は空間領域に基づいており、スペクトル特性の探索が欠如している。 本稿では,2つの鍵モジュールからなる複数パースペクティブなグラフレベルの異常検出器であるGLADformerを提案する。 具体的には,大域的特徴とスペクトル分布特性を融合させることにより,パラメータ分布のバランスと弾力性を確保するグラフ変換器モジュールを設計する。 さらに,局所的な異常特性を明らかにするため,帯域通過スペクトルGNNメッセージパッシングモジュールをカスタマイズし,モデルの一般化機能をさらに強化する。 複数のドメインからの10の実世界のデータセットに関する総合的な実験を通じて、GLADformerの有効性と堅牢性を検証する。 このことは、GLADformerがグラフレベルの異常検出において、特にグローバルな異常表現とスペクトル特性を効果的に捉える際に、現在の最先端モデルよりも優れていることを示している。

Graph-Level Anomaly Detection (GLAD) aims to distinguish anomalous graphs within a graph dataset. However, current methods are constrained by their receptive fields, struggling to learn global features within the graphs. Moreover, most contemporary methods are based on spatial domain and lack exploration of spectral characteristics. In this paper, we propose a multi-perspective hybrid graph-level anomaly detector namely GLADformer, consisting of two key modules. Specifically, we first design a Graph Transformer module with global spectrum enhancement, which ensures balanced and resilient parameter distributions by fusing global features and spectral distribution characteristics. Furthermore, to uncover local anomalous attributes, we customize a band-pass spectral GNN message passing module that further enhances the model's generalization capability. Through comprehensive experiments on ten real-world datasets from multiple domains, we validate the effectiveness and robustness of GLADformer. This demonstrates that GLADformer outperforms current state-of-the-art models in graph-level anomaly detection, particularly in effectively capturing global anomaly representations and spectral characteristics.
翻訳日:2024-06-06 03:46:38 公開日:2024-06-02
# マルチモーダルフローマッチングに基づく全原子ペプチド設計

Full-Atom Peptide Design based on Multi-modal Flow Matching ( http://arxiv.org/abs/2406.00735v1 )

ライセンス: Link先を確認
Jiahan Li, Chaoran Cheng, Zuofan Wu, Ruihan Guo, Shitong Luo, Zhizhou Ren, Jian Peng, Jianzhu Ma, (参考訳) アミノ酸残基の短鎖であるペプチドは、他の標的分子と相互作用することで多くの生物学的プロセスにおいて重要な役割を果たす。 本研究では,タンパク質受容体を標的としたフル原子ペプチドの設計のためのフローマッチングフレームワークを基盤とした,最初の多モード深層生成モデルであるPepFlowについて述べる。 タンパク質-ペプチド相互作用における残基のバックボーン配向と側鎖のダイナミックスの重要な役割からインスピレーションを得て, $\mathrm{SE}(3)$多様体内の固いバックボーンフレームと高次元トーラス上の側鎖角を用いてペプチド構造を特徴づけた。 さらに、ペプチド配列の離散残基型を、確率単純度上のカテゴリー分布として表現する。 導出したフローと対応する多様体上のベクトル場を用いて各モードの関節分布を学習することにより、本手法はフル原子ペプチドの微細な設計に優れる。 提案手法は, 固定バックボーンシーケンス設計や部分サンプリングによるサイドチェーンパッキングなど, 様々な課題に順応的に対処する。 綿密に構築された実験を通して、PepFlowは総合的なベンチマークにおいて優れた性能を示し、計算ペプチドの設計と解析においてその有意義な可能性を浮き彫りにしている。

Peptides, short chains of amino acid residues, play a vital role in numerous biological processes by interacting with other target molecules, offering substantial potential in drug discovery. In this work, we present PepFlow, the first multi-modal deep generative model grounded in the flow-matching framework for the design of full-atom peptides that target specific protein receptors. Drawing inspiration from the crucial roles of residue backbone orientations and side-chain dynamics in protein-peptide interactions, we characterize the peptide structure using rigid backbone frames within the $\mathrm{SE}(3)$ manifold and side-chain angles on high-dimensional tori. Furthermore, we represent discrete residue types in the peptide sequence as categorical distributions on the probability simplex. By learning the joint distributions of each modality using derived flows and vector fields on corresponding manifolds, our method excels in the fine-grained design of full-atom peptides. Harnessing the multi-modal paradigm, our approach adeptly tackles various tasks such as fix-backbone sequence design and side-chain packing through partial sampling. Through meticulously crafted experiments, we demonstrate that PepFlow exhibits superior performance in comprehensive benchmarks, highlighting its significant potential in computational peptide design and analysis.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# レストレス・マルチアーマッドバンドにおけるグローバル・リワード

Global Rewards in Restless Multi-Armed Bandits ( http://arxiv.org/abs/2406.00738v1 )

ライセンス: Link先を確認
Naveen Raman, Ryan Shi, Fei Fang, (参考訳) レストレス・マルチアーム・バンディット(RMAB)はマルチアーム・バンディットを拡張し、腕を引っ張って将来の状態に影響を及ぼす。 RMABの成功にもかかわらず、重要な制限の前提は、報酬を武器の合計に分離できることである。 本研究は, RMABのグローバルな非分離型報酬への一般化である, RMAB-Gを用いたレスレスマルチアームバンディットの提案により, この欠陥に対処する。 RMAB-Gを解くために,RMABからRMAB-GまでWhittleインデックスを拡張可能な線形およびシェープWhittleインデックスを開発した。 近似境界を証明するとともに、報酬関数が非線形であるときにこれらの指標がいかに失敗するかを指摘する。 これを解決するために、第1の計算指標を反復的に、第2の計算指標をモンテカルロ木探索(MCTS)と組み合わせた2つの適応ポリシーを提案する。 実験により, 提案した政策は, 食品の回収から得られる合成データと実世界のデータを用いて, ベースラインやインデックスベースの政策よりも優れていることを示した。

Restless multi-armed bandits (RMAB) extend multi-armed bandits so pulling an arm impacts future states. Despite the success of RMABs, a key limiting assumption is the separability of rewards into a sum across arms. We address this deficiency by proposing restless-multi-armed bandit with global rewards (RMAB-G), a generalization of RMABs to global non-separable rewards. To solve RMAB-G, we develop the Linear- and Shapley-Whittle indices, which extend Whittle indices from RMABs to RMAB-Gs. We prove approximation bounds but also point out how these indices could fail when reward functions are highly non-linear. To overcome this, we propose two sets of adaptive policies: the first computes indices iteratively, and the second combines indices with Monte-Carlo Tree Search (MCTS). Empirically, we demonstrate that our proposed policies outperform baselines and index-based policies with synthetic data and real-world data from food rescue.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# 人間の監督なしで7つの不思議を遊ぶことを学ぶ

Learning to Play 7 Wonders Duel Without Human Supervision ( http://arxiv.org/abs/2406.00741v1 )

ライセンス: Link先を確認
Giovanni Paolini, Lorenzo Moreschini, Francesco Veneziano, Alessandro Iraci, (参考訳) 本稿では,ボードゲーム「7 Wonders Duel」をプレイするために開発された人工知能システム「ZeusAI」を紹介する。 AlphaZeroの強化学習アルゴリズムにインスパイアされたZeusAIは、モンテカルロ木探索とトランスフォーマーニューラルネットワークを組み合わせて、人間の監督なしにゲームを学ぶ。 ZeusAIは、人間のトッププレイヤーのレベルを競い、既知の戦略と新しい戦略の両方を開発し、ゲームのバランスを改善するためにルールの変種をテストすることができる。 この研究は、AIがボードゲームの理解と強化にどのように役立つかを実証する。

This paper introduces ZeusAI, an artificial intelligence system developed to play the board game 7 Wonders Duel. Inspired by the AlphaZero reinforcement learning algorithm, ZeusAI relies on a combination of Monte Carlo Tree Search and a Transformer Neural Network to learn the game without human supervision. ZeusAI competes at the level of top human players, develops both known and novel strategies, and allows us to test rule variants to improve the game's balance. This work demonstrates how AI can help in understanding and enhancing board games.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# スピンカー共振器におけるキラル光子遮断

Chiral photon blockade in the spinning Kerr resonator ( http://arxiv.org/abs/2406.00745v1 )

ライセンス: Link先を確認
Yunlan Zuo, Ya-Feng Jiao, Xun-Wei Xu, Adam Miranowicz, Le-Man Kuang, Hui Jing, (参考訳) 非線形光共振器を回転させてキラル光子遮断を実現する方法を提案する。 このようなデバイスを一定の方向に駆動することで、時間反転対称性の回転によって引き起こされる反伝播光学モードに対して、全く異なる量子効果が出現することを示し、それ以外は静的な状態において同じデバイスでは不可能である。 また、静的な場合と比較して、ランダムな後方散乱損失に対するロバストな非古典的相関は、そのような量子キラル系では達成できる。 我々の研究は、古典的な量子状態から純粋に量子状態への光学的キラル対称性の自発的破壊に関する以前の研究を拡張し、キラル量子ネットワークや耐雑音性量子センサーなど、様々なキラル量子効果の創出と活用へのさらなる取り組みを刺激することができる。

We propose how to achieve chiral photon blockade by spinning a nonlinear optical resonator. We show that by driving such a device at a fixed direction, completely different quantum effects can emerge for the counter-propagating optical modes, due to the spinning-induced breaking of time-reversal symmetry, which otherwise is unattainable for the same device in the static regime. Also, we find that in comparison with the static case, robust non-classical correlations against random backscattering losses can be achieved for such a quantum chiral system. Our work, extending previous works on the spontaneous breaking of optical chiral symmetry from the classical to purely quantum regimes, can stimulate more efforts towards making and utilizing various chiral quantum effects, including applications for chiral quantum networks or noise-tolerant quantum sensors.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# 収束最小化によるFedProxアルゴリズムの拡張

Augmenting the FedProx Algorithm by Minimizing Convergence ( http://arxiv.org/abs/2406.00748v1 )

ライセンス: Link先を確認
Anomitra Sarkar, Lavanya Vajpayee, (参考訳) モノのインターネットは大きな成長を遂げ、様々な産業の不可欠な部分となっている。 この拡張は、業界がIoT技術を活用して、データ分析やクラウドコンピューティングといった革新的なソリューションを通じて、通信と接続性を向上させる産業用IoTイニシアチブを生み出している。 しかし、このIoTの普及により、スピードを犠牲にすることなく、同じトレーニング環境により良い効率を提供するアルゴリズムが求められている。 本稿では, G Federated Proximity と呼ばれる新しい手法を提案する。 既存のFedProx技術に基づいて、我々の実装は、その効率性と有効性を高めるためにわずかな修正を導入します。 提案システムは,FTLを活用することにより,実時間デバイスや異種ネットワークの性能向上などの正規化手法を用いて,トレーニングデータセットから得られたモデルの精度を向上させることを目的としている。

The Internet of Things has experienced significant growth and has become an integral part of various industries. This expansion has given rise to the Industrial IoT initiative where industries are utilizing IoT technology to enhance communication and connectivity through innovative solutions such as data analytics and cloud computing. However this widespread adoption of IoT is demanding of algorithms that provide better efficiency for the same training environment without speed being a factor. In this paper we present a novel approach called G Federated Proximity. Building upon the existing FedProx technique our implementation introduces slight modifications to enhance its efficiency and effectiveness. By leveraging FTL our proposed system aims to improve the accuracy of model obtained after the training dataset with the help of normalization techniques such that it performs better on real time devices and heterogeneous networks Our results indicate a significant increase in the throughput of approximately 90% better convergence compared to existing model performance.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# CCF: 歩行者軌道予測のためのクロス修正フレームワーク

CCF: Cross Correcting Framework for Pedestrian Trajectory Prediction ( http://arxiv.org/abs/2406.00749v1 )

ライセンス: Link先を確認
Pranav Singh Chib, Pravendra Singh, (参考訳) 将来の歩行者軌跡を正確に予測することは、様々な領域において不可欠である。 将来の歩行者軌道の不確実性のため,複数エージェントシナリオにおける複雑な時空間表現を学習することが重要である。 そこで我々は,歩行者軌跡の時空間表現をよりよく学習するための新しいクロスコレクションフレームワーク(CCF)を提案する。 このフレームワークは2つのトラジェクティブ予測モデルから構成されており、同じアーキテクチャを共有し、相互相関損失とトラジェクティブ予測損失の両方をトレーニングする。 クロスコレクションは、両方のサブネットからの学習を活用し、相互補正機構を通じてトラジェクトリの基盤となる表現を洗練させる。 具体的には、クロス補正損失を用いて、サブネット間相互作用を通じて相互に補正する方法を学ぶ。 サブネット間の多様な学習を誘導するために、ニューラルネットワークによって生成された変換された観測軌跡を1つのサブネットへの入力として、元の観測軌跡を他のサブネットへの入力として使用する。 トランスフォーマーをベースとしたエンコーダデコーダアーキテクチャを各サブネットに利用し,歩行者間の動きや社会的相互作用を捉える。 変圧器のエンコーダは軌道中の動きパターンをキャプチャし、デコーダは隣人との歩行者の相互作用に焦点を当てる。 各サブネットは、予測された軌跡(分類タスク)を分類する二次タスクとともに、将来の軌跡(回帰タスク)を予測する一次タスクを実行する。 ETH-UCYやSDDといった実世界のベンチマークデータセットに対する大規模な実験は、歩行者の将来の軌跡を正確に予測する上で、提案するフレームワークであるCCFの有効性を示した。 また, 各種モジュールの有効性と損失関数について, いくつかのアブレーション実験を行った。

Accurately predicting future pedestrian trajectories is crucial across various domains. Due to the uncertainty in future pedestrian trajectories, it is important to learn complex spatio-temporal representations in multi-agent scenarios. To address this, we propose a novel Cross-Correction Framework (CCF) to learn spatio-temporal representations of pedestrian trajectories better. Our framework consists of two trajectory prediction models, known as subnets, which share the same architecture and are trained with both cross-correction loss and trajectory prediction loss. Cross-correction leverages the learning from both subnets and enables them to refine their underlying representations of trajectories through a mutual correction mechanism. Specifically, we use the cross-correction loss to learn how to correct each other through an inter-subnet interaction. To induce diverse learning among the subnets, we use the transformed observed trajectories produced by a neural network as input to one subnet and the original observed trajectories as input to the other subnet. We utilize transformer-based encoder-decoder architecture for each subnet to capture motion and social interaction among pedestrians. The encoder of the transformer captures motion patterns in trajectories, while the decoder focuses on pedestrian interactions with neighbors. Each subnet performs the primary task of predicting future trajectories (a regression task) along with the secondary task of classifying the predicted trajectories (a classification task). Extensive experiments on real-world benchmark datasets such as ETH-UCY and SDD demonstrate the efficacy of our proposed framework, CCF, in precisely predicting pedestrian future trajectories. We also conducted several ablation experiments to demonstrate the effectiveness of various modules and loss functions used in our approach.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# フリープレーン:トリプレーンベーススパースビューリコンストラクションモデルでフリーランチをアンロック

Freeplane: Unlocking Free Lunch in Triplane-Based Sparse-View Reconstruction Models ( http://arxiv.org/abs/2406.00750v1 )

ライセンス: Link先を確認
Wenqiang Sun, Zhengyi Wang, Shuo Chen, Yikai Wang, Zilong Chen, Jun Zhu, Jun Zhang, (参考訳) シングルビュー画像から3Dアセットを作成することは、世界の深い理解を必要とする複雑な作業である。 近年、フィードフォワード3次元生成モデルは、大規模な3次元データセットの再構成モデルをトレーニングすることで大きな進歩を遂げている。 しかし、トリプレーンの幾何学的先行を効果的に活用する一方で、生成した不整合多視点画像によるアーティファクトの最小化は依然として課題である。 そこで本研究では, フィードフォワードモデルの生成品質を向上させるための簡易かつ効果的な方法である, {\displaystyle \textbf{Fre}quency modulat\textbf{e}d tri\textbf{plane} (\textbf{Freeplane})を提案する。 まず, フィードフォワード法における三面体の役割を解析し, 不整合多視点画像が三面体に高周波アーティファクトを導入し, 高品質な3Dメッシュを実現することを発見した。 そこで本研究では, 3面体の特徴を戦略的にフィルタリングし, フィルター前後に3面体を組み合わせることで, 高品質なテクスチャメッシュを創出する手法を提案する。 これらの技術は追加コストを伴わず、トレーニング済みフィードフォワードモデルにシームレスに統合することで、生成されたマルチビュー画像の不整合に対するロバスト性を高めることができる。 定性的かつ定量的な結果から, 簡単な三葉飛行機の制御により, フィードフォワードモデルの性能が向上することが示唆された。 推論中に三葉飛行機を調節するだけでいいのです。

Creating 3D assets from single-view images is a complex task that demands a deep understanding of the world. Recently, feed-forward 3D generative models have made significant progress by training large reconstruction models on extensive 3D datasets, with triplanes being the preferred 3D geometry representation. However, effectively utilizing the geometric priors of triplanes, while minimizing artifacts caused by generated inconsistent multi-view images, remains a challenge. In this work, we present \textbf{Fre}quency modulat\textbf{e}d tri\textbf{plane} (\textbf{Freeplane}), a simple yet effective method to improve the generation quality of feed-forward models without additional training. We first analyze the role of triplanes in feed-forward methods and find that the inconsistent multi-view images introduce high-frequency artifacts on triplanes, leading to low-quality 3D meshes. Based on this observation, we propose strategically filtering triplane features and combining triplanes before and after filtering to produce high-quality textured meshes. These techniques incur no additional cost and can be seamlessly integrated into pre-trained feed-forward models to enhance their robustness against the inconsistency of generated multi-view images. Both qualitative and quantitative results demonstrate that our method improves the performance of feed-forward models by simply modulating triplanes. All you need is to modulate the triplanes during inference.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# 分散表現は文脈的語彙意味論をいかにうまく伝達するか--論文提案

How well do distributed representations convey contextual lexical semantics: a Thesis Proposal ( http://arxiv.org/abs/2406.00751v1 )

ライセンス: Link先を確認
Zhu Liu, (参考訳) 広範な原文データに基づいて訓練された現代のニューラルネットワーク(NN)は、個々の単語を密度が高く連続的な高次元ベクトルに圧縮することで分散表現を構築する。 これらの表現は、文脈内の単語の発生のあいまいさを含む様々な意味を捉えるように設計されている。 本論では,語彙意味の符号化におけるNNからの分散表現の有効性を検討することを目的とする。 当初、文脈に影響された意味の関連性と類似性に基づいて、同義語、多義語、意味的役割、多機能性の4つの曖昧性の源を同定した。 その後、多言語データセットの収集や構築、様々な言語モデルの利用、言語解析ツールの利用により、これらの情報源を評価することを目的とする。

Modern neural networks (NNs), trained on extensive raw sentence data, construct distributed representations by compressing individual words into dense, continuous, high-dimensional vectors. These representations are specifically designed to capture the varied meanings, including ambiguity, of word occurrences within context. In this thesis, our objective is to examine the efficacy of distributed representations from NNs in encoding lexical meaning. Initially, we identify four sources of ambiguity - homonymy, polysemy, semantic roles, and multifunctionality - based on the relatedness and similarity of meanings influenced by context. Subsequently, we aim to evaluate these sources by collecting or constructing multilingual datasets, leveraging various language models, and employing linguistic analysis tools.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# 大規模言語モデルの数学的推論の評価:誤り同定と補正に着目して

Evaluating Mathematical Reasoning of Large Language Models: A Focus on Error Identification and Correction ( http://arxiv.org/abs/2406.00755v1 )

ライセンス: Link先を確認
Xiaoyuan Li, Wenjie Wang, Moxin Li, Junrong Guo, Yang Zhang, Fuli Feng, (参考訳) 数学的推論の領域における大規模言語モデル(LLM)の急速な進歩は、進歩を測り、将来の方向性を刺激するために包括的な評価を必要とする。 既存の評価は、主に、検査者による誤りの特定と訂正に関する双対的な視点を見越して、検査の観点からの問題解決に焦点をあてている。 検査者の観点から,アノテートされたエラータイプとステップを持つ新しいデータセットとともに,エラー識別と修正のための4つの評価タスクを定義した。 また,11個のLLMを徹底的に評価する多様なプロンプトを設計する。 その結果, GPT-4は全モデルより優れており, LLaMA-2-7BはGPT-3.5やGemini Proに匹敵する性能を示した。 特に、計算エラーは最も難しいエラータイプである。 さらに、エラータイプによるLCMのプロンプトにより、平均補正精度が47.9\%向上する。 これらの結果から, LLMの数学的推論能力向上に向けた潜在的方向性が示唆された。 私たちのコードとデータセットはhttps://github.com/LittleCirc1e/EICで公開されています。

The rapid advancement of Large Language Models (LLMs) in the realm of mathematical reasoning necessitates comprehensive evaluations to gauge progress and inspire future directions. Existing assessments predominantly focus on problem-solving from the examinee perspective, overlooking a dual perspective of examiner regarding error identification and correction. From the examiner perspective, we define four evaluation tasks for error identification and correction along with a new dataset with annotated error types and steps. We also design diverse prompts to thoroughly evaluate eleven representative LLMs. Our principal findings indicate that GPT-4 outperforms all models, while open-source model LLaMA-2-7B demonstrates comparable abilities to closed-source models GPT-3.5 and Gemini Pro. Notably, calculation error proves the most challenging error type. Moreover, prompting LLMs with the error types can improve the average correction accuracy by 47.9\%. These results reveal potential directions for developing the mathematical reasoning abilities of LLMs. Our code and dataset is available on https://github.com/LittleCirc1e/EIC.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# once-for-all:動的粒度適応による制御可能な生成画像圧縮

Once-for-All: Controllable Generative Image Compression with Dynamic Granularity Adaption ( http://arxiv.org/abs/2406.00758v1 )

ライセンス: Link先を確認
Anqi Li, Yuxi Liu, Huihui Bai, Feng Li, Runmin Cong, Meng Wang, Yao Zhao, (参考訳) 最近の生成画像圧縮法は、速度歪みと知覚のトレードオフを最適化する驚くべき可能性を示しているが、様々な圧縮ニーズやシナリオに対するフレキシブルな速度適応という重要な課題に直面している。 この課題を克服するために,制御可能生成画像圧縮フレームワークであるコントロール-GICを提案する。 制御-GICは、画像を表すVQGANフレームワークを可変長符号の列(つまりVQ-インデックス)としてベースとしており、損失のない圧縮が可能であり、ビットレートと直接正の相関を示す。 そこで,従来の符号化原理からインスピレーションを得て,局所的な画像パッチの情報密度と粒度表現を自然に相関させ,粒度決定の後にコード量を動的に調整する。 これは、望ましい圧縮率を得るためにパッチの粒度の適切な割り当てを柔軟に決定できることを意味している。 さらに、送信された符号に従って歴史的符号化された多粒度表現に遡る確率的条件デコーダを開発し、さらに、条件確率の形式化において階層的な粒度の特徴を再構築し、より情報的な集約により、再構成リアリズムを改善する。 実験により、制御-GICは、高い柔軟性と制御可能なビットレート適応を可能にし、データセット全体の圧縮が制約されたビットレート条件を満たすことを実証した。 近年の最先端手法よりも優れた性能を示す実験結果が得られた。

Although recent generative image compression methods have demonstrated impressive potential in optimizing the rate-distortion-perception trade-off, they still face the critical challenge of flexible rate adaption to diverse compression necessities and scenarios. To overcome this challenge, this paper proposes a Controllable Generative Image Compression framework, Control-GIC, the first capable of fine-grained bitrate adaption across a broad spectrum while ensuring high-fidelity and generality compression. We base Control-GIC on a VQGAN framework representing an image as a sequence of variable-length codes (i.e. VQ-indices), which can be losslessly compressed and exhibits a direct positive correlation with the bitrates. Therefore, drawing inspiration from the classical coding principle, we naturally correlate the information density of local image patches with their granular representations, to achieve dynamic adjustment of the code quantity following different granularity decisions. This implies we can flexibly determine a proper allocation of granularity for the patches to acquire desirable compression rates. We further develop a probabilistic conditional decoder that can trace back to historic encoded multi-granularity representations according to transmitted codes, and then reconstruct hierarchical granular features in the formalization of conditional probability, enabling more informative aggregation to improve reconstruction realism. Our experiments show that Control-GIC allows highly flexible and controllable bitrate adaption and even once compression on an entire dataset to fulfill constrained bitrate conditions. Experimental results demonstrate its superior performance over recent state-of-the-art methods.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# マルチタスク強化学習における共通特徴とタスク認識優先サンプリング

Shared-unique Features and Task-aware Prioritized Sampling on Multi-task Reinforcement Learning ( http://arxiv.org/abs/2406.00761v1 )

ライセンス: Link先を確認
Po-Shao Lin, Jia-Fong Yeh, Yi-Ting Chen, Winston H. Hsu, (参考訳) マルチタスク強化学習(MTRL)タスクの実行において,現在のSOTA(State-of-the-art)手法が性能不均衡の問題に悩まされていることを観察する。 これらの手法は平均して印象的なパフォーマンスを達成できるかもしれないが、いくつかのタスクでは極めて低パフォーマンスである。 そこで本研究では,共有型特徴抽出器とタスク認識型優先サンプリングの2つの新しい手法であるSTARSを提案する。 まず、共有共通機能抽出器は、共有機能とタスク固有の機能の両方を学び、異なるタスク間の知識の相乗効果を向上させる。 第2に、タスク対応サンプリング戦略と優先された体験リプレイを組み合わせることで、パフォーマンスの悪いタスクを効率的に学習する。 STARSの有効性と安定性は,メインストリームのMeta-Worldベンチマークを用いて検証した。 その結果、STARSは現在のSOTA法よりも統計的に優れ、性能不均衡の問題を軽減することができた。 さらに、学習した特徴を可視化してクレームをサポートし、STARSの解釈可能性を高める。

We observe that current state-of-the-art (SOTA) methods suffer from the performance imbalance issue when performing multi-task reinforcement learning (MTRL) tasks. While these methods may achieve impressive performance on average, they perform extremely poorly on a few tasks. To address this, we propose a new and effective method called STARS, which consists of two novel strategies: a shared-unique feature extractor and task-aware prioritized sampling. First, the shared-unique feature extractor learns both shared and task-specific features to enable better synergy of knowledge between different tasks. Second, the task-aware sampling strategy is combined with the prioritized experience replay for efficient learning on tasks with poor performance. The effectiveness and stability of our STARS are verified through experiments on the mainstream Meta-World benchmark. From the results, our STARS statistically outperforms current SOTA methods and alleviates the performance imbalance issue. Besides, we visualize the learned features to support our claims and enhance the interpretability of STARS.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# IENE: グラフのアウト・オブ・ディストリビューションの一般化のためのノード環境の特定と外挿

IENE: Identifying and Extrapolating the Node Environment for Out-of-Distribution Generalization on Graphs ( http://arxiv.org/abs/2406.00764v1 )

ライセンス: Link先を確認
Haoran Yang, Xiaobing Pei, Kai Yuan, (参考訳) 分散シフト下でのグラフニューラルネットワーク(GNN)の性能劣化により,グラフのアウト・オブ・ディストリビューション(OOD)一般化に関する研究が注目されている。 新たな視点では、環境識別を通じて異なる環境からのバイアスを識別することで、モデルが環境に敏感な相関を逃れ、分散シフトの下で安定した性能を維持することができる。 しかし、グラフデータでは、共起因子はノード特徴の生成プロセスに影響を及ぼすだけでなく、ノード間の複雑な相互作用にも影響を及ぼす。 いずれの側面も無視するとパフォーマンスが低下するのを観察する。 本稿では,ノードレベルの環境識別と外挿手法に基づくグラフのOOD一般化手法であるIENEを提案する。 モデルが2つの粒度から不変性を同時に抽出する能力を強化し、一般化が向上する。 具体的には,特徴の不変性を識別するために,不整合情報ボトルネックフレームワークを用いて,ノードレベルの環境推定と不変特徴学習の相互促進を実現する。 さらに, トポロジ環境をグラフ拡張法により外挿し, 構造的不変性を同定する。 我々は,特定のアルゴリズムを用いて概念的手法を実装し,理論的解析と提案手法の証明を行う。 2つの合成OODデータセットと4つの実世界のOODデータセットの大規模な実験的評価は、IENEの優位性を検証し、既存の技術より優れ、GNNの一般化を促進するフレキシブルなフレームワークを提供する。

Due to the performance degradation of graph neural networks (GNNs) under distribution shifts, the work on out-of-distribution (OOD) generalization on graphs has received widespread attention. A novel perspective involves distinguishing potential confounding biases from different environments through environmental identification, enabling the model to escape environmentally-sensitive correlations and maintain stable performance under distribution shifts. However, in graph data, confounding factors not only affect the generation process of node features but also influence the complex interaction between nodes. We observe that neglecting either aspect of them will lead to a decrease in performance. In this paper, we propose IENE, an OOD generalization method on graphs based on node-level environmental identification and extrapolation techniques. It strengthens the model's ability to extract invariance from two granularities simultaneously, leading to improved generalization. Specifically, to identify invariance in features, we utilize the disentangled information bottleneck framework to achieve mutual promotion between node-level environmental estimation and invariant feature learning. Furthermore, we extrapolate topological environments through graph augmentation techniques to identify structural invariance. We implement the conceptual method with specific algorithms and provide theoretical analysis and proofs for our approach. Extensive experimental evaluations on two synthetic and four real-world OOD datasets validate the superiority of IENE, which outperforms existing techniques and provides a flexible framework for enhancing the generalization of GNNs.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# 視覚情報と予測型プロンプトを用いたLLMに基づく身体的世界モデル

The Embodied World Model Based on LLM with Visual Information and Prediction-Oriented Prompts ( http://arxiv.org/abs/2406.00765v1 )

ライセンス: Link先を確認
Wakana Haijima, Kou Nakakubo, Masahiro Suzuki, Yutaka Matsuo, (参考訳) 近年では、特に視覚と言語理解のための機械学習が改良され、組み込みAIの研究も進展している。 VOYAGERは、マインクラフトの世界における自律的な探索を可能にする、LLMベースのよく知られたエンボディAIであるが、ビジュアルデータの未使用化や世界モデルとしての不十分な機能といった問題もある。 本研究では,世界モデルとしての視覚データの利用可能性とLLMの機能について,具体的AIの性能向上を目的とした検討を行った。 実験の結果,LLMは視覚データから必要な情報を抽出できることがわかった。 また、考案されたプロンプトが世界モデルとしてのLLMの機能を引き出す可能性があることも示唆された。

In recent years, as machine learning, particularly for vision and language understanding, has been improved, research in embedded AI has also evolved. VOYAGER is a well-known LLM-based embodied AI that enables autonomous exploration in the Minecraft world, but it has issues such as underutilization of visual data and insufficient functionality as a world model. In this research, the possibility of utilizing visual data and the function of LLM as a world model were investigated with the aim of improving the performance of embodied AI. The experimental results revealed that LLM can extract necessary information from visual data, and the utilization of the information improves its performance as a world model. It was also suggested that devised prompts could bring out the LLM's function as a world model.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# トラクタブル確率回路のスケーリング:システムの観点から

Scaling Tractable Probabilistic Circuits: A Systems Perspective ( http://arxiv.org/abs/2406.00766v1 )

ライセンス: Link先を確認
Anji Liu, Kareem Ahmed, Guy Van den Broeck, (参考訳) 確率回路(PC)は、学習した分布に対する正確かつ効率的な確率的推論をサポートする、抽出可能な深層生成モデルのための一般的なフレームワークである。 最近のモデリングとトレーニングの進歩により、複雑な現実世界のタスクに応用できるようになった。 しかし、既存のPC実装の時間とメモリの非効率さは、さらなるスケールアップを妨げる。 本稿では,PC用GPU実装設計のPyJuiceを提案する。 具体的には、PyJuiceは、大規模PCのトレーニングにおいて、既存のシステム(非常に最近のものを含む)よりも1~2桁高速である。 さらに、PyJuiceは2~5倍のGPUメモリを消費するので、より大きなモデルをトレーニングすることができます。 システムの中心となるのは、PCを効率的なブロックベース並列化が可能なコンパクトな表現に変換するコンパイルプロセスであり、IOを大幅に削減し、最新のGPUで利用可能なTensor Coreを活用できるようにする。 PyJuiceは、イメージ(例: ImageNet32)と言語(例:WikiText、CommonGen)データセットでトレーニングされた最先端のPCを改善するために、実証的に使用することができる。 我々はさらに、既存のPC構造をベンチマークすることで、自然画像と言語データセットの新たなベースラインを確立し、さらに大きなサイズとトレーニングのエポックを生かし、将来の研究にインセンティブを与えることを期待している。 コードはhttps://github.com/Tractables/pyjuice.comから入手できる。

Probabilistic Circuits (PCs) are a general framework for tractable deep generative models, which support exact and efficient probabilistic inference on their learned distributions. Recent modeling and training advancements have enabled their application to complex real-world tasks. However, the time and memory inefficiency of existing PC implementations hinders further scaling up. This paper proposes PyJuice, a general GPU implementation design for PCs that improves prior art in several regards. Specifically, PyJuice is 1-2 orders of magnitude faster than existing systems (including very recent ones) at training large-scale PCs. Moreover, PyJuice consumes 2-5x less GPU memory, which enables us to train larger models. At the core of our system is a compilation process that converts a PC into a compact representation amenable to efficient block-based parallelization, which significantly reduces IO and makes it possible to leverage Tensor Cores available in modern GPUs. Empirically, PyJuice can be used to improve state-of-the-art PCs trained on image (e.g., ImageNet32) and language (e.g., WikiText, CommonGen) datasets. We further establish a new set of baselines on natural image and language datasets by benchmarking existing PC structures but with much larger sizes and more training epochs, with the hope of incentivizing future research. Code is available at https://github.com/Tractables/pyjuice.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# 大規模言語モデルのための自動指導

Automatic Instruction Evolving for Large Language Models ( http://arxiv.org/abs/2406.00770v1 )

ライセンス: Link先を確認
Weihao Zeng, Can Xu, Yingxiu Zhao, Jian-Guang Lou, Weizhu Chen, (参考訳) Evol-Instructで訓練済みの大規模言語モデルを微調整することで、幅広いタスクにまたがる奨励的な結果が得られました。 しかし、命令進化のための効果的な進化手法を設計するには、かなりの人間の専門知識が必要である。 本稿では,大規模言語モデルを用いた命令データセットを人間の努力なしに進化させる,エンド・ツー・エンドのフレームワークであるAuto Evol-Instructを提案する。 このフレームワークは、与えられた命令データに対して適切な進化戦略を自動解析し、要約し、命令進化過程中に露呈した問題に基づいて進化手法を反復的に改善する。 MT-Bench、AlpacaEval、GSM8K、HumanEvalなど、さまざまなベンチマークにおいて、Auto Evol-Instructによって最適化された最良の手法が人間設計の手法より優れていることを示す。

Fine-tuning large pre-trained language models with Evol-Instruct has achieved encouraging results across a wide range of tasks. However, designing effective evolving methods for instruction evolution requires substantial human expertise. This paper proposes Auto Evol-Instruct, an end-to-end framework that evolves instruction datasets using large language models without any human effort. The framework automatically analyzes and summarizes suitable evolutionary strategies for the given instruction data and iteratively improves the evolving method based on issues exposed during the instruction evolution process. Our extensive experiments demonstrate that the best method optimized by Auto Evol-Instruct outperforms human-designed methods on various benchmarks, including MT-Bench, AlpacaEval, GSM8K, and HumanEval.
翻訳日:2024-06-06 03:36:42 公開日:2024-06-02
# 拡散チューニング:予測の連鎖を通して拡散モデルを伝達する

Diffusion Tuning: Transferring Diffusion Models via Chain of Forgetting ( http://arxiv.org/abs/2406.00773v1 )

ライセンス: Link先を確認
Jincheng Zhong, Xingzhuo Guo, Jiaxiang Dong, Mingsheng Long, (参考訳) 拡散モデルは生成モデリングの分野を著しく進歩させた。 しかし、拡散モデルのトレーニングは計算コストがかかるため、下流生成タスクにオフ・ザ・シェルフ拡散モデルを適用する必要がある。 現在の微調整法はパラメータ効率の伝達学習に重点を置いているが、拡散モデルの基本伝達特性を見落としている。 本稿では,拡散モデルの伝達可能性について検討し,逆過程に沿って伝達可能性の傾向を忘れる単調な連鎖を観察する。 この観察と新しい理論的洞察に基づいて、忘れる傾向の連鎖を利用するフラストレーションに富んだ単純な移動アプローチであるDiff-Tuningを提案する。 Diff-Tuningは、他のノイズ側を捨てながら、生成されたデータに近いデノナイジングチェーンの終端で、訓練済みの知識を保持するように微調整モデルを奨励する。 我々は,Diff-Tuningを評価するための総合的な実験を行い,事前学習した拡散変圧器モデルを下流8世代に移行し,安定拡散を制御ネットを用いた5つの制御条件に適応させる。 Diff-Tuningは標準的な微調整よりも26%改善され、ControlNetの収束速度が24%向上した。 特に拡散モデルに対するパラメータ効率のよい伝達学習技術はディフチューニングの恩恵を受けることができる。

Diffusion models have significantly advanced the field of generative modeling. However, training a diffusion model is computationally expensive, creating a pressing need to adapt off-the-shelf diffusion models for downstream generation tasks. Current fine-tuning methods focus on parameter-efficient transfer learning but overlook the fundamental transfer characteristics of diffusion models. In this paper, we investigate the transferability of diffusion models and observe a monotonous chain of forgetting trend of transferability along the reverse process. Based on this observation and novel theoretical insights, we present Diff-Tuning, a frustratingly simple transfer approach that leverages the chain of forgetting tendency. Diff-Tuning encourages the fine-tuned model to retain the pre-trained knowledge at the end of the denoising chain close to the generated data while discarding the other noise side. We conduct comprehensive experiments to evaluate Diff-Tuning, including the transfer of pre-trained Diffusion Transformer models to eight downstream generations and the adaptation of Stable Diffusion to five control conditions with ControlNet. Diff-Tuning achieves a 26% improvement over standard fine-tuning and enhances the convergence speed of ControlNet by 24%. Notably, parameter-efficient transfer learning techniques for diffusion models can also benefit from Diff-Tuning.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# 制約付き適応アタック: タブラルデータに対するディープニューラルネットワークに対する効果的なアタック

Constrained Adaptive Attack: Effective Adversarial Attack Against Deep Neural Networks for Tabular Data ( http://arxiv.org/abs/2406.00775v1 )

ライセンス: Link先を確認
Thibault Simonetto, Salah Ghamizi, Maxime Cordy, (参考訳) 表形式のデータに対する最先端のディープラーニングモデルは、最近、産業環境にデプロイされる許容可能なパフォーマンスを達成した。 しかし、これらのモデルの堅牢性はいまだにほとんど調査されていない。 コンピュータビジョンとは対照的に、分類的特徴、不変性、特徴関係制約などの表層データ固有の性質により、表層モデルの敵対的ロバスト性を適切に評価する効果的な攻撃は存在しない。 このギャップを埋めるために、我々はまず、適応的なメカニズムで既存の勾配攻撃の失敗を克服する勾配攻撃であるCAPGDを提案する。 この新たな攻撃はパラメータチューニングを必要とせず、以前の勾配攻撃と比較して最大81%の精度を低下させる。 第2に、CAPGD攻撃とMOEVAを併用した効率的な回避攻撃であるCAAを設計する。 5つのアーキテクチャと4つの重要なユースケースに対する攻撃の有効性を実証する。 実証実験により、CAAは20設定で17件の既存攻撃より優れており、MOEVAの最大5倍の精度で、CAPGDとMOEVAと比較して96.1%、21.9%の精度で精度が低下していることが示された。 新たな攻撃の有効性と効率を考えると、タブ型機械学習における新しい防御や堅牢なアーキテクチャの最小限のテストになるべきだ、と私たちは主張する。

State-of-the-art deep learning models for tabular data have recently achieved acceptable performance to be deployed in industrial settings. However, the robustness of these models remains scarcely explored. Contrary to computer vision, there are no effective attacks to properly evaluate the adversarial robustness of deep tabular models due to intrinsic properties of tabular data, such as categorical features, immutability, and feature relationship constraints. To fill this gap, we first propose CAPGD, a gradient attack that overcomes the failures of existing gradient attacks with adaptive mechanisms. This new attack does not require parameter tuning and further degrades the accuracy, up to 81% points compared to the previous gradient attacks. Second, we design CAA, an efficient evasion attack that combines our CAPGD attack and MOEVA, the best search-based attack. We demonstrate the effectiveness of our attacks on five architectures and four critical use cases. Our empirical study demonstrates that CAA outperforms all existing attacks in 17 over the 20 settings, and leads to a drop in the accuracy by up to 96.1% points and 21.9% points compared to CAPGD and MOEVA respectively while being up to five times faster than MOEVA. Given the effectiveness and efficiency of our new attacks, we argue that they should become the minimal test for any new defense or robust architectures in tabular machine learning.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# セマンティックセグメンテーションのためのブリッジ領域ギャップの拡散特性

Diffusion Features to Bridge Domain Gap for Semantic Segmentation ( http://arxiv.org/abs/2406.00777v1 )

ライセンス: Link先を確認
Yuxiang Ji, Boyong He, Chenyuan Qu, Zhuoyue Tan, Chuan Qin, Liaoni Wu, (参考訳) 事前学習された拡散モデルは、カスタマイズ可能なプロンプトを持つ広範囲のシナリオで画像の合成に顕著な習熟性を示し、普遍的な特徴を捉えるのに有効な能力を示している。 そこで本研究では,拡散モデルに埋め込まれた暗黙の知識を活用し,ドメイン間セマンティックセグメンテーションの課題に対処する。 本稿では, 拡散モデルの特徴を効率的に活用するために, サンプリングおよび融合技術を活用するアプローチについて検討する。 先行研究によって特徴づけられる単純なマイグレーションアプリケーションとは対照的に,拡散モデルに固有の多段階拡散プロセスがより堅牢な意味的特徴を示すことが明らかとなった。 拡散過程を通じて効果的な意味表現を抽出・統合するためのバックボーンとして拡散特徴融合(DIFF)を提案する。 テキスト・画像生成能力の強みを生かして、暗黙的に後部知識を学習する新しいトレーニングフレームワークを導入する。 ドメイン一般化セマンティックセグメンテーションの文脈における厳密な評価により、我々の手法は異なるドメイン間での相違を緩和し、SOTA(State-of-the-art)ベンチマークを達成している。 合成-実-実-実-実-実-実-の文脈では、ResNetベースのバックボーン法とトランスフォーマーベースのバックボーン法を著しく上回り、様々なデータセットで平均3.84\%のmIoUを達成している。 実装コードはまもなくリリースされる予定だ。

Pre-trained diffusion models have demonstrated remarkable proficiency in synthesizing images across a wide range of scenarios with customizable prompts, indicating their effective capacity to capture universal features. Motivated by this, our study delves into the utilization of the implicit knowledge embedded within diffusion models to address challenges in cross-domain semantic segmentation. This paper investigates the approach that leverages the sampling and fusion techniques to harness the features of diffusion models efficiently. Contrary to the simplistic migration applications characterized by prior research, our finding reveals that the multi-step diffusion process inherent in the diffusion model manifests more robust semantic features. We propose DIffusion Feature Fusion (DIFF) as a backbone use for extracting and integrating effective semantic representations through the diffusion process. By leveraging the strength of text-to-image generation capability, we introduce a new training framework designed to implicitly learn posterior knowledge from it. Through rigorous evaluation in the contexts of domain generalization semantic segmentation, we establish that our methodology surpasses preceding approaches in mitigating discrepancies across distinct domains and attains the state-of-the-art (SOTA) benchmark. Within the synthetic-to-real (syn-to-real) context, our method significantly outperforms ResNet-based and transformer-based backbone methods, achieving an average improvement of $3.84\%$ mIoU across various datasets. The implementation code will be released soon.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# マルチビュー学習のためのベイズ結合付加因子モデル

Bayesian Joint Additive Factor Models for Multiview Learning ( http://arxiv.org/abs/2406.00778v1 )

ライセンス: Link先を確認
Niccolo Anceschi, Federico Ferrari, David B. Dunson, Himel Mallick, (参考訳) 同じサンプルセット上で複数の異なるタイプのデータを収集する、さまざまな適用設定では、ますます一般的になっています。 この記事では、このようなマルチビュー機能と応答の関係を研究することに焦点を当てます。 マルチオミクスデータが収集され、臨床結果と相関する精度医学の文脈でモチベーション応用が生じる。 マルチモーダル情報を組み合わせて結果の予測を改善することで、ビュー内およびビュー間の依存性を推測することに興味がある。 信号と雑音の比はビューによって大きく異なり、標準の後期と初期の融合を超えて、より微妙な統計ツールを動機付けている。 この課題は、解釈可能性を維持し、特徴を選択し、正確な不確実性定量化を得る必要がある。 本稿では,共有およびビュー固有のコンポーネントを考慮に入れた,構造化された付加的設計を伴うJAFAR(Joint Additive Factor regression model)を提案する。 我々は、新しい依存的累積収縮過程(D-CUSP)による識別可能性を確保する。 部分的に崩壊したGibbsサンプルラを通じて効率的な実装を提供し、フレキシブルな特徴分布と結果分布を実現するために我々のアプローチを拡張します。 免疫,メタボローム,プロテオームデータから得られた時間とラベルの発症の予測は,最先端の競合相手に対するパフォーマンス向上を示す。 私たちのオープンソースソフトウェア(Rパッケージ)はhttps://github.com/niccoloanceschi/jafar.comで公開されています。

It is increasingly common in a wide variety of applied settings to collect data of multiple different types on the same set of samples. Our particular focus in this article is on studying relationships between such multiview features and responses. A motivating application arises in the context of precision medicine where multi-omics data are collected to correlate with clinical outcomes. It is of interest to infer dependence within and across views while combining multimodal information to improve the prediction of outcomes. The signal-to-noise ratio can vary substantially across views, motivating more nuanced statistical tools beyond standard late and early fusion. This challenge comes with the need to preserve interpretability, select features, and obtain accurate uncertainty quantification. We propose a joint additive factor regression model (JAFAR) with a structured additive design, accounting for shared and view-specific components. We ensure identifiability via a novel dependent cumulative shrinkage process (D-CUSP) prior. We provide an efficient implementation via a partially collapsed Gibbs sampler and extend our approach to allow flexible feature and outcome distributions. Prediction of time-to-labor onset from immunome, metabolome, and proteome data illustrates performance gains against state-of-the-art competitors. Our open-source software (R package) is available at https://github.com/niccoloanceschi/jafar.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# 多目的データ駆動決定パイプラインの微分

Differentiation of Multi-objective Data-driven Decision Pipeline ( http://arxiv.org/abs/2406.00779v1 )

ライセンス: Link先を確認
Peng Li, Lixia Wu, Chaoqun Feng, Haoyuan Hu, Lei Fu, Jieping Ye, (参考訳) 実世界のシナリオは、しばしば、未知の問題係数と複数の矛盾する目的によって特徴づけられる多目的データ駆動最適化問題を含む。 従来の2段階の手法では、機械学習モデルを独立に応用して問題係数を推定し、続いて予測された最適化問題に取り組むためにソルバを呼び出す。 最適化解法と予測モデルの独立利用は、目的間のミスマッチにより、最適以下の性能をもたらす可能性がある。 近年の取り組みは、下流最適化問題から導かれる意思決定損失を用いた予測モデルのエンドツーエンドトレーニングに重点を置いている。 しかし、これらの手法は主に単目的最適化の問題に焦点を合わせており、適用性は制限されている。 我々は,このギャップに対処する多目的意思決定型アプローチを提案する。 多目的最適化問題の本質的特性と整合性を持たせるために,新しい損失関数のセットを提案する。 これらの損失関数は、それぞれが解決空間、目的空間、決定品質、命名された景観損失、パレートセット損失、決定損失を考慮して、予測された決定問題と真の決定問題の相違を捉えるように設計されている。 実験結果から,提案手法は従来の2段階法や現行の意思決定手法よりも有意に優れていた。

Real-world scenarios frequently involve multi-objective data-driven optimization problems, characterized by unknown problem coefficients and multiple conflicting objectives. Traditional two-stage methods independently apply a machine learning model to estimate problem coefficients, followed by invoking a solver to tackle the predicted optimization problem. The independent use of optimization solvers and prediction models may lead to suboptimal performance due to mismatches between their objectives. Recent efforts have focused on end-to-end training of predictive models that use decision loss derived from the downstream optimization problem. However, these methods have primarily focused on single-objective optimization problems, thus limiting their applicability. We aim to propose a multi-objective decision-focused approach to address this gap. In order to better align with the inherent properties of multi-objective optimization problems, we propose a set of novel loss functions. These loss functions are designed to capture the discrepancies between predicted and true decision problems, considering solution space, objective space, and decision quality, named landscape loss, Pareto set loss, and decision loss, respectively. Our experimental results demonstrate that our proposed method significantly outperforms traditional two-stage methods and most current decision-focused methods.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# 下流タスクにおける内在的デバイアスの適用:機械翻訳の課題と考察

Applying Intrinsic Debiasing on Downstream Tasks: Challenges and Considerations for Machine Translation ( http://arxiv.org/abs/2406.00787v1 )

ライセンス: Link先を確認
Bar Iluz, Yanai Elazar, Asaf Yehudai, Gabriel Stanovsky, (参考訳) ほとんどの研究は、本質的なバイアスに焦点を当てており、モデルの内部表現から保護されたグループに関する情報の痕跡を取り除く。 しかし、これらの作品はしばしば下流のアプリケーションに対するデバイアスの影響から切り離され、これはそもそもデバイアスの主な動機である。 本研究では, 内在的デバイアスの手法がニューラルマシン翻訳モデルにどう影響するかを, 設計選択の異なるシステムにおける外在的バイアスを測定することによって, 系統的に検証する。 我々は,デバイアスの技法と,デバイアスへの埋め込みの選択,単語とサブワードトークンのミスマッチ,および異なるターゲット言語に対する影響の3つの課題とミスマッチを強調した。 これらの考慮は、下流のパフォーマンスとデバイアスの成功に大きな影響を与えている。

Most works on gender bias focus on intrinsic bias -- removing traces of information about a protected group from the model's internal representation. However, these works are often disconnected from the impact of such debiasing on downstream applications, which is the main motivation for debiasing in the first place. In this work, we systematically test how methods for intrinsic debiasing affect neural machine translation models, by measuring the extrinsic bias of such systems under different design choices. We highlight three challenges and mismatches between the debiasing techniques and their end-goal usage, including the choice of embeddings to debias, the mismatch between words and sub-word tokens debiasing, and the effect on different target languages. We find that these considerations have a significant impact on downstream performance and the success of debiasing.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# Ensembleデータクリーニング手法を用いた効率的なコーパスの開発

Developing an efficient corpus using Ensemble Data cleaning approach ( http://arxiv.org/abs/2406.00789v1 )

ライセンス: Link先を確認
Md Taimur Ahad, (参考訳) 自然言語処理(NLP)が情報検索に限られた時間で大量のテキスト医療データを処理しているにもかかわらず、新しいデータクリーニング手法の解明にいくつかの研究努力が注がれている。 NLPのデータクリーニングは、検証された情報を抽出する中心点である。 NLPドメインのもう1つの観察された制限は、与えられた医学的問題に対する回答を提供する限られた医療コーパスを持つことである。 本研究は,2つの視点から限界と課題を把握し,アンサンブル技術を用いて医療データセットをクリーン化し,コーパスを開発することを目的とする。 コーパスは、コーパスシーケンスのセマンティックな関係に基づいて、その質問に答えることを期待している。 しかし,本研究におけるデータクリーニング手法は,ベクトル化,探索データ解析,ベクトル化データの供給を含む単一プロセスと比較して,最も精度が高い(94%)ことを示唆している。 適切なコーパスを持つための第2の目的は、データセットから回答を抽出することで実現された。 この研究は、機械学習、特にデータのクリーニングと医療分野において重要であるが、医療分野におけるNLPの重要性も強調している。 画像データなどの貴重な情報を抽出する強力なツールとして,NLPを用いたテキストデータ処理を確立する。

Despite the observable benefit of Natural Language Processing (NLP) in processing a large amount of textual medical data within a limited time for information retrieval, a handful of research efforts have been devoted to uncovering novel data-cleaning methods. Data cleaning in NLP is at the centre point for extracting validated information. Another observed limitation in the NLP domain is having limited medical corpora that provide answers to a given medical question. Realising the limitations and challenges from two perspectives, this research aims to clean a medical dataset using ensemble techniques and to develop a corpus. The corpora expect that it will answer the question based on the semantic relationship of corpus sequences. However, the data cleaning method in this research suggests that the ensemble technique provides the highest accuracy (94%) compared to the single process, which includes vectorisation, exploratory data analysis, and feeding the vectorised data. The second aim of having an adequate corpus was realised by extracting answers from the dataset. This research is significant in machine learning, specifically data cleaning and the medical sector, but it also underscores the importance of NLP in the medical field, where accurate and timely information extraction can be a matter of life and death. It establishes text data processing using NLP as a powerful tool for extracting valuable information like image data.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# マシン知覚のためのポイントクラウド圧縮に向けて:Octree Depth Level Predictorを学習したシンプルで強力なベースライン

Towards Point Cloud Compression for Machine Perception: A Simple and Strong Baseline by Learning the Octree Depth Level Predictor ( http://arxiv.org/abs/2406.00791v1 )

ライセンス: Link先を確認
Lei Liu, Zhihao Hu, Zhenghao Chen, (参考訳) ポイントクラウド圧縮はコンピュータビジョンに対する大きな関心を集めている。 しかし、既存のアルゴリズムは主に人間の視覚に向いており、ほとんどのポイントクラウドデータはマシンビジョンのタスクに利用される。 これを解決するために,人間と機械の両方の視覚タスクを同時に処理するポイントクラウド圧縮フレームワークを提案する。 我々のフレームワークは、異なるマシンビジョンタスクのサブセットのみを使用して、ビットレートを節約し、人間のビジョンタスクに全ビットストリームを使用しながら、スケーラブルなビットストリームを学習する。 VoxelContext-Net, OctAttention, G-PCCといった主流のオクツリーベースのフレームワークをベースとして,新しいオクツリー深さレベルの予測器を導入する。 この予測器は、ポイントクラウドから構築された各オクツリーの最適深さレベルを適応的に決定し、マシンビジョンタスクのビットレートを制御する。 単純なタスク(\textit{e g }, classification)やオブジェクト/scenariosでは、ビット数が少なく、ビットレートを節約します。 逆に、より複雑なタスク (\textit{e.g}) に対して。 セグメンテーション)またはオブジェクト/scenariosでは、パフォーマンスを高めるために、より多くのビットを持つ深度レベルを使用します。 各種データセットの実験結果(\textit{e.g}) ModelNet10、ModelNet40、ShapeNet、ScanNet、KITTIは、私たちのポイントクラウド圧縮アプローチが、人間の視覚品質を損なうことなく、マシンビジョンタスクのパフォーマンスを改善することを示しています。

Point cloud compression has garnered significant interest in computer vision. However, existing algorithms primarily cater to human vision, while most point cloud data is utilized for machine vision tasks. To address this, we propose a point cloud compression framework that simultaneously handles both human and machine vision tasks. Our framework learns a scalable bit-stream, using only subsets for different machine vision tasks to save bit-rate, while employing the entire bit-stream for human vision tasks. Building on mainstream octree-based frameworks like VoxelContext-Net, OctAttention, and G-PCC, we introduce a new octree depth-level predictor. This predictor adaptively determines the optimal depth level for each octree constructed from a point cloud, controlling the bit-rate for machine vision tasks. For simpler tasks (\textit{e.g.}, classification) or objects/scenarios, we use fewer depth levels with fewer bits, saving bit-rate. Conversely, for more complex tasks (\textit{e.g}., segmentation) or objects/scenarios, we use deeper depth levels with more bits to enhance performance. Experimental results on various datasets (\textit{e.g}., ModelNet10, ModelNet40, ShapeNet, ScanNet, and KITTI) show that our point cloud compression approach improves performance for machine vision tasks without compromising human vision quality.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# グラフカラー化のためのQuditインスパイアされた最適化

Qudit inspired optimization for graph coloring ( http://arxiv.org/abs/2406.00792v1 )

ライセンス: Link先を確認
David Jansen, Timothy Heightman, Luke Mortimer, Ignacio Perito, Antonio Acín, (参考訳) グラフ色問題(GCP)の量子インスパイアされたアルゴリズムを導入し,各キューディットはグラフ内のノードを表し,d次元球面座標でパラメータ化される。 そこで我々は,QdGD (qudit gradient descent) とQdGD (qudit Local quantum annealing) の2つの最適化手法を提案する。 我々の手法は、標準GCPの確立したソリューションに対してベンチマークを行い、我々の手法が競合するだけでなく、最近の最先端アルゴリズムの性能を、ソリューションの品質と計算効率の点で上回っていることを示す。 我々のアルゴリズムの適応性とその高品質なソリューションは、最小限の計算資源で達成され、量子インスパイアされた最適化の分野の進歩を示し、潜在的な応用は幅広い最適化問題にまで拡張された。

We introduce a quantum-inspired algorithm for Graph Coloring Problems (GCPs) that utilizes qudits in a product state, with each qudit representing a node in the graph and parameterized by d-dimensional spherical coordinates. We propose and benchmark two optimization strategies: qudit gradient descent (QdGD), initiating qudits in random states and employing gradient descent to minimize a cost function, and qudit local quantum annealing (QdLQA), which adapts the local quantum annealing method to optimize an adiabatic transition from a tractable initial function to a problem-specific cost function. Our approaches are benchmarked against established solutions for standard GCPs, showing that our methods not only rival but frequently surpass the performance of recent state-of-the-art algorithms in terms of solution quality and computational efficiency. The adaptability of our algorithm and its high-quality solutions, achieved with minimal computational resources, point to an advancement in the field of quantum-inspired optimization, with potential applications extending to a broad spectrum of optimization problems.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# 大規模言語モデルにおける文脈学習はベイズ的か? : Martingale の視点から

Is In-Context Learning in Large Language Models Bayesian? A Martingale Perspective ( http://arxiv.org/abs/2406.00793v1 )

ライセンス: Link先を確認
Fabian Falck, Ziyu Wang, Chris Holmes, (参考訳) In-context Learning (ICL)は、LLM(Large Language Models)の特に顕著な特徴として現れており、事前訓練されたLLMと観測されたデータセットが与えられた場合、LLMは微調整なしで同じ分布から新しいデータポイントを予測できる。 多くの研究がICLをベイズ予想に当てはめており、これは自然な仮説である。 本研究では,この仮説を,交換可能なデータに対するベイズ学習システムの基本的要件であるマルティンゲール特性を通じて,新たな角度から解析する。 本研究は, マルティンゲール特性が, このようなシナリオにおける不明瞭な予測に必要な条件であることを示し, 信頼性の高い安全クリティカルシステムにおいて, 不確実性の概念を原則的に分解することを可能にした。 我々は、マーチンゲールの性質が満たされれば保持しなければならない、対応する理論とテスト統計を伴う実行可能なチェックを導出する。 また,LLMにおける不確実性がベイズ学習で期待されるように減少するかどうかについても検討した。 3つの実験において、マルティンゲールの性質に違反する証拠と、不確実性のベイズ的スケーリング行動からの逸脱が示され、ICCがベイズ的であるという仮説が定まる。

In-context learning (ICL) has emerged as a particularly remarkable characteristic of Large Language Models (LLM): given a pretrained LLM and an observed dataset, LLMs can make predictions for new data points from the same distribution without fine-tuning. Numerous works have postulated ICL as approximately Bayesian inference, rendering this a natural hypothesis. In this work, we analyse this hypothesis from a new angle through the martingale property, a fundamental requirement of a Bayesian learning system for exchangeable data. We show that the martingale property is a necessary condition for unambiguous predictions in such scenarios, and enables a principled, decomposed notion of uncertainty vital in trustworthy, safety-critical systems. We derive actionable checks with corresponding theory and test statistics which must hold if the martingale property is satisfied. We also examine if uncertainty in LLMs decreases as expected in Bayesian learning when more data is observed. In three experiments, we provide evidence for violations of the martingale property, and deviations from a Bayesian scaling behaviour of uncertainty, falsifying the hypothesis that ICL is Bayesian.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# PruNeRF:3次元空間一貫性によるセグメント中心データプルーニング

PruNeRF: Segment-Centric Dataset Pruning via 3D Spatial Consistency ( http://arxiv.org/abs/2406.00798v1 )

ライセンス: Link先を確認
Yeonsung Jung, Heecheol Yun, Joonhyung Park, Jin-Hwa Kim, Eunho Yang, (参考訳) ニューラル・ラジアンス・フィールド(NeRF)は3Dシーンの学習において顕著な性能を示した。 予想外の物体は、歩行者や鳥などの移動物体など特定の視点にしか存在しない。 データセット構築中に気を散らすものを除くことは簡単な解決策だが、それらのタイプや量に関する事前の知識がなければ、違法に高価になる。 本稿では,3次元空間整合性によるセグメント中心のデータセット解析フレームワークであるPruNeRFを提案する。 まず,画素単位の歪みを測定するための既存の指標について検討し,より正確な測定を行うためのインフルエンス関数を導入する。 そこで,深度に基づく再投射手法を用いて3次元空間整合性の評価を行い,その3次元空間整合性について検討した。 さらに,ピクセル・ツー・セグメンテーションのためのセグメンテーションを組み込み,より正確な識別を可能にする。 ベンチマークデータセットを用いた実験により、PruNeRFは邪魔者に対するロバスト性において、最先端の手法よりも一貫して優れていることが示された。

Neural Radiance Fields (NeRF) have shown remarkable performance in learning 3D scenes. However, NeRF exhibits vulnerability when confronted with distractors in the training images -- unexpected objects are present only within specific views, such as moving entities like pedestrians or birds. Excluding distractors during dataset construction is a straightforward solution, but without prior knowledge of their types and quantities, it becomes prohibitively expensive. In this paper, we propose PruNeRF, a segment-centric dataset pruning framework via 3D spatial consistency, that effectively identifies and prunes the distractors. We first examine existing metrics for measuring pixel-wise distraction and introduce Influence Functions for more accurate measurements. Then, we assess 3D spatial consistency using a depth-based reprojection technique to obtain 3D-aware distraction. Furthermore, we incorporate segmentation for pixel-to-segment refinement, enabling more precise identification. Our experiments on benchmark datasets demonstrate that PruNeRF consistently outperforms state-of-the-art methods in robustness against distractors.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# まだ軌道にいるの? LLM Task Drift と Activations を併用して

Are you still on track!? Catching LLM Task Drift with Activations ( http://arxiv.org/abs/2406.00799v1 )

ライセンス: Link先を確認
Sahar Abdelnabi, Aideen Fay, Giovanni Cherubin, Ahmed Salem, Mario Fritz, Andrew Paverd, (参考訳) 大規模言語モデル(LLM)は、ユーザや他のソースからの入力を処理したり、タスクを編成したりするための検索拡張されたアプリケーションで日常的に使用される。 これらの入力は、単一のLLM相互作用であっても、様々な信頼性と証明性の様々なソースから得ることができる。 これにより、LDMがデータのみのソースからの命令を受け取り、動作させるようなインジェクション攻撃を誘導する扉が開き、ユーザーの元の命令から逸脱する。 我々はこれをタスクドリフトと定義し、LCMのアクティベーションをスキャンして解析することでこれをキャッチすることを提案する。 我々は、この入力が命令ドリフトを引き起こしたかどうかを検出するために、外部入力の処理前後のLCMのアクティベーションを比較した。 我々は2つの探索法を開発し, 線形分類器を用いることで, 分布外テストセット上で, ほぼ完全なROC AUCでドリフトを検出することができることを確認した。 このアプローチは、これらの攻撃に対してトレーニングを受けることなく、インジェクションやジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化することを示す。 私たちのセットアップでは、LCM(例えば微調整)やテキスト生成を一切必要とせず、デプロイ性とコスト効率を最大化し、信頼性の低いモデル出力に依存しないようにしています。 アクティベーションベースのタスクインスペクション、デコード、解釈可能性に関する今後の研究を促進するため、500K以上のインスタンスのデータセット、4つのSoTA言語モデルからの表現、検査ツールを含む大規模なTaskTrackerツールキットをリリースする。

Large Language Models (LLMs) are routinely used in retrieval-augmented applications to orchestrate tasks and process inputs from users and other sources. These inputs, even in a single LLM interaction, can come from a variety of sources, of varying trustworthiness and provenance. This opens the door to prompt injection attacks, where the LLM receives and acts upon instructions from supposedly data-only sources, thus deviating from the user's original instructions. We define this as task drift, and we propose to catch it by scanning and analyzing the LLM's activations. We compare the LLM's activations before and after processing the external input in order to detect whether this input caused instruction drift. We develop two probing methods and find that simply using a linear classifier can detect drift with near perfect ROC AUC on an out-of-distribution test set. We show that this approach generalizes surprisingly well to unseen task domains, such as prompt injections, jailbreaks, and malicious instructions, without being trained on any of these attacks. Our setup does not require any modification of the LLM (e.g., fine-tuning) or any text generation, thus maximizing deployability and cost efficiency and avoiding reliance on unreliable model output. To foster future research on activation-based task inspection, decoding, and interpretability, we will release our large-scale TaskTracker toolkit, comprising a dataset of over 500K instances, representations from 4 SoTA language models, and inspection tools.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# MagR:ポストトレーニング量子化の強化のための軽量マグニチュード削減

MagR: Weight Magnitude Reduction for Enhancing Post-Training Quantization ( http://arxiv.org/abs/2406.00800v1 )

ライセンス: Link先を確認
Aozhong Zhang, Naigang Wang, Yanxia Deng, Xin Li, Zi Yang, Penghang Yin, (参考訳) 本稿では,ポストトレーニング量子化の性能を向上させるために,軽量マグニチュード削減(MagR)と呼ばれる単純な最適化に基づく前処理手法を提案する。 各線形層に対して、$\ell_\infty$-regularized optimization 問題を解くことにより、事前訓練された浮動小数点重みを調整する。 このプロセスは、重みの最大等級を著しく減らし、層の出力を保ちながら、外層を滑らかにする。 事前処理された重みはゼロに向けられ、その後の量子化プロセスが促進される。 MagRを実装するために、効率的な近位勾配降下アルゴリズムを用いて$\ell_\infty$-regularizationを提案する。 線形変換やその後の後処理ステップを含む既存の前処理方法とは異なり、MagRは非線形変換として機能し、追加の後処理は不要である。 これにより、MagRは推論時に何のオーバーヘッドも導入しない。 実験により,MagRはLlamaファミリーのモデル上で最先端の性能を達成することを示した。 例えば、LLaMA2-70Bモデル上でWikitext2のパープレキシティを5.95で実現し、チャネルごとのINT2重み量子化を行う。

In this paper, we present a simple optimization-based preprocessing technique called Weight Magnitude Reduction (MagR) to improve the performance of post-training quantization. For each linear layer, we adjust the pre-trained floating-point weights by solving an $\ell_\infty$-regularized optimization problem. This process greatly diminishes the maximum magnitude of the weights and smooths out outliers, while preserving the layer's output. The preprocessed weights are centered more towards zero, which facilitates the subsequent quantization process. To implement MagR, we address the $\ell_\infty$-regularization by employing an efficient proximal gradient descent algorithm. Unlike existing preprocessing methods that involve linear transformations and subsequent post-processing steps, which can introduce significant overhead at inference time, MagR functions as a non-linear transformation, eliminating the need for any additional post-processing. This ensures that MagR introduces no overhead whatsoever during inference. Our experiments demonstrate that MagR achieves state-of-the-art performance on the Llama family of models. For example, we achieve a Wikitext2 perplexity of 5.95 on the LLaMA2-70B model for per-channel INT2 weight quantization without incurring any inference overhead.
翻訳日:2024-06-06 03:26:39 公開日:2024-06-02
# ファジィ推論システムに基づく奥行きベクトル関数型ニューラルネットワーク

Ensemble Deep Random Vector Functional Link Neural Network Based on Fuzzy Inference System ( http://arxiv.org/abs/2406.00801v1 )

ライセンス: Link先を確認
M. Sajid, M. Tanveer, P. N. Suganthan, (参考訳) アンサンブルディープランダムベクトル汎関数リンク(edRVFL)ニューラルネットワークは、従来の人工ニューラルネットワークの限界に対処する能力を示した。 しかし、EDRVFLはランダムなプロジェクションによって隠れたレイヤーの機能を生成しているため、複雑な機能を失ったり、ベースモデル(隠れた層)の特定の非線形機能をキャプチャできなかったりする可能性がある。 EDRVFLの特徴学習能力を高めるために,ファジィ推論システム(edRVFL-FIS)に基づく新しいEDRVFLを提案する。 提案したEDRVFL-FISは、ファジィ推論システム(FIS)の内在的なIF-THEN特性を用いて、深層学習とアンサンブルアプローチという2つの新興ドメインの機能を活用し、アンサンブルモデルを訓練するためのリッチな特徴表現を生成する。 提案したEDRVFL-FISの各ベースモデルには,2つの重要な機能拡張コンポーネントが含まれている。 a) 教師なしファジィ層の特徴と特徴 b) 監督された解凍特徴 EDRVFL-FISモデルは、様々なクラスタリング手法(R-means, K-means, Fuzzy C-means)を組み込んでファジィ層ルールを確立することで、3つのモデルバリエーション(EDRVFL-FIS-R, edRVFL-FIS-K, edRVFL-FIS-C)を異なるファジィ特徴と解凍特徴を持つ。 EDRVFL-FISのフレームワーク内では、各ベースモデルは元の隠蔽層と解凍した特徴を利用して予測を行う。 UCIおよびNDCデータセット間で行われた実験結果、統計的テスト、議論および分析は、ベースラインモデルよりも提案されたEDRVFL-FISモデルの全バリエーションの優れた性能を一貫して証明している。 提案されたモデルのソースコードはhttps://github.com/mtanveer1/EDRVFL-FISで公開されている。

The ensemble deep random vector functional link (edRVFL) neural network has demonstrated the ability to address the limitations of conventional artificial neural networks. However, since edRVFL generates features for its hidden layers through random projection, it can potentially lose intricate features or fail to capture certain non-linear features in its base models (hidden layers). To enhance the feature learning capabilities of edRVFL, we propose a novel edRVFL based on fuzzy inference system (edRVFL-FIS). The proposed edRVFL-FIS leverages the capabilities of two emerging domains, namely deep learning and ensemble approaches, with the intrinsic IF-THEN properties of fuzzy inference system (FIS) and produces rich feature representation to train the ensemble model. Each base model of the proposed edRVFL-FIS encompasses two key feature augmentation components: a) unsupervised fuzzy layer features and b) supervised defuzzified features. The edRVFL-FIS model incorporates diverse clustering methods (R-means, K-means, Fuzzy C-means) to establish fuzzy layer rules, resulting in three model variations (edRVFL-FIS-R, edRVFL-FIS-K, edRVFL-FIS-C) with distinct fuzzified features and defuzzified features. Within the framework of edRVFL-FIS, each base model utilizes the original, hidden layer and defuzzified features to make predictions. Experimental results, statistical tests, discussions and analyses conducted across UCI and NDC datasets consistently demonstrate the superior performance of all variations of the proposed edRVFL-FIS model over baseline models. The source codes of the proposed models are available at https://github.com/mtanveer1/edRVFL-FIS.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# 木親機における重み等化アルゴリズム

Weight Equalization Algorithm for Tree Parity Machines ( http://arxiv.org/abs/2406.00802v1 )

ライセンス: Link先を確認
Miłosz Stypiński, Marcin Niemiec, (参考訳) 鍵となる合意は、公共ネットワークにおけるセキュアなコミュニケーションを確保する上で重要な役割を担っている。 何年も前に開発されたアルゴリズムは現在も使われているが、量子コンピューティングの出現によって新しい解が探索されるようになった。 ツリーパリティマシンは潜在的な解決策として提案されている。 しかし、それらには固有の欠点があり、そのうちの1つは鍵合意プロセス後に得られた保護鍵の値の不均一な分布であり、特に同期プロセス中にオンバイナリベクトルが使用される場合である。 本稿では,この問題に対処する新しいアルゴリズムを提案する。 その結果, 確保鍵の品質は著しく向上した。

Key agreement plays a crucial role in ensuring secure communication in public networks. Although algorithms developed many years ago are still being used, the emergence of quantum computing has prompted the search for new solutions. Tree parity machines have been put forward as a potential solution. However, they possess inherent shortcomings, one of which is the uneven distribution of values in the secured key obtained after the key agreement process, especially when on-binary vectors are used during the synchronization process. This paper introduces a novel algorithm designed to address this issue. The results demonstrate a substantial enhancement in the quality of the secured key obtained.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# ドメイン逆ニューラルネットワークによる機械学習に基づく蒸発散モデルの補間性向上

Extrapolability Improvement of Machine Learning-Based Evapotranspiration Models via Domain-Adversarial Neural Networks ( http://arxiv.org/abs/2406.00805v1 )

ライセンス: Link先を確認
Haiyang Shi, (参考訳) 機械学習に基づく水文予測モデルは、精度が高いにもかかわらず、不均一なデータ分布のために世界中で適用された場合、外挿能力の制限に直面している。 本研究では,ドメイン逆ニューラルネットワーク(DANN)を統合して,蒸発散(ET)モデルの地理的適応性を向上させる。 DANNを利用することで、異なるサイト間の分散の相違を緩和し、モデル外挿能力を大幅に向上することを目的としている。 その結果,従来のLeave-One-Out(LOO)法と比較して,Kling-Gupta効率(KGE)は0.2~0.3に向上し,ET予測精度が向上した。 DANNは、バイオマス間の分離されたサイトや移行ゾーンに対して特に有効であり、データの分散の相違を低減し、低精度の予測を避ける。 データ豊富な地域からの情報を活用することで、DANNはグローバルスケールET製品の信頼性を高める。 本研究では,水文科学における機械学習モデルの外挿・一般化能力を向上させるための領域適応手法の可能性を明らかにする。

Machine learning-based hydrological prediction models, despite their high accuracy, face limitations in extrapolation capabilities when applied globally due to uneven data distribution. This study integrates Domain-Adversarial Neural Networks (DANN) to improve the geographical adaptability of evapotranspiration (ET) models. By employing DANN, we aim to mitigate distributional discrepancies between different sites, significantly enhancing the model's extrapolation capabilities. Our results show that DANN improves ET prediction accuracy with an average increase in the Kling-Gupta Efficiency (KGE) of 0.2 to 0.3 compared to the traditional Leave-One-Out (LOO) method. DANN is particularly effective for isolated sites and transition zones between biomes, reducing data distribution discrepancies and avoiding low-accuracy predictions. By leveraging information from data-rich areas, DANN enhances the reliability of global-scale ET products, especially in ungauged regions. This study highlights the potential of domain adaptation techniques to improve the extrapolation and generalization capabilities of machine learning models in hydrological studies.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# アウト・オブ・ディストリビューション検出のための大規模言語モデルによるアウトレイラ露光の予測

Envisioning Outlier Exposure by Large Language Models for Out-of-Distribution Detection ( http://arxiv.org/abs/2406.00806v1 )

ライセンス: Link先を確認
Chentao Cao, Zhun Zhong, Zhanke Zhou, Yang Liu, Tongliang Liu, Bo Han, (参考訳) オープンワールドシナリオに機械学習モデルをデプロイする際には、アウト・オブ・ディストリビューション(OOD)サンプルの検出が不可欠だ。 ゼロショットOOD検出は、CLIPのようなビジョン言語モデルの出現により、ID(In-distriion)データのトレーニングを必要としない。 既存のメソッドは、クローズドセットラベルのみを持つテキストベースの分類器を構築する。 しかし、これはCLIPが大規模でオープンなラベル空間からサンプルを認識する能力に大きく制限されている。 本稿では,大規模言語モデル(LLM)の専門知識と推論能力を活用して,実際のOODデータにアクセスすることなく,EOEと呼ばれる潜在的な外部被曝を予測し,この制約に対処することを提案する。 オープンワールドシナリオへの適応性の向上により、EOEは、遠く、近く、きめ細かいOOD検出など、さまざまなタスクに一般化することができる。 技術的には, (1) LLMプロンプトは視覚的類似性に基づいて, OOD検出に特化している可能性のあるアウトリーチクラスラベルを生成するとともに, (2) ハードなOODサンプルを効果的に識別するために, 潜在的なアウトリーチペナルティに基づく新たなスコア関数を設計する。 実証的には、EOEは異なるOODタスク間で最先端のパフォーマンスを達成し、ImageNet-1Kデータセットに効果的にスケールすることができる。 コードは、https://github.com/tmlr-group/EOEで公開されている。

Detecting out-of-distribution (OOD) samples is essential when deploying machine learning models in open-world scenarios. Zero-shot OOD detection, requiring no training on in-distribution (ID) data, has been possible with the advent of vision-language models like CLIP. Existing methods build a text-based classifier with only closed-set labels. However, this largely restricts the inherent capability of CLIP to recognize samples from large and open label space. In this paper, we propose to tackle this constraint by leveraging the expert knowledge and reasoning capability of large language models (LLM) to Envision potential Outlier Exposure, termed EOE, without access to any actual OOD data. Owing to better adaptation to open-world scenarios, EOE can be generalized to different tasks, including far, near, and fine-grained OOD detection. Technically, we design (1) LLM prompts based on visual similarity to generate potential outlier class labels specialized for OOD detection, as well as (2) a new score function based on potential outlier penalty to distinguish hard OOD samples effectively. Empirically, EOE achieves state-of-the-art performance across different OOD tasks and can be effectively scaled to the ImageNet-1K dataset. The code is publicly available at: https://github.com/tmlr-group/EOE.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# EchoNet-Synthetic:安全な医療データ共有のためのプライバシー保護ビデオ生成

EchoNet-Synthetic: Privacy-preserving Video Generation for Safe Medical Data Sharing ( http://arxiv.org/abs/2406.00808v1 )

ライセンス: Link先を確認
Hadrien Reynaud, Qingjie Meng, Mischa Dombrowski, Arijit Ghosh, Thomas Day, Alberto Gomez, Paul Leeson, Bernhard Kainz, (参考訳) 患者情報を共有することなく、医療データセットをアクセスできるようにするため、ダイナミックな医用画像データの生成的非特定のための新しいエンドツーエンドアプローチを導入する。 これまで、生成法は、データの完全性、時空間コヒーレンス、生成期間の制約に直面しており、データセットの分布の完全な詳細を把握できなかった。 本稿では,高忠実で長大かつ完全なデータサンプルをほぼリアルタイムに作成するためのモデルを提案する。 本研究では,拡散モデルに基づく生成手法を開発し,医用ビデオデータセットの匿名化のためのプロトコルを提案する。 例として,完全合成でプライバシに適合したエコー心電図データセットであるEchoNet-Syntheticについて紹介する。 特定プロトコルの一部として、生成したデータセットの品質を評価し、広範に使用されているがバイアスのある画像品質指標の上の測定として臨床下流タスクを使用することを提案する。 実験結果から、EchoNet-Syntheticは実際のデータセットに匹敵するデータセット忠実性を達成し、射出分数回帰タスクを効果的にサポートすることが示された。 コード、重み、データセットはhttps://github.com/HReynaud/EchoNet-Synthetic.comで入手できる。

To make medical datasets accessible without sharing sensitive patient information, we introduce a novel end-to-end approach for generative de-identification of dynamic medical imaging data. Until now, generative methods have faced constraints in terms of fidelity, spatio-temporal coherence, and the length of generation, failing to capture the complete details of dataset distributions. We present a model designed to produce high-fidelity, long and complete data samples with near-real-time efficiency and explore our approach on a challenging task: generating echocardiogram videos. We develop our generation method based on diffusion models and introduce a protocol for medical video dataset anonymization. As an exemplar, we present EchoNet-Synthetic, a fully synthetic, privacy-compliant echocardiogram dataset with paired ejection fraction labels. As part of our de-identification protocol, we evaluate the quality of the generated dataset and propose to use clinical downstream tasks as a measurement on top of widely used but potentially biased image quality metrics. Experimental outcomes demonstrate that EchoNet-Synthetic achieves comparable dataset fidelity to the actual dataset, effectively supporting the ejection fraction regression task. Code, weights and dataset are available at https://github.com/HReynaud/EchoNet-Synthetic.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# スパース線形系の反復解に対するグラフニューラルプレコンディショナー

Graph Neural Preconditioners for Iterative Solutions of Sparse Linear Systems ( http://arxiv.org/abs/2406.00809v1 )

ライセンス: Link先を確認
Jie Chen, (参考訳) プレコンディショニングは、科学分野における方程式の大規模でスパースな線形系の反復解の中心である。 行列自身以外の情報にアクセスしない代数的アプローチは広く研究され、使用されているが、不条件行列は非常に難しいままである。 機械学習のアプローチを採用し,汎用プリコンディショナとしてグラフニューラルネットワークを提案する。 悪条件な問題に対して魅力的な性能を示すが、その理由のひとつは、適切に生成されたトレーニングデータから行列逆を近似した方がよいからである。 800以上の行列に対する実証的な評価は、これらのグラフニューラルプレコンディショナー(GNP)の構築時間は、ILUやAMGのような他の広く使われているものよりも予測可能であり、一方、実行時間は、インナーアウターGMRESのようなプリコンディショナーとしてKrylov法を使用するよりも高速であることを示している。 GNPは偏微分方程式だけでなく、経済学、統計学、グラフ、最適化から生じる大規模で挑戦的な代数的問題を解く強力な可能性を持っている。

Preconditioning is at the heart of iterative solutions of large, sparse linear systems of equations in scientific disciplines. Several algebraic approaches, which access no information beyond the matrix itself, are widely studied and used, but ill-conditioned matrices remain very challenging. We take a machine learning approach and propose using graph neural networks as a general-purpose preconditioner. They show attractive performance for ill-conditioned problems, in part because they better approximate the matrix inverse from appropriately generated training data. Empirical evaluation on over 800 matrices suggests that the construction time of these graph neural preconditioners (GNPs) is more predictable than other widely used ones, such as ILU and AMG, while the execution time is faster than using a Krylov method as the preconditioner, such as in inner-outer GMRES. GNPs have a strong potential for solving large-scale, challenging algebraic problems arising from not only partial differential equations, but also economics, statistics, graph, and optimization, to name a few.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# SAE J 1939の攻撃シナリオの拡大:トランスポートプロトコルにおける確立された新しい脆弱性の包括的分析

Expanding the Attack Scenarios of SAE J1939: A Comprehensive Analysis of Established and Novel Vulnerabilities in Transport Protocol ( http://arxiv.org/abs/2406.00810v1 )

ライセンス: Link先を確認
Hwejae Lee, Hyosun Lee, Saehee Jun, Huy Kang Kim, (参考訳) 国連規則の制定後、コントロールエリアネットワーク(CAN)における侵入検知・防止システム(IDPS)と脆弱性分析の実現に向けて、かなりの努力が払われている。 しかし、Society of Automotive Engineers (SAE) J 1939プロトコルは、キャンプカーや商用車両に広く適用されているにもかかわらず、脆弱性の特定が限られており、セキュリティ侵害の場合に重大な安全上の懸念が生じる。 本研究では,SAE J 1939通信プロトコルに特有の攻撃手法を探索し,実証する。 本研究では、14の攻撃シナリオを導入し、前回の調査で認識された7つのシナリオで談話を強化するとともに、精巧な研究を通じて7つの新しいシナリオを提示する。 これらのシナリオの実現可能性を検証するために,リアルタイム通信と攻撃シミュレーションを容易にする高度なテストベッドを利用する。 私たちのテストでは、商業車両の運用に対する差し迫った脅威として、11のシナリオの実行が成功したことを確認しています。 いくつかの攻撃は、単一のメッセージだけを注入するので、検出が難しい。 これらの結果は、SAE J 1939プロトコル内のユニークな脆弱性を強調しており、自動車のサイバーセキュリティコミュニティが特定されたリスクに対処する必要があることを示している。

Following the enactment of the UN Regulation, substantial efforts have been directed toward implementing intrusion detection and prevention systems (IDPSs) and vulnerability analysis in Controller Area Network (CAN). However, Society of Automotive Engineers (SAE) J1939 protocol, despite its extensive application in camping cars and commercial vehicles, has seen limited vulnerability identification, which raises significant safety concerns in the event of security breaches. In this research, we explore and demonstrate attack techniques specific to SAE J1939 communication protocol. We introduce 14 attack scenarios, enhancing the discourse with seven scenarios recognized in the previous research and unveiling seven novel scenarios through our elaborate study. To verify the feasibility of these scenarios, we leverage a sophisticated testbed that facilitates real-time communication and the simulation of attacks. Our testing confirms the successful execution of 11 scenarios, underscoring their imminent threat to commercial vehicle operations. Some attacks will be difficult to detect because they only inject a single message. These results highlight unique vulnerabilities within SAE J1939 protocol, indicating the automotive cybersecurity community needs to address the identified risks.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# 拡散目標生成のための共分散適応シーケンスブラックボックス最適化

Covariance-Adaptive Sequential Black-box Optimization for Diffusion Targeted Generation ( http://arxiv.org/abs/2406.00812v1 )

ライセンス: Link先を確認
Yueming Lyu, Kim Yong Tan, Yew Soon Ong, Ivor W. Tsang, (参考訳) 拡散モデルは、画像、自然言語、タンパク質ドメインなどの高品質なコンテンツを生成する大きな可能性を示している。 しかし,ブラックボックスのターゲットスコアしか持たない拡散モデルを用いて,ユーザ優先のターゲット生成を行う方法はまだ困難である。 この問題に対処するため,我々はまず,事前学習した拡散モデルに付随する目標予備時間確率微分方程式(SDE)の微調整を逐次ブラックボックス最適化問題として定式化する。 さらに、未知の遷移ダイナミクスの下で累積的なブラックボックススコアを最適化する新しい共分散適応逐次最適化アルゴリズムを提案する。 理論的には、滑らかで強凸な仮定を伴わない累積凸函数に対する$O(\frac{d^2}{\sqrt{T}})$収束率を証明する。 実験的に,数値実験問題と目標誘導3次元分子生成タスクの両方に関する実験は,より優れた目標値を得る上で,本手法の優れた性能を示す。

Diffusion models have demonstrated great potential in generating high-quality content for images, natural language, protein domains, etc. However, how to perform user-preferred targeted generation via diffusion models with only black-box target scores of users remains challenging. To address this issue, we first formulate the fine-tuning of the targeted reserve-time stochastic differential equation (SDE) associated with a pre-trained diffusion model as a sequential black-box optimization problem. Furthermore, we propose a novel covariance-adaptive sequential optimization algorithm to optimize cumulative black-box scores under unknown transition dynamics. Theoretically, we prove a $O(\frac{d^2}{\sqrt{T}})$ convergence rate for cumulative convex functions without smooth and strongly convex assumptions. Empirically, experiments on both numerical test problems and target-guided 3D-molecule generation tasks show the superior performance of our method in achieving better target scores.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# サッカー選手のスキル推定における制御とデュエル行動の期待値

Expected Possession Value of Control and Duel Actions for Soccer Player's Skills Estimation ( http://arxiv.org/abs/2406.00814v1 )

ライセンス: Link先を確認
Andrei Shelopugin, (参考訳) サッカー選手のスキルの推定は、スポーツ分析における重要な課題の1つである。 本稿では、選択問題などの重要な課題に対処するため、広く使われているモデル、期待所有値(EPV)に対する複数の拡張を提案する。 まず、撮影直前に発生する事象に対して、先行する事象よりも重みを割り当てる(デカイ効果)。 第2に, 本モデルでは, 減衰効果と有効演奏時間を考慮して, より正確に保持リスクを組み込む。 第3に,空中と地上のデュエルに勝つ個々のプレイヤー能力の評価を統合する。 拡張型EVVモデルを用いて、今後のシーズンの様々なサッカー選手、特に相手の強さを考慮して、この指標を予測する。

Estimation of football players' skills is one of the key tasks in sports analytics. This paper introduces multiple extensions to a widely used model, expected possession value (EPV), to address some key challenges such as selection problem. First, we assign greater weights to events occurring immediately prior to the shot rather than those preceding them (decay effect). Second, our model incorporates possession risk more accurately by considering the decay effect and effective playing time. Third, we integrate the assessment of individual player ability to win aerial and ground duels. Using the extended EPV model, we predict this metric for various football players for the upcoming season, particularly taking into account the strength of their opponents.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# 拡散モデルによる見えないバックドア攻撃

Invisible Backdoor Attacks on Diffusion Models ( http://arxiv.org/abs/2406.00816v1 )

ライセンス: Link先を確認
Sen Li, Junchi Ma, Minhao Cheng, (参考訳) 近年,高画質画像生成の領域において拡散モデルが顕著に成功し,注目度が高まっている。 この関心の高まりは、拡散モデルに関連するセキュリティの脅威に対する懸念の高まりと平行しており、主に悪意ある搾取への感受性に起因する。 特に最近の研究では、バックドア攻撃に対する拡散モデルの脆弱性が明らかになり、対応するトリガを通じて特定のターゲット画像の生成が可能になった。 しかし、一般的なバックドア攻撃法は手作業によるトリガー生成機能に依存しており、しばしば入力ノイズに組み込まれた識別可能なパターンとして現れる。 本稿では,目に見えないトリガの獲得と,挿入されたバックドアのステルスネスとレジリエンスの向上を目的とした,革新的で汎用的な最適化フレームワークを提案する。 提案フレームワークは,非条件拡散モデルと条件拡散モデルの両方に適用可能であり,特に,テキスト誘導画像編集やインペイントパイプラインの文脈における拡散モデルのバックドア化を実証するパイオニアである。 さらに,モデルオーナシップ検証のためのモデル透かしに条件生成のバックドアを直接適用できることを示し,提案フレームワークの重要性をさらに高めている。 様々な一般的なサンプルとデータセットに関する大規模な実験は、提案フレームワークの有効性とステルス性を検証する。 私たちのコードはhttps://github.com/invisibleTriggerDiffusion/invisible_triggers_for_diffusionで公開されています。

In recent years, diffusion models have achieved remarkable success in the realm of high-quality image generation, garnering increased attention. This surge in interest is paralleled by a growing concern over the security threats associated with diffusion models, largely attributed to their susceptibility to malicious exploitation. Notably, recent research has brought to light the vulnerability of diffusion models to backdoor attacks, enabling the generation of specific target images through corresponding triggers. However, prevailing backdoor attack methods rely on manually crafted trigger generation functions, often manifesting as discernible patterns incorporated into input noise, thus rendering them susceptible to human detection. In this paper, we present an innovative and versatile optimization framework designed to acquire invisible triggers, enhancing the stealthiness and resilience of inserted backdoors. Our proposed framework is applicable to both unconditional and conditional diffusion models, and notably, we are the pioneers in demonstrating the backdooring of diffusion models within the context of text-guided image editing and inpainting pipelines. Moreover, we also show that the backdoors in the conditional generation can be directly applied to model watermarking for model ownership verification, which further boosts the significance of the proposed framework. Extensive experiments on various commonly used samplers and datasets verify the efficacy and stealthiness of the proposed framework. Our code is publicly available at https://github.com/invisibleTriggerDiffusion/invisible_triggers_for_diffusion.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# 最適アームの適合条件付きラッソバンド

Lasso Bandit with Compatibility Condition on Optimal Arm ( http://arxiv.org/abs/2406.00823v1 )

ライセンス: Link先を確認
Harin Lee, Taehyun Hwang, Min-hwan Oh, (参考訳) 我々は、文脈特徴のスパース部分のみが期待される報酬関数に影響を与える確率的スパース線形バンドイト問題、すなわち未知の報酬パラメータがスパース構造を持つことを考察する。 既存のラッソ・バンディットの文献では、文脈特徴に対する追加の多様性条件とともに、周囲次元$d$に対数的にのみ依存する後悔境界を達成するために、互換性条件が課される。 本稿では,追加の多様性仮定がなくても,最適アーム上の適合条件は$d$に対数的に依存する後悔境界を導出するのに十分であり,この仮定は単一パラメータ設定の下でラッソ・バンディット文献で用いられるものよりも厳密に弱いことを示す。 本稿では,強制サンプリング手法を適応させるアルゴリズムを提案し,提案アルゴリズムが限界条件下で$O(\text{poly}\log dT)$ regretを達成できることを示す。 我々の知る限り、提案アルゴリズムは1つのパラメータ設定の下で、Lasso banditアルゴリズムの中で最も弱い仮定を必要とし、$O(\text{poly}\log dT)$ regretを達成している。 数値実験により,提案アルゴリズムの優れた性能を確認した。

We consider a stochastic sparse linear bandit problem where only a sparse subset of context features affects the expected reward function, i.e., the unknown reward parameter has sparse structure. In the existing Lasso bandit literature, the compatibility conditions together with additional diversity conditions on the context features are imposed to achieve regret bounds that only depend logarithmically on the ambient dimension $d$. In this paper, we demonstrate that even without the additional diversity assumptions, the compatibility condition only on the optimal arm is sufficient to derive a regret bound that depends logarithmically on $d$, and our assumption is strictly weaker than those used in the lasso bandit literature under the single parameter setting. We propose an algorithm that adapts the forced-sampling technique and prove that the proposed algorithm achieves $O(\text{poly}\log dT)$ regret under the margin condition. To our knowledge, the proposed algorithm requires the weakest assumptions among Lasso bandit algorithms under a single parameter setting that achieve $O(\text{poly}\log dT)$ regret. Through the numerical experiments, we confirm the superior performance of our proposed algorithm.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# ニューラルネットワークによる確率力学系の学習による検証

Learning-Based Verification of Stochastic Dynamical Systems with Neural Network Policies ( http://arxiv.org/abs/2406.00826v1 )

ライセンス: Link先を確認
Thom Badings, Wietze Koops, Sebastian Junges, Nils Jansen, (参考訳) 確率力学系における到達回避制御タスクに対するニューラルネットワークポリシの検証について検討する。 我々は、他のニューラルネットワークをトレーニングする検証手順を使用し、ポリシーがタスクを満足することを示す証明書として機能する。 リーチ回避タスクでは、この認証ネットワークがリーチ回避スーパーマーチンゲール(RASM)であることを示すのに十分である。 主な貢献として、ニューラルネットワークがRASMであることを検証するためのアルゴリズムアプローチを著しく加速します。 これらのアプローチの主なボトルネックは、力学系の状態空間の離散化である。 以下の2つの重要なコントリビューションにより、既存のアプローチよりも粗い離散化が利用できます。 まず、重み付きノルムに基づくニューラルネットワークのリプシッツ定数の厳密な上限を計算する新しい高速な手法を提案する。 証明ネットワークの特性に基づいてリプシッツ定数のこれらの境界をさらに改善する。 第2に、必要なときに状態空間の離散化を動的に洗練する効率的な局所精錬手法を統合する。 実験的な評価は、ニューラルネットワークポリシーを複数のベンチマークで検証し、異なる強化学習アルゴリズムでトレーニングする手法の有効性を示している。

We consider the verification of neural network policies for reach-avoid control tasks in stochastic dynamical systems. We use a verification procedure that trains another neural network, which acts as a certificate proving that the policy satisfies the task. For reach-avoid tasks, it suffices to show that this certificate network is a reach-avoid supermartingale (RASM). As our main contribution, we significantly accelerate algorithmic approaches for verifying that a neural network is indeed a RASM. The main bottleneck of these approaches is the discretization of the state space of the dynamical system. The following two key contributions allow us to use a coarser discretization than existing approaches. First, we present a novel and fast method to compute tight upper bounds on Lipschitz constants of neural networks based on weighted norms. We further improve these bounds on Lipschitz constants based on the characteristics of the certificate network. Second, we integrate an efficient local refinement scheme that dynamically refines the state space discretization where necessary. Our empirical evaluation shows the effectiveness of our approach for verifying neural network policies in several benchmarks and trained with different reinforcement learning algorithms.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# 単一クエリによる画像間変換モデルのステアリング

Stealing Image-to-Image Translation Models With a Single Query ( http://arxiv.org/abs/2406.00828v1 )

ライセンス: Link先を確認
Nurit Spingarn-Eliezer, Tomer Michaeli, (参考訳) ディープニューラルネットワークのトレーニングには、重要な計算リソースと、機密性の高い、あるいは収集に費用がかかる大規模なデータセットが必要である。 その結果、オーナーはAPI経由でのみアクセスできるようにすることでモデルを保護する傾向にある。 多くの研究が、APIを何度も問い合わせることで、そのような保護されたモデルを盗む可能性を実証した。 しかし、これまでは主に分類モデルを盗むことに焦点を当てており、非常に多くのクエリが必要であることが分かってきた。 本稿では,イメージ・ツー・イメージのモデルを盗む可能性について検討する。 驚くべきことに、そのようなモデルの多くは、単純な蒸留を用いて単一の小さなクエリ画像で盗むことができる。 本稿では, この現象を, 様々なモデルアーキテクチャ, データセット, タスクについて検討する。 注目すべきは、攻撃を盗む脆弱性は、CNNや注意機構を持つモデルによって共有されており、ターゲットモデルのアーキテクチャを知らない場合でも、盗むことは一般的に可能であることだ。

Training deep neural networks requires significant computational resources and large datasets that are often confidential or expensive to collect. As a result, owners tend to protect their models by allowing access only via an API. Many works demonstrated the possibility of stealing such protected models by repeatedly querying the API. However, to date, research has predominantly focused on stealing classification models, for which a very large number of queries has been found necessary. In this paper, we study the possibility of stealing image-to-image models. Surprisingly, we find that many such models can be stolen with as little as a single, small-sized, query image using simple distillation. We study this phenomenon on a wide variety of model architectures, datasets, and tasks, including denoising, deblurring, deraining, super-resolution, and biological image-to-image translation. Remarkably, we find that the vulnerability to stealing attacks is shared by CNNs and by models with attention mechanisms, and that stealing is commonly possible even without knowing the architecture of the target model.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# オープンボキャブラリ3次元物体検出のための協調的新しい物体発見とボックスガイドによるクロスモーダルアライメント

Collaborative Novel Object Discovery and Box-Guided Cross-Modal Alignment for Open-Vocabulary 3D Object Detection ( http://arxiv.org/abs/2406.00830v1 )

ライセンス: Link先を確認
Yang Cao, Yihan Zeng, Hang Xu, Dan Xu, (参考訳) Open-vocabulary 3D Object Detection (OV-3DDet)は、3Dシーンにおける新しいカテゴリの任意のリストからオブジェクトを検出する。 本研究では,新しい3Dオブジェクトの局所化と分類の両面を,限定された基本カテゴリの条件下で革新的に取り組んだ統合フレームワークであるCoDAv2を提案する。 ローカライズのために提案した3次元新規オブジェクト発見(3D-NOD)戦略は,3次元ジオメトリと2次元オープン語彙セマンティクスを用いて,トレーニング中に新規オブジェクトの擬似ラベルを発見する。 さらに3D-NODは、トレーニングシーンにおける新しいオブジェクト分布を大幅に強化し、さらに新しいオブジェクトをローカライズする能力を高めるエンリッチメント戦略によって拡張される。 エンリッチメント付き3D-NODは3D-NODEと呼ばれる。 分類において、Discovery-driven Cross-modal Alignment (DCMA) モジュールは、3Dポイントクラウドと2D/テキストモダリティの特徴を整列し、オブジェクトの膨張する語彙を扱うために反復的に洗練されるクラスに依存しないアライメントとクラス固有のアライメントの両方を利用する。 さらに、2Dボックス誘導により、Box-DCMAと呼ばれる複雑なバックグラウンドノイズに対する分類精度が向上する。 広範囲な評価は、CoDAv2の優位性を示している。 CoDAv2 は SUN-RGBD では 9.17 vs. 3.61 、ScanNetv2 では 9.12 vs. 3.74 である。 ソースコードと事前トレーニングされたモデルはGitHubプロジェクトページで公開されている。

Open-vocabulary 3D Object Detection (OV-3DDet) addresses the detection of objects from an arbitrary list of novel categories in 3D scenes, which remains a very challenging problem. In this work, we propose CoDAv2, a unified framework designed to innovatively tackle both the localization and classification of novel 3D objects, under the condition of limited base categories. For localization, the proposed 3D Novel Object Discovery (3D-NOD) strategy utilizes 3D geometries and 2D open-vocabulary semantic priors to discover pseudo labels for novel objects during training. 3D-NOD is further extended with an Enrichment strategy that significantly enriches the novel object distribution in the training scenes, and then enhances the model's ability to localize more novel objects. The 3D-NOD with Enrichment is termed 3D-NODE. For classification, the Discovery-driven Cross-modal Alignment (DCMA) module aligns features from 3D point clouds and 2D/textual modalities, employing both class-agnostic and class-specific alignments that are iteratively refined to handle the expanding vocabulary of objects. Besides, 2D box guidance boosts the classification accuracy against complex background noises, which is coined as Box-DCMA. Extensive evaluation demonstrates the superiority of CoDAv2. CoDAv2 outperforms the best-performing method by a large margin (AP_Novel of 9.17 vs. 3.61 on SUN-RGBD and 9.12 vs. 3.74 on ScanNetv2). Source code and pre-trained models are available at the GitHub project page.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# 大規模言語モデルのためのBoNBoNアライメントとBest-of-nサンプリングの甘さ

BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling ( http://arxiv.org/abs/2406.00832v1 )

ライセンス: Link先を確認
Lin Gui, Cristina Gârbacea, Victor Veitch, (参考訳) 本稿では,大言語モデルからのサンプルをベスト・オブ・n$サンプリングを用いてヒトの嗜好に合わせるという問題に対処し,そこでは,$n$サンプルを描画し,ランク付けし,ベストなものを返す。 根本的な問題は2つある。 第一に、n$のベストとLLMをトレーニングして高い報酬(例えばRLHFやDPO)でサンプルを出力するアライメントのアプローチの関係はどうでしょう? これに対応するため、基底LSM分布の傾きの共通クラスに、ベスト・オブ・n$分布とアライメント手順で学習したサンプリング分布の両方を埋め込む。 すると、このクラスの中で、ベスト・オブ・n$は、基本モデルと基本モデルとのKL距離とのトレードオフに関して本質的に最適であることを示す。 つまり、勝率の最大化を目標とする場合、n$のベストがアライメント分布のベストチョイスである。 しかし、$n$のベストは推論毎に$n$のサンプルを描画することであり、かなりのコストがかかる。 これを避けるために、第2の問題は、LLMを微調整して、最高の$n$サンプリング分布を模倣する方法である。 我々は、最良のn$分布の特別な構造を利用して、BoNBoNアライメントを導出する。 実験により、BoNBoNアライメントは、ターゲット外の側面を最小限に抑えつつ、基本方針に好適なモデルを作成する上で、大幅な改善をもたらすことが示された。

This paper concerns the problem of aligning samples from large language models to human preferences using best-of-$n$ sampling, where we draw $n$ samples, rank them, and return the best one. We consider two fundamental problems. First: what is the relationship between best-of-$n$ and approaches to alignment that train LLMs to output samples with a high expected reward (e.g., RLHF or DPO)? To answer this, we embed both the best-of-$n$ distribution and the sampling distributions learned by alignment procedures in a common class of tiltings of the base LLM distribution. We then show that, within this class, best-of-$n$ is essentially optimal in terms of the trade-off between win-rate against the base model vs KL distance from the base model. That is, best-of-$n$ is the best choice of alignment distribution if the goal is to maximize win rate. However, best-of-$n$ requires drawing $n$ samples for each inference, a substantial cost. To avoid this, the second problem we consider is how to fine-tune a LLM to mimic the best-of-$n$ sampling distribution. We derive BoNBoN Alignment to achieve this by exploiting the special structure of the best-of-$n$ distribution. Experiments show that BoNBoN alignment yields substantial improvements in producing a model that is preferred to the base policy while minimally affecting off-target aspects.
翻訳日:2024-06-06 03:16:50 公開日:2024-06-02
# ハーバード大学の大学院生による生成AIに関する調査

Harvard Undergraduate Survey on Generative AI ( http://arxiv.org/abs/2406.00833v1 )

ライセンス: Link先を確認
Shikoh Hirabayashi, Rishab Jain, Nikola Jurković, Gabriel Wu, (参考訳) 生成AIは大学生の体験にどのように影響したか? ハーバード大学の大学院生 (n=326) の学習習慣, クラス選択, キャリアへのAIの影響を調べたところ, 学生の90%近くが生成型AIを使用していることがわかった。 これらの学生の約25%のために、AIはオフィスの時間と必要な読み上げを代用し始めている。 学生の半数はAIが仕事の見通しに悪影響を及ぼすのではないかと心配しており、半数以上がハーバード大学にAIの将来的な影響についてもっと多くのクラスがあることを望んでいる。 学生の半数は、AIが経済的不平等を高めることを心配しており、40%は、パンデミックや核戦争と同じ緊急度で、AIによる絶滅リスクを世界的優先事項として扱うべきだと信じている。 AIの授業を受けた学生の約半数は、AIが30年以内にほぼすべてのタスクにおいて人間の能力を上回ることを期待している。 これらの結果を踏まえて、ハーバードコミュニティにいくつか推奨します。

How has generative AI impacted the experiences of college students? We study the influence of AI on the study habits, class choices, and career prospects of Harvard undergraduates (n=326), finding that almost 90% of students use generative AI. For roughly 25% of these students, AI has begun to substitute for attending office hours and completing required readings. Half of students are concerned that AI will negatively impact their job prospects, and over half of students wish that Harvard had more classes on the future impacts of AI. We also investigate students' outlook on the broader social implications of AI, finding that half of students are worried that AI will increase economic inequality, and 40% believe that extinction risk from AI should be treated as a global priority with the same urgency as pandemics and nuclear war. Around half of students who have taken a class on AI expect AI to exceed human capabilities on almost all tasks within 30 years. We make some recommendations to the Harvard community in light of these results.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# 微分可能なレイウェーブモデルを用いたハイブリッド屈折回折レンズの設計

End-to-End Hybrid Refractive-Diffractive Lens Design with Differentiable Ray-Wave Model ( http://arxiv.org/abs/2406.00834v1 )

ライセンス: Link先を確認
Xinge Yang, Matheus Souza, Kunyi Wang, Praneeth Chakravarthula, Qiang Fu, Wolfgang Heidrich, (参考訳) ハイブリッド屈折レンズは、屈折レンズの光効率と回折光学素子(DOE)の情報符号化能力を組み合わせることで、次世代のイメージングシステムとして大きな可能性を秘めている。 しかし、そのようなハイブリッドデザインを正確にシミュレートすることは一般的に困難であり、特に、十分な精度でハイブリッドレンズに対して、既存の微分可能な画像形成モデルが存在しない。 本研究では,光収差と回折位相変調の両方を正確にシミュレーションするハイブリッド光線トレーシングと波動伝搬(光波)モデルを提案する。このモデルでは,DOEを最終屈折面と画像センサの間に配置し,DOEの位置としてよく使用されるフーリエ面から遠ざける。 提案したレイウェーブモデルは完全に微分可能であり、屈折回折レンズ最適化と画像再構成ネットワークのエンドツーエンド共設計のための勾配バックプロパゲーションを可能にする。 提案手法の精度は,PSF(simulated point spread function)と理論的結果を比較して検証し,Zemaxのような商用ソフトウェアパッケージに実装されたソリューションよりも精度の高いモデルを示すシミュレーション実験を行った。 実世界の実験により提案モデルの有効性を実証し,収差補正と拡張深度画像(EDoF)の両面において有意な改善を示した。 提案モデルは、コンピュータ画像、計算写真、高度な光学設計における幅広い応用のさらなる研究の動機となると信じている。 コードは出版時に公開される。

Hybrid refractive-diffractive lenses combine the light efficiency of refractive lenses with the information encoding power of diffractive optical elements (DOE), showing great potential as the next generation of imaging systems. However, accurately simulating such hybrid designs is generally difficult, and in particular, there are no existing differentiable image formation models for hybrid lenses with sufficient accuracy. In this work, we propose a new hybrid ray-tracing and wave-propagation (ray-wave) model for accurate simulation of both optical aberrations and diffractive phase modulation, where the DOE is placed between the last refractive surface and the image sensor, i.e. away from the Fourier plane that is often used as a DOE position. The proposed ray-wave model is fully differentiable, enabling gradient back-propagation for end-to-end co-design of refractive-diffractive lens optimization and the image reconstruction network. We validate the accuracy of the proposed model by comparing the simulated point spread functions (PSFs) with theoretical results, as well as simulation experiments that show our model to be more accurate than solutions implemented in commercial software packages like Zemax. We demonstrate the effectiveness of the proposed model through real-world experiments and show significant improvements in both aberration correction and extended depth-of-field (EDoF) imaging. We believe the proposed model will motivate further investigation into a wide range of applications in computational imaging, computational photography, and advanced optical design. Code will be released upon publication.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# 共有ネットワーク非局所性に及ぼす関節計測ベースの影響

Influence of joint measurement bases on sharing network nonlocality ( http://arxiv.org/abs/2406.00838v1 )

ライセンス: Link先を確認
Amit Kundu, Debasis Sarkar, (参考訳) 拡張量子ネットワークシナリオにおけるネットワーク非局所性を共有することは、量子理論の発展における新しいパラダイムである。 本稿では, 連続測定によるネットワーク非局所性共有におけるElegant Joint Measurements(略してEJM)ベースの影響について検討する。 この研究は、新しく導入された[Phys. Rev. Lett. 126, 220401(2021)] の局所的不等式に基づくものである。 ここでは、この不等式に対するすべての同時違反を$(n,m)\in \{(2,1),(1,2),(1,1),(2,2)\}$の場合で捉えることができる。 さらに,ネットワークの非局所性(非局所性)の基準を観察し,その共有が結合基盤の絡み合いの量に依存することも確認した。 この不等式における非線形性の影響は、この拡張シナリオにおける対称的および非対称的違反による結果にも反映される。 この研究は、ネットワークシナリオにおける量子相関の実現をさらに進める。

Sharing network nonlocality in an extended quantum network scenario is the new paradigm in the development of quantum theory. In this paper, we investigate the influence of Elegant joint measurement(in short, EJM) bases in an extended bilocal scenario on sharing network nonlocality via sequential measurement. The work essentially based on the newly introduced[Phys. Rev. Lett. 126, 220401(2021)] bilocal inequality with ternary inputs for end parties and EJM as joint measurement bases in $Alice_n-Bob-Charlie_m$ scenario. Here, we are able to capture all simultaneous violation of this inequality for $(n,m)\in \{(2,1),(1,2),(1,1),(2,2)\}$ cases. We further observe the criteria for sharing network nonlocality where we are able to find also the dependence of the sharing on the amount of entanglement of the joint bases. The effect of the nonlinearity in this inequality is also captured in our results with the symmetrical and asymmetrical violation in this extended scenario. The work will generate further the realization of quantum correlations in network scenario.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# FOCUS:言語モデルのための自己プラギアリズムにおけるコントラスト利用によるオリジナル性を鍛造する

FOCUS: Forging Originality through Contrastive Use in Self-Plagiarism for Language Models ( http://arxiv.org/abs/2406.00839v1 )

ライセンス: Link先を確認
Kaixin Lan, Tao Fang, Derek F. Wong, Yabo Xu, Lidia S. Chao, Cecilia G. Zhao, (参考訳) 事前学習された言語モデル(PLM)は、チャットボットのパワーアップやストーリーの生成など、さまざまな自然言語生成(NLG)タスクにおいて印象的な結果を示している。 しかし、倫理的な懸念は、彼らのトレーニングデータから段落の冗長なコピーを作成できる可能性から生じている。 PLMは人間によって構築されたコーパスで訓練されているため、これは問題である。 そのため,これらのモデルによるオリジナルコンテンツの生成を促進する研究の必要性が高まっている。 本研究では,PLMが生成するテキストの独創性を高めることを目的とした,ユニークな「自己プラジャリズム」コントラストデコーディング戦略を導入する。 提案手法は, アマチュアモデルとプロモデルを開発するために, LLMにおける修正プロンプトを必要とする。 特に、アマチュアモデルは、我々が設計した3つのプラジャリズムテンプレートを使用して、盗用するよう促され、プロのモデルは標準言語モデルの地位を維持している。 この戦略は、非オリジナルな候補トークンの組み合わせを特定し、その後罰則を課すためにモデルの能力を刺激するプロンプトを使用する。 この戦略の適用は、モデルの最終層に先立って統合され、さらなる調整を必要とせず、既存のほとんどのPLM(T5, GPT, LLaMA)とスムーズな統合が保証される。 AASCデータセットとストーリーベースのROCStoriesデータセットの3単語以上からなる非原文配列の大幅な減少が観察された。

Pre-trained Language Models (PLMs) have shown impressive results in various Natural Language Generation (NLG) tasks, such as powering chatbots and generating stories. However, an ethical concern arises due to their potential to produce verbatim copies of paragraphs from their training data. This is problematic as PLMs are trained on corpora constructed by human authors. As such, there is a pressing need for research to promote the generation of original content by these models. In this study, we introduce a unique "self-plagiarism" contrastive decoding strategy, aimed at boosting the originality of text produced by PLMs. Our method entails modifying prompts in LLMs to develop an amateur model and a professional model. Specifically, the amateur model is urged to plagiarize using three plagiarism templates we have designed, while the professional model maintains its standard language model status. This strategy employs prompts to stimulate the model's capacity to identify non-original candidate token combinations and subsequently impose penalties. The application of this strategy is integrated prior to the model's final layer, ensuring smooth integration with most existing PLMs (T5, GPT, LLaMA) without necessitating further adjustments. Implementing our strategy, we observe a significant decline in non-original sequences comprised of more than three words in the academic AASC dataset and the story-based ROCStories dataset.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# 概要ソースアライメントの力

The Power of Summary-Source Alignments ( http://arxiv.org/abs/2406.00842v1 )

ライセンス: Link先を確認
Ori Ernst, Ori Shapira, Aviv Slobodkin, Sharon Adar, Mohit Bansal, Jacob Goldberger, Ran Levy, Ido Dagan, (参考訳) 多文書要約(MDS)は難しい課題であり、しばしばサリエンスと冗長検出のサブタスクに分解され、次いでテキストが生成される。 この文脈では、参照要約とそのソース文書間の対応する文のアライメントを利用して、一部のコンポーネントタスクのトレーニングデータを生成する。 しかし、このアライメント可能なステップは通常、限られた数のサブタスクで文レベルでヒューリスティックに適用される。 本稿では,(1)よりきめ細かい提案スパンレベルで適用すること,(2)マルチドキュメント設定で手動でアライメントをアノテートすること,(3)要約ソースアライメントの大きな可能性を明らかにすることで,複数のデータセットを少なくとも6つのタスクで生成することによる要約ソースアライメントフレームワークの拡張を提案する。 具体的には、各タスクに対して、アライメントアノテーションから自動的に導出された手動でアノテートされたテストセットをリリースする。 開発やトレーニングセットも同じようにリリースしていますが、自動的に派生したアライメントから得ています。 データセットを使用して、各タスクをベースラインモデルとそれに対応する評価指標で実証し、この広範な課題について将来の研究を刺激する。

Multi-document summarization (MDS) is a challenging task, often decomposed to subtasks of salience and redundancy detection, followed by text generation. In this context, alignment of corresponding sentences between a reference summary and its source documents has been leveraged to generate training data for some of the component tasks. Yet, this enabling alignment step has usually been applied heuristically on the sentence level on a limited number of subtasks. In this paper, we propose extending the summary-source alignment framework by (1) applying it at the more fine-grained proposition span level, (2) annotating alignment manually in a multi-document setup, and (3) revealing the great potential of summary-source alignments to yield several datasets for at least six different tasks. Specifically, for each of the tasks, we release a manually annotated test set that was derived automatically from the alignment annotation. We also release development and train sets in the same way, but from automatically derived alignments. Using the datasets, each task is demonstrated with baseline models and corresponding evaluation metrics to spur future research on this broad challenge.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# パラメータ化量子回路における拡散誘起量子ノイズ低減

Diffusion-Inspired Quantum Noise Mitigation in Parameterized Quantum Circuits ( http://arxiv.org/abs/2406.00843v1 )

ライセンス: Link先を確認
Hoang-Quan Nguyen, Xuan Bac Nguyen, Samuel Yen-Chi Chen, Hugh Churchill, Nicholas Borys, Samee U. Khan, Khoa Luu, (参考訳) パラメータ化量子回路(PQC)は、機械学習や組合せ最適化を含む複数の問題において、短期的な量子アドバンテージを利用するための主要な戦略として認識されている。 特定のタスクに適用すると、量子回路のパラメータは、ターゲット関数を最小限にするために訓練される。 実用的なタスクにおけるPQCの性能を改善するための包括的な研究があるが、実際の量子コンピュータ上での量子ノイズによる誤差は性能を低下させる。 特に、量子状態が複数の量子回路層を通して変換されると、量子ノイズの効果は累積的に発生し、最大混合状態または完全ノイズに近づく。 本稿では,量子ノイズと拡散モデルの関係について検討する。 そこで本研究では,PQCにおける量子ノイズを緩和し,特定のタスクに対する誤差を低減するために,拡散に着想を得た新しい学習手法を提案する。 実験を通じて,学習戦略の効率を概説し,量子ノイズシナリオにおける分類タスクにおける最先端のパフォーマンスを実現する。

Parameterized Quantum Circuits (PQCs) have been acknowledged as a leading strategy to utilize near-term quantum advantages in multiple problems, including machine learning and combinatorial optimization. When applied to specific tasks, the parameters in the quantum circuits are trained to minimize the target function. Although there have been comprehensive studies to improve the performance of the PQCs on practical tasks, the errors caused by the quantum noise downgrade the performance when running on real quantum computers. In particular, when the quantum state is transformed through multiple quantum circuit layers, the effect of the quantum noise happens cumulatively and becomes closer to the maximally mixed state or complete noise. This paper studies the relationship between the quantum noise and the diffusion model. Then, we propose a novel diffusion-inspired learning approach to mitigate the quantum noise in the PQCs and reduce the error for specific tasks. Through our experiments, we illustrate the efficiency of the learning strategy and achieve state-of-the-art performance on classification tasks in the quantum noise scenarios.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# スケーリングによる適応性のある局所的手法

Local Methods with Adaptivity via Scaling ( http://arxiv.org/abs/2406.00846v1 )

ライセンス: Link先を確認
Savelii Chezhegov, Sergey Skorik, Nikolas Khachaturov, Danil Shalagin, Aram Avetisyan, Aleksandr Beznosikov, Martin Takáč, Yaroslav Kholodov, Alexander Gasnikov, (参考訳) 機械学習とディープラーニングの急速な開発により、対処しなければならない、ますます複雑な最適化課題がもたらされた。 実際、分散環境で複数の計算ノードを活用することなく、最新の高度なモデルをトレーニングすることは困難になっている。 分散最適化は、フェデレートラーニングのような新興分野にも不可欠である。 具体的には、コミュニケーションによって失われた時間を最小化するために、トレーニングプロセスの組織化が必要である。 コミュニケーションボトルネックを軽減するために広く使われ、広く研究されている技術は、コミュニケーションの前に局所的なトレーニングを実行することである。 このアプローチは私たちの論文の焦点です。 同時に、アダムが主導するスケーリングを取り入れた適応的手法も近年大きな人気を集めている。 そこで本研究では,局所学習手法と適応的アプローチを融合して,効率的な分散学習手法を開発することを目的とする。 従来のローカルSGD法について検討し,スケーリング機能により拡張する。 重要なのは、スケーリングが汎用的に記述され、Adam、RMSProp、OASISなど、さまざまなアプローチを統一的に分析できることです。 理論的解析に加えて,ニューラルネットワークのトレーニングにより,本手法の有効性を検証した。

The rapid development of machine learning and deep learning has introduced increasingly complex optimization challenges that must be addressed. Indeed, training modern, advanced models has become difficult to implement without leveraging multiple computing nodes in a distributed environment. Distributed optimization is also fundamental to emerging fields such as federated learning. Specifically, there is a need to organize the training process to minimize the time lost due to communication. A widely used and extensively researched technique to mitigate the communication bottleneck involves performing local training before communication. This approach is the focus of our paper. Concurrently, adaptive methods that incorporate scaling, notably led by Adam, have gained significant popularity in recent years. Therefore, this paper aims to merge the local training technique with the adaptive approach to develop efficient distributed learning methods. We consider the classical Local SGD method and enhance it with a scaling feature. A crucial aspect is that the scaling is described generically, allowing us to analyze various approaches, including Adam, RMSProp, and OASIS, in a unified manner. In addition to theoretical analysis, we validate the performance of our methods in practice by training a neural network.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# 食事のスマート化:DINOベースの食事アシスタントアプリで健康情報学を向上

Eating Smart: Advancing Health Informatics with the Grounding DINO based Dietary Assistant App ( http://arxiv.org/abs/2406.00848v1 )

ライセンス: Link先を確認
Abdelilah Nossair, Hamza El Housni, (参考訳) Smart Dietary Assistantは、機械学習を利用して、糖尿病のような症状のあるユーザーに焦点を当てた、パーソナライズされた食事アドバイスを提供する。 このアプリは、テキストエンコーダと画像バックボーンを組み合わせてラベル付きデータセットを必要とせずに、食品の検出を強化する、Grounding DINOモデルを活用する。 COCOデータセットのAPスコアは52.5で、実際のシナリオにおいて高い精度を示し、ユーザが提供するラベルや画像に基づいてオブジェクトを正確に認識するための注意機構を活用する。 React NativeとTypeScriptを使って開発されたこのアプリは、複数のプラットフォームでシームレスに動作し、セルフホストのPostgreSQLデータベースを統合し、データの整合性とユーザのプライバシの向上を保証する。 主な機能としては、パーソナライズされた栄養プロファイル、リアルタイム食品スキャン、健康情報などがあり、健康管理やライフスタイルの最適化に有効な食事選択を促進する。 今後の開発は、ウェアラブル技術を統合することで、より適切なヘルスレコメンデーションを目指している。 キーワード:食品画像認識、栄養における機械学習、ゼロショットオブジェクト検出

The Smart Dietary Assistant utilizes Machine Learning to provide personalized dietary advice, focusing on users with conditions like diabetes. This app leverages the Grounding DINO model, which combines a text encoder and image backbone to enhance food item detection without requiring a labeled dataset. With an AP score of 52.5 on the COCO dataset, the model demonstrates high accuracy in real-world scenarios, utilizing attention mechanisms to precisely recognize objects based on user-provided labels and images. Developed using React Native and TypeScript, the app operates seamlessly across multiple platforms and integrates a self-hosted PostgreSQL database, ensuring data integrity and enhancing user privacy. Key functionalities include personalized nutrition profiles, real-time food scanning, and health insights, facilitating informed dietary choices for health management and lifestyle optimization. Future developments aim to integrate wearable technologies for more tailored health recommendations. Keywords: Food Image Recognition, Machine Learning in Nutrition, Zero-Shot Object Detection
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# 因果推論のための二重ロバスト学習に関する研究

A Tutorial on Doubly Robust Learning for Causal Inference ( http://arxiv.org/abs/2406.00853v1 )

ライセンス: Link先を確認
Hlynur Davíð Hlynsson, (参考訳) 二重頑健な学習は、妥当性スコアと結果モデリングを統合することにより、観測データからの因果推論のための堅牢なフレームワークを提供する。 理論上は魅力的だが、複雑でアクセス不能なソフトウェアのために、実用的採用は限定的のままである。 このチュートリアルは、二重に堅牢なメソッドをデミスティフィケートし、EconMLパッケージを使ってアプリケーションをデモすることを目的としている。 本稿では、因果推論の導入、結果モデリングの原理と妥当性スコアの議論、シミュレートされたケーススタディによる二重頑健なアプローチについて説明する。 方法論を簡素化し、実践的なコーディング例を提供することで、データサイエンスと統計学の研究者や実践者にとって、二重に堅牢な学習を利用できるようにする。

Doubly robust learning offers a robust framework for causal inference from observational data by integrating propensity score and outcome modeling. Despite its theoretical appeal, practical adoption remains limited due to perceived complexity and inaccessible software. This tutorial aims to demystify doubly robust methods and demonstrate their application using the EconML package. We provide an introduction to causal inference, discuss the principles of outcome modeling and propensity scores, and illustrate the doubly robust approach through simulated case studies. By simplifying the methodology and offering practical coding examples, we intend to make doubly robust learning accessible to researchers and practitioners in data science and statistics.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# LinkLogic: 説明可能な知識グラフ予測のための新しい方法とベンチマーク

LinkLogic: A New Method and Benchmark for Explainable Knowledge Graph Predictions ( http://arxiv.org/abs/2406.00855v1 )

ライセンス: Link先を確認
Niraj Kumar-Singh, Gustavo Polleti, Saee Paliwal, Rachel Hodos-Nkhereanye, (参考訳) 知識グラフのリンク予測には多くの方法があるが、最先端のアプローチは、しばしばブラックボックスであり、難解なモデル推論であり、それによってユーザーがモデル予測について情報的な決定をする能力を制限する。 近年,リンク予測の手法である知識グラフ埋め込みモデルの予測説明を生成する手法が出現している。 では、これらの説明システムはどの程度機能するのか、という疑問が浮かび上がってくる。 これまでのところ、これは典型的には、あるいは時間のかかるユーザーリサーチによって解決されてきた。 本稿では,LinkLogicと呼ばれる単純なリンク予測説明法について,その予測に使用する説明情報の表面とランク付けについて詳細に検討する。 重要なことは、FB13データセットに存在する家族構造に基づいて、最初のリンク予測説明ベンチマークを構築することである。 本稿では、このベンチマークをリッチな評価サンドボックスとして使用し、LinkLogicを定量的に定性的に探索し、生成した説明の忠実度、選択性および妥当性を評価する。 今後の知識グラフ予測手法の総合的かつ実証的な評価の道を開くことを願っている。

While there are a plethora of methods for link prediction in knowledge graphs, state-of-the-art approaches are often black box, obfuscating model reasoning and thereby limiting the ability of users to make informed decisions about model predictions. Recently, methods have emerged to generate prediction explanations for Knowledge Graph Embedding models, a widely-used class of methods for link prediction. The question then becomes, how well do these explanation systems work? To date this has generally been addressed anecdotally, or through time-consuming user research. In this work, we present an in-depth exploration of a simple link prediction explanation method we call LinkLogic, that surfaces and ranks explanatory information used for the prediction. Importantly, we construct the first-ever link prediction explanation benchmark, based on family structures present in the FB13 dataset. We demonstrate the use of this benchmark as a rich evaluation sandbox, probing LinkLogic quantitatively and qualitatively to assess the fidelity, selectivity and relevance of the generated explanations. We hope our work paves the way for more holistic and empirical assessment of knowledge graph prediction explanation methods in the future.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# DistilDIRE:小型、高速、チープ、軽量の拡散合成ディープフェイク検出

DistilDIRE: A Small, Fast, Cheap and Lightweight Diffusion Synthesized Deepfake Detection ( http://arxiv.org/abs/2406.00856v1 )

ライセンス: Link先を確認
Yewon Lim, Changyeon Lee, Aerin Kim, Oren Etzioni, (参考訳) 拡散生成画像の劇的な流入は近年顕著であり、現在の検出技術に固有の課題を提起している。 これらの画像を特定するタスクは、一見単純なカテゴリであるバイナリ分類に該当するが、「再構成して比較する」手法を用いる場合、計算負荷は顕著である。 このアプローチはDIRE(Diffusion Reconstruction Error)と呼ばれ、拡散生成画像を識別するだけでなく、GANによって生成された画像も検出する。 本研究では,拡散モデルに埋め込まれた知識を蒸留し,高速な深度検出モデルを構築することを提案する。 我々のアプローチは、小型で高速で安価で軽量な拡散合成ディープフェイク検出器の開発を目的としており、運用上の要求を大幅に低減しつつ、堅牢な性能を維持している。 実験の結果,既存のDIREフレームワークよりも3.2倍高速な推論速度が得られた。 この進歩は、これらのシステムを現実世界の環境で展開する実践性を高めるだけでなく、拡散モデル知識を活用しようとする将来の研究の道を開く。

A dramatic influx of diffusion-generated images has marked recent years, posing unique challenges to current detection technologies. While the task of identifying these images falls under binary classification, a seemingly straightforward category, the computational load is significant when employing the "reconstruction then compare" technique. This approach, known as DIRE (Diffusion Reconstruction Error), not only identifies diffusion-generated images but also detects those produced by GANs, highlighting the technique's broad applicability. To address the computational challenges and improve efficiency, we propose distilling the knowledge embedded in diffusion models to develop rapid deepfake detection models. Our approach, aimed at creating a small, fast, cheap, and lightweight diffusion synthesized deepfake detector, maintains robust performance while significantly reducing operational demands. Maintaining performance, our experimental results indicate an inference speed 3.2 times faster than the existing DIRE framework. This advance not only enhances the practicality of deploying these systems in real-world settings but also paves the way for future research endeavors that seek to leverage diffusion model knowledge.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# オンライン・高性能イメージング・ビジョンのための量子センサのストリーミング

Streaming quanta sensors for online, high-performance imaging and vision ( http://arxiv.org/abs/2406.00859v1 )

ライセンス: Link先を確認
Tianyi Zhang, Matthew Dutson, Vivek Boominathan, Mohit Gupta, Ashok Veeraraghavan, (参考訳) 最近、量子画像センサ(QIS) - 超高速、ゼロ・リード・ノイズのバイナリ画像センサー - は、多くの困難なシナリオで顕著な撮像能力を示している。 その可能性にもかかわらず、これらのセンサーの採用は、非常に妨げられている。 a) 高いデータレートと (b)非伝統的な生データを扱うための新しい計算パイプラインの必要性。 これらの課題に対処するために、単純で低帯域幅の計算パイプラインを導入する。 提案手法は,メモリフットプリントが小さい新しいストリーミング表現に基づいて,複数の時間スケールで効率よく強度情報をキャプチャする。 表現の更新には16の浮動小数点演算/ピクセルしか必要とせず、バイナリフレームのネイティブフレームレートでオンラインで効率よく計算できる。 この表現で動作するニューラルネットワークを用いて、リアルタイムでビデオ(10-30 fps)を再構成する。 このような表現が、これらの新興センサに適している理由と、下流コンピュータビジョンの柔軟性を維持しながら、低レイテンシと高フレームレートを提供する方法について説明する。 提案手法は,データ帯域幅の大幅な削減と,リアルタイム画像再構成とコンピュータビジョン -- 10^4$-$10^5$の削減を実現する。 我々の知る限りでは、私たちのアプローチはQIS上でオンラインでリアルタイムな画像再構成を実現する最初の方法です。

Recently quanta image sensors (QIS) -- ultra-fast, zero-read-noise binary image sensors -- have demonstrated remarkable imaging capabilities in many challenging scenarios. Despite their potential, the adoption of these sensors is severely hampered by (a) high data rates and (b) the need for new computational pipelines to handle the unconventional raw data. We introduce a simple, low-bandwidth computational pipeline to address these challenges. Our approach is based on a novel streaming representation with a small memory footprint, efficiently capturing intensity information at multiple temporal scales. Updating the representation requires only 16 floating-point operations/pixel, which can be efficiently computed online at the native frame rate of the binary frames. We use a neural network operating on this representation to reconstruct videos in real-time (10-30 fps). We illustrate why such representation is well-suited for these emerging sensors, and how it offers low latency and high frame rate while retaining flexibility for downstream computer vision. Our approach results in significant data bandwidth reductions ~100X and real-time image reconstruction and computer vision -- $10^4$-$10^5$ reduction in computation than existing state-of-the-art approach while maintaining comparable quality. To the best of our knowledge, our approach is the first to achieve online, real-time image reconstruction on QIS.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# 原子を介する決定論的フォトニックグラフ状態生成のための完全スキーム

A complete scheme for atom-mediated deterministic photonic graph state generation ( http://arxiv.org/abs/2406.00860v1 )

ライセンス: Link先を確認
Ziv Aqua, Barak Dayan, (参考訳) 高絡み合い多光子グラフ状態は、フォトニック量子計算と通信において重要な資源である。 しかし、光子-光子相互作用の欠如は、そのようなグラフ状態の構築を特に困難にしている。 通常、これらの状態は確率的な単一光子源と、区別不可能な光子を必要とする線形光学エンタングリング操作によって生成される。 これらの手法の非効率性は、光源と演算数の大きなオーバーヘッドを必要とし、フォトニックアプローチにおける大きなボトルネックを生み出します。 ここでは, 単一原子をベースとしたフォトニック操作を用いることで, フォトニックグラフ状態の決定論的生成が可能となるとともに, 光子不明瞭性の要求を軽減できることを示す。 この目的のために、光共振器に結合したW型レベルスキームにおいて、単一の原子からなるマルチゲート量子ノードを導入する。 この構成はグラフ状態を生成するための汎用的なツールボックスを提供し、2つの基本光子-原子ゲートの操作と1つの光子の決定論的生成を可能にする。 本稿では,この構成を$^{87}$Rb原子を用いて実装し,数値シミュレーションによる性能評価を行う。

Highly-entangled multi-photon graph states are a crucial resource in photonic quantum computation and communication. Yet, the lack of photon-photon interactions makes the construction of such graph states especially challenging. Typically, these states are produced through probabilistic single-photon sources and linear-optics entangling operations that require indistinguishable photons. The resulting inefficiency of these methods necessitates a large overhead in the number of sources and operations, creating a major bottleneck in the photonic approach. Here, we show how harnessing single-atom-based photonic operations can enable deterministic generation of photonic graph states, while also lifting the requirement for photon indistinguishability. To this end, we introduce a multi-gate quantum node comprised of a single atom in a W-type level scheme coupled to an optical resonator. This configuration provides a versatile toolbox for generating graph states, allowing the operation of two fundamental photon-atom gates, as well as the deterministic generation of single photons. We investigate the implementation of this setup with a $^{87}$Rb atom and evaluate its performance through numerical simulations.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# ペルシアにおける形式的スタイルの移動

Formality Style Transfer in Persian ( http://arxiv.org/abs/2406.00867v1 )

ライセンス: Link先を確認
Parastoo Falakaflaki, Mehrnoush Shamsfard, (参考訳) 本研究では,ペルシア語における形式的スタイルの伝達について検討し,特にデジタルプラットフォーム上での非公式言語の普及に直面し,既存の自然言語処理(NLP)ツールの課題を提起する。 目的は、語彙と構文の違いに対処しながら、本来の意味を維持しつつ、非公式なテキストを形式に変換することである。 本稿では,Fa-BERTアーキテクチャに基づく新しいモデルFa-BERT2BERTを紹介し,一貫性学習と勾配に基づく動的重み付けを取り入れた。 このアプローチは、学習中に損失成分を効果的にバランスさせることで、モデルによる構文的変動の理解を改善します。 既存の手法に対するFa-BERT2BERTの評価には,構文的およびスタイリスティックな変化を正確に測定するための新しい指標が用いられている。 その結果, BLEU, BERTスコア, Rouge-lなど, さまざまな指標において, 従来の手法よりも優れた性能を示し, ペルシャ語スタイル転送の複雑さを十分にナビゲートできることを示す指標が提案された。 本研究は,NLPモデルの精度と機能を高め,より効率的で信頼性の高いNLPアプリケーションの開発を支援し,言語スタイルの変換を効果的に処理し,コンテンツモデレーションの合理化,データマイニング結果の強化,異文化間コミュニケーションの促進などを実現することにより,ペルシア語処理に大きく貢献する。

This study explores the formality style transfer in Persian, particularly relevant in the face of the increasing prevalence of informal language on digital platforms, which poses challenges for existing Natural Language Processing (NLP) tools. The aim is to transform informal text into formal while retaining the original meaning, addressing both lexical and syntactic differences. We introduce a novel model, Fa-BERT2BERT, based on the Fa-BERT architecture, incorporating consistency learning and gradient-based dynamic weighting. This approach improves the model's understanding of syntactic variations, balancing loss components effectively during training. Our evaluation of Fa-BERT2BERT against existing methods employs new metrics designed to accurately measure syntactic and stylistic changes. Results demonstrate our model's superior performance over traditional techniques across various metrics, including BLEU, BERT score, Rouge-l, and proposed metrics underscoring its ability to adeptly navigate the complexities of Persian language style transfer. This study significantly contributes to Persian language processing by enhancing the accuracy and functionality of NLP models and thereby supports the development of more efficient and reliable NLP applications, capable of handling language style transformation effectively, thereby streamlining content moderation, enhancing data mining results, and facilitating cross-cultural communication.
翻訳日:2024-06-06 03:07:06 公開日:2024-06-02
# 自転車共有システムにおけるリアルタイムリバランシングのためのデュアルポリシー強化学習

Dual Policy Reinforcement Learning for Real-time Rebalancing in Bike-sharing Systems ( http://arxiv.org/abs/2406.00868v1 )

ライセンス: Link先を確認
Jiaqi Liang, Defeng Liu, Sanjay Dominik Jena, Andrea Lodi, Thibaut Vidal, (参考訳) 自転車シェアリングシステムは、交通渋滞を緩和し、より健康的なライフスタイルを促進する上で重要な役割を担っている。 しかし、信頼性とユーザの受け入れを確保するためには、自転車の再バランスのための効果的な戦略が必要である。 本研究では,車両群によるリアルタイムリバランス問題に対処するための新しいアプローチを提案する。 在庫とルーティングの決定を分離するデュアルポリシー強化学習アルゴリズムを採用し、両方の決定を同時に行う従来の方法と比較してリアリズムと効率を向上させる。 まず、在庫とルーティングサブプロブレムを、連続的な時間枠内でマルチエージェントのマルコフ決定プロセスとして定式化する。 次に、損失需要を最小化するDQNに基づく二重ポリシーフレームワークを提案する。 学習を容易にするため、多様な需要シナリオにまたがる即時報酬の計算を可能にする、ファーストアーリー・ファースト・サーブ・ルールの下での運用に包括的なシミュレータを適用した。 歴史的実世界のデータから生成された様々なデータセットについて、時間的・気象的要因の影響を受けながら広範囲にわたる実験を行った。 提案アルゴリズムは,従来のベースライン法よりも優れた性能を示す。 オペレータにとって貴重な実践的な洞察を提供し、実世界の動的プログラミング問題への強化学習の組み入れを探求し、よりインテリジェントで堅牢な都市モビリティソリューションへの道を開く。

Bike-sharing systems play a crucial role in easing traffic congestion and promoting healthier lifestyles. However, ensuring their reliability and user acceptance requires effective strategies for rebalancing bikes. This study introduces a novel approach to address the real-time rebalancing problem with a fleet of vehicles. It employs a dual policy reinforcement learning algorithm that decouples inventory and routing decisions, enhancing realism and efficiency compared to previous methods where both decisions were made simultaneously. We first formulate the inventory and routing subproblems as a multi-agent Markov Decision Process within a continuous time framework. Subsequently, we propose a DQN-based dual policy framework to jointly estimate the value functions, minimizing the lost demand. To facilitate learning, a comprehensive simulator is applied to operate under a first-arrive-first-serve rule, which enables the computation of immediate rewards across diverse demand scenarios. We conduct extensive experiments on various datasets generated from historical real-world data, affected by both temporal and weather factors. Our proposed algorithm demonstrates significant performance improvements over previous baseline methods. It offers valuable practical insights for operators and further explores the incorporation of reinforcement learning into real-world dynamic programming problems, paving the way for more intelligent and robust urban mobility solutions.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# OLIVE:オブジェクトレベルのコンテキスト内ビジュアル埋め込み

OLIVE: Object Level In-Context Visual Embeddings ( http://arxiv.org/abs/2406.00872v1 )

ライセンス: Link先を確認
Timothy Ossowski, Junjie Hu, (参考訳) 近年の汎用視覚言語モデル (VLM) は多様なマルチモーダルタスクにまたがる印象的な推論能力を示している。 しかし、これらのモデルはいまだに微粒なオブジェクトレベルの理解と接地に苦慮している。 モデリングの面では、既存のVLMはテキストトークンとイメージパッチトークンを暗黙的にアライメントする。 さらに、これらのモデルは視覚的な概念が見えないように一般化する際に苦労し、さらなる微調整なしではドメイン固有のタスクには信頼できない可能性がある。 これらの制約に対処するため,テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルの提案を行い,制御可能なオブジェクトレベルの推論を可能にする。 これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。 さらに,我々の対象表現を用いた地域レベルの検索を提案し,新たな対象への迅速な適応を容易にする。 提案手法は,視覚的に困難なコンテキストに対して,ゼロショットの一般化とロバスト性を提供しながら,競合参照オブジェクトの分類とキャプション性能を実現する。

Recent generalist vision-language models (VLMs) have demonstrated impressive reasoning capabilities across diverse multimodal tasks. However, these models still struggle with fine-grained object-level understanding and grounding. In terms of modeling, existing VLMs implicitly align text tokens with image patch tokens, which is ineffective for embedding alignment at the same granularity and inevitably introduces noisy spurious background features. Additionally, these models struggle when generalizing to unseen visual concepts and may not be reliable for domain-specific tasks without further fine-tuning. To address these limitations, we propose a novel method to prompt large language models with in-context visual object vectors, thereby enabling controllable object-level reasoning. This eliminates the necessity of fusing a lengthy array of image patch features and significantly speeds up training. Furthermore, we propose region-level retrieval using our object representations, facilitating rapid adaptation to new objects without additional training. Our experiments reveal that our method achieves competitive referring object classification and captioning performance, while also offering zero-shot generalization and robustness to visually challenging contexts.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# Scaffoldが仮想スクリーニング性能を過大評価

Scaffold Splits Overestimate Virtual Screening Performance ( http://arxiv.org/abs/2406.00873v1 )

ライセンス: Link先を確認
Qianrong Guo, Saiveth Hernandez-Hernandez, Pedro J Ballester, (参考訳) 人工知能(AI)モデルでガイドされた膨大な複合ライブラリの仮想スクリーニング(VS)は、初期の薬物発見に対する極めて生産的なアプローチである。 このようなAIモデルの信頼性の高いベンチマークには、データの分割が不可欠だ。 従来のランダムデータ分割は、トレーニングとテストセットの間に類似した分子を生成し、主に構造的に異なる化合物を含むVSライブラリの現実と矛盾する。 共有コア構造によって分子をグループ化するスカフォード分割は、この現実世界のシナリオを反映していると広く考えられている。 しかしここでは、この分割がVSのパフォーマンスを過大評価していることを示す。 本研究では,NCI-60の60データセットを対象とした3つの代表的AIモデルについて,足場分割と,よりリアルなUniform Manifold Approximation and Projection (UMAP)ベースのクラスタリング分割を用いて検討した。 UMAP分割ではモデルの性能が著しく低下することがわかった。 これらの結果は、VSのチューニング、比較、選択のための改善されたベンチマークの必要性を強調している。私たちのコードはhttps://github.com/ScaffoldSplitsOverestimateVS/Scaffold SplitsOverestimateVS.gitで入手できる。

Virtual Screening (VS) of vast compound libraries guided by Artificial Intelligence (AI) models is a highly productive approach to early drug discovery. Data splitting is crucial for the reliable benchmarking of such AI models. Traditional random data splits produce similar molecules between training and test sets, conflicting with the reality of VS libraries which mostly contain structurally distinct compounds. Scaffold split, grouping molecules by shared core structure, is widely considered to reflect this real-world scenario. However, here we show that this split also overestimates VS performance. Our study examined three representative AI models on 60 datasets from NCI-60 using scaffold split and a more realistic Uniform Manifold Approximation and Projection (UMAP)-based clustering split. We found models perform substantially worse under UMAP splits. These results highlight the need for improved benchmarks to tune, compare, and select models for VS. Our code is available at https://github.com/ScaffoldSplitsOverestimateVS/Scaffold SplitsOverestimateVS.git
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# ブレイドマヨラナ量子ビットのボリシェンコ型準対称性

Volichenko-type metasymmetry of braided Majorana qubits ( http://arxiv.org/abs/2406.00876v1 )

ライセンス: Link先を確認
Francesco Toppan, (参考訳) 本稿では、ブレイドマヨラナ量子ビットのパラ統計学と結びついた異なる数学的構造を示し、それらの役割を明らかにし、特に混合ブラケットハイゼンベルク-リー代数を導入する。 これらの代数は、Leites-Serganova が1990年に定義したボリチェンコ代数よりも一般的な枠組みに属し、等式を尊重せず、通常の可換作用素と反可換作用素を補間する混合括弧をもたらすメタ対称性である。 以前の論文では、$Z_2$-graded Majorana qubits は、ブレイドテンソル積を与えられたグレードされたホップ代数フレームワークの中で第一量子化された。 結果の系はユニティの根での切り離しを認め、与えられた整数 $s=2,3,4,\ldots$ に対して、通常のマヨラナフェルミオン ($s=2$) とボソン ($s\rightarrow \infty$ limit) との補間($s\rightarrow \infty$ limit で再発見された) を実現する。 量子超代数 ${\cal U}_q({{osp}}(1|2))$; - 補間演算子を介して、通常のテンソル積として適切なテンソル積を組み込む再構成; - 一般化されたハイゼンベルク-リー代数を定義するブレイド生成/消滅演算子のための混合括弧の導入; - $s\rightarrow \infty$ - 混合ブラケット ハイゼンベルク-リー代数の非可換極限 パラフェルミオン振動子を生成するハイゼンベルク-リー代数の - (meta) 行列によって与えられる常微分方程式の対称性 ^ {\displaystyle Schr}\op}}+1+1+1} により誘導される3次元のブレイド生成/消滅演算子について。

This paper presents different mathematical structures connected with the parastatistics of braided Majorana qubits and clarifies their role; in particular, mixed-bracket Heisenberg-Lie algebras are introduced. These algebras belong to a more general framework than the Volichenko algebras defined in 1990 by Leites-Serganova as metasymmetries which do not respect even/odd gradings and lead to mixed brackets interpolating ordinary commutators and anticommutators. In a previous paper braided $Z_2$-graded Majorana qubits were first-quantized within a graded Hopf algebra framework endowed with a braided tensor product. The resulting system admits truncations at roots of unity and realizes, for a given integer $s=2,3,4,\ldots$, an interpolation between ordinary Majorana fermions (recovered at $s=2$) and bosons (recovered in the $s\rightarrow \infty$ limit); it implements a parastatistics where at most $s-1$ indistinguishable particles are accommodated in a multi-particle sector. The structures discussed in this work are: - the quantum group interpretation of the roots of unity truncations recovered from reps of the quantum superalgebra ${\cal U}_q({{osp}}(1|2))$; - the reconstruction, via suitable intertwining operators, of the braided tensor products as ordinary tensor products; - the introduction of mixed brackets for the braided creation/annihilation operators which define generalized Heisenberg-Lie algebras; - the $s\rightarrow \infty$ untruncated limit of the mixed-bracket Heisenberg-Lie algebras producing parafermionic oscillators; - (meta)symmetries of ordinary differential equations given by matrix Schr\"{o}dinger equations in $0+1$ dimension induced by the braided creation/annihilation operators; - in the special case of a third root of unity truncation, a nonminimal realization of the intertwining operators defines the system as a ternary algebra.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# Chess-Playing Neural NetworkにおけるLeared Look-Aheadのエビデンス

Evidence of Learned Look-Ahead in a Chess-Playing Neural Network ( http://arxiv.org/abs/2406.00877v1 )

ライセンス: Link先を確認
Erik Jenner, Shreyas Kapur, Vasil Georgiev, Cameron Allen, Scott Emmons, Stuart Russell, (参考訳) ニューラルネットワークは、ルックアヘッドや検索のようなアルゴリズムの実装を学ぶか? それとも、単純なヒューリスティックのコレクションに純粋に依存しているのだろうか? 現在最強のニューラルチェスエンジンであるLeela Chess Zeroのポリシーネットワークにおいて、学習されたルックアヘッドの証拠を示す。 我々は、Leelaが将来の最適動作を内部的に表現し、これらの表現が、特定のボード状態における最終的な出力に不可欠であることを見出した。 具体的には、Leelaが言語モデルにおけるトークンとしてすべてのチェスボードの正方形を扱い、(1) 将来の動きの特定の正方形上でのアクティベーションが異常に重要な因果関係にあること、(2) 将来の四角形から過去の四角形へ重要な情報を移動させる注意ヘッドが見つかったこと、(3) 最適な動きを予測できる簡単なプローブを訓練し、92%の精度で進ませる(Leelaが1つの最良の行を見つけるボード状態)。 これらの発見は、ニューラルネットワークにおける学習されたルックアヘッドの存在証明であり、その能力をよりよく理解するための一歩かもしれない。

Do neural networks learn to implement algorithms such as look-ahead or search "in the wild"? Or do they rely purely on collections of simple heuristics? We present evidence of learned look-ahead in the policy network of Leela Chess Zero, the currently strongest neural chess engine. We find that Leela internally represents future optimal moves and that these representations are crucial for its final output in certain board states. Concretely, we exploit the fact that Leela is a transformer that treats every chessboard square like a token in language models, and give three lines of evidence (1) activations on certain squares of future moves are unusually important causally; (2) we find attention heads that move important information "forward and backward in time," e.g., from squares of future moves to squares of earlier ones; and (3) we train a simple probe that can predict the optimal move 2 turns ahead with 92% accuracy (in board states where Leela finds a single best line). These findings are an existence proof of learned look-ahead in neural networks and might be a step towards a better understanding of their capabilities.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# 量子平衡伝播:量子系のグラディエント・ディフレッシュトレーニング

Quantum Equilibrium Propagation: Gradient-Descent Training of Quantum Systems ( http://arxiv.org/abs/2406.00879v1 )

ライセンス: Link先を確認
Benjamin Scellier, (参考訳) 平衡伝播(Equilibrium propagation、EP)は、エネルギーベースのシステム、すなわち物理がエネルギー関数を最小化するシステムの訓練フレームワークである。 EPは、抵抗ネットワーク、弾性ネットワーク、古典的イジングモデル、結合位相発振器など、様々な古典的物理システムで研究されている。 EPの重要な利点は、システムの物理学を用いて重量勾配を抽出するコスト関数の勾配勾配を達成し、機械学習のためのエネルギー効率の良いプロセッサの開発候補となることである。 EP を量子系に拡張し、最小化されるエネルギー関数は平均エネルギー汎関数(ハミルトニアンの観測値)であり、最小はハミルトニアン基底状態である。 例として、横場イジングモデルと量子調和振動子ネットワーク(イジングモデルと弾性ネットワークの量子アナログ)の設定について検討する。

Equilibrium propagation (EP) is a training framework for energy-based systems, i.e. systems whose physics minimizes an energy function. EP has been explored in various classical physical systems such as resistor networks, elastic networks, the classical Ising model and coupled phase oscillators. A key advantage of EP is that it achieves gradient descent on a cost function using the physics of the system to extract the weight gradients, making it a candidate for the development of energy-efficient processors for machine learning. We extend EP to quantum systems, where the energy function that is minimized is the mean energy functional (expectation value of the Hamiltonian), whose minimum is the ground state of the Hamiltonian. As examples, we study the settings of the transverse-field Ising model and the quantum harmonic oscillator network -- quantum analogues of the Ising model and elastic network.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# 航空画像の視覚的位置認識:サーベイ

Visual place recognition for aerial imagery: A survey ( http://arxiv.org/abs/2406.00885v1 )

ライセンス: Link先を確認
Ivan Moskalenko, Anastasiia Kornilova, Gonzalo Ferrer, (参考訳) 航空画像とその視覚的ローカライゼーションへの直接的応用は、多くのロボティクスおよびコンピュータビジョンタスクにとって重要な問題である。 グローバル・ナビゲーション・サテライト・システムズ(GNSS)は、空中ローカライゼーション問題を解決するための標準のデフォルトソリューションであるが、信号不安定性や、このオプションが望ましくないようなソリューションの不確実性など、いくつかの制限が課されている。 その結果、視覚的な地理的局在化が実現可能な代替手段として浮上している。 しかしながら、視覚的位置認識(VPR)タスクを空中画像に適用することは、天候の変化や反復パターンを含む重要な課題を提示する。 現在のVPRレビューは、航空データの特定の文脈を無視している。 本稿では,航空画像の領域に特化してVPR技術を評価する手法を紹介し,様々な手法とその性能を総合的に評価する手法を提案する。 しかし, 様々なVPR手法を比較するだけでなく, 航空画像におけるVPRアルゴリズムの最大効率を実現するために, 地図タイルを構築する際に, 適切なズームレベルとオーバーラップレベルを選択することの重要性も示している。 コードはGitHubリポジトリ -- https://github.com/prime-slam/aero-vloc.comから入手可能です。

Aerial imagery and its direct application to visual localization is an essential problem for many Robotics and Computer Vision tasks. While Global Navigation Satellite Systems (GNSS) are the standard default solution for solving the aerial localization problem, it is subject to a number of limitations, such as, signal instability or solution unreliability that make this option not so desirable. Consequently, visual geolocalization is emerging as a viable alternative. However, adapting Visual Place Recognition (VPR) task to aerial imagery presents significant challenges, including weather variations and repetitive patterns. Current VPR reviews largely neglect the specific context of aerial data. This paper introduces a methodology tailored for evaluating VPR techniques specifically in the domain of aerial imagery, providing a comprehensive assessment of various methods and their performance. However, we not only compare various VPR methods, but also demonstrate the importance of selecting appropriate zoom and overlap levels when constructing map tiles to achieve maximum efficiency of VPR algorithms in the case of aerial imagery. The code is available on our GitHub repository -- https://github.com/prime-slam/aero-vloc.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# Show, Don't Tell: 実証されたフィードバックで言語モデルを調整する

Show, Don't Tell: Aligning Language Models with Demonstrated Feedback ( http://arxiv.org/abs/2406.00888v1 )

ライセンス: Link先を確認
Omar Shaikh, Michelle Lam, Joey Hejna, Yijia Shao, Michael Bernstein, Diyi Yang, (参考訳) 言語モデルは、多くの人の集合的な声をエミュレートするために整列され、結果として出力は、特に誰も一致しない。 LLMをジェネリック出力から切り離すことは、教師付き微調整(英語版)またはRLHFによって可能であるが、新しいアドホックタスクには極めて大きなデータセットを必要とする。 代わりに、非常に少数の(<10$)デモをフィードバックとして活用することで、LLMを特定の設定に合わせることが可能である、と我々は主張する。 提案手法であるDemonstration ITerated Task Optimization (DITTO) は,言語モデルの出力をユーザの実演行動と直接一致させる。 オンライン模倣学習のアイデアから派生したDITTOは、LLMとその中間チェックポイントからの出力よりも、ユーザのデモを優先的に扱うことで、オンライン比較データを安価に生成する。 我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。 さらに,参加者(N=16$)からさまざまなデモを募るユーザスタディも実施する。 ベンチマークやユーザスタディを通じて、DITTOの勝利率は、いくつかのプロンプト、教師付き微調整、その他のセルフプレイ手法を平均19%上回っていることが分かりました。 DITTOは、直接フィードバックとしてデモを使用することで、LLMを効果的にカスタマイズするための新しい方法を提供する。

Language models are aligned to emulate the collective voice of many, resulting in outputs that align with no one in particular. Steering LLMs away from generic output is possible through supervised finetuning or RLHF, but requires prohibitively large datasets for new ad-hoc tasks. We argue that it is instead possible to align an LLM to a specific setting by leveraging a very small number ($<10$) of demonstrations as feedback. Our method, Demonstration ITerated Task Optimization (DITTO), directly aligns language model outputs to a user's demonstrated behaviors. Derived using ideas from online imitation learning, DITTO cheaply generates online comparison data by treating users' demonstrations as preferred over output from the LLM and its intermediate checkpoints. We evaluate DITTO's ability to learn fine-grained style and task alignment across domains such as news articles, emails, and blog posts. Additionally, we conduct a user study soliciting a range of demonstrations from participants ($N=16$). Across our benchmarks and user study, we find that win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and other self-play methods by an average of 19% points. By using demonstrations as feedback directly, DITTO offers a novel method for effective customization of LLMs.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# 生成的エキゾチック前駆体と専門家の混合によるノルン地域の貯留層履歴マッチング -物理インフォームドニューラル演算子フォワードモデル

Reservoir History Matching of the Norne field with generative exotic priors and a coupled Mixture of Experts -- Physics Informed Neural Operator Forward Model ( http://arxiv.org/abs/2406.00889v1 )

ライセンス: Link先を確認
Clement Etienam, Yang Juntao, Oleg Ovcharenko, Issam Said, (参考訳) 本研究では,物理インフォームドニューラル演算子(PINO)フォワードモデルと専門家のアプローチを混合したクラスタ分類回帰(CCR)を結合することにより,貯水池履歴マッチングに対処する新しい貯水池評価ワークフローを開発した。 逆モデリングは、適応正則化アンサンブルカルマンインバージョン(aREKI)法により達成され、履歴マッチング時の高速な逆不確実性定量化に最適である。 変分畳み込みオートエンコーダと縮退拡散暗黙モデル(DDIM)を用いた非ガウス測度に対する未知の透水性および多孔性場をパラメタライズする。 CCRは、非線型ピースマン井戸方程式を再現するために、PINOサロゲートで教師付きモデルとして機能する。 CCRの柔軟性は、各ステージごとに独立した機械学習アルゴリズムを可能にする。 PINO貯水池の損失関数は、管理するブラックオイルPDEの初期状態と残留状態から、教師付きデータ損失と損失から導かれる。 PINO-CCRサロゲートは、圧力、水、ガス飽和度、および石油、水、ガス生産率を出力する。 提案手法は, ノルン油田における水溶性ケースの標準数値ブラックオイルシミュレータと比較し, 同様の出力を示した。 このPINO-CCRサロゲートは、AREKI履歴マッチングワークフローで使われ、未知の透過性、ポーシティ、フォールト乗算器の回復に成功した。 80Gメモリを持つNVIDIA H100上でPINO-CCRサロゲートをトレーニングするには、100サンプルのNorneフィールドで約5時間を要する。 このワークフローはアンサンブルに基づくアプローチに適しており、後部密度サンプリングは高い確率で評価されるが、不確実性定量化には望ましい。

We developed a novel reservoir characterization workflow that addresses reservoir history matching by coupling a physics-informed neural operator (PINO) forward model with a mixture of experts' approach, termed cluster classify regress (CCR). The inverse modelling is achieved via an adaptive Regularized Ensemble Kalman inversion (aREKI) method, ideal for rapid inverse uncertainty quantification during history matching. We parametrize unknown permeability and porosity fields for non-Gaussian posterior measures using a variational convolution autoencoder and a denoising diffusion implicit model (DDIM) exotic priors. The CCR works as a supervised model with the PINO surrogate to replicate nonlinear Peaceman well equations. The CCR's flexibility allows any independent machine-learning algorithm for each stage. The PINO reservoir surrogate's loss function is derived from supervised data loss and losses from the initial conditions and residual of the governing black oil PDE. The PINO-CCR surrogate outputs pressure, water, and gas saturations, along with oil, water, and gas production rates. The methodology was compared to a standard numerical black oil simulator for a waterflooding case on the Norne field, showing similar outputs. This PINO-CCR surrogate was then used in the aREKI history matching workflow, successfully recovering the unknown permeability, porosity and fault multiplier, with simulations up to 6000 times faster than conventional methods. Training the PINO-CCR surrogate on an NVIDIA H100 with 80G memory takes about 5 hours for 100 samples of the Norne field. This workflow is suitable for ensemble-based approaches, where posterior density sampling, given an expensive likelihood evaluation, is desirable for uncertainty quantification.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# 弱視による地球規模の高カテゴリー分解能土地被覆マッピング

Global High Categorical Resolution Land Cover Mapping via Weak Supervision ( http://arxiv.org/abs/2406.00891v1 )

ライセンス: Link先を確認
Xin-Yi Tong, Runmin Dong, Xiao Xiang Zhu, (参考訳) 土地被覆情報は、国連の持続可能な開発目標を推し進めるためには不可欠であり、より詳細な分類体系の下での土地被覆マッピングは、経済的な生活の追跡と環境劣化の測定に大きく貢献する。 しかし、微粒なトレーニングデータを取得することの難しさは、このタスクの実装を特に困難にしている。 本稿では、完全ラベル付きソースドメインと弱ラベル付きターゲットドメインを組み合わせて、弱教師付きドメイン適応(WSDA)を提案する。 粗いラベルと粗いラベルを使用することで、精密かつ詳細な土地被覆アノテーションに必要な労力を大幅に軽減できるため、これは有益である。 具体的には,プロトタイプ(クラスワイド機能セントロイド)をブリッジとして活用し,スパースラベルとグローバル特徴分布を接続するPRE(Prototype-based pseudo-label Rectification and Expansion)アプローチを提案する。 プロトタイプとの特徴距離により、対象領域の未ラベル領域で予測された擬似ラベルの信頼度を評価する。 この信頼性を利用して、擬似ラベルの動的拡張と修正を導く。 Preをベースとして,PlanetScope,Gaofen-1,Sentinel-2の衛星画像を用いて,世界中の10都市を対象とした高カテゴリ分解能土地被覆マッピングを行った。 研究領域では,クロスセンサ,クロスカテゴリ,クロスコンチネントWSDAを実現し,全体の精度は80%を超えた。 その結果,Premは高品質アノテーションへの土地被覆分類の依存性を低減し,ラベルの効率を向上できる可能性が示唆された。 我々は、地球観測を促進させ、環境モニタリングをより正確かつ徹底した情報を提供する、地球規模のきめ細かい土地被覆マッピングを可能にすることを期待している。

Land cover information is indispensable for advancing the United Nations' sustainable development goals, and land cover mapping under a more detailed category system would significantly contribute to economic livelihood tracking and environmental degradation measurement. However, the substantial difficulty in acquiring fine-grained training data makes the implementation of this task particularly challenging. Here, we propose to combine fully labeled source domain and weakly labeled target domain for weakly supervised domain adaptation (WSDA). This is beneficial as the utilization of sparse and coarse weak labels can considerably alleviate the labor required for precise and detailed land cover annotation. Specifically, we introduce the Prototype-based pseudo-label Rectification and Expansion (PRE) approach, which leverages the prototypes (i.e., the class-wise feature centroids) as the bridge to connect sparse labels and global feature distributions. According to the feature distances to the prototypes, the confidence of pseudo-labels predicted in the unlabeled regions of the target domain is assessed. This confidence is then utilized to guide the dynamic expansion and rectification of pseudo-labels. Based on PRE, we carry out high categorical resolution land cover mapping for 10 cities in different regions around the world, severally using PlanetScope, Gaofen-1, and Sentinel-2 satellite images. In the study areas, we achieve cross-sensor, cross-category, and cross-continent WSDA, with the overall accuracy exceeding 80%. The promising results indicate that PRE is capable of reducing the dependency of land cover classification on high-quality annotations, thereby improving label efficiency. We expect our work to enable global fine-grained land cover mapping, which in turn promote Earth observation to provide more precise and thorough information for environmental monitoring.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# MADスキルを有するプレトレーニングハイブリッド

Pretrained Hybrids with MAD Skills ( http://arxiv.org/abs/2406.00894v1 )

ライセンス: Link先を確認
Nicholas Roberts, Samuel Guo, Zhiqi Gao, Satya Sai Srinath Namburi GNVV, Sonia Cromp, Chengjun Wu, Chengyu Duan, Frederic Sala, (参考訳) Transformersは現代の大規模言語モデル(LM)の基盤となっているが、新しい機能、約束、トレードオフを備えた代替アーキテクチャのリストが増えている。 これにより、適切なLMアーキテクチャを選択するのが難しくなります。 最近提案された$\textit{hybrid architectures}$は、すべてのアーキテクチャの利点を享受するベスト・オブ・オール・ワールドのアプローチを求めます。 ハイブリッドデザインは2つの理由から難しい。手動のエキスパート主導の検索が必要であり、新しいハイブリッドをゼロからトレーニングする必要がある。 これらの課題に対処するフレームワークである$\textbf{Manticore}$を提案する。 Manticore $\textit{automates the design of hybrid architectures$ while reusing pretrained model to create $\textit{pretrained}$ hybrids。 我々のアプローチは、異なるアーキテクチャから事前訓練されたブロック間で機能を変換する単純なプロジェクタを組み込むことで、差別化可能なニューラルアーキテクチャサーチ(NAS)のアイデアを強化する。 そして、GPTシリーズやMambaなど、さまざまなアーキテクチャファミリの事前訓練されたモデルと、エンドツーエンドのモデルを組み合わせた微調整ハイブリッドを作ります。 Manticoreでは、複数のモデルをトレーニングせずにLM選択が可能となり、既存の事前学習モデルから事前学習されたハイブリッドを構築することができ、事前学習されたハイブリッドが特定の機能を持つことができる。 Manticoreハイブリッドは、既存の手動設計のハイブリッドよりも優れており、Long Range Arena(LRA)タスクで高いパフォーマンスを実現し、事前訓練されたトランスフォーマーや状態空間モデルを改善することができる。

While Transformers underpin modern large language models (LMs), there is a growing list of alternative architectures with new capabilities, promises, and tradeoffs. This makes choosing the right LM architecture challenging. Recently-proposed $\textit{hybrid architectures}$ seek a best-of-all-worlds approach that reaps the benefits of all architectures. Hybrid design is difficult for two reasons: it requires manual expert-driven search, and new hybrids must be trained from scratch. We propose $\textbf{Manticore}$, a framework that addresses these challenges. Manticore $\textit{automates the design of hybrid architectures}$ while reusing pretrained models to create $\textit{pretrained}$ hybrids. Our approach augments ideas from differentiable Neural Architecture Search (NAS) by incorporating simple projectors that translate features between pretrained blocks from different architectures. We then fine-tune hybrids that combine pretrained models from different architecture families -- such as the GPT series and Mamba -- end-to-end. With Manticore, we enable LM selection without training multiple models, the construction of pretrained hybrids from existing pretrained models, and the ability to $\textit{program}$ pretrained hybrids to have certain capabilities. Manticore hybrids outperform existing manually-designed hybrids, achieve strong performance on Long Range Arena (LRA) tasks, and can improve on pretrained transformers and state space models.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# エンジニアリングに積極的学習、実験、学生が作ったビデオをもたらす:オンラインとモバイルの学習を統合した電子工学と物理コンピューティングの教育に関する研究

Bringing active learning, experimentation, and student-created videos in engineering: A study about teaching electronics and physical computing integrating online and mobile learning ( http://arxiv.org/abs/2406.00895v1 )

ライセンス: Link先を確認
Jonathan Álvarez Ariza, (参考訳) アクティブラーニング(AL)は、議論やハンズオン活動、実験を通じて学生の学習と批判的思考を促進することができるため、工学におけるよく知られた教育方法である。 しかし、この指導方法のほとんどの教育成果は対面的な教育環境で達成されており、オンライン工学教育におけるALと実験の促進についてはあまり語られていない。 そこで,本研究の主な目的は,電子工学,物理コンピューティング(PhyC),プログラミング,工学における基礎ロボティクスを学ぶためのAL方法論の構築であった。 N=56名の工学系学生(電子工学・工業工学)がICDM(Integrated Course Design Model)のガイドラインを用いて考案した方法論と,モバイルとオンラインの学習をAndroidアプリと組み合わせたコースに参画した。 本手法は,(1)安価なハードウェア機器を用いた家庭内実験室,(2)学生が作ったビデオ・ブログによるスキル発達の実証,(3)教師支援とフィードバックの3つの要素をまとめた。 学習コースのデータは, 調査, 評価, 半構造化面接, 学生の成績などを通じて収集され, 混合的アプローチで分析した。 その結果, 学生のPhyCとプログラミング活動の認知度は良好であり, 動機づけ, 自己効力感, 不安の軽減, 学業成績の向上に影響を及ぼすことが示唆された。 この方法論と以前の結果は、オンライン、モバイル、または混合学習のモダリティを用いたエンジニアリングにおけるAL方法論や戦略の開発に関心のある研究者や実践者にとって有用である。

Active Learning (AL) is a well-known teaching method in engineering because it allows to foster learning and critical thinking of the students by employing debate, hands-on activities, and experimentation. However, most educational results of this instructional method have been achieved in face-to-face educational settings and less has been said about how to promote AL and experimentation for online engineering education. Then, the main aim of this study was to create an AL methodology to learn electronics, physical computing (PhyC), programming, and basic robotics in engineering through hands-on activities and active experimentation in online environments. N=56 students of two engineering programs (Technology in Electronics and Industrial Engineering) participated in the methodology that was conceived using the guidelines of the Integrated Course Design Model (ICDM) and in some courses combining mobile and online learning with an Android app. The methodology gathered three main components: (1) In-home laboratories performed through low-cost hardware devices, (2) Student-created videos and blogs to evidence the development of skills, and (3) Teacher support and feedback. Data in the courses were collected through surveys, evaluation rubrics, semi-structured interviews, and students grades and were analyzed through a mixed approach. The outcomes indicate a good perception of the PhyC and programming activities by the students and suggest that these influence motivation, self-efficacy, reduction of anxiety, and improvement of academic performance in the courses. The methodology and previous results can be useful for researchers and practitioners interested in developing AL methodologies or strategies in engineering with online, mobile, or blended learning modalities.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# パラメトリックCNNと非パラメトリックCNNを用いた生波形音響モデルの音声誤り解析

Phonetic Error Analysis of Raw Waveform Acoustic Models with Parametric and Non-Parametric CNNs ( http://arxiv.org/abs/2406.00898v1 )

ライセンス: Link先を確認
Erfan Loweimi, Andrea Carmantini, Peter Bell, Steve Renals, Zoran Cvetkovic, (参考訳) 本稿では,TIMITの音声認識タスクにおける生波形音響モデルの誤りパターンを解析する。 我々の分析は従来の電話誤り率(PER)を超える。 携帯電話は, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素, 音素の3つのグループに分類される。 また、置換誤差を用いて各カテゴリの混乱行列を構築し、その混乱パターンをフィルタバンクやWav2vec 2.0システムと比較する。 我々の生波形音響モデルは、パラメトリック(Sinc2Net)または非パラメトリックCNNと双方向LSTMで構成され、TIMIT Dev/Testセット上で13.7%/15.2%のPERを達成し、文献における生波形モデルにおいて報告されたPERよりも優れていた。 また,WSJからの伝達学習が音声誤りパターンや混乱行列に与える影響についても検討した。 PERをDev/Testセットで11.8%/13.7%に削減する。

In this paper, we analyse the error patterns of the raw waveform acoustic models in TIMIT's phone recognition task. Our analysis goes beyond the conventional phone error rate (PER) metric. We categorise the phones into three groups: {affricate, diphthong, fricative, nasal, plosive, semi-vowel, vowel, silence}, {consonant, vowel+, silence}, and {voiced, unvoiced, silence} and, compute the PER for each broad phonetic class in each category. We also construct a confusion matrix for each category using the substitution errors and compare the confusion patterns with those of the Filterbank and Wav2vec 2.0 systems. Our raw waveform acoustic models consists of parametric (Sinc2Net) or non-parametric CNNs and Bidirectional LSTMs, achieving down to 13.7%/15.2% PERs on TIMIT Dev/Test sets, outperforming reported PERs for raw waveform models in the literature. We also investigate the impact of transfer learning from WSJ on the phonetic error patterns and confusion matrices. It reduces the PER to 11.8%/13.7% on the Dev/Test sets.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# YODAS: オーディオと音声のためのYoutube指向データセット

YODAS: Youtube-Oriented Dataset for Audio and Speech ( http://arxiv.org/abs/2406.00899v1 )

ライセンス: Link先を確認
Xinjian Li, Shinnosuke Takamichi, Takaaki Saeki, William Chen, Sayaka Shiota, Shinji Watanabe, (参考訳) 本研究では,100言語以上で現在500万時間以上の音声データからなる大規模多言語データセットであるYODAS(YouTube-Oriented Dataset for Audio and Speech)を紹介する。 手動または自動の字幕を含むラベル付きサブセットは、教師付きモデルトレーニングを促進する。 逆に、ラベルのないサブセットは、自己教師付き学習アプリケーションに適している。 YODASはその規模で最初に公開されたデータセットであり、Creative Commonsライセンスの下で配布されている。 本稿では,大規模音声データセット構築に寄与するYODASの収集手法を紹介する。 その後、データセットに含まれる音声、テキストを包括的に分析する。 最後に,トップ15言語を対象とした音声認識のベースラインについて述べる。

In this study, we introduce YODAS (YouTube-Oriented Dataset for Audio and Speech), a large-scale, multilingual dataset comprising currently over 500k hours of speech data in more than 100 languages, sourced from both labeled and unlabeled YouTube speech datasets. The labeled subsets, including manual or automatic subtitles, facilitate supervised model training. Conversely, the unlabeled subsets are apt for self-supervised learning applications. YODAS is distinctive as the first publicly available dataset of its scale, and it is distributed under a Creative Commons license. We introduce the collection methodology utilized for YODAS, which contributes to the large-scale speech dataset construction. Subsequently, we provide a comprehensive analysis of speech, text contained within the dataset. Finally, we describe the speech recognition baselines over the top-15 languages.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# ロバストなマルチモーダル音声イン・パインティング:シーケンス・ツー・シーケンス・アプローチ

Robust Multi-Modal Speech In-Painting: A Sequence-to-Sequence Approach ( http://arxiv.org/abs/2406.00901v1 )

ライセンス: Link先を確認
Mahsa Kadkhodaei Elyaderani, Shahram Shirani, (参考訳) 音声音声の欠落部分を文脈から再構築する過程を音声インペイントと呼ぶ。 人間の音声知覚は本質的にマルチモーダルであり、音声と視覚の両方の手がかりを含んでいる。 本稿では,AV特徴を組み込んだシーケンシャル・ツー・シーケンス(seq2seq)音声イン・ペインティング・モデルを提案し,研究する。 提案手法は,AV音声のインペイント手法を,音声データと視覚データの両方が混在するシナリオに拡張する。 これを実現するために、音響的および視覚的歪みを含む様々な条件において、モデルの堅牢性を高めるマルチモーダルトレーニングパラダイムを用いる。 これにより、我々の歪み認識モデルは、現実の挑戦的な環境に対して、もっとも有効なソリューションとなります。 提案手法を,数ミリ秒から1秒以上の音声ギャップを再構築する,既存のトランスフォーマーベースおよびリカレントニューラルネットワークベースモデルと比較した。 我々の新しいセク2セックアーキテクチャは、音声品質の向上と7.14%の音声認識能力向上の観点から、最先端のトランスフォーマーソリューションよりも38.8%向上していることを示す。 本研究では,音声の欠落部分を再構築しながら,同時に唇読解(動画コンポーネントをテキストに書き起こす)を行うマルチタスク学習フレームワークを利用する。

The process of reconstructing missing parts of speech audio from context is called speech in-painting. Human perception of speech is inherently multi-modal, involving both audio and visual (AV) cues. In this paper, we introduce and study a sequence-to-sequence (seq2seq) speech in-painting model that incorporates AV features. Our approach extends AV speech in-painting techniques to scenarios where both audio and visual data may be jointly corrupted. To achieve this, we employ a multi-modal training paradigm that boosts the robustness of our model across various conditions involving acoustic and visual distortions. This makes our distortion-aware model a plausible solution for real-world challenging environments. We compare our method with existing transformer-based and recurrent neural network-based models, which attempt to reconstruct missing speech gaps ranging from a few milliseconds to over a second. Our experimental results demonstrate that our novel seq2seq architecture outperforms the state-of-the-art transformer solution by 38.8% in terms of enhancing speech quality and 7.14% in terms of improving speech intelligibility. We exploit a multi-task learning framework that simultaneously performs lip-reading (transcribing video components to text) while reconstructing missing parts of the associated speech.
翻訳日:2024-06-06 02:56:53 公開日:2024-06-02
# 新型コロナウイルス: 年齢、メカニズム、診断、効果的な予防、治療、レコメンデーション

COVID-19: post infection implications in different age groups, mechanism, diagnosis, effective prevention, treatment, and recommendations ( http://arxiv.org/abs/2406.01636v1 )

ライセンス: Link先を確認
Muhammad Akmal Raheem, Muhammad Ajwad Rahim, Ijaz Gul, Md. Reyad-ul-Ferdous, Liyan Le, Junguo Hui, Shuiwei Xia, Minjiang Chen, Dongmei Yu, Vijay Pandey, Peiwu Qin, Jiansong Ji, (参考訳) SARS-CoV-2は、新型コロナウイルス(COVID-19)のパンデミックの原因となる非常に伝染性の病原体で、初期感染から4週間後から持続的な効果が始まり、未決定期間が続く。 これらの慢性効果は急性よりも有害である。 本総説では, 肺, 循環器, 神経学的, 生殖, 消化管, 筋骨格, 内分泌, リンパ系などの臓器に対するウイルスの長期的影響について検討する。 診断に関して、RT-PCRは、特殊な機器、熟練した人員、そして結果を生み出すのにかなりの時間を要するが、新型コロナウイルスを検出するための金の標準である。 これらの制限に対処するため、画像およびマイクロ流体技術における人工知能は、新型コロナウイルスを効率的に診断するための有望な代替手段を提供する。 薬理学的および非薬理学的戦略は、新型コロナウイルスの持続的な影響を軽減するのに有効である。 これらの戦略は、サイトカイン放出症候群を減少させ、T細胞反応を改善し、血液や組織中の活性化ナチュラルキラー細胞とCD8T細胞の循環を増加させることで、COVID-19後患者の免疫力を高める。 これは、熱、吐き気、疲労、筋肉の弱さ、痛みなどの症状を緩和する。 不活化ウイルスを含むワクチン、生弱化ウイルス、タンパク質サブユニット、ウイルスベクター化ウイルス、mRNA、DNA、ナノ粒子ワクチンは、ウイルスの長期的悪影響を著しく減少させる。 しかし、新型コロナウイルスに対する一生保護を提供するワクチンは報告されていない。 したがって、身体的距離、マスクの使用、手衛生などの保護措置は依然として必須の戦略である。 本総説は、SARS-CoV-2の拡散に対する診断、治療、ワクチン接種、および今後の予防対策に関する知見とともに、さまざまな年齢の個人に対する新型コロナウイルスの持続的影響の包括的理解を提供する。

SARS-CoV-2, the highly contagious pathogen responsible for the COVID-19 pandemic, has persistent effects that begin four weeks after initial infection and last for an undetermined duration. These chronic effects are more harmful than acute ones. This review explores the long-term impact of the virus on various human organs, including the pulmonary, cardiovascular, neurological, reproductive, gastrointestinal, musculoskeletal, endocrine, and lymphoid systems, particularly in older adults. Regarding diagnosis, RT-PCR is the gold standard for detecting COVID-19, though it requires specialized equipment, skilled personnel, and considerable time to produce results. To address these limitations, artificial intelligence in imaging and microfluidics technologies offers promising alternatives for diagnosing COVID-19 efficiently. Pharmacological and non-pharmacological strategies are effective in mitigating the persistent impacts of COVID-19. These strategies enhance immunity in post-COVID-19 patients by reducing cytokine release syndrome, improving T cell response, and increasing the circulation of activated natural killer and CD8 T cells in blood and tissues. This, in turn, alleviates symptoms such as fever, nausea, fatigue, muscle weakness, and pain. Vaccines, including inactivated viral, live attenuated viral, protein subunit, viral vectored, mRNA, DNA, and nanoparticle vaccines, significantly reduce the adverse long-term effects of the virus. However, no vaccine has been reported to provide lifetime protection against COVID-19. Consequently, protective measures such as physical distancing, mask usage, and hand hygiene remain essential strategies. This review offers a comprehensive understanding of the persistent effects of COVID-19 on individuals of varying ages, along with insights into diagnosis, treatment, vaccination, and future preventative measures against the spread of SARS-CoV-2.
翻訳日:2024-06-05 21:31:36 公開日:2024-06-02
# LLMエージェントのチームはゼロデイ脆弱性を突破できる

Teams of LLM Agents can Exploit Zero-Day Vulnerabilities ( http://arxiv.org/abs/2406.01637v1 )

ライセンス: Link先を確認
Richard Fang, Rohan Bindu, Akul Gupta, Qiusi Zhan, Daniel Kang, (参考訳) LLMエージェントは、特にサイバーセキュリティの領域において、ますます洗練されつつある。 研究者たちは、LLMエージェントが脆弱性とおもちゃの捕獲=フラッグ問題を説明すると、現実世界の脆弱性を悪用できることを示した。 しかしながら、これらのエージェントは、前もってエージェントに知られていなかった現実世界の脆弱性(ゼロデイ脆弱性)に対して、依然として不十分に動作します。 本研究では,LLMエージェントのチームが実世界のゼロデイ脆弱性を悪用できることを示す。 先行エージェントは、単独で使用する場合、さまざまな脆弱性や長距離計画の探索に苦労する。 そこで本研究では,サブエージェントを起動可能な計画エージェントを備えたエージェントシステムHPTSAを紹介する。 プランニングエージェントはシステムを調べ、どのサブエージェントを呼び出すかを決定し、異なる脆弱性を試す際に長期的な計画上の問題を解決します。 我々は15の現実世界の脆弱性のベンチマークを構築し、エージェントのチームが以前の作業よりも4.5$\times$で改善できることを示します。

LLM agents have become increasingly sophisticated, especially in the realm of cybersecurity. Researchers have shown that LLM agents can exploit real-world vulnerabilities when given a description of the vulnerability and toy capture-the-flag problems. However, these agents still perform poorly on real-world vulnerabilities that are unknown to the agent ahead of time (zero-day vulnerabilities). In this work, we show that teams of LLM agents can exploit real-world, zero-day vulnerabilities. Prior agents struggle with exploring many different vulnerabilities and long-range planning when used alone. To resolve this, we introduce HPTSA, a system of agents with a planning agent that can launch subagents. The planning agent explores the system and determines which subagents to call, resolving long-term planning issues when trying different vulnerabilities. We construct a benchmark of 15 real-world vulnerabilities and show that our team of agents improve over prior work by up to 4.5$\times$.
翻訳日:2024-06-05 21:31:36 公開日:2024-06-02
# 負荷分布解析におけるデータ要求低減のための微調整LDMの適用

Applying Fine-Tuned LLMs for Reducing Data Needs in Load Profile Analysis ( http://arxiv.org/abs/2406.02479v1 )

ライセンス: Link先を確認
Yi Hu, Hyeonjin Kim, Kai Ye, Ning Lu, (参考訳) 本稿では,負荷プロファイル解析におけるデータ要求を最小限に抑えるために,電力系統の負荷プロファイルに欠落したデータの復元を通じて実証した,微調整大規模言語モデル(LLM)を利用する新しい手法を提案する。 2段階の微調整戦略が提案され、事前訓練されたLCM、すなわちGPT-3.5が欠落したデータ復元タスクに適応する。 実験的な評価により, BERT-PIN などの最先端設計モデルに匹敵する性能を達成し, 高精度なデータ復元における微調整モデルの有効性を実証する。 主な発見は、素早いエンジニアリングの重要性と、微調整サンプルの最適利用、一般ユーザから特定のターゲットユーザへの知識の伝達における数ショット学習の効率の強調である。 さらに,本提案手法では,スクラッチからのトレーニングモデルと比較してコスト効率と時間効率が顕著に向上し,データ可用性と計算資源が制限されたシナリオに対して実用的なソリューションとなる。 この研究は、他の電力系統の負荷プロファイル解析タスクに適用する大きな可能性を秘めている。 その結果、LLMを電力系統分析に利用し、電力系統のレジリエンスと効率を高めるための有望な意味を提供する。

This paper presents a novel method for utilizing fine-tuned Large Language Models (LLMs) to minimize data requirements in load profile analysis, demonstrated through the restoration of missing data in power system load profiles. A two-stage fine-tuning strategy is proposed to adapt a pre-trained LLMs, i.e., GPT-3.5, for missing data restoration tasks. Through empirical evaluation, we demonstrate the effectiveness of the fine-tuned model in accurately restoring missing data, achieving comparable performance to state-of-the-art specifically designed models such as BERT-PIN. Key findings include the importance of prompt engineering and the optimal utilization of fine-tuning samples, highlighting the efficiency of few-shot learning in transferring knowledge from general user cases to specific target users. Furthermore, the proposed approach demonstrates notable cost-effectiveness and time efficiency compared to training models from scratch, making it a practical solution for scenarios with limited data availability and computing resources. This research has significant potential for application to other power system load profile analysis tasks. Consequently, it advances the use of LLMs in power system analytics, offering promising implications for enhancing the resilience and efficiency of power distribution systems.
翻訳日:2024-06-05 15:10:17 公開日:2024-06-02
# 条件付き確率最適化のためのバイアス付き確率一階法とそのメタ学習への応用

Biased Stochastic First-Order Methods for Conditional Stochastic Optimization and Applications in Meta Learning ( http://arxiv.org/abs/2002.10790v2 )

ライセンス: Link先を確認
Yifan Hu, Siqi Zhang, Xin Chen, Niao He, (参考訳) 条件確率最適化は、不変学習や因果推論からメタ学習まで、様々な応用をカバーしている。 しかし、そのような問題に対する非バイアス勾配推定器の構築は、構成構造上困難である。 代替として、バイアス付き確率勾配勾配勾配(BSGD)アルゴリズムを提案し、異なる構造仮定の下でバイアス分散トレードオフを研究する。 滑らかで非滑らかな条件下では, 強凸, 凸, 弱凸の目的に対してBSGDの試料複合体を確立する。 リプシッツ連続勾配推定器を用いたスムーズな非凸目的物を除いて、BSGDのサンプル複雑度は一般凸目的物や非凸目的物では改善できないことを示す。 この特別な設定のために, バイアスドスパイダーブースト(BSpiderBoost, BSpiderBoost)と呼ばれる, 低境界複雑性に対応する高速化アルゴリズムを提案する。 さらに,BSGDとBSpiderBoostの性能を示すために,不変ロジスティック回帰とモデル非依存メタラーニングの数値実験を行った。

Conditional stochastic optimization covers a variety of applications ranging from invariant learning and causal inference to meta-learning. However, constructing unbiased gradient estimators for such problems is challenging due to the composition structure. As an alternative, we propose a biased stochastic gradient descent (BSGD) algorithm and study the bias-variance tradeoff under different structural assumptions. We establish the sample complexities of BSGD for strongly convex, convex, and weakly convex objectives under smooth and non-smooth conditions. Our lower bound analysis shows that the sample complexities of BSGD cannot be improved for general convex objectives and nonconvex objectives except for smooth nonconvex objectives with Lipschitz continuous gradient estimator. For this special setting, we propose an accelerated algorithm called biased SpiderBoost (BSpiderBoost) that matches the lower bound complexity. We further conduct numerical experiments on invariant logistic regression and model-agnostic meta-learning to illustrate the performance of BSGD and BSpiderBoost.
翻訳日:2024-06-05 00:04:47 公開日:2024-06-02
# 決定機械:決定木の拡張

Decision Machines: An Extension of Decision Trees ( http://arxiv.org/abs/2101.11347v5 )

ライセンス: Link先を確認
Jinxiong Zhang, (参考訳) これは二分決定木のコンパクトな表現である。 我々は、決定ツリーにおける予測とバイナリテストの間の依存関係を明示的に描き、入力インスタンスをルートから出口の葉に導く手順を構築することができる。 そして、決定木と誤り訂正出力コードとの接続を提供します。 そして、木に基づくモデルからアテンションメカニズムへのブリッジを構築しました。

Here is a compact representation of binary decision trees. We can explicitly draw the dependencies between prediction and binary tests in decision trees and construct a procedure to guide the input instance from the root to its exit leaf. And we provided a connection between decision trees and error-correcting output codes. Then we built a bridge from tree-based models to attention mechanisms.
翻訳日:2024-06-05 00:04:47 公開日:2024-06-02
# DiagSet:前立腺癌組織像分類のためのデータセット

DiagSet: a dataset for prostate cancer histopathological image classification ( http://arxiv.org/abs/2105.04014v2 )

ライセンス: Link先を確認
Michał Koziarski, Bogusław Cyganek, Przemysław Niedziela, Bogusław Olborski, Zbigniew Antosz, Marcin Żydak, Bogdan Kwolek, Paweł Wąsowicz, Andrzej Bukała, Jakub Swadźba, Piotr Sitkowski, (参考訳) がん疾患は最も重要な社会的課題の1つである。 本稿では,前立腺癌検出のための新しい病理組織学的データセットを提案する。 提案したデータセットは、430の完全注釈スキャンから抽出された260万以上の組織からなり、4675のスキャンに割り当てられたバイナリ診断、46のスキャンは、病理学者のグループによって独立に提供された診断で、https://github.com/michalkoziarski/DiagSetで見ることができる。 さらに,癌組織領域の検出とスキャンレベルの診断の予測を行う機械学習フレームワークを提案する。 提案手法は、異なるスケールの組織学的スキャンで動作しているディープニューラルネットワークのアンサンブルで構成され、パッチレベルの認識において94.6%の精度を達成し、高い統計的一致を示す9人のヒト組織学者とのスキャンレベル診断において比較される。

Cancer diseases constitute one of the most significant societal challenges. In this paper, we introduce a novel histopathological dataset for prostate cancer detection. The proposed dataset, consisting of over 2.6 million tissue patches extracted from 430 fully annotated scans, 4675 scans with assigned binary diagnoses, and 46 scans with diagnoses independently provided by a group of histopathologists can be found at https://github.com/michalkoziarski/DiagSet. Furthermore, we propose a machine learning framework for detection of cancerous tissue regions and prediction of scan-level diagnosis, utilizing thresholding to abstain from the decision in uncertain cases. The proposed approach, composed of ensembles of deep neural networks operating on the histopathological scans at different scales, achieves 94.6% accuracy in patch-level recognition and is compared in a scan-level diagnosis with 9 human histopathologists showing high statistical agreement.
翻訳日:2024-06-05 00:04:47 公開日:2024-06-02
# サンプル観察効果:列挙、ランダム化、一般化

Sample Observed Effects: Enumeration, Randomization and Generalization ( http://arxiv.org/abs/2108.04376v6 )

ライセンス: Link先を確認
Andre F. Ribeiro, (参考訳) 因果効果の「非現実的」定義は、偏見と正確さから導出され、一般化可能ではない。 介入効果の外部妥当性(EV)に関するコンビニアル定義を提案する。 まず、効果観察の「背景」の概念を定義する。 次に、サンプルの(観測および観測されていない)背景の集合に基づいて効果一般化の条件を定式化する。 これは効果一般化の2つの限界を明らかにしている:(1) 変数の効果がすべての可算背景の下で観測されたとき、または(2) 背景が十分にランダム化されたとき。 結果の組合せ的枠組みを用いて, 既定の正当性, 多重効果の同時推定, バイアス分散トレードオフ, 統計的パワー, 現行の予測・説明技術への接続などの問題を再検討する。 方法論的には,非実験試料の組合せ列挙およびランダム化問題により,逆実数定義に追従するパラメトリック推定問題を置き換えることができる。 得られた非パラメトリックなフレームワークを用いて、一般的な教師付き、説明、因果効果推定器のパフォーマンスにおけるトレードオフ(外部妥当性、不信感、精度)を実証する。 また、この手法が非I.D.サンプルにおける教師付きおよび説明方法の使用を可能にする方法についても説明する。 新型コロナウイルスのパンデミックは、いくつかの不完全なサンプルで予測を提供するための学習ソリューションの必要性を強調した。 このプレス問題に応用例を示す。

The widely used 'Counterfactual' definition of Causal Effects was derived for unbiasedness and accuracy - and not generalizability. We propose a Combinatorial definition for the External Validity (EV) of intervention effects. We first define the concept of an effect observation 'background'. We then formulate conditions for effect generalization based on samples' sets of (observed and unobserved) backgrounds. This reveals two limits for effect generalization: (1) when effects of a variable are observed under all their enumerable backgrounds, or, (2) when backgrounds have become sufficiently randomized. We use the resulting combinatorial framework to re-examine several issues in the original counterfactual formulation: out-of-sample validity, concurrent estimation of multiple effects, bias-variance tradeoffs, statistical power, and connections to current predictive and explaining techniques. Methodologically, the definitions also allow us to replace the parametric estimation problems that followed the counterfactual definition by combinatorial enumeration and randomization problems in non-experimental samples. We use the resulting non-parametric framework to demonstrate (External Validity, Unconfoundness and Precision) tradeoffs in the performance of popular supervised, explaining, and causal-effect estimators. We also illustrate how the approach allows for the use of supervised and explaining methods in non-i.i.d. samples. The COVID19 pandemic highlighted the need for learning solutions to provide predictions in severally incomplete samples. We demonstrate applications in this pressing problem.
翻訳日:2024-06-05 00:04:47 公開日:2024-06-02
# 騒音コントラスト型バックドア調整による因果関係のカーネルテスト

A Kernel Test for Causal Association via Noise Contrastive Backdoor Adjustment ( http://arxiv.org/abs/2111.13226v4 )

ライセンス: Link先を確認
Robert Hu, Dino Sejdinovic, Robin J. Evans, (参考訳) 共同ファウンダーの数が増加するにつれて、因果推論はますます複雑化する。 X$, 共同設立者$Z$, 結果$Y$を条件に, 一般の代替案に対して, <textit{do-null} 仮説 $H_0:\; p(y|\text{\it do}(X=x))=p(y)$ をテストする非パラメトリックな方法を開発する。 限界独立試験のためのヒルベルト・シュミット独立基準(HSIC)に基づいて、バックドアHSIC(bd-HSIC)を提案し、それが校正され、多くの共同設立者の下でバイナリと継続的な治療を行う力を持っていることを実証する。 さらに、bd-HSICで用いられる共分散作用素の推定子の収束特性を確立する。 パラメトリックテストに対するbd-HSICのメリットとデメリット,およびドヌテストの限界独立性テストや条件独立性テストとは対照的に,ドヌテストを使うことの重要性について検討した。 完全な実装は \hyperlink{https://github.com/MrHuff/kgformula}{\textt{https://github.com/MrHuff/kgformula}} で見ることができる。

Causal inference grows increasingly complex as the number of confounders increases. Given treatments $X$, confounders $Z$ and outcomes $Y$, we develop a non-parametric method to test the \textit{do-null} hypothesis $H_0:\; p(y|\text{\it do}(X=x))=p(y)$ against the general alternative. Building on the Hilbert Schmidt Independence Criterion (HSIC) for marginal independence testing, we propose backdoor-HSIC (bd-HSIC) and demonstrate that it is calibrated and has power for both binary and continuous treatments under a large number of confounders. Additionally, we establish convergence properties of the estimators of covariance operators used in bd-HSIC. We investigate the advantages and disadvantages of bd-HSIC against parametric tests as well as the importance of using the do-null testing in contrast to marginal independence testing or conditional independence testing. A complete implementation can be found at \hyperlink{https://github.com/MrHuff/kgformula}{\texttt{https://github.com/MrHuff/kgformula}}.
翻訳日:2024-06-05 00:04:47 公開日:2024-06-02
# PyGOD: グラフ出力検出のためのPythonライブラリ

PyGOD: A Python Library for Graph Outlier Detection ( http://arxiv.org/abs/2204.12095v3 )

ライセンス: Link先を確認
Kay Liu, Yingtong Dou, Xueying Ding, Xiyang Hu, Ruitong Zhang, Hao Peng, Lichao Sun, Philip S. Yu, (参考訳) PyGODはオープンソースのPythonライブラリで、グラフデータの外れ値を検出する。 この種の最初の包括的ライブラリとして、PyGODは、研究者と実践者の両方が使用するように設計された、使いやすく、文書化されたAPIの下で、外れ値検出のための主要なグラフベースのメソッドを幅広くサポートする。 PyGODは、ユーザーがそれぞれの検出器を簡単にカスタマイズできるように、実装された異なる検出器のモジュール化されたコンポーネントを提供する。 検出ワークフローの構築を容易にするため、PyGODは多くの一般的なユーティリティ機能を提供している。 大規模なグラフに計算をスケールするために、PyGODはサンプリングやミニバッチ処理のような深層モデルの機能をサポートする。 PyGODは、ユニットテスト、継続的インテグレーション、コードカバレッジなど、コードの信頼性と保守性を促進するためのベストプラクティスを使用している。 アクセシビリティを容易にするため、PyGODはBSD 2-Clauseライセンスの下でhttps://pygod.orgとPython Package Index (PyPI)でリリースされている。

PyGOD is an open-source Python library for detecting outliers in graph data. As the first comprehensive library of its kind, PyGOD supports a wide array of leading graph-based methods for outlier detection under an easy-to-use, well-documented API designed for use by both researchers and practitioners. PyGOD provides modularized components of the different detectors implemented so that users can easily customize each detector for their purposes. To ease the construction of detection workflows, PyGOD offers numerous commonly used utility functions. To scale computation to large graphs, PyGOD supports functionalities for deep models such as sampling and mini-batch processing. PyGOD uses best practices in fostering code reliability and maintainability, including unit testing, continuous integration, and code coverage. To facilitate accessibility, PyGOD is released under a BSD 2-Clause license at https://pygod.org and at the Python Package Index (PyPI).
翻訳日:2024-06-04 23:55:24 公開日:2024-06-02
# XSTEM: 模範的スリーミングアルゴリズム

XSTEM: An exemplar-based stemming algorithm ( http://arxiv.org/abs/2205.04355v2 )

ライセンス: Link先を確認
Kirk Baker, (参考訳) ステミング(英: Stemming)とは、接尾辞を除去することで、関連語を標準語に還元する過程である。 既存のアルゴリズムは、その複雑さ、構成可能性、未知の単語の扱い、過小評価や過大評価を避ける能力などによって様々である。 本稿では,単語ベースのルックアップテーブルの単純さと性能と,規則に基づく手法の強い一般化性を組み合わせて,語彙外単語の問題を回避する,高速で,構成が簡単で,高精度で,高速なスリーミングアルゴリズムを提案する。

Stemming is the process of reducing related words to a standard form by removing affixes from them. Existing algorithms vary with respect to their complexity, configurability, handling of unknown words, and ability to avoid under- and over-stemming. This paper presents a fast, simple, configurable, high-precision, high-recall stemming algorithm that combines the simplicity and performance of word-based lookup tables with the strong generalizability of rule-based methods to avert problems with out-of-vocabulary words.
翻訳日:2024-06-04 23:55:24 公開日:2024-06-02
# 非正規化政策鏡の収束性について

On the Convergence of Policy in Unregularized Policy Mirror Descent ( http://arxiv.org/abs/2205.08176v3 )

ライセンス: Link先を確認
Dachao Lin, Zhihua Zhang, (参考訳) 本稿では、最近の有名な政策ミラー降下(PMD)における政策の収束分析について述べる。 主に、一般化されたブレグマン発散を伴う [11] に続く非正規化集合を考える。 違いは、一般化されたブレグマンの発散の下で、政策の収束率を直接与えることである。 この結果は,従来の研究における値関数の収束に着想を得たものであり,政策ミラー降下に関する拡張研究である。 以前の研究ではすでにいくつかの結果が出ているものの、ブレグマンの発散体が古典的ユークリッド距離のような最適ポリシーに有限段階収束する可能性があることをさらに発見する。

In this short note, we give the convergence analysis of the policy in the recent famous policy mirror descent (PMD). We mainly consider the unregularized setting following [11] with generalized Bregman divergence. The difference is that we directly give the convergence rates of policy under generalized Bregman divergence. Our results are inspired by the convergence of value function in previous works and are an extension study of policy mirror descent. Though some results have already appeared in previous work, we further discover a large body of Bregman divergences could give finite-step convergence to an optimal policy, such as the classical Euclidean distance.
翻訳日:2024-06-04 23:55:24 公開日:2024-06-02
# TAME: 複数のエキスパートによるタスク非依存の継続的学習

TAME: Task Agnostic Continual Learning using Multiple Experts ( http://arxiv.org/abs/2210.03869v2 )

ライセンス: Link先を確認
Haoran Zhu, Maryam Majzoubi, Arihant Jain, Anna Choromanska, (参考訳) 生涯学習の目標は、非定常分布から継続的に学習することであり、そこでは非定常性は典型的に複数の異なるタスクによって課される。 以前の作品は、主に理想主義的な設定と考えられており、そこではタスクのアイデンティティが少なくとも訓練時に知られている。 本稿では,タスクの同一性が分かっておらず,学習機械が観察からそれらを推測する必要がある,いわゆるタスク非依存の設定に着目する。 我々はTAME(Task-Agnostic continual learning using Multiple Experts)と呼ぶアルゴリズムを用いて,タスクエキスパートネットワーク間のデータ分散と切り替えを自動的にオンラインに検出する。 トレーニングにおいて、タスク間の切り替え戦略は、非常に単純な観察に基づいており、新しいタスク毎に、この新しいタスクの開始を示す損失関数の値に統計的に重要なずれが生じている。 推測では、専門家間の切り替えは、テストサンプルを関連する専門家ネットワークに転送するセレクタネットワークによって管理される。 セレクタネットワークは、ランダムに一様に描画されたデータの小さなサブセットに基づいて訓練される。 オンラインプルーニングを用いてタスクエキスパートネットワークとセレクタネットワークの成長を制御する。 実験の結果,本手法が連続学習データセットのベンチマークに有効であることを示すとともに,従来のタスク非依存手法や,トレーニングとテストの両方においてタスクの同一性を認める手法よりも優れており,同時にモデルサイズも同等であることがわかった。

The goal of lifelong learning is to continuously learn from non-stationary distributions, where the non-stationarity is typically imposed by a sequence of distinct tasks. Prior works have mostly considered idealistic settings, where the identity of tasks is known at least at training. In this paper we focus on a fundamentally harder, so-called task-agnostic setting where the task identities are not known and the learning machine needs to infer them from the observations. Our algorithm, which we call TAME (Task-Agnostic continual learning using Multiple Experts), automatically detects the shift in data distributions and switches between task expert networks in an online manner. At training, the strategy for switching between tasks hinges on an extremely simple observation that for each new coming task there occurs a statistically-significant deviation in the value of the loss function that marks the onset of this new task. At inference, the switching between experts is governed by the selector network that forwards the test sample to its relevant expert network. The selector network is trained on a small subset of data drawn uniformly at random. We control the growth of the task expert networks as well as selector network by employing online pruning. Our experimental results show the efficacy of our approach on benchmark continual learning data sets, outperforming the previous task-agnostic methods and even the techniques that admit task identities at both training and testing, while at the same time using a comparable model size.
翻訳日:2024-06-04 23:55:24 公開日:2024-06-02
# SpyHammer:微粒な温度変化下でのRowHammerの理解と爆発

SpyHammer: Understanding and Exploiting RowHammer under Fine-Grained Temperature Variations ( http://arxiv.org/abs/2210.04084v2 )

ライセンス: Link先を確認
Lois Orosa, Ulrich Rührmair, A. Giray Yaglikci, Haocong Luo, Ataberk Olgun, Patrick Jattke, Minesh Patel, Jeremie Kim, Kaveh Razavi, Onur Mutlu, (参考訳) RowHammerはDRAMの脆弱性で、隣のDRAM行に高頻度でアクセスすることで、被害者のDRAM行にビットエラーを引き起こす可能性がある。 最近の研究では、新しいDRAMデバイスがRowHammerに対してますます脆弱になっていることが示されており、多くの研究が特権エスカレーションや情報漏洩に対するシステムレベルの攻撃を実証している。 本研究では,RowHammerと温度の相関関係の厳密なキャラクタリゼーションと解析を行う。 RowHammer は温度変化に非常に敏感であることを示す(例: $\pm 1$ {\deg}C)。 私たちは、DRAM温度をスパイするために分析から得られた2つの重要な観測を活用します。 1)RowHammerによるビット誤り率の上昇(または減少)は温度の上昇とともに一定である。 2)RowHammerに弱い一部のDRAM細胞は特定の温度でのみビットエラーを示す。 これらの観測に基づいて,産業生産ラインや車両,医療システムといった重要なシステム上でDRAMの温度をスパイする新たなRowHammer攻撃(SpyHammer)を提案する。 SpyHammerは、DRAM温度をスパイできる最初の実用的な攻撃だ。 制御された環境下での評価では、SpyHammerは、主要な4つのメーカーの12個の実DRAMモジュール(120DRAMチップ)に対して、テスト温度の90%の誤差で、犠牲者のDRAMモジュールの温度を$\pm 2.5$ {\deg}C以下で推定できることが示されている。

RowHammer is a DRAM vulnerability that can cause bit errors in a victim DRAM row solely by accessing its neighboring DRAM rows at a high-enough rate. Recent studies demonstrate that new DRAM devices are becoming increasingly vulnerable to RowHammer, and many works demonstrate system-level attacks for privilege escalation or information leakage. In this work, we perform the first rigorous fine-grained characterization and analysis of the correlation between RowHammer and temperature. We show that RowHammer is very sensitive to temperature variations, even if the variations are very small (e.g., $\pm 1$ {\deg}C). We leverage two key observations from our analysis to spy on DRAM temperature: 1) RowHammer-induced bit error rate consistently increases (or decreases) as the temperature increases, and 2) some DRAM cells that are vulnerable to RowHammer exhibit bit errors only at a particular temperature. Based on these observations, we propose a new RowHammer attack, called SpyHammer, that spies on the temperature of DRAM on critical systems such as industrial production lines, vehicles, and medical systems. SpyHammer is the first practical attack that can spy on DRAM temperature. Our evaluation in a controlled environment shows that SpyHammer can infer the temperature of the victim DRAM modules with an error of less than $\pm 2.5$ {\deg}C at the 90th percentile of all tested temperatures, for 12 real DRAM modules (120 DRAM chips) from four main manufacturers.
翻訳日:2024-06-04 23:55:24 公開日:2024-06-02
# 離散観測から均質線形ODE系を学習する際の認識可能性と漸近

Identifiability and Asymptotics in Learning Homogeneous Linear ODE Systems from Discrete Observations ( http://arxiv.org/abs/2210.05955v2 )

ライセンス: Link先を確認
Yuanyuan Wang, Wei Huang, Mingming Gong, Xi Geng, Tongliang Liu, Kun Zhang, Dacheng Tao, (参考訳) 通常の微分方程式(ODE)は、機械学習において最近多くの注目を集めている。 しかし、統計的推定の理論的側面、例えば、識別可能性、漸近的性質はいまだに不明である。 本稿では,1つの軌道からサンプリングされた等間隔の誤差のない観測結果から,同次線形ODE系の同定可能性について十分な条件を導出する。 測定ノイズによって観測が妨げられた場合, 非線形最小二乗法(NLS)に基づくパラメータ推定器は, 収束率$n^{-1/2}$で一貫した漸近正規分布であることを示す。 漸近正規性特性に基づき、未知のシステムパラメータに対する信頼セットを構築し、システム変数間の因果関係が存在するかどうかを推測する新しい方法を提案する。 さらに,解析結果を集約や時間スケールを含む劣化観測に拡張する。 我々の知識を最大限に活用するために、我々の研究は線形ODEシステムの学習における識別可能性と漸近性に関する最初の体系的研究である。 また、確立した理論結果を示すために、様々なシステム次元のシミュレーションを構築した。

Ordinary Differential Equations (ODEs) have recently gained a lot of attention in machine learning. However, the theoretical aspects, e.g., identifiability and asymptotic properties of statistical estimation are still obscure. This paper derives a sufficient condition for the identifiability of homogeneous linear ODE systems from a sequence of equally-spaced error-free observations sampled from a single trajectory. When observations are disturbed by measurement noise, we prove that under mild conditions, the parameter estimator based on the Nonlinear Least Squares (NLS) method is consistent and asymptotic normal with $n^{-1/2}$ convergence rate. Based on the asymptotic normality property, we construct confidence sets for the unknown system parameters and propose a new method to infer the causal structure of the ODE system, i.e., inferring whether there is a causal link between system variables. Furthermore, we extend the results to degraded observations, including aggregated and time-scaled ones. To the best of our knowledge, our work is the first systematic study of the identifiability and asymptotic properties in learning linear ODE systems. We also construct simulations with various system dimensions to illustrate the established theoretical results.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-02
# 深層強化学習ヒューリスティックを用いた協調型Dec-PMMDPの解法

Solving Collaborative Dec-POMDPs with Deep Reinforcement Learning Heuristics ( http://arxiv.org/abs/2211.15411v5 )

ライセンス: Link先を確認
Nitsan Soffair, (参考訳) WQMIX、QMIX、QTRAN、VDNはDec-POMDPのためのSOTAアルゴリズムである。 これらはいずれも複雑なエージェントの協調ドメインを解くことはできない。 このような問題を解決するアルゴリズムを提供する。 最初の段階では、単一エージェントの問題を解決し、ポリシーを得る。 第2段階では、単一エージェントポリシーを用いてマルチエージェント問題を解く。 SA2MAは、複雑なエージェントの協調ドメインにおける全ての競合に対して明らかな優位性を持っている。

WQMIX, QMIX, QTRAN, and VDN are SOTA algorithms for Dec-POMDP. All of them cannot solve complex agents' cooperation domains. We give an algorithm to solve such problems. In the first stage, we solve a single-agent problem and get a policy. In the second stage, we solve the multi-agent problem with the single-agent policy. SA2MA has a clear advantage over all competitors in complex agents' cooperative domains.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-02
# ロスシェーピングは、スパイキングニューラルネットワークにおけるEventPropによる正確な勾配学習を強化する

Loss shaping enhances exact gradient learning with EventProp in Spiking Neural Networks ( http://arxiv.org/abs/2212.01232v2 )

ライセンス: Link先を確認
Thomas Nowotny, James P. Turner, James C. Knight, (参考訳) イベントベースの機械学習は、将来のニューロモルフィックハードウェア上でよりエネルギー効率の高いAIを約束する。 本稿では、最近発見されたEventpropアルゴリズムを用いて、スパイクニューラルネットワークの正確な勾配勾配の勾配勾配を求める手法を、挑戦的なキーワード認識ベンチマークに拡張する方法について検討する。 我々は、GPU強化ニューラルネットワークフレームワークにEventpropを実装し、Spike Heidelberg DigitsとSpking Speech Commandsデータセット上で、繰り返しスパイクニューラルネットワークのトレーニングに使用した。 その結果、学習は損失関数に強く依存し、Eventpropをより広範な損失関数に拡張し、効果的なトレーニングを可能にした。 機械学習ツールボックスの適切な追加メカニズムと組み合わせることで、Eventpropネットワークはスパイキングハイデルバーグディジットの最先端のパフォーマンスとスパイキング音声コマンドの精度を達成した。 この研究は、現在の機械学習パラダイムに代わる低消費電力のニューロモルフィックへの重要なステップである。

Event-based machine learning promises more energy-efficient AI on future neuromorphic hardware. Here, we investigate how the recently discovered Eventprop algorithm for gradient descent on exact gradients in spiking neural networks can be scaled up to challenging keyword recognition benchmarks. We implemented Eventprop in the GPU-enhanced Neural Networks framework and used it for training recurrent spiking neural networks on the Spiking Heidelberg Digits and Spiking Speech Commands datasets. We found that learning depended strongly on the loss function and extended Eventprop to a wider class of loss functions to enable effective training. When combined with the right additional mechanisms from the machine learning toolbox, Eventprop networks achieved state-of-the-art performance on Spiking Heidelberg Digits and good accuracy on Spiking Speech Commands. This work is a significant step towards a low-power neuromorphic alternative to current machine learning paradigms.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-02
# ヒューリスティック多エージェント計画によるエージェント協調の最適化

Optimizing Agent Collaboration through Heuristic Multi-Agent Planning ( http://arxiv.org/abs/2301.01246v4 )

ライセンス: Link先を確認
Nitsan Soffair, (参考訳) QDec-POMDP問題に対処するSOTAアルゴリズム、QDec-FPとQDec-FPSは、異なるタイプの検知エージェントを含む問題に効果的に対処できない。 本稿では,あるエージェントが検知アクションを取らなかった場合,エージェントが同じ計画を採用するように要求することで,この問題に対処する新しいアルゴリズムを提案する。 このような状況下で,本アルゴリズムはQDec-FPとQDec-FPSの双方よりも性能が優れている。

The SOTA algorithms for addressing QDec-POMDP issues, QDec-FP and QDec-FPS, are unable to effectively tackle problems that involve different types of sensing agents. We propose a new algorithm that addresses this issue by requiring agents to adopt the same plan if one agent is unable to take a sensing action but the other can. Our algorithm performs significantly better than both QDec-FP and QDec-FPS in these types of situations.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-02
# 拡散混合によるグラフ生成

Graph Generation with Diffusion Mixture ( http://arxiv.org/abs/2302.03596v4 )

ライセンス: Link先を確認
Jaehyeong Jo, Dongki Kim, Sung Ju Hwang, (参考訳) グラフの生成は、非ユークリッド構造の複雑な性質を理解する必要がある実世界のタスクにとって大きな課題である。 拡散モデルは近年、グラフ生成において顕著な成功を収めているが、ノイズのあるサンプルを認知する学習は、生成すべきグラフ構造を明示的に学習しないため、グラフのトポロジ的特性をモデル化するのに不適である。 この制限に対処するために,拡散過程の最終グラフ構造を明示的に学習することにより,グラフのトポロジーをモデル化する生成フレームワークを提案する。 具体的には、生成過程を、高速収束をもたらす予測グラフに向けて駆動される終端条件付き拡散過程の混合として設計する。 さらに、混合プロセスの簡単なパラメータ化を導入し、最終グラフ構造を学習するための目的を開発し、最大限の学習を可能にする。 一般グラフと2D/3D分子生成タスクに関する広範囲な実験的検証により,本手法は従来の生成モデルよりも優れ,連続(eg3D座標)と離散(eg原子型)の両方の特徴を持つ正確なトポロジを持つグラフを生成する。 私たちのコードはhttps://github.com/harryjo97/GruM.comで利用可能です。

Generation of graphs is a major challenge for real-world tasks that require understanding the complex nature of their non-Euclidean structures. Although diffusion models have achieved notable success in graph generation recently, they are ill-suited for modeling the topological properties of graphs since learning to denoise the noisy samples does not explicitly learn the graph structures to be generated. To tackle this limitation, we propose a generative framework that models the topology of graphs by explicitly learning the final graph structures of the diffusion process. Specifically, we design the generative process as a mixture of endpoint-conditioned diffusion processes which is driven toward the predicted graph that results in rapid convergence. We further introduce a simple parameterization of the mixture process and develop an objective for learning the final graph structure, which enables maximum likelihood training. Through extensive experimental validation on general graph and 2D/3D molecule generation tasks, we show that our method outperforms previous generative models, generating graphs with correct topology with both continuous (e.g. 3D coordinates) and discrete (e.g. atom types) features. Our code is available at https://github.com/harryjo97/GruM.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-02
# ベイジアン不確実性アライメントによる低用量CT再構成のための教師なし領域適応法

Unsupervised Domain Adaptation for Low-dose CT Reconstruction via Bayesian Uncertainty Alignment ( http://arxiv.org/abs/2302.13251v2 )

ライセンス: Link先を確認
Kecheng Chen, Jie Liu, Renjie Wan, Victor Ho-Fun Lee, Varut Vardhanabhuti, Hong Yan, Haoliang Li, (参考訳) 低線量CT(LDCT)画像再構成技術は、許容画質を維持しつつ、患者の放射線被曝を減らすことができる。 ディープラーニングはこの問題で広く使われているが、トレーニングデータ(すなわち、ソースドメイン)で遭遇しなかったバリエーションのために、テストデータ(すなわち、ターゲットドメイン)の性能は、臨床シナリオで劣化することが多い。 LDCT再構成の教師なし領域適応(UDA)は分布アライメントによってこの問題を解決するために提案されている。 しかし、既存のUDA法では、予期しない変動を伴う臨床シナリオにおいて、信頼性の高いインテリジェント医療システムにとって重要な不確実性定量化の使用を探索することができない。 さらに、異なる患者に対する既存の直接的なアライメントは、コンテンツミスマッチの問題につながる。 これらの問題に対処するため、我々は確率的再構成フレームワークを活用し、潜時空間と画像空間の両方において、ソースドメインとターゲットドメインの差分最小化を行うことを提案する。 潜伏空間では、2つの領域間の疫学的なギャップを減らすためにベイズの不確実性アライメントを考案する。 このアプローチにより、ターゲットドメインデータの不確実性レベルが低減され、ターゲットドメインに対して十分に再構成された結果が得られる可能性が高くなる。 画像空間において,2次情報とのマッチングを実現するためのシャープネス対応分布アライメントを提案する。これにより,対象領域からの再構成画像が,ソース領域からの通常のCT画像と類似のシャープネスを有することが保証される。 2つのシミュレーションデータセットと1つの臨床低線量画像データセットの実験結果から,提案手法は定量的および可視化された性能において他の手法よりも優れていることが示された。

Low-dose computed tomography (LDCT) image reconstruction techniques can reduce patient radiation exposure while maintaining acceptable imaging quality. Deep learning is widely used in this problem, but the performance of testing data (a.k.a. target domain) is often degraded in clinical scenarios due to the variations that were not encountered in training data (a.k.a. source domain). Unsupervised domain adaptation (UDA) of LDCT reconstruction has been proposed to solve this problem through distribution alignment. However, existing UDA methods fail to explore the usage of uncertainty quantification, which is crucial for reliable intelligent medical systems in clinical scenarios with unexpected variations. Moreover, existing direct alignment for different patients would lead to content mismatch issues. To address these issues, we propose to leverage a probabilistic reconstruction framework to conduct a joint discrepancy minimization between source and target domains in both the latent and image spaces. In the latent space, we devise a Bayesian uncertainty alignment to reduce the epistemic gap between the two domains. This approach reduces the uncertainty level of target domain data, making it more likely to render well-reconstructed results on target domains. In the image space, we propose a sharpness-aware distribution alignment to achieve a match of second-order information, which can ensure that the reconstructed images from the target domain have similar sharpness to normal-dose CT images from the source domain. Experimental results on two simulated datasets and one clinical low-dose imaging dataset show that our proposed method outperforms other methods in quantitative and visualized performance.
翻訳日:2024-06-04 23:45:37 公開日:2024-06-02
# MedNeXt: 医療画像セグメンテーションのためのトランスフォーマ駆動によるConvNetのスケーリング

MedNeXt: Transformer-driven Scaling of ConvNets for Medical Image Segmentation ( http://arxiv.org/abs/2303.09975v5 )

ライセンス: Link先を確認
Saikat Roy, Gregor Koehler, Constantin Ulrich, Michael Baumgartner, Jens Petersen, Fabian Isensee, Paul F. Jaeger, Klaus Maier-Hein, (参考訳) 医療画像のセグメンテーションのためにTransformerベースのアーキテクチャを採用することへの関心は爆発的に高まっている。 しかし、大規模アノテートされた医療データセットの欠如により、自然画像に匹敵するパフォーマンスを達成することは困難である。 対照的に畳み込みネットワークは誘導バイアスが高く、その結果、高い性能で容易に訓練できる。 最近、ConvNeXtアーキテクチャはTransformerブロックをミラーリングすることで標準のConvNetを近代化しようとした。 本研究は,データスカース医療環境の課題に合わせてカスタマイズされた,近代化されたスケーラブルな畳み込みアーキテクチャを設計するための改良である。 トランスフォーマーにインスパイアされた大規模カーネルセグメンテーションネットワークであるMedNeXtを導入し,1)医療画像セグメンテーションのための完全なConvNeXt 3Dエンコーダデコーダネットワークを導入する。 2) 規模にまたがる意味的豊かさを維持するため,残留ConvNeXtのアップアンドダウンサンプリングブロック。 3) 限られた医療データの性能飽和を防止するため, カーネルネットワークをアップサンプリングすることで, カーネルサイズを反復的に増大させる新しい手法を提案する。 4)MedNeXtの複数レベルの複合スケーリング(深さ,幅,カーネルサイズ)。 これにより、CTとMRIの4つのタスクにおける最先端のパフォーマンスと、さまざまなデータセットサイズが実現され、医療画像セグメンテーションのための近代化されたディープアーキテクチャが表される。 私たちのコードは、https://github.com/MIC-DKFZ/MedNeXt.comで公開されています。

There has been exploding interest in embracing Transformer-based architectures for medical image segmentation. However, the lack of large-scale annotated medical datasets make achieving performances equivalent to those in natural images challenging. Convolutional networks, in contrast, have higher inductive biases and consequently, are easily trainable to high performance. Recently, the ConvNeXt architecture attempted to modernize the standard ConvNet by mirroring Transformer blocks. In this work, we improve upon this to design a modernized and scalable convolutional architecture customized to challenges of data-scarce medical settings. We introduce MedNeXt, a Transformer-inspired large kernel segmentation network which introduces - 1) A fully ConvNeXt 3D Encoder-Decoder Network for medical image segmentation, 2) Residual ConvNeXt up and downsampling blocks to preserve semantic richness across scales, 3) A novel technique to iteratively increase kernel sizes by upsampling small kernel networks, to prevent performance saturation on limited medical data, 4) Compound scaling at multiple levels (depth, width, kernel size) of MedNeXt. This leads to state-of-the-art performance on 4 tasks on CT and MRI modalities and varying dataset sizes, representing a modernized deep architecture for medical image segmentation. Our code is made publicly available at: https://github.com/MIC-DKFZ/MedNeXt.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-02
# 動的2次元イオン結晶における高効率サイト分解イメージングとスピン状態検出

Efficient site-resolved imaging and spin-state detection in dynamic two-dimensional ion crystals ( http://arxiv.org/abs/2303.10801v3 )

ライセンス: Link先を確認
Robert N. Wolf, Joseph H. Pham, Julian Y. Z. Jee, Alexander Rischka, Michael J. Biercuk, (参考訳) 量子コンピューティング、シミュレーション、センシングにおいて、個々の捕捉されたイオンのスピン状態を高い忠実度で解き明かすことは、幅広い分野の応用にとって重要である。 本稿では, ハードウェア検出器と人工ニューラルネットワークを組み合わせた, トラップ領域に100個以上のイオンを閉じ込めた大型2次元(2次元)結晶の高忠実度状態判別法について報告する。 ペニングトラップ内の2D結晶の効率的な単発検出を行い、約25\,\mathrm{kHz}$で回転を示す。 次に、人工ニューラルネットワークをトレーニングして、回転結晶の残りのフレームで蛍光光子データを処理する。 最後に、時間結合状態検出法を用いて、平均スピン状態検出忠実度9,4(2)\%$に達する。 この手法は、数百個の閉じ込められたイオン量子ビットの配列における空間的および時間的相関を分析するのに使うことができる。

Resolving the locations and discriminating the spin states of individual trapped ions with high fidelity is critical for a large class of applications in quantum computing, simulation, and sensing. We report on a method for high-fidelity state discrimination in large two-dimensional (2D) crystals with over 100 trapped ions in a single trapping region, combining a hardware detector and an artificial neural network. A high-data-rate, spatially resolving, single-photon sensitive timestamping detector performs efficient single-shot detection of 2D crystals in a Penning trap, exhibiting rotation at about $25\,\mathrm{kHz}$. We then train an artificial neural network to process the fluorescence photon data in the rest frame of the rotating crystal in order to identify ion locations with a success rate of $~90\%$, accounting for substantial illumination inhomogeneity across the crystal. Finally, employing a time-binned state detection method, we arrive at an average spin-state detection fidelity of $94(2)\%$. This technique can be used to analyze spatial and temporal correlations in arrays of hundreds of trapped-ion qubits.
翻訳日:2024-06-04 23:35:51 公開日:2024-06-02
# MV-MR:自己指導型学習・知識蒸留のための多視点・多表現

MV-MR: multi-views and multi-representations for self-supervised learning and knowledge distillation ( http://arxiv.org/abs/2303.12130v2 )

ライセンス: Link先を確認
Vitaliy Kinakh, Mariia Drozdova, Slava Voloshynovskiy, (参考訳) 本稿では,多視点・多表現(MV-MR)に基づく自己教師型学習と知識蒸留の新しい手法を提案する。 MV-MRは、拡張ビューから学習可能埋め込みへの依存の最大化と、拡張ビューから学習可能埋め込みへの依存の最大化と、拡張ビューから学習可能埋め込みへの依存の最大化に基づいている。 提案手法は,効率的な自己監督型分類とモデル非依存型知識蒸留に利用できることを示す。 他の自己教師型手法とは異なり、我々の手法は対照的な学習、クラスタリング、あるいは停止勾配を一切用いない。 MV-MRは、画像多表現を正規化子として使用することにより、学習可能な埋め込みに対する制約を組み込むことができる汎用フレームワークである。 この線に沿って、知識蒸留はそのような正規化の特別な場合と考えられる。 MV-MRは、STL10とImageNet-1Kデータセットの非コントラストおよびクラスタリングフリーメソッドにおける最先端のパフォーマンスを提供する。 本稿では,CLIP ViTモデルに基づく知識蒸留を用いて事前学習したResNet50モデルを用いて,STL10線形評価における最先端性能を実現する。 コードは、https://github.com/vkinakh/mv-mrで入手できる。

We present a new method of self-supervised learning and knowledge distillation based on the multi-views and multi-representations (MV-MR). The MV-MR is based on the maximization of dependence between learnable embeddings from augmented and non-augmented views, jointly with the maximization of dependence between learnable embeddings from augmented view and multiple non-learnable representations from non-augmented view. We show that the proposed method can be used for efficient self-supervised classification and model-agnostic knowledge distillation. Unlike other self-supervised techniques, our approach does not use any contrastive learning, clustering, or stop gradients. MV-MR is a generic framework allowing the incorporation of constraints on the learnable embeddings via the usage of image multi-representations as regularizers. Along this line, knowledge distillation is considered a particular case of such a regularization. MV-MR provides the state-of-the-art performance on the STL10 and ImageNet-1K datasets among non-contrastive and clustering-free methods. We show that a lower complexity ResNet50 model pretrained using proposed knowledge distillation based on the CLIP ViT model achieves state-of-the-art performance on STL10 linear evaluation. The code is available at: https://github.com/vkinakh/mv-mr
翻訳日:2024-06-04 23:35:51 公開日:2024-06-02
# MBQuant: 任意ビット幅ネットワーク量子化のための新しいマルチブランチトポロジー手法

MBQuant: A Novel Multi-Branch Topology Method for Arbitrary Bit-width Network Quantization ( http://arxiv.org/abs/2305.08117v2 )

ライセンス: Link先を確認
Yunshan Zhong, Yuyao Zhou, Fei Chao, Rongrong Ji, (参考訳) 任意のビット幅ネットワーク量子化は、実行中に様々なビット幅要求に高い適応性を持つため、大きな注目を集めている。 しかし,本論文では既存の手法を検証し,ビット幅のスイッチングとアクティベーションによる量子化誤差の顕著な蓄積を観察し,性能に限界をもたらす。 この問題に対処するために,任意のビット幅量子化にマルチブランチトポロジを利用する新しい手法MBQuantを提案する。 MBQuantはネットワーク本体を複数の独立したブランチに複製し、各ブランチの重みは固定された2ビットに量子化され、アクティベーションは入力ビット幅に残る。 所望のビット幅の計算は、元の計算制約を満たす適切な数の分岐を選択して完了する。 ウェイトビット幅を固定することにより、ウェイトビット幅を切り替えることによる量子化誤差を大幅に低減する。 さらに,アクティベーションビット幅のスイッチングによる量子化誤差を,ブランチ間で分散し,性能を向上させるためのアモータイズブランチ選択方式を提案する。 最後に,MBQuantの性能向上を図るため,枝間誘導を円滑に行うインプレース蒸留方式を採用する。 MBQuantは、既存の任意のビット幅量子化法と比較して大きな性能向上を示す。 コードはhttps://github.com/zysxmu/MultiQuant.comにある。

Arbitrary bit-width network quantization has received significant attention due to its high adaptability to various bit-width requirements during runtime. However, in this paper, we investigate existing methods and observe a significant accumulation of quantization errors caused by switching weight and activations bit-widths, leading to limited performance. To address this issue, we propose MBQuant, a novel method that utilizes a multi-branch topology for arbitrary bit-width quantization. MBQuant duplicates the network body into multiple independent branches, where the weights of each branch are quantized to a fixed 2-bit and the activations remain in the input bit-width. The computation of a desired bit-width is completed by selecting an appropriate number of branches that satisfy the original computational constraint. By fixing the weight bit-width, this approach substantially reduces quantization errors caused by switching weight bit-widths. Additionally, we introduce an amortization branch selection strategy to distribute quantization errors caused by switching activation bit-widths among branches to improve performance. Finally, we adopt an in-place distillation strategy that facilitates guidance between branches to further enhance MBQuant's performance. Extensive experiments demonstrate that MBQuant achieves significant performance gains compared to existing arbitrary bit-width quantization methods. Code is at https://github.com/zysxmu/MultiQuant.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-02
# デジタルサービス法におけるコンテンツモデレーションの「正確性」の運用

Operationalizing content moderation "accuracy" in the Digital Services Act ( http://arxiv.org/abs/2305.09601v4 )

ライセンス: Link先を確認
Johnny Tian-Zheng Wei, Frederike Zufall, Robin Jia, (参考訳) EUが最近採択したデジタルサービス法(Digital Services Act)では、ソーシャルメディアプラットフォームが自動コンテンツモデレーションシステムの「正確性」を報告する必要がある。 口語という用語は曖昧で、オープンテクスチャで、正解精度(合計で割り切れた正確な予測数)は大きなクラス不均衡の問題には不適であり、精度を測る根拠となる真実とデータセットは特定されていない。 さらなる仕様がなければ、規制要件は不十分な報告を可能にする。 この学際的な研究において、法的概念を精査し、技術的実装に関連付けて「正確さ」の報告を運用する。 我々は,「正確性」の解釈を精度とリコールとして法的に正当化する法律の立法目的を解明することから始める。 これらの指標は、クラス不均衡な設定において情報的であり、EU憲章の基本的権利の比例的バランスを反映している。 提案手法は,極めて高いアノテーションコストを発生させることができ,かつ,プラットフォームがビジネスを行う権利を不当に阻害することができるため,リコールの推定に重点を置いている。 シミュレーション研究を通じて,訓練された分類器を用いた階層化サンプリングを用いて,効率的にリコールを推定できることを示し,その適用のために具体的なレコメンデーションを提供する。 最後に、この法律に基づくRedditのサブセットに対するリコールレポートのケーススタディを示す。 この法律の言語に基づいて、不特定性のためにリコールを報告できるいくつかの方法を特定した。 本稿では,改良型推定器を用いた1つの可能性について報告し,さらなる法的明確化の意義と領域について論じる。

The Digital Services Act, recently adopted by the EU, requires social media platforms to report the "accuracy" of their automated content moderation systems. The colloquial term is vague, or open-textured -- the literal accuracy (number of correct predictions divided by the total) is not suitable for problems with large class imbalance, and the ground truth and dataset to measure accuracy against is unspecified. Without further specification, the regulatory requirement allows for deficient reporting. In this interdisciplinary work, we operationalize "accuracy" reporting by refining legal concepts and relating them to technical implementation. We start by elucidating the legislative purpose of the Act to legally justify an interpretation of "accuracy" as precision and recall. These metrics remain informative in class imbalanced settings, and reflect the proportional balancing of Fundamental Rights of the EU Charter. We then focus on the estimation of recall, as its naive estimation can incur extremely high annotation costs and disproportionately interfere with the platform's right to conduct business. Through a simulation study, we show that recall can be efficiently estimated using stratified sampling with trained classifiers, and provide concrete recommendations for its application. Finally, we present a case study of recall reporting for a subset of Reddit under the Act. Based on the language in the Act, we identify a number of ways recall could be reported due to underspecification. We report on one possibility using our improved estimator, and discuss the implications and areas for further legal clarification.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-02
# 言語モデルの物理:その1 階層型言語構造を学習する

Physics of Language Models: Part 1, Learning Hierarchical Language Structures ( http://arxiv.org/abs/2305.13673v3 )

ライセンス: Link先を確認
Zeyuan Allen-Zhu, Yuanzhi Li, (参考訳) トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部動作を理解することは大きな課題である。 従来の研究では、これらのモデルがどのように名前のコピーや選択といった単純なタスクを処理するのかを主に検討しており、これらのモデルが文脈自由文法(CFG)によって定義された複雑な再帰的な言語構造をどのように把握するかを調査することによってこれを拡張している。 本稿では,局所的に曖昧で解析に動的プログラミングを必要とする長文(例:数百のトークン)を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。 このような複雑さにもかかわらず、GPTのような生成モデルがこのCFG言語を正確に学習し、それに基づいて文を生成することを実証する。 モデルの内部を探索し、その隠れ状態がCFGの構造を正確に捉え、その注意パターンが動的プログラミングアルゴリズムに渡される情報に類似していることを明らかにする。 本稿では, 位置埋め込みが相対的な注意や回転埋め込みに劣る理由, エンコーダベースのモデル (例えばBERT, deBERTa) が, 生成モデル (e , GPT) と同様に効果的にネストされたCFGを学習できないこと, 事前学習データに構造的および構文的誤りを加えることの必要性を強調する。

Transformer-based language models are effective but complex, and understanding their inner workings is a significant challenge. Previous research has primarily explored how these models handle simple tasks like name copying or selection, and we extend this by investigating how these models grasp complex, recursive language structures defined by context-free grammars (CFGs). We introduce a family of synthetic CFGs that produce hierarchical rules, capable of generating lengthy sentences (e.g., hundreds of tokens) that are locally ambiguous and require dynamic programming to parse. Despite this complexity, we demonstrate that generative models like GPT can accurately learn this CFG language and generate sentences based on it. We explore the model's internals, revealing that its hidden states precisely capture the structure of CFGs, and its attention patterns resemble the information passing in a dynamic programming algorithm. This paper also presents several corollaries, including showing why positional embedding is inferior to relative attention or rotary embedding; demonstrating that encoder-based models (e.g., BERT, deBERTa) cannot learn very deeply nested CFGs as effectively as generative models (e.g., GPT); and highlighting the necessity of adding structural and syntactic errors to the pretraining data to make the model more robust to corrupted language prefixes.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-02
# 極小四角いレグレッションは、パラメータの下の二重の輝きを排除できる

Least Squares Regression Can Exhibit Under-Parameterized Double Descent ( http://arxiv.org/abs/2305.14689v2 )

ライセンス: Link先を確認
Xinyue Li, Rishi Sonthalia, (参考訳) 学習データ点数,パラメータ数,一般化能力の関係について検討した。 従来の研究では、過度パラメータ化政権では二重降下が起こりうることが示されており、標準バイアス分散トレードオフは過度パラメータ化政権では成り立つと信じられていた。 これらの作品には、ピークの存在の理由がいくつかある。 ピークの位置は、スペクトルとサンプル共分散の固有ベクトルの両方の技術的性質に依存すると仮定する。 本報告では,2つの簡単な例について述べる。

The relationship between the number of training data points, the number of parameters, and the generalization capabilities has been widely studied. Previous work has shown that double descent can occur in the over-parameterized regime, and believe that the standard bias-variance trade-off holds in the under-parameterized regime. These works provide multiple reasons for the existence of the peak. We postulate that the location of the peak depends on the technical properties of both the spectrum as well as the eigenvectors of the sample covariance. We present two simple examples that provably exhibit double descent in the under-parameterized regime and do not seem to occur for reasons provided in prior work.
翻訳日:2024-06-04 21:39:44 公開日:2024-06-02
# ゼロショット社会政治イベント抽出のためのモンテカルロ言語モデルパイプライン

A Monte Carlo Language Model Pipeline for Zero-Shot Sociopolitical Event Extraction ( http://arxiv.org/abs/2305.15051v2 )

ライセンス: Link先を確認
Erica Cai, Brendan O'Connor, (参考訳) 現在の社会科学の取り組みは、ニュースなどのテキストにイベント抽出(EE)を適用することで、誰が誰に何をしたのか? イベントデータベースは、例えば国際関係においてアクターペア(ダイアド)間の社会政治的ダイナミクスを分析するために使用される。 ほとんどのEEメソッドはルールや教師付き学習に大きく依存しているが、 \emph{zero-shot} イベント抽出によって、研究者は新しい研究課題に対して任意のイベントクラスを柔軟に指定できる可能性がある。 残念なことに、現在のゼロショットEE法は、単純な生成言語モデル(LM)の素直なゼロショットアプローチと同様に、ダイアディックなイベント抽出には不適当であり、多くは単語感覚の曖昧さ、モダリティの感度、計算不効率に悩まされている。 これらの課題に対処するため,我々はモンテカルロアプローチを提案し,生成出力の非決定性を生かした,より微細でマルチステージな命令追従型LMパイプラインを提案する。 我々のパイプラインは、純粋に神経的手法と比較して、言語分析の明確な段階(合成生成、文脈的曖昧化、議論の実現、事象のモダリティ)を含む。 この方法は、他のゼロショットEEアプローチよりも優れており、生成型LMのナイーブな応用を少なくとも17F1%上回る。 パイプラインのフィルタリング機構は計算効率を大幅に改善し、以前のゼロショット方式で使用したクエリの12%までしか実行できない。 最後に,パイプラインの国際関係解析への応用を実演する。

Current social science efforts automatically populate event databases of "who did what to whom?" tuples, by applying event extraction (EE) to text such as news. The event databases are used to analyze sociopolitical dynamics between actor pairs (dyads) in, e.g., international relations. While most EE methods heavily rely on rules or supervised learning, \emph{zero-shot} event extraction could potentially allow researchers to flexibly specify arbitrary event classes for new research questions. Unfortunately, we find that current zero-shot EE methods, as well as a naive zero-shot approach of simple generative language model (LM) prompting, perform poorly for dyadic event extraction; most suffer from word sense ambiguity, modality sensitivity, and computational inefficiency. We address these challenges with a new fine-grained, multi-stage instruction-following generative LM pipeline, proposing a Monte Carlo approach to deal with, and even take advantage of, nondeterminism of generative outputs. Our pipeline includes explicit stages of linguistic analysis (synonym generation, contextual disambiguation, argument realization, event modality), \textit{improving control and interpretability} compared to purely neural methods. This method outperforms other zero-shot EE approaches, and outperforms naive applications of generative LMs by at least 17 F1 percent points. The pipeline's filtering mechanism greatly improves computational efficiency, allowing it to perform as few as 12% of queries that a previous zero-shot method uses. Finally, we demonstrate our pipeline's application to dyadic international relations analysis.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-02
# Causal-Origin表現による強化学習における非定常処理

Tackling Non-Stationarity in Reinforcement Learning via Causal-Origin Representation ( http://arxiv.org/abs/2306.02747v3 )

ライセンス: Link先を確認
Wanpeng Zhang, Yilin Li, Boyu Yang, Zongqing Lu, (参考訳) 実世界のシナリオでは、強化学習の応用は複雑な非定常性によって著しく困難である。 既存のほとんどの手法は環境の変化を明示的にモデル化しようと試み、しばしば環境の非現実的な事前知識を必要とする。 本稿では,非定常性は状態遷移中の複雑な因果関係を通じて伝播・蓄積し,その高度化と政策学習に影響を与える新しい視点を提案する。 非定常性の因果関係を暗黙的に追跡することで、この課題をより効果的に解決できると考えている。 そこで我々はCausal-Origin RePresentation (COREP)アルゴリズムを提案する。 COREPは主に、因果オリジン表現と呼ばれる状態の安定グラフ表現を学ぶためのガイド付き更新機構を使用している。 この表現を活用することで、学習されたポリシーは非定常性に対する印象的なレジリエンスを示す。 本研究は,非定常強化学習の因果的解釈に基づく理論的解析で補足し,因果-オリジン表現の妥当性を提唱する。 実験により,非定常問題に対処する既存手法よりもCOREPの方が優れた性能を示した。

In real-world scenarios, the application of reinforcement learning is significantly challenged by complex non-stationarity. Most existing methods attempt to model changes in the environment explicitly, often requiring impractical prior knowledge of environments. In this paper, we propose a new perspective, positing that non-stationarity can propagate and accumulate through complex causal relationships during state transitions, thereby compounding its sophistication and affecting policy learning. We believe that this challenge can be more effectively addressed by implicitly tracing the causal origin of non-stationarity. To this end, we introduce the Causal-Origin REPresentation (COREP) algorithm. COREP primarily employs a guided updating mechanism to learn a stable graph representation for the state, termed as causal-origin representation. By leveraging this representation, the learned policy exhibits impressive resilience to non-stationarity. We supplement our approach with a theoretical analysis grounded in the causal interpretation for non-stationary reinforcement learning, advocating for the validity of the causal-origin representation. Experimental results further demonstrate the superior performance of COREP over existing methods in tackling non-stationarity problems.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-02
# 雲と大陸にまたがる深層学習モデルの学習方法 : 実験的検討

How Can We Train Deep Learning Models Across Clouds and Continents? An Experimental Study ( http://arxiv.org/abs/2306.03163v4 )

ライセンス: Link先を確認
Alexander Erben, Ruben Mayer, Hans-Arno Jacobsen, (参考訳) ディープラーニングモデルは、さまざまなデータセンタやクラウドプロバイダにまたがるスポットVMのグローバル市場において、コスト効率のよいトレーニングが可能か? そこで本研究では,CV,NLP,ASRモデルに対して,異なるゾーン,大陸,雲におけるトレーニングのコストとスループットの影響を広範囲に評価した。 現在のトレーニングオプションをさらに拡張するために、トレーニングスループットを改善するためにオンプレミスハードウェアにクラウドリソースを追加することで、ハイブリッドクラウドシナリオのスケーラビリティの可能性を比較する。 最後に、スポットインスタンスの価格を活用することで、複数の安価なVMでモデルをトレーニングし、より中央集権的かつ強力なハードウェアと、競争力のある価格でオンデマンドのクラウド製品の両方を駆使する、新たなコスト効率の方法が実現できることを示します。

This paper aims to answer the question: Can deep learning models be cost-efficiently trained on a global market of spot VMs spanning different data centers and cloud providers? To provide guidance, we extensively evaluate the cost and throughput implications of training in different zones, continents, and clouds for representative CV, NLP, and ASR models. To expand the current training options further, we compare the scalability potential for hybrid-cloud scenarios by adding cloud resources to on-premise hardware to improve training throughput. Finally, we show how leveraging spot instance pricing enables a new cost-efficient way to train models with multiple cheap VMs, trumping both more centralized and powerful hardware and even on-demand cloud offerings at competitive prices.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-02
# 古典-量子移動学習は変分量子回路を用いた機械学習をファシリテートする

Classical-to-Quantum Transfer Learning Facilitates Machine Learning with Variational Quantum Circuit ( http://arxiv.org/abs/2306.03741v2 )

ライセンス: Link先を確認
Jun Qi, Chao-Han Huck Yang, Pin-Yu Chen, Min-Hsiu Hsieh, Hector Zenil, Jesper Tegner, (参考訳) 量子機械学習(Quantum Machine Learning, QML)はエキサイティングな新興分野であるが、損失関数の精度は利用可能なキュービットの数によって改善される必要がある。 ここでは、近似誤差(表現力)が量子ビット数に依存しないようなQML問題を再構成する。 本稿では,変分量子回路(VQC)を用いた古典的量子移動学習アーキテクチャにより,VQCモデルの表現と一般化(推定誤差)が向上することを証明する。 近似と推定誤差について解析的境界を導出する。 古典-量子遷移学習のアーキテクチャは、事前学習された古典的生成AIモデルを活用し、訓練段階におけるVQCの最適パラメータの発見を容易にする。 理論解析を検証するため,半導体量子ドットにおける電荷安定図の単一ドットと二重ドットのバイナリ分類タスクについて実験を行った。 解析的および実証的な結果から,現実的なタスクにおける古典-量子移動学習アーキテクチャの有効性が示された。 これにより、利用可能なキュービットの現在の限界を超えて、QMLアプリケーションを高速化するステージが設定される。

While Quantum Machine Learning (QML) is an exciting emerging area, the accuracy of the loss function still needs to be improved by the number of available qubits. Here, we reformulate the QML problem such that the approximation error (representation power) does not depend on the number of qubits. We prove that a classical-to-quantum transfer learning architecture using a Variational Quantum Circuit (VQC) improves the representation and generalization (estimation error) capabilities of the VQC model. We derive analytical bounds for the approximation and estimation error. We show that the architecture of classical-to-quantum transfer learning leverages pre-trained classical generative AI models, making it easier to find the optimal parameters for the VQC in the training stage. To validate our theoretical analysis, we perform experiments on single-dot and double-dot binary classification tasks for charge stability diagrams in semiconductor quantum dots, where the related empirical results support our theoretical findings. Our analytical and empirical results demonstrate the effectiveness of classical-to-quantum transfer learning architecture in realistic tasks. This sets the stage for accelerating QML applications beyond the current limits of available qubits.
翻訳日:2024-06-04 21:29:55 公開日:2024-06-02
# Kernel Debiased Plug-in Estimation: 多数のターゲットパラメータに対する影響関数を伴わない同時自動デバイアス

Kernel Debiased Plug-in Estimation: Simultaneous, Automated Debiasing without Influence Functions for Many Target Parameters ( http://arxiv.org/abs/2306.08598v5 )

ライセンス: Link先を確認
Brian Cho, Yaroslav Mukhin, Kyra Gan, Ivana Malenica, (参考訳) 非パラメトリックモデルにおける対象パラメータをニュアンスパラメータで推定する場合、未知のニュアンスを非パラメトリック推定器で置換すると、 ``plug-in バイアスを導入することができる。 '' この最適バイアス分散トレードオフに対処する従来の方法は、ターゲットパラメータの \emph{influence function} (IF) に依存しています。 複数の対象パラメータを推定する場合、これらの手法は、解析的および計算的課題を生じさせるIFを用いて、ニュアンスパラメータを複数回デバイアスする必要がある。 本研究では,<emph{kernel debiased plug-in Estimation} (KDPE) という新しい手法を提案するために,<emph{targeted maximum max estimation} (TMLE) フレームワークを利用する。 KDPE は、正規化された極大化のステップを通じて初期推定を洗練し、非パラメトリックなモデルを \emph{reducing kernel Hilbert space} に基づく。 以下はKDPEの例である。 i) 規則性条件を満たす経路微分可能なターゲットパラメータを同時に分離する。 (ii)実装にIFを必要とせず、 (iii)計算能力は保たれている。 我々は、KDPEの使用法を数値的に説明し、理論結果を検証した。

When estimating target parameters in nonparametric models with nuisance parameters, substituting the unknown nuisances with nonparametric estimators can introduce ``plug-in bias.'' Traditional methods addressing this suboptimal bias-variance trade-off rely on the \emph{influence function} (IF) of the target parameter. When estimating multiple target parameters, these methods require debiasing the nuisance parameter multiple times using the corresponding IFs, which poses analytical and computational challenges. In this work, we leverage the \emph{targeted maximum likelihood estimation} (TMLE) framework to propose a novel method named \emph{kernel debiased plug-in estimation} (KDPE). KDPE refines an initial estimate through regularized likelihood maximization steps, employing a nonparametric model based on \emph{reproducing kernel Hilbert spaces}. We show that KDPE: (i) simultaneously debiases \emph{all} pathwise differentiable target parameters that satisfy our regularity conditions, (ii) does not require the IF for implementation, and (iii) remains computationally tractable. We numerically illustrate the use of KDPE and validate our theoretical results.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-02
# 言語横断的な時間的要約:データセット、モデル、評価

Cross-lingual Cross-temporal Summarization: Dataset, Models, Evaluation ( http://arxiv.org/abs/2306.12916v3 )

ライセンス: Link先を確認
Ran Zhang, Jihed Ouni, Steffen Eger, (参考訳) 要約は自然言語処理(NLP)において広範囲に研究されているが、言語間相互要約(CLCTS)は、文化的アクセシビリティと理解を改善する可能性を持つ、ほとんど探索されていない領域である。 本稿では、データセット作成、モデリング、評価を含むCLCTSタスクを包括的に扱う。 1)hDe-Enの328インスタンス(拡張版455インスタンス)とhEn-Deの289インスタンス(拡張版501インスタンス)による最初のCLCTSコーパスの構築、英語とドイツ語の歴史的フィクションテキストとウィキペディア要約の活用、(2)中間微調整タスクの異なる一般的なトランスフォーマー・エンド・ツー・エンドモデルの有効性の検討、(3)要約としてGPT-3.5の可能性を探る、(4)人間、GPT-4、および最近の自動評価指標について報告する。 GPT-3.5は、ゼロショット要約器として、中程度から良質な出力を提供する一方、中間タスクの微調整されたエンドツーエンドモデルでは、品質の低いサマリーが生成されることが示唆された。 GPT-3.5は、歴史的テキストの正規化にも非常に適しているようである。 GPT-3.5におけるデータ汚染を評価するために,GPT-3.5は見つからない資料に対してわずかに悪影響を及ぼす敵意攻撃方式を設計した。 さらに、ソース文が以前の知識に対して逆転すると、プロット省略の総和精度0.67、エンティティスワップの0.71、プロット否定の0.53で幻覚することもある。 全体として、モデル性能の回帰結果は、より長く、より古く、より複雑なソーステキスト(これらは歴史的言語変種に特有なものである)は、全てのモデルについて要約するのが難しく、CLCTSタスクの難しさを示していることを示唆している。

While summarization has been extensively researched in natural language processing (NLP), cross-lingual cross-temporal summarization (CLCTS) is a largely unexplored area that has the potential to improve cross-cultural accessibility and understanding. This paper comprehensively addresses the CLCTS task, including dataset creation, modeling, and evaluation. We (1) build the first CLCTS corpus with 328 instances for hDe-En (extended version with 455 instances) and 289 for hEn-De (extended version with 501 instances), leveraging historical fiction texts and Wikipedia summaries in English and German; (2) examine the effectiveness of popular transformer end-to-end models with different intermediate finetuning tasks; (3) explore the potential of GPT-3.5 as a summarizer; (4) report evaluations from humans, GPT-4, and several recent automatic evaluation metrics. Our results indicate that intermediate task finetuned end-to-end models generate bad to moderate quality summaries while GPT-3.5, as a zero-shot summarizer, provides moderate to good quality outputs. GPT-3.5 also seems very adept at normalizing historical text. To assess data contamination in GPT-3.5, we design an adversarial attack scheme in which we find that GPT-3.5 performs slightly worse for unseen source documents compared to seen documents. Moreover, it sometimes hallucinates when the source sentences are inverted against its prior knowledge with a summarization accuracy of 0.67 for plot omission, 0.71 for entity swap, and 0.53 for plot negation. Overall, our regression results of model performances suggest that longer, older, and more complex source texts (all of which are more characteristic for historical language variants) are harder to summarize for all models, indicating the difficulty of the CLCTS task.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-02
# FLuRKA:高速かつ正確に統一された低ランク&カーネルアテンション

FLuRKA: Fast and accurate unified Low-Rank & Kernel Attention ( http://arxiv.org/abs/2306.15799v2 )

ライセンス: Link先を確認
Ahan Gupta, Hao Guo, Yueming Yuan, Yanqi Zhou, Charith Mendis, (参考訳) 多くの効率的な $\textit{approximate}$ self-attention 技術は、トランスフォーマーアーキテクチャの開始以来普及している。 これらの技法の2つの一般的なクラスは低ランクとカーネルメソッドである。 これらの手法にはそれぞれの長所がある。 FLuRKA ($\textbf{F}$ast $\textbf{L}$ow-$\textbf{R}$ank & $\textbf{K}$ernel$ \textbf{A}$ttention。 FLuRKAは高い$\textit{training-efficient}$で、より高速なモデル速度を持つ。 FLuRKAの速度と品質を理論的・実験的に評価した。 我々のモデル速度解析は、FLuRKAが低ランクおよびカーネル近似の高速化を示す様々なパラメータ構成を示し、モデル品質解析はフルアテンションに関してFLuRKAの誤差を限定する。 経験的に、低ランク法とカーネル法で最大3.3倍と1.7倍のスピードアップを経験するFLuRKAの3つの変種をインスタンス化する。 これは、フラッシュアテンションのあるモデルよりも最大20倍のスピードアップになる。 言語モデリング、言語理解、長いシーケンスモデリング、機械翻訳、画像分類にまたがる様々なタスクにまたがって、FLuRKAは下層の低ランクおよびカーネル近似と同等の精度を達成し、時には両方を上回ります。

Many efficient $\textit{approximate}$ self-attention techniques have become prevalent since the inception of the transformer architecture. Two popular classes of these techniques are low-rank and kernel methods. Each of these methods has its strengths. We observe these strengths synergistically complement each other and exploit them to fuse low-rank and kernel methods, producing a new class of transformers: FLuRKA ($\textbf{F}$ast $\textbf{L}$ow-$\textbf{R}$ank & $\textbf{K}$ernel$ \textbf{A}$ttention). FLuRKA are highly $\textit{training-efficient}$ with faster model speeds $\textit{and}$ similar model qualities compared to constituent low-rank and kernel methods. We theoretically and empirically evaluate the speed and quality of FLuRKA. Our model speed analysis posits a variety of parameter configurations where FLuRKA exhibit speedups over low-rank and kernel approximations and our model quality analysis bounds the error of FLuRKA with respect to full-attention. Empirically, we instantiate three FLuRKA variants which experience speedups of up to 3.3x and 1.7x over low-rank and kernel methods respectively. This translates to speedups of up to 20x over models with flash-attention. Across a diverse set of tasks spanning language modeling, language understanding, long sequence modeling, machine translation, and image classification, FLuRKA achieve comparable accuracy with underlying low-rank and kernel approximations, occasionally surpassing both.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-02
# メタ推論:大規模言語モデルのための意味論的シンボリックデコンストラクション

Meta-Reasoning: Semantics-Symbol Deconstruction for Large Language Models ( http://arxiv.org/abs/2306.17820v4 )

ライセンス: Link先を確認
Yiming Wang, Zhuosheng Zhang, Pei Zhang, Baosong Yang, Rui Wang, (参考訳) ニューラルシンボリック法は、大規模言語モデル(LLM)の推論能力を向上する効率を実証している。 しかし、既存のメソッドは主に構文的に自然言語をPythonやSQLのような完全な形式言語にマッピングすることに依存している。 これらの方法は、推論タスクをプログラムに変換し、コンピュータの実行マインドセットに適合し、人間の推論習慣から逸脱することを要求する。 実世界における象徴的手法の適用性と適応性を広げるために,メタ推論を言語学的観点から提案する。 この方法により、LLMは推論に依存しない意味情報を一般的な記号表現に分解し、より一般化された推論知識を効率的に取得することができる。 我々は、算術、記号、論理的推論といった従来の推論タスクを含む10以上のデータセットと、理論の推論のようなより複雑な対話的推論タスクに関する広範な実験を行う。 実験結果から,メタ推論はコンテキスト内推論精度,学習効率,領域外一般化,出力安定性を,Chain-of-Thought手法と比較して著しく向上させることが示された。 コードとデータは \url{https://github.com/Alsace08/Meta-Reasoning} で公開されている。

Neural-symbolic methods have demonstrated efficiency in enhancing the reasoning abilities of large language models (LLMs). However, existing methods mainly rely on syntactically mapping natural languages to complete formal languages like Python and SQL. Those methods require that reasoning tasks be convertible into programs, which cater to the computer execution mindset and deviate from human reasoning habits. To broaden symbolic methods' applicability and adaptability in the real world, we propose the Meta-Reasoning from a linguistic perspective. This method empowers LLMs to deconstruct reasoning-independent semantic information into generic symbolic representations, thereby efficiently capturing more generalized reasoning knowledge. We conduct extensive experiments on more than ten datasets encompassing conventional reasoning tasks like arithmetic, symbolic, and logical reasoning, and the more complex interactive reasoning tasks like theory-of-mind reasoning. Experimental results demonstrate that Meta-Reasoning significantly enhances in-context reasoning accuracy, learning efficiency, out-of-domain generalization, and output stability compared to the Chain-of-Thought technique. Code and data are publicly available at \url{https://github.com/Alsace08/Meta-Reasoning}.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-02
# サハラ以南のアフリカにおける既存の土地被覆地図はどの程度正確か?

How accurate are existing land cover maps for agriculture in Sub-Saharan Africa? ( http://arxiv.org/abs/2307.02575v2 )

ライセンス: Link先を確認
Hannah Kerner, Catherine Nakalembe, Adam Yang, Ivan Zvonkov, Ryan McWeeny, Gabriel Tseng, Inbal Becker-Reshef, (参考訳) 衛星地球観測(EO)は、作物の状態や食糧生産を評価するための安価でタイムリーな情報を提供することができる。 このような監視システムは、食糧不安全と農業統計の希薄なアフリカでは不可欠である。 EOをベースとしたモニタリングシステムは、作物に関する情報を提供するために正確な作物地図を必要とするが、アフリカ諸国の作物を最も正確に識別する多くの土地被覆地図のうちどれかを特定するためのデータが不足している。 本研究は,アフリカにおける作物の分類とEOに基づく農業モニタリングに適した土地被覆マップを,統計学的に厳密な8カ国の基準データセットを用いて,11の公用土地被覆マップの定量的評価と相互比較を行った。 本研究の結果は、利用者がニーズに合った地図を判断し、地図間の不整合を解消し、低精度領域の精度を向上させることに注力する今後の取り組みを促進するのに役立つと期待する。

Satellite Earth observations (EO) can provide affordable and timely information for assessing crop conditions and food production. Such monitoring systems are essential in Africa, where there is high food insecurity and sparse agricultural statistics. EO-based monitoring systems require accurate cropland maps to provide information about croplands, but there is a lack of data to determine which of the many available land cover maps most accurately identify cropland in African countries. This study provides a quantitative evaluation and intercomparison of 11 publicly available land cover maps to assess their suitability for cropland classification and EO-based agriculture monitoring in Africa using statistically rigorous reference datasets from 8 countries. We hope the results of this study will help users determine the most suitable map for their needs and encourage future work to focus on resolving inconsistencies between maps and improving accuracy in low-accuracy regions.
翻訳日:2024-06-04 21:20:11 公開日:2024-06-02
# CuTS: カスタマイズ可能なタブラル合成データ生成

CuTS: Customizable Tabular Synthetic Data Generation ( http://arxiv.org/abs/2307.03577v4 )

ライセンス: Link先を確認
Mark Vero, Mislav Balunović, Martin Vechev, (参考訳) プライバシー、データ品質、データ共有に関する懸念は、表データアプリケーションにとって重要な制限となる。 元のディストリビューションに類似した合成データを生成することはこれらの問題のいくつかに対処するが、ほとんどのアプリケーションは生成されたデータのさらなるカスタマイズの恩恵を受けるだろう。 しかし、既存の合成データアプローチは、例えば、差分プライバシー(DP)や公正性といった特定の制約に限られている。 本研究では,最初のカスタマイズ可能な合成表データ生成フレームワークであるCuTSを紹介する。 CuTSのカスタマイズは、宣言的な統計的および論理的表現によって達成され、幅広い要件(例えば、DPや公正性など)をサポートする。 カスタム仕様の存在下で高い合成データ品質を確保するため、CuTSは元のデータセットで事前訓練され、新しい緩和法を用いて提供された仕様から自動的に派生した微分可能な損失に基づいて微調整される。 我々は4つのデータセットと多数のカスタム仕様に基づいてCuTSを評価し、より汎用的でありながら、いくつかのタスクにおける最先端の専門的アプローチより優れている。 特に、同じ公平度レベルでは、アダルトデータセット上での公正な合成データ生成の最先端よりも、下流の精度が2.3%向上する。

Privacy, data quality, and data sharing concerns pose a key limitation for tabular data applications. While generating synthetic data resembling the original distribution addresses some of these issues, most applications would benefit from additional customization on the generated data. However, existing synthetic data approaches are limited to particular constraints, e.g., differential privacy (DP) or fairness. In this work, we introduce CuTS, the first customizable synthetic tabular data generation framework. Customization in CuTS is achieved via declarative statistical and logical expressions, supporting a wide range of requirements (e.g., DP or fairness, among others). To ensure high synthetic data quality in the presence of custom specifications, CuTS is pre-trained on the original dataset and fine-tuned on a differentiable loss automatically derived from the provided specifications using novel relaxations. We evaluate CuTS over four datasets and on numerous custom specifications, outperforming state-of-the-art specialized approaches on several tasks while being more general. In particular, at the same fairness level, we achieve 2.3% higher downstream accuracy than the state-of-the-art in fair synthetic data generation on the Adult dataset.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-02
# Reward Reweighing, Reselection, Retraining によるプロトタイプ部品ネットワークの改善

Improving Prototypical Part Networks with Reward Reweighing, Reselection, and Retraining ( http://arxiv.org/abs/2307.03887v3 )

ライセンス: Link先を確認
Aaron J. Li, Robin Netzorg, Zhihan Cheng, Zhuoqin Zhang, Bin Yu, (参考訳) 近年、モデルの出力をデータの特定の特徴に明確に関連付ける、画像分類のための深い解釈可能な手法の開発が進められている。 このような手法の1つにPrototypeal Part Network (ProtoPNet)があり、入力の有意義な部分に基づいて画像の分類を試みる。 このアーキテクチャは視覚的に解釈可能な分類を生成することができるが、意味論的に意味を持たない画像の部分に基づいて分類することを学ぶことが多い。 この問題に対処するために,事前学習したProtoPNetをオフラインかつ効率的な方法で3つの追加修正更新を行うReward Reweighing, Reselecting, Retraining (R3)後処理フレームワークを提案する。 最初の2つのステップは、収集された人間のフィードバックに基づいて報酬モデルを学び、プロトタイプを人間の好みに合わせることである。 最後のステップは再トレーニングであり、更新されたプロトタイプでベース機能とオリジナルのモデルの分類層を実現する。 我々のR3フレームワークは、ProtoPNetとそのバリエーションの解釈可能性と予測精度の両方を一貫して改善しています。

In recent years, work has gone into developing deep interpretable methods for image classification that clearly attributes a model's output to specific features of the data. One such of these methods is the Prototypical Part Network (ProtoPNet), which attempts to classify images based on meaningful parts of the input. While this architecture is able to produce visually interpretable classifications, it often learns to classify based on parts of the image that are not semantically meaningful. To address this problem, we propose the Reward Reweighing, Reselecting, and Retraining (R3) post-processing framework, which performs three additional corrective updates to a pretrained ProtoPNet in an offline and efficient manner. The first two steps involve learning a reward model based on collected human feedback and then aligning the prototypes with human preferences. The final step is retraining, which realigns the base features and the classifier layer of the original model with the updated prototypes. We find that our R3 framework consistently improves both the interpretability and the predictive accuracy of ProtoPNet and its variants.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-02
# メタラーニングのためのタスクサンプリング学習に向けて

Towards Task Sampler Learning for Meta-Learning ( http://arxiv.org/abs/2307.08924v4 )

ライセンス: Link先を確認
Jingyao Wang, Wenwen Qiang, Xingzhe Su, Changwen Zheng, Fuchun Sun, Hui Xiong, (参考訳) メタラーニングは、限られたデータから行われる多様なトレーニングタスクで一般的な知識を学び、それを新しいタスクに転送することを目的としている。 タスク多様性の増大はメタラーニングモデルの一般化能力を高めると一般的に信じられている。 しかし,本論文は経験的・理論的分析を通じて,この視点に挑戦する。 3つの結論が得られます。 (i)メタラーニングモデルの最適性能を保証する普遍的なタスクサンプリング戦略は存在しない。 (二)過度に制約されたタスクの多様性は、トレーニング中に過度に適合するリスクや過度に適合するリスクを生じさせる可能性がある。 三 メタラーニングモデルの一般化性能は、タスク多様性、タスクエントロピー、タスク難易度に左右される。 この知見に基づいて、適応サンプリング(ASr)と呼ばれる新しいタスクサンプルを設計する。 ASrは、任意のメタ学習フレームワークに統合できるプラグイン・アンド・プレイモジュールである。 タスクの多様性、タスクエントロピー、タスクの難易度に応じてタスクウェイトを動的に調整し、メタトレーニングタスクの最適確率分布を得る。 最後に、様々なシナリオにわたる一連のベンチマークデータセットの実験を行い、その結果、ASrには明確な利点があることを実証した。

Meta-learning aims to learn general knowledge with diverse training tasks conducted from limited data, and then transfer it to new tasks. It is commonly believed that increasing task diversity will enhance the generalization ability of meta-learning models. However, this paper challenges this view through empirical and theoretical analysis. We obtain three conclusions: (i) there is no universal task sampling strategy that can guarantee the optimal performance of meta-learning models; (ii) over-constraining task diversity may incur the risk of under-fitting or over-fitting during training; and (iii) the generalization performance of meta-learning models are affected by task diversity, task entropy, and task difficulty. Based on this insight, we design a novel task sampler, called Adaptive Sampler (ASr). ASr is a plug-and-play module that can be integrated into any meta-learning framework. It dynamically adjusts task weights according to task diversity, task entropy, and task difficulty, thereby obtaining the optimal probability distribution for meta-training tasks. Finally, we conduct experiments on a series of benchmark datasets across various scenarios, and the results demonstrate that ASr has clear advantages.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-02
# Realistic Thick-Slice CT シミュレーションによる超解像ネットワークの強化

Enhancing Super-Resolution Networks through Realistic Thick-Slice CT Simulation ( http://arxiv.org/abs/2307.10182v3 )

ライセンス: Link先を確認
Zeyu Tang, Xiaodan Xing, Guang Yang, (参考訳) 深層学習に基づく生成モデルでは、低分解能CT画像を長い取得時間なしで高分解能CT画像に変換する可能性があり、薄スライスCT画像では放射線暴露が増大する。 しかし、これらの超解法(SR)モデルの適切なトレーニングデータを取得することは困難である。 これまでのSR研究では、薄いスライスCT画像から厚いスライスCT画像をシミュレートして、トレーニングペアを作成していた。 しかし、これらの手法は、生データと複雑な再構成アルゴリズムの公開を必要とする写実性やノングラムの再構成を欠く、単純化された補間技術に依存している。 そこで本研究では,薄いスライスCT画像から厚いCT画像を生成するための,単純かつ現実的な手法を導入し,SRアルゴリズムのトレーニングペアの作成を容易にする。 提案手法は実データ分布(PSNR=49.74 vs. 40.66, p$<$0.05)によく似ている。 肺線維症を伴う肉厚CT画像を用いた多変量コックス回帰分析により, 死亡率と有意な相関が認められた(HR=1.19, HR=1.14, p$<0.005)。 本稿では,実世界のシナリオにおけるSRモデルの有効性と適用性を高めることを目的とした,ディープラーニングベースのCT SRモデルの適切なペア化トレーニングデータ生成の課題を,初めて特定・解決する。

Deep learning-based Generative Models have the potential to convert low-resolution CT images into high-resolution counterparts without long acquisition times and increased radiation exposure in thin-slice CT imaging. However, procuring appropriate training data for these Super-Resolution (SR) models is challenging. Previous SR research has simulated thick-slice CT images from thin-slice CT images to create training pairs. However, these methods either rely on simplistic interpolation techniques that lack realism or sinogram reconstruction, which require the release of raw data and complex reconstruction algorithms. Thus, we introduce a simple yet realistic method to generate thick CT images from thin-slice CT images, facilitating the creation of training pairs for SR algorithms. The training pairs produced by our method closely resemble real data distributions (PSNR=49.74 vs. 40.66, p$<$0.05). A multivariate Cox regression analysis involving thick slice CT images with lung fibrosis revealed that only the radiomics features extracted using our method demonstrated a significant correlation with mortality (HR=1.19 and HR=1.14, p$<$0.005). This paper represents the first to identify and address the challenge of generating appropriate paired training data for Deep Learning-based CT SR models, which enhances the efficacy and applicability of SR models in real-world scenarios.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-02
# 感性分析のためのマルチモーダル多損失核融合ネットワーク

Multimodal Multi-loss Fusion Network for Sentiment Analysis ( http://arxiv.org/abs/2308.00264v4 )

ライセンス: Link先を確認
Zehui Wu, Ziwei Gong, Jaywon Koo, Julia Hirschberg, (参考訳) 本稿では,複数のモードにまたがる特徴エンコーダの最適選択と融合について検討し,これらを1つのニューラルネットワークに組み合わせて感情検出を改善する。 我々は,異なる融合法を比較し,マルチモダリティ融合ネットワークにおけるマルチロストレーニングの影響について検討し,サブネットの性能に関する驚くほど重要な知見を同定した。 また、コンテキストの統合によってモデルの性能が大幅に向上することがわかりました。 本モデルでは,3つのデータセット(CMU-MOSI,CMU-MOSEI,CH-SIMS)の最先端性能を実現する。 これらの結果は、ニューラルネットワークにおける感情検出を強化するために、最適化された特徴選択と融合アプローチに向けたロードマップを示唆している。

This paper investigates the optimal selection and fusion of feature encoders across multiple modalities and combines these in one neural network to improve sentiment detection. We compare different fusion methods and examine the impact of multi-loss training within the multi-modality fusion network, identifying surprisingly important findings relating to subnet performance. We have also found that integrating context significantly enhances model performance. Our best model achieves state-of-the-art performance for three datasets (CMU-MOSI, CMU-MOSEI and CH-SIMS). These results suggest a roadmap toward an optimized feature selection and fusion approach for enhancing sentiment detection in neural networks.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-02
# 古典的難解問題に対する量子近似最適化アルゴリズムのスケーリング手法の証明

Evidence of Scaling Advantage for the Quantum Approximate Optimization Algorithm on a Classically Intractable Problem ( http://arxiv.org/abs/2308.02342v2 )

ライセンス: Link先を確認
Ruslan Shaydulin, Changhao Li, Shouvanik Chakrabarti, Matthew DeCross, Dylan Herman, Niraj Kumar, Jeffrey Larson, Danylo Lykov, Pierre Minssen, Yue Sun, Yuri Alexeev, Joan M. Dreiling, John P. Gaebler, Thomas M. Gatterman, Justin A. Gerber, Kevin Gilmore, Dan Gresh, Nathan Hewitt, Chandler V. Horst, Shaohan Hu, Jacob Johansen, Mitchell Matheny, Tanner Mengle, Michael Mills, Steven A. Moses, Brian Neyenhuis, Peter Siegfried, Romina Yalovetzky, Marco Pistoia, (参考訳) 量子近似最適化アルゴリズム(QAOA)は、量子コンピュータにおける最適化問題を解くための主要な候補アルゴリズムである。 しかし、古典的に難解な問題に取り組むQAOAの可能性は、まだ不明である。 本稿では,低自己相関バイナリシーケンス(LABS)問題に対するQAOAの広範な数値的な検討を行う。 最大40キュービットのノイズレスシミュレーションを行い、パラメータが固定されたQAOAのランタイムは、LABSの最先端の正確な解法であるブランチ・アンド・バウンド・ソルバよりも良くスケールすることを示した。 QAOAと量子最小探索の組み合わせは、LABS問題に対する任意のアルゴリズムの最良の経験的スケーリングを与える。 我々は,量子トラップイオンプロセッサ上でのアルゴリズム固有の誤り検出手法を用いて,LABS問題に対するQAOAの実行実験を行った。 本結果は,量子スピードアップを実現するアルゴリズムコンポーネントとしてのQAOAの有用性を示すものである。

The quantum approximate optimization algorithm (QAOA) is a leading candidate algorithm for solving optimization problems on quantum computers. However, the potential of QAOA to tackle classically intractable problems remains unclear. Here, we perform an extensive numerical investigation of QAOA on the low autocorrelation binary sequences (LABS) problem, which is classically intractable even for moderately sized instances. We perform noiseless simulations with up to 40 qubits and observe that the runtime of QAOA with fixed parameters scales better than branch-and-bound solvers, which are the state-of-the-art exact solvers for LABS. The combination of QAOA with quantum minimum finding gives the best empirical scaling of any algorithm for the LABS problem. We demonstrate experimental progress in executing QAOA for the LABS problem using an algorithm-specific error detection scheme on Quantinuum trapped-ion processors. Our results provide evidence for the utility of QAOA as an algorithmic component that enables quantum speedups.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-02
# PentestGPT: LLMを利用した自動貫入試験ツール

PentestGPT: An LLM-empowered Automatic Penetration Testing Tool ( http://arxiv.org/abs/2308.06782v2 )

ライセンス: Link先を確認
Gelei Deng, Yi Liu, Víctor Mayoral-Vilches, Peng Liu, Yuekang Li, Yuan Xu, Tianwei Zhang, Yang Liu, Martin Pinzger, Stefan Rass, (参考訳) システムセキュリティを確保するための重要な産業慣行である浸透試験は、伝統的に人間の専門職が必要とする広範な専門知識のために自動化に抵抗してきた。 大規模言語モデル(LLM)は、様々な領域において大きな進歩を見せており、その創発的な能力は、産業に革命をもたらす可能性を示唆している。 本研究では,テストマシンとプラットフォームを併用したロバストなベンチマークを用いて,実世界の浸透試験タスクにおけるLLMの性能を評価する。 その結果,LSMは,テストツールの使用,アウトプットの解釈,その後の動作の提案など,浸透試験プロセス内の特定のサブタスクの習熟度を示す一方で,総合的なテストシナリオの統合的理解の維持にも困難が生じることがわかった。 これらの知見に応えて,LLMに固有の豊富なドメイン知識を活用する自動浸透テストツールであるPentestGPTを紹介した。 PentestGPTは、3つの自己相互作用モジュールで慎重に設計されており、それぞれが個々の潜入テストのサブタスクに対処し、コンテキスト損失に関連する課題を軽減する。 評価の結果,PentestGPTは,ベンチマーク対象の<gpt Three>モデルと比較して228.6\%のタスク完了率でLLMを上回り,実世界の浸透試験の課題に対処する上でも有効であることがわかった。 GitHubでオープンソース化されて以来、PentestGPTは4700以上のスターを集め、学術分野と産業分野の両方でその価値と影響を証明し、活発なコミュニティの関与を促進してきた。

Penetration testing, a crucial industrial practice for ensuring system security, has traditionally resisted automation due to the extensive expertise required by human professionals. Large Language Models (LLMs) have shown significant advancements in various domains, and their emergent abilities suggest their potential to revolutionize industries. In this research, we evaluate the performance of LLMs on real-world penetration testing tasks using a robust benchmark created from test machines with platforms. Our findings reveal that while LLMs demonstrate proficiency in specific sub-tasks within the penetration testing process, such as using testing tools, interpreting outputs, and proposing subsequent actions, they also encounter difficulties maintaining an integrated understanding of the overall testing scenario. In response to these insights, we introduce PentestGPT, an LLM-empowered automatic penetration testing tool that leverages the abundant domain knowledge inherent in LLMs. PentestGPT is meticulously designed with three self-interacting modules, each addressing individual sub-tasks of penetration testing, to mitigate the challenges related to context loss. Our evaluation shows that PentestGPT not only outperforms LLMs with a task-completion increase of 228.6\% compared to the \gptthree model among the benchmark targets but also proves effective in tackling real-world penetration testing challenges. Having been open-sourced on GitHub, PentestGPT has garnered over 4,700 stars and fostered active community engagement, attesting to its value and impact in both the academic and industrial spheres.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-02
# 強化学習による離散プロンプト圧縮

Discrete Prompt Compression with Reinforcement Learning ( http://arxiv.org/abs/2308.08758v3 )

ライセンス: Link先を確認
Hoyoun Jung, Kyung-Joong Kim, (参考訳) Compressed prompts aid instruction-tuned language model (LM) inovercoming context window limit and reduce computational cost。 既存のメソッドは、主にトレーニングの埋め込みに基づいているが、解釈可能性、埋め込みトークンの固定数、異なるLM間の再利用性、ブラックボックスAPIとのインタラクションにおける適用性など、さまざまな課題に直面している。 本研究では,これらの問題に対処する離散的プロンプト圧縮法であるPCRLを用いた即時圧縮を提案する。 提案手法は,プロンプトを直接編集する計算効率の良いポリシネットワークを利用する。 提案したPCRLのトレーニングアプローチは,デコーダのみとエンコーダ-デコーダアーキテクチャの両方を含む様々な種類のLMに対して柔軟に適用可能であり,LMやラベル付きデータへの勾配アクセスなしにトレーニングすることができる。 PCRLは,各種命令プロンプトにまたがるトークン数を平均24.6%削減し,十分な性能を維持した。 さらに,学習方針をより大きなLMに移行できることを実証し,包括的分析により,プロンプト内のトークンの重要性について検討する。 私たちのコードはhttps://github.com/nenomigami/PromptCompressorでアクセスできます。

Compressed prompts aid instruction-tuned language models (LMs) in overcoming context window limitations and reducing computational costs. Existing methods, which primarily based on training embeddings, face various challenges associated with interpretability, the fixed number of embedding tokens, reusability across different LMs, and inapplicability when interacting with black-box APIs. This study proposes prompt compression with reinforcement learning (PCRL), which is a discrete prompt compression method that addresses these issues. The proposed PCRL method utilizes a computationally efficient policy network that edits prompts directly. The training approach employed in the proposed PCRLs can be applied flexibly to various types of LMs, including both decoder-only and encoder-decoder architecture and it can be trained without gradient access to the LMs or labeled data. The proposed PCRL achieves an average reduction of 24.6% in terms of the token count across various instruction prompts while maintaining sufficient performance. In addition, we demonstrate that the learned policy can be transferred to larger LMs, and through a comprehensive analysis, we explore the token importance within the prompts. Our code is accessible at https://github.com/nenomigami/PromptCompressor.
翻訳日:2024-06-04 21:10:26 公開日:2024-06-02
# プライバシー保護型3層ニューラルネットワークトレーニング

Privacy-Preserving 3-Layer Neural Network Training ( http://arxiv.org/abs/2308.09531v2 )

ライセンス: Link先を確認
John Chiang, (参考訳) 本稿では,ニューラルネットワークのプライバシ保護トレーニングの問題点を,ただの同型暗号設定で考察する。 我々は、利用可能ないくつかの拡張技術を組み合わせて、それらを拡張し、最終的に、ただの同型暗号技術を用いて回帰と分類の問題を3層ニューラルネットワークのトレーニングを可能にする。

In this manuscript, we consider the problem of privacy-preserving training of neural networks in the mere homomorphic encryption setting. We combine several exsiting techniques available, extend some of them, and finally enable the training of 3-layer neural networks for both the regression and classification problems using mere homomorphic encryption technique.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-02
# 思考のアルゴリズム:大規模言語モデルにおけるアイデアの探索を促進する

Algorithm of Thoughts: Enhancing Exploration of Ideas in Large Language Models ( http://arxiv.org/abs/2308.10379v3 )

ライセンス: Link先を確認
Bilgehan Sel, Ahmad Al-Tawaha, Vanshaj Khattar, Ruoxi Jia, Ming Jin, (参考訳) 現在の文献は、"Chain-of-Thought"アプローチを超越することを目的としており、しばしば、停止、修正、そして大言語モデル(LLM)推論能力を高めるために生成プロセスの再開を含む外部のmodi Operandiを頼りにしている。 ミオピックな視点から見ると、クエリ要求の数が増加し、コスト、メモリ、計算オーバーヘッドが増大する。 そこで我々は,LLMをアルゴリズム的推論経路を通じて推進する新しい戦略である,思考のアルゴリズムを提案する。 完全にコンテキスト内でのアルゴリズム的な例を利用することで、プロセス全体の全体像は、LLMの自然再帰のダイナミクスを生かし、そのアイデア探索を単に1つまたは数つのクエリで拡張する。 我々の手法は、より少ないトークンを用いて、より広範な木探索アルゴリズムを用いて、より古い単一クエリ手法やより最近のマルチクエリ戦略よりも優れている。 興味深いことに,本研究の結果から,アルゴリズムを用いたLLMの指導がアルゴリズム自体を上回る性能をもたらすことが示唆され,LLMの直感を最適化された検索に織り込む能力が示唆された。 我々は,本手法の有効性の基盤と,適用上のニュアンスについて検討する。 コードとその関連コンテンツは、https://algorithm-of- Thoughts.github.io.comで見ることができる。

Current literature, aiming to surpass the "Chain-of-Thought" approach, often resorts to external modi operandi involving halting, modifying, and then resuming the generation process to boost Large Language Models' (LLMs) reasoning capacities. Due to their myopic perspective, they escalate the number of query requests, leading to increased costs, memory, and computational overheads. Addressing this, we propose the Algorithm of Thoughts -- a novel strategy that propels LLMs through algorithmic reasoning pathways. By employing algorithmic examples fully in-context, this overarching view of the whole process exploits the innate recurrence dynamics of LLMs, expanding their idea exploration with merely one or a few queries. Our technique outperforms earlier single-query methods and even more recent multi-query strategies that employ an extensive tree search algorithms while using significantly fewer tokens. Intriguingly, our results suggest that instructing an LLM using an algorithm can lead to performance surpassing that of the algorithm itself, hinting at LLM's inherent ability to weave its intuition into optimized searches. We probe into the underpinnings of our method's efficacy and its nuances in application. The code and related content can be found in: https://algorithm-of-thoughts.github.io.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-02
# マヨアナフェルミオンと分数位相と障害を伴う量子情報

Majorana fermions and quantum information with fractional topology and disorder ( http://arxiv.org/abs/2309.03127v3 )

ライセンス: Link先を確認
Ephraim Bernhardt, Brian Chung Hang Cheung, Karyn Le Hur, (参考訳) 物理学や凝縮物質系におけるマヨラナフェルミオンの同定と観測の探求は、依然として重要な課題である。 ここでは、2つの非局在零エネルギーマヨラナフェルミオンが、分数1半位相状態のブロッホ球上での2つのスピン-1/2$のモデルで発生するような量子ビット(spin-$1/2$)を導入する。 我々は、円偏光と、量子情報プロトコルに関連するこの非局在スピン-1/2$状態の保護により、特定のプロトコルを時間内に処理する。 我々はまた、障害が一重項-三重項遷移を許容し、分数相に対する追加の伸長領域を生じさせ、このプラットフォームがトポロジカルに保護された量子情報における応用に結びつく可能性を実証する上で、いかにポジティブかつ重要な役割を果たすかを示す。 環幾何における辺のマヨラナフェルミオンとアレーとマヨラナフェルミオンでアプローチを一般化する。

The quest to identify and observe Majorana fermions in physics and condensed-matter systems remains an important challenge. Here, we introduce a qubit (spin-$1/2$) from the occurrence of two delocalized zero-energy Majorana fermions in a model of two spins-$1/2$ on the Bloch sphere within the fractional one-half topological state. We address specific protocols in time with circularly polarized light and the protection of this delocalized spin-$1/2$ state related to quantum information protocols. We also show how disorder can play a positive and important role allowing singlet-triplet transitions and resulting in an additional elongated region for the fractional phase, demonstrating the potential of this platform related to applications in topologically protected quantum information. We generalize our approach with an array and Majorana fermions at the edges in a ring geometry.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-02
# カラーコードに基づく実用的フォールトトレラント量子コンピューティング

Facilitating Practical Fault-tolerant Quantum Computing Based on Color Codes ( http://arxiv.org/abs/2309.05222v5 )

ライセンス: Link先を確認
Jiaxuan Zhang, Yu-Chun Wu, Guo-Ping Guo, (参考訳) カラーコードはフォールトトレラント量子コンピューティングにとって有望なトポロジ的コードである。 カラーコードに関する不十分な研究は、その実用化を遅らせている。 本研究では,カラーコードに基づく実用的なフォールトトレラント量子コンピューティングを実現するために,いくつかの重要な課題に対処する。 まず, 誤差時間関係の重み付き復号グラフを導入することにより, 標準回路レベルのノイズモデルの下で, 6,6 の三角形カラーコードに対して 0.47 % の閾値を求め, 表面符号との差を狭めた。 第2に,カラーコード格子手術の回路レベルの復号化をまず検討し,2次元アーキテクチャを持つ量子コンピュータにおいて論理演算を行う上で重要な,効率的な復号化アルゴリズムを提案する。 最後に, 三角カラーコードの新しい状態注入プロトコルを提案し, 従来の粗いプロトコルと比較して, 1ラウンドの15から1の蒸留における出力マジック状態エラー率を2桁減らした。 また、我々のプロトコルは、可能なすべてのCSSコードの中で、状態注入の論理的エラー率が最も低いことを証明しています。

Color code is a promising topological code for fault-tolerant quantum computing. Insufficient research on the color code has delayed its practical application. In this work, we address several key issues to facilitate practical fault-tolerant quantum computing based on color codes. First, by introducing decoding graphs with error-rate-related weights, we obtained the threshold of $0.47\%$ of the 6,6,6 triangular color code under the standard circuit-level noise model, narrowing the gap to that of the surface code. Second, our work firstly investigates the circuit-level decoding of color code lattice surgery, and gives an efficient decoding algorithm, which is crucial for performing logical operations in a quantum computer with two-dimensional architectures. Lastly, a new state injection protocol of the triangular color code is proposed, reducing the output magic state error rate in one round of 15 to 1 distillation by two orders of magnitude compared to a previous rough protocol. We have also proven that our protocol offers the lowest logical error rates for state injection among all possible CSS codes.
翻訳日:2024-06-04 21:00:32 公開日:2024-06-02
# クラスタ推定からグラフ畳み込みへ - グラフに基づく半教師付き学習の再考

From Cluster Assumption to Graph Convolution: Graph-based Semi-Supervised Learning Revisited ( http://arxiv.org/abs/2309.13599v2 )

ライセンス: Link先を確認
Zheng Wang, Hongming Ding, Li Pan, Jianhua Li, Zhiguo Gong, Philip S. Yu, (参考訳) グラフベースの半教師付き学習(GSSL)は、長い間ホットな研究トピックだった。 従来の手法は一般にクラスタの仮定に基づいて浅い学習者である。 近年, グラフ畳み込みネットワーク (GCN) が, 有望な性能を示す主要な技術となっている。 本稿では,これらの2種類の手法の関係を統一最適化フレームワークで理論的に論じる。 最も興味深い発見の1つは、従来のものとは異なり、典型的なGCNはグラフ構造と各層のラベル情報を共同で考慮していないことである。 これを動機として、我々はさらに3つの単純かつ強力なグラフ畳み込み法を提案する。 1つ目は、ラベル付きグラフ畳み込みプロセスをガイドする教師付きOGCである。 GGCとそのマルチスケールバージョンであるGGCMは、畳み込みプロセス中にグラフ構造情報を保存することを目的としている。 最後に,提案手法の有効性を示す広範囲な実験を行った。

Graph-based semi-supervised learning (GSSL) has long been a hot research topic. Traditional methods are generally shallow learners, based on the cluster assumption. Recently, graph convolutional networks (GCNs) have become the predominant techniques for their promising performance. In this paper, we theoretically discuss the relationship between these two types of methods in a unified optimization framework. One of the most intriguing findings is that, unlike traditional ones, typical GCNs may not jointly consider the graph structure and label information at each layer. Motivated by this, we further propose three simple but powerful graph convolution methods. The first is a supervised method OGC which guides the graph convolution process with labels. The others are two unsupervised methods: GGC and its multi-scale version GGCM, both aiming to preserve the graph structure information during the convolution process. Finally, we conduct extensive experiments to show the effectiveness of our methods.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-02
# Map EquationがNeuralに:グラフニューラルネットワークによるネットワークフローのマッピング

The Map Equation Goes Neural: Mapping Network Flows with Graph Neural Networks ( http://arxiv.org/abs/2310.01144v3 )

ライセンス: Link先を確認
Christopher Blöcker, Chester Tan, Ingo Scholtes, (参考訳) コミュニティ検出は、教師なしのデータ探索と、ネットワーク化されたシステムの組織構造を明らかにするために不可欠なツールである。 ネットワーク科学の長い歴史の中で、コミュニティ検出は一般的に客観的関数に依存しており、カスタマイズされた検索アルゴリズムで最適化されるが、近年のディープラーニングの進歩を活用できないことが多い。 近年,ニューラルグラフクラスタリングとプーリングの損失関数にそのような目的を取り入れた最初の研究が始まっている。 我々は、教師なしコミュニティ検出のための一般的な情報理論的目的関数であるマップ方程式を考察し、勾配降下による最適化のための微分可能なテンソル形式で表現する。 我々の定式化は、任意のニューラルネットワークアーキテクチャと互換性のあるマップ方程式を変換し、エンドツーエンドの学習を可能にし、ノードの特徴を取り入れ、クラスタの最適な数を自動的に選択する。 教師なしグラフクラスタリングタスクに適用すると、合成および実世界のデータセットにおける最先端のニューラルネットワーククラスタリングベースラインに対する競合性能が達成される。

Community detection is an essential tool for unsupervised data exploration and revealing the organisational structure of networked systems. With a long history in network science, community detection typically relies on objective functions, optimised with custom-tailored search algorithms, but often without leveraging recent advances in deep learning. Recently, first works have started incorporating such objectives into loss functions for neural graph clustering and pooling. We consider the map equation, a popular information-theoretic objective function for unsupervised community detection, and express it in differentiable tensor form for optimisation through gradient descent. Our formulation turns the map equation compatible with any neural network architecture, enables end-to-end learning, incorporates node features, and chooses the optimal number of clusters automatically, all without requiring explicit regularisation. Applied to unsupervised graph clustering tasks, we achieve competitive performance against state-of-the-art neural graph clustering baselines in synthetic and real-world datasets.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-02
# マルチタスク学習とファインタニングのインプシット正規化--機能再利用の複数の方法

Implicit regularization of multi-task learning and finetuning: multiple regimes of feature reuse ( http://arxiv.org/abs/2310.02396v3 )

ライセンス: Link先を確認
Samuel Lippl, Jack W. Lindsey, (参考訳) 本研究では,複数タスクの同時学習から生じる帰納的バイアス(マルチタスク学習,MTL)と逐次学習(事前学習,その後の微調整,PT+FT)について検討する。 対角線ネットワークおよび単層ReLUネットワークにおけるMTLおよびPT+FTに付随する新しい暗黙正則化法則について述べる。 これらの罰則は、MTLとPT+FTが異なる方法で機能を再利用するためにネットワークを誘導することを示している。 1) MTL と PT+FT の両者は,タスク間の特徴再利用,学習した特徴の集合における疎性に偏りを示す。 これら2つのバイアス間の直接的なトレードオフを意味する「保守法則」を示します。 我々の結果は、微調整中は、ネットワークがカーネル(または「怠け者」)と機能学習(リッチ」)のハイブリッドで動作していることも示唆している。 2) PT+FTは, 遅延状態とリッチな状態のいずれにも記述されない, 新規な「ネストされた特徴選択」行動を示し, 事前訓練中に学習した特徴の疎い部分集合を抽出する傾向を示した。 この体制はMTLにとってより狭くなっている。 3) ReLU ネットワークにおける PT+FT (ただし MTL は含まない) は, 補助タスクと主タスクの相関する特徴の恩恵を受ける。 教師学生モデルを用いて,経験的考察を検証した。 最後に、画像分類タスクを訓練したディープニューラルネットワークにおける我々の理論を検証する。 また,本手法がネットワークをネストした特徴選択方式で動作させることで微調整性能を向上させることができることを示す。

In this work, we investigate the inductive biases that arise from learning multiple tasks, either simultaneously (multi-task learning, MTL) or sequentially (pretraining and subsequent finetuning, PT+FT). We describe novel implicit regularization penalties associated with MTL and PT+FT in diagonal linear networks and single-hidden-layer ReLU networks. These penalties indicate that MTL and PT+FT induce the network to reuse features in different ways. 1) Both MTL and PT+FT exhibit biases towards feature reuse between tasks, and towards sparsity in the set of learned features. We show a "conservation law" that implies a direct tradeoff between these two biases. Our results also imply that during finetuning, networks operate in a hybrid of the kernel (or "lazy") regime and the feature-learning ("rich") regime identified in prior work. 2) PT+FT exhibits a novel "nested feature selection" behavior not described by either the lazy or rich regimes, which biases it to extract a sparse subset of the features learned during pretraining. This regime is much narrower for MTL. 3) PT+FT (but not MTL) in ReLU networks benefits from features that are correlated between the auxiliary and main task. We confirm our insights empirically with teacher-student models. Finally, we validate our theory in deep neural networks trained on image classification tasks, finding that they may exhibit a nested feature selection regime. We also introduce a practical technique -- weight rescaling following pretraining -- and provide evidence that this method can improve finetuning performance by inducing the network to operate in the nested feature selection regime.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-02
# 温度依存型GFlowNetにおけるログのスケール学習

Learning to Scale Logits for Temperature-Conditional GFlowNets ( http://arxiv.org/abs/2310.02823v3 )

ライセンス: Link先を確認
Minsu Kim, Joohwan Ko, Taeyoung Yun, Dinghuai Zhang, Ling Pan, Woochang Kim, Jinkyoo Park, Emmanuel Bengio, Yoshua Bengio, (参考訳) GFlowNetsは確率的ポリシーによって連続的に構成構造を生成する確率論的モデルである。 GFlowNetsの中では、温度条件付きGFlowNetsは、探索と利用のための温度ベースの制御性を導入することができる。 温度条件付きGFlowNetのトレーニングを大幅に高速化する新しいアーキテクチャ設計であるGFlowNets(Logit-GFN)を提案する。 以前提案されたアプローチは、異なる温度が、ポリシーのロジットの規模だけでなく、非常に異なる勾配プロファイルをもたらす可能性があるため、ディープ・ネットワーク・トレーニングにおいて数値的な課題を導入したという考え方に基づいている。 温度の学習関数がポリシーのロジットを直接スケールするために使用されると、課題は大幅に減少する。 また、Logit-GFNを使用することで、オフライン学習における一般化機能とオンライン学習におけるモード発見機能により、GFlowNetsが改善される。 我々のコードは \url{https://github.com/dbsxodud-11/logit-gfn} で入手できる。

GFlowNets are probabilistic models that sequentially generate compositional structures through a stochastic policy. Among GFlowNets, temperature-conditional GFlowNets can introduce temperature-based controllability for exploration and exploitation. We propose \textit{Logit-scaling GFlowNets} (Logit-GFN), a novel architectural design that greatly accelerates the training of temperature-conditional GFlowNets. It is based on the idea that previously proposed approaches introduced numerical challenges in the deep network training, since different temperatures may give rise to very different gradient profiles as well as magnitudes of the policy's logits. We find that the challenge is greatly reduced if a learned function of the temperature is used to scale the policy's logits directly. Also, using Logit-GFN, GFlowNets can be improved by having better generalization capabilities in offline learning and mode discovery capabilities in online learning, which is empirically verified in various biological and chemical tasks. Our code is available at \url{https://github.com/dbsxodud-11/logit-gfn}
翻訳日:2024-06-04 20:50:48 公開日:2024-06-02
# 外乱検出のためのQuantile-based Maximum Likelihood Training

Quantile-based Maximum Likelihood Training for Outlier Detection ( http://arxiv.org/abs/2310.06085v3 )

ライセンス: Link先を確認
Masoud Taghikhah, Nishant Kumar, Siniša Šegvić, Abouzar Eslami, Stefan Gumhold, (参考訳) 識別学習は、画像分類のための真のオブジェクトクラスを効果的に予測する。 しかし、これは多くの場合、自動走行やビデオ監視システムといったアプリケーションに重大な懸念を呈する、オフレーヤに対する偽陽性をもたらす。 この課題に対処する以前の試みは、実際のアウトレイアデータを使用したコントラスト学習や、自己教師型学習のためのアウトレイアの合成によるイメージ分類器の訓練であった。 さらに、画素空間における不整合の教師なし生成モデリングは、外乱検出に限られた成功を示してきた。 そこで本研究では,不整合分布を学習し,推定時の外乱分離を改善するために,量子化に基づく最大極大目標を提案する。 本手法は, 事前学習した識別特徴に正規化フローを適合させ, 評価されたログ類似度に応じて異常値を検出する。 実験により, 異常検出のための最先端の教師なし手法の性能を超越した手法の有効性を実証した。 結果はまた、最近の自己教師によるアウトラヤ検出手法と比較しても競争力がある。 私たちの研究は、医学診断やリモートセンシングといった領域において特に重要な、十分にサンプリングされた負のトレーニングデータへの依存を減らすことが可能です。

Discriminative learning effectively predicts true object class for image classification. However, it often results in false positives for outliers, posing critical concerns in applications like autonomous driving and video surveillance systems. Previous attempts to address this challenge involved training image classifiers through contrastive learning using actual outlier data or synthesizing outliers for self-supervised learning. Furthermore, unsupervised generative modeling of inliers in pixel space has shown limited success for outlier detection. In this work, we introduce a quantile-based maximum likelihood objective for learning the inlier distribution to improve the outlier separation during inference. Our approach fits a normalizing flow to pre-trained discriminative features and detects the outliers according to the evaluated log-likelihood. The experimental evaluation demonstrates the effectiveness of our method as it surpasses the performance of the state-of-the-art unsupervised methods for outlier detection. The results are also competitive compared with a recent self-supervised approach for outlier detection. Our work allows to reduce dependency on well-sampled negative training data, which is especially important for domains like medical diagnostics or remote sensing.
翻訳日:2024-06-04 20:50:48 公開日:2024-06-02
# リーマン拡散過程の混合による多様体の生成モデリング

Generative Modeling on Manifolds Through Mixture of Riemannian Diffusion Processes ( http://arxiv.org/abs/2310.07216v2 )

ライセンス: Link先を確認
Jaehyeong Jo, Sung Ju Hwang, (参考訳) リーマン多様体上のデータの分布を学習することは、ユークリッド空間からのデータモデリングに不可欠である。 しかし、多様体上の既存の生成モデルは、高価な分散計算に悩まされるか、熱核の近似に依存する。 これらの制限は、単純なジオメトリの適用性を制限し、高次元へのスケーラビリティを妨げる。 本研究では、多様体上の生成拡散過程を構築するための原理的枠組みであるリーマン拡散混合を導入する。 従来の拡散モデルの認知的アプローチに従う代わりに、熱核推定を必要とせず、一般多様体上で導かれるブリッジプロセスの混合を用いて拡散過程を構築する。 本研究では, 混合過程の幾何学的理解を発展させ, ドリフトを接する方向の重み付け平均として導出し, その過程をデータ分布へ導くデータポイントに導出する。 さらに、一般多様体に容易に適用可能な混合過程を学ぶためのスケーラブルな学習目標を提案する。 本手法は, 一般多様体に対するイントレーニングシミュレーションのステップ数を劇的に減らした多様多様体上での優れた性能を実現する。

Learning the distribution of data on Riemannian manifolds is crucial for modeling data from non-Euclidean space, which is required by many applications in diverse scientific fields. Yet, existing generative models on manifolds suffer from expensive divergence computation or rely on approximations of heat kernel. These limitations restrict their applicability to simple geometries and hinder scalability to high dimensions. In this work, we introduce the Riemannian Diffusion Mixture, a principled framework for building a generative diffusion process on manifolds. Instead of following the denoising approach of previous diffusion models, we construct a diffusion process using a mixture of bridge processes derived on general manifolds without requiring heat kernel estimations. We develop a geometric understanding of the mixture process, deriving the drift as a weighted mean of tangent directions to the data points that guides the process toward the data distribution. We further propose a scalable training objective for learning the mixture process that readily applies to general manifolds. Our method achieves superior performance on diverse manifolds with dramatically reduced number of in-training simulation steps for general manifolds.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-02
# ノイズクエンチ後の動的量子相転移

Dynamical quantum phase transitions following a noisy quench ( http://arxiv.org/abs/2310.13337v2 )

ライセンス: Link先を確認
R. Jafari, A. Langari, S. Eggert, Henrik Johannesson, (参考訳) 本研究では, 時間依存性のエネルギー変動が量子イジング鎖の逆磁場の雑音の急激な急激なクエンチに続く動的量子相転移(DQPT)に与える影響について検討した。 モード分離型フェルミオンハミルトニアン方程式の確率的シュリンガー方程式を数値的に解くことにより、ノイズの振幅とランプの速度に依存する2つの一般的なシナリオを同定する。 正確なノイズマスター方程式で導かれたこの現象は、クエンチ中に蓄積されるノイズ誘起励起と、システムの大規模モードの近距離断熱力学との相互作用に追従する。 ノイズクエンチを受ける1次元フェルミオン2バンドモデルに一般化する。

We study how time-dependent energy fluctuations impact the dynamical quantum phase transitions (DQPTs) following a noisy ramped quench of the transverse magnetic field in a quantum Ising chain. By numerically solving the stochastic Schr\"odinger equation of the mode-decoupled fermionic Hamiltonian of the problem, we identify two generic scenarios: Depending on the amplitude of the noise and the rate of the ramp, the expected periodic sequence of noiseless DQPTs may either be uniformly shifted in time or else replaced by a disarray of closely spaced DQPTs. Guided by an exact noise master equation, we trace the phenomenon to the interplay between noise-induced excitations which accumulate during the quench and the near-adiabatic dynamics of the massive modes of the system. Our analysis generalizes to any 1D fermionic two-band model subject to a noisy quench.
翻訳日:2024-06-04 20:41:02 公開日:2024-06-02
# LP-OVOD:線形探索による開語彙オブジェクト検出

LP-OVOD: Open-Vocabulary Object Detection by Linear Probing ( http://arxiv.org/abs/2310.17109v2 )

ライセンス: Link先を確認
Chau Pham, Truong Vu, Khoi Nguyen, (参考訳) 本稿では,オープン語彙オブジェクト検出(OVOD)の課題に対処し,未確認クラスをラベル付けせずに,対象検出器がテスト画像中の見えないクラスと見えないクラスの両方を識別する必要がある。 OVODの典型的なアプローチは、CLIPの合同テキストイメージ埋め込みを使用して、ボックスの提案を最も近いテキストラベルに割り当てることである。 しかし、この手法には重要な問題がある: オーバーオブジェクトやアンダーオブジェクトのような多くの低品質なボックスは、CLIPが正確なオブジェクト位置情報に基づいて訓練されていないため、高品質なボックスと同等のスコアを持つ。 この問題に対処するため,本論文では,上位領域の提案から得られた擬似ラベルに対して,シグモイド線形分類器をトレーニングすることにより,低品質ボックスを廃棄するLP-OVODを提案する。 COCOの実験結果から,ResNet50をバックボーンとして使用し,外部データセットを使用せず,トレーニング中に新しいクラスを知っていながら,最先端技術に対する我々のアプローチの優れたパフォーマンスを確認した。 私たちのコードはhttps://github.com/VinAIResearch/LP-OVOD.comで公開されます。

This paper addresses the challenging problem of open-vocabulary object detection (OVOD) where an object detector must identify both seen and unseen classes in test images without labeled examples of the unseen classes in training. A typical approach for OVOD is to use joint text-image embeddings of CLIP to assign box proposals to their closest text label. However, this method has a critical issue: many low-quality boxes, such as over- and under-covered-object boxes, have the same similarity score as high-quality boxes since CLIP is not trained on exact object location information. To address this issue, we propose a novel method, LP-OVOD, that discards low-quality boxes by training a sigmoid linear classifier on pseudo labels retrieved from the top relevant region proposals to the novel text. Experimental results on COCO affirm the superior performance of our approach over the state of the art, achieving $\textbf{40.5}$ in $\text{AP}_{novel}$ using ResNet50 as the backbone and without external datasets or knowing novel classes during training. Our code will be available at https://github.com/VinAIResearch/LP-OVOD.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-02
# 属性に基づく生成モデルのための解釈可能な評価指標

Attribute Based Interpretable Evaluation Metrics for Generative Models ( http://arxiv.org/abs/2310.17261v2 )

ライセンス: Link先を確認
Dongkyun Kim, Mingi Kwon, Youngjung Uh, (参考訳) 訓練データセットが猫に対する犬の割合1:1である場合、1:1の犬と猫を生産する生成モデルは、3:1の犬と猫の他のモデルよりも訓練種分布によく似ている。 既存のメトリクスを使ってこの現象を捉えることはできますか? 残念ながら、これらのメトリクスは"多様性"以上の解釈性を提供しないため、私たちはできません。 そこで本稿では,属性強度の分布に関するトレーニングセットから生成した画像集合のばらつきを測定するための新しい評価プロトコルを提案する。 SaD(Single-Atribute Divergence)は、単一の属性のPDFに関するばらつきを測定する。 Paired-Atribute Divergence (PaD) は、一対の属性の合同PDFに関するばらつきを測定する。 モデルが苦労する属性を提供する。 画像の属性強度を測定するため,不均一な初期点を持つ画像ベクトルとテキストベクトルのコサイン類似度を測定するヘテロジニアスCLIPScore(HCS)を提案する。 SaD と PaD で、既存の生成モデルについて、以下のことを明らかにした。 ProjectedGANは、既存のメトリクスの競合スコアがあるにもかかわらず、あごひげを持つ赤ちゃんのような、ありえない属性関係を生成する。 拡散モデルはデータセットのさまざまな色をキャプチャするのに苦労する。 潜伏拡散モデルのより大きなサンプリングタイムステップは、イヤリングやネックレスを含むより小さなオブジェクトを生成する。 安定拡散 v1.5 は v2.1 よりも属性を捕捉する。 我々のメトリクスは、生成モデルの説明可能な評価の基礎を築いた。

When the training dataset comprises a 1:1 proportion of dogs to cats, a generative model that produces 1:1 dogs and cats better resembles the training species distribution than another model with 3:1 dogs and cats. Can we capture this phenomenon using existing metrics? Unfortunately, we cannot, because these metrics do not provide any interpretability beyond "diversity". In this context, we propose a new evaluation protocol that measures the divergence of a set of generated images from the training set regarding the distribution of attribute strengths as follows. Single-attribute Divergence (SaD) measures the divergence regarding PDFs of a single attribute. Paired-attribute Divergence (PaD) measures the divergence regarding joint PDFs of a pair of attributes. They provide which attributes the models struggle. For measuring the attribute strengths of an image, we propose Heterogeneous CLIPScore (HCS) which measures the cosine similarity between image and text vectors with heterogeneous initial points. With SaD and PaD, we reveal the following about existing generative models. ProjectedGAN generates implausible attribute relationships such as a baby with a beard even though it has competitive scores of existing metrics. Diffusion models struggle to capture diverse colors in the datasets. The larger sampling timesteps of latent diffusion model generate the more minor objects including earrings and necklaces. Stable Diffusion v1.5 better captures the attributes than v2.1. Our metrics lay a foundation for explainable evaluations of generative models.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-02
# GLaMM: 大規模マルチモーダルモデル

GLaMM: Pixel Grounding Large Multimodal Model ( http://arxiv.org/abs/2311.03356v3 )

ライセンス: Link先を確認
Hanoona Rasheed, Muhammad Maaz, Sahal Shaji Mullappilly, Abdelrahman Shaker, Salman Khan, Hisham Cholakkal, Rao M. Anwer, Erix Xing, Ming-Hsuan Yang, Fahad S. Khan, (参考訳) 大規模マルチモーダルモデル(LMM)は、大規模言語モデルを視覚領域に拡張する。 初期のLMMは、全体像とテキストプロンプトを使用して、根拠のないテキスト応答を生成する。 近年,領域レベルのLMMは視覚的に接地された応答を生成するために用いられている。 しかし、それらは一度に1つのオブジェクトカテゴリのみを参照すること、ユーザが領域を指定すること、あるいは高密度のピクセル単位のオブジェクトグラウンドを提供することができないことに限定されている。 本研究では,対応するオブジェクト分割マスクとシームレスに連動する自然言語応答を生成可能な最初のモデルであるGrounding LMM(GLaMM)を提案する。 GLaMMは会話に現れるオブジェクトを接地するだけでなく、テキストとオプションの視覚的プロンプト(関心領域)の両方を入力として受け入れるほど柔軟である。 これによりユーザは、テキストドメインとビジュアルドメインの両方において、さまざまなレベルの粒度でモデルと対話できるようになる。 視覚的に接地された会話生成(GCG)の新たな設定のための標準ベンチマークが欠如しているため、我々は、得られた接地された会話を包括的に評価するプロトコルを導入する。 提案したGCGタスクは,大規模に自然界に密着した概念を必要とする。 そこで本研究では,セグメンテーションマスク付きで利用可能な合計810万の領域を基盤とした7.5万のユニークな概念を含む自動アノテーションパイプラインを用いて,GranD(GranD)を提案する。 GCGに加えて、GLaMMは、表現のセグメンテーション、画像と地域レベルのキャプション、視覚言語による会話など、いくつかの下流タスクでも効果的に実行する。

Large Multimodal Models (LMMs) extend Large Language Models to the vision domain. Initial LMMs used holistic images and text prompts to generate ungrounded textual responses. Recently, region-level LMMs have been used to generate visually grounded responses. However, they are limited to only referring to a single object category at a time, require users to specify the regions, or cannot offer dense pixel-wise object grounding. In this work, we present Grounding LMM (GLaMM), the first model that can generate natural language responses seamlessly intertwined with corresponding object segmentation masks. GLaMM not only grounds objects appearing in the conversations but is flexible enough to accept both textual and optional visual prompts (region of interest) as input. This empowers users to interact with the model at various levels of granularity, both in textual and visual domains. Due to the lack of standard benchmarks for the novel setting of visually Grounded Conversation Generation (GCG), we introduce a comprehensive evaluation protocol with our curated grounded conversations. Our proposed GCG task requires densely grounded concepts in natural scenes at a large-scale. To this end, we propose a densely annotated Grounding-anything Dataset (GranD) using our proposed automated annotation pipeline that encompasses 7.5M unique concepts grounded in a total of 810M regions available with segmentation masks. Besides GCG, GLaMM also performs effectively on several downstream tasks, e.g., referring expression segmentation, image and region-level captioning and vision-language conversations.
翻訳日:2024-06-04 20:31:18 公開日:2024-06-02
# ネスト予測セットを用いた初期出力ニューラルネットワーク

Early-Exit Neural Networks with Nested Prediction Sets ( http://arxiv.org/abs/2311.05931v2 )

ライセンス: Link先を確認
Metod Jazbec, Patrick Forré, Stephan Mandt, Dan Zhang, Eric Nalisnick, (参考訳) アーリーエグジットニューラルネットワーク(EENN)は、フォワードパス中に複数のステージで予測を提供することで、適応的で効率的な推論を可能にする。 安全クリティカルなアプリケーションでは、これらの予測は信頼性のある不確実性推定を伴う場合にのみ意味を持つ。 予測モデルの不確実性を定量化する一般的な方法は、予測セットの使用である。 しかし,共形予測やベイズ的信頼集合などの標準手法はEENNには適さないことを示す。 彼らは出口にまたがって非ネステッドな集合を生成する傾向があり、つまり、ラベルが1つの出口で不可能なと見なされることは、その後の出口の予測セットに再び現れる可能性がある。 この問題に対処するために,データストリーミングシナリオに適した従来型の信頼区間の拡張であるAVCS(Anytime-valid confidence sequences)について検討する。 これらのシーケンスは本質的にネストされており、EENNのシーケンシャルな予測に適している。 我々は、EENNでAVCSを使うことの理論的および実践的な課題を探求し、出口をまたいだネストセットが実際に得られることを示す。 ですから我々の研究は、高速で、安全で、予測可能なモデリングへの有望なアプローチを示します。

Early-exit neural networks (EENNs) enable adaptive and efficient inference by providing predictions at multiple stages during the forward pass. In safety-critical applications, these predictions are meaningful only when accompanied by reliable uncertainty estimates. A popular method for quantifying the uncertainty of predictive models is the use of prediction sets. However, we demonstrate that standard techniques such as conformal prediction and Bayesian credible sets are not suitable for EENNs. They tend to generate non-nested sets across exits, meaning that labels deemed improbable at one exit may reappear in the prediction set of a subsequent exit. To address this issue, we investigate anytime-valid confidence sequences (AVCSs), an extension of traditional confidence intervals tailored for data-streaming scenarios. These sequences are inherently nested and thus well-suited for an EENN's sequential predictions. We explore the theoretical and practical challenges of using AVCSs in EENNs and show that they indeed yield nested sets across exits. Thus our work presents a promising approach towards fast, yet still safe, predictive modeling
翻訳日:2024-06-04 20:31:18 公開日:2024-06-02
# 正規構造正規化によるオープンセットグラフ異常検出

Open-Set Graph Anomaly Detection via Normal Structure Regularisation ( http://arxiv.org/abs/2311.06835v3 )

ライセンス: Link先を確認
Qizhou Wang, Guansong Pang, Mahsa Salehi, Xiaokun Xia, Christopher Leckie, (参考訳) 本稿では,少数の正規ノードと異常ノードを用いて検出モデルを訓練することを目的とした,GAD(Graph Anomaly Detection)タスクについて考察する。 これらのラベル付きトレーニングデータの可用性は、GADモデルの異常に関する重要な事前知識を提供し、検出エラーを大幅に低減する。 しかし、現在の手法では、目に見えない異常を検知する弱い一般化能力をもたらすため、目に見えない異常に適合することを過度に強調する傾向にある。 さらに、それらはユークリッドデータを扱うために導入され、グラフ構造やGADのノード属性に関する重要な情報を効果的に取得できなかった。 本研究では,新しいオープンセットGAD手法,すなわち正規構造規則化(NSReg)を提案する。 NSRegのキーとなる考え方は、通常のノードの構造的関係に基づいて、コンパクトで意味豊かな正規ノード表現の学習を強制する正規化項を導入することである。 教師付き異常検出損失で最適化された場合、正規化項はモデリングに強い正規性を組み込むのに役立ち、観察された異常の過度な適合を効果的に回避する。 そうすることで、正常性決定境界の学習に役立ち、見えない異常を正常として検出するエラーを減らすことができる。 7つの実世界のデータセットに対する大規模な実験結果は、オープンセットGADにおけるNSRegの優位性を示している。

This paper considers an important Graph Anomaly Detection (GAD) task, namely open-set GAD, which aims to train a detection model using a small number of normal and anomaly nodes (referred to as seen anomalies) to detect both seen anomalies and unseen anomalies (i.e., anomalies that cannot be illustrated the training anomalies). The availability of those labelled training data provides crucial prior knowledge about abnormalities for GAD models, enabling substantially reduced detection errors. However, current methods tend to over-emphasise fitting the seen anomalies, leading to a weak generalisation ability to detect the unseen anomalies. Further, they were introduced to handle Euclidean data, failing to effectively capture important information on graph structure and node attributes for GAD. In this work, we propose a novel open-set GAD approach, namely Normal Structure Regularisation (NSReg) to achieve generalised detection ability to unseen anomalies, while maintaining its effectiveness on detecting seen anomalies. The key idea in NSReg is to introduce a regularisation term that enforces the learning of compact, semantically-rich representations of normal nodes based on their structural relations to other nodes. When being optimised with supervised anomaly detection losses, the regularisation term helps incorporate strong normality into the modelling, and thus, it effectively avoids the overfitting the seen anomalies solely. In doing so, it helps learn better normality decision boundary, reducing the errors of detecting unseen anomalies as normal. Extensive empirical results on seven real-world datasets show the superiority of NSReg for open-set GAD.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-02
# 公共データを用いた最適局所的非パラメトリック分類

Optimal Locally Private Nonparametric Classification with Public Data ( http://arxiv.org/abs/2311.11369v3 )

ライセンス: Link先を確認
Yuheng Ma, Hanfang Yang, (参考訳) 本研究では,非パラメトリック分類に着目して,公共データを利用した非対話型局所微分プライベート(LDP)学習の問題点を考察する。 後方ドリフト仮定の下では, LDP制約による最小収束率を初めて導出した。 そこで,本研究では,極小最大収束率を達成できる新しい手法である局所微分プライベート分類木を提案する。 さらに,パラメータチューニングを回避し,高速な収束推定器を提供するデータ駆動型プルーニング手法を設計する。 合成および実データを用いた総合的な実験は,提案手法の優れた性能を示す。 理論的および実験的な結果は、プライベートデータと比較して公開データの有効性を示すものであり、非プライベートデータ収集の優先順位付けの実践的提案につながっている。

In this work, we investigate the problem of public data assisted non-interactive Local Differentially Private (LDP) learning with a focus on non-parametric classification. Under the posterior drift assumption, we for the first time derive the mini-max optimal convergence rate with LDP constraint. Then, we present a novel approach, the locally differentially private classification tree, which attains the mini-max optimal convergence rate. Furthermore, we design a data-driven pruning procedure that avoids parameter tuning and provides a fast converging estimator. Comprehensive experiments conducted on synthetic and real data sets show the superior performance of our proposed methods. Both our theoretical and experimental findings demonstrate the effectiveness of public data compared to private data, which leads to practical suggestions for prioritizing non-private data collection.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-02
# InteRACT:ロボット行動に基づく人間の意図予測のためのトランスフォーマーモデル

InteRACT: Transformer Models for Human Intent Prediction Conditioned on Robot Actions ( http://arxiv.org/abs/2311.12943v4 )

ライセンス: Link先を確認
Kushal Kedia, Atiksh Bhardwaj, Prithwish Dan, Sanjiban Choudhury, (参考訳) 協調的なロボット操作では、ロボットは人間の意図を予測し、タスクを円滑に実行するために行動を調整する必要がある。 しかし、人間の意図はロボットの行動に左右され、ニワトリや卵の問題が生じる。 従来の手法は、そのような依存性を無視し、代わりにロボットの動作とは無関係に限界意図予測モデルを訓練する。 これは、ペアの人間とロボットの相互作用データセットが不足しているため、条件付きモデルのトレーニングが難しいためです。 代わりに、より容易にアクセス可能な大規模な人間と人間のインタラクションデータを利用することができますか? 私たちの重要な洞察は、人間とロボットのアクションの対応を利用して、人間からロボットのデータへの変換学習を可能にすることです。 InteRACTという,大規模人文データセットの条件付き意図予測モデルと小型人文ロボットデータセットの微細構造を事前学習するアーキテクチャを提案する。 実世界の協調的なロボット操作タスクについて評価し、条件付きモデルが様々な限界ベースラインよりも改善されていることを示す。 我々はまた、7-DoFロボットアームを遠隔操作する新しい技術を導入し、オープンソースで公開している多様な人間とロボットの協調操作データを収集する。

In collaborative human-robot manipulation, a robot must predict human intents and adapt its actions accordingly to smoothly execute tasks. However, the human's intent in turn depends on actions the robot takes, creating a chicken-or-egg problem. Prior methods ignore such inter-dependency and instead train marginal intent prediction models independent of robot actions. This is because training conditional models is hard given a lack of paired human-robot interaction datasets. Can we instead leverage large-scale human-human interaction data that is more easily accessible? Our key insight is to exploit a correspondence between human and robot actions that enables transfer learning from human-human to human-robot data. We propose a novel architecture, InteRACT, that pre-trains a conditional intent prediction model on large human-human datasets and fine-tunes on a small human-robot dataset. We evaluate on a set of real-world collaborative human-robot manipulation tasks and show that our conditional model improves over various marginal baselines. We also introduce new techniques to tele-operate a 7-DoF robot arm and collect a diverse range of human-robot collaborative manipulation data, which we open-source.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-02
# ベイズ推定器の頻繁性評価のためのWカーネルと必須部分空間

W-kernel and essential subspace for frequentist evaluation of Bayesian estimators ( http://arxiv.org/abs/2311.13017v3 )

ライセンス: Link先を確認
Yukito Iba, (参考訳) 各観測の対数類似度で定義される後続共分散行列Wは、感度解析とベイズ推定器の頻繁な評価において重要な役割を果たす。 この研究は行列 W とその主空間に焦点をあて、後者を必須部分空間と呼ぶ。 基本部分空間への投影は、感度解析と頻繁な評価の次元的低減を実現する。 頻繁な性質を扱うための重要なツールは、最近提案されたベイズ無限小ジャックニフ近似(Giordano and Broderick (2023))である。 マトリックスWは再生カーネルと解釈でき、Wカーネルと表記される。 W-カーネルを用いて、必須部分空間はカーネルの主成分分析によって与えられる主空間として表現される。 フィッシャー・カーネルとニューラル・タンジェント・カーネルの関係が確立され、古典的漸近理論との関係が解明される。 また、カーネルフレームワークから自然に現れるベイズ頻度主義的双対性についても論じる。 2つの応用が議論されている: 近似ブートストラップにおける観測の代表的な集合の選択と次元還元である。 前者では、必須部分空間を計算するための効率的な方法として、不完全コレスキー分解を導入している。 後者では、後部手段に対する近似ブートストラップの異なる実装を比較する。

The posterior covariance matrix W defined by the log-likelihood of each observation plays important roles both in the sensitivity analysis and frequentist evaluation of the Bayesian estimators. This study is focused on the matrix W and its principal space; we term the latter as an essential subspace. Projections to the essential subspace realize dimensional reduction in the sensitivity analysis and frequentist evaluation. A key tool for treating frequentist properties is the recently proposed Bayesian infinitesimal jackknife approximation(Giordano and Broderick (2023)). The matrix W can be interpreted as a reproducing kernel and is denoted as W-kernel. Using W-kernel, the essential subspace is expressed as a principal space given by the kernel principal component analysis. A relation to the Fisher kernel and neural tangent kernel is established, which elucidates the connection to the classical asymptotic theory. We also discuss a type of Bayesian-frequentist duality, naturally appeared from the kernel framework. Two applications are discussed: the selection of a representative set of observations and dimensional reduction in the approximate bootstrap. In the former, incomplete Cholesky decomposition is introduced as an efficient method for computing the essential subspace. In the latter, different implementations of the approximate bootstrap for posterior means are compared.
翻訳日:2024-06-04 20:21:27 公開日:2024-06-02
# FedAL: 敵対的学習によって実現されたブラックボックスのフェデレーション知識蒸留

FedAL: Black-Box Federated Knowledge Distillation Enabled by Adversarial Learning ( http://arxiv.org/abs/2311.16584v3 )

ライセンス: Link先を確認
Pengchao Han, Xingyan Shi, Jianwei Huang, (参考訳) 知識蒸留(KD)は、異なるモデルアーキテクチャを持ち、ローカルデータやモデルパラメータを他と共有しない分散クライアント間の協調学習を可能にする。 各クライアントは、フェデレートされたKDとして知られるターゲットとして、すべてのクライアントモデルの平均モデル出力/機能を使用して、ローカルモデルを更新する。 しかし、クライアントのローカルモデルが不均一なローカルデータセットでトレーニングされている場合、既存のフェデレーションKDメソッドはよく機能しないことが多い。 本稿では,クライアント間のデータ不均一性に対処するために,Adversarial Learning (FedAL) によって実現されたフェデレーション知識の蒸留を提案する。 まず、データの不均一性に起因するクライアント間の局所モデル出力のばらつきを軽減するため、サーバはクライアント間のコンセンサスモデル出力をクライアントと差別者間のmin-maxゲームを介してクライアント間のコンセンサスモデル出力を達成するために、クライアントのローカルモデルトレーニングを誘導する識別器として機能する。 さらに、クライアントの不均一なローカルデータのために、クライアントのローカルトレーニングとグローバルな知識伝達の間に破滅的な忘れが生じる可能性がある。 この課題に向けて、我々は、クライアントが他者へ知識を転送/学習する能力を保証するため、ローカルトレーニングとグローバルナレッジトランスファーの両方において、予測の少ない正規化を設計する。 実験により,FedALとその変異体は,他の連合KDベースラインよりも高い精度が得られることが示された。

Knowledge distillation (KD) can enable collaborative learning among distributed clients that have different model architectures and do not share their local data and model parameters with others. Each client updates its local model using the average model output/feature of all client models as the target, known as federated KD. However, existing federated KD methods often do not perform well when clients' local models are trained with heterogeneous local datasets. In this paper, we propose Federated knowledge distillation enabled by Adversarial Learning (FedAL) to address the data heterogeneity among clients. First, to alleviate the local model output divergence across clients caused by data heterogeneity, the server acts as a discriminator to guide clients' local model training to achieve consensus model outputs among clients through a min-max game between clients and the discriminator. Moreover, catastrophic forgetting may happen during the clients' local training and global knowledge transfer due to clients' heterogeneous local data. Towards this challenge, we design the less-forgetting regularization for both local training and global knowledge transfer to guarantee clients' ability to transfer/learn knowledge to/from others. Experimental results show that FedAL and its variants achieve higher accuracy than other federated KD baselines.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-02
# ソレ強度を超えて: 一般化ビジョンランゲージモデルのためのカスタマイズアンサンブル

Beyond Sole Strength: Customized Ensembles for Generalized Vision-Language Models ( http://arxiv.org/abs/2311.17091v2 )

ライセンス: Link先を確認
Zhihe Lu, Jiawang Bai, Xin Li, Zeyu Xiao, Xinchao Wang, (参考訳) オープンワールドの一般化のための微調整済み視覚言語モデル(VLM)やCLIP(CLIP)は、実用的価値から人気が高まっている。 しかし、シングルモデルの複雑なアルゴリズム設計にのみ依存する場合、パフォーマンスの進歩は制限され、例えばCLIP-ViT-B/16のような強力なパフォーマンスを示すものさえある。 本稿では、より弱いVLMを活用してロバストな単一モデルの一般化を促進するための協調可能性について、初めて検討する。 この肯定的な発見は、新しい視点、すなわち事前訓練されたVLMのアンサンブルから、一般化問題に対処する動機となる。 それぞれが特定のシナリオに合わせてカスタマイズされた3つのアンサンブル戦略を導入する。 まず、ゼロショットアンサンブルを導入し、事前訓練されたVLMが利用可能である場合に、その信頼性に基づいて異なるモデルのロジットを自動的に調整する。 さらに,余分なサンプルを持つシナリオに対しては,コンピュータリソースの可用性に基づいた柔軟性を備えた,トレーニングフリーでチューニング可能なアンサンブルを提案する。 提案したアンサンブル戦略はゼロショット,ベース・ツー・ニュー,クロスデータセットの一般化に基づいて評価され,新たな最先端性能を実現する。 特に、本研究は、アンサンブルによるVLMの一般化性能向上に向けた最初の一歩である。 コードはhttps://github.com/zhiheLu/Ensemble_VLM.gitで公開されている。

Fine-tuning pre-trained vision-language models (VLMs), e.g., CLIP, for the open-world generalization has gained increasing popularity due to its practical value. However, performance advancements are limited when relying solely on intricate algorithmic designs for a single model, even one exhibiting strong performance, e.g., CLIP-ViT-B/16. This paper, for the first time, explores the collaborative potential of leveraging much weaker VLMs to enhance the generalization of a robust single model. The affirmative findings motivate us to address the generalization problem from a novel perspective, i.e., ensemble of pre-trained VLMs. We introduce three customized ensemble strategies, each tailored to one specific scenario. Firstly, we introduce the zero-shot ensemble, automatically adjusting the logits of different models based on their confidence when only pre-trained VLMs are available. Furthermore, for scenarios with extra few-shot samples, we propose the training-free and tuning ensemble, offering flexibility based on the availability of computing resources. The proposed ensemble strategies are evaluated on zero-shot, base-to-new, and cross-dataset generalization, achieving new state-of-the-art performance. Notably, this work represents an initial stride toward enhancing the generalization performance of VLMs via ensemble. The code is available at https://github.com/zhiheLu/Ensemble_VLM.git.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-02
# DiG-IN: Diffusion Guidance for Investigationing Networks -- Ancovering Classifier differences, Neuron Visualisations, and Visual Counterfactual Explanations

DiG-IN: Diffusion Guidance for Investigating Networks -- Uncovering Classifier Differences, Neuron Visualisations, and Visual Counterfactual Explanations ( http://arxiv.org/abs/2311.17833v2 )

ライセンス: Link先を確認
Maximilian Augustin, Yannic Neuhaus, Matthias Hein, (参考訳) ディープラーニングは、ImageNetのような複雑な画像分類タスクに大きな進歩をもたらしたが、予期せぬ失敗モード、例えば突発的な機能によって、これらの分類器が野生でいかに確実に機能するかを疑問視する。 さらに、安全クリティカルなタスクには、その決定のブラックボックスの性質に問題がある。 本稿では、ガイド画像生成のためのフレームワークを用いて、分類器由来の目的を最適化した画像を生成することにより、これらの問題に対処する。 視覚的対実的説明(VCE)による画像分類器の決定、分類器が最大に一致しない画像の解析による系統的誤りの検出、ニューロンの可視化と刺激的特徴の可視化を行う。 このようにして、敵の頑健なモデルの形状バイアスや新しい故障モード、例えばゼロショットCLIP分類器の系統的エラーなど、既存の観測結果を検証する。 さらに、VCEはより汎用性が高く、以前の作業よりも優れています。

While deep learning has led to huge progress in complex image classification tasks like ImageNet, unexpected failure modes, e.g. via spurious features, call into question how reliably these classifiers work in the wild. Furthermore, for safety-critical tasks the black-box nature of their decisions is problematic, and explanations or at least methods which make decisions plausible are needed urgently. In this paper, we address these problems by generating images that optimize a classifier-derived objective using a framework for guided image generation. We analyze the decisions of image classifiers by visual counterfactual explanations (VCEs), detection of systematic mistakes by analyzing images where classifiers maximally disagree, and visualization of neurons and spurious features. In this way, we validate existing observations, e.g. the shape bias of adversarially robust models, as well as novel failure modes, e.g. systematic errors of zero-shot CLIP classifiers. Moreover, our VCEs outperform previous work while being more versatile.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-02
# 多モードディープ線形ネットワークにおける一様バイアスの理解

Understanding Unimodal Bias in Multimodal Deep Linear Networks ( http://arxiv.org/abs/2312.00935v2 )

ライセンス: Link先を確認
Yedi Zhang, Peter E. Latham, Andrew Saxe, (参考訳) 複数の入力ストリームを同時に使用してマルチモーダルニューラルネットワークをトレーニングすることは直感的に有利だが、実際は困難である。 ネットワークがひとつのモダリティを過度に依存し、共同トレーニング中に他を無視してしまうという、一元的バイアスが鍵となる課題だ。 アーキテクチャとデータ統計がこのバイアスにどのように影響するかを理解するために,マルチモーダル深層線形ネットワークを用いた一様偏差理論を開発した。 これは、ネットワーク内でモダリティが融合する深さ、データセット統計、初期化の関数として学習における一助相の持続時間を計算する最初の研究である。 核融合が起こる層が深くなるほど、単潮相は長くなることを示す。 長い一元性相は、過パラメトリズド政権における一般化の欠陥と永続的な一元性バイアスをもたらす可能性がある。 提案手法は,マルチモーダル線形ネットワークから導出された非線形ネットワークに,特定の設定で拡張する。 この研究は共同学習におけるマルチモーダル学習の病理学を照らし、後期と中期の融合アーキテクチャが長い単潮相と永続的な単潮偏差をもたらすことを示した。 私たちのコードは、https://yedizhang.github.io/unimodal-bias.htmlで公開されています。

Using multiple input streams simultaneously to train multimodal neural networks is intuitively advantageous but practically challenging. A key challenge is unimodal bias, where a network overly relies on one modality and ignores others during joint training. We develop a theory of unimodal bias with multimodal deep linear networks to understand how architecture and data statistics influence this bias. This is the first work to calculate the duration of the unimodal phase in learning as a function of the depth at which modalities are fused within the network, dataset statistics, and initialization. We show that the deeper the layer at which fusion occurs, the longer the unimodal phase. A long unimodal phase can lead to a generalization deficit and permanent unimodal bias in the overparametrized regime. Our results, derived for multimodal linear networks, extend to nonlinear networks in certain settings. Taken together, this work illuminates pathologies of multimodal learning under joint training, showing that late and intermediate fusion architectures can give rise to long unimodal phases and permanent unimodal bias. Our code is available at: https://yedizhang.github.io/unimodal-bias.html.
翻訳日:2024-06-04 20:11:43 公開日:2024-06-02
# Egoの現状は、オープン・ループ・エンド・エンドの自動運転に必要か?

Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? ( http://arxiv.org/abs/2312.03031v2 )

ライセンス: Link先を確認
Zhiqi Li, Zhiding Yu, Shiyi Lan, Jiahan Li, Jan Kautz, Tong Lu, Jose M. Alvarez, (参考訳) エンドツーエンドの自動運転は、フルスタックの観点から自律性を目標とする、有望な研究方向として最近登場した。 この線に沿って、最新の作品の多くは、計画行動を研究するためにnuScenesのオープンループ評価設定に従っている。 本稿では,より詳細な分析を行い,さらに詳細なデヴィルをデミスティフィケーションすることで問題を深く掘り下げる。 当初我々は、比較的単純な運転シナリオを特徴とするnuScenesデータセットが、エゴ車両の速度などのエゴ状態を組み込んだエンド・ツー・エンドモデルにおける知覚情報の低活用につながることを見出した。 これらのモデルは、将来の経路計画におけるエゴ車の地位に大きく依存する傾向にある。 データセットの制限を超えて、現在のメトリクスは計画品質を包括的に評価せず、既存のベンチマークから引き出された潜在的なバイアスのある結論につながっている点にも注意が必要だ。 この問題に対処するために,予測軌跡が道路に付着するかどうかを評価するための新しい指標を導入する。 さらに,認識アノテーションに頼らずに,競争的な結果が得られるシンプルなベースラインを提案する。 ベンチマークとメトリクスの現在の制限を考えると、コミュニティは関連研究を再評価し、最先端の追求が説得力と普遍的な結論をもたらすかどうかを慎重に検討することを提案する。 コードとモデルは \url{https://github.com/NVlabs/BEV-Planner} で公開されている。

End-to-end autonomous driving recently emerged as a promising research direction to target autonomy from a full-stack perspective. Along this line, many of the latest works follow an open-loop evaluation setting on nuScenes to study the planning behavior. In this paper, we delve deeper into the problem by conducting thorough analyses and demystifying more devils in the details. We initially observed that the nuScenes dataset, characterized by relatively simple driving scenarios, leads to an under-utilization of perception information in end-to-end models incorporating ego status, such as the ego vehicle's velocity. These models tend to rely predominantly on the ego vehicle's status for future path planning. Beyond the limitations of the dataset, we also note that current metrics do not comprehensively assess the planning quality, leading to potentially biased conclusions drawn from existing benchmarks. To address this issue, we introduce a new metric to evaluate whether the predicted trajectories adhere to the road. We further propose a simple baseline able to achieve competitive results without relying on perception annotations. Given the current limitations on the benchmark and metrics, we suggest the community reassess relevant prevailing research and be cautious whether the continued pursuit of state-of-the-art would yield convincing and universal conclusions. Code and models are available at \url{https://github.com/NVlabs/BEV-Planner}
翻訳日:2024-06-04 20:11:43 公開日:2024-06-02
# スケルトン・イン・コンテクスト:インコンテキスト学習を用いた統一スケルトンシーケンスモデリング

Skeleton-in-Context: Unified Skeleton Sequence Modeling with In-Context Learning ( http://arxiv.org/abs/2312.03703v2 )

ライセンス: Link先を確認
Xinshun Wang, Zhongbin Fang, Xia Li, Xiangtai Li, Mengyuan Liu, (参考訳) In-context Learningは、視覚とNLPのためのマルチタスクモデリングの新しい視点を提供する。 この設定下では、モデルはプロンプトからタスクを知覚し、追加のタスク固有のヘッド予測やモデル微調整なしでそれらを達成することができる。 しかし、文脈内学習によるスケルトンシーケンスモデリングはいまだに未解明である。 他の領域から既存のインコンテキストモデルをスケルトンシーケンスに直接適用することは、フレーム間およびクロスタスクが類似しているため失敗し、微妙なコンテキストからタスクを正しく知覚することが著しく困難になる。 この課題に対処するために,テキスト内スケルトンシーケンスモデリングに有効なフレームワークであるSkeleton-in-Context(SiC)を提案する。 私たちのSiCは、単一のトレーニングプロセスの後に複数のスケルトンベースのタスクを同時に処理し、与えられたプロンプトに従ってコンテキストから各タスクを達成できます。 カスタマイズされたプロンプトに従って、新しい、目に見えないタスクにさらに一般化することができる。 文脈認識を容易にするために,部分的な関節レベル生成,シーケンスレベル予測,および2D-to-3D動作予測など,異なる性質のタスクを適応的に学習するタスク統一プロンプトを提案する。 我々は、動作予測、ポーズ推定、共同完了、将来のポーズ推定を含む複数のタスクにおけるSiCの有効性を評価するために、広範囲な実験を行った。 また,その一般化能力についても検討した。 これらの実験により、我々のモデルは最先端のマルチタスク性能を達成し、特定のタスクにおいて単一タスクの手法よりも優れることが示された。

In-context learning provides a new perspective for multi-task modeling for vision and NLP. Under this setting, the model can perceive tasks from prompts and accomplish them without any extra task-specific head predictions or model fine-tuning. However, Skeleton sequence modeling via in-context learning remains unexplored. Directly applying existing in-context models from other areas onto skeleton sequences fails due to the inter-frame and cross-task pose similarity that makes it outstandingly hard to perceive the task correctly from a subtle context. To address this challenge, we propose Skeleton-in-Context (SiC), an effective framework for in-context skeleton sequence modeling. Our SiC is able to handle multiple skeleton-based tasks simultaneously after a single training process and accomplish each task from context according to the given prompt. It can further generalize to new, unseen tasks according to customized prompts. To facilitate context perception, we additionally propose a task-unified prompt, which adaptively learns tasks of different natures, such as partial joint-level generation, sequence-level prediction, or 2D-to-3D motion prediction. We conduct extensive experiments to evaluate the effectiveness of our SiC on multiple tasks, including motion prediction, pose estimation, joint completion, and future pose estimation. We also evaluate its generalization capability on unseen tasks such as motion-in-between. These experiments show that our model achieves state-of-the-art multi-task performance and even outperforms single-task methods on certain tasks.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-02
# GPT4SGG: 立体的・地域特異的なナラティブからシーングラフを合成する

GPT4SGG: Synthesizing Scene Graphs from Holistic and Region-specific Narratives ( http://arxiv.org/abs/2312.04314v2 )

ライセンス: Link先を確認
Zuyao Chen, Jinlin Wu, Zhen Lei, Zhaoxiang Zhang, Changwen Chen, (参考訳) 自然言語キャプションを備えたトレーニングシーングラフ生成(SGG)モデルは,自然言語が提供する豊富な,費用効率のよい,オープンワールドの一般化監視信号によって,ますます人気が高まっている。 しかし、そのような非構造化キャプションデータとその処理は、正確で包括的なシーングラフを学習する上で大きな課題となる。 課題は3つの側面にまとめることができる。 1) 言語表現に基づく伝統的なシーングラフ解析では, キャプションデータから意味のある関係トリプレットを抽出できないことが多い。 2) パースされた三重項の非局所化オブジェクトを接地すると、視覚言語アライメントの曖昧さが問題となる。 3) キャプションデータは通常スパースであり, 画像内容の部分的観察に偏りを示す。 これらの問題に対処するために,より正確で包括的なシーングラフ信号を得るために,textit{GPT4SGG} という新しいフレームワークを用いた分割型手法を提案する。 このフレームワークは複雑なシーンを単純な領域の集合に分解し、その結果、地域固有の物語の集合となる。 これらの領域固有の物語(部分的観察)と画像に対する全体論的な物語(言語観察)により、大言語モデル(LLM)は、正確な総合的なシーングラフを合成するための関係推論を行う。 実験により,画像キャプションデータに基づいて訓練したSGGモデルの性能は,より正確で包括的なシーングラフで曖昧さ問題と長尾偏差がうまく処理されていることが明らかとなった。

Training Scene Graph Generation (SGG) models with natural language captions has become increasingly popular due to the abundant, cost-effective, and open-world generalization supervision signals that natural language offers. However, such unstructured caption data and its processing pose significant challenges in learning accurate and comprehensive scene graphs. The challenges can be summarized as three aspects: 1) traditional scene graph parsers based on linguistic representation often fail to extract meaningful relationship triplets from caption data. 2) grounding unlocalized objects of parsed triplets will meet ambiguity issues in visual-language alignment. 3) caption data typically are sparse and exhibit bias to partial observations of image content. Aiming to address these problems, we propose a divide-and-conquer strategy with a novel framework named \textit{GPT4SGG}, to obtain more accurate and comprehensive scene graph signals. This framework decomposes a complex scene into a bunch of simple regions, resulting in a set of region-specific narratives. With these region-specific narratives (partial observations) and a holistic narrative (global observation) for an image, a large language model (LLM) performs the relationship reasoning to synthesize an accurate and comprehensive scene graph. Experimental results demonstrate \textit{GPT4SGG} significantly improves the performance of SGG models trained on image-caption data, in which the ambiguity issue and long-tail bias have been well-handled with more accurate and comprehensive scene graphs.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-02
# GenTron:画像とビデオ生成のための拡散変換器

GenTron: Diffusion Transformers for Image and Video Generation ( http://arxiv.org/abs/2312.04557v2 )

ライセンス: Link先を確認
Shoufa Chen, Mengmeng Xu, Jiawei Ren, Yuren Cong, Sen He, Yanping Xie, Animesh Sinha, Ping Luo, Tao Xiang, Juan-Manuel Perez-Rua, (参考訳) 本研究では,トランスフォーマーを用いた画像と映像の拡散モデルについて検討する。 様々な分野におけるトランスフォーマーアーキテクチャの優位性は柔軟性とスケーラビリティにあるが、視覚生成領域は主にCNNベースのU-Netアーキテクチャ、特に拡散モデルを用いている。 我々は、Transformerベースの拡散を利用した生成モデルのファミリーであるGenTronを紹介し、このギャップに対処する。 最初のステップは、ディフュージョン・トランスフォーマー(DiT)をクラスからテキスト・コンディショニングに適応させることでした。 そして、GenTronを約900万から3Bのパラメータに拡張し、視覚的品質の大幅な改善を観察します。 さらに,GenTronをテキスト・ツー・ビデオ・ジェネレーションに拡張し,動画品質を向上させるための新たなモーションフリー・ガイダンスを取り入れた。 SDXLに対する人間の評価では、GenTronは視覚的品質の51.1%の勝利率(19.8%の利得率)とテキストアライメントの42.3%の勝利率(42.9%の利得率)を達成している。 GenTronはT2I-CompBenchでも優れており、組成生成の強さを裏付けている。 われわれはこの研究が有意義な洞察を与え、将来の研究の貴重な参考となると信じている。

In this study, we explore Transformer-based diffusion models for image and video generation. Despite the dominance of Transformer architectures in various fields due to their flexibility and scalability, the visual generative domain primarily utilizes CNN-based U-Net architectures, particularly in diffusion-based models. We introduce GenTron, a family of Generative models employing Transformer-based diffusion, to address this gap. Our initial step was to adapt Diffusion Transformers (DiTs) from class to text conditioning, a process involving thorough empirical exploration of the conditioning mechanism. We then scale GenTron from approximately 900M to over 3B parameters, observing significant improvements in visual quality. Furthermore, we extend GenTron to text-to-video generation, incorporating novel motion-free guidance to enhance video quality. In human evaluations against SDXL, GenTron achieves a 51.1% win rate in visual quality (with a 19.8% draw rate), and a 42.3% win rate in text alignment (with a 42.9% draw rate). GenTron also excels in the T2I-CompBench, underscoring its strengths in compositional generation. We believe this work will provide meaningful insights and serve as a valuable reference for future research.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-02
# LatentMan:画像拡散モデルを用いた一貫性アニメーション文字の生成

LatentMan: Generating Consistent Animated Characters using Image Diffusion Models ( http://arxiv.org/abs/2312.07133v2 )

ライセンス: Link先を確認
Abdelrahman Eldesokey, Peter Wonka, (参考訳) テキスト・ツー・イメージ(T2I)拡散モデルに基づいて,アニメキャラクターの一貫した映像を生成するゼロショット手法を提案する。 既存のテキスト・トゥ・ビデオ(T2V)手法は訓練に費用がかかり、多様なキャラクタやモーションを生成するために大規模なビデオデータセットを必要とする。 同時に、ゼロショットの代替手段は、連続的な動きを伴う時間的に一貫したビデオを生成することができない。 我々はこのギャップを埋めようと努力し、既存のテキストベースの動き拡散モデルを利用してT2Iモデルを誘導する多種多様な連続的な動きを生成するLatntManを紹介した。 時間的整合性を高めるために,ビデオフレームの遅延を整列させるために計算するクロスフレーム密度対応を利用した空間潜在アライメントモジュールを導入する。 さらに,フレーム間の視覚的差異を最小限に抑える方向に拡散過程を制御するためのPixel-Wise Guidanceを提案する。 提案手法は,既存のゼロショットT2V手法より,ピクセルワイドの一貫性とユーザ嗜好の観点からアニメーションキャラクターのビデオ生成に優れる。 プロジェクトページ https://abdo-eldesokey.github.io/latentman/。

We propose a zero-shot approach for generating consistent videos of animated characters based on Text-to-Image (T2I) diffusion models. Existing Text-to-Video (T2V) methods are expensive to train and require large-scale video datasets to produce diverse characters and motions. At the same time, their zero-shot alternatives fail to produce temporally consistent videos with continuous motion. We strive to bridge this gap, and we introduce LatentMan, which leverages existing text-based motion diffusion models to generate diverse continuous motions to guide the T2I model. To boost the temporal consistency, we introduce the Spatial Latent Alignment module that exploits cross-frame dense correspondences that we compute to align the latents of the video frames. Furthermore, we propose Pixel-Wise Guidance to steer the diffusion process in a direction that minimizes visual discrepancies between frames. Our proposed approach outperforms existing zero-shot T2V approaches in generating videos of animated characters in terms of pixel-wise consistency and user preference. Project page https://abdo-eldesokey.github.io/latentman/.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-02
# 複数のディラックデルタポテンシャルからの1次元量子散乱:Pythonベースの解

One-dimensional quantum scattering from multiple Dirac delta potentials: A Python-based solution ( http://arxiv.org/abs/2312.08412v2 )

ライセンス: Link先を確認
Erfan Keshavarz, S. Habib Mazharimousavi, (参考訳) 本研究では,複数 Dirac $\delta -$% のポテンシャルを組み込んだ 1 次元量子システムをシミュレートする Python ベースのソリューションを提案する。 本研究の主な目的は,そのようなシステム内の散乱問題を調べることである。 このプログラムの開発により、システム全体の波動関数を生成し、ポテンシャル強度、ポテンシャル分離、およびディラック$\delta-$関数の形でのポテンシャル中心数を含む無限の組合せに対して解析的および数値的に透過・反射振幅を計算することができる。 さらに、コードを変更することで、完全な伝送を行う量子粒子のエネルギーを生成するいわゆる「透過共鳴」を調査する。 その後、システム内の不純物を考慮することで研究を拡大する。

In this research, we present a Python-based solution designed to simulate a one-dimensional quantum system that incorporates multiple Dirac $\delta -$% potentials. The primary aim of this research is to investigate the scattering problem within such a system. By developing this program, we can generate wave functions throughout the system and compute transmission and reflection amplitudes analytically and numerically for an infinite range of combinations involving potential strengths, potential separations, and the number of potential centers in the form of the Dirac $\delta -$functions. Furthermore, by modifying the code, we investigate the so-called "transmission resonances" which yields the energy of the quantum particles undergoing a perfect transmission. Subsequently, our research is extended by considering impurities in the system.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-02
# Hypergraph-MLP: メッセージパッシングなしでハイパーグラフを学習する

Hypergraph-MLP: Learning on Hypergraphs without Message Passing ( http://arxiv.org/abs/2312.09778v3 )

ライセンス: Link先を確認
Bohan Tang, Siheng Chen, Xiaowen Dong, (参考訳) ハイパーグラフは、2つ以上のエンティティを含む高次関係を持つデータモデリングにおいて不可欠である。 多くのハイパーグラフニューラルネットワークは、ハイパーグラフ構造上のメッセージパッシングを利用して、ノード表現学習を強化し、ハイパーグラフノード分類のようなタスクにおいて印象的なパフォーマンスをもたらす。 しかし、これらのメッセージパッシングベースのモデルは、オーバースムーシングや高レイテンシ、推論時の構造摂動に対する感度など、いくつかの課題に直面している。 これらの課題に対処するために,ハイパーグラフ構造に関する情報を明示的なメッセージパッシングを伴わずにトレーニング指導に統合する手法を提案する。 具体的には,ハイパーグラフ上の信号スムースネスの概念に基づく損失関数によって教師される単純な多層パーセプトロン(MLP)であるハイパーグラフ構造化データのための新しい学習フレームワークであるHypergraph-MLPを紹介する。 ハイパーグラフノード分類タスクの実験により、ハイパーグラフ-MLPは既存のベースラインと比較して競争性能が向上し、推論における構造的摂動に対してより高速で堅牢であることが示された。

Hypergraphs are vital in modelling data with higher-order relations containing more than two entities, gaining prominence in machine learning and signal processing. Many hypergraph neural networks leverage message passing over hypergraph structures to enhance node representation learning, yielding impressive performances in tasks like hypergraph node classification. However, these message-passing-based models face several challenges, including oversmoothing as well as high latency and sensitivity to structural perturbations at inference time. To tackle those challenges, we propose an alternative approach where we integrate the information about hypergraph structures into training supervision without explicit message passing, thus also removing the reliance on it at inference. Specifically, we introduce Hypergraph-MLP, a novel learning framework for hypergraph-structured data, where the learning model is a straightforward multilayer perceptron (MLP) supervised by a loss function based on a notion of signal smoothness on hypergraphs. Experiments on hypergraph node classification tasks demonstrate that Hypergraph-MLP achieves competitive performance compared to existing baselines, and is considerably faster and more robust against structural perturbations at inference.
翻訳日:2024-06-04 20:01:52 公開日:2024-06-02
# 衛星データによるチグラニア農民の内戦における作物栽培への抵抗性

Satellite Data Shows Resilience of Tigrayan Farmers in Crop Cultivation During Civil War ( http://arxiv.org/abs/2312.10819v2 )

ライセンス: Link先を確認
Hannah Kerner, Catherine Nakalembe, Benjamin Yeh, Ivan Zvonkov, Sergii Skakun, Inbal Becker-Reshef, Amy McNally, (参考訳) ティグレイ戦争(ティグレイせんせん、英語: Tigray War)は、2020年11月3日から2022年11月2日までエチオピア北部のティグレイ地方で起きた戦闘である。 ティグレイの農業が生活と食料安全保障にとって重要であることを考えると、戦争が耕作地に与える影響を判断することが重要である。 しかし、この影響を定量化するのは難しいのは、地域内および地域内への移動が制限され、紛争による不安全と封鎖が原因であった。 衛星画像と統計地域推定技術を用いて,戦前および戦時中におけるティグレイの作物栽培地域の変化を評価した。 戦時の影響は大きいものの,2020年から2021年にかけては耕作地がほぼ安定していた。 戦前は1,132,000 pm133,000 ヘクタール、戦前は1,217,000 pm132,000 ヘクタールだった。 コンフリクトイベントに伴う5kmバッファ内外の変化を比較すると,バッファ内における作物の損失の信頼性は,バッファ外(0-1%)に比べてわずかに高い(0-3%)。 我々の結果は、戦争による破壊が広範囲に及んだにも拘わらず、ティグラヤの農家は耕作を維持できたという他の報告を支持した。 本研究は、遠隔センシングと機械学習と統計的手法を組み合わせることで、紛争によりアクセス不能な地域での食品の安全性を監視するための、タイムリーで透明な領域推定を行う能力を示す。

The Tigray War was an armed conflict that took place primarily in the Tigray region of northern Ethiopia from November 3, 2020 to November 2, 2022. Given the importance of agriculture in Tigray to livelihoods and food security, determining the impact of the war on cultivated area is critical. However, quantifying this impact was difficult due to restricted movement within and into the region and conflict-driven insecurity and blockages. Using satellite imagery and statistical area estimation techniques, we assessed changes in crop cultivation area in Tigray before and during the war. Our findings show that cultivated area was largely stable between 2020-2021 despite the widespread impacts of the war. We estimated $1,132,000\pm133,000$ hectares of cultivation in pre-war 2020 compared to $1,217,000 \pm 132,000$ hectares in wartime 2021. Comparing changes inside and outside of a 5 km buffer around conflict events, we found a slightly higher upper confidence limit of cropland loss within the buffer (0-3%) compared to outside the buffer (0-1%). Our results support other reports that despite widespread war-related disruptions, Tigrayan farmers were largely able to sustain cultivation. Our study demonstrates the capability of remote sensing combined with machine learning and statistical techniques to provide timely, transparent area estimates for monitoring food security in regions inaccessible due to conflict.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-02
# 半監督型分類用ハイパーグラフ変換器

Hypergraph Transformer for Semi-Supervised Classification ( http://arxiv.org/abs/2312.11385v2 )

ライセンス: Link先を確認
Zexi Liu, Bohan Tang, Ziyuan Ye, Xiaowen Dong, Siheng Chen, Yanfeng Wang, (参考訳) ハイパーグラフは、2つ以上のエンティティを含む高次関係を特徴とするデータのモデリングにおいて重要な役割を果たす。 ハイパーグラフニューラルネットワークは、ハイパーグラフ構造化データを処理する強力なツールとして登場し、ハイパーグラフノードの分類など、さまざまなタスクで優れたパフォーマンスを実現する。 しかし、これらのモデルは、局所的なメッセージパッシングに依存しているため、グローバルな構造情報を取得するのに苦労している。 この課題に対処するために,新しいハイパーグラフ学習フレームワークHyperGraph Transformer(HyperGT)を提案する。 HyperGTはTransformerベースのニューラルネットワークアーキテクチャを使用して、すべてのノードとハイパーエッジのグローバル相関を効果的に検討する。 ローカルな構造情報を組み込むため、HyperGTには2つの異なる設計がある。 一 ハイパーグラフ発生行列に基づく位置符号化であって、ノード-ノード及びハイパーエッジ-ハイパーエッジ相互作用に関する貴重な洞察を提供するもの 二 損失関数におけるハイパーグラフ構造を規則化し、ノードとハイパーエッジ間の接続性を捉えること。 これらの設計を通じて、HyperGTは、局所接続パターンを維持しながら、グローバルな相互作用を効果的に組み込むことで、包括的なハイパーグラフ表現学習を実現する。 実世界のハイパーグラフノード分類タスクで実施された大規模な実験は、HyperGTが既存の手法を一貫して上回り、新しい最先端ベンチマークを確立することを示した。 アブレーション研究は、我々のモデルの個々の設計の有効性を裏付けるものである。

Hypergraphs play a pivotal role in the modelling of data featuring higher-order relations involving more than two entities. Hypergraph neural networks emerge as a powerful tool for processing hypergraph-structured data, delivering remarkable performance across various tasks, e.g., hypergraph node classification. However, these models struggle to capture global structural information due to their reliance on local message passing. To address this challenge, we propose a novel hypergraph learning framework, HyperGraph Transformer (HyperGT). HyperGT uses a Transformer-based neural network architecture to effectively consider global correlations among all nodes and hyperedges. To incorporate local structural information, HyperGT has two distinct designs: i) a positional encoding based on the hypergraph incidence matrix, offering valuable insights into node-node and hyperedge-hyperedge interactions; and ii) a hypergraph structure regularization in the loss function, capturing connectivities between nodes and hyperedges. Through these designs, HyperGT achieves comprehensive hypergraph representation learning by effectively incorporating global interactions while preserving local connectivity patterns. Extensive experiments conducted on real-world hypergraph node classification tasks showcase that HyperGT consistently outperforms existing methods, establishing new state-of-the-art benchmarks. Ablation studies affirm the effectiveness of the individual designs of our model.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-02
# Machine Mindset: MBTIによる大規模言語モデルの探索

Machine Mindset: An MBTI Exploration of Large Language Models ( http://arxiv.org/abs/2312.12999v4 )

ライセンス: Link先を確認
Jiaxi Cui, Liuzhenghao Lv, Jing Wen, Rongsheng Wang, Jing Tang, YongHong Tian, Li Yuan, (参考訳) 我々は,Mers-Briggs Type Indicator (MBTI) の人格特性を大規模言語モデル (LLM) に統合するための新しいアプローチを提案し,パーソナライズされたAIにおける人格整合性の課題に対処する。 提案手法は,MBTI特性をLLMに埋め込むための2相微調整と直接選好最適化(DPO)を含む。 このアプローチにより、モデルはこれらの特性を内部化し、安定的で一貫したパーソナリティプロファイルを提供する。 我々は,モデルの性能と各MBTI特性との整合性を示すとともに,モデルの有効性を様々な領域で示す。 本稿では、パーソナライズされたAIアプリケーションの可能性を高めるため、パーソナライズされたデータセットの開発における重要な貢献と、LLMにおけるパーソナライズ統合のための新しいトレーニング方法論を強調した。 また、当社のモデルとデータの一部を、 \url{https://github.com/PKU-YuanGroup/Machine-Mindset}でオープンソース化しました。

We present a novel approach for integrating Myers-Briggs Type Indicator (MBTI) personality traits into large language models (LLMs), addressing the challenges of personality consistency in personalized AI. Our method, "Machine Mindset," involves a two-phase fine-tuning and Direct Preference Optimization (DPO) to embed MBTI traits into LLMs. This approach ensures that models internalize these traits, offering a stable and consistent personality profile. We demonstrate the effectiveness of our models across various domains, showing alignment between model performance and their respective MBTI traits. The paper highlights significant contributions in the development of personality datasets and a new training methodology for personality integration in LLMs, enhancing the potential for personalized AI applications. We also open-sourced our model and part of the data at \url{https://github.com/PKU-YuanGroup/Machine-Mindset}.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-02
# フェデレート学習を用いた大規模言語モデルの個人差分低ランク適応

Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning ( http://arxiv.org/abs/2312.17493v2 )

ライセンス: Link先を確認
Xiao-Yang Liu, Rongyi Zhu, Daochen Zha, Jiechao Gao, Shan Zhong, Matt White, Meikang Qiu, (参考訳) 大型言語モデル(LLM)の関心の高まりと応用は、金融や医学などの特定の応用に適合するように、これらのモデルを微調整するきっかけとなった。 しかし、データプライバシに関する懸念は、特に複数の利害関係者が機密データを使用してLLMを協調的に強化しようとするときに現れている。 このシナリオでは、フェデレートされた学習が自然な選択となり、中央サーバに生データを公開することなく、分散化された微調整が可能になる。 そこで本研究では,LLMにおけるデータプライバシを,実践的なフェデレーション学習アプローチを通じて微調整し,複数のパーティからのセキュアなコントリビューションによるLLMの強化を実現する方法について検討する。 しかし、課題が生じる。 1)生データ露出を避けつつも、モデル出力からセンシティブな情報を推測するリスクがある。 2) LLM の連合学習は, 通信オーバーヘッドが顕著である。 これらの課題に対処するために,本論文では,LLMに適した新しいフェデレーション学習アルゴリズムであるDP-LoRAを紹介する。 DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。 さらに、DP-LoRAは、低ランク適応による通信効率を最適化し、分散トレーニング中の更新重みの伝達を最小化する。 様々なLCMを用いた医療、財務、一般データセットにわたる実験結果から、DP-LoRAは通信オーバーヘッドを最小限にしつつ、厳格なプライバシー制約を効果的に保証することを示した。

The surge in interest and application of large language models (LLMs) has sparked a drive to fine-tune these models to suit specific applications, such as finance and medical science. However, concerns regarding data privacy have emerged, especially when multiple stakeholders aim to collaboratively enhance LLMs using sensitive data. In this scenario, federated learning becomes a natural choice, allowing decentralized fine-tuning without exposing raw data to central servers. Motivated by this, we investigate how data privacy can be ensured in LLM fine-tuning through practical federated learning approaches, enabling secure contributions from multiple parties to enhance LLMs. Yet, challenges arise: 1) despite avoiding raw data exposure, there is a risk of inferring sensitive information from model outputs, and 2) federated learning for LLMs incurs notable communication overhead. To address these challenges, this article introduces DP-LoRA, a novel federated learning algorithm tailored for LLMs. DP-LoRA preserves data privacy by employing a Gaussian mechanism that adds noise in weight updates, maintaining individual data privacy while facilitating collaborative model training. Moreover, DP-LoRA optimizes communication efficiency via low-rank adaptation, minimizing the transmission of updated weights during distributed training. The experimental results across medical, financial, and general datasets using various LLMs demonstrate that DP-LoRA effectively ensures strict privacy constraints while minimizing communication overhead.
翻訳日:2024-06-04 19:52:07 公開日:2024-06-02
# インセンティブ適合性を有する多対一マッチング市場における帯域幅の改善

Improved Bandits in Many-to-one Matching Markets with Incentive Compatibility ( http://arxiv.org/abs/2401.01528v2 )

ライセンス: Link先を確認
Fang Kong, Shuai Li, (参考訳) 両面のマッチング市場は、そのリッチな応用のために、文献で広く研究されている。 参加者は通常、好みについて不確実であるため、最近は反復的な相互作用を通じて学習するためにオンラインアルゴリズムが採用されている。 既存の研究は、応答性のある多対一の設定でこの問題の研究を開始する。 しかし、彼らの結果は最適ではなく、インセンティブの互換性の保証が欠如している。 まず,1対1設定のための既存のアルゴリズムをこのより一般的な設定に拡張し,プレイヤー最適後悔に対するほぼ最適境界を実現することを示す。 それでも、コラボレーションのかなりの要件のため、シングルプレーヤーの偏差は、自身の累積報酬の大幅な増加と、他のプレイヤーに対する線形後悔につながる可能性がある。 本稿では,インセンティブの整合性を確保しつつ,多国間市場における後悔感を高めることを目的とする。 まず,適応探索型遅延受容アルゴリズム(AETDA)を提案する。 私たちの知る限りでは、$\Delta$を知らないような堅牢な保証を提供する市場において、プレイヤーとアームの間では、$\Delta$がある種の選好ギャップであるような、最初の多項式プレイヤー-最適保証を構成する。 また、安定なマッチングとカバー応答性の存在を保証するために、より広範な置換可能な嗜好についても検討する。 我々は,オンラインDA(ODA)アルゴリズムを考案し,この設定に対するプレイヤー・ペシシカル・ストリープの上限を確立する。

Two-sided matching markets have been widely studied in the literature due to their rich applications. Since participants are usually uncertain about their preferences, online algorithms have recently been adopted to learn them through iterative interactions. An existing work initiates the study of this problem in a many-to-one setting with responsiveness. However, their results are far from optimal and lack guarantees of incentive compatibility. We first extend an existing algorithm for the one-to-one setting to this more general setting and show it achieves a near-optimal bound for player-optimal regret. Nevertheless, due to the substantial requirement for collaboration, a single player's deviation could lead to a huge increase in its own cumulative rewards and a linear regret for others. In this paper, we aim to enhance the regret bound in many-to-one markets while ensuring incentive compatibility. We first propose the adaptively explore-then-deferred-acceptance (AETDA) algorithm for responsiveness setting and derive an upper bound for player-optimal stable regret while demonstrating its guarantee of incentive compatibility. To the best of our knowledge, it constitutes the first polynomial player-optimal guarantee in matching markets that offers such robust assurances without known $\Delta$, where $\Delta$ is some preference gap among players and arms. We also consider broader substitutable preferences, one of the most general conditions to ensure the existence of a stable matching and cover responsiveness. We devise an online DA (ODA) algorithm and establish an upper bound for the player-pessimal stable regret for this setting.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-02
# 空間課題に対するChatGPT-4, Gemini, Claude-3, Copilotの精度比較

Correctness Comparison of ChatGPT-4, Gemini, Claude-3, and Copilot for Spatial Tasks ( http://arxiv.org/abs/2401.02404v3 )

ライセンス: Link先を確認
Hartwig H. Hochmair, Levente Juhasz, Takoda Kemp, (参考訳) 大規模言語モデル(LLM)を含む生成AIは、最近、プログラミング、算術的推論、サンプルデータの生成、時系列予測、トポニム認識、画像分類などの汎用的なタスク解決機能を通じて、地球科学コミュニティにおいて大きな関心を集めている。 空間的タスクに対するLLMの性能評価のほとんどはChatGPTに重点を置いているが、他のチャットボットはあまり注目されていない。 この研究ギャップを狭めるために,ChatGPT-4,Gemini,Claude-3,Copilotという4つのチャットボットに割り当てられた7つのタスクカテゴリの76の空間タスクに対して,ゼロショットの正当性評価を行う。 チャットボットは一般に、空間リテラシー、GIS理論、プログラミングコードと関数の解釈に関連するタスクでうまく機能したが、マッピング、コード記述、空間推論の弱点が明らかになった。 さらに、4つのチャットボット間で結果の正しさに有意な差が認められた。 各チャットボットに割り当てられた繰り返しタスクからの応答は、4つのチャットボットのほとんどのタスクカテゴリに対して80%以上の一致率で応答の一貫性を示した。

Generative AI including large language models (LLMs) has recently gained significant interest in the geo-science community through its versatile task-solving capabilities including programming, arithmetic reasoning, generation of sample data, time-series forecasting, toponym recognition, or image classification. Most existing performance assessments of LLMs for spatial tasks have primarily focused on ChatGPT, whereas other chatbots received less attention. To narrow this research gap, this study conducts a zero-shot correctness evaluation for a set of 76 spatial tasks across seven task categories assigned to four prominent chatbots, i.e., ChatGPT-4, Gemini, Claude-3, and Copilot. The chatbots generally performed well on tasks related to spatial literacy, GIS theory, and interpretation of programming code and functions, but revealed weaknesses in mapping, code writing, and spatial reasoning. Furthermore, there was a significant difference in correctness of results between the four chatbots. Responses from repeated tasks assigned to each chatbot showed a high level of consistency in responses with matching rates of over 80% for most task categories in the four chatbots.
翻訳日:2024-06-04 19:42:23 公開日:2024-06-02
# 液晶における波長可変光子対生成

Tuneable entangled photon pair generation in a liquid crystal ( http://arxiv.org/abs/2401.07362v3 )

ライセンス: Link先を確認
Vitaliy Sultanov, Aljaž Kavčič, Emmanuil Kokkinakis, Nerea Sebastián, Maria V. Chekhova, Matjaž Humar, (参考訳) 液晶は、自己組み立て能力、電界への強い応答、複雑なシステムへの統合性を備え、光線操作の鍵となる材料である。 最近発見された強誘電性ネマティック液晶もまた、相当な2次光学非線形性を有しており、非線形光学の視点材料となっている。 量子光源としての利用は、フォトニック量子技術の境界を大幅に広げる可能性がある。 しかし、自然パラメトリックダウンコンバージョンは、絡み合った光子、ヘラルド化された単一光子、硬化した光の基本的な源であり、今のところ、液晶やあらゆる液体や有機材料では観測されていない。 ここでは、強誘電体ネマティック液晶において自発的なパラメトリックダウンコンバージョンを実装し、最も優れた非線形結晶に匹敵する効率で、絡み合った光子の電場調整可能なブロードバンド生成を示す。 光子対の放出速度と偏光状態は、数ボルトを印加するか、サンプルに沿って分子配向をねじることで劇的に変化する。 液晶源は、分子のツイスト構造に基づいて、光子対の所望のスペクトルおよび偏光特性に対して再構成可能な、新しいタイプの準位相整合を可能にする。 このような情報源は、生成した量子状態の機能、明るさ、チューニング性の観点から、標準の非線形光学材料を上回ることを約束している。 ここで開発された概念は、複雑な位相構造、マクロデバイス、多画素可変量子光源にまで拡張することができる。

Liquid crystals, with their ability of self-assembly, strong response to the electric field, and integrability into complex systems, are key materials in light beam manipulation. Recently discovered ferroelectric nematic liquid crystals also possess a considerable second-order optical nonlinearity, making them a perspective material for nonlinear optics. Their use as sources of quantum light could drastically extend the boundaries of photonic quantum technologies. However, spontaneous parametric down-conversion, the basic source of entangled photons, heralded single photons, and squeezed light, has been so far not observed in liquid crystals - or in any liquids or organic materials. Here, we implement spontaneous parametric down-conversion in a ferroelectric nematic liquid crystal and demonstrate electric-field tunable broadband generation of entangled photons, with the efficiency comparable to that of the best nonlinear crystals. The emission rate and polarization state of photon pairs is dramatically varied by applying a few volts or twisting the molecular orientation along the sample. A liquid crystal source enables a new type of quasi-phasematching, which is based on molecular twist structure and is therefore reconfigurable for the desired spectral and polarization properties of photon pairs. Such sources promise to outperform standard nonlinear optical materials in terms of functionality, brightness and the tunability of the generated quantum state. The concepts developed here can be extended to complex topological structures, macroscopic devices, and multi-pixel tunable quantum light sources.
翻訳日:2024-06-04 19:32:37 公開日:2024-06-02
# 構造的変分ファミリによる拡張性のあるブラックボックス変分推定

Provably Scalable Black-Box Variational Inference with Structured Variational Families ( http://arxiv.org/abs/2401.10989v2 )

ライセンス: Link先を確認
Joohwan Ko, Kyurae Kim, Woo Chang Kim, Jacob R. Gardner, (参考訳) フルランク共分散近似を持つ変分族は、経験的および理論的にブラックボックス変分推論(BBVI)においてうまく機能しないことが知られている。 実際、最近のBBVIの計算複雑性の結果は、フルランクの変動族は、例えば平均体族と比較して、問題の次元性に乏しくスケールすることが証明されている。 これは局所変数を持つ階層的ベイズモデルにとって特に重要であり、その次元はデータセットのサイズによって増加する。 その結果、データセットサイズ(N)に依存する明示的な(\mathcal{O}(N^2))反復複雑性が得られる。 本稿では,平均場変動族とフルランク族の間の理論的中間点を探索する。 ある種のスケール行列構造が (\mathcal{O}\left(N\right)) のより優れた反復複雑性を達成できることを厳密に証明し、(N) に関してより優れたスケーリングを示唆する。 大規模階層モデルの理論的結果を実証的に検証する。

Variational families with full-rank covariance approximations are known not to work well in black-box variational inference (BBVI), both empirically and theoretically. In fact, recent computational complexity results for BBVI have established that full-rank variational families scale poorly with the dimensionality of the problem compared to e.g. mean-field families. This is particularly critical to hierarchical Bayesian models with local variables; their dimensionality increases with the size of the datasets. Consequently, one gets an iteration complexity with an explicit (\mathcal{O}(N^2)) dependence on the dataset size (N). In this paper, we explore a theoretical middle ground between mean-field variational families and full-rank families: structured variational families. We rigorously prove that certain scale matrix structures can achieve a better iteration complexity of (\mathcal{O}\left(N\right)), implying better scaling with respect to (N). We empirically verify our theoretical results on large-scale hierarchical models.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-02
# 3次元ダイナミクスモデリングのための等変グラフニューラル演算子

Equivariant Graph Neural Operator for Modeling 3D Dynamics ( http://arxiv.org/abs/2401.11037v2 )

ライセンス: Link先を確認
Minkai Xu, Jiaqi Han, Aaron Lou, Jean Kossaifi, Arvind Ramanathan, Kamyar Azizzadenesheli, Jure Leskovec, Stefano Ermon, Anima Anandkumar, (参考訳) 関係系の複雑な3次元力学をモデル化することは、分子シミュレーションから粒子力学まで、自然科学において重要な問題である。 機械学習手法は、空間的相互作用をモデル化するグラフニューラルネットワークを学習することで、大きな成功を収めている。 しかし、これらの手法は次のステップの予測のみをモデル化するため、時間的相関を忠実に捉えない。 本研究では,次のステップの予測ではなく,ダイナミックスを直接トラジェクトリとしてモデル化する新しい,原理的手法であるEquivariant Graph Neural Operator (EGNO)を提案する。 既存の手法と異なり、EGNOは3次元力学の時間的進化を明示的に学習し、時間とともに力学を関数として定式化し、ニューラルネットワークを学習して近似する。 固有SE(3)-等分散を保ちながら時間相関を捉えるために、フーリエ空間でパラメータ化された同変時間畳み込みを開発し、同変ネットワーク上にフーリエ層を積み重ねてEGNOを構築する。 EGNOは3次元の等価性を保ちながら、時間とともに解のダイナミクスをモデル化できる最初の演算子学習フレームワークである。 粒子シミュレーション、ヒトのモーションキャプチャー、分子動力学を含む複数の領域における総合的な実験は、同変時間モデルにより、既存の手法に比べてEGNOの著しく優れた性能を示す。 私たちのコードはhttps://github.com/MinkaiXu/egno.comで公開されています。

Modeling the complex three-dimensional (3D) dynamics of relational systems is an important problem in the natural sciences, with applications ranging from molecular simulations to particle mechanics. Machine learning methods have achieved good success by learning graph neural networks to model spatial interactions. However, these approaches do not faithfully capture temporal correlations since they only model next-step predictions. In this work, we propose Equivariant Graph Neural Operator (EGNO), a novel and principled method that directly models dynamics as trajectories instead of just next-step prediction. Different from existing methods, EGNO explicitly learns the temporal evolution of 3D dynamics where we formulate the dynamics as a function over time and learn neural operators to approximate it. To capture the temporal correlations while keeping the intrinsic SE(3)-equivariance, we develop equivariant temporal convolutions parameterized in the Fourier space and build EGNO by stacking the Fourier layers over equivariant networks. EGNO is the first operator learning framework that is capable of modeling solution dynamics functions over time while retaining 3D equivariance. Comprehensive experiments in multiple domains, including particle simulations, human motion capture, and molecular dynamics, demonstrate the significantly superior performance of EGNO against existing methods, thanks to the equivariant temporal modeling. Our code is available at https://github.com/MinkaiXu/egno.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-02
# ProLex: 言語習熟度指向の語彙置換のためのベンチマーク

ProLex: A Benchmark for Language Proficiency-oriented Lexical Substitution ( http://arxiv.org/abs/2401.11356v3 )

ライセンス: Link先を確認
Xuanming Zhang, Zixun Chen, Zhou Yu, (参考訳) Lexical Substitutionは、コンテキスト文で所定の対象単語の適切な代用を見つける。 しかし、その課題は、目標よりも同等または高い習熟度を持つ代用品を考えることに失敗し、言語学習者が書き方を改善するのに有益である可能性がある。 このギャップを埋めるために、我々は新しいタスク、言語習熟度指向の語彙置換を提案する。 ProLexは,適切な代替品を生成するだけでなく,優れた言語能力を示す代替品を生成するシステムの能力を評価するために設計された,新しいベンチマークである。 ベンチマークの他に,新しいタスクを自動実行可能なモデルを提案する。 タスク固有の合成データを微調整したLlama2-13Bモデルでは,Fスコアの平均3.2%でChatGPTを上回り,ProLex上でのGPT-4と同等の結果が得られることを示す。

Lexical Substitution discovers appropriate substitutes for a given target word in a context sentence. However, the task fails to consider substitutes that are of equal or higher proficiency than the target, an aspect that could be beneficial for language learners looking to improve their writing. To bridge this gap, we propose a new task, language proficiency-oriented lexical substitution. We also introduce ProLex, a novel benchmark designed to assess systems' ability to generate not only appropriate substitutes but also substitutes that demonstrate better language proficiency. Besides the benchmark, we propose models that can automatically perform the new task. We show that our best model, a Llama2-13B model fine-tuned with task-specific synthetic data, outperforms ChatGPT by an average of 3.2% in F-score and achieves comparable results with GPT-4 on ProLex.
翻訳日:2024-06-04 19:32:36 公開日:2024-06-02
# 非定常顧客によるオンラインリソース割り当て

Online Resource Allocation with Non-Stationary Customers ( http://arxiv.org/abs/2401.16945v2 )

ライセンス: Link先を確認
Xiaoyue Zhang, Hanzhang Qin, Mabel C. Chou, (参考訳) 非定常的な顧客到着率と未知のクリックスルー率を持つオンラインリソースアロケーションのための新しいアルゴリズムを提案する。 複数種類の顧客が定常確率で到着し、各期間の到着率が不明であり、客のクリックスルー率が不明であり、オンラインでのみ学習できると仮定する。 Knapsackによる確率的文脈的バンディットと、敵の到着とオンラインマッチングの結果を活用することで、非定常顧客に対してリソースを割り当てるオンラインスキームを開発する。 提案手法は, 利用者の到着がほぼ静止している場合に, サブリニアな後悔を伴い, 一般の(静止しない)顧客到着分布の下で最適な競争比を享受する。 最後に、さまざまな顧客シナリオに対して、アプローチが最適に近い収益を生み出すことを示すために、広範な数値実験を行う。

We propose a novel algorithm for online resource allocation with non-stationary customer arrivals and unknown click-through rates. We assume multiple types of customers arrive in a nonstationary stochastic fashion, with unknown arrival rates in each period, and that customers' click-through rates are unknown and can only be learned online. By leveraging results from the stochastic contextual bandit with knapsack and online matching with adversarial arrivals, we develop an online scheme to allocate the resources to nonstationary customers. We prove that under mild conditions, our scheme achieves a ``best-of-both-world'' result: the scheme has a sublinear regret when the customer arrivals are near-stationary, and enjoys an optimal competitive ratio under general (non-stationary) customer arrival distributions. Finally, we conduct extensive numerical experiments to show our approach generates near-optimal revenues for all different customer scenarios.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-02
# LLaMP:高忠実度材料知識検索と蒸留のための大規模言語モデル

LLaMP: Large Language Model Made Powerful for High-fidelity Materials Knowledge Retrieval and Distillation ( http://arxiv.org/abs/2401.17244v2 )

ライセンス: Link先を確認
Yuan Chiang, Elvis Hsieh, Chia-Hong Chou, Janosh Riebesell, (参考訳) 大規模言語モデル(LLM)の幻覚の低減は、信頼性と再現性が不可欠である科学において必要不可欠である。 しかし、LLMは本質的に長期記憶に欠けており、ドメイン固有の文献やデータに基づいてそれらを微調整する非自明で、アドホックで、必然的にバイアスのかかるタスクである。 本稿では、階層的推論・実行(ReAct)エージェントのマルチモーダル検索拡張生成(RAG)フレームワークであるLLaMPを紹介し、材料プロジェクト(MP)上の計算および実験データと動的かつ再帰的に相互作用し、高スループットワークフローインタフェースを介して原子シミュレーションを実行する。 微調整なしでは、LLaMPは、材料科学の概念の様々なモダリティを理解し統合し、関連するデータストアをフライで取得し、高次データ(結晶構造や弾性テンソルなど)を処理し、計算材料や化学における複雑なタスクを効率化する強力なツール使用能力を示す。 LLaMPとバニラLLMによる応答の自己整合性を評価するため,不確実性と信頼度推定を組み合わせた簡易な計量法を提案する。 LLaMPは, LLMの固有バイアスを効果的に軽減し, バルク変調, 電子バンドギャップ, および混合データ源から生じると思われる生成エネルギーの誤差に対処する。 また、LLaMPの結晶構造を編集し、事前学習された機械学習力場を用いてアニーリング分子動力学シミュレーションを実行する能力を実証する。 このフレームワークは、情報材料を探索しスケーリングするための直感的でほとんど幻覚のないアプローチを提供し、知識の蒸留と他の言語モデルを微調整するための経路を確立する。 コードとライブデモはhttps://github.com/chiang-yuan/llampで公開されている。

Reducing hallucination of Large Language Models (LLMs) is imperative for use in the sciences, where reliability and reproducibility are crucial. However, LLMs inherently lack long-term memory, making it a nontrivial, ad hoc, and inevitably biased task to fine-tune them on domain-specific literature and data. Here we introduce LLaMP, a multimodal retrieval-augmented generation (RAG) framework of hierarchical reasoning-and-acting (ReAct) agents that can dynamically and recursively interact with computational and experimental data on Materials Project (MP) and run atomistic simulations via high-throughput workflow interface. Without fine-tuning, LLaMP demonstrates strong tool usage ability to comprehend and integrate various modalities of materials science concepts, fetch relevant data stores on the fly, process higher-order data (such as crystal structure and elastic tensor), and streamline complex tasks in computational materials and chemistry. We propose a simple metric combining uncertainty and confidence estimates to evaluate the self-consistency of responses by LLaMP and vanilla LLMs. Our benchmark shows that LLaMP effectively mitigates the intrinsic bias in LLMs, counteracting the errors on bulk moduli, electronic bandgaps, and formation energies that seem to derive from mixed data sources. We also demonstrate LLaMP's capability to edit crystal structures and run annealing molecular dynamics simulations using pre-trained machine-learning force fields. The framework offers an intuitive and nearly hallucination-free approach to exploring and scaling materials informatics, and establishes a pathway for knowledge distillation and fine-tuning other language models. Code and live demo are available at https://github.com/chiang-yuan/llamp
翻訳日:2024-06-04 19:22:52 公開日:2024-06-02
# 位置:ベイジアンディープラーニングは大規模AIの時代に必要である

Position: Bayesian Deep Learning is Needed in the Age of Large-Scale AI ( http://arxiv.org/abs/2402.00809v4 )

ライセンス: Link先を確認
Theodore Papamarkou, Maria Skoularidou, Konstantina Palla, Laurence Aitchison, Julyan Arbel, David Dunson, Maurizio Filippone, Vincent Fortuin, Philipp Hennig, José Miguel Hernández-Lobato, Aliaksandr Hubin, Alexander Immer, Theofanis Karaletsos, Mohammad Emtiyaz Khan, Agustinus Kristiadi, Yingzhen Li, Stephan Mandt, Christopher Nemeth, Michael A. Osborne, Tim G. J. Rudner, David Rügamer, Yee Whye Teh, Max Welling, Andrew Gordon Wilson, Ruqi Zhang, (参考訳) ディープラーニング研究の現在の状況では、大規模な画像と言語データセットを含む教師付きタスクにおいて、高い予測精度を達成することに重点が置かれている。 しかし、より広い視点から見れば、不確実性、活動的かつ継続的な学習、科学的なデータなど、見落とされがちなメトリクス、タスク、データタイプが、注意を喚起する。 Bayesian Deep Learning(BDL)は,これらのさまざまな設定にまたがってメリットを提供する,有望な道の1つである。 本稿では,BDLが深層学習の能力を高めることができることを示唆する。 BDLの強みを再考し、既存の課題を認識し、これらの障害に対処するためのエキサイティングな研究方法を強調します。 今後の議論は、大規模ファンデーションモデルをBDLと組み合わせて、その潜在能力を最大限に活用する方法に焦点を当てている。

In the current landscape of deep learning research, there is a predominant emphasis on achieving high predictive accuracy in supervised tasks involving large image and language datasets. However, a broader perspective reveals a multitude of overlooked metrics, tasks, and data types, such as uncertainty, active and continual learning, and scientific data, that demand attention. Bayesian deep learning (BDL) constitutes a promising avenue, offering advantages across these diverse settings. This paper posits that BDL can elevate the capabilities of deep learning. It revisits the strengths of BDL, acknowledges existing challenges, and highlights some exciting research avenues aimed at addressing these obstacles. Looking ahead, the discussion focuses on possible ways to combine large-scale foundation models with BDL to unlock their full potential.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-02
# X-CBA:侵入検知システムのためのキャットブースト・アノマールEを用いた説明可能性支援

X-CBA: Explainability Aided CatBoosted Anomal-E for Intrusion Detection System ( http://arxiv.org/abs/2402.00839v2 )

ライセンス: Link先を確認
Kiymet Kaya, Elif Ak, Sumeyye Bas, Berk Canberk, Sule Gunduz Oguducu, (参考訳) サイバー脅威がますます複雑になりつつある時代には、侵入検知システム(IDS)の有効性が重要である。 機械学習(ML)とディープラーニング(DL)モデルは、コンピュータネットワークにおける攻撃や異常を識別するための効率的で正確なソリューションを提供する。 しかし、IDSにおけるMLモデルとDLモデルの使用は、不透明な意思決定による信頼の低下につながっている。 IDS研究におけるこの透明性のギャップは、信頼性と説明責任に影響を及ぼす。 本稿では、グラフニューラルネットワーク(GNN)の構造的利点を活用して、ネットワークトラフィックデータを効果的に処理すると同時に、新しい説明可能なAI(XAI)手法を適用した、新しい説明可能なIDSアプローチであるX-CBAを提案する。 ラベル付きネットワークトラフィックやノード機能に依存するほとんどのGNNベースのIDSとは異なり、我々はエッジ属性を含むネットワークフローを通じて幅広いトラフィックデータを活用し、検出機能を改善し、新たな脅威に適応する。 実証実験により,脅威検出において99.47%の精度で高い精度を達成できるだけでなく,分析結果の明確かつ実用的な説明を提供することで,分野を前進させることが確認された。 この研究はまた、現在のギャップを埋め、正確かつ解釈可能なローカルかつグローバルな説明可能性ソリューションを提供することによって、ML/DL技術のサイバーセキュリティ防衛への広範な統合を促進することを目的としている。

The effectiveness of Intrusion Detection Systems (IDS) is critical in an era where cyber threats are becoming increasingly complex. Machine learning (ML) and deep learning (DL) models provide an efficient and accurate solution for identifying attacks and anomalies in computer networks. However, using ML and DL models in IDS has led to a trust deficit due to their non-transparent decision-making. This transparency gap in IDS research is significant, affecting confidence and accountability. To address, this paper introduces a novel Explainable IDS approach, called X-CBA, that leverages the structural advantages of Graph Neural Networks (GNNs) to effectively process network traffic data, while also adapting a new Explainable AI (XAI) methodology. Unlike most GNN-based IDS that depend on labeled network traffic and node features, thereby overlooking critical packet-level information, our approach leverages a broader range of traffic data through network flows, including edge attributes, to improve detection capabilities and adapt to novel threats. Through empirical testing, we establish that our approach not only achieves high accuracy with 99.47% in threat detection but also advances the field by providing clear, actionable explanations of its analytical outcomes. This research also aims to bridge the current gap and facilitate the broader integration of ML/DL technologies in cybersecurity defenses by offering a local and global explainability solution that is both precise and interpretable.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-02
# 連続的障害分布を持つ2次元スピンモデルに対する数値的連結クラスター展開

Numerical linked-cluster expansions for two-dimensional spin models with continuous disorder distributions ( http://arxiv.org/abs/2402.00931v2 )

ライセンス: Link先を確認
Mahmoud Abdelshafy, Marcos Rigol, (参考訳) 本研究では, 十分に大きな構造ブロックに基づく数値連成クラスタ展開(NLCE)により, 連続的な乱れ分布を持つスピン格子モデルの熱力学特性に対して, 高精度な低温特性が得られることを示す。 具体的には、重みを計算する前に、NLCEクラスタの障害平均を計算することができることを示す。 L, 正方形, 矩形構造ブロックに基づく3つの異なるNLCEを用いた概念証明を提供する。 古典的(Ising)と量子的(Heisenberg)のスピン-$\frac{1}{2}$モデルの両方を考慮すると、収束はモデル内の関連するエネルギースケールよりも最大2桁低い温度まで達成可能であることを示す。 さらに、ある次元において、その基底状態の値までエネルギーなどの観測値の正確な結果が得られることを示す。

We show that numerical linked cluster expansions (NLCEs) based on sufficiently large building blocks allow one to obtain accurate low-temperature results for the thermodynamic properties of spin lattice models with continuous disorder distributions. Specifically, we show that such results can be obtained computing the disorder averages in the NLCE clusters before calculating their weights. We provide a proof of concept using three different NLCEs based on L, square, and rectangle building blocks. We consider both classical (Ising) and quantum (Heisenberg) spin-$\frac{1}{2}$ models and show that convergence can be achieved down to temperatures that are up to two orders of magnitude lower than the relevant energy scale in the model. Additionally, we provide evidence that in one dimension one can obtain accurate results for observables such as the energy down to their ground-state values.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-02
# 二重性に基づく相互作用予測によるスケーラブルなマルチモーダルモデル予測制御

Scalable Multi-modal Model Predictive Control via Duality-based Interaction Predictions ( http://arxiv.org/abs/2402.01116v4 )

ライセンス: Link先を確認
Hansung Kim, Siddharth H. Nair, Francesco Borrelli, (参考訳) 複雑なマルチモーダルトラフィックシナリオにおいて,スケーラブルなリアルタイムモデル予測制御(MPC)を実現する階層型アーキテクチャを提案する。 このアーキテクチャは2つの重要なコンポーネントから構成される。 1) RAID-Net - ラグランジアン双対性を用いた自律走行車と周辺車両間のMPC予測地平線に沿った関連する相互作用を予測する新しい注意型リカレントニューラルネットワーク 2) 衝突回避制約を排除し, 計算効率を向上する確率的MPC問題を削減する。 本手法は,移動計画問題の解法において,12倍のスピードアップを示す,対話型周囲車両との交通交差点のシミュレーションで実証された。 提案されたアーキテクチャを複数の複雑なトラフィックシナリオで示すビデオは、以下の通りである。 GitHub:https://github.com/MPC-Berkeley/hmpc_raidnet

We propose a hierarchical architecture designed for scalable real-time Model Predictive Control (MPC) in complex, multi-modal traffic scenarios. This architecture comprises two key components: 1) RAID-Net, a novel attention-based Recurrent Neural Network that predicts relevant interactions along the MPC prediction horizon between the autonomous vehicle and the surrounding vehicles using Lagrangian duality, and 2) a reduced Stochastic MPC problem that eliminates irrelevant collision avoidance constraints, enhancing computational efficiency. Our approach is demonstrated in a simulated traffic intersection with interactive surrounding vehicles, showcasing a 12x speed-up in solving the motion planning problem. A video demonstrating the proposed architecture in multiple complex traffic scenarios can be found here: https://youtu.be/-pRiOnPb9_c. GitHub: https://github.com/MPC-Berkeley/hmpc_raidnet
翻訳日:2024-06-04 19:22:52 公開日:2024-06-02
# 変圧器は文脈で非線形特徴を学習する:注意景観における非凸平均場ダイナミクス

Transformers Learn Nonlinear Features In Context: Nonconvex Mean-field Dynamics on the Attention Landscape ( http://arxiv.org/abs/2402.01258v2 )

ライセンス: Link先を確認
Juno Kim, Taiji Suzuki, (参考訳) Transformerアーキテクチャに基づく大規模言語モデルは、コンテキストで学習できる印象的な能力を示している。 しかし、この現象の発生に関する既存の理論的研究は、線形回帰タスクで訓練された単一の注意層の力学に限られている。 本稿では,完全連結層と線形アテンション層からなるトランスフォーマーの最適化について検討する。 MLPは共通の非線形表現や特徴マップとして機能し、文脈内学習の能力を大幅に向上させる。 平均場と2時間スケールの極限において、パラメータの分布に対する無限次元のロスランドスケープは、非常に非凸であるが、かなり良質であることが証明される。 また、平均場力学の2次安定性を解析し、ワッサーシュタイン勾配流がほぼ常にサドル点を避けることを示す。 さらに,重要点と近点の両方から具体的な改善率を得るための新しい手法を確立する。 これは平均場力学における最初のサドル点解析であり、その技術は独立した関心を持つ。

Large language models based on the Transformer architecture have demonstrated impressive capabilities to learn in context. However, existing theoretical studies on how this phenomenon arises are limited to the dynamics of a single layer of attention trained on linear regression tasks. In this paper, we study the optimization of a Transformer consisting of a fully connected layer followed by a linear attention layer. The MLP acts as a common nonlinear representation or feature map, greatly enhancing the power of in-context learning. We prove in the mean-field and two-timescale limit that the infinite-dimensional loss landscape for the distribution of parameters, while highly nonconvex, becomes quite benign. We also analyze the second-order stability of mean-field dynamics and show that Wasserstein gradient flow almost always avoids saddle points. Furthermore, we establish novel methods for obtaining concrete improvement rates both away from and near critical points. This represents the first saddle point analysis of mean-field dynamics in general and the techniques are of independent interest.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-02
# 3次元タンパク質鎖上のスパンマスク戦略によるタンパク質の2レベル発現の事前評価

Pre-Training Protein Bi-level Representation Through Span Mask Strategy On 3D Protein Chains ( http://arxiv.org/abs/2402.01481v4 )

ライセンス: Link先を確認
Jiale Zhao, Wanru Zhuang, Jia Song, Yaqi Li, Shuqi Lu, (参考訳) 近年、3次元構造に基づく事前学習タンパク質モデルの開発が急増しており、様々な下流タスクにおける事前学習タンパク質言語モデルに対する顕著な進歩を示している。 しかし、既存の構造に基づく事前訓練モデルは、主に残基レベル、すなわちアルファ炭素原子に焦点を当て、一方側鎖原子のような他の原子を無視している。 側鎖の原子は、例えば分子ドッキングのような多くの下流のタスクにも重要であるので、残基と原子レベルのタンパク質のモデリングが重要であると我々は主張する。 それにもかかわらず、予備訓練中に残基と原子情報を鼻で組み合わせることは通常失敗する。 入力に原子構造が組み込まれ、残差レベルの事前学習タスクを自明に行い、表現力に乏しい残差表現をもたらすことが主な原因である。 この問題に対処するために,3次元タンパク質鎖上でのスパンマスク事前学習戦略を導入し,残基と原子の有意義な表現を学習する。 これにより、多様な下流タスクに適したタンパク質表現を学習するための、シンプルで効果的なアプローチが導かれる。 結合サイト予測と関数予測タスクに関する大規模な実験結果から,提案手法が他の手法よりも優れていることを示す。 私たちのコードは公開されます。

In recent years, there has been a surge in the development of 3D structure-based pre-trained protein models, representing a significant advancement over pre-trained protein language models in various downstream tasks. However, most existing structure-based pre-trained models primarily focus on the residue level, i.e., alpha carbon atoms, while ignoring other atoms like side chain atoms. We argue that modeling proteins at both residue and atom levels is important since the side chain atoms can also be crucial for numerous downstream tasks, for example, molecular docking. Nevertheless, we find that naively combining residue and atom information during pre-training typically fails. We identify a key reason is the information leakage caused by the inclusion of atom structure in the input, which renders residue-level pre-training tasks trivial and results in insufficiently expressive residue representations. To address this issue, we introduce a span mask pre-training strategy on 3D protein chains to learn meaningful representations of both residues and atoms. This leads to a simple yet effective approach to learning protein representation suitable for diverse downstream tasks. Extensive experimental results on binding site prediction and function prediction tasks demonstrate our proposed pre-training approach significantly outperforms other methods. Our code will be made public.
翻訳日:2024-06-04 19:22:52 公開日:2024-06-02
# LLMの政治的選好

The Political Preferences of LLMs ( http://arxiv.org/abs/2402.01789v2 )

ライセンス: Link先を確認
David Rozado, (参考訳) 本稿では,Large Language Models (LLMs) に埋め込まれた政治的嗜好の包括的分析について報告する。 すなわち、テストテイカーの政治的嗜好を特定するために設計された11の政治的指向試験を、クローズドかつオープンソースの両方で24の最先端の会話型LLMに実施します。 政治的意味を持った質問や声明を調査すると、ほとんどの会話型LLMは、ほとんどの政治的テスト機器によって認識される応答を、中心的な視点の好みを示すものとして生成する傾向にある。 これは、LLMが人間との会話に最適化された5つの基礎モデル(すなわち基礎モデル)が構築されているというわけではない。 しかし、テストの疑問に忠実に答えるベースモデルの弱い性能は、この結果のサブセットを決定できないものにしている。 最後に、SFTが政治的指向をLLMに組み込む可能性を示唆する政治的整合性のあるデータのみを用いて、SFT(Supervised Fine-Tuning)を通じて、政治スペクトルの特定の場所に向けて、LLMを操ることが可能であることを実証する。 LLMは検索エンジンやウィキペディアのような伝統的な情報ソースを部分的に取り除き始めているため、LLMに埋め込まれた政治的偏見の社会的意味は大きい。

I report here a comprehensive analysis about the political preferences embedded in Large Language Models (LLMs). Namely, I administer 11 political orientation tests, designed to identify the political preferences of the test taker, to 24 state-of-the-art conversational LLMs, both closed and open source. When probed with questions/statements with political connotations, most conversational LLMs tend to generate responses that are diagnosed by most political test instruments as manifesting preferences for left-of-center viewpoints. This does not appear to be the case for five additional base (i.e. foundation) models upon which LLMs optimized for conversation with humans are built. However, the weak performance of the base models at coherently answering the tests' questions makes this subset of results inconclusive. Finally, I demonstrate that LLMs can be steered towards specific locations in the political spectrum through Supervised Fine-Tuning (SFT) with only modest amounts of politically aligned data, suggesting SFT's potential to embed political orientation in LLMs. With LLMs beginning to partially displace traditional information sources like search engines and Wikipedia, the societal implications of political biases embedded in LLMs are substantial.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-02
# 最適後部共分散を用いた逆問題に対する拡散モデルの改善

Improving Diffusion Models for Inverse Problems Using Optimal Posterior Covariance ( http://arxiv.org/abs/2402.02149v2 )

ライセンス: Link先を確認
Xinyu Peng, Ziyang Zheng, Wenrui Dai, Nuoqian Xiao, Chenglin Li, Junni Zou, Hongkai Xiong, (参考訳) 近年の拡散モデルは、特定の逆問題に対して再訓練することなく、ノイズの多い線形逆問題に対する有望なゼロショット解を提供する。 本稿では,近年の手法を,手作り等方性共分散を用いたガウス近似を用いて一様に解釈できることを示す。 この発見に触発されて、我々は、最大推定値から決定されるより原理化された共分散を用いて、最近の手法を改善することを提案する。 後続共分散の最適化を再学習せずに実現するため, 逆共分散を伴わずに事前学習したモデルを活用するために設計された2つのアプローチに基づいて, 汎用的なプラグアンドプレイソリューションを提供する。 さらに,正規化に基づく表現に基づく後部共分散予測のスケーラブルな学習法を提案する。 実験の結果,提案手法はハイパーパラメータチューニングを必要とせず,再現性を大幅に向上することが示された。

Recent diffusion models provide a promising zero-shot solution to noisy linear inverse problems without retraining for specific inverse problems. In this paper, we reveal that recent methods can be uniformly interpreted as employing a Gaussian approximation with hand-crafted isotropic covariance for the intractable denoising posterior to approximate the conditional posterior mean. Inspired by this finding, we propose to improve recent methods by using more principled covariance determined by maximum likelihood estimation. To achieve posterior covariance optimization without retraining, we provide general plug-and-play solutions based on two approaches specifically designed for leveraging pre-trained models with and without reverse covariance. We further propose a scalable method for learning posterior covariance prediction based on representation with orthonormal basis. Experimental results demonstrate that the proposed methods significantly enhance reconstruction performance without requiring hyperparameter tuning.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-02
# ユークリッド同変機械学習のためのWeisfeiler Leman

Weisfeiler Leman for Euclidean Equivariant Machine Learning ( http://arxiv.org/abs/2402.02484v2 )

ライセンス: Link先を確認
Snir Hordan, Tal Amir, Nadav Dym, (参考訳) k$-Weisfeiler-Leman(k$-WL)グラフ同型テスト階層は、グラフニューラルネットワーク(GNN)の表現力を評価する一般的な方法である。 最近、表現力が 2$-WL テストと等価である GNN は、点クラウドデータを3.3\mathrm{D}$でエンコードする重み付きグラフ上で普遍であることが証明されたが、この結果は点クラウド上の不変連続関数に限られている。 第一に、PSGNは、複雑さの低い全点の雲上で、均一に2$-WLをシミュレートできることを示す。 第二に、アプリケーションでよく発生するシナリオである、位置と速度の両方を含むポイントクラウドまで、$2-WLのテストを拡張できることを示します。 最後に、同変普遍性を証明するための一般的な枠組みを提供し、これを利用すれば、この不変な PPGN アーキテクチャの簡単な修正が、すべての連続同変関数を一様に近似できる普遍同変アーキテクチャを得るのに利用できることを証明できる。 この結果に基づいて,N-Body動的タスクとGEOM-QM9分子配座生成タスクに新たな最先端結果を設定するWeLNetアーキテクチャを開発した。

The $k$-Weisfeiler-Leman ($k$-WL) graph isomorphism test hierarchy is a common method for assessing the expressive power of graph neural networks (GNNs). Recently, GNNs whose expressive power is equivalent to the $2$-WL test were proven to be universal on weighted graphs which encode $3\mathrm{D}$ point cloud data, yet this result is limited to invariant continuous functions on point clouds. In this paper, we extend this result in three ways: Firstly, we show that PPGN can simulate $2$-WL uniformly on all point clouds with low complexity. Secondly, we show that $2$-WL tests can be extended to point clouds which include both positions and velocities, a scenario often encountered in applications. Finally, we provide a general framework for proving equivariant universality and leverage it to prove that a simple modification of this invariant PPGN architecture can be used to obtain a universal equivariant architecture that can approximate all continuous equivariant functions uniformly. Building on our results, we develop our WeLNet architecture, which sets new state-of-the-art results on the N-Body dynamics task and the GEOM-QM9 molecular conformation generation task.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-02
# 検証回路の再利用による言語モデルの信頼度向上

Increasing Trust in Language Models through the Reuse of Verified Circuits ( http://arxiv.org/abs/2402.02619v5 )

ライセンス: Link先を確認
Philip Quirke, Clement Neo, Fazl Barez, (参考訳) 言語モデル(LM)は、幅広い予測タスクにますます使われていますが、それらのトレーニングは稀なエッジケースを無視し、信頼性を低下させます。 ここでは、タスクアルゴリズムと回路実装を検証し、エッジケースを考慮し、既知の障害モードを含まない、厳格な信頼性基準を定義する。 数学的および論理的に規定されたフレームワークを使用して構築すれば,トランスフォーマーモデルをこの標準を満たすように訓練できることが示される。 本稿では,n桁整数加算モデルを完全に検証する。 検証されたモジュールの再利用性を示すため、トレーニングされた整数加算モデルをトレーニングされていないモデルに挿入し、組み合わせたモデルで加算と減算の両方を行うように訓練する。 両タスクの加算回路を広範囲に再利用し,より複雑な減算器モデルの検証を容易にする。 本稿では,検証済みのタスクモジュールをLMに挿入することで,モデルの再利用を有効活用し,それらを用いた言語モデルの妥当性と信頼性を向上させる方法について論じる。 検証回路の再利用により、言語モデルの安全性に向けた重要なステップであると考えられる、より複雑な複合モデルを検証する労力が削減される。

Language Models (LMs) are increasingly used for a wide range of prediction tasks, but their training can often neglect rare edge cases, reducing their reliability. Here, we define a stringent standard of trustworthiness whereby the task algorithm and circuit implementation must be verified, accounting for edge cases, with no known failure modes. We show that a transformer model can be trained to meet this standard if built using mathematically and logically specified frameworks. In this paper, we fully verify a model for n-digit integer addition. To exhibit the reusability of verified modules, we insert the trained integer addition model into an untrained model and train the combined model to perform both addition and subtraction. We find extensive reuse of the addition circuits for both tasks, easing verification of the more complex subtractor model. We discuss how inserting verified task modules into LMs can leverage model reuse to improve verifiability and trustworthiness of language models built using them. The reuse of verified circuits reduces the effort to verify more complex composite models which we believe to be a significant step towards safety of language models.
翻訳日:2024-06-04 19:13:07 公開日:2024-06-02
# 部分確率的無限深部ベイズニューラルネットワーク

Partially Stochastic Infinitely Deep Bayesian Neural Networks ( http://arxiv.org/abs/2402.03495v3 )

ライセンス: Link先を確認
Sergio Calvo-Ordonez, Matthieu Meunier, Francesco Piatti, Yuantao Shi, (参考訳) 本稿では、無限深度ニューラルネットワークの枠組みに部分確率性を統合する新しいアーキテクチャ群である、部分確率 Infinitely Deep Bayesian Neural Networksを提案する。 我々の新しいアーキテクチャのクラスは、既存のアーキテクチャのトレーニングや推論時の計算効率を改善するために設計されています。 これを実現するために, 完全確率性 e g 頑健性, 不確実性定量化, メモリ効率の利点を含む無限深度限界における部分確率性の利点を活用するとともに, 計算複雑性に関する限界を改善する。 重み分割のための様々な方法を含む,ネットワーク設計における柔軟性を提供する,さまざまなアーキテクチャ構成を提案する。 また,我々のネットワークファミリーがUniversal Conditional Distribution Approximatorに該当することを確立することにより,モデル表現性に関する数学的保証も提供する。 最後に、複数のタスクに対する実証的な評価により、提案したアーキテクチャは、ダウンストリームタスクのパフォーマンスと不確かさの定量化を、より効果的に達成できることを示す。 コードは \url{https://github.com/Sergio20f/part_stoch_inf_deep} で見ることができる。

In this paper, we present Partially Stochastic Infinitely Deep Bayesian Neural Networks, a novel family of architectures that integrates partial stochasticity into the framework of infinitely deep neural networks. Our new class of architectures is designed to improve the computational efficiency of existing architectures at training and inference time. To do this, we leverage the advantages of partial stochasticity in the infinite-depth limit which include the benefits of full stochasticity e.g. robustness, uncertainty quantification, and memory efficiency, whilst improving their limitations around computational complexity. We present a variety of architectural configurations, offering flexibility in network design including different methods for weight partition. We also provide mathematical guarantees on the expressivity of our models by establishing that our network family qualifies as Universal Conditional Distribution Approximators. Lastly, empirical evaluations across multiple tasks show that our proposed architectures achieve better downstream task performance and uncertainty quantification than their counterparts while being significantly more efficient. The code can be found at \url{https://github.com/Sergio20f/part_stoch_inf_deep}
翻訳日:2024-06-04 19:03:18 公開日:2024-06-02
# 変分オートエンコーダによる異常検出の統計的検証

Statistical Test for Anomaly Detections by Variational Auto-Encoders ( http://arxiv.org/abs/2402.03724v2 )

ライセンス: Link先を確認
Daiki Miwa, Tomohiro Shiraishi, Vo Nguyen Le Duy, Teruyuki Katsuoka, Ichiro Takeuchi, (参考訳) 本研究では,変分オートエンコーダ(VAE)を用いた異常検出(AD)の信頼性評価について検討する。 過去10年間で、VAEベースのADは、メソッド開発から応用研究まで、様々な観点から活発に研究されてきた。 しかし, 診断などの高精度な意思決定にADの結果を使用する場合には, 検出された異常の信頼性を確保する必要がある。 本研究では, 統計的テストの枠組みの中で, VAEベースのADの統計的信頼性を定量化する手法として, VAE-ADテストを提案する。 VAE-ADテストを用いて、VAEによって検出された異常領域の信頼性をp値の形で定量することができる。 これは、p値が一定の閾値以下であるときに異常が宣言されると、偽検出の確率を所望のレベルに制御することができることを意味する。 VAE-ADテストは選択推論と呼ばれる新しい統計的推論フレームワークに基づいて構築されるため、その妥当性は有限標本で理論的に保証される。 提案したVAE-ADテストの有効性と有効性を示すため,人工データに関する数値実験と脳画像解析への応用を行った。

In this study, we consider the reliability assessment of anomaly detection (AD) using Variational Autoencoder (VAE). Over the last decade, VAE-based AD has been actively studied in various perspective, from method development to applied research. However, when the results of ADs are used in high-stakes decision-making, such as in medical diagnosis, it is necessary to ensure the reliability of the detected anomalies. In this study, we propose the VAE-AD Test as a method for quantifying the statistical reliability of VAE-based AD within the framework of statistical testing. Using the VAE-AD Test, the reliability of the anomaly regions detected by a VAE can be quantified in the form of p-values. This means that if an anomaly is declared when the p-value is below a certain threshold, it is possible to control the probability of false detection to a desired level. Since the VAE-AD Test is constructed based on a new statistical inference framework called selective inference, its validity is theoretically guaranteed in finite samples. To demonstrate the validity and effectiveness of the proposed VAE-AD Test, numerical experiments on artificial data and applications to brain image analysis are conducted.
翻訳日:2024-06-04 19:03:18 公開日:2024-06-02
# リニアMDPを用いたオフライン制約強化学習の2次アルゴリズム

A Primal-Dual Algorithm for Offline Constrained Reinforcement Learning with Linear MDPs ( http://arxiv.org/abs/2402.04493v2 )

ライセンス: Link先を確認
Kihyuk Hong, Ambuj Tewari, (参考訳) 本研究では,無限水平割引設定の下で線形MDPを用いたオフライン強化学習(RL)について検討し,事前収集したデータセットを用いて期待値の累積報酬を最大化する政策を学習することを目的とした。 この設定の既存のアルゴリズムは、均一なデータカバレッジの仮定を必要とするか、$O(\epsilon^{-2})$サンプル複雑性を持つ$\epsilon$-optimal Policyを見つけるために計算的に非効率である。 本稿では,無限水平割引設定における線形MDPを用いたオフラインRLの原始双対アルゴリズムを提案する。 本アルゴリズムは, 部分的データカバレッジを仮定した$O(\epsilon^{-2})$のサンプル複雑性を実現するアルゴリズムとして, この設定において, 計算効率のよい最初のアルゴリズムである。 私たちの仕事は、$O(\epsilon^{-4})$サンプルを必要とする最近の作業の改善です。 さらに,このアルゴリズムを,付加的な報酬信号の制約を強制するオフライン制約付きRL設定で動作するように拡張する。

We study offline reinforcement learning (RL) with linear MDPs under the infinite-horizon discounted setting which aims to learn a policy that maximizes the expected discounted cumulative reward using a pre-collected dataset. Existing algorithms for this setting either require a uniform data coverage assumptions or are computationally inefficient for finding an $\epsilon$-optimal policy with $O(\epsilon^{-2})$ sample complexity. In this paper, we propose a primal dual algorithm for offline RL with linear MDPs in the infinite-horizon discounted setting. Our algorithm is the first computationally efficient algorithm in this setting that achieves sample complexity of $O(\epsilon^{-2})$ with partial data coverage assumption. Our work is an improvement upon a recent work that requires $O(\epsilon^{-4})$ samples. Moreover, we extend our algorithm to work in the offline constrained RL setting that enforces constraints on additional reward signals.
翻訳日:2024-06-04 19:03:18 公開日:2024-06-02
# Alirector: アライメント強化中国の文法エラーコレクタ

Alirector: Alignment-Enhanced Chinese Grammatical Error Corrector ( http://arxiv.org/abs/2402.04601v2 )

ライセンス: Link先を確認
Haihui Yang, Xiaojun Quan, (参考訳) 中国の文法的誤り訂正(CGEC)は、シークエンス・ツー・シークエンス(Seq2Seq)モデルやデコーダのみの大規模言語モデル(LLMs)といった自己回帰生成モデルを採用する際に、深刻な過度な過度な問題に直面している。 従来の手法はSeq2Seqモデルでは過補正に対処するが、デコーダのみのLLMに適応することは困難である。 本稿では,Seq2SeqモデルとデコーダのみのLLMの両方に適用可能な過補正問題に対するアライメント強化補正器を提案する。 本手法は、まず、原文の初期修正を生成するために補正モデルを訓練する。 そして、原文を初期修正と組み合わせ、アライメントモデルを介して別の修正ラウンドをフィードし、アライメントモデルを強制して潜在的な過補正に集中させる。 さらに,モデルのニュアンス同定能力を高めるために,原文の逆アライメントと初期修正について検討する。 最後に、アライメントの知識を2つのアライメントモデルから補正モデルに転送し、過補正を回避する方法を指示する。 3つのCGECデータセットによる実験結果から,オーバーコレクトを緩和し,全体的な性能を向上させるためのアプローチの有効性が示された。 私たちのコードは公開されています。

Chinese grammatical error correction (CGEC) faces serious overcorrection challenges when employing autoregressive generative models such as sequence-to-sequence (Seq2Seq) models and decoder-only large language models (LLMs). While previous methods aim to address overcorrection in Seq2Seq models, they are difficult to adapt to decoder-only LLMs. In this paper, we propose an alignment-enhanced corrector for the overcorrection problem that applies to both Seq2Seq models and decoder-only LLMs. Our method first trains a correction model to generate an initial correction of the source sentence. Then, we combine the source sentence with the initial correction and feed it through an alignment model for another round of correction, aiming to enforce the alignment model to focus on potential overcorrection. Moreover, to enhance the model's ability to identify nuances, we further explore the reverse alignment of the source sentence and the initial correction. Finally, we transfer the alignment knowledge from two alignment models to the correction model, instructing it on how to avoid overcorrection. Experimental results on three CGEC datasets demonstrate the effectiveness of our approach in alleviating overcorrection and improving overall performance. Our code has been made publicly available.
翻訳日:2024-06-04 19:03:18 公開日:2024-06-02
# SQT -- std $Q$-target

SQT -- std $Q$-target ( http://arxiv.org/abs/2402.05950v3 )

ライセンス: Link先を確認
Nitsan Soffair, Dotan Di-Castro, Orly Avner, Shie Mannor, (参考訳) Std $Q$-targetは、保守的でアクター批判的でアンサンブルな$Q$-learningベースのアルゴリズムであり、単一のキーである$Q$-formula: $Q$-networks標準偏差に基づいている。 我々は、TD3/TD7コード上にSQTを実装し、7つの一般的な MuJoCo タスクと Bullet タスクにおいて、最先端(SOTA)アクター批判アルゴリズムである DDPG,TD3,TD7 に対してテストする。 SQTは, DDPG, TD3, TD7に対して, DDPG, TD7よりも高い性能を示す一方, TD3 の $Q$-target 式よりも, RL の過大評価バイアスに対する保守的解法として優れていることを示す。

Std $Q$-target is a conservative, actor-critic, ensemble, $Q$-learning-based algorithm, which is based on a single key $Q$-formula: $Q$-networks standard deviation, which is an "uncertainty penalty", and, serves as a minimalistic solution to the problem of overestimation bias. We implement SQT on top of TD3/TD7 code and test it against the state-of-the-art (SOTA) actor-critic algorithms, DDPG, TD3 and TD7 on seven popular MuJoCo and Bullet tasks. Our results demonstrate SQT's $Q$-target formula superiority over TD3's $Q$-target formula as a conservative solution to overestimation bias in RL, while SQT shows a clear performance advantage on a wide margin over DDPG, TD3, and TD7 on all tasks.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-02
# MinMaxMin$Q$-learning

MinMaxMin $Q$-learning ( http://arxiv.org/abs/2402.05951v3 )

ライセンス: Link先を確認
Nitsan Soffair, Shie Mannor, (参考訳) MinMaxMin $Q$-learningは、保守的RLアルゴリズムに固有の真の$Q$-valueを過大評価する)過大評価バイアスの問題に対処する、新しい楽観的なアクター・クリティカルアルゴリズムである。 その中核的な公式は、min-batch MaxMin $Q$-networks の形で、$Q$-target に追加され、サンプリングルールを優先的に再生するエクスペリエンスとして使用される$Q$-networks 間の不一致に依存している。 我々は、TD3とTD7の上にMinMaxMinを実装し、最先端の連続空間アルゴリズム(DDPG、TD3、TD7)に対して厳格なテストを行う。 その結果、すべてのテストタスクでDDPG、TD3、TD7よりもMinMaxMinが一貫したパフォーマンス向上を示した。

MinMaxMin $Q$-learning is a novel optimistic Actor-Critic algorithm that addresses the problem of overestimation bias ($Q$-estimations are overestimating the real $Q$-values) inherent in conservative RL algorithms. Its core formula relies on the disagreement among $Q$-networks in the form of the min-batch MaxMin $Q$-networks distance which is added to the $Q$-target and used as the priority experience replay sampling-rule. We implement MinMaxMin on top of TD3 and TD7, subjecting it to rigorous testing against state-of-the-art continuous-space algorithms-DDPG, TD3, and TD7-across popular MuJoCo and Bullet environments. The results show a consistent performance improvement of MinMaxMin over DDPG, TD3, and TD7 across all tested tasks.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-02
# PEAKによるPeeking:複数のデータストリームに対する逐次的・非パラメトリック複合仮説テスト

Peeking with PEAK: Sequential, Nonparametric Composite Hypothesis Tests for Means of Multiple Data Streams ( http://arxiv.org/abs/2402.06122v3 )

ライセンス: Link先を確認
Brian Cho, Kyra Gan, Nathan Kallus, (参考訳) 本稿では,複数データストリームを用いた合成仮説のための新しい非パラメトリックシーケンシャルテストを提案する。 提案手法は,予測に基づく平均資本(PEAK)を用いたemph{peeking(emph{peeking with expectation-based averaged capital})であり,テスト・バイ・ベッティング・フレームワーク上に構築され,任意の停止時間にわたって,非漸近的な$\alpha$-levelテストを提供する。 コントリビューションは2つある:(1)新しいベッティング方式を提案し、単一のデータストリームの設定において、タイプIエラー制御、パワー、および漸近的成長速度/$e$パワーに関する理論的保証を提供する;(2)このベッティング方式を複数のストリームに一般化したPEAKを導入する。 (i)平均化による無駄な組合結束の使用を避けること。 (ii) 流路のサンプリング方式における緩やかな規則性条件下での電力の試験、及び 3)純探索バンディット問題にテスト・アズ・ベッティング・アプローチを適用する際の計算オーバーヘッドを低減する。 合成および実世界のHeartStepsデータセットを用いて,PEAKの実用的メリットを説明する。 実験の結果, PEAKは, 純探索バンディット問題に対する既存の停止規則と比較して, サンプル数の最大85%削減が可能であり, 計算複雑性を改善しつつ, 最先端のシーケンシャルテストの性能と一致していることがわかった。

We propose a novel nonparametric sequential test for composite hypotheses for means of multiple data streams. Our proposed method, \emph{peeking with expectation-based averaged capital} (PEAK), builds upon the testing-by-betting framework and provides a non-asymptotic $\alpha$-level test across any stopping time. Our contributions are two-fold: (1) we propose a novel betting scheme and provide theoretical guarantees on type-I error control, power, and asymptotic growth rate/$e$-power in the setting of a single data stream; (2) we introduce PEAK, a generalization of this betting scheme to multiple streams, that (i) avoids using wasteful union bounds via averaging, (ii) is a test of power one under mild regularity conditions on the sampling scheme of the streams, and (iii) reduces computational overhead when applying the testing-as-betting approaches for pure-exploration bandit problems. We illustrate the practical benefits of PEAK using both synthetic and real-world HeartSteps datasets. Our experiments show that PEAK provides up to an 85\% reduction in the number of samples before stopping compared to existing stopping rules for pure-exploration bandit problems, and matches the performance of state-of-the-art sequential tests while improving upon computational complexity.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-02
# SMCは本当に必要なもの:パラレル・ストロング・スケーリング

SMC Is All You Need: Parallel Strong Scaling ( http://arxiv.org/abs/2402.06173v2 )

ライセンス: Link先を確認
Xinzhu Liang, Joseph M. Lukens, Sanjaya Lohani, Brian T. Kirby, Thomas A. Searles, Kody J. H. Law, (参考訳) ベイズ分布は比例定数までしか評価できないため、シミュレーションと一貫した推定は困難である。 シーケンシャルモンテカルロ (SMC) やマルコフ連鎖モンテカルロ (MCMC) のような古典的一貫したベイズ的手法は、非有界な時間複雑性要求を持つ。 非同期プロセスの数が増加すると、時間的複雑性(およびノード単位のメモリ)が制限されるため、並列の強いスケーリングを実現するための完全並列シーケンシャルモンテカルロ法(pSMC)を開発した。 より正確には、pSMC は Mean Square Error (MSE)$ = O(1/NP)$ の理論的収束率を持ち、$N$ は各プロセッサにおける通信サンプルの数を表し、$P$ はプロセッサ数を表す。 特に、問題依存の$N$ に対して、$P \rightarrow \infty$ は無限小精度 MSE$=O(\varepsilon^2)$ に収束し、固定された有限時間複雑度コスト=O(1)$ と効率リークのない、すなわち計算複雑性のコスト=O(\varepsilon^{-2})$ に収束する。 pSMC法とMCMC法を比較するため,ベイズ推定問題もいくつか検討されている。

The Bayesian posterior distribution can only be evaluated up-to a constant of proportionality, which makes simulation and consistent estimation challenging. Classical consistent Bayesian methods such as sequential Monte Carlo (SMC) and Markov chain Monte Carlo (MCMC) have unbounded time complexity requirements. We develop a fully parallel sequential Monte Carlo (pSMC) method which provably delivers parallel strong scaling, i.e. the time complexity (and per-node memory) remains bounded if the number of asynchronous processes is allowed to grow. More precisely, the pSMC has a theoretical convergence rate of Mean Square Error (MSE)$ = O(1/NP)$, where $N$ denotes the number of communicating samples in each processor and $P$ denotes the number of processors. In particular, for suitably-large problem-dependent $N$, as $P \rightarrow \infty$ the method converges to infinitesimal accuracy MSE$=O(\varepsilon^2)$ with a fixed finite time-complexity Cost$=O(1)$ and with no efficiency leakage, i.e. computational complexity Cost$=O(\varepsilon^{-2})$. A number of Bayesian inference problems are taken into consideration to compare the pSMC and MCMC methods.
翻訳日:2024-06-04 18:53:33 公開日:2024-06-02
# マルチLLMのネットワーク形成とダイナミクス

Network Formation and Dynamics Among Multi-LLMs ( http://arxiv.org/abs/2402.10659v3 )

ライセンス: Link先を確認
Marios Papachristou, Yuan Yuan, (参考訳) ソーシャルネットワークは、人間の社会における意見、行動、情報拡散を形作る。 大規模言語モデル(LLM)が社会的および専門的な環境に統合されるにつれて、社会的相互作用やネットワークの文脈におけるそれらの振る舞いを理解することが不可欠となる。 本研究は,LLMのネットワーク形成挙動を分析し,複数のLLMの力学が人間の社会力学と類似しているか否かを調べた。 我々は,LLMがネットワーク形成において,優先的なアタッチメント,三進的閉鎖,ホモフィリー,コミュニティ構造,および小世界の現象など,重要なソーシャルネットワークの原則を示すことを観察した。 また、実世界のネットワークに基づくLCMの意思決定について検討し、三進的クロージャとホモフィリーが優先的なアタッチメントよりも強い影響を示し、LLMがネットワーク形成予測において良好に機能することを明らかにする。 本研究は,ネットワーク科学研究におけるLLMの新たな可能性を明らかにするとともに,社会的相互作用の行動に光を当て,社会的ダイナミクスへの影響を探ることにより,社会的に認知されたLLMの開発を支援する。

Social networks shape opinions, behaviors, and information dissemination in human societies. As large language models (LLMs) increasingly integrate into social and professional environments, understanding their behavior within the context of social interactions and networks becomes essential. Our study analyzes LLMs' network formation behavior to examine whether the dynamics of multiple LLMs are similar to or different from human social dynamics. We observe that LLMs exhibit key social network principles, including preferential attachment, triadic closure, homophily, community structure, and the small-world phenomenon, when asked about their preferences in network formation. We also investigate LLMs' decision-making based on real-world networks, revealing that triadic closure and homophily have a stronger influence than preferential attachment and that LLMs perform well in network formation predictions. Overall, our study opens up new possibilities for using LLMs in network science research and helps develop socially aware LLMs by shedding light on their social interaction behaviors and exploring their impacts on social dynamics.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-02
# AFaCTA:信頼性LLMアノテーションを用いたFactual Claim Detectionのアノテーション支援

AFaCTA: Assisting the Annotation of Factual Claim Detection with Reliable LLM Annotators ( http://arxiv.org/abs/2402.11073v3 )

ライセンス: Link先を確認
Jingwei Ni, Minjing Shi, Dominik Stammbach, Mrinmaya Sachan, Elliott Ash, Markus Leippold, (参考訳) 生成AIの台頭に伴い、誤情報に対処する自動ファクトチェック手法がますます重要になっている。 しかし、ファクトチェックパイプラインの最初のステップである事実的クレーム検出は、そのスケーラビリティと一般化性を制限する2つの重要な問題に悩まされている。 1) 関連作業における定義を概観し, 検証性に着目した事実的主張の統一的定義を提案する。 2) に対処するため,我々は AFaCTA (Automatic Factual Claim deTection Annotator) を紹介した。 AFaCTAは、3つの事前定義された推論経路に沿って、アノテーションの信頼度を一貫性で調整する。 政治的スピーチの領域における広範囲な評価と実験により、AFaCTAは、事実の主張を注釈付けし、高品質な分類器を訓練する専門家を効率的に支援し、専門家の監督なしに作業できることが明らかになった。 PoliClaimは、さまざまな政治的トピックにまたがる包括的なクレーム検出データセットである。

With the rise of generative AI, automated fact-checking methods to combat misinformation are becoming more and more important. However, factual claim detection, the first step in a fact-checking pipeline, suffers from two key issues that limit its scalability and generalizability: (1) inconsistency in definitions of the task and what a claim is, and (2) the high cost of manual annotation. To address (1), we review the definitions in related work and propose a unifying definition of factual claims that focuses on verifiability. To address (2), we introduce AFaCTA (Automatic Factual Claim deTection Annotator), a novel framework that assists in the annotation of factual claims with the help of large language models (LLMs). AFaCTA calibrates its annotation confidence with consistency along three predefined reasoning paths. Extensive evaluation and experiments in the domain of political speech reveal that AFaCTA can efficiently assist experts in annotating factual claims and training high-quality classifiers, and can work with or without expert supervision. Our analyses also result in PoliClaim, a comprehensive claim detection dataset spanning diverse political topics.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-02
# CoLLaVO:Cryon Large LanguageとVision mOdel

CoLLaVO: Crayon Large Language and Vision mOdel ( http://arxiv.org/abs/2402.11248v4 )

ライセンス: Link先を確認
Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro, (参考訳) LLM(Large Language Models)とインストラクションチューニングの顕著な成功は、視覚言語モデル(VLM)の多目的汎用モデルへの進化を促進する。 しかし、現行のVLMが「画像にどのオブジェクトがあるのか」や「どのオブジェクトが指定されたバウンディングボックスに対応するのか」から判断される品質の高いオブジェクトレベルの画像理解能力を持っているかどうかはまだ不明である。 その結果,現在のVLMのイメージ理解能力は,視覚言語(VL)タスクにおけるゼロショット性能と強く相関していることが判明した。 このことは、VLMがVLタスクに精通する上で、基本的なイメージ理解の優先順位付けが重要であることを示唆している。 オブジェクトレベルの画像理解を強化するために,Crayon Prompt を用いた命令チューニングをパン光学カラーマップに基づく新しい視覚的プロンプトチューニング手法として組み込んだCrayon Large Language and Vision mOdel (CoLLaVO)を提案する。 さらに、Dual QLoRAの学習戦略として、視覚的命令チューニング中にオブジェクトレベルのイメージ理解を忘れずに保存し、ゼロショット設定で多数のVLベンチマークにおいて大きな飛躍を達成する。

The remarkable success of Large Language Models (LLMs) and instruction tuning drives the evolution of Vision Language Models (VLMs) towards a versatile general-purpose model. Yet, it remains unexplored whether current VLMs genuinely possess quality object-level image understanding capabilities determined from 'what objects are in the image?' or 'which object corresponds to a specified bounding box?'. Our findings reveal that the image understanding capabilities of current VLMs are strongly correlated with their zero-shot performance on vision language (VL) tasks. This suggests that prioritizing basic image understanding is crucial for VLMs to excel at VL tasks. To enhance object-level image understanding, we propose Crayon Large Language and Vision mOdel (CoLLaVO), which incorporates instruction tuning with Crayon Prompt as a new visual prompt tuning scheme based on panoptic color maps. Furthermore, we present a learning strategy of Dual QLoRA to preserve object-level image understanding without forgetting it during visual instruction tuning, thereby achieving a significant leap in numerous VL benchmarks in a zero-shot setting.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-02
# Momentor: 微粒な時間推論によるビデオ大言語モデルの改善

Momentor: Advancing Video Large Language Model with Fine-Grained Temporal Reasoning ( http://arxiv.org/abs/2402.11435v2 )

ライセンス: Link先を確認
Long Qian, Juncheng Li, Yu Wu, Yaobo Ye, Hao Fei, Tat-Seng Chua, Yueting Zhuang, Siliang Tang, (参考訳) 大規模言語モデル(LLM)は、テキストベースのタスクの理解と処理において、顕著な習熟度を示す。 これらの属性をビデオ・LLMと呼ばれるビデオ・モダリティに転送するために多くの努力がなされている。 しかし、既存のVideo-LLMは粗いセマンティクスのみをキャプチャすることができ、特定のビデオセグメントの理解やローカライゼーションに関連するタスクを効果的に処理できない。 これらの課題を踏まえ、細かな時間的理解タスクを実現できるビデオLLMであるMomentorを提案する。 Momentorのトレーニングを支援するために,セグメントレベルの命令データを持つ大規模ビデオ命令データセットであるMoment-10Mを構築するための自動データ生成エンジンを設計する。 Moment-10MでMomentorをトレーニングし、セグメントレベルの推論とローカライゼーションを可能にします。 いくつかのタスクにおけるゼロショット評価は、モーメントアが微粒な時間的基底の理解と局所化において優れていることを示す。

Large Language Models (LLMs) demonstrate remarkable proficiency in comprehending and handling text-based tasks. Many efforts are being made to transfer these attributes to video modality, which are termed Video-LLMs. However, existing Video-LLMs can only capture the coarse-grained semantics and are unable to effectively handle tasks related to comprehension or localization of specific video segments. In light of these challenges, we propose Momentor, a Video-LLM capable of accomplishing fine-grained temporal understanding tasks. To support the training of Momentor, we design an automatic data generation engine to construct Moment-10M, a large-scale video instruction dataset with segment-level instruction data. We train Momentor on Moment-10M, enabling it to perform segment-level reasoning and localization. Zero-shot evaluations on several tasks demonstrate that Momentor excels in fine-grained temporally grounded comprehension and localization.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-02
# 公に監査可能なプライバシー保護選挙ロール

Publicly auditable privacy-preserving electoral rolls ( http://arxiv.org/abs/2402.11582v3 )

ライセンス: Link先を確認
Prashant Agrawal, Mahabir Prasad Jhanwar, Subodh Vishnu Sharma, Subhashis Banerjee, (参考訳) 電子投票に関する既存の文献は、投票プロトコルの検証可能性に広範囲に対処してきたが、大規模な選挙における選挙ロールの脆弱性は、依然として重要な懸念事項である。 選挙人票の完全性を確保するため、現在の慣習は選挙人票を公にするか、政党と共有することである。 しかし、これにより、詳細な有権者プロファイルの構築と、有権者の選択的ターゲティングと操作が可能となり、自由かつ公正な選挙の基本原則を損なうことになる。 本稿では,公的な監査可能かつプライバシ保護型選挙ロールを設計する際の問題点について検討する。 まず、脅威モデルを定式化し、正式なセキュリティ定義を提供する。 次に、脅威を緩和する選挙ロールの作成、保守、使用のためのプロトコルを提示します。 政党や監査役は選挙のロールを統計的に監査することができる。 さらに、不正な投票員による有権者への投票日ごとの投票や拒否を検知することもできる。 選挙全体は明らかにされていないため、大規模な組織的な投票者によるターゲティングと操作を妨げている。

While existing literature on electronic voting has extensively addressed verifiability of voting protocols, the vulnerability of electoral rolls in large public elections remains a critical concern. To ensure integrity of electoral rolls, the current practice is to either make electoral rolls public or share them with the political parties. However, this enables construction of detailed voter profiles and selective targeting and manipulation of voters, thereby undermining the fundamental principle of free and fair elections. In this paper, we study the problem of designing publicly auditable yet privacy-preserving electoral rolls. We first formulate a threat model and provide formal security definitions. We then present a protocol for creation, maintenance and usage of electoral rolls that mitigates the threats. Eligible voters can verify their inclusion, whereas political parties and auditors can statistically audit the electoral roll. Further, the audit can also detect polling-day ballot stuffing and denials to eligible voters by malicious polling officers. The entire electoral roll is never revealed, which prevents any large-scale systematic voter targeting and manipulation.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-02
# 言語誘導型イメージリフレクション分離

Language-guided Image Reflection Separation ( http://arxiv.org/abs/2402.11874v3 )

ライセンス: Link先を確認
Haofeng Zhong, Yuchen Hong, Shuchen Weng, Jinxiu Liang, Boxin Shi, (参考訳) 本稿では, 言語記述を導入し, 層間コンテンツ提供による不適切な反射分離問題に対処することを目的とした, 言語誘導反射分離の問題について検討する。 本稿では,言語記述と画像層との対応性を構築するために,コントラスト学習戦略を用いたクロスアテンション機構を活用した統合フレームワークを提案する。 ゲートネットワーク設計とランダムなトレーニング戦略を用いて、認識可能な層あいまいさに対処する。 提案手法の有効性は,既存の反射分離法に比べて定量的および定性的な比較において有意な性能上の優位性によって検証された。

This paper studies the problem of language-guided reflection separation, which aims at addressing the ill-posed reflection separation problem by introducing language descriptions to provide layer content. We propose a unified framework to solve this problem, which leverages the cross-attention mechanism with contrastive learning strategies to construct the correspondence between language descriptions and image layers. A gated network design and a randomized training strategy are employed to tackle the recognizable layer ambiguity. The effectiveness of the proposed method is validated by the significant performance advantage over existing reflection separation methods on both quantitative and qualitative comparisons.
翻訳日:2024-06-04 18:33:51 公開日:2024-06-02
# 大規模言語モデルの知識編集における複数ホップファクチュアルショートカットの検討

Investigating Multi-Hop Factual Shortcuts in Knowledge Editing of Large Language Models ( http://arxiv.org/abs/2402.11900v2 )

ライセンス: Link先を確認
Tianjie Ju, Yijin Chen, Xinwei Yuan, Zhuosheng Zhang, Wei Du, Yubin Zheng, Gongshen Liu, (参考訳) 最近の研究は、知識と推論をリコールする際の大きな言語モデル(LLM)の強力な能力を示した。 しかし、これらの2つの能力とマルチホップ事実による推論を組み合わせたLLMの信頼性は、広く研究されていない。 本稿では,マルチホップ知識の初期と終端の直接接続に基づくショートカットの利用の可能性について,体系的に検討する。 我々はまず、知識ニューロンを通して現実のショートカットの存在を探索し、それを明らかにした。 一 実写ショートカットの強度は、事前学習コーパスにおける初期及び終末エンティティの共起頻度と高い相関性を有する。 (ii)少数ショットプロンプトは、チェーン・オブ・シークレットプロンプトに比べて、マルチホップ質問に回答する際のショートカットをより多く活用する。 そして,マルチホップ知識編集の観点から,事実的ショートカットによって引き起こされるリスクを分析する。 分析によると、障害の約20%はショートカットによるもので、これらの障害インスタンスの初期および終端エンティティは、通常、トレーニング前のコーパスでより高い共起率を持つ。 最後に, ショートカットニューロンを消去し, 関連するリスクを軽減し, ショートカットによるマルチホップ知識編集の失敗を著しく低減する手法を提案する。

Recent work has showcased the powerful capability of large language models (LLMs) in recalling knowledge and reasoning. However, the reliability of LLMs in combining these two capabilities into reasoning through multi-hop facts has not been widely explored. This paper systematically investigates the possibilities for LLMs to utilize shortcuts based on direct connections between the initial and terminal entities of multi-hop knowledge. We first explore the existence of factual shortcuts through Knowledge Neurons, revealing that: (i) the strength of factual shortcuts is highly correlated with the frequency of co-occurrence of initial and terminal entities in the pre-training corpora; (ii) few-shot prompting leverage more shortcuts in answering multi-hop questions compared to chain-of-thought prompting. Then, we analyze the risks posed by factual shortcuts from the perspective of multi-hop knowledge editing. Analysis shows that approximately 20% of the failures are attributed to shortcuts, and the initial and terminal entities in these failure instances usually have higher co-occurrences in the pre-training corpus. Finally, we propose erasing shortcut neurons to mitigate the associated risks and find that this approach significantly reduces failures in multiple-hop knowledge editing caused by shortcuts.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-02
# CoCo-Agent:スマートフォンのGUI自動化のための総合認知MLLMエージェント

CoCo-Agent: A Comprehensive Cognitive MLLM Agent for Smartphone GUI Automation ( http://arxiv.org/abs/2402.11941v3 )

ライセンス: Link先を確認
Xinbei Ma, Zhuosheng Zhang, Hai Zhao, (参考訳) マルチモーダル大規模言語モデル(MLLM)は、特にグラフィカルユーザインタフェース(GUI)自動化において、現実世界の環境と対話する人間のような自律型言語エージェントとして、顕著な可能性を示している。 しかし、これらのGUIエージェントは、徹底的な認識と信頼性のある行動応答を含む包括的な認知能力を必要とする。 包括的環境認識(CEP)と条件付き行動予測(CAP)という2つの新しいアプローチでGUI自動化性能を体系的に改善する包括的認知LLMエージェントCoCo-Agentを提案する。 まず、CEPは、視覚チャネルのスクリーンショットや補完的な詳細なレイアウト、テキストチャネルの歴史的アクションなど、異なる側面と粒度のGUI知覚を促進する。 第2に、CAPはアクション予測をサブプロブレムに分解する:アクションタイプの予測とアクションタイプの条件付きアクションターゲットである。 AITW と META-GUI ベンチマークにおいて,我々のエージェントは実シナリオで有望な性能を示す新しい最先端性能を実現する。 コードはhttps://github.com/xbmxb/CoCo-Agent.comで入手できる。

Multimodal large language models (MLLMs) have shown remarkable potential as human-like autonomous language agents to interact with real-world environments, especially for graphical user interface (GUI) automation. However, those GUI agents require comprehensive cognition ability including exhaustive perception and reliable action response. We propose a Comprehensive Cognitive LLM Agent, CoCo-Agent, with two novel approaches, comprehensive environment perception (CEP) and conditional action prediction (CAP), to systematically improve the GUI automation performance. First, CEP facilitates the GUI perception through different aspects and granularity, including screenshots and complementary detailed layouts for the visual channel and historical actions for the textual channel. Second, CAP decomposes the action prediction into sub-problems: action type prediction and action target conditioned on the action type. With our technical design, our agent achieves new state-of-the-art performance on AITW and META-GUI benchmarks, showing promising abilities in realistic scenarios. Code is available at https://github.com/xbmxb/CoCo-Agent.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-02
# 周波数空間のダウンスケーリングによるバックドアポゾンデータセットからのクリーン言語モデル取得

Acquiring Clean Language Models from Backdoor Poisoned Datasets by Downscaling Frequency Space ( http://arxiv.org/abs/2402.12026v3 )

ライセンス: Link先を確認
Zongru Wu, Zhuosheng Zhang, Pengzhou Cheng, Gongshen Liu, (参考訳) 自然言語処理(NLP)タスクにおける言語モデル(LM)の顕著な成功にもかかわらず、LMの信頼性はバックドア攻撃の影響を受けやすい。 以前の研究では、毒性データセット上でLMをトレーニングしながら、バックドア学習を緩和しようと試みていたが、現実のシナリオでは複雑なバックドア攻撃と戦っている。 本稿では、Fourier解析により、周波数空間におけるバックドアLMの学習機構について検討する。 以上の結果から, 汚染されたデータセットに提示されたバックドアマッピングは, クリーンマッピングよりも低周波傾向が顕著であり, バックドアマッピングの収束が早いことが示唆された。 このジレンマを軽減するために,マルチスケール低ランク適応 (MuScleLoRA) を提案する。 周波数空間のダウンスケーリングを通じて、MuScleLoRAは比較的高周波なクリーンマッピングの学習を優先させ、結果としてバックドア学習を緩和する。 実験の結果, MuScleLoRAはベースラインを著しく上回ることがわかった。 特に、MuScleLoRAは、さまざまなバックドア攻撃の平均成功率を、複数のデータセットで15倍以下に減らし、BERT、RoBERTa、GPT2-XL、Llama2など、さまざまなバックボーンLMに一般化する。 コードはhttps://github.com/ZrW00/MuScleLoRAで公開されている。

Despite the notable success of language models (LMs) in various natural language processing (NLP) tasks, the reliability of LMs is susceptible to backdoor attacks. Prior research attempts to mitigate backdoor learning while training the LMs on the poisoned dataset, yet struggles against complex backdoor attacks in real-world scenarios. In this paper, we investigate the learning mechanisms of backdoor LMs in the frequency space by Fourier analysis. Our findings indicate that the backdoor mapping presented on the poisoned datasets exhibits a more discernible inclination towards lower frequency compared to clean mapping, resulting in the faster convergence of backdoor mapping. To alleviate this dilemma, we propose Multi-Scale Low-Rank Adaptation (MuScleLoRA), which deploys multiple radial scalings in the frequency space with low-rank adaptation to the target model and further aligns the gradients when updating parameters. Through downscaling in the frequency space, MuScleLoRA encourages the model to prioritize the learning of relatively high-frequency clean mapping, consequently mitigating backdoor learning. Experimental results demonstrate that MuScleLoRA outperforms baselines significantly. Notably, MuScleLoRA reduces the average success rate of diverse backdoor attacks to below 15\% across multiple datasets and generalizes to various backbone LMs, including BERT, RoBERTa, GPT2-XL, and Llama2. The codes are publicly available at https://github.com/ZrW00/MuScleLoRA.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-02
# コンテンツモデレーションの学習:人間とAIの対話

Learning to Defer in Content Moderation: The Human-AI Interplay ( http://arxiv.org/abs/2402.12237v3 )

ライセンス: Link先を確認
Thodoris Lykouris, Wentao Weng, (参考訳) オンラインプラットフォームにおけるコンテンツモデレーションの成功は、人間とAIのコラボレーションアプローチに依存している。 典型的なヒューリスティックは、ポストの予想される有害度を推定し、固定された閾値を使用して、削除するかどうか、人間によるレビューのために送信するかどうかを決定する。 これは、予測の不確実性、人間のレビュー能力とポスト到着の時間変化要素、データセットの選択的サンプリング(入場アルゴリズムでフィルタリングされたレビューポストのみ)を無視している。 本稿では,コンテンツモデレーションにおける人間とAIの相互作用を捉えるモデルを提案する。 このアルゴリズムは、受信した投稿の文脈情報を観察し、分類と入場決定を行い、人的レビューのために投稿をスケジュールする。 許可された投稿だけが、その有害性に関する人間のレビューを受け取っている。 これらのレビューは、機械学習アルゴリズムの教育に役立つが、人間のレビューシステムの混雑により遅れている。 この人間とAIの相互作用を捉えるための古典的な学習理論は、学習のフレームワークを通じて遅延し、アルゴリズムは特定のコストで人間に分類タスクを延期し、即座にフィードバックを受け取るオプションを持つ。 我々のモデルは,人間のレビューシステムに混雑を導入することで,この文献に寄与する。 さらに、フィードバックの遅延がアルゴリズムの判断に外在的である遅延フィードバックによるオンライン学習の作業とは異なり、我々のモデルにおける遅延は入試とスケジュール決定の両方に内在的である。 提案アルゴリズムは,選択されたサンプルデータセットからの分類損失,非レビューポストの慣用的損失,ヒトレビューシステムにおける混雑の遅延損失とを慎重にバランスさせる。 我々の知る限りでは、これは文脈待ち行列システムにおけるオンライン学習の最初の結果であり、分析フレームワークは独立した関心を持つかもしれない。

Successful content moderation in online platforms relies on a human-AI collaboration approach. A typical heuristic estimates the expected harmfulness of a post and uses fixed thresholds to decide whether to remove it and whether to send it for human review. This disregards the prediction uncertainty, the time-varying element of human review capacity and post arrivals, and the selective sampling in the dataset (humans only review posts filtered by the admission algorithm). In this paper, we introduce a model to capture the human-AI interplay in content moderation. The algorithm observes contextual information for incoming posts, makes classification and admission decisions, and schedules posts for human review. Only admitted posts receive human reviews on their harmfulness. These reviews help educate the machine-learning algorithms but are delayed due to congestion in the human review system. The classical learning-theoretic way to capture this human-AI interplay is via the framework of learning to defer, where the algorithm has the option to defer a classification task to humans for a fixed cost and immediately receive feedback. Our model contributes to this literature by introducing congestion in the human review system. Moreover, unlike work on online learning with delayed feedback where the delay in the feedback is exogenous to the algorithm's decisions, the delay in our model is endogenous to both the admission and the scheduling decisions. We propose a near-optimal learning algorithm that carefully balances the classification loss from a selectively sampled dataset, the idiosyncratic loss of non-reviewed posts, and the delay loss of having congestion in the human review system. To the best of our knowledge, this is the first result for online learning in contextual queueing systems and hence our analytical framework may be of independent interest.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-02
# ソーラーパネルセグメンテーション : 不完全なデータセットのための自己改善型学習ソリューション

Solar Panel Segmentation :Self-Supervised Learning Solutions for Imperfect Datasets ( http://arxiv.org/abs/2402.12843v3 )

ライセンス: Link先を確認
Sankarshanaa Sagaram, Krish Didwania, Laven Srivastava, Aditya Kasliwal, Pallavi Kailas, Ujjwal Verma, (参考訳) 太陽エネルギーの採用の増加は、ソーラーパネルの最適性能を確保するために、監視と保守のための高度な手法を必要とする。 この文脈における重要な要素は、航空または衛星画像からの正確なソーラーパネルのセグメンテーションであり、これは運用上の問題を特定し、効率を評価するのに不可欠である。 本稿では,パネルセグメンテーションにおける重要な課題,特に注釈付きデータの不足,および教師あり学習のための手動アノテーションの労働集約性について論じる。 これらの課題を解決するために、自己監視学習(SSL)を探求し、適用します。 SSLは様々な条件下でのモデル一般化を著しく促進し、手動の注釈付きデータへの依存を低減し、堅牢で適応可能なソーラーパネルセグメンテーションソリューションへの道を開くことを実証する。

The increasing adoption of solar energy necessitates advanced methodologies for monitoring and maintenance to ensure optimal performance of solar panel installations. A critical component in this context is the accurate segmentation of solar panels from aerial or satellite imagery, which is essential for identifying operational issues and assessing efficiency. This paper addresses the significant challenges in panel segmentation, particularly the scarcity of annotated data and the labour-intensive nature of manual annotation for supervised learning. We explore and apply Self-Supervised Learning (SSL) to solve these challenges. We demonstrate that SSL significantly enhances model generalization under various conditions and reduces dependency on manually annotated data, paving the way for robust and adaptable solar panel segmentation solutions.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-02
# トランスフォーマーがいかにローカルな曖昧さを、再スタート・インクリメンタリティのレンズで処理するか

When Only Time Will Tell: Interpreting How Transformers Process Local Ambiguities Through the Lens of Restart-Incrementality ( http://arxiv.org/abs/2402.13113v2 )

ライセンス: Link先を確認
Brielen Madureira, Patrick Kahardipraja, David Schlangen, (参考訳) 一度に1つのトークンを処理するインクリメンタルモデルは、1つ以上の解釈が可能なポイントに遭遇することがある。 因果的モデルは1つの解釈を出力して継続せざるを得ないが、修正可能なモデルはあいまいさが解決されるにつれて、以前の出力を編集することができる。 本研究では、再起動・インクリメンタルトランスフォーマーが内部状態を構築・更新する方法について検討し、自動回帰モデルではリビジョンが不可能なプロセスが何を引き起こすかを明らかにする。 そこで本研究では,段階的状態の解析を行うための解釈可能な手法を提案し,その逐次構造が庭道効果とその分解能に関する情報を符号化していることを示す。 提案手法は,文脈的意味表現と依存性解析のための多種多様な双方向エンコーダの洞察を導き,リビジョンにおける因果モデルに対する優位性を示す。

Incremental models that process sentences one token at a time will sometimes encounter points where more than one interpretation is possible. Causal models are forced to output one interpretation and continue, whereas models that can revise may edit their previous output as the ambiguity is resolved. In this work, we look at how restart-incremental Transformers build and update internal states, in an effort to shed light on what processes cause revisions not viable in autoregressive models. We propose an interpretable way to analyse the incremental states, showing that their sequential structure encodes information on the garden path effect and its resolution. Our method brings insights on various bidirectional encoders for contextualised meaning representation and dependency parsing, contributing to show their advantage over causal models when it comes to revisions.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-02
# 医療用多言語言語モデルの構築に向けて

Towards Building Multilingual Language Model for Medicine ( http://arxiv.org/abs/2402.13963v4 )

ライセンス: Link先を確認
Pengcheng Qiu, Chaoyi Wu, Xiaoman Zhang, Weixiong Lin, Haicheng Wang, Ya Zhang, Yanfeng Wang, Weidi Xie, (参考訳) オープンソースの多言語医療言語モデルの開発は、様々な地域から幅広い言語的に多様な聴衆に利益をもたらすことができる。 まず、MMedCと呼ばれる6つの主要言語を含む約25.5Bのトークンを含む多言語医療コーパスを構築し、さらに、多言語医療LLMの開発を監視するために、MMedBenchと呼ばれる有理性を備えた多言語医療多言語質問応答ベンチマークを提案し、第3に、MMedCで訓練された他の自動回帰型言語モデルとともに、ベンチマーク上で多数のオープンソースの大規模言語モデル(LLM)を評価した。 我々の最終モデルであるMMed-Llama 3は、8Bパラメータしか持たないが、GPT-4に匹敵するようなMMedBenchおよび英語ベンチマークの他のすべてのオープンソースモデルと比較して、優れた性能が得られる。 そこで本研究では,多言語医療用LLMの開発を支援するための大規模コーパス,ベンチマーク,一連のモデルを提案する。

The development of open-source, multilingual medical language models can benefit a wide, linguistically diverse audience from different regions. To promote this domain, we present contributions from the following: First, we construct a multilingual medical corpus, containing approximately 25.5B tokens encompassing 6 main languages, termed as MMedC, enabling auto-regressive domain adaptation for general LLMs; Second, to monitor the development of multilingual medical LLMs, we propose a multilingual medical multi-choice question-answering benchmark with rationale, termed as MMedBench; Third, we have assessed a number of open-source large language models (LLMs) on our benchmark, along with those further auto-regressive trained on MMedC. Our final model, MMed-Llama 3, with only 8B parameters, achieves superior performance compared to all other open-source models on both MMedBench and English benchmarks, even rivaling GPT-4. In conclusion, in this work, we present a large-scale corpus, a benchmark and a series of models to support the development of multilingual medical LLMs.
翻訳日:2024-06-04 16:38:05 公開日:2024-06-02
# Q-Probe: 言語モデルのリワード最大化のための軽量アプローチ

Q-Probe: A Lightweight Approach to Reward Maximization for Language Models ( http://arxiv.org/abs/2402.14688v2 )

ライセンス: Link先を確認
Kenneth Li, Samy Jelassi, Hugh Zhang, Sham Kakade, Martin Wattenberg, David Brandfonbrener, (参考訳) 本稿では,タスク固有報酬関数を最大化するために,事前学習言語モデルを適用するQ-probingという手法を提案する。 高いレベルでは、Q-probingは、微調整のようなより重いアプローチと、少ないショットプロンプトのようなより軽いアプローチの中間に位置するが、どちらも組み合わせることができる。 この考え方は、モデルの埋め込み空間上の単純な線型関数を学習し、候補完備化の重み付けに使うことができる。 このサンプリング手順は, サンプル数の増加に伴い, KL制約によるQプローブの最大化と等価であることが理論的に示されている。 Q-プローブを訓練するために、重要度重み付けされた政策勾配に基づいて報酬モデリングまたは新しい政策学習目標のクラスを検討する。 この手法を用いることで、データ制限されたレシエーションにおいて微調整よりも優れる、好みデータによって定義された暗黙の報奨(コード生成)を持つドメインでの利得が得られます。 さらに、Q-probeは、サンプリングと埋め込みへのアクセスのみを前提としているため、API上でトレーニングすることができる。 コード:https://github.com/likenneth/q_probe 。

We present an approach called Q-probing to adapt a pre-trained language model to maximize a task-specific reward function. At a high level, Q-probing sits between heavier approaches such as finetuning and lighter approaches such as few shot prompting, but can also be combined with either. The idea is to learn a simple linear function on a model's embedding space that can be used to reweight candidate completions. We theoretically show that this sampling procedure is equivalent to a KL-constrained maximization of the Q-probe as the number of samples increases. To train the Q-probes we consider either reward modeling or a class of novel direct policy learning objectives based on importance weighted policy gradients. With this technique, we see gains in domains with ground-truth rewards (code generation) as well as implicit rewards defined by preference data, even outperforming finetuning in data-limited regimes. Moreover, a Q-probe can be trained on top of an API since it only assumes access to sampling and embeddings. Code: https://github.com/likenneth/q_probe .
翻訳日:2024-06-04 16:28:21 公開日:2024-06-02
# 表現編集による微調整におけるパラメータ効率の向上

Advancing Parameter Efficiency in Fine-tuning via Representation Editing ( http://arxiv.org/abs/2402.15179v3 )

ライセンス: Link先を確認
Muling Wu, Wenhao Liu, Xiaohua Wang, Tianlong Li, Changze Lv, Zixuan Ling, Jianhao Zhu, Cenyuan Zhang, Xiaoqing Zheng, Xuanjing Huang, (参考訳) パラメータ効率の良いファインチューニング(PEFT)技術は、調整可能なパラメータのごく一部だけを更新しながら、競争結果を得る能力によって大きな注目を集めている。 しかし、既存のPEFT法では、LoRAやAdapterのランクの選択やソフトプロンプトの長さの指定など、ハイパーパラメータの選択に課題が生じる。 これらの課題に対処するため、我々はRepresentation EDiting (RED) と呼ばれるニューラルモデルのための新しい微調整手法を提案する。 既存のPEFT法は、事前トレーニングから得られる一般化能力を損なう可能性のある過パラメータ化をまだ示しているが、REDは、完全なパラメータの微調整とLoRAに対する32の要因と比較して、トレーニング可能なパラメータの数を25,700倍、大幅に削減することができる。 注目すべきは、REDは完全なパラメータの微調整と他のPEFT手法に匹敵する、あるいは優れている結果を達成することである。 RoBERTa、GPT-2、T5、LLaMA-2など、さまざまなモデルアーキテクチャとスケールにわたる大規模な実験は、RED1の有効性と効率を実証し、大規模なニューラルモデルのための有望なPEFT戦略として位置づけている。

Parameter Efficient Fine-Tuning (PEFT) techniques have drawn significant attention due to their ability to yield competitive results while updating only a small portion of the adjustable parameters. However, existing PEFT methods pose challenges in hyperparameter selection, such as choosing the rank for LoRA or Adapter, or specifying the length of soft prompts. To address these challenges, we propose a novel fine-tuning approach for neural models, named Representation EDiting (RED), which modifies the representations generated at some layers through the application of scaling and biasing operations. While existing PEFT methods still demonstrate over-parameterization that could potentially undermine the generalization ability acquired from pre-training, RED can substantially reduce the number of trainable parameters by a factor of 25, 700 compared to full parameter fine-tuning and by a factor of 32 relative to LoRA. Remarkably, RED achieves results comparable or superior to both full parameter fine-tuning and other PEFT methods. Extensive experiments across various model architectures and scales, including RoBERTa, GPT-2, T5, and LLaMA-2, have demonstrated the effectiveness and efficiency of RED1, thereby positioning it as a promising PEFT strategy for large-scale neural models.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-02
# 線形ダイナミクス埋め込み型ニューラルネットワークの時系列モデリングへの応用

Appendix for Linear Dynamics-embedded Neural Network for Long-Sequence Modeling ( http://arxiv.org/abs/2402.15290v2 )

ライセンス: Link先を確認
Tongyi Liang, Han-Xiong Li, (参考訳) この付録は「Linear Dynamics-embedded Neural Network for Long-Sequence Modeling」という論文に必要なすべての材料を提供する。

This appendix provides all necessary materials for the paper 'Linear Dynamics-embedded Neural Network for Long-Sequence Modeling', including model details, experimental configurations, and PyTorch implementation.
翻訳日:2024-06-04 16:28:21 公開日:2024-06-02
# 共感応答生成のための反復的連想記憶モデル

An Iterative Associative Memory Model for Empathetic Response Generation ( http://arxiv.org/abs/2402.17959v2 )

ライセンス: Link先を確認
Zhou Yang, Zhaochun Ren, Yufeng Wang, Chao Chen, Haizhou Sun, Xiaofei Zhu, Xiangwen Liao, (参考訳) 共感的応答生成は、対話発話における認知的および感情的状態を理解し、適切な応答を生成することを目的としている。 心理的理論は、感情的および認知的状態を理解するためには、対話的発話を通して関連した単語を反復的に捕捉し理解する必要があることを示唆している。 しかし、既存のアプローチでは、会話の発話を長い列または独立した発話とみなし、それら間の関係する単語を見落としがちである。 この問題に対処するために,共感応答生成のための反復連想記憶モデル(IAMM)を提案する。 具体的には,対話発話と状況,対話履歴,およびメモリモジュール(関連する単語を格納するための)間の重要な単語を反復的に捕捉し,その発話を正確かつ簡潔に解釈する,新しい2階インタラクションアテンション機構を用いる。 共感-対話データセットの実験を行う。 自動評価と人的評価の両方が、モデルの有効性を検証する。 LLMのバリアント実験は、関連する単語への参加が共感的理解と表現を改善することも示している。

Empathetic response generation aims to comprehend the cognitive and emotional states in dialogue utterances and generate proper responses. Psychological theories posit that comprehending emotional and cognitive states necessitates iteratively capturing and understanding associated words across dialogue utterances. However, existing approaches regard dialogue utterances as either a long sequence or independent utterances for comprehension, which are prone to overlook the associated words between them. To address this issue, we propose an Iterative Associative Memory Model (IAMM) for empathetic response generation. Specifically, we employ a novel second-order interaction attention mechanism to iteratively capture vital associated words between dialogue utterances and situations, dialogue history, and a memory module (for storing associated words), thereby accurately and nuancedly comprehending the utterances. We conduct experiments on the Empathetic-Dialogue dataset. Both automatic and human evaluations validate the efficacy of the model. Variant experiments on LLMs also demonstrate that attending to associated words improves empathetic comprehension and expression.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-02
# 安全で信頼性の高い自律運転に向けて:動的作業セット予測

Towards Safe and Reliable Autonomous Driving: Dynamic Occupancy Set Prediction ( http://arxiv.org/abs/2402.19385v2 )

ライセンス: Link先を確認
Wenbo Shao, Jiahui Xu, Wenhao Yu, Jun Li, Hong Wang, (参考訳) 自律運転の急速に発展する分野では、車両の安全のために信頼性の高い予測が重要である。 しかし、軌道予測はしばしば実際の経路から逸脱し、特に複雑で困難な環境では重大なエラーを引き起こす。 そこで本研究では,既存のモデルの欠点を克服し,先進的な軌道予測ネットワークとDOS予測モジュールを効果的に組み合わせた,動的機能セット(DOS)予測の新しい手法を提案する。 トラフィック参加者の潜在的占有セットを予測するための、包括的で適応可能なフレームワークを提供する。 本研究の革新的な貢献は、複雑なシナリオをナビゲートするための新しいDOS予測モデルの開発、正確なDOS数学的表現の導入、自律システムの安全性と効率を総合的に向上させる最適化された損失関数の定式化などである。 厳密な検証によって従来のモデルよりも顕著な改善が示され、インテリジェントトランスポートシステムにおける安全性と運用効率の新たなベンチマークが確立された。

In the rapidly evolving field of autonomous driving, reliable prediction is pivotal for vehicular safety. However, trajectory predictions often deviate from actual paths, particularly in complex and challenging environments, leading to significant errors. To address this issue, our study introduces a novel method for Dynamic Occupancy Set (DOS) prediction, it effectively combines advanced trajectory prediction networks with a DOS prediction module, overcoming the shortcomings of existing models. It provides a comprehensive and adaptable framework for predicting the potential occupancy sets of traffic participants. The innovative contributions of this study include the development of a novel DOS prediction model specifically tailored for navigating complex scenarios, the introduction of precise DOS mathematical representations, and the formulation of optimized loss functions that collectively advance the safety and efficiency of autonomous systems. Through rigorous validation, our method demonstrates marked improvements over traditional models, establishing a new benchmark for safety and operational efficiency in intelligent transportation systems.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-02
# マルチモーダルArXiv:大規模視覚言語モデルの科学的理解を改善するためのデータセット

Multimodal ArXiv: A Dataset for Improving Scientific Comprehension of Large Vision-Language Models ( http://arxiv.org/abs/2403.00231v3 )

ライセンス: Link先を確認
Lei Li, Yuqi Wang, Runxin Xu, Peiyi Wang, Xiachong Feng, Lingpeng Kong, Qi Liu, (参考訳) 大規模視覚言語モデル(LVLM)は、自然界からの具体的な画像を含む様々なタスクを網羅する。 しかし、幾何学的形状や科学的プロットなどの抽象的な図形を解釈する能力は、科学領域における訓練データセットの不足のために制限されている。 このギャップを埋めるために、LVLMの科学的理解を高めるために、ArXivCapとArXivQAからなるMultimodal ArXivを導入する。 ArXivCapは、6.4Mの画像と3.9Mキャプションからなるフィギュアキャプチャーデータセットであり、様々な科学領域にまたがる572K ArXivの論文から得られたものである。 ArXivCapから引用したArXivQAは,科学的数値に基づいてGPT-4Vをプロンプトした質問応答データセットである。 ArXivQAは、オープンソースのLVLMの数学的推論能力を大幅に強化し、マルチモーダルな数学的推論ベンチマークで10.4\%の精度向上を達成した。 さらに、ArXivCapを用いて、LVLMのベンチマークを行うための4つの視覚テキストタスクを考案した。 現状のLVLMによる評価は、学術的人物のニュアンスドセマンティクスとの抗争を浮き彫りにする一方、ドメイン固有のトレーニングは、かなりのパフォーマンス向上をもたらす。 我々の誤り分析は、視覚的コンテキストの誤解釈、認識誤り、そして現在のLVLMによる過度に単純化されたキャプションの生成を明らかにし、将来の改善に光を当てる。

Large vision-language models (LVLMs) excel across diverse tasks involving concrete images from natural scenes. However, their ability to interpret abstract figures, such as geometry shapes and scientific plots, remains limited due to a scarcity of training datasets in scientific domains. To fill this gap, we introduce Multimodal ArXiv, consisting of ArXivCap and ArXivQA, for enhancing LVLMs scientific comprehension. ArXivCap is a figure-caption dataset comprising 6.4M images and 3.9M captions, sourced from 572K ArXiv papers spanning various scientific domains. Drawing from ArXivCap, we introduce ArXivQA, a question-answering dataset generated by prompting GPT-4V based on scientific figures. ArXivQA greatly enhances open-sourced LVLMs' mathematical reasoning capabilities, achieving a 10.4\% absolute accuracy gain on a multimodal mathematical reasoning benchmark. Furthermore, employing ArXivCap, we devise four vision-to-text tasks for benchmarking LVLMs. Evaluation results with state-of-the-art LVLMs underscore their struggle with the nuanced semantics of academic figures, while domain-specific training yields substantial performance gains. Our error analysis uncovers misinterpretations of visual context, recognition errors, and the production of overly simplified captions by current LVLMs, shedding light on future improvements.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-02
# NewsBench: 中国語ジャーナリズムにおける大規模言語モデルの編集能力を評価するためのシステム評価フレームワーク

NewsBench: A Systematic Evaluation Framework for Assessing Editorial Capabilities of Large Language Models in Chinese Journalism ( http://arxiv.org/abs/2403.00862v3 )

ライセンス: Link先を確認
Miao Li, Ming-Bin Chen, Bo Tang, Shengbin Hou, Pengyu Wang, Haiying Deng, Zhiyu Li, Feiyu Xiong, Keming Mao, Peng Cheng, Yi Luo, (参考訳) 我々は,中国語ジャーナリズムにおける編集能力のための大規模言語モデル(LLM)の能力を体系的に評価する新しい評価フレームワークであるNewsBenchを提案する。 構築したベンチマークデータセットは,4面の筆記能力と6面の安全適合性に着目し,複数の選択質問のタイプで1,267個のテストサンプルを手作業で設計し,24のニュースドメインで5つの編集タスクに対して短い回答質問を行う。 そこで本研究では,GPT-4をベースとした自動評価プロトコルを提案し,筆記能力と安全性の両面を高い相関関係で検証した。 体系的な評価枠組みに基づき、中国語を処理できる10の人気のあるLLMを包括的に分析する。 実験の結果, GPT-4とERNIE Botがトップパフォーマーとして注目されたが, クリエイティブな文章作成作業において, ジャーナリストの安全性が相対的に欠如していることが明らかになった。 また,本研究は,LLMとジャーナリストの基準と安全配慮の整合化に向けた一歩として,機械によるジャーナリズムコンテンツにおける倫理的ガイダンスの強化の必要性を強調した。

We present NewsBench, a novel evaluation framework to systematically assess the capabilities of Large Language Models (LLMs) for editorial capabilities in Chinese journalism. Our constructed benchmark dataset is focused on four facets of writing proficiency and six facets of safety adherence, and it comprises manually and carefully designed 1,267 test samples in the types of multiple choice questions and short answer questions for five editorial tasks in 24 news domains. To measure performances, we propose different GPT-4 based automatic evaluation protocols to assess LLM generations for short answer questions in terms of writing proficiency and safety adherence, and both are validated by the high correlations with human evaluations. Based on the systematic evaluation framework, we conduct a comprehensive analysis of ten popular LLMs which can handle Chinese. The experimental results highlight GPT-4 and ERNIE Bot as top performers, yet reveal a relative deficiency in journalistic safety adherence in creative writing tasks. Our findings also underscore the need for enhanced ethical guidance in machine-generated journalistic content, marking a step forward in aligning LLMs with journalistic standards and safety considerations.
翻訳日:2024-06-04 16:18:27 公開日:2024-06-02
# 確率モデルによるボンガード・ログ問題の解法

Solving the bongard-logo problem by modeling a probabilistic model ( http://arxiv.org/abs/2403.03173v7 )

ライセンス: Link先を確認
Ruizhuo Song, Beiming Yuan, (参考訳) 抽象推論問題は、AIアルゴリズムの知覚と認識能力に課題をもたらし、明示的な画像特徴の単なる識別以上のパターン認識と帰納的推論を要求する。 本研究では,Bongard-Logo問題に適した確率モデルであるPMoCを導入し,条件付き確率モデルの構築を通じて高い推論精度を実現する。 さらに,Bongard-Logo,RAVEN,I-RAVEN,PGMなど,複雑な抽象的推論タスクに特化した拡張トランスフォーマーであるPose-Transformerを設計した。 カプセルネットワークのポーズ行列にインスパイアされたPose-Transformerは、画像データを処理する際の局所的特徴間の位置関係に焦点を当てる。 PMoCと組み合わせることで、推論精度をさらに高めることができる。 我々のPose-Transformerは、抽象エンティティの位置の変化に伴う推論の困難を効果的に解決し、RAVENのOIG、D3$\times$3サブセット、およびPGMデータセットで以前のモデルより優れている。 最後に,多数のPose-Transformerパラメータから生じる展開困難を考慮し,Straw-Pose-Transformerの軽量バージョンを提案する。 本研究は,抽象的推論と認知パターン認識におけるAI能力の向上に寄与する。

Abstract reasoning problems pose challenges to the perception and cognition abilities of AI algorithms, demanding deeper pattern recognition and inductive reasoning beyond mere identification of explicit image features. In this study, we introduce PMoC, a probabilistic model tailored for the Bongard-Logo problem, achieving high reasoning accuracy through the construction of an conditional probabilistic model. Additionally, we have designed the Pose-Transformer, an enhanced Transformer-Encoder specifically crafted for complex abstract reasoning tasks, including Bongard-Logo, RAVEN, I-RAVEN, and PGM. Inspired by the pose matrix in capsule networks, Pose-Transformer strengthens the focus on positional relationships between local features when processing image data. When combined with PMoC, it can further enhance reasoning accuracy. Our Pose-Transformer effectively addresses reasoning difficulties associated with changes in the position of abstract entities, outperforming previous models on RAVEN's OIG, D3$\times$3 subsets, and the PGM dataset. Finally, considering the deployment difficulties arising from the large number of Pose-Transformer parameters, this paper presents a lightweight version, Straw-Pose-Transformer, which maintains performance while significantly reducing the parameter count. This study contributes to enhancing AI capabilities in abstract reasoning and cognitive pattern recognition.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-02
# Slot Abstractors: スケーラブルな抽象ビジュアル推論を目指して

Slot Abstractors: Toward Scalable Abstract Visual Reasoning ( http://arxiv.org/abs/2403.03458v2 )

ライセンス: Link先を確認
Shanka Subhra Mondal, Jonathan D. Cohen, Taylor W. Webb, (参考訳) 抽象的な視覚的推論は特徴的人間の能力であり、オブジェクトの特徴から切り離された関係パターンの識別を可能にし、それらのパターンの体系的な一般化は目に見えない問題に繋がる。 近年の研究では、多目的入力を含む視覚的推論タスクにおいて、オブジェクト中心表現の抽出に使用されるスロットベースの手法と、リレーショナル抽象化のための強い帰納的バイアスを統合することで、強力な体系的な一般化が示されている。 しかし、このアプローチは単一のルールを含む問題に限られており、多数のオブジェクトを含む視覚的推論問題には拡張性がなかった。 その他の最近の研究では、強力なリレーショナルインダクティブバイアスを組み込んだTransformerの拡張として、Transformerのスケーラビリティとマルチヘッドアーキテクチャを継承するAbstractorsが提案されている。 ここでは、上記のアプローチの強みを組み合わせて、多数のオブジェクトとそれらの間の複数の関係に関わる問題にスケールできる抽象的な視覚的推論のアプローチであるSlot Abstractorsを提案する。 このアプローチでは、4つの抽象的な視覚的推論タスクにまたがる最先端のパフォーマンスと、現実世界の画像を含む抽象的な推論タスクを表示する。

Abstract visual reasoning is a characteristically human ability, allowing the identification of relational patterns that are abstracted away from object features, and the systematic generalization of those patterns to unseen problems. Recent work has demonstrated strong systematic generalization in visual reasoning tasks involving multi-object inputs, through the integration of slot-based methods used for extracting object-centric representations coupled with strong inductive biases for relational abstraction. However, this approach was limited to problems containing a single rule, and was not scalable to visual reasoning problems containing a large number of objects. Other recent work proposed Abstractors, an extension of Transformers that incorporates strong relational inductive biases, thereby inheriting the Transformer's scalability and multi-head architecture, but it has yet to be demonstrated how this approach might be applied to multi-object visual inputs. Here we combine the strengths of the above approaches and propose Slot Abstractors, an approach to abstract visual reasoning that can be scaled to problems involving a large number of objects and multiple relations among them. The approach displays state-of-the-art performance across four abstract visual reasoning tasks, as well as an abstract reasoning task involving real-world images.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-02
# GaLore: グラディエント低ランク投影によるメモリ効率のLLMトレーニング

GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection ( http://arxiv.org/abs/2403.03507v2 )

ライセンス: Link先を確認
Jiawei Zhao, Zhenyu Zhang, Beidi Chen, Zhangyang Wang, Anima Anandkumar, Yuandong Tian, (参考訳) LLM(Large Language Models)のトレーニングは、重み付けと最適化状態の増大により、大きなメモリ問題を引き起こす。 ローランク適応(LoRA)のような一般的なメモリ削減手法は、各層の凍結事前学習重量にトレーニング可能なローランク行列を追加し、トレーニング可能なパラメータとオプティマイザ状態を削減する。 しかし、これらの手法は、パラメータ探索を低ランクのサブスペースに制限し、トレーニングダイナミクスを変更し、さらにフルランクのウォームスタートを必要とするため、トレーニング前のトレーニングと微調整の段階で、フルランクのウェイトでトレーニングを行うのが一般的である。 本研究では,全パラメータ学習が可能な学習戦略であるGradient Low-Rank Projection (GaLore)を提案する。 提案手法では,最大19.7BトークンのC4データセットによるLLaMA 1Bおよび7Bアーキテクチャの事前トレーニングと,GLUEタスク上でのRoBERTaの微調整により,メモリ使用量を最大65.5%削減する。 私たちの8ビットのGaLoreは、BF16ベースラインと比較して、最適化メモリを最大82.5%、トレーニングメモリを63.3%削減します。 特に、モデル並列、チェックポイント、またはオフロード戦略を使わずに、24GBのメモリを持つコンシューマGPU(NVIDIA RTX 4090など)で7Bモデルを事前トレーニングする可能性を示す。

Training Large Language Models (LLMs) presents significant memory challenges, predominantly due to the growing size of weights and optimizer states. Common memory-reduction approaches, such as low-rank adaptation (LoRA), add a trainable low-rank matrix to the frozen pre-trained weight in each layer, reducing trainable parameters and optimizer states. However, such approaches typically underperform training with full-rank weights in both pre-training and fine-tuning stages since they limit the parameter search to a low-rank subspace and alter the training dynamics, and further, may require full-rank warm start. In this work, we propose Gradient Low-Rank Projection (GaLore), a training strategy that allows full-parameter learning but is more memory-efficient than common low-rank adaptation methods such as LoRA. Our approach reduces memory usage by up to 65.5% in optimizer states while maintaining both efficiency and performance for pre-training on LLaMA 1B and 7B architectures with C4 dataset with up to 19.7B tokens, and on fine-tuning RoBERTa on GLUE tasks. Our 8-bit GaLore further reduces optimizer memory by up to 82.5% and total training memory by 63.3%, compared to a BF16 baseline. Notably, we demonstrate, for the first time, the feasibility of pre-training a 7B model on consumer GPUs with 24GB memory (e.g., NVIDIA RTX 4090) without model parallel, checkpointing, or offloading strategies.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-02
# ステレオ拡散:潜在拡散モデルを用いた訓練不要ステレオ画像生成

StereoDiffusion: Training-Free Stereo Image Generation Using Latent Diffusion Models ( http://arxiv.org/abs/2403.04965v2 )

ライセンス: Link先を確認
Lezhong Wang, Jeppe Revall Frisvad, Mark Bo Jensen, Siavash Arjomand Bigdeli, (参考訳) メーカーがより多くのXRデバイスを発売するにつれて、ステレオ画像の需要が高まっている。 この要求を満たすために、従来の塗装パイプラインとは違って、自由で、驚くほど簡単に使用可能なトレーニングを行う方法であるStereoDiffusionを導入し、元のStable Diffusionモデルにシームレスに統合します。 提案手法は, モデル重み付けや後処理を必要とせず, ステレオ画像ペアを高速に生成するための, エンドツーエンドで軽量な機能を実現するために潜時変数を変更する。 元の入力を用いて左画像を生成し,その差分マップを推定し,左右の画像を左右に整列させるSymmetric Pixel Shift Masking DenoiseとSelf-Attention Layers Modification法で補完した,ステレオPixel Shift操作により右画像の潜時ベクトルを生成する。 さらに,提案手法はステレオ生成プロセスを通じて画像品質の基準を高く維持し,様々な定量的評価を行う。

The demand for stereo images increases as manufacturers launch more XR devices. To meet this demand, we introduce StereoDiffusion, a method that, unlike traditional inpainting pipelines, is trainning free, remarkably straightforward to use, and it seamlessly integrates into the original Stable Diffusion model. Our method modifies the latent variable to provide an end-to-end, lightweight capability for fast generation of stereo image pairs, without the need for fine-tuning model weights or any post-processing of images. Using the original input to generate a left image and estimate a disparity map for it, we generate the latent vector for the right image through Stereo Pixel Shift operations, complemented by Symmetric Pixel Shift Masking Denoise and Self-Attention Layers Modification methods to align the right-side image with the left-side image. Moreover, our proposed method maintains a high standard of image quality throughout the stereo generation process, achieving state-of-the-art scores in various quantitative evaluations.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-02
# RFWave:マルチバンド整流流による波形再構成

RFWave: Multi-band Rectified Flow for Audio Waveform Reconstruction ( http://arxiv.org/abs/2403.05010v2 )

ライセンス: Link先を確認
Peng Liu, Dongyang Dai, Zhiyong Wu, (参考訳) 生成モデリングの最近の進歩は、様々な表現からの音声波形の再構成を著しく向上させてきた。 このタスクでは拡散モデルが有効であるが,個々のサンプル点レベルでの動作と多数のサンプリングステップの必要性により,遅延問題に悩まされる。 本研究では,Mel-spectrogramや離散トークンから高忠実度音声波形を再構成する,最先端マルチバンド整流流法RFWaveを提案する。 RFWaveは複雑なスペクトログラムを独自に生成し、フレームレベルで動作し、全てのサブバンドを同時に処理して効率を向上する。 平らな輸送路を狙った整流流を利用して、RFWaveはわずか10個のサンプリングステップで再構成を行う。 実験により、RFWaveは優れた再構成品質を提供するだけでなく、計算効率も非常に優れており、GPU上でのオーディオ生成は、リアルタイムよりも97倍高速であることがわかった。 オンラインデモは、https://rfwave-demo.github.io/rfwave/.comで公開されている。

Recent advancements in generative modeling have significantly enhanced the reconstruction of audio waveforms from various representations. While diffusion models are adept at this task, they are hindered by latency issues due to their operation at the individual sample point level and the need for numerous sampling steps. In this study, we introduce RFWave, a cutting-edge multi-band Rectified Flow approach designed to reconstruct high-fidelity audio waveforms from Mel-spectrograms or discrete tokens. RFWave uniquely generates complex spectrograms and operates at the frame level, processing all subbands simultaneously to boost efficiency. Leveraging Rectified Flow, which targets a flat transport trajectory, RFWave achieves reconstruction with just 10 sampling steps. Our empirical evaluations show that RFWave not only provides outstanding reconstruction quality but also offers vastly superior computational efficiency, enabling audio generation at speeds up to 97 times faster than real-time on a GPU. An online demonstration is available at: https://rfwave-demo.github.io/rfwave/.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-02
# DDPG -- アンサンブルのない悲観的RL

Conservative DDPG -- Pessimistic RL without Ensemble ( http://arxiv.org/abs/2403.05732v2 )

ライセンス: Link先を確認
Nitsan Soffair, Shie Mannor, (参考訳) DDPGは過大評価バイアスの問題によって妨げられ、$Q$-estimatesは実際の$Q$-valueをオーバーステートする傾向がある。 このバイアスに対する従来の解決策には、重要な計算資源を必要とするアンサンブルベースの手法や、理解と実装が難しい複雑な対数法ベースのアプローチが含まれる。 対照的に、我々は$Q$-targetと振舞いクローン(BC)損失ペナルティを組み込んだ簡単な解決法を提案する。 このソリューションは不確実性対策として機能し、最小限のコードで簡単に実装でき、アンサンブルを必要としない。 各種の MuJoCo および Bullet タスクにおける DDPG よりも保守的な DDPG の方が優れていた。 我々は,TD3やTD7と比較して,全ての評価タスクにおける優れた性能と,競争力や優れた性能を継続的に観察する。

DDPG is hindered by the overestimation bias problem, wherein its $Q$-estimates tend to overstate the actual $Q$-values. Traditional solutions to this bias involve ensemble-based methods, which require significant computational resources, or complex log-policy-based approaches, which are difficult to understand and implement. In contrast, we propose a straightforward solution using a $Q$-target and incorporating a behavioral cloning (BC) loss penalty. This solution, acting as an uncertainty measure, can be easily implemented with minimal code and without the need for an ensemble. Our empirical findings strongly support the superiority of Conservative DDPG over DDPG across various MuJoCo and Bullet tasks. We consistently observe better performance in all evaluated tasks and even competitive or superior performance compared to TD3 and TD7, all achieved with significantly reduced computational requirements.
翻訳日:2024-06-04 16:08:41 公開日:2024-06-02
# 文脈偏見におけるロバスト感情認識

Robust Emotion Recognition in Context Debiasing ( http://arxiv.org/abs/2403.05963v3 )

ライセンス: Link先を確認
Dingkang Yang, Kun Yang, Mingcheng Li, Shunli Wang, Shuaibing Wang, Lihua Zhang, (参考訳) 文脈認識型感情認識(CAER)は、近年、制約のない環境における感情コンピューティング技術の実践的応用を高めている。 メインストリームCAER法は多様な文脈と主観的特徴からアンサンブル表現を抽出し,対象者の感情状態を知覚する。 進歩にもかかわらず、最大の課題は、コンテキストバイアスの干渉によるものである。 有害なバイアスは、モデルに背景のコンテキストと感情のラベルの間の急激な相関に頼らざるを得ない。 本稿では,このような問題に対処するために,反現実的感情推論(CLEF)フレームワークを提案する。 具体的には、まず一般化因果グラフを定式化し、CAERの変数間の因果関係を分離する。 因果グラフに続いて、CLEFはコンテキストバイアスによって引き起こされる副作用を捉えるために、非侵襲的なコンテキストブランチを導入している。 提案手法では, 実測結果と実測結果とを比較して, 全体因果効果から直接文脈効果を排除し, バイアス緩和と頑健な予測を行う。 モデルに依存しないフレームワークとして、CLEFは既存のメソッドに簡単に統合でき、一貫したパフォーマンス向上をもたらす。

Context-aware emotion recognition (CAER) has recently boosted the practical applications of affective computing techniques in unconstrained environments. Mainstream CAER methods invariably extract ensemble representations from diverse contexts and subject-centred characteristics to perceive the target person's emotional state. Despite advancements, the biggest challenge remains due to context bias interference. The harmful bias forces the models to rely on spurious correlations between background contexts and emotion labels in likelihood estimation, causing severe performance bottlenecks and confounding valuable context priors. In this paper, we propose a counterfactual emotion inference (CLEF) framework to address the above issue. Specifically, we first formulate a generalized causal graph to decouple the causal relationships among the variables in CAER. Following the causal graph, CLEF introduces a non-invasive context branch to capture the adverse direct effect caused by the context bias. During the inference, we eliminate the direct context effect from the total causal effect by comparing factual and counterfactual outcomes, resulting in bias mitigation and robust prediction. As a model-agnostic framework, CLEF can be readily integrated into existing methods, bringing consistent performance gains.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-02
# PET-SQL: 相互一貫性を備えたテキスト間SQLの高速な双方向リファインメント

PET-SQL: A Prompt-Enhanced Two-Round Refinement of Text-to-SQL with Cross-consistency ( http://arxiv.org/abs/2403.09732v4 )

ライセンス: Link先を確認
Zhishuai Li, Xiang Wang, Jingjing Zhao, Sun Yang, Guoqing Du, Xiaoru Hu, Bin Zhang, Yuxiao Ye, Ziyue Li, Rui Zhao, Hangyu Mao, (参考訳) Text-to-SQL(Text2SQL)の最近の進歩は、コンテキスト内学習における大きな言語モデル(LLM)の刺激を強調し、大きな成果を上げている。 それでも、冗長なデータベース情報や複雑なユーザ意図を扱う場合、問題に直面します。 本稿では,現在のLLMをベースとした自然言語をSQLシステムに拡張するための2段階のフレームワークを提案する。 まず、スキーマ情報とテーブルからランダムにサンプリングされたセル値を含む、参照強調表現と呼ばれる新しいプロンプト表現を導入し、SQLクエリの生成をLLMに指示する。 そして、最初の段階で、質問とSQLのペアは、数ショットのデモとして検索され、LCMは予備のSQL(PreSQL)を生成する。 その後、PreSQLの前述のエンティティを解析してスキーマリンクを実行することで、有用な情報を大幅にコンパクト化することができる。 第2段階では、リンクされたスキーマを用いてプロンプトのスキーマ情報を単純化し、LCMに最終的なSQLを生成するように指示する。 最後に,再分別後のモジュールとして,特定のLLM内の自己整合性ではなく,異なるLLM間での相互整合性(cross-consistency)を提案する。 提案手法は, 87.6%の精度で, スパイダーベンチマークで新しいSOTA結果が得られる。

Recent advancements in Text-to-SQL (Text2SQL) emphasize stimulating the large language models (LLM) on in-context learning, achieving significant results. Nevertheless, they face challenges when dealing with verbose database information and complex user intentions. This paper presents a two-stage framework to enhance the performance of current LLM-based natural language to SQL systems. We first introduce a novel prompt representation, called reference-enhanced representation, which includes schema information and randomly sampled cell values from tables to instruct LLMs in generating SQL queries. Then, in the first stage, question-SQL pairs are retrieved as few-shot demonstrations, prompting the LLM to generate a preliminary SQL (PreSQL). After that, the mentioned entities in PreSQL are parsed to conduct schema linking, which can significantly compact the useful information. In the second stage, with the linked schema, we simplify the prompt's schema information and instruct the LLM to produce the final SQL. Finally, as the post-refinement module, we propose using cross-consistency across different LLMs rather than self-consistency within a particular LLM. Our methods achieve new SOTA results on the Spider benchmark, with an execution accuracy of 87.6%.
翻訳日:2024-06-04 15:57:11 公開日:2024-06-02
# 素数分布の機械学習

Machine Learning of the Prime Distribution ( http://arxiv.org/abs/2403.12588v2 )

ライセンス: Link先を確認
Alexander Kolpakov, A. Alistair Rocke, (参考訳) 本研究では、最大エントロピー法を用いて確率的数論のいくつかの定理を導出する。 また、Yang-Hui He の素数の可学習性に関する実験的な観察を説明する理論的議論を行い、Erd\H{o}s-Kac 法則が現在の機械学習技術によって発見される可能性は極めて低いと仮定した。 我々が行う数値実験は、理論的な発見を裏付けるものである。

In the present work we use maximum entropy methods to derive several theorems in probabilistic number theory, including a version of the Hardy-Ramanujan Theorem. We also provide a theoretical argument explaining the experimental observations of Yang-Hui He about the learnability of primes, and posit that the Erd\H{o}s-Kac law would very unlikely be discovered by current machine learning techniques. Numerical experiments that we perform corroborate our theoretical findings.
翻訳日:2024-06-04 15:47:26 公開日:2024-06-02
# 二重空間における混合状態の対称性保護位相

Symmetry Protected Topological Phases of Mixed States in the Doubled Space ( http://arxiv.org/abs/2403.13280v3 )

ライセンス: Link先を確認
Ruochen Ma, Alex Turzillo, (参考訳) 量子多体混合状態における対称性と位相の相互作用は、最近大きな関心を集めている。 純粋な状態には見られない現象では、混合状態は平均対称性を示すことができる。 本研究では、SREとSPTの一般的な概念とツールが適用されるヒルベルト空間において、スピン系の近距離絡み合い(SRE)混合状態(平均的および正確な対称性の両方によって保護される)の対称性保護位相(SPT)位相を、それらの純粋なチョイ状態を研究することによって体系的に特徴づける。 この二重空間の利点は、余分な対称性と、元の密度行列のハーミティシティと肯定性がSPT不変量をいかに制限するかに関する微妙な関係である。 それでも、二重空間の視点により、混合状態SPT(MSPT)位相の体系的な分類が得られる。 また、対称有限深さ量子チャネルにおけるMSPT不変量のロバスト性、MSPT相のバルクバウンダリ対応、および混合状態の分離性に対するMSPT不変量と対称性保護符号問題の結果についても検討する。 また,MSPT位相に加えて,平均平均SSB現象を含む混合状態の自発対称性破壊(SSB)パターンと,それらを検出する順序パラメータについて検討した。 混合状態 SSB は対称リンドブレディアン力学の応用可能性制約と関連している。

The interplay of symmetry and topology in quantum many-body mixed states has recently garnered significant interest. In a phenomenon not seen in pure states, mixed states can exhibit average symmetries -- symmetries that act on component states while leaving the ensemble invariant. In this work, we systematically characterize symmetry protected topological (SPT) phases of short-range entangled (SRE) mixed states of spin systems -- protected by both average and exact symmetries -- by studying their pure Choi states in a doubled Hilbert space, where the familiar notions and tools for SRE and SPT pure states apply. This advantage of the doubled space comes with a price: extra symmetries as well as subtleties around how hermiticity and positivity of the original density matrix constrain the possible SPT invariants. Nevertheless, the doubled space perspective allows us to obtain a systematic classification of mixed-state SPT (MSPT) phases. We also investigate the robustness of MSPT invariants under symmetric finite-depth quantum channels, the bulk-boundary correspondence for MSPT phases, and the consequences of the MSPT invariants for the separability of mixed states and the symmetry-protected sign problem. In addition to MSPT phases, we study the patterns of spontaneous symmetry breaking (SSB) of mixed states, including the phenomenon of exact-to-average SSB, and the order parameters that detect them. Mixed state SSB is related to an ingappability constraint on symmetric Lindbladian dynamics.
翻訳日:2024-06-04 15:47:26 公開日:2024-06-02
# トーリック符号とゲージヒッグスモデルにおけるトポロジカル秩序と境界秩序の計測のみの動的相転移

Measurement-only dynamical phase transition of topological and boundary order in toric code and gauge-Higgs models ( http://arxiv.org/abs/2403.13435v2 )

ライセンス: Link先を確認
Takahiro Orito, Yoshihito Kuno, Ikuo Ichinose, (参考訳) 本研究では,プロジェクティブな計測専用回路を通じて進化するトーリック符号モデルにおいて,時間的ダイナミクスとトポロジ的に順序付けられた状態の運命を広範囲に研究する。 この回路は、(2+1)次元ゲージヒッグスモデルのゲージ固定版である磁場摂動を持つトーリック符号ハミルトニアンの各項に対応するいくつかの測定演算子で構成されている。 我々は,長期計測力学の後に定常状態の分類を行うために,上下境界の異なる円筒形状を用いる。 出現する定常状態は、各測定演算子の測定確率に依存する。 ヒッグス、閉じ込められ、分解された相は、回路による時間進化の中で出現する。 ヒッグスと閉じ込められた位相は、トポロジ的絡み合いエントロピーによって分解された位相から分離される。 我々は,ヒッグスと閉じ込められた位相が,エッジモードに付随する境界上の長距離秩序によって特徴付けられることを数値的に明らかにし,バルク相図の交叉反射特性によって相互に遷移することを示した。

We extensively study long-time dynamics and fate of topologically-ordered state in toric code model evolving through projective measurement-only circuit. The circuit is composed of several measurement operators corresponding to each term of toric code Hamiltonian with magnetic-field perturbations, which is a gauge-fixed version of a (2+1)-dimensional gauge-Higgs model. We employ a cylinder geometry with distinct upper and lower boundaries to classify stationary states after long-time measurement dynamics. The appearing stationary states depend on measurement probabilities for each measurement operator. The Higgs, confined and deconfined phases emerge in the time evolution by the circuit. We find that both Higgs and confined phases are separated from the deconfined phase by topological entanglement entropy. We numerically clarify that both Higgs and confined phases are characterized by a long-range order on the boundaries accompanying edge modes, and they shift with each other by a crossover reflecting properties in the bulk phase diagram.
翻訳日:2024-06-04 15:47:26 公開日:2024-06-02
# M$^3$AV:マルチモーダル・マルチジェネラル・多目的オーディオ・ビジュアル・アカデミック・レクチャー・データセット

M$^3$AV: A Multimodal, Multigenre, and Multipurpose Audio-Visual Academic Lecture Dataset ( http://arxiv.org/abs/2403.14168v2 )

ライセンス: Link先を確認
Zhe Chen, Heyang Liu, Wenyi Yu, Guangzhi Sun, Hongcheng Liu, Ji Wu, Chao Zhang, Yu Wang, Yanfeng Wang, (参考訳) オープンソースのアカデミックビデオの公開は、オンラインで知識を共有するための緊急かつ一般的なアプローチである。 このようなビデオは、音声、話者の顔と身体の動き、スライドのテキストや写真、そしておそらく論文までを含む豊富なマルチモーダル情報を持っている。 複数の学術ビデオデータセットが作成・リリースされているが、高品質な人間のアノテーションが欠如しているために、マルチモーダルなコンテンツ認識と理解タスクの両方をサポートするものはほとんどない。 本稿では,コンピュータ科学,数学,医学,生物学に関する5つの資料から約367時間の映像を収録した,多目的多目的視覚学術講義データセット(M$^3$AV)を提案する。 スライドテキストの高品質な人文アノテーションと音声単語、特に高価値な名前エンティティにより、データセットは複数の音声視覚認識および理解タスクに使用することができる。 文脈音声認識、音声合成、スライドおよびスクリプト生成タスクで行った評価は、M$^3$AVの多様性が挑戦的なデータセットであることを示している。

Publishing open-source academic video recordings is an emergent and prevalent approach to sharing knowledge online. Such videos carry rich multimodal information including speech, the facial and body movements of the speakers, as well as the texts and pictures in the slides and possibly even the papers. Although multiple academic video datasets have been constructed and released, few of them support both multimodal content recognition and understanding tasks, which is partially due to the lack of high-quality human annotations. In this paper, we propose a novel multimodal, multigenre, and multipurpose audio-visual academic lecture dataset (M$^3$AV), which has almost 367 hours of videos from five sources covering computer science, mathematics, and medical and biology topics. With high-quality human annotations of the slide text and spoken words, in particular high-valued name entities, the dataset can be used for multiple audio-visual recognition and understanding tasks. Evaluations performed on contextual speech recognition, speech synthesis, and slide and script generation tasks demonstrate that the diversity of M$^3$AV makes it a challenging dataset.
翻訳日:2024-06-04 15:47:26 公開日:2024-06-02
# 脱獄プロンプト攻撃:拡散モデルに対する制御可能な敵攻撃

Jailbreaking Prompt Attack: A Controllable Adversarial Attack against Diffusion Models ( http://arxiv.org/abs/2404.02928v2 )

ライセンス: Link先を確認
Jiachen Ma, Anda Cao, Zhiqing Xiao, Jie Zhang, Chao Ye, Junbo Zhao, (参考訳) テキスト・ツー・イメージ(T2I)モデルは、その顕著な生成能力のために広く注目を集めている。 しかし、NSFW画像は人に対する不快感や違法な目的のために使用される可能性があるため、NSFW(Not Safe for Work)画像を生成する際のモデルによる倫理的影響が懸念されている。 このような画像の生成を緩和するため、T2Iモデルは様々な種類の安全チェッカーをデプロイする。 しかし,NSFW画像の生成を完全に防止することはできない。 本稿では,自動攻撃フレームワークであるJPA(Jailbreak Prompt Attack)を提案する。 我々は、元の画像のセマンティクスを保ちながら、安全チェックをバイパスするプロンプトを維持することを目的としている。 具体的には,テキスト空間の堅牢性から,安全性チェックを回避できるプロンプトを見つけることを目的としている。 評価の結果,JPAはオンライン・サービスとオフライン・ディフェンス・セーフティ・チェッカーの両方をバイパスしてNSFW画像を生成することができた。

Text-to-Image (T2I) models have received widespread attention due to their remarkable generation capabilities. However, concerns have been raised about the ethical implications of the models in generating Not Safe for Work (NSFW) images because NSFW images may cause discomfort to people or be used for illegal purposes. To mitigate the generation of such images, T2I models deploy various types of safety checkers. However, they still cannot completely prevent the generation of NSFW images. In this paper, we propose the Jailbreak Prompt Attack (JPA) - an automatic attack framework. We aim to maintain prompts that bypass safety checkers while preserving the semantics of the original images. Specifically, we aim to find prompts that can bypass safety checkers because of the robustness of the text space. Our evaluation demonstrates that JPA successfully bypasses both online services with closed-box safety checkers and offline defenses safety checkers to generate NSFW images.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-02
# WorDepth: 単眼深度推定に先立つ変分言語

WorDepth: Variational Language Prior for Monocular Depth Estimation ( http://arxiv.org/abs/2404.03635v4 )

ライセンス: Link先を確認
Ziyao Zeng, Daniel Wang, Fengyu Yang, Hyoungseob Park, Yangchao Wu, Stefano Soatto, Byung-Woo Hong, Dong Lao, Alex Wong, (参考訳) 単一画像からの3次元3次元再構成は、固有の曖昧さ、すなわちスケールに関する不適切な問題である。 テキスト記述(s)から3Dシーンを予測するのも同様に、例えば、記述されたオブジェクトの空間配置が不適切である。 本研究では,2つの本質的にあいまいなモダリティを併用して,メートル法スケールの再構成を行うことができるかどうかを考察する。 これをテストするために、単眼深度推定(単眼深度推定)、一眼画像から深度マップを予測する問題、シーンを記述した追加のテキストキャプションに焦点をあてる。 この目的のために,テキストキャプションを平均および標準偏差として符号化することから始め,変分フレームワークを用いて,テキストキャプションに対応する3次元シーンの可算的再現の分布を先行として学習する。 特定の再構成や深度マップを「選択」するために、与えられた画像を条件付きサンプルにより符号化し、変分テキストエンコーダの潜時空間からサンプリングし、出力深度マップに復号する。 1つの最適化ステップでは、標準ガウス語からのテキスト記述とサンプルからの平均偏差と標準偏差を予測し、もう1つは(画像)条件付きサンプルを用いてサンプルをサンプリングする。 トレーニングが完了すると、条件付きサンプルを用いて、エンコードされたテキストから深度を直接予測する。 室内(NYUv2)と屋外(KITTI)のシナリオに対する我々のアプローチを実証する。

Three-dimensional (3D) reconstruction from a single image is an ill-posed problem with inherent ambiguities, i.e. scale. Predicting a 3D scene from text description(s) is similarly ill-posed, i.e. spatial arrangements of objects described. We investigate the question of whether two inherently ambiguous modalities can be used in conjunction to produce metric-scaled reconstructions. To test this, we focus on monocular depth estimation, the problem of predicting a dense depth map from a single image, but with an additional text caption describing the scene. To this end, we begin by encoding the text caption as a mean and standard deviation; using a variational framework, we learn the distribution of the plausible metric reconstructions of 3D scenes corresponding to the text captions as a prior. To "select" a specific reconstruction or depth map, we encode the given image through a conditional sampler that samples from the latent space of the variational text encoder, which is then decoded to the output depth map. Our approach is trained alternatingly between the text and image branches: in one optimization step, we predict the mean and standard deviation from the text description and sample from a standard Gaussian, and in the other, we sample using a (image) conditional sampler. Once trained, we directly predict depth from the encoded text using the conditional sampler. We demonstrate our approach on indoor (NYUv2) and outdoor (KITTI) scenarios, where we show that language can consistently improve performance in both.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-02
# 客観性は明らかか? - KhrennikovとQBistへの回答

Is Intersubjectivity Proven? A Reply to Khrennikov and to QBists ( http://arxiv.org/abs/2404.04367v3 )

ライセンス: Link先を確認
Herve Zwirn, (参考訳) 最近の2つの論文において、クレンニコフは、彼は「大沢の射影定理」(Ozawa intersubjectivity theorem) と呼ぶものを用いて、相互射影性は量子力学において必ずしも検証されていると主張し、QB主義を批判し、より一般的に観賞的であるすべての解釈を批判する。 以前の2つのQBist論文と一致して、Khrennikovの証明が有効でない理由を説明します。

In two recent papers Khrennikov uses what he calls Ozawa intersubjectivity theorem to claim that intersubjectivity is necessarily verified in quantum mechanics and to criticize QBism and more generally all interpretations that are perspectival. In agreement with two previous QBist papers, I explain here why Khrennikov proof is not valid but in contrast with one of these papers, I criticize the way intersubjectivity is dealt with in QBism.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-02
# 密接な連想モデルにおける意味的関連記憶

Semantically-correlated memories in a dense associative model ( http://arxiv.org/abs/2404.07123v3 )

ライセンス: Link先を確認
Thomas F Burns, (参考訳) 本稿では,CDAM(Correlated Dense Associative Memory)と呼ばれる新しい連想記憶モデルについて紹介する。 任意のグラフ構造を用いてメモリパターンを意味的にリンクし、CDAMは理論上、数値的に解析され、オートアソシエーション、狭いヘテロアソシエーション、広いヘテロアソシエーション、中立クエンスという4つの異なる動的モードが明らかになった。 抑制的調節研究からインスピレーションを得た私は、ヘテロ連想の範囲を制御し、グラフ内のコミュニティ構造のマルチスケール表現を抽出し、時間的シーケンスのリコールを安定化するために、アンチヘビアン学習ルールを採用しています。 実験では、CDAMが実世界のデータを処理し、古典的な神経科学実験を複製し、画像検索を行い、任意の有限オートマトンをシミュレートする効果を示す。

I introduce a novel associative memory model named Correlated Dense Associative Memory (CDAM), which integrates both auto- and hetero-association in a unified framework for continuous-valued memory patterns. Employing an arbitrary graph structure to semantically link memory patterns, CDAM is theoretically and numerically analysed, revealing four distinct dynamical modes: auto-association, narrow hetero-association, wide hetero-association, and neutral quiescence. Drawing inspiration from inhibitory modulation studies, I employ anti-Hebbian learning rules to control the range of hetero-association, extract multi-scale representations of community structures in graphs, and stabilise the recall of temporal sequences. Experimental demonstrations showcase CDAM's efficacy in handling real-world data, replicating a classical neuroscience experiment, performing image retrieval, and simulating arbitrary finite automata.
翻訳日:2024-06-04 15:27:55 公開日:2024-06-02
# マルチ・ロバスト因果変化の寄与

Multiply-Robust Causal Change Attribution ( http://arxiv.org/abs/2404.08839v2 )

ライセンス: Link先を確認
Victor Quintas-Martinez, Mohammad Taha Bahadori, Eduardo Santiago, Jeff Mu, Dominik Janzing, David Heckerman, (参考訳) 2つのサンプルデータを比較して、結果変数の分布の変化を観察する。 複数の説明変数が存在する場合、それぞれの原因によってどの程度の変化が説明できるのか? 我々は、因果モデルから回帰法と再重み付け法を組み合わせて、それぞれの因果機構の寄与を定量化する新しい推定戦略を開発する。 提案手法は多元的ロバストであり,部分的不特定条件下でも対象パラメータを復元する。 我々は、推定器が一貫し、漸近的に正常であることを証明した。 さらに、Shapley値のような因果帰属のための既存のフレームワークにも組み込むことができ、一貫性と大規模な分布特性を継承する。 本手法はモンテカルロシミュレーションにおいて優れた性能を示し,その有効性を示す。 提案手法はPythonライブラリであるDoWhy(arXiv:2011.04216, arXiv:2206.06821)の一部として実装されている。

Comparing two samples of data, we observe a change in the distribution of an outcome variable. In the presence of multiple explanatory variables, how much of the change can be explained by each possible cause? We develop a new estimation strategy that, given a causal model, combines regression and re-weighting methods to quantify the contribution of each causal mechanism. Our proposed methodology is multiply robust, meaning that it still recovers the target parameter under partial misspecification. We prove that our estimator is consistent and asymptotically normal. Moreover, it can be incorporated into existing frameworks for causal attribution, such as Shapley values, which will inherit the consistency and large-sample distribution properties. Our method demonstrates excellent performance in Monte Carlo simulations, and we show its usefulness in an empirical application. Our method is implemented as part of the Python library DoWhy (arXiv:2011.04216, arXiv:2206.06821).
翻訳日:2024-06-04 15:18:10 公開日:2024-06-02
# ウェハスケールにおける追跡可能なエージェントベース進化モデル

Trackable Agent-based Evolution Models at Wafer Scale ( http://arxiv.org/abs/2404.10861v3 )

ライセンス: Link先を確認
Matthew Andres Moreno, Connor Yang, Emily Dolson, Luis Zaman, (参考訳) コンピューティングハードウェアの継続的な改善は、進化生物学や人工生命における大きなオープンな問題、例えば個体の遷移、エコ進化力学、希少な進化現象をシリコモデルでモデル化する能力の変容を図っている。 850,000プロセッサのCerebras Wafer Scale Engine(WSE)のような、ML/AI指向のハードウェアアクセラレータが新たに登場した。 しかし、これらのプラットフォームの大きなプロセッサ数を効率的に活用する情報進化実験の実践的な課題は依然として残っている。 本稿では,WSEプラットフォーム上でのエージェントベースの進化から系統情報を抽出する問題に焦点をあてる。 この目的は、シリコ系統追跡において分散化するために、重要な改良を促したとここで報告されている。 これらの改善により、オーダー・オブ・マグニチュードのパフォーマンスが向上する。 WSEハードウェアのための非同期島型遺伝的アルゴリズム(GA)フレームワークも提案する。 シミュレーションおよびオンハードのGAベンチマークでは、単純な追跡可能なエージェントモデルで、1分間に100万世代以上、人口規模で1600万のエージェントに到達した。 本研究は,これらの治験の系統的再構成を検証し,根底にある進化状態の推測に適合することを示す。 特に,適応力学を有効化して動作を区別する明快な系統信号のウェーハスケールシミュレーションからの抽出を実演する。 これらのベンチマークと検証試験は、効率的かつ観測可能な、高度にスケーラブルなエージェントベースの進化シミュレーションの強い可能性を反映している。 開発された能力は、これまで難解だった研究課題のまったく新しいクラスに到達し、進化生物学や人工生命のコミュニティにおける様々な新興高性能コンピューティングプラットフォームにおけるさらなる探索に役立ちます。

Continuing improvements in computing hardware are poised to transform capabilities for in silico modeling of cross-scale phenomena underlying major open questions in evolutionary biology and artificial life, such as transitions in individuality, eco-evolutionary dynamics, and rare evolutionary events. Emerging ML/AI-oriented hardware accelerators, like the 850,000 processor Cerebras Wafer Scale Engine (WSE), hold particular promise. However, practical challenges remain in conducting informative evolution experiments that efficiently utilize these platforms' large processor counts. Here, we focus on the problem of extracting phylogenetic information from agent-based evolution on the WSE platform. This goal drove significant refinements to decentralized in silico phylogenetic tracking, reported here. These improvements yield order-of-magnitude performance improvements. We also present an asynchronous island-based genetic algorithm (GA) framework for WSE hardware. Emulated and on-hardware GA benchmarks with a simple tracking-enabled agent model clock upwards of 1 million generations a minute for population sizes reaching 16 million agents. We validate phylogenetic reconstructions from these trials and demonstrate their suitability for inference of underlying evolutionary conditions. In particular, we demonstrate extraction, from wafer-scale simulation, of clear phylometric signals that differentiate runs with adaptive dynamics enabled versus disabled. Together, these benchmark and validation trials reflect strong potential for highly scalable agent-based evolution simulation that is both efficient and observable. Developed capabilities will bring entirely new classes of previously intractable research questions within reach, benefiting further explorations within the evolutionary biology and artificial life communities across a variety of emerging high-performance computing platforms.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-02
# トークンレベルの直接参照最適化

Token-level Direct Preference Optimization ( http://arxiv.org/abs/2404.11999v3 )

ライセンス: Link先を確認
Yongcheng Zeng, Guoqing Liu, Weiyu Ma, Ning Yang, Haifeng Zhang, Jun Wang, (参考訳) 微調整された事前訓練された大規模言語モデル(LLM)は、それらを人間の価値観や意図と整合させるのに不可欠である。 このプロセスは、モデルが生成した全回答の評価に焦点をあてて、ペア比較や基準LLMに対するKL分散といった手法を利用することが多い。 しかしながら、これらの応答の生成は、シーケンシャルで自己回帰的な方法でトークンレベルで行われる。 本稿では,トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を提案する。 分散効率の課題に直面している従来の方法とは異なり、TDPOはトークンごとに前方KL分散制約を導入し、アライメントと多様性を改善している。 トークンベースの報酬システムのためのBradley-Terryモデルを利用することで、TDPOは、明示的な報酬モデリングを必要とせずに単純さを保ちながら、KL分散の規制を強化する。 テキストタスク間の実験結果は、TDPOが生成多様性との整合性に優れた性能を示す。 特に、TDPOによる微調整は、制御された感情生成とシングルターン対話データセットにおいてDPOよりもバランスが良く、DPOおよびPPOベースのRLHF手法と比較して、生成した応答の品質が著しく向上する。 我々のコードはhttps://github.com/Vance0124/Token-level-Direct-Preference-Optimizationでオープンソース化されています。

Fine-tuning pre-trained Large Language Models (LLMs) is essential to align them with human values and intentions. This process often utilizes methods like pairwise comparisons and KL divergence against a reference LLM, focusing on the evaluation of full answers generated by the models. However, the generation of these responses occurs in a token level, following a sequential, auto-regressive fashion. In this paper, we introduce Token-level Direct Preference Optimization (TDPO), a novel approach to align LLMs with human preferences by optimizing policy at the token level. Unlike previous methods, which face challenges in divergence efficiency, TDPO incorporates forward KL divergence constraints for each token, improving alignment and diversity. Utilizing the Bradley-Terry model for a token-based reward system, TDPO enhances the regulation of KL divergence, while preserving simplicity without the need for explicit reward modeling. Experimental results across various text tasks demonstrate TDPO's superior performance in balancing alignment with generation diversity. Notably, fine-tuning with TDPO strikes a better balance than DPO in the controlled sentiment generation and single-turn dialogue datasets, and significantly improves the quality of generated responses compared to both DPO and PPO-based RLHF methods. Our code is open-sourced at https://github.com/Vance0124/Token-level-Direct-Preference-Optimization.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-02
# DF-DM:人工知能時代のマルチモーダルデータ融合の基礎的プロセスモデル

DF-DM: A foundational process model for multimodal data fusion in the artificial intelligence era ( http://arxiv.org/abs/2404.12278v2 )

ライセンス: Link先を確認
David Restrepo, Chenwei Wu, Constanza Vásquez-Venegas, Luis Filipe Nakayama, Leo Anthony Celi, Diego M López, (参考訳) ビッグデータ時代において、多様なデータモダリティを統合することは、特に医療のような複雑な分野において、大きな課題となる。 本稿では、データマイニングのためのマルチモーダルデータフュージョンの新しいプロセスモデルを導入し、埋め込みとデータマイニングのためのクロス産業標準プロセスと既存のデータフュージョン情報グループモデルを統合する。 我々のモデルは、効率と信頼性を改善しつつ、計算コスト、複雑さ、バイアスを減らすことを目的としている。 また、相互情報を最適化し、密接なモーダリティ間特徴相互作用を容易にし、冗長情報を最小化するために設計された新しい埋め込み融合法である「遠方密度融合」を提案する。 本モデルの有効性は,網膜画像と患者のメタデータを用いた糖尿病網膜症予測,衛星画像を用いた家庭内暴力予測,インターネット,国勢調査データ,および放射線画像および臨床ノートから臨床および人口統計学的特徴を同定することにより示す。 糖尿病網膜症予測ではマクロF1スコアが0.92、家庭内暴力予測では0.854、sMAPEが24.868、疾患予測では0.92、性分類では0.99のマクロAUCがそれぞれ達成された。 これらの結果は、マルチモーダルデータ処理に大きな影響を与えるData Fusion for Data Miningモデルの可能性を強調し、多様なリソース制約のある設定で採用を促進する。

In the big data era, integrating diverse data modalities poses significant challenges, particularly in complex fields like healthcare. This paper introduces a new process model for multimodal Data Fusion for Data Mining, integrating embeddings and the Cross-Industry Standard Process for Data Mining with the existing Data Fusion Information Group model. Our model aims to decrease computational costs, complexity, and bias while improving efficiency and reliability. We also propose "disentangled dense fusion", a novel embedding fusion method designed to optimize mutual information and facilitate dense inter-modality feature interaction, thereby minimizing redundant information. We demonstrate the model's efficacy through three use cases: predicting diabetic retinopathy using retinal images and patient metadata, domestic violence prediction employing satellite imagery, internet, and census data, and identifying clinical and demographic features from radiography images and clinical notes. The model achieved a Macro F1 score of 0.92 in diabetic retinopathy prediction, an R-squared of 0.854 and sMAPE of 24.868 in domestic violence prediction, and a macro AUC of 0.92 and 0.99 for disease prediction and sex classification, respectively, in radiological analysis. These results underscore the Data Fusion for Data Mining model's potential to significantly impact multimodal data processing, promoting its adoption in diverse, resource-constrained settings.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-02
# BC-MRI-SEG : 乳癌MRI腫瘍分離ベンチマーク

BC-MRI-SEG: A Breast Cancer MRI Tumor Segmentation Benchmark ( http://arxiv.org/abs/2404.13756v2 )

ライセンス: Link先を確認
Anthony Bilic, Chen Chen, (参考訳) 磁気共鳴イメージング(MRI)データを用いた乳がん腫瘍の2つのセグメント化は、通常、プライベートな医療データに基づいて訓練され、評価されるため、ディープラーニングのアプローチの比較は困難である。 本稿では,MRI データセットを用いた乳癌の2重複領域分類のためのベンチマーク (BC-MRI-SEG) を提案する。 ベンチマークは合計4つのデータセットで構成され、教師付きトレーニングと評価に2つのデータセット、ゼロショット評価に2つのデータセットが使用される。 さらに、我々のベンチマークにおける最先端(SOTA)アプローチを比較し、利用可能な乳がんMRIデータセットの完全なリストを提供する。 ソースコードはhttps://irulenot.github.io/BC_MRI_SEG_Benchmarkで公開されている。

Binary breast cancer tumor segmentation with Magnetic Resonance Imaging (MRI) data is typically trained and evaluated on private medical data, which makes comparing deep learning approaches difficult. We propose a benchmark (BC-MRI-SEG) for binary breast cancer tumor segmentation based on publicly available MRI datasets. The benchmark consists of four datasets in total, where two datasets are used for supervised training and evaluation, and two are used for zero-shot evaluation. Additionally we compare state-of-the-art (SOTA) approaches on our benchmark and provide an exhaustive list of available public breast cancer MRI datasets. The source code has been made available at https://irulenot.github.io/BC_MRI_SEG_Benchmark.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-02
# ボルツマンモーメント系の正規化エントロピーに基づく閉鎖のための構造保存ニューラルネットワーク

Structure-preserving neural networks for the regularized entropy-based closure of the Boltzmann moment system ( http://arxiv.org/abs/2404.14312v3 )

ライセンス: Link先を確認
Steffen Schotthöfer, M. Paul Laiu, Martin Frank, Cory D. Hauck, (参考訳) 放射輸送の大規模数値シミュレーションの主な課題は、運動方程式の離散化法における高いメモリと計算時間要件である。 本研究では,低メモリフットプリントと競合計算時間で多次元モーメントシステムの解を正確に計算するために,エントロピー閉包法に対するニューラルネットワークに基づく近似を導出し,検討する。 我々は、標準的なエントロピーベースのクロージャのために開発された手法を、正規化されたエントロピーベースのクロージャの文脈に拡張する。 主な考え方は、正規化エントロピー閉包の構造保存ニューラルネットワーク近似を、元のエントロピー閉包の2段階近似として解釈することである。 この近似の数値解析を行い、最適パラメータ選択について検討する。 本手法のメモリフットプリントは,従来の計算時間とシミュレーション精度を比較検討した。

The main challenge of large-scale numerical simulation of radiation transport is the high memory and computation time requirements of discretization methods for kinetic equations. In this work, we derive and investigate a neural network-based approximation to the entropy closure method to accurately compute the solution of the multi-dimensional moment system with a low memory footprint and competitive computational time. We extend methods developed for the standard entropy-based closure to the context of regularized entropy-based closures. The main idea is to interpret structure-preserving neural network approximations of the regularized entropy closure as a two-stage approximation to the original entropy closure. We conduct a numerical analysis of this approximation and investigate optimal parameter choices. Our numerical experiments demonstrate that the method has a much lower memory footprint than traditional methods with competitive computation times and simulation accuracy.
翻訳日:2024-06-04 15:18:10 公開日:2024-06-02
# X線:世代のための連続した3D表現

X-Ray: A Sequential 3D Representation For Generation ( http://arxiv.org/abs/2404.14329v2 )

ライセンス: Link先を確認
Tao Hu, Wenhang Ge, Yuyang Zhao, Gim Hee Lee, (参考訳) 我々はX線スキャンの透過性にインスパイアされた新しい3Dシーケンシャル表現であるX線を紹介する。 X線は3Dオブジェクトを異なる層で一連の表面フレームに変換するため、画像から3Dモデルを生成するのに適している。 本手法では, カメラ中心から照射した線を, 全交差面の奥行き, 正常, 色を含む幾何学的, テクスチャ的細部を撮影する。 このプロセスは、3Dオブジェクト全体をマルチフレームビデオフォーマットに効率的に凝縮し、ビデオ拡散モデルと同様のネットワークアーキテクチャの利用を動機付ける。 この設計は,表面情報のみに焦点をあてることで,効率的な3次元表現を実現する。 また,X線拡散モデルとアップサンプラーから3次元オブジェクトを生成するための2段階パイプラインを提案する。 単一入力画像から3次元物体の完全可視面と隠蔽面を合成することにより,X線表現の実用性と適応性を示す。 実験結果から,3次元表現の精度の向上,新しい3次元表現研究の道のり,実用化における表現の最先端性を明らかにした。

We introduce X-Ray, a novel 3D sequential representation inspired by the penetrability of x-ray scans. X-Ray transforms a 3D object into a series of surface frames at different layers, making it suitable for generating 3D models from images. Our method utilizes ray casting from the camera center to capture geometric and textured details, including depth, normal, and color, across all intersected surfaces. This process efficiently condenses the whole 3D object into a multi-frame video format, motivating the utilize of a network architecture similar to those in video diffusion models. This design ensures an efficient 3D representation by focusing solely on surface information. Also, we propose a two-stage pipeline to generate 3D objects from X-Ray Diffusion Model and Upsampler. We demonstrate the practicality and adaptability of our X-Ray representation by synthesizing the complete visible and hidden surfaces of a 3D object from a single input image. Experimental results reveal the state-of-the-art superiority of our representation in enhancing the accuracy of 3D generation, paving the way for new 3D representation research and practical applications.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-02
# 最適・オン・ポリティクスデータを活用するLLMの選好微調整

Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data ( http://arxiv.org/abs/2404.14367v3 )

ライセンス: Link先を確認
Fahim Tajwar, Anikait Singh, Archit Sharma, Rafael Rafailov, Jeff Schneider, Tengyang Xie, Stefano Ermon, Chelsea Finn, Aviral Kumar, (参考訳) 好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。 好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。 異なる手法は異なる実装のトレードオフと性能の違いを持ち、既存の経験的発見は異なる結論を示し、例えば、オンラインRLが優れた微調整結果を得るために非常に重要であることを示す結果もある。 好みのデータを使って微調整する上で,どのようなアプローチが重要であるのか? 本稿では, ドクティックおよびフルスケールLLM問題における多数の微調整手法を厳密に分析することにより, この問題に対処する。 我々の主な発見は、一般に、オンラインサンプリングを使用するアプローチや、特定の応答(すなわち、"負の勾配"を採用する)に対する可能性を押し下げようとするアプローチが、オフラインおよび最大可能性目標を上回っていることである。 我々は, カテゴリー分布のモード探索目標という概念の下で, オンラインサンプリングや負の勾配を利用する手法を概念化し, 統一する。 モード探索の目的は、カテゴリー分布の特定のビンの確率質量を最大確率よりも速い速度で変化させることで、ビンをまたいでより効率的に質量を移動させることができる。 本分析では,LLMの選好微調整に関する実用的な知見を定式化し,最大改善のためのデータ収集方法について報告する。

Learning from preference labels plays a crucial role in fine-tuning large language models. There are several distinct approaches for preference fine-tuning, including supervised learning, on-policy reinforcement learning (RL), and contrastive learning. Different methods come with different implementation tradeoffs and performance differences, and existing empirical findings present different conclusions, for instance, some results show that online RL is quite important to attain good fine-tuning results, while others find (offline) contrastive or even purely supervised methods sufficient. This raises a natural question: what kind of approaches are important for fine-tuning with preference data and why? In this paper, we answer this question by performing a rigorous analysis of a number of fine-tuning techniques on didactic and full-scale LLM problems. Our main finding is that, in general, approaches that use on-policy sampling or attempt to push down the likelihood on certain responses (i.e., employ a "negative gradient") outperform offline and maximum likelihood objectives. We conceptualize our insights and unify methods that use on-policy sampling or negative gradient under a notion of mode-seeking objectives for categorical distributions. Mode-seeking objectives are able to alter probability mass on specific bins of a categorical distribution at a fast rate compared to maximum likelihood, allowing them to relocate masses across bins more effectively. Our analysis prescribes actionable insights for preference fine-tuning of LLMs and informs how data should be collected for maximal improvement.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-02
# 乳がん自己硬化規則のAI応答への埋め込みによるChatGPTプロンプトの説明可能性の強化

Reinforcement of Explainability of ChatGPT Prompts by Embedding Breast Cancer Self-Screening Rules into AI Responses ( http://arxiv.org/abs/2404.14454v2 )

ライセンス: Link先を確認
Yousef Khan, Ahmed Abdeen Hamed, (参考訳) 本研究は, 乳癌の国際的課題に対して, ChatGPT 3.5ターボモデルと乳がんリスク評価の複雑さに着目し, 生成AIの融合について検討する。 この研究は、ChatGPTの推論能力を評価し、ルールを処理する可能性を強調し、レコメンデーションをスクリーニングするための説明を提供することを目的としている。 この研究は、ChatGPTの自然言語推論における独特の習熟度を示すことによって、インテリジェントマシンと臨床医の間の技術ギャップを埋めようとしている。 この方法論では、ChatGPTの推奨事項の詳細な説明を強制するために、教師付きプロンプトエンジニアリングアプローチを採用している。 アルゴリズムによって生成された合成ユースケースは、符号化されたルールのテストグラウンドとして機能し、モデルの処理能力を評価する。 発見は、ChatGPTの、エキスパートシステムシェルに匹敵する処理ルールにおける有望な能力を強調し、自然言語推論に焦点を当てている。 本研究は、乳がんリスク評価のためのユーザフレンドリーなインターフェースの実現と結果の解明におけるその可能性を示す、強化説明可能性の概念を紹介する。

Addressing the global challenge of breast cancer, this research explores the fusion of generative AI, focusing on ChatGPT 3.5 turbo model, and the intricacies of breast cancer risk assessment. The research aims to evaluate ChatGPT's reasoning capabilities, emphasizing its potential to process rules and provide explanations for screening recommendations. The study seeks to bridge the technology gap between intelligent machines and clinicians by demonstrating ChatGPT's unique proficiency in natural language reasoning. The methodology employs a supervised prompt-engineering approach to enforce detailed explanations for ChatGPT's recommendations. Synthetic use cases, generated algorithmically, serve as the testing ground for the encoded rules, evaluating the model's processing prowess. Findings highlight ChatGPT's promising capacity in processing rules comparable to Expert System Shells, with a focus on natural language reasoning. The research introduces the concept of reinforcement explainability, showcasing its potential in elucidating outcomes and facilitating user-friendly interfaces for breast cancer risk assessment.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-02
# 確率微分方程式によるベイズ流の統一と拡散モデル

Unifying Bayesian Flow Networks and Diffusion Models through Stochastic Differential Equations ( http://arxiv.org/abs/2404.15766v2 )

ライセンス: Link先を確認
Kaiwen Xue, Yuhao Zhou, Shen Nie, Xu Min, Xiaolu Zhang, Jun Zhou, Chongxuan Li, (参考訳) ベイズ流ネットワーク (BFN) は, 拡散モデル (DM) のサンプルではなく, ベイズ推定による様々なノイズレベルの分布のパラメータを反復的に改良する。 識別可能な性質のため、BFNは連続データと離散データの両方をモデリングし、同時に高速サンプリング機能を維持することを約束している。 本稿では,確率微分方程式(SDE)を用いて,BFNをDMに接続することで,BFNの理解と拡張を図る。 我々は,BFNの雑音付加過程に対応する線形SDEを同定し,BFNの回帰損失が復調点マッチングと一致していることを示し,各逆時間SDEの1次解法としてBFNのサンプルを検証した。 これらの知見と既存のDMにおける高速サンプリングのレシピに基づいて、画像とテキストの両方で機能評価(例、10)が限定されたサンプル品質の観点から、元のBFNサンプリングを著しく上回るBFNの特殊解法を提案する。 特に,本研究では,5~20倍の速度を無償で達成している。 私たちのコードはhttps://github.com/ML-GSAI/BFN-Solver.comから入手可能です。

Bayesian flow networks (BFNs) iteratively refine the parameters, instead of the samples in diffusion models (DMs), of distributions at various noise levels through Bayesian inference. Owing to its differentiable nature, BFNs are promising in modeling both continuous and discrete data, while simultaneously maintaining fast sampling capabilities. This paper aims to understand and enhance BFNs by connecting them with DMs through stochastic differential equations (SDEs). We identify the linear SDEs corresponding to the noise-addition processes in BFNs, demonstrate that BFN's regression losses are aligned with denoise score matching, and validate the sampler in BFN as a first-order solver for the respective reverse-time SDE. Based on these findings and existing recipes of fast sampling in DMs, we propose specialized solvers for BFNs that markedly surpass the original BFN sampler in terms of sample quality with a limited number of function evaluations (e.g., 10) on both image and text datasets. Notably, our best sampler achieves an increase in speed of 5~20 times for free. Our code is available at https://github.com/ML-GSAI/BFN-Solver.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-02
# Trncated quantum observablesとその半古典的極限

Truncated quantum observables and their semiclassical limit ( http://arxiv.org/abs/2404.15863v2 )

ライセンス: Link先を確認
Fabio Deelan Cunden, Marilena Ligabò, Maria Caterina Susca, (参考訳) 量子可観測量$H$ truncated on the range of orthogonal projections $\Pi_N$ of rank $N$, we study the corresponding Weyl symbol in the semiclassical limit in the semiclassical limit of vanishing Planck constant $\hbar\to0$ and large quantum number $N\to\infty$, with $\hbar N$。 ある仮定の下では、位相空間の古典的に許容される領域上の(一般には不連続である)記号にワイル記号の$L^2$-収束が証明される。 一般定理の図解として、調和振動子と1次元箱内の自由粒子に対して、切り離された可観測物を分析する。 後者の場合、古典的に許容される領域の境界付近のシンボルの顕微鏡的点制限も計算する。

For quantum observables $H$ truncated on the range of orthogonal projections $\Pi_N$ of rank $N$, we study the corresponding Weyl symbol in the phase space in the semiclassical limit of vanishing Planck constant $\hbar\to0$ and large quantum number $N\to\infty$, with $\hbar N$ fixed. Under certain assumptions, we prove the $L^2$- convergence of the Weyl symbols to a symbol truncated (hence, in general discontinuous) on the classically allowed region in phase space. As an illustration of the general theorems we analyse truncated observables for the harmonic oscillator and for a free particle in a one-dimensional box. In the latter case, we also compute the microscopic pointwise limit of the symbols near the boundary of the classically allowed region.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-02
# 位置: コンテキストのないビジョンモデルを記述するべきではない

Position: Do Not Explain Vision Models Without Context ( http://arxiv.org/abs/2404.18316v3 )

ライセンス: Link先を確認
Paulina Tomaszewska, Przemysław Biecek, (参考訳) 写真に写っている聴診器は、隣の人を医者か患者にしますか? これは、もちろん、2つのオブジェクトの文脈的関係に依存する。 もし明らかなら、視覚モデルでコンテキスト情報を使う方法を説明してはいけませんか。 本稿では,(1) コンピュータビジョンモデルを説明する最も一般的な手法について,(2) 一般的なXAI手法の失敗例を示すこと,(3) 空間コンテキストが重要な役割を果たす実世界のユースケースの例を示すこと,(4) コンピュータビジョンモデルを説明する上で,文脈情報のより良い活用につながる可能性のある新たな研究方向を提案すること,(5) 説明へのアプローチの変更は,「場所」から「方法」へ移行する必要があることを指摘する。

Does the stethoscope in the picture make the adjacent person a doctor or a patient? This, of course, depends on the contextual relationship of the two objects. If it's obvious, why don't explanation methods for vision models use contextual information? In this paper, we (1) review the most popular methods of explaining computer vision models by pointing out that they do not take into account context information, (2) show examples of failures of popular XAI methods, (3) provide examples of real-world use cases where spatial context plays a significant role, (4) propose new research directions that may lead to better use of context information in explaining computer vision models, (5) argue that a change in approach to explanations is needed from 'where' to 'how'.
翻訳日:2024-06-04 15:08:25 公開日:2024-06-02
# LLM-SR: 大規模言語モデルを用いたプログラミングによる科学的方程式発見

LLM-SR: Scientific Equation Discovery via Programming with Large Language Models ( http://arxiv.org/abs/2404.18400v2 )

ライセンス: Link先を確認
Parshin Shojaee, Kazem Meidani, Shashank Gupta, Amir Barati Farimani, Chandan K Reddy, (参考訳) 数学の方程式は、様々な科学分野にわたる複雑な自然現象を記述するのに不合理に有効である。 しかし、そのような洞察に富んだ方程式をデータから発見することは、非常に高次元の組合せと非線形の仮説空間をナビゲートする必要があるため、大きな課題となる。 伝統的な方程式発見の方法は、主にデータのみから方程式を抽出することに焦点を当てており、しばしば科学者が一般的に依存する豊富なドメイン固有の事前知識を無視している。 このギャップを埋めるために,LLM(Large Language Models)の広範な科学的知識とロバストなコード生成能力を活用して,データから科学的方程式を効率的に発見する,新たなアプローチ LLM-SR を導入する。 具体的には、LLM-SRは方程式を数学的演算子とプログラムとして扱い、LLMの科学的先行と方程式プログラムの進化的探索を組み合わせている。 LLMは、その物理的理解から引き出された新しい方程式スケルトン仮説を反復的に提案し、スケルトンパラメータを推定するためにデータに対して最適化する。 LLM-SRの有効性を3つの科学的領域で実証し、よく確立されたシンボリック回帰ベースラインと比較して、ドメイン内およびドメイン外データに適合する物理精度の高い方程式を発見する。 科学的な事前知識を取り入れることで、LLM-SRは基底線よりも効率的に方程式空間を探索することができる。 https://github.com/deep-symbolic-mathematics/LLM-SR

Mathematical equations have been unreasonably effective in describing complex natural phenomena across various scientific disciplines. However, discovering such insightful equations from data presents significant challenges due to the necessity of navigating extremely high-dimensional combinatorial and nonlinear hypothesis spaces. Traditional methods of equation discovery, commonly known as symbolic regression, largely focus on extracting equations from data alone, often neglecting the rich domain-specific prior knowledge that scientists typically depend on. To bridge this gap, we introduce LLM-SR, a novel approach that leverages the extensive scientific knowledge and robust code generation capabilities of Large Language Models (LLMs) to discover scientific equations from data in an efficient manner. Specifically, LLM-SR treats equations as programs with mathematical operators and combines LLMs' scientific priors with evolutionary search over equation programs. The LLM iteratively proposes new equation skeleton hypotheses, drawing from its physical understanding, which are then optimized against data to estimate skeleton parameters. We demonstrate LLM-SR's effectiveness across three diverse scientific domains, where it discovers physically accurate equations that provide significantly better fits to in-domain and out-of-domain data compared to the well-established symbolic regression baselines. Incorporating scientific prior knowledge also enables LLM-SR to search the equation space more efficiently than baselines. Code is available at: https://github.com/deep-symbolic-mathematics/LLM-SR
翻訳日:2024-06-04 15:08:25 公開日:2024-06-02
# Markov Flow Policy -- Deep MC

Markov flow policy -- deep MC ( http://arxiv.org/abs/2405.00877v2 )

ライセンス: Link先を確認
Nitsan Soffair, Gilad Katz, (参考訳) 分散アルゴリズムは、短期的な推定に依存するため、しばしば評価エラーに遭遇し、単純で短期的なタスクに対処し、望ましくない時間的割引(\(\gamma\))を課す効果を阻害する。 興味深いことに、これらのアルゴリズムは割引を適用することなくテストされることが多く、これは \textit{train-test bias} と呼ばれる現象である。 これらの課題に対応するために、我々は、非負のニューラルネットワークフローを利用して総合的な前方視予測を可能にするマルコフフローポリシーを提案する。 TD7コードベースへの統合と MuJoCo ベンチマークによる評価を通じて,MFP を平均報酬アルゴリズムの領域内での単純で実践的で実装が容易なソリューションとして位置づけ,大幅なパフォーマンス向上を観測した。

Discounted algorithms often encounter evaluation errors due to their reliance on short-term estimations, which can impede their efficacy in addressing simple, short-term tasks and impose undesired temporal discounts (\(\gamma\)). Interestingly, these algorithms are often tested without applying a discount, a phenomenon we refer as the \textit{train-test bias}. In response to these challenges, we propose the Markov Flow Policy, which utilizes a non-negative neural network flow to enable comprehensive forward-view predictions. Through integration into the TD7 codebase and evaluation using the MuJoCo benchmark, we observe significant performance improvements, positioning MFP as a straightforward, practical, and easily implementable solution within the domain of average rewards algorithms.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-02
# タブラル・ファンデーション・モデルが研究優先であるべき理由

Why Tabular Foundation Models Should Be a Research Priority ( http://arxiv.org/abs/2405.01147v2 )

ライセンス: Link先を確認
Boris van Breugel, Mihaela van der Schaar, (参考訳) 最近のテキストと画像の基礎モデルは驚くほど印象的であり、これらのモデルは研究資源の継続的な増加を招いている。 このポジションピースでは、ML研究コミュニティの優先順位を、表のデータという、まったく異なるモダリティにシフトさせることを目標にしています。 タブラルデータは、多くの分野において支配的なモダリティであるが、研究の注意がほとんど与えられず、スケールとパワーの面ではかなり遅れている。 現在、表形式の基礎モデル、あるいはLTM(Large Tabular Model)と呼ばれるものの開発に着手する時が来たと信じています。 LTMは、科学とMLがグラフデータを使用する方法に革命をもたらす可能性がある。真空で分析される単一のデータセットではなく、関連するデータセットに関してコンテキスト化される。 潜在的な影響は、数ショットの表形式モデルからデータサイエンスの自動化、アウト・オブ・ディストリビューションの合成データから多分野の科学的発見の強化まで、はるかに大きい。 我々は、我々が研究しているモダリティの反映をエキサイティングにし、一部の研究者に大きな表層モデルの研究を説得するつもりです。

Recent text and image foundation models are incredibly impressive, and these models are attracting an ever-increasing portion of research resources. In this position piece we aim to shift the ML research community's priorities ever so slightly to a different modality: tabular data. Tabular data is the dominant modality in many fields, yet it is given hardly any research attention and significantly lags behind in terms of scale and power. We believe the time is now to start developing tabular foundation models, or what we coin a Large Tabular Model (LTM). LTMs could revolutionise the way science and ML use tabular data: not as single datasets that are analyzed in a vacuum, but contextualized with respect to related datasets. The potential impact is far-reaching: from few-shot tabular models to automating data science; from out-of-distribution synthetic data to empowering multidisciplinary scientific discovery. We intend to excite reflections on the modalities we study, and convince some researchers to study large tabular models.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-02
# 量子ネットワークにおける絡み合い分布のための非同期プロトコルの解析

Analysis of Asynchronous Protocols for Entanglement Distribution in Quantum Networks ( http://arxiv.org/abs/2405.02406v2 )

ライセンス: Link先を確認
Shahrooz Pouryousef, Hassan Shapourian, Don Towsley, (参考訳) 量子ネットワークにおける絡み合いの分布は、典型的には完全同期や集中制御のような理想化された仮定の下でアプローチされるが、古典的な通信はしばしば無視される。 しかし、これらの仮定は大規模ネットワークでは実用的でないことを証明している。 本稿では,リンクレベルで独立に絡み合いを生成する並列スキームと,一方から他方への絡み合いを反復的に拡張する逐次スキームという,最小限の非同期プロトコルを探索し,実用的な視点を示す。 我々の分析では、一様でないリピータ間隔と古典的な通信を取り入れ、量子メモリのデコヒーレンスを考慮に入れている。 我々は、絡み込みビットレート、エンドツーエンドの忠実度、および絡み合いに基づく量子鍵分布のための秘密鍵レートなどの指標を用いて、ネットワーク性能を評価する。 並列方式と並列方式を比較検討した結果, 逐次方式の優位性が示唆された。 さらに,メモリアイドル時間長の試行を廃止し,低品質な絡み合いリンクを効果的に排除することで,性能向上のためのカットオフ戦略を施行する。 最後に,SURFnetの実世界のトポロジに本手法を適用し,その性能をメモリコヒーレンス時間関数として報告する。

The distribution of entanglement in quantum networks is typically approached under idealized assumptions such as perfect synchronization and centralized control, while classical communication is often neglected. However, these assumptions prove impractical in large-scale networks. In this paper, we present a pragmatic perspective by exploring two minimal asynchronous protocols: a parallel scheme generating entanglement independently at the link level, and a sequential scheme extending entanglement iteratively from one party to the other. Our analysis incorporates non-uniform repeater spacings and classical communications and accounts for quantum memory decoherence. We evaluate network performance using metrics such as entanglement bit rate, end-to-end fidelity, and secret key rate for entanglement-based quantum key distribution. Our findings suggest the sequential scheme's superiority due to comparable performance with the parallel scheme, coupled with simpler implementation. Additionally, we impose a cutoff strategy to improve performance by discarding attempts with prolonged memory idle time, effectively eliminating low-quality entanglement links. Finally, we apply our methods to the real-world topology of SURFnet and report the performance as a function of memory coherence time.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-02
# 非線形モデルに対する一般化直交化

Generalizing Orthogonalization for Models with Non-Linearities ( http://arxiv.org/abs/2405.02475v2 )

ライセンス: Link先を確認
David Rügamer, Chris Kolb, Tobias Weber, Lucas Kook, Thomas Nagler, (参考訳) ブラックボックスアルゴリズムの複雑さは、バイアスの導入など、様々な問題を引き起こす可能性がある。 これらのバイアスは、アルゴリズムの応用における即時的なリスクを示す。 例えば、ニューラルネットワークが患者のX線スキャンからのみ人種情報を抽出できることは、医療専門家の能力を超えた課題である。 もしこの事実が医療専門家に知られていなければ、このアルゴリズムに基づく自動意思決定は、人種情報に基づく(純粋に)治療の処方につながる可能性がある。 現在の手法では、そのような情報に関してニューラルネットワークの「直交化」や「正規化」が可能であるが、既存のアプローチは線形モデルに基礎を置いている。 本稿では,ReLUアクティベーションなどの非線形性に対する補正を導入することで,談話の進行を推し進める。 我々のアプローチはスカラーおよびテンソル値の予測も含み、ニューラルネットワークアーキテクチャへの統合を容易にする。 広範な実験を通じて、一般化線形モデルにおけるセンシティブなデータの保護、メタデータのための畳み込みニューラルネットワークの正規化、および望ましくない属性に対する既存の埋め込みの修正における我々の方法の有効性を検証する。

The complexity of black-box algorithms can lead to various challenges, including the introduction of biases. These biases present immediate risks in the algorithms' application. It was, for instance, shown that neural networks can deduce racial information solely from a patient's X-ray scan, a task beyond the capability of medical experts. If this fact is not known to the medical expert, automatic decision-making based on this algorithm could lead to prescribing a treatment (purely) based on racial information. While current methodologies allow for the "orthogonalization" or "normalization" of neural networks with respect to such information, existing approaches are grounded in linear models. Our paper advances the discourse by introducing corrections for non-linearities such as ReLU activations. Our approach also encompasses scalar and tensor-valued predictions, facilitating its integration into neural network architectures. Through extensive experiments, we validate our method's effectiveness in safeguarding sensitive data in generalized linear models, normalizing convolutional neural networks for metadata, and rectifying pre-existing embeddings for undesired attributes.
翻訳日:2024-06-04 14:58:30 公開日:2024-06-02
# 微分可能な粒子フィルタのレジーム学習

Regime Learning for Differentiable Particle Filters ( http://arxiv.org/abs/2405.04865v2 )

ライセンス: Link先を確認
John-Joseph Brady, Yuhui Luo, Wenwu Wang, Victor Elvira, Yunpeng Li, (参考訳) 微分可能な粒子フィルタは、シーケンシャルモンテカルロ法とニューラルネットワークの柔軟性を組み合わせて状態空間推論を行う新しいモデルのクラスである。 本稿では、システムが有限の状態空間モデル、すなわちレジームを切り替える場合について述べる。 個々の体制と切り替えプロセスの両方を同時に学習する事前のアプローチは存在しない。 本稿では,ニューラルネットワークを用いた微分可能粒子フィルタ(RLPF)を提案する。 我々はさらに、RLPFや他の関連アルゴリズムのトレーニング手順を設計する。 2つの数値実験において,従来の最先端アルゴリズムと比較して,競合性能を実証した。

Differentiable particle filters are an emerging class of models that combine sequential Monte Carlo techniques with the flexibility of neural networks to perform state space inference. This paper concerns the case where the system may switch between a finite set of state-space models, i.e. regimes. No prior approaches effectively learn both the individual regimes and the switching process simultaneously. In this paper, we propose the neural network based regime learning differentiable particle filter (RLPF) to address this problem. We further design a training procedure for the RLPF and other related algorithms. We demonstrate competitive performance compared to the previous state-of-the-art algorithms on a pair of numerical experiments.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-02
# MIDGARD:構造化コモンセンス推論のための最小記述長を用いた自己整合性

MIDGARD: Self-Consistency Using Minimum Description Length for Structured Commonsense Reasoning ( http://arxiv.org/abs/2405.05189v2 )

ライセンス: Link先を確認
Inderjeet Nair, Lu Wang, (参考訳) 本研究では,大規模言語モデル(LLM)を用いた自然言語入力から推論グラフを生成するための構造化推論の課題について検討する。 従来の手法では様々なプロンプト方式が検討されてきたが、自己回帰性や誤り訂正能力に欠けるシングルパスによる復号化によるエラー伝播に悩まされている。 さらに、単一のサンプルのみに依存すると、真のノードとエッジが省略される可能性がある。 これに対抗するために我々は,多種多様な推論チェーンをサンプリングし,多数決を最終回答とする自己整合性(SC)からインスピレーションを得ている。 生成したグラフにSCを適用する上で,MDL(Minimum Description Length)に基づく定式化を利用したMDDGARD(MInimum Description length Guided Aggregation of Reasoning in Directed acyclic graph)を提案する。 この定式化は、誤っている可能性がある少数のサンプルにしか現れない性質を拒絶するのに役立つが、精度を損なうことなく、欠落した要素を包含できる。 提案手法は, 議論構造抽出, 説明グラフ生成, 日常タスクの動作間の依存性関係の推測, 自然テキストからのセマンティックグラフ生成など, 様々な構造的推論タスクの比較よりも優れた性能を示す。

We study the task of conducting structured reasoning as generating a reasoning graph from natural language input using large language models (LLMs). Previous approaches have explored various prompting schemes, yet they suffer from error propagation due to the autoregressive nature and single-pass-based decoding, which lack error correction capability. Additionally, relying solely on a single sample may result in the omission of true nodes and edges. To counter this, we draw inspiration from self-consistency (SC), which involves sampling a diverse set of reasoning chains and taking the majority vote as the final answer. To tackle the substantial challenge of applying SC on generated graphs, we propose MIDGARD (MInimum Description length Guided Aggregation of Reasoning in Directed acyclic graph) that leverages Minimum Description Length (MDL)-based formulation to identify consistent properties among the different graph samples generated by an LLM. This formulation helps reject properties that appear in only a few samples, which are likely to be erroneous, while enabling the inclusion of missing elements without compromising precision. Our method demonstrates superior performance than comparisons across various structured reasoning tasks, including argument structure extraction, explanation graph generation, inferring dependency relations among actions for everyday tasks, and semantic graph generation from natural texts.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-02
# DynaSeg:特徴類似性と空間連続性を考慮した教師なし画像分割のためのディープダイナミックフュージョン法

DynaSeg: A Deep Dynamic Fusion Method for Unsupervised Image Segmentation Incorporating Feature Similarity and Spatial Continuity ( http://arxiv.org/abs/2405.05477v2 )

ライセンス: Link先を確認
Boujemaa Guermazi, Naimul Khan, (参考訳) 本研究は,コンピュータビジョンにおけるイメージセグメンテーションの根本的な課題に取り組み,多様なアプリケーションに欠かせない課題である。 教師付き手法は習熟度を示すが、広範囲のピクセルレベルのアノテーションに依存しているためスケーラビリティは制限される。 広範なハイパーパラメータチューニングに頼ることなく、特徴類似性と空間連続性のバランスをとるという課題を克服する、革新的な教師なしイメージセグメンテーションアプローチであるDynaSegを紹介する。 従来の手法とは異なり、DynaSegはパラメータチューニングを自動化し、画像特性に柔軟に対応し、他のセグメンテーションネットワークと容易に統合できる動的重み付け方式を採用している。 シルエットスコア位相を組み込むことで、ダイナセグは予測されたクラスターの数が1つに収束する過小評価の失敗を防ぐ。 DynaSegはCNNベースで事前訓練されたResNet機能抽出を使用しており、計算効率が良く、他の複雑なモデルよりも簡単である。 実験結果は、COCO-AllデータセットとCOCO-Stuffデータセットの現在の教師なしセグメンテーションアプローチに対して、12.2%と14.12%のmIOU改善を達成した最先端のパフォーマンスを示している。 提案手法の有効性を実証し,5つのベンチマークデータセットの質的,定量的な結果を提供する。

Our work tackles the fundamental challenge of image segmentation in computer vision, which is crucial for diverse applications. While supervised methods demonstrate proficiency, their reliance on extensive pixel-level annotations limits scalability. We introduce DynaSeg, an innovative unsupervised image segmentation approach that overcomes the challenge of balancing feature similarity and spatial continuity without relying on extensive hyperparameter tuning. Unlike traditional methods, DynaSeg employs a dynamic weighting scheme that automates parameter tuning, adapts flexibly to image characteristics, and facilitates easy integration with other segmentation networks. By incorporating a Silhouette Score Phase, DynaSeg prevents undersegmentation failures where the number of predicted clusters might converge to one. DynaSeg uses CNN-based and pre-trained ResNet feature extraction, making it computationally efficient and more straightforward than other complex models. Experimental results showcase state-of-the-art performance, achieving a 12.2% and 14.12% mIOU improvement over current unsupervised segmentation approaches on COCO-All and COCO-Stuff datasets, respectively. We provide qualitative and quantitative results on five benchmark datasets, demonstrating the efficacy of the proposed approach.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-02
# 状態空間モデルの状態自由推論:伝達関数アプローチ

State-Free Inference of State-Space Models: The Transfer Function Approach ( http://arxiv.org/abs/2405.06147v2 )

ライセンス: Link先を確認
Rom N. Parnichkun, Stefano Massaroli, Alessandro Moro, Jimmy T. H. Smith, Ramin Hasani, Mathias Lechner, Qi An, Christopher Ré, Hajime Asama, Stefano Ermon, Taiji Suzuki, Atsushi Yamashita, Michael Poli, (参考訳) 本稿では,その双対表現,転送関数,および高効率なシーケンス並列推論アルゴリズムにより,ディープラーニングアプリケーションのための状態空間モデルの設計にアプローチする。 提案した周波数領域転送関数パラメトリゼーションの特性を用いて、単一高速フーリエ変換を用いて、対応する畳み込みカーネルのスペクトルを直接計算できる。 複数のシーケンスの長さと状態サイズにまたがる実験結果から、Long Range Arenaベンチマークでは、S4層のトレーニング速度が平均35%向上し、他の注意を払わないアプローチよりも、最先端のダウンストリームのパフォーマンスを実現しています。 さらに,移動関数パラメトリゼーションを導入することで,長い畳み込みハイエナベースライン上での言語モデリングの難易度を改善することを報告した。 私たちのコードはhttps://github.com/ruke1ire/RTF.comで利用可能です。

We approach designing a state-space model for deep learning applications through its dual representation, the transfer function, and uncover a highly efficient sequence parallel inference algorithm that is state-free: unlike other proposed algorithms, state-free inference does not incur any significant memory or computational cost with an increase in state size. We achieve this using properties of the proposed frequency domain transfer function parametrization, which enables direct computation of its corresponding convolutional kernel's spectrum via a single Fast Fourier Transform. Our experimental results across multiple sequence lengths and state sizes illustrates, on average, a 35% training speed improvement over S4 layers -- parametrized in time-domain -- on the Long Range Arena benchmark, while delivering state-of-the-art downstream performances over other attention-free approaches. Moreover, we report improved perplexity in language modeling over a long convolutional Hyena baseline, by simply introducing our transfer function parametrization. Our code is available at https://github.com/ruke1ire/RTF.
翻訳日:2024-06-04 14:48:46 公開日:2024-06-02
# Reinformer:オフラインRLの最大戻りシーケンスモデリング

Reinformer: Max-Return Sequence Modeling for Offline RL ( http://arxiv.org/abs/2405.08740v3 )

ライセンス: Link先を確認
Zifeng Zhuang, Dengyun Peng, Jinxin Liu, Ziqi Zhang, Donglin Wang, (参考訳) データ駆動型パラダイムとして、オフライン強化学習(RL)は、リターン、ゴール、将来の軌道を含む後見情報に基づく条件をシーケンスモデリングとして定式化されている。 有望ではあるが、この教師付きパラダイムはリターンを最大化するRLの中核的な目的を見落としている。 この見落としは、準最適データから学習するシーケンスモデルに影響を与える軌道縫合能力の欠如に直接繋がる。 そこで本研究では,戻り値の最大化という目標を既存シーケンスモデルに組み込む,最大復帰シーケンスモデリングの概念を導入する。 本稿では,RLの目的によってシーケンスモデルが強化されることを示すReinforced Transformer(Reinformer)を提案する。 Reinformerはまた、トレーニングフェーズにおけるリターンの最大化という目的も取り入れており、ディストリビューション内での最大将来のリターンを予測することを目的としている。 推論中、この分布内最大戻り値は最適なアクションの選択を導く。 実証的には、ReinformerはD4RLベンチマークの古典的なRL手法と競合し、特に軌道縫合能力において最先端のシーケンスモデルより優れている。 コードはhttps://github.com/Dragon-Zhuang/Reinformer.comで公開されている。

As a data-driven paradigm, offline reinforcement learning (RL) has been formulated as sequence modeling that conditions on the hindsight information including returns, goal or future trajectory. Although promising, this supervised paradigm overlooks the core objective of RL that maximizes the return. This overlook directly leads to the lack of trajectory stitching capability that affects the sequence model learning from sub-optimal data. In this work, we introduce the concept of max-return sequence modeling which integrates the goal of maximizing returns into existing sequence models. We propose Reinforced Transformer (Reinformer), indicating the sequence model is reinforced by the RL objective. Reinformer additionally incorporates the objective of maximizing returns in the training phase, aiming to predict the maximum future return within the distribution. During inference, this in-distribution maximum return will guide the selection of optimal actions. Empirically, Reinformer is competitive with classical RL methods on the D4RL benchmark and outperforms state-of-the-art sequence model particularly in trajectory stitching ability. Code is public at https://github.com/Dragon-Zhuang/Reinformer.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-02
# ODFormer:視神経頭部検出のための Transformer を用いた意味的基底画像分割

ODFormer: Semantic Fundus Image Segmentation Using Transformer for Optic Nerve Head Detection ( http://arxiv.org/abs/2405.09552v2 )

ライセンス: Link先を確認
Jiayi Wang, Yi-An Mao, Xiaoyu Ma, Sicen Guo, Yuting Shao, Xiao Lv, Wenting Han, Mark Christopher, Linda M. Zangwill, Yanlong Bi, Rui Fan, (参考訳) 眼科領域における視神経頭(ONH)検出は,長年にわたり重要な研究領域である。 しかし,1種類の眼底カメラを用いて生成した眼底画像データセット間の大きな差は,意味的セグメンテーションネットワークに基づいて開発されたONH検出手法の一般化に困難をもたらす。 畳み込みニューラルネットワーク(CNN)とトランスフォーマーを用いた汎用セマンティックセグメンテーション手法の進歩にもかかわらず、現在、ONH検出のために特別に訓練されたこれらの最先端(SoTA)ネットワークのベンチマークが不足している。 そこで本稿では,ネットワーク設計,データセットの公開,包括的なベンチマークの確立という,3つの重要な側面からコントリビューションを行う。 新しく開発されたONH検出ネットワークはODFormerと呼ばれ、Swin Transformerアーキテクチャに基づいており、マルチスケールコンテキストアグリゲータと軽量な双方向機能リキャリブレータという2つの新しいコンポーネントを組み込んでいる。 われわれは、TongjiU-DRODと呼ばれる大規模なデータセットを公開し、2種類のカメラで撮影した、参加者ごとに多解像度のファンドイメージを提供する。 確立されたベンチマークでは,各国の研究者が作成したDRIONS-DB,DRISHTI-GS1,TongjiU-DRODの3つのデータセットを収録した。 提案するODFormerは,性能および一般化性の観点から,他のSoTAネットワークよりも優れた性能を示した。 私たちのデータセットとソースコードは、mias.group/ODFormerで公開されています。

Optic nerve head (ONH) detection has been a crucial area of study in ophthalmology for years. However, the significant discrepancy between fundus image datasets, each generated using a single type of fundus camera, poses challenges to the generalizability of ONH detection approaches developed based on semantic segmentation networks. Despite the numerous recent advancements in general-purpose semantic segmentation methods using convolutional neural networks (CNNs) and Transformers, there is currently a lack of benchmarks for these state-of-the-art (SoTA) networks specifically trained for ONH detection. Therefore, in this article, we make contributions from three key aspects: network design, the publication of a dataset, and the establishment of a comprehensive benchmark. Our newly developed ONH detection network, referred to as ODFormer, is based upon the Swin Transformer architecture and incorporates two novel components: a multi-scale context aggregator and a lightweight bidirectional feature recalibrator. Our published large-scale dataset, known as TongjiU-DROD, provides multi-resolution fundus images for each participant, captured using two distinct types of cameras. Our established benchmark involves three datasets: DRIONS-DB, DRISHTI-GS1, and TongjiU-DROD, created by researchers from different countries and containing fundus images captured from participants of diverse races and ages. Extensive experimental results demonstrate that our proposed ODFormer outperforms other state-of-the-art (SoTA) networks in terms of performance and generalizability. Our dataset and source code are publicly available at mias.group/ODFormer.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-02
# IBD-PSC:パラメータ指向スケーリング一貫性による入力レベルのバックドア検出

IBD-PSC: Input-level Backdoor Detection via Parameter-oriented Scaling Consistency ( http://arxiv.org/abs/2405.09786v3 )

ライセンス: Link先を確認
Linshan Hou, Ruili Feng, Zhongyun Hua, Wei Luo, Leo Yu Zhang, Yiming Li, (参考訳) ディープニューラルネットワーク(DNN)はバックドア攻撃に対して脆弱であり、モデルトレーニング中に隠れたバックドアを埋め込むことで、敵が悪意を持ってモデルミス分類をトリガーすることができる。 本稿では,悪質なテスト画像のフィルタリングを行うため,単純な入力レベルのバックドア検出(IBD-PSCと呼ばれる)を「ファイアウォール」として提案する。 本手法は, モデルパラメータを増幅する際, 有毒試料の予測信頼度が良性試料の予測値と著しく一致している, パラメータ指向スケーリング一貫性(PSC)という興味深い現象によって動機付けられている。 特に,PSC現象の基礎を守るために理論的解析を行う。 また, BN層を選択する適応的手法を設計し, 有効検出のためにスケールアップする。 IBD-PSC法の有効性と,適応攻撃に対する耐性を検証した。 コードは \href{https://github.com/THUYimingLi/BackdoorBox}{BackdoorBox} で公開されている。

Deep neural networks (DNNs) are vulnerable to backdoor attacks, where adversaries can maliciously trigger model misclassifications by implanting a hidden backdoor during model training. This paper proposes a simple yet effective input-level backdoor detection (dubbed IBD-PSC) as a `firewall' to filter out malicious testing images. Our method is motivated by an intriguing phenomenon, i.e., parameter-oriented scaling consistency (PSC), where the prediction confidences of poisoned samples are significantly more consistent than those of benign ones when amplifying model parameters. In particular, we provide theoretical analysis to safeguard the foundations of the PSC phenomenon. We also design an adaptive method to select BN layers to scale up for effective detection. Extensive experiments are conducted on benchmark datasets, verifying the effectiveness and efficiency of our IBD-PSC method and its resistance to adaptive attacks. Codes are available at \href{https://github.com/THUYimingLi/BackdoorBox}{BackdoorBox}.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-02
# 時間的ファクト抽出のためのインコンテキスト学習を用いたタイムラインに基づく文分割

Timeline-based Sentence Decomposition with In-Context Learning for Temporal Fact Extraction ( http://arxiv.org/abs/2405.10288v2 )

ライセンス: Link先を確認
Jianhao Chen, Haoyuan Ouyang, Junyang Ren, Wentao Ding, Wei Hu, Yuzhong Qu, (参考訳) ファクト抽出は知識グラフを構築する上で重要である。 近年,下流タスクにおける時間的事実の需要が増加し,時間的事実抽出のタスクが出現している。 本稿では,自然言語テキストから時間的事実を抽出する方法について述べる。 従来の研究は、複雑な文に時間と成果の対応を確立するという課題に対処できなかった。 このハードルを克服するために,大規模言語モデル(LLM)とテキスト内学習を用いたタイムラインに基づく文分解手法を提案する。 さらに, 直接的事実抽出のためのLCMの性能評価を行い, 不満足な結果を得た。 そこで本研究では,LLMの分解機能を,より小さな事前学習言語モデル(PLM)の従来の微調整に組み込む手法であるTLDREを紹介する。 評価を支援するために,複雑な時間的事実抽出データセットであるcomplexTREDを構築した。 実験の結果, TSDRE は HyperRED-Temporal データセットと ComplexTRED データセットの両方で最先端の結果が得られることがわかった。

Facts extraction is pivotal for constructing knowledge graphs. Recently, the increasing demand for temporal facts in downstream tasks has led to the emergence of the task of temporal fact extraction. In this paper, we specifically address the extraction of temporal facts from natural language text. Previous studies fail to handle the challenge of establishing time-to-fact correspondences in complex sentences. To overcome this hurdle, we propose a timeline-based sentence decomposition strategy using large language models (LLMs) with in-context learning, ensuring a fine-grained understanding of the timeline associated with various facts. In addition, we evaluate the performance of LLMs for direct temporal fact extraction and get unsatisfactory results. To this end, we introduce TSDRE, a method that incorporates the decomposition capabilities of LLMs into the traditional fine-tuning of smaller pre-trained language models (PLMs). To support the evaluation, we construct ComplexTRED, a complex temporal fact extraction dataset. Our experiments show that TSDRE achieves state-of-the-art results on both HyperRED-Temporal and ComplexTRED datasets.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-02
# VQDNA:多種ゲノム配列モデリングのためのベクトル量子化のパワーを開放する

VQDNA: Unleashing the Power of Vector Quantization for Multi-Species Genomic Sequence Modeling ( http://arxiv.org/abs/2405.10812v2 )

ライセンス: Link先を確認
Siyuan Li, Zedong Wang, Zicheng Liu, Di Wu, Cheng Tan, Jiangbin Zheng, Yufei Huang, Stan Z. Li, (参考訳) 自然言語モデルと同様に、教師なし配列モデリングによってゲノム内の根底にある複雑さを捉えるために、事前訓練されたゲノム言語モデルが提案されている。 生物学の研究者や実践者にとって欠かせない道具となっている。 しかし、これらのモデルで使用される手作りのトークン化ポリシーは、ゲノムデータの限られた語彙から最も差別的なパターンを符号化するものではない。 本稿では,ゲノムボキャブラリ学習の観点から,ゲノムのトークン化を改良する汎用フレームワークであるVQDNAを紹介する。 ベクトル量子化されたコードブックを学習可能な語彙として活用することにより、VQDNAはゲノムをパターン認識の埋め込みにエンドツーエンドで適応的にトークン化することができる。 その限界をさらに推し進めるために、階層的残留量子化(HRQ)を提案する。 32のゲノムデータセットに対する大規模な実験は、既存のゲノム言語モデルと比較してVQDNAの優位性と好ましいパラメータ効率を示す。 特に、SARS-CoV-2変異の実験的解析は、学習されたHRQ語彙の微細なパターン認識と生物学的意義を明らかにし、ゲノム学の幅広い応用の可能性を強調している。

Similar to natural language models, pre-trained genome language models are proposed to capture the underlying intricacies within genomes with unsupervised sequence modeling. They have become essential tools for researchers and practitioners in biology. However, the hand-crafted tokenization policies used in these models may not encode the most discriminative patterns from the limited vocabulary of genomic data. In this paper, we introduce VQDNA, a general-purpose framework that renovates genome tokenization from the perspective of genome vocabulary learning. By leveraging vector-quantized codebooks as learnable vocabulary, VQDNA can adaptively tokenize genomes into pattern-aware embeddings in an end-to-end manner. To further push its limits, we propose Hierarchical Residual Quantization (HRQ), where varying scales of codebooks are designed in a hierarchy to enrich the genome vocabulary in a coarse-to-fine manner. Extensive experiments on 32 genome datasets demonstrate VQDNA's superiority and favorable parameter efficiency compared to existing genome language models. Notably, empirical analysis of SARS-CoV-2 mutations reveals the fine-grained pattern awareness and biological significance of learned HRQ vocabulary, highlighting its untapped potential for broader applications in genomics.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-02
# 被覆検証設計によるFew-Pixelロバスト性検証の高速化

Boosting Few-Pixel Robustness Verification via Covering Verification Designs ( http://arxiv.org/abs/2405.10924v2 )

ライセンス: Link先を確認
Yuval Shapira, Naor Wiesel, Shahar Shabelman, Dana Drachsler-Cohen, (参考訳) ニューラルネットワークの信頼性を高めるためには、局所的な堅牢性を証明することが不可欠である。 多くの検証者は$L_\infty$$\epsilon$-ballsでロバスト性を証明するが、$L_0$$\epsilon$-ballsでロバスト性を検証する作業はほとんど行わず、少数のピクセル攻撃に対してロバスト性を取得する。 この検証は、摂動に対するピクセルの空間が離散的で指数的な大きさであるため、組合せ的挑戦をもたらす。 以前の研究は、$L_\infty$近傍を定義するための集合を特定するために設計をカバーすることに依存しており、もし証明されたロバストであれば、$L_0$$\epsilon$-ballがロバストであることを暗示している。 しかし、検証対象の地区数は依然として非常に多く、分析時間も高い。 有効だが解析非互換な被覆を$L_0$ロバスト性検証に適合させる組合せ設計の検証設計を提案する。 問題となるのは、包括的検証設計の計算には高時間とメモリオーバーヘッドが伴うことだ。 提案するCoVerDは,ブロックサイズ分布を予測せずに,異なる候補被覆を選択する,$L_0$のロバスト性検証器である。 この予想は、この分布の平均と分散に対する閉形式表現を提供する定理に依存する。 CoVerDは、メモリ消費を最小限に抑え、分析を並列化しながら、選択したカバレッジ検証設計をオンザフライで構築する。 実験の結果、CoVerDは以前の作業と比べて平均5.1倍の検証時間を短縮し、より大きな$L_0$$\epsilon$-ballsにスケールすることがわかった。

Proving local robustness is crucial to increase the reliability of neural networks. While many verifiers prove robustness in $L_\infty$ $\epsilon$-balls, very little work deals with robustness verification in $L_0$ $\epsilon$-balls, capturing robustness to few pixel attacks. This verification introduces a combinatorial challenge, because the space of pixels to perturb is discrete and of exponential size. A previous work relies on covering designs to identify sets for defining $L_\infty$ neighborhoods, which if proven robust imply that the $L_0$ $\epsilon$-ball is robust. However, the number of neighborhoods to verify remains very high, leading to a high analysis time. We propose covering verification designs, a combinatorial design that tailors effective but analysis-incompatible coverings to $L_0$ robustness verification. The challenge is that computing a covering verification design introduces a high time and memory overhead, which is intensified in our setting, where multiple candidate coverings are required to identify how to reduce the overall analysis time. We introduce CoVerD, an $L_0$ robustness verifier that selects between different candidate coverings without constructing them, but by predicting their block size distribution. This prediction relies on a theorem providing closed-form expressions for the mean and variance of this distribution. CoVerD constructs the chosen covering verification design on-the-fly, while keeping the memory consumption minimal and enabling to parallelize the analysis. The experimental results show that CoVerD reduces the verification time on average by up to 5.1x compared to prior work and that it scales to larger $L_0$ $\epsilon$-balls.
翻訳日:2024-06-04 14:39:00 公開日:2024-06-02
# 暗号価格予測のためのディープラーニングモデルの実装と評価

Review of deep learning models for crypto price prediction: implementation and evaluation ( http://arxiv.org/abs/2405.11431v2 )

ライセンス: Link先を確認
Jingyang Wu, Xinyi Zhang, Fangyixuan Huang, Haochen Zhou, Rohtiash Chandra, (参考訳) 投資家や研究者による正確な暗号通貨価格予測モデルには、多くの関心が寄せられている。 ディープラーニングモデル(Deep Learning model)は、さまざまな分野を変革し、金融と経済学の可能性を示してきた、卓越した機械学習技術である。 暗号通貨価格の予測には様々なディープラーニングモデルが研究されているが、高い市場のボラティリティのためにどのモデルが適切かは明らかではない。 本研究では,暗号通貨価格予測のためのディープラーニングに関する文献をレビューし,暗号通貨価格予測のための新しいディープラーニングモデルを評価する。 我々のディープラーニングモデルには、長い短期記憶(LSTM)リカレントニューラルネットワークの変種、畳み込みニューラルネットワーク(CNN)の変種、トランスフォーマーモデルが含まれています。 暗号通貨の近接価格予測のための多段階事前予測のための一変量および多変量アプローチの評価を行う。 また、新型コロナウイルスのパンデミックを通じて価格の大幅な変動を示す4つの暗号通貨のボラティリティ分析を実施している。 さらに,モデルの異なるトレーニングセットによって識別される2つのシナリオの予測精度について検討した。 まず、COVID-19以前のデータセットを使用して、COVID-19の初期段階における暗号通貨のクローズプライス予測をモデル化します。 次に、2023年から2024年までの価格を予測するために、新型コロナウイルス時代のデータを活用します。 以上の結果から,多変量アプローチによる畳み込みLSTMは,2つの主要な実験環境において最高の予測精度が得られることがわかった。 また,多変量深層学習モデルでは,単変量モデルと比較して,4つの異なる暗号を予測した場合の性能が向上することが示唆された。

There has been much interest in accurate cryptocurrency price forecast models by investors and researchers. Deep Learning models are prominent machine learning techniques that have transformed various fields and have shown potential for finance and economics. Although various deep learning models have been explored for cryptocurrency price forecasting, it is not clear which models are suitable due to high market volatility. In this study, we review the literature about deep learning for cryptocurrency price forecasting and evaluate novel deep learning models for cryptocurrency stock price prediction. Our deep learning models include variants of long short-term memory (LSTM) recurrent neural networks, variants of convolutional neural networks (CNNs), and the Transformer model. We evaluate univariate and multivariate approaches for multi-step ahead predicting of cryptocurrencies close-price. We also carry out volatility analysis on the four cryptocurrencies which reveals significant fluctuations in their prices throughout the COVID-19 pandemic. Additionally, we investigate the prediction accuracy of two scenarios identified by different training sets for the models. First, we use the pre-COVID-19 datasets to model cryptocurrency close-price forecasting during the early period of COVID-19. Secondly, we utilise data from the COVID-19 period to predict prices for 2023 to 2024. Our results show that the convolutional LSTM with a multivariate approach provides the best prediction accuracy in two major experimental settings. Our results also indicate that the multivariate deep learning models exhibit better performance in forecasting four different cryptocurrencies when compared to the univariate models.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-02
# ディジタル加速器を用いたスパイキングリカレントニューラルネットワークによる適応型ロボットアーム制御

Adaptive Robotic Arm Control with a Spiking Recurrent Neural Network on a Digital Accelerator ( http://arxiv.org/abs/2405.12849v2 )

ライセンス: Link先を確認
Alejandro Linares-Barranco, Luciano Prono, Robert Lengenstein, Giacomo Indiveri, Charlotte Frenkel, (参考訳) 人工知能の台頭に伴い、リソース制約されたタスクシナリオにおける学習と推論のフットプリントを減らすために、生物学的ニューロンモデルのニューラルネットワークシミュレーションが研究されている。 このようなネットワークの主流は、いくつかのハードウェアアクセラレータが出現した、単純化されたIntegrateとFireモデルに基づくニューラルネットワーク(SNN)をスパイクしている。 その中でも、ReckOnチップは、視覚、オーディション、ナビゲーションのためにデモされた任意の感覚のモダリティに基づいたタスクのオンライントレーニングと実行を可能にする、反復SNNとして導入された。 完全ディジタルかつオープンソースなチップとして、我々は、チップシステム(MPSoC)上のXilinx Multiprocessor SystemにReckOnを実装し、組み込みシステムへのデプロイを容易にし、セットアップの柔軟性を高めました。 本稿では,システムの概要と,Pynq ZUプラットフォーム上で使用するPythonフレームワークについて述べる。 ロボットアーム制御の新しいシナリオにおけるアーキテクチャと実装を検証し、シミュレーションされた精度を1秒あたり380万イベントのピーク性能で保持する方法を示す。

With the rise of artificial intelligence, neural network simulations of biological neuron models are being explored to reduce the footprint of learning and inference in resource-constrained task scenarios. A mainstream type of such networks are spiking neural networks (SNNs) based on simplified Integrate and Fire models for which several hardware accelerators have emerged. Among them, the ReckOn chip was introduced as a recurrent SNN allowing for both online training and execution of tasks based on arbitrary sensory modalities, demonstrated for vision, audition, and navigation. As a fully digital and open-source chip, we adapted ReckOn to be implemented on a Xilinx Multiprocessor System on Chip system (MPSoC), facilitating its deployment in embedded systems and increasing the setup flexibility. We present an overview of the system, and a Python framework to use it on a Pynq ZU platform. We validate the architecture and implementation in the new scenario of robotic arm control, and show how the simulated accuracy is preserved with a peak performance of 3.8M events processed per second.
翻訳日:2024-06-04 14:29:15 公開日:2024-06-02
# Skin-in-the-Game: LLMにおけるマルチステークホルダアライメントによる意思決定

Skin-in-the-Game: Decision Making via Multi-Stakeholder Alignment in LLMs ( http://arxiv.org/abs/2405.12933v2 )

ライセンス: Link先を確認
Bilgehan Sel, Priya Shanmugasundaram, Mohammad Kachuee, Kun Zhou, Ruoxi Jia, Ming Jin, (参考訳) 大規模言語モデル(LLM)は、要約、算術的推論、質問応答といったタスクにおいて顕著な能力を示している。 しかし、道徳的推論と倫理的意思決定の領域において、特に複数の利害関係者との複雑なシナリオにおいて、大きな課題に直面している。 本稿では,複数の利害関係者の視点から意思決定の結果を探索することにより,LLMにおける道徳的推論を強化することを目的としたSkin-in-the-Game(SKIG)フレームワークを紹介する。 SKIGのメカニズムの中心は、共感のエクササイズやリスクアセスメントとともに、行動の説明責任をシミュレートすることである。 我々は,SKIGの性能を,プロプライエタリかつオープンソース LLM を用いた様々な道徳的推論ベンチマークで検証し,その重要なコンポーネントを広範囲なアブレーション分析により検討する。

Large Language Models (LLMs) have shown remarkable capabilities in tasks such as summarization, arithmetic reasoning, and question answering. However, they encounter significant challenges in the domain of moral reasoning and ethical decision-making, especially in complex scenarios with multiple stakeholders. This paper introduces the Skin-in-the-Game (SKIG) framework, aimed at enhancing moral reasoning in LLMs by exploring decisions' consequences from multiple stakeholder perspectives. Central to SKIG's mechanism is simulating accountability for actions, which, alongside empathy exercises and risk assessment, is pivotal to its effectiveness. We validate SKIG's performance across various moral reasoning benchmarks with proprietary and opensource LLMs, and investigate its crucial components through extensive ablation analyses.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-02
# 農業・生物応用のための深層学習を用いたハイパースペクトル画像再構成の比較解析

Comparative Analysis of Hyperspectral Image Reconstruction Using Deep Learning for Agricultural and Biological Applications ( http://arxiv.org/abs/2405.13331v2 )

ライセンス: Link先を確認
Md. Toukir Ahmed, Arthur Villordon, Mohammed Kamruzzaman, (参考訳) ハイパースペクトルイメージング(HSI)は、様々な分野で非侵襲的な品質評価の鍵となる技術となり、空間的およびスペクトル的データを通じて詳細な洞察を提供する。 有効性にもかかわらず、HSIシステムの複雑さと高いコストは、広く採用されるのを妨げている。 本研究は,RGB(赤,緑,青)画像からの深層学習に基づくハイパースペクトル画像再構成,特に農産物の探索により,これらの課題に対処した。 具体的には,高スペクトル畳み込みニューラルネットワーク-Dense (HSCNN-D), High-Resolution Network (HRNET), Multi-Scale Transformer Plus (MST++) などの様々なハイパースペクトル再構成アルゴリズムを比較し,サツマイモの乾物含量評価を行った。 HRNETは高い性能を示し,0.07の平均絶対誤差(MRAE),0.03の平均二乗誤差(RMSE),32.28デシベル(dB)のピーク信号-雑音比(PSNR)を達成した。 遺伝的アルゴリズム(GA)を用いていくつかの重要な特徴が選択され、その重要性は説明可能な人工知能(XAI)を用いて解釈された。 部分最小二乗回帰(PLSR)モデルは、RGB、再構成、地上真実(GT)データを用いて開発された。 これらの再構成手法の視覚的, スペクトル的品質をGTデータと比較し, 予測マップを作成した。 その結果, 農業・生物応用のための費用対効果・効率の高い品質評価ツールとして, 深層学習に基づくハイパースペクトル画像再構成が期待できることが明らかになった。

Hyperspectral imaging (HSI) has become a key technology for non-invasive quality evaluation in various fields, offering detailed insights through spatial and spectral data. Despite its efficacy, the complexity and high cost of HSI systems have hindered their widespread adoption. This study addressed these challenges by exploring deep learning-based hyperspectral image reconstruction from RGB (Red, Green, Blue) images, particularly for agricultural products. Specifically, different hyperspectral reconstruction algorithms, such as Hyperspectral Convolutional Neural Network - Dense (HSCNN-D), High-Resolution Network (HRNET), and Multi-Scale Transformer Plus Plus (MST++), were compared to assess the dry matter content of sweet potatoes. Among the tested reconstruction methods, HRNET demonstrated superior performance, achieving the lowest mean relative absolute error (MRAE) of 0.07, root mean square error (RMSE) of 0.03, and the highest peak signal-to-noise ratio (PSNR) of 32.28 decibels (dB). Some key features were selected using the genetic algorithm (GA), and their importance was interpreted using explainable artificial intelligence (XAI). Partial least squares regression (PLSR) models were developed using the RGB, reconstructed, and ground truth (GT) data. The visual and spectra quality of these reconstructed methods was compared with GT data, and predicted maps were generated. The results revealed the prospect of deep learning-based hyperspectral image reconstruction as a cost-effective and efficient quality assessment tool for agricultural and biological applications.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-02
# DeepNcode: ニューラルネットワーク上のビットフリップ攻撃に対する符号化ベースの保護

DeepNcode: Encoding-Based Protection against Bit-Flip Attacks on Neural Networks ( http://arxiv.org/abs/2405.13891v2 )

ライセンス: Link先を確認
Patrik Velčický, Jakub Breier, Mladen Kovačević, Xiaolu Hou, (参考訳) フォールトインジェクション攻撃は、ニューラルネットワークモデルの組み込み実装に対する強力な脅威である。 誤分類、モデル抽出、トロイジャン/バックドア植え付けなど、いくつかの攻撃ベクトルが提案されている。 これらの攻撃のほとんどは、量子化されたモデルパラメータが格納されているメモリ内のビットを反転させることで実行される。 本稿では,DeepNcodeという名のニューラルネットワークに対するビットフリップ攻撃に対する符号化に基づく保護手法を提案する。 我々は、BFA、T-BFA、TA-LBFといった最先端のビットフリップ攻撃を用いて、いくつかの公開モデルとデータセットを用いて提案提案を実験的に評価した。 この結果、保護マージンが最大で$4-$bitが$7.6\times、$2.4\timesが$8-$bitの量子化ネットワークで$12.4\timesになることが示された。 メモリオーバーヘッドは、オリジナルのネットワークサイズの50\%$から始まり、時間オーバーヘッドは無視される。 さらに、DeepNcodeは再トレーニングを必要とせず、モデルのオリジナルの精度も変更しない。

Fault injection attacks are a potent threat against embedded implementations of neural network models. Several attack vectors have been proposed, such as misclassification, model extraction, and trojan/backdoor planting. Most of these attacks work by flipping bits in the memory where quantized model parameters are stored. In this paper, we introduce an encoding-based protection method against bit-flip attacks on neural networks, titled DeepNcode. We experimentally evaluate our proposal with several publicly available models and datasets, by using state-of-the-art bit-flip attacks: BFA, T-BFA, and TA-LBF. Our results show an increase in protection margin of up to $7.6\times$ for $4-$bit and $12.4\times$ for $8-$bit quantized networks. Memory overheads start at $50\%$ of the original network size, while the time overheads are negligible. Moreover, DeepNcode does not require retraining and does not change the original accuracy of the model.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-02
# ステップ・バイ・ステップ:マルチモーダルテキスト認識のためのLLMを用いた生成核融合復号アルゴリズム

Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Multi-modal Text Recognition ( http://arxiv.org/abs/2405.14259v3 )

ライセンス: Link先を確認
Chan-Jan Hsu, Yi-Chang Chen, Feng-Ting Liao, Pei-Chen Ho, Yu-Hsiang Wang, Po-Chun Hsu, Da-shan Shiu, (参考訳) 本稿では,大規模言語モデル(LLM)を自動音声認識(ASR)や光学文字認識(OCR)といったマルチモーダルテキスト認識システムに統合するために利用する,新しい浅層融合フレームワークであるGFDを紹介する。 我々は,テキストトークン空間をバイトトークン空間にマッピングすることで,GFDが異なるモデルのミスマッチトークン空間をまたいで動作できるようにするために必要な公式を導出し,復号処理中にシームレスな融合を可能にする。 このフレームワークはプラグイン・アンド・プレイであり、様々な自動回帰モデルと互換性があり、機能アライメントのための再トレーニングを必要としないため、従来の融合技術の限界を克服している。 まず、異なるモデルサンプル空間の整合の複雑さを単純化することにより、GFDはLLMが認識モデルと直交するエラーを補正し、計算遅延を低減する。 第2に、LLMの文脈内学習能力はGFDによって完全に強化され、長文音声認識および命令対応音声認識における頑健性が向上する。 第三に、GFDは中国語で広く訓練されたLLMを用いて、中国語のテキスト認識において不十分なファジング認識モデルを可能にする。 評価の結果,GFD は ASR および OCR タスクの性能を著しく向上し,NTUML2021 ベンチマークでは ASR が最先端に到達した。 GFDは、ステップバイステップフュージョンを通じて既存のトレーニング済みモデルの活用に広く適用可能な統一されたソリューションを提供する。

We introduce "Generative Fusion Decoding" (GFD), a novel shallow fusion framework, utilized to integrate Large Language Models (LLMs) into multi-modal text recognition systems such as automatic speech recognition (ASR) and optical character recognition (OCR). We derive the formulas necessary to enable GFD to operate across mismatched token spaces of different models by mapping text token space to byte token space, enabling seamless fusion during the decoding process. The framework is plug-and-play, compatible with various auto-regressive models, and does not require re-training for feature alignment, thus overcoming limitations of previous fusion techniques. We highlight three main advantages of GFD: First, by simplifying the complexity of aligning different model sample spaces, GFD allows LLMs to correct errors in tandem with the recognition model, reducing computation latencies. Second, the in-context learning ability of LLMs is fully capitalized by GFD, increasing robustness in long-form speech recognition and instruction aware speech recognition. Third, GFD enables fusing recognition models deficient in Chinese text recognition with LLMs extensively trained on Chinese. Our evaluation demonstrates that GFD significantly improves performance in ASR and OCR tasks, with ASR reaching state-of-the-art in the NTUML2021 benchmark. GFD provides a significant step forward in model integration, offering a unified solution that could be widely applicable to leveraging existing pre-trained models through step by step fusion.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-02
# エントロピーレギュレータを用いた拡散アクタ臨界

Diffusion Actor-Critic with Entropy Regulator ( http://arxiv.org/abs/2405.15177v2 )

ライセンス: Link先を確認
Yinuo Wang, Likun Wang, Yuxuan Jiang, Wenjun Zou, Tong Liu, Xujie Song, Wenxuan Wang, Liming Xiao, Jiang Wu, Jingliang Duan, Shengbo Eben Li, (参考訳) 強化学習(Reinforcement Learning, RL)は、複雑な意思決定や制御タスクに対処する上で非常に効果的であることが証明されている。 しかしながら、ほとんどの伝統的なRLアルゴリズムでは、このポリシーは一般的に、学習平均と分散を持つ対角的なガウス分布としてパラメータ化され、複雑なポリシーを取得する能力を制限する。 この問題に対して,エントロピー・レギュレータ(DACER)を用いた拡散アクタ・クリティックというオンラインRLアルゴリズムを提案する。 このアルゴリズムは、拡散モデルの逆過程を新しいポリシー関数として概念化し、拡散モデルの能力を多モード分布に適合させ、ポリシーの表現能力を高める。 拡散政策の分布は解析的な表現を欠いているため、そのエントロピーは解析的に決定できない。 これを軽減するために,ガウス混合モデルを用いて拡散政策のエントロピーを推定する手法を提案する。 推定エントロピーに基づいて、探索と搾取の程度を調節するパラメータ $\alpha$ を学ぶことができる。 パラメータ$\alpha$は、拡散モデルによって出力されるアクションに適用される付加ノイズの分散を適応的に調節するために使用される。 MuJoCo ベンチマークとマルチモーダルタスクの実験実験により,DACER アルゴリズムがほとんどの MuJoCo 制御タスクにおける最先端 (SOTA) 性能を実現し,拡散ポリシの表現能力が向上することを示した。

Reinforcement learning (RL) has proven highly effective in addressing complex decision-making and control tasks. However, in most traditional RL algorithms, the policy is typically parameterized as a diagonal Gaussian distribution with learned mean and variance, which constrains their capability to acquire complex policies. In response to this problem, we propose an online RL algorithm termed diffusion actor-critic with entropy regulator (DACER). This algorithm conceptualizes the reverse process of the diffusion model as a novel policy function and leverages the capability of the diffusion model to fit multimodal distributions, thereby enhancing the representational capacity of the policy. Since the distribution of the diffusion policy lacks an analytical expression, its entropy cannot be determined analytically. To mitigate this, we propose a method to estimate the entropy of the diffusion policy utilizing Gaussian mixture model. Building on the estimated entropy, we can learn a parameter $\alpha$ that modulates the degree of exploration and exploitation. Parameter $\alpha$ will be employed to adaptively regulate the variance of the added noise, which is applied to the action output by the diffusion model. Experimental trials on MuJoCo benchmarks and a multimodal task demonstrate that the DACER algorithm achieves state-of-the-art (SOTA) performance in most MuJoCo control tasks while exhibiting a stronger representational capacity of the diffusion policy.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-02
# iVideoGPT:インタラクティブビデオGPTはスケーラブルな世界モデル

iVideoGPT: Interactive VideoGPTs are Scalable World Models ( http://arxiv.org/abs/2405.15223v2 )

ライセンス: Link先を確認
Jialong Wu, Shaofeng Yin, Ningya Feng, Xu He, Dong Li, Jianye Hao, Mingsheng Long, (参考訳) 世界モデルは、現実の意思決定のために想像された環境の中で、モデルベースのエージェントを対話的に探索し、推論し、計画することを可能にする。 しかし、対話性に対する高い需要は、大規模に世界モデルを開発するためのビデオ生成モデルの最近の進歩を活用する上での課題となっている。 この研究は、対話型ビデオGPT(iVideoGPT)を導入し、マルチモーダル信号(視覚的観察、アクション、報酬)を統合するスケーラブルな自動回帰変換フレームワークである。 iVideoGPTは、高次元の視覚的観察を効率的に識別する新しい圧縮トークン化技術を備えている。 スケーラブルなアーキテクチャを活用することで、何百万もの人間やロボットによる操作の軌道上でiVideoGPTを事前訓練することが可能になります。 アクション条件付きビデオ予測、ビジュアルプランニング、モデルに基づく強化学習などが含まれており、iVideoGPTは最先端の手法と比較して競争性能が向上している。 我々の研究は、インタラクティブな汎用世界モデルの開発を進め、生成ビデオモデルと実践的なモデルベース強化学習アプリケーションとのギャップを埋める。

World models empower model-based agents to interactively explore, reason, and plan within imagined environments for real-world decision-making. However, the high demand for interactivity poses challenges in harnessing recent advancements in video generative models for developing world models at scale. This work introduces Interactive VideoGPT (iVideoGPT), a scalable autoregressive transformer framework that integrates multimodal signals--visual observations, actions, and rewards--into a sequence of tokens, facilitating an interactive experience of agents via next-token prediction. iVideoGPT features a novel compressive tokenization technique that efficiently discretizes high-dimensional visual observations. Leveraging its scalable architecture, we are able to pre-train iVideoGPT on millions of human and robotic manipulation trajectories, establishing a versatile foundation that is adaptable to serve as interactive world models for a wide range of downstream tasks. These include action-conditioned video prediction, visual planning, and model-based reinforcement learning, where iVideoGPT achieves competitive performance compared with state-of-the-art methods. Our work advances the development of interactive general world models, bridging the gap between generative video models and practical model-based reinforcement learning applications.
翻訳日:2024-06-04 14:19:22 公開日:2024-06-02
# 適応型ボトルネックとデュアル逆数デコーダを用いた一般時系列異常検出器の実現に向けて

Towards a General Time Series Anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders ( http://arxiv.org/abs/2405.15273v2 )

ライセンス: Link先を確認
Qichao Shentu, Beibu Li, Kai Zhao, Yang Shu, Zhongwen Rao, Lujia Pan, Bin Yang, Chenjuan Guo, (参考訳) 時系列異常検出は幅広い応用において重要な役割を果たす。 既存の手法では、データセット毎に1つの特定のモデルをトレーニングする必要がある。これは、異なるターゲットデータセットにわたる限定的な一般化能力を示し、訓練データが少ないさまざまなシナリオにおける異常検出のパフォーマンスを妨げる。 そこで本研究では,大規模なマルチドメインデータセット上で事前学習された時系列異常検出モデルの構築を提案し,その後,多数のダウンストリームシナリオに適用できることを示す。 1つの統合されたモデルにおいて、異なるデータセットに合わせた適切な情報ボトルネックの多様な要件を満たすこと、2つの正常パターンと異常パターンの区別を可能にすることが、それぞれのシナリオにおいて効果的な異常検出に不可欠である。 これら2つの課題に対処するために,適応型ボトルネックとデュアル逆数デコーダ(DADA)を用いた一般時系列異常検出器を提案する。 我々は、異なるドメインから9つのターゲットデータセットを広範囲に実験する。 マルチドメインデータに対する事前トレーニングの後、これらのデータセットのゼロショット異常検出として機能するDADは、特定のデータセットに合わせて調整されたモデルと比較して、競争力や優れた結果が得られる。

Time series anomaly detection plays a vital role in a wide range of applications. Existing methods require training one specific model for each dataset, which exhibits limited generalization capability across different target datasets, hindering anomaly detection performance in various scenarios with scarce training data. Aiming at this problem, we propose constructing a general time series anomaly detection model, which is pre-trained on extensive multi-domain datasets and can subsequently apply to a multitude of downstream scenarios. The significant divergence of time series data across different domains presents two primary challenges in building such a general model: (1) meeting the diverse requirements of appropriate information bottlenecks tailored to different datasets in one unified model, and (2) enabling distinguishment between multiple normal and abnormal patterns, both are crucial for effective anomaly detection in various target scenarios. To tackle these two challenges, we propose a General time series anomaly Detector with Adaptive Bottlenecks and Dual Adversarial Decoders (DADA), which enables flexible selection of bottlenecks based on different data and explicitly enhances clear differentiation between normal and abnormal series. We conduct extensive experiments on nine target datasets from different domains. After pre-training on multi-domain data, DADA, serving as a zero-shot anomaly detector for these datasets, still achieves competitive or even superior results compared to those models tailored to each specific dataset.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-02
# Sp2360: Cascaded 2D Diffusion Priors を用いたSparse-view 360 シーン再構成

Sp2360: Sparse-view 360 Scene Reconstruction using Cascaded 2D Diffusion Priors ( http://arxiv.org/abs/2405.16517v2 )

ライセンス: Link先を確認
Soumava Paul, Christopher Wewer, Bernt Schiele, Jan Eric Lenssen, (参考訳) 我々は,潜伏拡散モデル(LDM)の先行モデルを用いて,360度3次元シーンのスパースビュー再構成に取り組むことを目的とする。 スパースビュー設定は、特にカメラが1点あたり360度回転するシーンでは、中心となる対象に焦点を絞ったフロントビュー以外の視覚情報がないため、不適切で制約の少ない。 本研究では,事前学習した2次元拡散モデルにより,低コストな微調整によるシーンの再現性を強く向上させることができることを示す。 具体的にはSparseSplat360 (Sp2360) について述べる。 トレーニングやレンダリングの速度が優れているため,NeRFに基づく暗示表現よりも3次元ガウスの形で明示的なシーン表現を用いる。 本稿では,初期スパース入力に適合する既存の3次元ガウスモデルを用いて,生成した擬似新奇なビューを融合する反復的更新戦略を提案する。 その結果、観察された入力に忠実な細部を持つ多視点一貫したシーン表現が得られる。 課題であるMip-NeRF360データセットに対する評価から,提案した2次元から3次元の蒸留アルゴリズムは,スパースビュー設定に適応した3DGSの正規化バージョンの性能を著しく向上し,既存のスパースビュー再構築手法を360度シーン再構成で性能良くすることを示す。 定性的には,本手法は,9つの入力ビューから全360シーンを生成する。

We aim to tackle sparse-view reconstruction of a 360 3D scene using priors from latent diffusion models (LDM). The sparse-view setting is ill-posed and underconstrained, especially for scenes where the camera rotates 360 degrees around a point, as no visual information is available beyond some frontal views focused on the central object(s) of interest. In this work, we show that pretrained 2D diffusion models can strongly improve the reconstruction of a scene with low-cost fine-tuning. Specifically, we present SparseSplat360 (Sp2360), a method that employs a cascade of in-painting and artifact removal models to fill in missing details and clean novel views. Due to superior training and rendering speeds, we use an explicit scene representation in the form of 3D Gaussians over NeRF-based implicit representations. We propose an iterative update strategy to fuse generated pseudo novel views with existing 3D Gaussians fitted to the initial sparse inputs. As a result, we obtain a multi-view consistent scene representation with details coherent with the observed inputs. Our evaluation on the challenging Mip-NeRF360 dataset shows that our proposed 2D to 3D distillation algorithm considerably improves the performance of a regularized version of 3DGS adapted to a sparse-view setting and outperforms existing sparse-view reconstruction methods in 360 scene reconstruction. Qualitatively, our method generates entire 360 scenes from as few as 9 input views, with a high degree of foreground and background detail.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-02
# モデルレス強化学習のための多状態TDターゲット

Multi-State TD Target for Model-Free Reinforcement Learning ( http://arxiv.org/abs/2405.16522v2 )

ライセンス: Link先を確認
Wuhao Wang, Zhiyong Chen, Lepeng Zhang, (参考訳) 時間差学習(TD learning)は、TDターゲットを用いて状態または状態-作用対の値推定を更新する強化学習の基本的な技術である。 このターゲットは、後続状態の即時報酬と推定値の両方を組み込むことにより、真の価値の見積もりを改善することを表す。 伝統的に、TD学習は後の1つの状態の価値に依存している。 本稿では、その後の複数の状態の推定値を利用する拡張多状態TD(MSTD)ターゲットを提案する。 この新たなMSTD概念に基づいて,リプレイバッファを2つのモードで管理し,深い決定論的ポリシー最適化(DDPG)とソフトアクタクリティカル(SAC)を統合した,完全なアクタ批判アルゴリズムを開発した。 実験結果から,MSTDを対象とするアルゴリズムは従来の手法に比べて学習性能を著しく向上することが示された。

Temporal difference (TD) learning is a fundamental technique in reinforcement learning that updates value estimates for states or state-action pairs using a TD target. This target represents an improved estimate of the true value by incorporating both immediate rewards and the estimated value of subsequent states. Traditionally, TD learning relies on the value of a single subsequent state. We propose an enhanced multi-state TD (MSTD) target that utilizes the estimated values of multiple subsequent states. Building on this new MSTD concept, we develop complete actor-critic algorithms that include management of replay buffers in two modes, and integrate with deep deterministic policy optimization (DDPG) and soft actor-critic (SAC). Experimental results demonstrate that algorithms employing the MSTD target significantly improve learning performance compared to traditional methods.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-02
# PatchScaler:超解法のための効率的パッチ非依存拡散モデル

PatchScaler: An Efficient Patch-Independent Diffusion Model for Super-Resolution ( http://arxiv.org/abs/2405.17158v2 )

ライセンス: Link先を確認
Yong Liu, Hang Dong, Jinshan Pan, Qingji Dong, Kai Chen, Rongxiang Zhang, Xing Mei, Lean Fu, Fei Wang, (参考訳) 拡散モデルは、その印象的なコンテンツ生成機能により、超解像の品質を著しく向上させる。 提案手法は,画像中のすべての画像パッチが,高解像度画像の再構成に同じサンプリングステップを必要とするという観測結果から,パッチレベルの再構成の困難さに応じて,特徴パッチを異なるグループに分割するパッチ適応型グループサンプリング (PGS) を開発し,各グループに最適な設定を割り当てることにより,より高速に高速化し,より高速なテクスチャ・テクスチャ・テクスチャ・テクスチャ・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション・インジェクション(SR)法を提案する。

Diffusion models significantly improve the quality of super-resolved images with their impressive content generation capabilities. However, the huge computational costs limit the applications of these methods.Recent efforts have explored reasonable inference acceleration to reduce the number of sampling steps, but the computational cost remains high as each step is performed on the entire image.This paper introduces PatchScaler, a patch-independent diffusion-based single image super-resolution (SR) method, designed to enhance the efficiency of the inference process.The proposed method is motivated by the observation that not all the image patches within an image need the same sampling steps for reconstructing high-resolution images.Based on this observation, we thus develop a Patch-adaptive Group Sampling (PGS) to divide feature patches into different groups according to the patch-level reconstruction difficulty and dynamically assign an appropriate sampling configuration for each group so that the inference speed can be better accelerated.In addition, to improve the denoising ability at each step of the sampling, we develop a texture prompt to guide the estimations of the diffusion model by retrieving high-quality texture priors from a patch-independent reference texture memory.Experiments show that our PatchScaler achieves favorable performance in both quantitative and qualitative evaluations with fast inference speed.Our code and model are available at \url{https://github.com/yongliuy/PatchScaler}.
翻訳日:2024-06-04 14:09:37 公開日:2024-06-02
# 状態空間モデルの表現能力:形式言語の視点から

The Expressive Capacity of State Space Models: A Formal Language Perspective ( http://arxiv.org/abs/2405.17394v2 )

ライセンス: Link先を確認
Yash Sarrof, Yana Veitsman, Michael Hahn, (参考訳) 近年,線形状態空間モデル(SSM)に基づくリカレントモデルは言語モデリング(LM)において有望な性能を示した。 しかし、そのようなモデルの本質的な能力についてはほとんど理解されておらず、優れたLMアーキテクチャの探索に有用なガイダンスを提供することができる。 本稿では,変換器や従来のRNNと比較して,そのようなSSMの容量に関する包括的理論的研究を行う。 SSMとトランスフォーマーは重なり合うが、異なる強度を持つ。 スターレス状態追跡では、SSMはトランスフォーマーが正確に表現するのに苦労する問題に対する単純で正確な解決策を実装している。 また、スタックをシミュレートすることなく、最適なメモリで境界階層構造をモデル化することもできる。 一方,現在のSSMでは,表現力を制限する設計選択が可能である。 本稿では,SSM と LM 研究の意義を論じ,最近の SSM である Mamba で実証実験を行った。

Recently, recurrent models based on linear state space models (SSMs) have shown promising performance in language modeling (LM), competititve with transformers. However, there is little understanding of the in-principle abilities of such models, which could provide useful guidance to the search for better LM architectures. We present a comprehensive theoretical study of the capacity of such SSMs as it compares to that of transformers and traditional RNNs. We find that SSMs and transformers have overlapping but distinct strengths. In star-free state tracking, SSMs implement straightforward and exact solutions to problems that transformers struggle to represent exactly. They can also model bounded hierarchical structure with optimal memory even without simulating a stack. On the other hand, we identify a design choice in current SSMs that limits their expressive power. We discuss implications for SSM and LM research, and verify results empirically on a recent SSM, Mamba.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-02
# InversionView:ニューラルアクティベーションから情報を読む汎用的方法

InversionView: A General-Purpose Method for Reading Information from Neural Activations ( http://arxiv.org/abs/2405.17653v2 )

ライセンス: Link先を確認
Xinting Huang, Madhur Panwar, Navin Goyal, Michael Hahn, (参考訳) ニューラルネットワークの内部動作は、ニューラルアクティベーションで符号化された情報を完全に解読できれば、よりよく理解できる。 本稿では、この情報が、同様のアクティベーションを引き起こす入力のサブセットによって具現化されていることを論じる。 そのような部分集合の計算は、入力空間が指数関数的に大きいため、自明ではない。 InversionViewを提案し、アクティベーションに条件付きトレーニングされたデコーダモデルからサンプリングすることで、このサブセットを実際に検査することができる。 これにより、アクティベーションベクトルの情報内容が明らかになり、トランスフォーマーモデルによって実装されたアルゴリズムの理解が容易になる。 本稿では,小型変圧器からGPT-2まで,3つのケーススタディについて検討する。 本研究では,本手法の特徴を実証し,その特長を示し,因果的に検証された回路を提供する。

The inner workings of neural networks can be better understood if we can fully decipher the information encoded in neural activations. In this paper, we argue that this information is embodied by the subset of inputs that give rise to similar activations. Computing such subsets is nontrivial as the input space is exponentially large. We propose InversionView, which allows us to practically inspect this subset by sampling from a trained decoder model conditioned on activations. This helps uncover the information content of activation vectors, and facilitates understanding of the algorithms implemented by transformer models. We present three case studies where we investigate models ranging from small transformers to GPT-2. In these studies, we demonstrate the characteristics of our method, show the distinctive advantages it offers, and provide causally verified circuits.
翻訳日:2024-06-04 13:59:47 公開日:2024-06-02
# 適応的文脈をもつ因果文脈帯域

Causal Contextual Bandits with Adaptive Context ( http://arxiv.org/abs/2405.18626v2 )

ライセンス: Link先を確認
Rahul Madhavan, Aurghya Maiti, Gaurav Sinha, Siddharth Barman, (参考訳) 本研究では,学習者が選択した初期介入に基づいて,文脈が選択される因果的文脈包帯の変種について検討する。 各ラウンドの開始時に、学習者は、環境によって確率的文脈が明らかになるかに応じて、初期動作を選択する。 その後、学習者は最終動作を選択し、報酬を受け取る。 環境との相互作用にT$が与えられた場合、学習者の目的は、(最初のアクションと最後のアクションを選択する)ポリシーを最大限の報酬で学習することである。 本稿では、ある既知の因果グラフにおいて、全ての動作がノード上での介入に対応する特定の状況について検討する。 決定論的文脈設定から事前作業を拡張し、簡単な後悔の最小化保証を得る。 これは、インスタンス依存の因果パラメータ$\lambda$によって実現されます。 さらに、私たちの単純な後悔は、多くのインスタンスに対して本質的にきついことを証明します。 我々の研究の重要な特徴は、バンディット探索問題に対処するために凸最適化を使うことである。 また、理論的結果を検証し、プロジェクトのGitHubリポジトリでコードをリリースするための実験も行っています。

We study a variant of causal contextual bandits where the context is chosen based on an initial intervention chosen by the learner. At the beginning of each round, the learner selects an initial action, depending on which a stochastic context is revealed by the environment. Following this, the learner then selects a final action and receives a reward. Given $T$ rounds of interactions with the environment, the objective of the learner is to learn a policy (of selecting the initial and the final action) with maximum expected reward. In this paper we study the specific situation where every action corresponds to intervening on a node in some known causal graph. We extend prior work from the deterministic context setting to obtain simple regret minimization guarantees. This is achieved through an instance-dependent causal parameter, $\lambda$, which characterizes our upper bound. Furthermore, we prove that our simple regret is essentially tight for a large class of instances. A key feature of our work is that we use convex optimization to address the bandit exploration problem. We also conduct experiments to validate our theoretical results, and release our code at our project GitHub repository: https://github.com/adaptiveContextualCausalBandits/aCCB.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-02
# PureGen: 生成モデルダイナミクスによる列車時間ポゾン防御のためのユニバーサルデータ浄化

PureGen: Universal Data Purification for Train-Time Poison Defense via Generative Model Dynamics ( http://arxiv.org/abs/2405.18627v2 )

ライセンス: Link先を確認
Sunay Bhat, Jeffrey Jiang, Omead Pooladzandi, Alexander Branch, Gregory Pottie, (参考訳) トレインタイムのデータ中毒攻撃は、トレーニング中に敵対的な例を導入することによって機械学習モデルを脅かす。 現在の防衛手法は、しばしば一般化性能を低下させ、攻撃固有のものであり、訓練のオーバーヘッドがかなり大きい。 そこで本稿では,エネルギーベースモデル (EBM) の反復的ランゲヴィン力学, 拡散確率モデル (DDPM) あるいはその両方を用いて実現された確率変換($\Psi(x)$)を用いた普遍的データ浄化手法を提案する。 これらのアプローチは、分類器の一般化に最小限の影響で有毒データを浄化する。 CIFAR-10, Tiny-ImageNet, CINIC-10におけるNarcissus, Bullseye Polytope, Gradient Matchingなど,攻撃や分類器固有の情報を必要とせずに, 特殊訓練されたEMMとDDPMは, 様々な攻撃(Narcisus, Bullseye Polytope, Gradient Matching)に対する最先端の防御を提供する。 提案手法は, 有毒あるいは分布に変化した生成モデルトレーニングデータであっても, 高い有効性を維持していることを示す。

Train-time data poisoning attacks threaten machine learning models by introducing adversarial examples during training, leading to misclassification. Current defense methods often reduce generalization performance, are attack-specific, and impose significant training overhead. To address this, we introduce a set of universal data purification methods using a stochastic transform, $\Psi(x)$, realized via iterative Langevin dynamics of Energy-Based Models (EBMs), Denoising Diffusion Probabilistic Models (DDPMs), or both. These approaches purify poisoned data with minimal impact on classifier generalization. Our specially trained EBMs and DDPMs provide state-of-the-art defense against various attacks (including Narcissus, Bullseye Polytope, Gradient Matching) on CIFAR-10, Tiny-ImageNet, and CINIC-10, without needing attack or classifier-specific information. We discuss performance trade-offs and show that our methods remain highly effective even with poisoned or distributionally shifted generative model training data.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-02
# LLM推論のメモリ効率向上のためのハードウェア対応並列プロンプトデコーディング

Hardware-Aware Parallel Prompt Decoding for Memory-Efficient Acceleration of LLM Inference ( http://arxiv.org/abs/2405.18628v2 )

ライセンス: Link先を確認
Hao Mark Chen, Wayne Luk, Ka Fai Cedric Yiu, Rui Li, Konstantin Mishchenko, Stylianos I. Venieris, Hongxiang Fan, (参考訳) LLM(Large Language Models)の自動回帰デコーディングは、ハードウェア性能に大きなオーバーヘッドをもたらす。 近年,マルチトークン生成のための様々な投機的復号化手法が研究されているが,これらの取り組みはスループットなどの処理速度の向上に主眼を置いている。 重要なのは、メモリ消費やトレーニングコストなど、実際のデプロイメントに必要な他のメトリクスを無視することが多い。 これらの制限を克服するために、0.0002$%のトレーニング可能なパラメータを必要とする新しい並列プロンプトデコーディングを提案し、たった16時間で単一のA100-40GB GPUの効率的なトレーニングを可能にする。 人間の自然言語生成プロセスにインスパイアされた$PPD$は、複数のプロンプトトークンを使用して、将来の時間ステップで生成された出力を並列に近似する。 このアプローチは,マルチトークン生成に必要な条件依存情報を部分的に復元し,長距離予測において最大28%の受入率を得る。 さらに、この復号方式を適応的に最適化し、異なるGPU上での計算能力を完全に活用するハードウェア対応動的スパースツリー手法を提案する。 MobileLlama から Vicuna-13B までの LLM の幅広いベンチマーク実験を通じて、我々のアプローチは最大2.49$\times$ スピードアップを示し、最小限のランタイムメモリオーバーヘッドを0.0004$% で維持する。 さらに重要なことは、我々の並列プロンプトデコーディングは、既存の投機的デコーディングと相乗的統合のための直交最適化として機能し、最大で1.22\times$さらなるスピード改善を示すことである。 私たちのコードはhttps://github.com/hmarkc/parallel-prompt-decoding.comで利用可能です。

The auto-regressive decoding of Large Language Models (LLMs) results in significant overheads in their hardware performance. While recent research has investigated various speculative decoding techniques for multi-token generation, these efforts have primarily focused on improving processing speed such as throughput. Crucially, they often neglect other metrics essential for real-life deployments, such as memory consumption and training cost. To overcome these limitations, we propose a novel parallel prompt decoding that requires only $0.0002$% trainable parameters, enabling efficient training on a single A100-40GB GPU in just 16 hours. Inspired by the human natural language generation process, $PPD$ approximates outputs generated at future timesteps in parallel by using multiple prompt tokens. This approach partially recovers the missing conditional dependency information necessary for multi-token generation, resulting in up to a 28% higher acceptance rate for long-range predictions. Furthermore, we present a hardware-aware dynamic sparse tree technique that adaptively optimizes this decoding scheme to fully leverage the computational capacities on different GPUs. Through extensive experiments across LLMs ranging from MobileLlama to Vicuna-13B on a wide range of benchmarks, our approach demonstrates up to 2.49$\times$ speedup and maintains a minimal runtime memory overhead of just $0.0004$%. More importantly, our parallel prompt decoding can serve as an orthogonal optimization for synergistic integration with existing speculative decoding, showing up to $1.22\times$ further speed improvement. Our code is available at https://github.com/hmarkc/parallel-prompt-decoding.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-02
# 微視的画像分類のためのLLMに基づく階層的概念分解

LLM-based Hierarchical Concept Decomposition for Interpretable Fine-Grained Image Classification ( http://arxiv.org/abs/2405.18672v2 )

ライセンス: Link先を確認
Renyi Qu, Mark Yatskar, (参考訳) (renyi Qu's Master'sthesis) 視覚言語タスクの解釈可能なモデルの最近の進歩は、競争的な性能を達成したが、大きな言語モデル(LLM)からの非構造化テキスト出力に依存しているため、その解釈可能性に悩まされることがしばしばある。 これはランダム性を導入し、AIシステムの安全性問題に対処するために不可欠な透明性と信頼性の両方を損なう。 本稿では,構造化概念解析によるモデル解釈可能性の向上を目的とした新しいフレームワークである‘texttt{Hi-CoDe}(階層概念分解)’を紹介する。 1)入力画像を視覚概念の階層構造に分解し,視覚概念木を形成する。 2) CLIPから派生した概念特化機能を利用する単純な線形分類器のアンサンブルを用いて分類を行う。 我々のアプローチは、最先端のモデルの性能だけでなく、意思決定プロセスに対する明確な洞察を提供し、さまざまな概念の重要性を強調することによって透明性も向上します。 これにより、潜在的な障害モードを詳細に分析し、モデルコンパクト性を向上させることができるため、精度を損なうことなく、新しいベンチマークを解釈可能である。

(Renyi Qu's Master's Thesis) Recent advancements in interpretable models for vision-language tasks have achieved competitive performance; however, their interpretability often suffers due to the reliance on unstructured text outputs from large language models (LLMs). This introduces randomness and compromises both transparency and reliability, which are essential for addressing safety issues in AI systems. We introduce \texttt{Hi-CoDe} (Hierarchical Concept Decomposition), a novel framework designed to enhance model interpretability through structured concept analysis. Our approach consists of two main components: (1) We use GPT-4 to decompose an input image into a structured hierarchy of visual concepts, thereby forming a visual concept tree. (2) We then employ an ensemble of simple linear classifiers that operate on concept-specific features derived from CLIP to perform classification. Our approach not only aligns with the performance of state-of-the-art models but also advances transparency by providing clear insights into the decision-making process and highlighting the importance of various concepts. This allows for a detailed analysis of potential failure modes and improves model compactness, therefore setting a new benchmark in interpretability without compromising the accuracy.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-02
# NeRF on-the-go: Exploiting Uncertainity for Distractor-free NeRFs in the Wild

NeRF On-the-go: Exploiting Uncertainty for Distractor-free NeRFs in the Wild ( http://arxiv.org/abs/2405.18715v2 )

ライセンス: Link先を確認
Weining Ren, Zihan Zhu, Boyang Sun, Jiaqi Chen, Marc Pollefeys, Songyou Peng, (参考訳) ニューラルネットワーク(Neural Radiance Fields、NeRF)は、静的なシーンのマルチビュー画像からフォトリアリスティックなビューを合成することに成功したが、動いた物体、影、照明変更などの邪魔をする動的な現実世界環境では課題に直面している。 既存の手法は、制御された環境と低い閉塞率を管理するが、特に高い閉塞シナリオ下では、レンダリング品質が不足する。 本稿では,手軽にキャプチャされた画像列のみから,複雑なシーンにおける新規ビューのロバストな合成を可能にする,シンプルで効果的なNeRF On-the-goを提案する。 不確実性に陥りつつも,本手法は捕集に支配的であったとしても,効率的に散逸を除去するだけでなく,顕著に高速な収束速度を実現する。 様々な場面における総合的な実験を通して,本手法は最先端技術よりも顕著に改善されていることを示す。 この進歩は、多様な動的現実世界のアプリケーションにおいて、NeRFの新しい道を開く。

Neural Radiance Fields (NeRFs) have shown remarkable success in synthesizing photorealistic views from multi-view images of static scenes, but face challenges in dynamic, real-world environments with distractors like moving objects, shadows, and lighting changes. Existing methods manage controlled environments and low occlusion ratios but fall short in render quality, especially under high occlusion scenarios. In this paper, we introduce NeRF On-the-go, a simple yet effective approach that enables the robust synthesis of novel views in complex, in-the-wild scenes from only casually captured image sequences. Delving into uncertainty, our method not only efficiently eliminates distractors, even when they are predominant in captures, but also achieves a notably faster convergence speed. Through comprehensive experiments on various scenes, our method demonstrates a significant improvement over state-of-the-art techniques. This advancement opens new avenues for NeRF in diverse and dynamic real-world applications.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-02
# Gemini & Physical World: 大規模言語モデルはマルチモーダルソーシャルメディアポストから地震の震度を推定できる

Gemini & Physical World: Large Language Models Can Estimate the Intensity of Earthquake Shaking from Multi-Modal Social Media Posts ( http://arxiv.org/abs/2405.18732v2 )

ライセンス: Link先を確認
S. Mostafa Mousavi, Marc Stogaitis, Tajinder Gadh, Richard M Allen, Alexei Barski, Robert Bosch, Patrick Robertson, Nivetha Thiruverahan, Youngmin Cho, (参考訳) 本稿では,ソーシャルメディアデータとCCTV映像を用いた地盤揺らぎ強度の推定手法を提案する。 マルチモーダル言語モデルであるGemini Pro(Reid et al 2024)モデルを用いて、生成AIと自然言語処理を利用した非構造化データから関連情報を抽出できることを実証する。 モデル出力は、MMI(Modified Mercalli Intensity)値の形で、独立した観測データとよく一致している。 さらに,ゲミニは,高度な視覚的・聴覚的理解能力の他に,訓練中に獲得したと思われる地震の大きさ,距離,MMI強度の一般的関係の理解の簡易化など,さらなる知識の源泉を生かしていると考えられる。 これらの発見は、ジェミニの物理世界に対する一般的な理解の範囲とその現象に関する興味深い疑問を提起する。 ゲミニが確立された科学的知識と整合した結果を生成する能力は、ジェミニのようなLLMが地震のような複雑な物理現象の理解を深める可能性を強調している。 より具体的には、この研究の結果は、ジェミニのようなLLMが市民の地震学に革命をもたらす可能性を強調し、目撃者によるクラウドソースされたデータの迅速かつ効果的で柔軟な分析を可能にし、地震の影響を評価し、危機的状況認識を提供する。 この手法は, 早期警戒システムの改善, 災害対応, 地震発生域全体の回復性向上に大きく貢献する。 本研究は,震災対策のためのソーシャルメディアとAIの力を活用するための重要なステップを提供する。

This paper presents a novel approach for estimating the ground shaking intensity using social media data and CCTV footage. Employing the Gemini Pro (Reid et al. 2024) model, a multi-modal language model, we demonstrate the ability to extract relevant information from unstructured data utilizing generative AI and natural language processing. The model output, in the form of Modified Mercalli Intensity (MMI) values, align well with independent observational data. Furthermore, our results suggest that beyond its advanced visual and auditory understanding abilities, Gemini appears to utilize additional sources of knowledge, including a simplified understanding of the general relationship between earthquake magnitude, distance, and MMI intensity, which it presumably acquired during its training, in its reasoning and decision-making processes. These findings raise intriguing questions about the extent of Gemini's general understanding of the physical world and its phenomena. The ability of Gemini to generate results consistent with established scientific knowledge highlights the potential of LLMs like Gemini in augmenting our understanding of complex physical phenomena such as earthquakes. More specifically, the results of this study highlight the potential of LLMs like Gemini to revolutionize citizen seismology by enabling rapid, effective, and flexible analysis of crowdsourced data from eyewitness accounts for assessing earthquake impact and providing crisis situational awareness. This approach holds great promise for improving early warning systems, disaster response, and overall resilience in earthquake-prone regions. This study provides a significant step toward harnessing the power of social media and AI for earthquake disaster mitigation.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-02
# Cephalo:バイオインスパイアされた材料分析と設計のためのマルチモーダルビジョンランゲージモデル

Cephalo: Multi-Modal Vision-Language Models for Bio-Inspired Materials Analysis and Design ( http://arxiv.org/abs/2405.19076v2 )

ライセンス: Link先を確認
Markus J. Buehler, (参考訳) 本稿では,人間-AIおよびマルチエージェントAIフレームワーク内での理解と相互作用を強化するために,視覚的および言語的データを統合する,材料科学応用のための多モード視覚大言語モデル(V-LLM)のシリーズを提示する。 Cephaloの重要な革新は、高度なデータセット生成手法であり、科学的論文のようなPDF文書から画像と対応するテキスト記述を正確に検出し、分離するために洗練されたアルゴリズムを用いる。 この方法は、統合された視覚と言語処理によって画像テキストペアを注意深く洗練し、高品質で文脈に関連があり、合理的なトレーニングデータを保証する。 Cephaloは、何千もの科学論文や科学に焦点を当てたWikipediaページから抽出された統合画像とテキストデータに基づいて訓練されており、複雑な視覚シーンを解釈し、正確な言語記述を生成し、画像に関する質問に効果的に答えることができる。 視覚エンコーダと自己回帰変換器の組み合わせは、統合モデルにおける複雑な自然言語理解をサポートし、他の生成手法と結合して、画像からテキストへのイメージや画像からテキストへの3Dパイプラインを作成することができる。 より小さなモデルからより大規模なモデルの開発を探求するため,実験的手法とモデルマージの両方について報告する。 これらのハイブリッドアプローチにより、ドメイン固有の専門知識と一般的な会話能力を活用して、複数のモデルの強みを活用できます。 本研究は, 生物材料, 破壊・工学解析, タンパク質生理学, 昆虫行動に基づく生体設計を取り入れた多種多様なユースケースのモデルについて検討する。 生成的応用には、花粉にインスパイアされた建築材料を含む生物にインスパイアされたデザインや、日食の写真から生体にインスパイアされた材料の微細構造を合成することが含まれる。

We present Cephalo, a series of multimodal vision large language models (V-LLMs) designed for materials science applications, integrating visual and linguistic data for enhanced understanding and interaction within human-AI and multi-agent AI frameworks. A key innovation of Cephalo is its advanced dataset generation method, which employs a sophisticated algorithm to accurately detect and separate images and their corresponding textual descriptions from PDF documents, such as scientific papers. The method includes a careful refinement of image-text pairs through integrated vision and language processing, ensuring high-quality, contextually relevant, and well reasoned training data. Cephalo is trained on integrated image and text data extracted from thousands of scientific papers and science-focused Wikipedia pages demonstrates can interpret complex visual scenes, generate precise language descriptions, and answer queries about images effectively. The combination of a vision encoder with an autoregressive transformer supports complex natural language understanding in an integrated model, which can be coupled with other generative methods to create an image-to-text-to-image or image-to-text-to-3D pipeline. To explore the development of larger models from smaller ones, we report both mixture-of-expert methods and model merging. These hybrid approaches allow us to leverage the domain-specific expertise and general conversational capabilities to harness the strengths of multiple models. We examine the models in diverse use cases that incorporate biological materials, fracture and engineering analysis, protein biophysics, and bio-inspired design based on insect behavior. Generative applications include bio-inspired designs, including pollen-inspired architected materials, as well as the synthesis of bio-inspired material microstructures from a photograph of a solar eclipse.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-02
# MEMoE: エキスパートアダプタの混在によるモデル編集の強化

MEMoE: Enhancing Model Editing with Mixture of Experts Adaptors ( http://arxiv.org/abs/2405.19086v2 )

ライセンス: Link先を確認
Renzhi Wang, Piji Li, (参考訳) モデル編集は、望まれる範囲内で大きな言語モデル(LLM)の振る舞いを効率的に変更することを目的としている。 近年,様々なモデル編集手法が提案されている。 しかし、これらの手法は全体的な性能が劣っているか、一般化と局所性のバランスをとるのに苦労している。 本稿では,Mixture of Experts (MoE)アーキテクチャと知識アンカールーティング戦略を用いたモデル編集アダプタMEMoEを提案する。 MEMoEはバイパスMOE構造を用いて知識を更新し、LLMの一般的な能力を維持するために元のパラメータを変更せずに保持する。 また、知識アンカールーティングにより、類似した知識を必要とする入力が同一の専門家にルーティングされることが保証され、更新された知識の一般化が促進される。 実験結果から,バッチ編集と逐次編集の両タスクに対するアプローチの優位性を示すとともに,一般化と局所性の両立に優れた総合的な性能を示した。 私たちのコードは利用可能です。

Model editing aims to efficiently alter the behavior of Large Language Models (LLMs) within a desired scope, while ensuring no adverse impact on other inputs. Recent years have witnessed various model editing methods been proposed. However, these methods either exhibit poor overall performance or struggle to strike a balance between generalization and locality. We propose MEMoE, a model editing adapter utilizing a Mixture of Experts (MoE) architecture with a knowledge anchor routing strategy. MEMoE updates knowledge using a bypass MoE structure, keeping the original parameters unchanged to preserve the general ability of LLMs. And, the knowledge anchor routing ensures that inputs requiring similar knowledge are routed to the same expert, thereby enhancing the generalization of the updated knowledge. Experimental results show the superiority of our approach over both batch editing and sequential batch editing tasks, exhibiting exceptional overall performance alongside outstanding balance between generalization and locality. Our code will be available.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-02
# 比スペクトルグラフニューラルネットワーク

Spatio-Spectral Graph Neural Networks ( http://arxiv.org/abs/2405.19121v2 )

ライセンス: Link先を確認
Simon Geisler, Arthur Kosmala, Daniel Herbst, Stephan Günnemann, (参考訳) 空間メッセージパッシンググラフニューラルネットワーク(MPGNN)は,グラフ構造化データの学習に広く利用されている。 しかし、LステップMPGNNの鍵となる制限は、その「受容野」が通常ノードのlホップ近傍に限られており、遠方のノード間の情報交換はオーバーカッシングによって制限されていることである。 これらの制限により、空間的およびスペクトル的にパラメータ化されたグラフフィルタを相乗的に組み合わせたグラフニューラルネットワーク(GNN)の新しいモデリングパラダイムである、比スペクトルグラフニューラルネットワーク(S$^2$GNNs)を提案する。 周波数領域の一部のパラメータ化フィルタは、大域的かつ効率的な情報伝達を可能にする。 S$^2$GNNsは、MPGNNsよりも厳密な近似理論誤差境界を生じる。 さらに、基本的なレベルでグラフの畳み込みを再考することで、新しいデザイン空間が解放される。 例えば、S$^2$GNNは1-Weisfeiler-Lehman (WL) テストよりも厳密に表現できる自由位置符号化を可能にする。 さらに、汎用S$^2$GNNを得るために、有向グラフに対するスペクトルパラメトリゼーションフィルタを提案する。 S$2$GNNsは、空間MPGNN、グラフトランスフォーマー、グラフリワイア(例えば、ペプチド長範囲ベンチマークタスク)より優れ、最先端のシーケンスモデリングと競合する。 40GBのGPUでは、S$^2$GNNは数百万のノードにスケールする。

Spatial Message Passing Graph Neural Networks (MPGNNs) are widely used for learning on graph-structured data. However, key limitations of l-step MPGNNs are that their "receptive field" is typically limited to the l-hop neighborhood of a node and that information exchange between distant nodes is limited by over-squashing. Motivated by these limitations, we propose Spatio-Spectral Graph Neural Networks (S$^2$GNNs) -- a new modeling paradigm for Graph Neural Networks (GNNs) that synergistically combines spatially and spectrally parametrized graph filters. Parameterizing filters partially in the frequency domain enables global yet efficient information propagation. We show that S$^2$GNNs vanquish over-squashing and yield strictly tighter approximation-theoretic error bounds than MPGNNs. Further, rethinking graph convolutions at a fundamental level unlocks new design spaces. For example, S$^2$GNNs allow for free positional encodings that make them strictly more expressive than the 1-Weisfeiler-Lehman (WL) test. Moreover, to obtain general-purpose S$^2$GNNs, we propose spectrally parametrized filters for directed graphs. S$^2$GNNs outperform spatial MPGNNs, graph transformers, and graph rewirings, e.g., on the peptide long-range benchmark tasks, and are competitive with state-of-the-art sequence modeling. On a 40 GB GPU, S$^2$GNNs scale to millions of nodes.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-02
# MAP-Neo:高機能で透明なバイリンガル大言語モデル

MAP-Neo: Highly Capable and Transparent Bilingual Large Language Model Series ( http://arxiv.org/abs/2405.19327v3 )

ライセンス: Link先を確認
Ge Zhang, Scott Qu, Jiaheng Liu, Chenchen Zhang, Chenghua Lin, Chou Leuang Yu, Danny Pan, Esther Cheng, Jie Liu, Qunshu Lin, Raven Yuan, Tuney Zheng, Wei Pang, Xinrun Du, Yiming Liang, Yinghao Ma, Yizhi Li, Ziyang Ma, Bill Lin, Emmanouil Benetos, Huan Yang, Junting Zhou, Kaijing Ma, Minghao Liu, Morry Niu, Noah Wang, Quehry Que, Ruibo Liu, Sine Liu, Shawn Guo, Soren Gao, Wangchunshu Zhou, Xinyue Zhang, Yizhi Zhou, Yubo Wang, Yuelin Bai, Yuhan Zhang, Yuxiang Zhang, Zenith Wang, Zhenzhu Yang, Zijian Zhao, Jiajun Zhang, Wanli Ouyang, Wenhao Huang, Wenhu Chen, (参考訳) 大規模言語モデル(LLM)は、近年、様々なタスクで前例のないパフォーマンスを達成するために大きな進歩を遂げています。 しかし、商業的な関心があるため、GPT、Gemini、Claudeといった最も競争力のあるモデルは、トレーニングの詳細を開示することなく、プロプライエタリなインターフェースの陰に置かれている。 近年、多くの機関がLLaMA-3のような強力なLLMをオープンソース化している。 しかし、モデルの重みのみには、ほとんどの詳細(例えば、中間チェックポイント、事前トレーニングコーパス、トレーニングコードなど)が開示されていない。 LLMの透明性を改善するために、研究コミュニティは、真にオープンなLCM(例えば、Pythia、Amber、OLMo)をオープンソースにするために結成された。 これらのモデルは、その強さ、弱さ、バイアス、リスクを含むこれらの大きなモデルの科学的研究を大きく進めてきた。 しかし、推論、知識、コーディングタスクに関する既存のオープンなLLMは、モデルサイズが類似した既存の最先端のLLMよりも依然として劣っている。 そこで我々はMAP-Neoをオープンソース化した。これは高性能で透明なバイリンガル言語モデルで、4.5Tの高品質トークンをスクラッチからトレーニングした7Bパラメータを持つ。 MAP-Neo は,既存の最先端 LLM と比較して性能が劣る初の完全オープンソースバイリンガル LLM である。 さらに,クリーン化事前学習コーパス,データクリーニングパイプライン,チェックポイント,高度に最適化されたトレーニング/評価フレームワークを提供するMAP-Neoを再現するためのすべての詳細をオープンソース化した。 最後に、MAP-Neoはオープンな研究コミュニティを強化し、LLMのさらなる改善を促進するために、より多くのイノベーションと創造性を刺激することを期待しています。

Large Language Models (LLMs) have made great strides in recent years to achieve unprecedented performance across different tasks. However, due to commercial interest, the most competitive models like GPT, Gemini, and Claude have been gated behind proprietary interfaces without disclosing the training details. Recently, many institutions have open-sourced several strong LLMs like LLaMA-3, comparable to existing closed-source LLMs. However, only the model's weights are provided with most details (e.g., intermediate checkpoints, pre-training corpus, and training code, etc.) being undisclosed. To improve the transparency of LLMs, the research community has formed to open-source truly open LLMs (e.g., Pythia, Amber, OLMo), where more details (e.g., pre-training corpus and training code) are being provided. These models have greatly advanced the scientific study of these large models including their strengths, weaknesses, biases and risks. However, we observe that the existing truly open LLMs on reasoning, knowledge, and coding tasks are still inferior to existing state-of-the-art LLMs with similar model sizes. To this end, we open-source MAP-Neo, a highly capable and transparent bilingual language model with 7B parameters trained from scratch on 4.5T high-quality tokens. Our MAP-Neo is the first fully open-sourced bilingual LLM with comparable performance compared to existing state-of-the-art LLMs. Moreover, we open-source all details to reproduce our MAP-Neo, where the cleaned pre-training corpus, data cleaning pipeline, checkpoints, and well-optimized training/evaluation framework are provided. Finally, we hope our MAP-Neo will enhance and strengthen the open research community and inspire more innovations and creativities to facilitate the further improvements of LLMs.
翻訳日:2024-06-04 13:50:03 公開日:2024-06-02
# PureEBM:エネルギーモデルミッドランダイナミクスによるユニバーサルポゾンの浄化

PureEBM: Universal Poison Purification via Mid-Run Dynamics of Energy-Based Models ( http://arxiv.org/abs/2405.19376v2 )

ライセンス: Link先を確認
Omead Pooladzandi, Jeffrey Jiang, Sunay Bhat, Gregory Pottie, (参考訳) データ中毒攻撃は、トレーニング中に敵の例を注入することで、ターゲットの分散データの誤分類につながることによって、機械学習モデルの完全性に重大な脅威をもたらす。 既存のSoTA(State-of-the-art)防衛手法は、一般化性能を著しく低下させ、訓練中のかなりのオーバーヘッドを低減し、現実のアプリケーションでは非現実的または限定的である。 この課題に対応するために、我々は、画像$xで初期化された収束エネルギーベースモデル(EBM)の反復的ランゲヴィンサンプリングにより実現された普遍確率前処理ステップ$\Psi_{T}(x)$を適用することにより、悪質な白、グレー、ブラックボックスのイメージ毒から自然に訓練された分類器を保護するユニバーサルデータ浄化手法を導入する。 $$\Psi_{T}(x)$のミッドランダイナミクス 分類器ネットワークの一般化に重要な機能に対する最小限の影響で毒情報を浄化する。 EBM は, 有毒な EBM トレーニングデータの存在下においても, 普遍的な浄化剤であり, 誘導性および無誘導性中毒に対する SoTA 防御が達成されている。 この研究は \pgen で導入されたより大きなフレームワークのサブセットであり、ESMの精製と毒の防御により詳細な焦点をあてている。

Data poisoning attacks pose a significant threat to the integrity of machine learning models by leading to misclassification of target distribution data by injecting adversarial examples during training. Existing state-of-the-art (SoTA) defense methods suffer from limitations, such as significantly reduced generalization performance and significant overhead during training, making them impractical or limited for real-world applications. In response to this challenge, we introduce a universal data purification method that defends naturally trained classifiers from malicious white-, gray-, and black-box image poisons by applying a universal stochastic preprocessing step $\Psi_{T}(x)$, realized by iterative Langevin sampling of a convergent Energy Based Model (EBM) initialized with an image $x.$ Mid-run dynamics of $\Psi_{T}(x)$ purify poison information with minimal impact on features important to the generalization of a classifier network. We show that EBMs remain universal purifiers, even in the presence of poisoned EBM training data, and achieve SoTA defense on leading triggered and triggerless poisons. This work is a subset of a larger framework introduced in \pgen with a more detailed focus on EBM purification and poison defense.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-02
# 動き平均化による大規模DSM登録

Large-scale DSM registration via motion averaging ( http://arxiv.org/abs/2405.19442v2 )

ライセンス: Link先を確認
Ningli Xu, Rongjun Qin, (参考訳) 広域デジタルサーフェスモデル(DSM)の生成には、多数の個人と部分的に重複したDSMを登録する必要がある。 これは、複数のDSMからの多くの観測が考慮された場合、メモリオーバーフローを引き起こすため、典型的な登録アルゴリズムでは難しい問題となる。 逐次登録アルゴリズムは計算を著しく削減できるが、特に小さな重なり合ったペアに対して脆弱であり、大きなエラーの蓄積につながる。 本研究では,DSM間の相対的なポーズを表すエッジを持つシーングラフを構築するために,ペアワイズDSMを登録する,動き平均化問題としてDSM登録タスクを構築する新しいソリューションを提案する。 具体的には、大きなDSMのグリッド構造に基づいて、新しい近接探索法を用いてペアワイズ登録を行う。 シーングラフは,O(N)複雑性の極めて高速な動き平均アルゴリズムを用いて最適化可能である(Nは画像数を指す)。 高分解能衛星由来DSMの評価は、計算と精度を著しく向上させる。

Generating wide-area digital surface models (DSMs) requires registering a large number of individual, and partially overlapped DSMs. This presents a challenging problem for a typical registration algorithm, since when a large number of observations from these multiple DSMs are considered, it may easily cause memory overflow. Sequential registration algorithms, although can significantly reduce the computation, are especially vulnerable for small overlapped pairs, leading to a large error accumulation. In this work, we propose a novel solution that builds the DSM registration task as a motion averaging problem: pair-wise DSMs are registered to build a scene graph, with edges representing relative poses between DSMs. Specifically, based on the grid structure of the large DSM, the pair-wise registration is performed using a novel nearest neighbor search method. We show that the scene graph can be optimized via an extremely fast motion average algorithm with O(N) complexity (N refers to the number of images). Evaluation of high-resolution satellite-derived DSM demonstrates significant improvement in computation and accuracy.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-02
# 雑音ラベルを用いた学習のための関係モデリングと蒸留

Relation Modeling and Distillation for Learning with Noisy Labels ( http://arxiv.org/abs/2405.19606v2 )

ライセンス: Link先を確認
Xiaming Che, Junlin Zhang, Zhuang Qi, Xin Qi, (参考訳) ノイズの多いラベルによる学習は、モデルの堅牢性を高める効果的な戦略となり、モデルが不正確なデータをよりよく許容することを可能にする。 既存の手法では、ノイズからの干渉を軽減するために損失関数を最適化することに注力するか、潜在的なノイズを検出し、誤りを正すための設計手順を設計する。 しかし、それらの効果は、モデルがノイズの多いラベルに過度に適合するジレンマのため、表現学習においてしばしば損なわれる。 そこで,本稿では,自己教師型学習によるサンプル間関係のモデル化と,雑音ラベルの影響を緩和する潜伏関係の理解を深めるため,知識蒸留を用いた関係モデリングと蒸留フレームワークを提案する。 具体的には、RMDNetと呼ばれる提案手法は、関係モデリング(RM)モジュールが、特徴抽出におけるノイズタグの干渉を効果的に排除する教師なしアプローチである、すべてのデータの表現を学習するためのコントラスト学習技術を実装する2つの主要なモジュールを含む。 リレーショナル誘導表現学習(RGRL)モジュールは、RMモジュールから学習したサンプル間関係を利用してノイズサンプルの表現分布を校正し、推論フェーズにおけるモデルの一般化を改善する。 特に、提案されているRDDNetは、複数のメソッドをその利点のために統合できるプラグイン・アンド・プレイのフレームワークである。 性能比較,アブレーション研究,深部分析,ケーススタディの2つのデータセットで実験を行った。 その結果, RMDNetはノイズの多いデータに対する識別表現を学習でき, 既存の手法よりも優れた性能が得られることがわかった。

Learning with noisy labels has become an effective strategy for enhancing the robustness of models, which enables models to better tolerate inaccurate data. Existing methods either focus on optimizing the loss function to mitigate the interference from noise, or design procedures to detect potential noise and correct errors. However, their effectiveness is often compromised in representation learning due to the dilemma where models overfit to noisy labels. To address this issue, this paper proposes a relation modeling and distillation framework that models inter-sample relationships via self-supervised learning and employs knowledge distillation to enhance understanding of latent associations, which mitigate the impact of noisy labels. Specifically, the proposed method, termed RMDNet, includes two main modules, where the relation modeling (RM) module implements the contrastive learning technique to learn representations of all data, an unsupervised approach that effectively eliminates the interference of noisy tags on feature extraction. The relation-guided representation learning (RGRL) module utilizes inter-sample relation learned from the RM module to calibrate the representation distribution for noisy samples, which is capable of improving the generalization of the model in the inference phase. Notably, the proposed RMDNet is a plug-and-play framework that can integrate multiple methods to its advantage. Extensive experiments were conducted on two datasets, including performance comparison, ablation study, in-depth analysis and case study. The results show that RMDNet can learn discriminative representations for noisy data, which results in superior performance than the existing methods.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-02
# AI駆動リクルートの公正性 - 課題、メトリクス、方法、今後の方向性

Fairness in AI-Driven Recruitment: Challenges, Metrics, Methods, and Future Directions ( http://arxiv.org/abs/2405.19699v2 )

ライセンス: Link先を確認
Dena F. Mujtaba, Nihar R. Mahapatra, (参考訳) 採用プロセスは、適格で適任な候補者を見つけることから、その成果と文化に影響を与えるまで、組織が成功のために自らを位置づける能力にとって不可欠である。 そのため、過去1世紀にわたり、人材専門家や産業組織心理学者は、求人広告で候補者を惹きつけること、候補者のスキルを評価で誇示すること、面接質問を用いて組織適合性を評価するなど、雇用慣行を確立してきた。 しかし、ビッグデータと機械学習の出現は、多くの組織が人工知能(AI)への移行に伴って、従来の採用プロセスの急速な変革につながった。 AIベースの採用の頻度を考えると、人間の偏見がこれらのシステムによる決定に続き、体系的な応用を通じて効果を増幅するのではないかという懸念が高まっている。 実証的な研究により、候補者のランキングソフトウェアとチャットボットの相互作用のバイアスが特定され、この10年でAIフェアネスに特化した研究が成長してきた。 本稿では、AIによる採用におけるバイアスの種類について議論し、様々な公正度指標と緩和手法を探求し、これらのシステムの監査ツールを調べることによって、この新興分野の包括的概要を提供する。 我々は、現在の課題を強調し、公正なAI採用アプリケーションの開発、適切な候補治療の確保、組織的な成果の向上に向けた今後の方向性を概説する。

The recruitment process is crucial to an organization's ability to position itself for success, from finding qualified and well-fitting job candidates to impacting its output and culture. Therefore, over the past century, human resources experts and industrial-organizational psychologists have established hiring practices such as attracting candidates with job ads, gauging a candidate's skills with assessments, and using interview questions to assess organizational fit. However, the advent of big data and machine learning has led to a rapid transformation in the traditional recruitment process as many organizations have moved to using artificial intelligence (AI). Given the prevalence of AI-based recruitment, there is growing concern that human biases may carry over to decisions made by these systems, which can amplify the effect through systematic application. Empirical studies have identified prevalent biases in candidate ranking software and chatbot interactions, catalyzing a growing body of research dedicated to AI fairness over the last decade. This paper provides a comprehensive overview of this emerging field by discussing the types of biases encountered in AI-driven recruitment, exploring various fairness metrics and mitigation methods, and examining tools for auditing these systems. We highlight current challenges and outline future directions for developing fair AI recruitment applications, ensuring equitable candidate treatment and enhancing organizational outcomes.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-02
# 外部一般化のより良い評価に向けて

Towards a Better Evaluation of Out-of-Domain Generalization ( http://arxiv.org/abs/2405.19703v2 )

ライセンス: Link先を確認
Duhun Hwang, Suhyun Kang, Moonjung Eo, Jimyeong Kim, Wonjong Rhee, (参考訳) ドメイン一般化(Domain Generalization, DG)の目的は、これまで見つからなかったテストディストリビューションで高いパフォーマンスを達成するアルゴリズムとモデルを考案することである。 この目的を追求するために、既存のDG研究において、モデルの評価とアルゴリズムの比較のための一般的な尺度として平均測度が採用されている。 その重要性にもかかわらず、平均測度に関する包括的な探索は欠如しており、真の領域一般化性能の近似に適合する可能性は疑問視されている。 本研究では,平均測度に固有の限界を慎重に検討し,ロバストな代替手段として最悪の+ギャップ測度を提案する。 2つの異なる仮定から始まる2つの定理を導出することにより、提案された測度の理論的根拠を確立する。 提案手法と従来の平均値とを比較検討した。 測定のための真のDGパフォーマンスにアクセスする必要がなくなると、SR-CMNIST、C-Cats&Dogs、L-CIFAR10、PACS崩壊データセット、VLCS崩壊データセットの5つの既存のデータセットを変更します。 実験結果は, 真のDG性能を近似し, 理論的に支持された最悪の+ギャップ測定値のロバスト性を確認する上で, 平均測定値が劣ることを示した。

The objective of Domain Generalization (DG) is to devise algorithms and models capable of achieving high performance on previously unseen test distributions. In the pursuit of this objective, average measure has been employed as the prevalent measure for evaluating models and comparing algorithms in the existing DG studies. Despite its significance, a comprehensive exploration of the average measure has been lacking and its suitability in approximating the true domain generalization performance has been questionable. In this study, we carefully investigate the limitations inherent in the average measure and propose worst+gap measure as a robust alternative. We establish theoretical grounds of the proposed measure by deriving two theorems starting from two different assumptions. We conduct extensive experimental investigations to compare the proposed worst+gap measure with the conventional average measure. Given the indispensable need to access the true DG performance for studying measures, we modify five existing datasets to come up with SR-CMNIST, C-Cats&Dogs, L-CIFAR10, PACS-corrupted, and VLCS-corrupted datasets. The experiment results unveil an inferior performance of the average measure in approximating the true DG performance and confirm the robustness of the theoretically supported worst+gap measure.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-02
# エイリアンコンテンツとエイリアンメタセマンティックスを用いたAI

AI with Alien Content and Alien Metasemantics ( http://arxiv.org/abs/2405.19808v2 )

ライセンス: Link先を確認
Herman Cappelen, Josh Dever, (参考訳) AlphaGoはチェスと囲碁を創造的で斬新な方法でプレイする。 ボードスペースが多ければ、後ろにポーンがいくつかあるとは思えない、というような内容は、私たちにとって当然のことです。 Cappelen and Dever(2021年)で導入されたフレームワークは、AIコンテンツのセマンティクスとメタセマンティクスについて考える方法を提供する。 Cappelen氏とDever氏が考慮しなかった問題のひとつは、エイリアンのコンテンツの可能性だ。 エイリアンの内容は人間によって表現されない、あるいは表現できない内容である。 AlphaGoや他の高度なAIシステムが、エイリアンのコンテンツを表現しているということは、非常にあり得ることです。 そもそも、AIがコンテンツを楽しませる方法と関係があるという事実は、AIと人間のコンテンツという、まったく異なるエチオロジーを生み出します。 この章では、セマンティックとメタセマンティックの観点から、AIにおける異星のコンテンツに関する疑問を探求する。 それは、意味論的およびメタセマンティックな質問に対する可能な応答の論理的空間をレイアウトし、人間がエイリアンのコンテンツを表現するエンティティとどのようにコミュニケーションできるかを考察し、存在リスクやXAIのようなAI哲学のより「適用された」問題に対して、そのような質問を明確にすることは重要であると指摘する。

AlphaGo plays chess and Go in a creative and novel way. It is natural for us to attribute contents to it, such as that it doesn't view being several pawns behind, if it has more board space, as bad. The framework introduced in Cappelen and Dever (2021) provides a way of thinking about the semantics and the metasemantics of AI content: does AlphaGo entertain contents like this, and if so, in virtue of what does a given state of the program mean that particular content? One salient question Cappelen and Dever didn't consider was the possibility of alien content. Alien content is content that is not or cannot be expressed by human beings. It's highly plausible that AlphaGo, or any other sophisticated AI system, expresses alien contents. That this is so, moreover, is plausibly a metasemantic fact: a fact that has to do with how AI comes to entertain content in the first place, one that will heed the vastly different etiology of AI and human content. This chapter explores the question of alien content in AI from a semantic and metasemantic perspective. It lays out the logical space of possible responses to the semantic and metasemantic questions alien content poses, considers whether and how we humans could communicate with entities who express alien content, and points out that getting clear about such questions might be important for more 'applied' issues in the philosophy of AI, such as existential risk and XAI.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-02
# AIの安全性:アーマゲドンへの夢?

AI Safety: A Climb To Armageddon? ( http://arxiv.org/abs/2405.19832v2 )

ライセンス: Link先を確認
Herman Cappelen, Josh Dever, John Hawthorne, (参考訳) 本稿では,既存のリスクを軽減するのではなく,AIの安全性対策によってさらに悪化する可能性について論じる。 AIの失敗の必然性、障害の時点におけるAIシステムのパワーと結果の害の重大さとの期待された相関、失敗前にAIシステムがより強力になるための安全対策の傾向など、いくつかの重要な前提の下では、安全性の取り組みには、負の期待された実用性がある。 本稿では,最適化,緩和,ホロリズムの3つの対応戦略について検討する。 それぞれの課題は、私たちがBottlenecking、Perfection Barrier、Equilibrium Fluctuationと呼んでいる、AIの安全性ランドスケープの本質的な特徴に起因しています。 この議論の驚くべき堅牢性は、AIの安全性に関するコア前提の再検討を迫られ、さらなる研究のためのいくつかの道のりを指し示している。

This paper presents an argument that certain AI safety measures, rather than mitigating existential risk, may instead exacerbate it. Under certain key assumptions - the inevitability of AI failure, the expected correlation between an AI system's power at the point of failure and the severity of the resulting harm, and the tendency of safety measures to enable AI systems to become more powerful before failing - safety efforts have negative expected utility. The paper examines three response strategies: Optimism, Mitigation, and Holism. Each faces challenges stemming from intrinsic features of the AI safety landscape that we term Bottlenecking, the Perfection Barrier, and Equilibrium Fluctuation. The surprising robustness of the argument forces a re-examination of core assumptions around AI safety and points to several avenues for further research.
翻訳日:2024-06-04 13:40:18 公開日:2024-06-02
# MOFA-Video:凍結画像-映像拡散モデルにおける生成運動場適応による制御可能な画像アニメーション

MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model ( http://arxiv.org/abs/2405.20222v2 )

ライセンス: Link先を確認
Muyao Niu, Xiaodong Cun, Xintao Wang, Yong Zhang, Ying Shan, Yinqiang Zheng, (参考訳) 提案するMOFA-Videoは,人間のランドマーク参照や手動軌跡,さらには提供されるビデオなど,さまざまな制御可能な信号を用いて,所定の画像から映像を生成する,高度な制御可能な画像アニメーション手法である。 これは、特定の運動領域でしか動作できない、あるいは拡散前の弱い制御能力を示す従来の方法とは異なる。 この目的を達成するために、ビデオ生成パイプラインで生成された動きを制御するために複数のドメイン対応モーションフィールドアダプタ (\ie, MOFA-Adapters) を設計する。 MOFA-Adapters では,映像の時間的動きの整合性を考慮し,まず所定のスパース制御条件から濃密な動きの流れを発生させ,その画像のマルチスケール特徴を安定した映像拡散生成のためのガイド機能としてラップする。 我々は手動の軌跡と人間のランドマークの2つのモーションアダプタを個別に訓練する。 トレーニングの後、異なるドメインのMOFA-Adaptersは、より制御可能なビデオ生成のために協力することもできます。 Project Page: https://myniuuu.github.io/MOFA_Video/

We present MOFA-Video, an advanced controllable image animation method that generates video from the given image using various additional controllable signals (such as human landmarks reference, manual trajectories, and another even provided video) or their combinations. This is different from previous methods which only can work on a specific motion domain or show weak control abilities with diffusion prior. To achieve our goal, we design several domain-aware motion field adapters (\ie, MOFA-Adapters) to control the generated motions in the video generation pipeline. For MOFA-Adapters, we consider the temporal motion consistency of the video and generate the dense motion flow from the given sparse control conditions first, and then, the multi-scale features of the given image are wrapped as a guided feature for stable video diffusion generation. We naively train two motion adapters for the manual trajectories and the human landmarks individually since they both contain sparse information about the control. After training, the MOFA-Adapters in different domains can also work together for more controllable video generation. Project Page: https://myniuuu.github.io/MOFA_Video/
翻訳日:2024-06-04 13:40:18 公開日:2024-06-02