このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240413となっている論文です。

PDF登録状況(公開日: 20240413)

TitleAuthorsAbstract論文公表日・翻訳日
# LLMSat: 自律宇宙探査のための大規模言語モデルに基づくゴール指向エージェント

LLMSat: A Large Language Model-Based Goal-Oriented Agent for Autonomous Space Exploration ( http://arxiv.org/abs/2405.01392v1 )

ライセンス: Link先を確認
David Maranto, (参考訳) 宇宙船はより複雑なミッションで地球からさらに遠くを旅するので、より大きな自律性と搭載されたインテリジェンスを持つシステムが求められている。 太陽系全体探査の速度を上げるためには、人間によるミッションコントロールへの依存を減らすことがますます重要になる。 最近の研究は、ミッション実行における自律性のレベルを高めるために、AIベースの目標指向システムを調査している。 これらのシステムは、宇宙船の状態と手作りの知識ベースから推論するために象徴的な推論マネージャを使用し、自律的なタスクの生成と再計画を可能にする。 このようなシステムは制御されたケースで成功したことが証明されているが、宇宙船が世界を理解するために人為的な存在論モデルを必要とするため、実装は困難である。 強化学習は、目標を追求するロボットエージェントの訓練に応用されている。 自律性のための新しいアーキテクチャが求められます。 本研究は,宇宙船の高レベル制御システムとしてのLarge Language Models (LLMs)の適用について検討する。 本研究は, システム工学的アプローチを用いて, LLMを推論エンジンとして活用し, より高レベルの宇宙船自律性を実現するためのアーキテクチャの有用性を評価することによって, エージェント宇宙船制御装置の設計と開発を行う。 一般的なゲームエンジンであるKerbal Space Program (KSP) でシミュレートされた一連の深宇宙ミッションシナリオをケーススタディとして使用し、要求に対する実装を評価する。 現在のLSMの推論と計画能力は、ミッションの複雑さが増大するにつれて拡張できないが、これは適切なプロンプトフレームワークと、ホスト宇宙船に対するエージェントの権限レベルを戦略的に選択することで緩和できる。 本研究は、将来のロボット宇宙応用のための自律的意思決定システムの強化におけるLLMの可能性を評価する。

As spacecraft journey further from Earth with more complex missions, systems of greater autonomy and onboard intelligence are called for. Reducing reliance on human-based mission control becomes increasingly critical if we are to increase our rate of solar-system-wide exploration. Recent work has explored AI-based goal-oriented systems to increase the level of autonomy in mission execution. These systems make use of symbolic reasoning managers to make inferences from the state of a spacecraft and a handcrafted knowledge base, enabling autonomous generation of tasks and re-planning. Such systems have proven to be successful in controlled cases, but they are difficult to implement as they require human-crafted ontological models to allow the spacecraft to understand the world. Reinforcement learning has been applied to train robotic agents to pursue a goal. A new architecture for autonomy is called for. This work explores the application of Large Language Models (LLMs) as the high-level control system of a spacecraft. Using a systems engineering approach, this work presents the design and development of an agentic spacecraft controller by leveraging an LLM as a reasoning engine, to evaluate the utility of such an architecture in achieving higher levels of spacecraft autonomy. A series of deep space mission scenarios simulated within the popular game engine Kerbal Space Program (KSP) are used as case studies to evaluate the implementation against the requirements. It is shown the reasoning and planning abilities of present-day LLMs do not scale well as the complexity of a mission increases, but this can be alleviated with adequate prompting frameworks and strategic selection of the agent's level of authority over the host spacecraft. This research evaluates the potential of LLMs in augmenting autonomous decision-making systems for future robotic space applications.
翻訳日:2024-05-05 17:44:45 公開日:2024-04-13
# 大気化学データの再構成と予測のための最適化された動的モード分解

Optimized Dynamic Mode Decomposition for Reconstruction and Forecasting of Atmospheric Chemistry Data ( http://arxiv.org/abs/2404.12396v1 )

ライセンス: Link先を確認
Meghana Velegar, Christoph Keller, J. Nathan Kutz, (参考訳) 本研究では, 適応的で計算効率のよい縮小順序モデルを構築するための最適化された動的モード分解アルゴリズムと, 大域大気化学の予測ツールを紹介する。 グローバル時空間モードの低次元集合を利用することにより、下層の空間的・時間的スケールの解釈可能な特徴を計算できる。 予測はまた、支配的な時空間的特徴の線形重ね合わせを用いた線形モデルによっても達成される。 DMD法は, 計算速度と解釈可能性において有意な性能を示す大域的化学力学データの3ヶ月で実証された。 本手法は, 夏季の大気汚染やバイオマス燃焼など, 大気化学の主要な特徴を抽出することに成功した。 さらに、DMDアルゴリズムは、基礎となる線形モデルの迅速な再構築を可能にし、非定常データや動的変化を容易に取り込むことができる。

We introduce the optimized dynamic mode decomposition algorithm for constructing an adaptive and computationally efficient reduced order model and forecasting tool for global atmospheric chemistry dynamics. By exploiting a low-dimensional set of global spatio-temporal modes, interpretable characterizations of the underlying spatial and temporal scales can be computed. Forecasting is also achieved with a linear model that uses a linear superposition of the dominant spatio-temporal features. The DMD method is demonstrated on three months of global chemistry dynamics data, showing its significant performance in computational speed and interpretability. We show that the presented decomposition method successfully extracts known major features of atmospheric chemistry, such as summertime surface pollution and biomass burning activities. Moreover, the DMD algorithm allows for rapid reconstruction of the underlying linear model, which can then easily accommodate non-stationary data and changes in the dynamics.
翻訳日:2024-04-28 11:25:01 公開日:2024-04-13
# Intellecta Cognitiva: 学術的知識と機械推論を改善するための総合データセット

Intellecta Cognitiva: A Comprehensive Dataset for Advancing Academic Knowledge and Machine Reasoning ( http://arxiv.org/abs/2404.13065v1 )

ライセンス: Link先を確認
Ajmal PS, Ditto PS, Jithin VG, (参考訳) Intellectaデータセットは、現代言語モデルの認知処理能力を高めるために設計された、革新的な合成データセットとして登場した。 113億のトークンで構成され、81億の合成データと35億の豊富な教科書データを統合することで、Intellectaは高度な推論と総合的な教育物語生成を促進するために作られた。 Mixtral-8x7B-Instruct-v0.1モデルを利用して、このデータセットは複雑な思考プロセスと詳細な教科書スタイルの説明を生成する。 このハイブリッドデータセットは、AIの境界を押し進める際の合成データの可能性を示す証しであり、広範で多様なだけでなく、倫理的基準や知的厳密さに合わせて洗練されたリポジトリを提供する。

Intellecta dataset emerges as an innovative synthetic dataset, engineered to enhance the cognitive processing capabilities of contemporary language models. With a composition of 11.53 billion tokens, integrating 8.01 billion tokens of synthetic data with 3.52 billion tokens of rich textbook data, Intellecta is crafted to foster advanced reasoning and comprehensive educational narrative generation. Leveraging the Mixtral-8x7B-Instruct-v0.1 model, the dataset facilitates the generation of complex thought processes and detailed, textbook-style explanations, thus enabling language models to engage in both critical thinking and profound educational discourse. This hybrid dataset stands as a testament to the potential of synthetic data in pushing the boundaries of AI, offering a repository that is not only vast and varied but also refined to align with ethical standards and intellectual rigor.
翻訳日:2024-04-28 11:25:01 公開日:2024-04-13
# 効率的なResume理解に向けて:マルチグラニュラリティ・マルチモーダル事前学習アプローチ

Towards Efficient Resume Understanding: A Multi-Granularity Multi-Modal Pre-Training Approach ( http://arxiv.org/abs/2404.13067v1 )

ライセンス: Link先を確認
Feihu Jiang, Chuan Qin, Jingshuai Zhang, Kaichun Yao, Xi Chen, Dazhong Shen, Chen Zhu, Hengshu Zhu, Hui Xiong, (参考訳) オンライン採用の普及期には,履歴書から構造化情報を自動的に抽出することを目的とした基本的かつ重要な課題として,履歴書理解が広く認められてきた。 従来のルールベースアプローチと比較して、最近提案された事前学習文書理解モデルの利用は、再学習理解の有効性を大幅に向上させることができる。 しかし,本手法は履歴書に提示される構造化情報内の階層的関係を無視し,効率よく履歴書を解析することが困難である。 そこで本稿では,効率的な再帰的理解を実現するための新しいモデル ERU を提案する。 具体的には、まず、履歴書中のセグメントをテキスト情報、視覚情報、レイアウト情報と統合して符号化するレイアウト対応マルチモーダルフュージョントランスを導入する。 そして,多数の未ラベル履歴書を通して,このモジュールを事前学習するための3つの自己教師型タスクを設計する。 次に、履歴書から構造化情報を取り出すために、多粒度シーケンスラベリングタスクでモデルを微調整する。 最後に、実世界のデータセットに関する広範な実験により、ERUの有効性が明らかに示された。

In the contemporary era of widespread online recruitment, resume understanding has been widely acknowledged as a fundamental and crucial task, which aims to extract structured information from resume documents automatically. Compared to the traditional rule-based approaches, the utilization of recently proposed pre-trained document understanding models can greatly enhance the effectiveness of resume understanding. The present approaches have, however, disregarded the hierarchical relations within the structured information presented in resumes, and have difficulty parsing resumes in an efficient manner. To this end, in this paper, we propose a novel model, namely ERU, to achieve efficient resume understanding. Specifically, we first introduce a layout-aware multi-modal fusion transformer for encoding the segments in the resume with integrated textual, visual, and layout information. Then, we design three self-supervised tasks to pre-train this module via a large number of unlabeled resumes. Next, we fine-tune the model with a multi-granularity sequence labeling task to extract structured information from resumes. Finally, extensive experiments on a real-world dataset clearly demonstrate the effectiveness of ERU.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-13
# SmartPathfinder: 強化学習を用いたドローンによる車両ルーティング問題に対するヒューリスティックソリューションの限界を押し上げる

SmartPathfinder: Pushing the Limits of Heuristic Solutions for Vehicle Routing Problem with Drones Using Reinforcement Learning ( http://arxiv.org/abs/2404.13068v1 )

ライセンス: Link先を確認
Navid Mohammad Imran, Myounggyu Won, (参考訳) Vehicle Routing Problem with Drones(VRPD)は、トラックとドローンの両方の経路を最適化し、トラックが顧客の場所に荷物を配達する責任を持ち、ドローンはこれらのトラックから荷物を配達するために派遣され、その後トラックによって回収される。 VRPDのNP-Hard複雑性を考えると、多くのヒューリスティックなアプローチが導入されている。 しかし、ソリューションの品質向上と計算時間の短縮は依然として大きな課題である。 本稿では,VRPDの解決,蒸留,コア要素への標準化を目的としたヒューリスティック手法の総合的な検討を行う。 そこで我々は, ヒューリスティックなソリューションコンポーネントとシームレスに統合された新しい強化学習(RL)フレームワークを開発し, ソリューションの品質と計算速度の両方を改善するために, RLフレームワークをヒューリスティックな戦略に組み込むための普遍的な原則のセットを確立する。 この統合はVRPDの最先端のヒューリスティックソリューションに適用され、RLフレームワークを組み込むことの実質的なメリットを示している。 評価結果から,我々のRLフレームワークに組み込まれたヒューリスティックなソリューションは,ソリューションの品質向上だけでなく,特に広範な顧客位置を扱う場合の計算速度の向上も達成できた。

The Vehicle Routing Problem with Drones (VRPD) seeks to optimize the routing paths for both trucks and drones, where the trucks are responsible for delivering parcels to customer locations, and the drones are dispatched from these trucks for parcel delivery, subsequently being retrieved by the trucks. Given the NP-Hard complexity of VRPD, numerous heuristic approaches have been introduced. However, improving solution quality and reducing computation time remain significant challenges. In this paper, we conduct a comprehensive examination of heuristic methods designed for solving VRPD, distilling and standardizing them into core elements. We then develop a novel reinforcement learning (RL) framework that is seamlessly integrated with the heuristic solution components, establishing a set of universal principles for incorporating the RL framework with heuristic strategies in an aim to improve both the solution quality and computation speed. This integration has been applied to a state-of-the-art heuristic solution for VRPD, showcasing the substantial benefits of incorporating the RL framework. Our evaluation results demonstrated that the heuristic solution incorporated with our RL framework not only elevated the quality of solutions but also achieved rapid computation speeds, especially when dealing with extensive customer locations.
翻訳日:2024-04-28 11:16:37 公開日:2024-04-13
# 最適化特徴抽出による高次心電図不整脈検出のための高度なニューラルネットワークアーキテクチャ

Advanced Neural Network Architecture for Enhanced Multi-Lead ECG Arrhythmia Detection through Optimized Feature Extraction ( http://arxiv.org/abs/2404.15347v1 )

ライセンス: Link先を確認
Bhavith Chandra Challagundla, (参考訳) 心臓血管疾患は世界的な健康上の問題であり、世界中で死亡率や死亡率に大きく貢献している。 これらの中、不整脈は不整脈を特徴とする不整脈であり、深刻な診断上の課題を呈している。 本研究では、不整脈分類の複雑さに対処するために、ディープラーニング技術、特に畳み込みニューラルネットワーク(CNN)を利用した革新的なアプローチを提案する。 左二分枝ブロック(LBBB)、右二分枝ブロック(RBBB)、心房期早期収縮(APC)、早心室収縮(PVC)、正常脈拍の5種類の左二分枝ブロック(LBBB)を同定した。 厳密な実験を通じて、心血管性不整脈の診断精度を高めるための方法論の転換の可能性を強調した。 不整脈の診断は、心血管ケアにおいて重要な課題であり、しばしば心電図信号の手動解釈に依存している。 これらの制約に対処するため,深層学習アルゴリズムを利用して不整脈分類を自動化する手法を提案する。 先進的なCNNアーキテクチャとマルチリードECGデータを利用することで、高精度かつ効率的な不整脈検出のための堅牢なソリューションを提供する。 包括的評価を通じて,より正確な臨床的意思決定を促進するためのアプローチの有効性を実証し,心血管性不整脈管理における患者結果の改善を図った。

Cardiovascular diseases are a pervasive global health concern, contributing significantly to morbidity and mortality rates worldwide. Among these conditions, arrhythmia, characterized by irregular heart rhythms, presents formidable diagnostic challenges. This study introduces an innovative approach utilizing deep learning techniques, specifically Convolutional Neural Networks (CNNs), to address the complexities of arrhythmia classification. Leveraging multi-lead Electrocardiogram (ECG) data, our CNN model, comprising six layers with a residual block, demonstrates promising outcomes in identifying five distinct heartbeat types: Left Bundle Branch Block (LBBB), Right Bundle Branch Block (RBBB), Atrial Premature Contraction (APC), Premature Ventricular Contraction (PVC), and Normal Beat. Through rigorous experimentation, we highlight the transformative potential of our methodology in enhancing diagnostic accuracy for cardiovascular arrhythmias. Arrhythmia diagnosis remains a critical challenge in cardiovascular care, often relying on manual interpretation of ECG signals, which can be time-consuming and prone to subjectivity. To address these limitations, we propose a novel approach that leverages deep learning algorithms to automate arrhythmia classification. By employing advanced CNN architectures and multi-lead ECG data, our methodology offers a robust solution for precise and efficient arrhythmia detection. Through comprehensive evaluation, we demonstrate the effectiveness of our approach in facilitating more accurate clinical decision-making, thereby improving patient outcomes in managing cardiovascular arrhythmias.
翻訳日:2024-04-28 10:46:58 公開日:2024-04-13
# コロンビアの加工食品部門における気候変動リスクの評価--ファジィ論理と多基準意思決定アプローチ

Assessing Climate Transition Risks in the Colombian Processed Food Sector: A Fuzzy Logic and Multicriteria Decision-Making Approach ( http://arxiv.org/abs/2404.16055v1 )

ライセンス: Link先を確認
Juan F. Pérez-Pérez, Pablo Isaza Gómez, Isis Bonet, María Solange Sánchez-Pinzón, Fabio Caraffini, Christian Lochmuller, (参考訳) 気候変動のリスク評価はますます重要になっている。 企業にとって、気候関連のリスクを特定して評価することは、複数のソースから得るため、難しい。 本研究は,コロンビアの加工食品部門における主な気候変動リスクを特定し,評価する。 移行リスクが曖昧であるため、私たちのアプローチでは、Fuzzy Logicを使用して、組織が露出する可能性のあるさまざまな気候移行リスクを分類する、さまざまな複数の基準決定方法と比較しています。 このアプローチは、言語表現をリスク分析に使用し、リスクとその結果をよりよく記述することを可能にする。 その結果, 価格変動, 原材料利用率, 炭素集約生産・消費パターンの変化, 炭素税と技術革新の増加, 開発・実施コストの順に, 組織にとって最も重要なリスクが示唆された。 これらのリスクは、重大なリスクレベルを示し、ケーススタディにおいて、組織にとって最も重要なリスクであることを意味します。 これらの結果は、規制要件を満たすために必要な投資の重要性を浮き彫りにしている。

Climate risk assessment is becoming increasingly important. For organisations, identifying and assessing climate-related risks is challenging, as they can come from multiple sources. This study identifies and assesses the main climate transition risks in the colombian processed food sector. As transition risks are vague, our approach uses Fuzzy Logic and compares it to various multi-criteria decision-making methods to classify the different climate transition risks an organisation may be exposed to. This approach allows us to use linguistic expressions for risk analysis and to better describe risks and their consequences. The results show that the risks ranked as the most critical for this organisation in their order were price volatility and raw materials availability, the change to less carbon-intensive production or consumption patterns, the increase in carbon taxes and technological change, and the associated development or implementation costs. These risks show a critical risk level, which implies that they are the most significant risks for the organisation in the case study. These results highlight the importance of investments needed to meet regulatory requirements, which are the main drivers for organisations at the financial level.
翻訳日:2024-04-28 10:36:53 公開日:2024-04-13
# 行動認識モデルに対するマルチモーダル攻撃検出

Multimodal Attack Detection for Action Recognition Models ( http://arxiv.org/abs/2404.10790v1 )

ライセンス: Link先を確認
Furkan Mumcu, Yasin Yilmaz, (参考訳) 近年,映像行動認識モデルに対する敵対的機械学習攻撃が増加傾向にあり,多くの効果的な攻撃が導入されている。 これらの攻撃は、アクション認識モデルが様々な方法で破られることを示している。 したがって、これらのモデルを実際に使用すると、重大なセキュリティ上の懸念が生じる。 しかし、攻撃に対する防御や検出に焦点を当てた作品はほとんどない。 本研究では,任意の行動認識モデルに適合する新しいユニバーサル検出手法を提案する。 実験により,本手法は偽陽性率を非常に低く抑えながら,高い正の確率で異なるターゲットモデルに対する様々な攻撃を連続的に検出することを示した。 4つのアクション認識モデルをターゲットにした4つの最先端攻撃に対して試験を行い、提案検出器は16のテストケース平均0.911のAUCを達成し、既存の検出器で達成される最高の性能は0.645の平均AUCである。 この41.2%の改善は、様々な攻撃方法と標的モデルに対する提案された検出器の堅牢性によって実現されている。 16件の検体で達成された最も低いAUCは0.837であり、競合する検体の性能は0.211まで低下した。 また,提案検出器は様々な攻撃強度に対して頑健であることを示す。 さらに,本手法のリアルタイム性能を異なるハードウェア構成で解析し,実用的防御機構としての可能性を示す。

Adversarial machine learning attacks on video action recognition models is a growing research area and many effective attacks were introduced in recent years. These attacks show that action recognition models can be breached in many ways. Hence using these models in practice raises significant security concerns. However, there are very few works which focus on defending against or detecting attacks. In this work, we propose a novel universal detection method which is compatible with any action recognition model. In our extensive experiments, we show that our method consistently detects various attacks against different target models with high true positive rates while satisfying very low false positive rates. Tested against four state-of-the-art attacks targeting four action recognition models, the proposed detector achieves an average AUC of 0.911 over 16 test cases while the best performance achieved by the existing detectors is 0.645 average AUC. This 41.2% improvement is enabled by the robustness of the proposed detector to varying attack methods and target models. The lowest AUC achieved by our detector across the 16 test cases is 0.837 while the competing detector's performance drops as low as 0.211. We also show that the proposed detector is robust to varying attack strengths. In addition, we analyze our method's real-time performance with different hardware setups to demonstrate its potential as a practical defense mechanism.
翻訳日:2024-04-18 18:22:00 公開日:2024-04-13
# インテリジェントIDSのための再構成可能なエッジハードウェア:システム的アプローチ

Reconfigurable Edge Hardware for Intelligent IDS: Systematic Approach ( http://arxiv.org/abs/2404.10792v1 )

ライセンス: Link先を確認
Wadid Foudhaili, Anouar Nechi, Celine Thermann, Mohammad Al Johmani, Rainer Buchty, Mladen Berekovic, Saleh Mulhem, (参考訳) 侵入検知システム(IDS)は、ネットワークセキュリティを強制するための重要なセキュリティ対策である。 彼らの任務は、ネットワーク通信における異常を検知し、脅威でなければ悪意のある行動を特定することである。 近年、インテリジェントIDSを構築するために機械学習が展開されている。 しかしこのアプローチは、特にEdgeセットアップのような、分散的で、動的で、リソースに制約のあるシステムでは、非常に難しい。 本稿では,知的IDS(I-IDS)の概念を多角的に分析し,特に再構成性を重視したエッジデバイスの要求に対処することによって,この問題に対処する。 次に、再構成可能なエッジハードウェア上でI-IDSを構築するための体系的なアプローチを提案する。 そこで我々は,1)純粋FPGAベースのデータフロープロセッサ(DFP)と(2)FPGAベースのソフトコアプロセッサ(SCP)としてRISC-Vソフトコアを組み込んだ共同設計アプローチとして,現状のFPGA(Field Programmable Gate Arrays)技術で提案したIDSを実装した。 この領域における最先端技術(SoA)の比較によって論文を完成させる。 その結果,DFPとSCPはハードウェア資源とエネルギー効率の観点からエッジアプリケーションに適していることがわかった。 提案するDFPソリューションは,SoAよりも明らかに優れており,ハードウェアコストを極端に高くすることなく,要求されるハイパフォーマンスを実現することができることを示す。 これにより、提案するDFPは、現代の通信技術のようなエッジベースの高速アプリケーションに適している。

Intrusion detection systems (IDS) are crucial security measures nowadays to enforce network security. Their task is to detect anomalies in network communication and identify, if not thwart, possibly malicious behavior. Recently, machine learning has been deployed to construct intelligent IDS. This approach, however, is quite challenging particularly in distributed, highly dynamic, yet resource-constrained systems like Edge setups. In this paper, we tackle this issue from multiple angles by analyzing the concept of intelligent IDS (I-IDS) while addressing the specific requirements of Edge devices with a special focus on reconfigurability. Then, we introduce a systematic approach to constructing the I-IDS on reconfigurable Edge hardware. For this, we implemented our proposed IDS on state-of-the-art Field Programmable Gate Arrays (FPGAs) technology as (1) a purely FPGA-based dataflow processor (DFP) and (2) a co-designed approach featuring RISC-V soft-core as FPGA-based soft-core processor (SCP). We complete our paper with a comparison of the state of the art (SoA) in this domain. The results show that DFP and SCP are both suitable for Edge applications from hardware resource and energy efficiency perspectives. Our proposed DFP solution clearly outperforms the SoA and demonstrates that required high performance can be achieved without prohibitively high hardware costs. This makes our proposed DFP suitable for Edge-based high-speed applications like modern communication technology.
翻訳日:2024-04-18 18:22:00 公開日:2024-04-13
# タスク完了対話システムにおける反推定対話ポリシー学習

Anti-Overestimation Dialogue Policy Learning for Task-Completion Dialogue System ( http://arxiv.org/abs/2207.11762v2 )

ライセンス: Link先を確認
Chang Tian, Wenpeng Yin, Marie-Francine Moens, (参考訳) 対話ポリシーモジュールはタスク補完対話システムにおいて不可欠な部分である。 近年,強化学習(RL)に基づく対話政策への関心が高まっている。 その好ましいパフォーマンスと賢明なアクション決定は、アクション値の正確な推定に依存する。 過大評価問題は、最大作用値の推定が基礎的真理よりも大きく、不安定な学習プロセスと準最適政策をもたらすため、RLの広く知られている問題である。 この問題は、RLに基づく対話ポリシー学習に有害である。 この問題を軽減するために,本研究では,基底真理最大作用値の動的部分平均推定器(DPAV)を提案する。 DPAVは、予測された最大アクション値と最小アクション値との間の部分平均を計算する。 我々はDPAVを対話ポリシーとして深くQ-networkに組み込み、計算負荷の少ない3つのドメインの対話データセットの上位ベースラインよりも優れた、あるいは同等の結果が得られることを示す。 さらに、理論的には収束を証明し、他の方法と比較してバイアスの上と下の境界を導出する。

A dialogue policy module is an essential part of task-completion dialogue systems. Recently, increasing interest has focused on reinforcement learning (RL)-based dialogue policy. Its favorable performance and wise action decisions rely on an accurate estimation of action values. The overestimation problem is a widely known issue of RL since its estimate of the maximum action value is larger than the ground truth, which results in an unstable learning process and suboptimal policy. This problem is detrimental to RL-based dialogue policy learning. To mitigate this problem, this paper proposes a dynamic partial average estimator (DPAV) of the ground truth maximum action value. DPAV calculates the partial average between the predicted maximum action value and minimum action value, where the weights are dynamically adaptive and problem-dependent. We incorporate DPAV into a deep Q-network as the dialogue policy and show that our method can achieve better or comparable results compared to top baselines on three dialogue datasets of different domains with a lower computational load. In addition, we also theoretically prove the convergence and derive the upper and lower bounds of the bias compared with those of other methods.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-13
# NICEST:ロバストなシーングラフ生成のためのノイズラベル補正とトレーニング

NICEST: Noisy Label Correction and Training for Robust Scene Graph Generation ( http://arxiv.org/abs/2207.13316v2 )

ライセンス: Link先を確認
Lin Li, Jun Xiao, Hanrong Shi, Hanwang Zhang, Yi Yang, Wei Liu, Long Chen, (参考訳) ほぼ全ての既存のシーングラフ生成(SGG)モデルは、主流のSGGデータセットの地味なアノテーション品質を見落としている。 1) 手動でアノテートした正のサンプルはすべて等しく正しい。 2) 注釈なし陰性サンプルはすべて絶対的背景である。 本稿では,これら2つの仮定を破り,偏りのないSGGモデルのトレーニングを損なうような,ノイズの多い基礎構造予測ラベルが多数存在することを論じる。 そこで我々は,SGG:NICESTのためのNoIsyレーベルCorrEction and Sample Training戦略を提案する。 特にNICEとNISTの2つの部分から構成されており、高品質なサンプルを生成してノイズの多いラベル問題を排除し、効果的なトレーニング戦略を作成する。 NICEはまずノイズのあるサンプルを検出し、さらに高品質な述語ラベルを割り当てる。 NISTは多教師による知識蒸留に基づく訓練戦略であり、モデルが不偏の融合知識を学習できるようにする。 また、NISTのダイナミックなトレードオフ重み付け戦略は、異なる教師のバイアスを罰するように設計されている。 NICEとNISTの両方のモデルに依存しない性質のため、NICESTは任意のSGGアーキテクチャにシームレスに組み込んで、異なる述語カテゴリのパフォーマンスを向上させることができます。 さらに,SGGモデルの一般化をよりよく評価するために,先行するVGデータセットを再編成し,各対象カテゴリペアに対して,トレーニングとテストセットの述語分布を可能な限り異なるものにすることで,新たなベンチマークVG-OODを提案する。 このベンチマークは、主観対象圏に基づく周波数バイアスの影響を解消するのに役立つ。 異なるバックボーンやタスクに対する広範囲な改善と結果は、NICESTの各コンポーネントの有効性と一般化能力に証明されている。

Nearly all existing scene graph generation (SGG) models have overlooked the ground-truth annotation qualities of mainstream SGG datasets, i.e., they assume: 1) all the manually annotated positive samples are equally correct; 2) all the un-annotated negative samples are absolutely background. In this paper, we argue that neither of the assumptions applies to SGG: there are numerous noisy ground-truth predicate labels that break these two assumptions and harm the training of unbiased SGG models. To this end, we propose a novel NoIsy label CorrEction and Sample Training strategy for SGG: NICEST. Specifically, it consists of two parts: NICE and NIST, which rule out these noisy label issues by generating high-quality samples and the effective training strategy, respectively. NICE first detects noisy samples and then reassigns them more high-quality soft predicate labels. NIST is a multi-teacher knowledge distillation based training strategy, which enables the model to learn unbiased fusion knowledge. And a dynamic trade-off weighting strategy in NIST is designed to penalize the bias of different teachers. Due to the model-agnostic nature of both NICE and NIST, our NICEST can be seamlessly incorporated into any SGG architecture to boost its performance on different predicate categories. In addition, to better evaluate the generalization of SGG models, we further propose a new benchmark VG-OOD, by re-organizing the prevalent VG dataset and deliberately making the predicate distributions of the training and test sets as different as possible for each subject-object category pair. This new benchmark helps disentangle the influence of subject-object category based frequency biases. Extensive ablations and results on different backbones and tasks have attested to the effectiveness and generalization ability of each component of NICEST.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-13
# コントラスト的UCB:オンライン強化学習における効果的なコントラスト的自己監督学習

Contrastive UCB: Provably Efficient Contrastive Self-Supervised Learning in Online Reinforcement Learning ( http://arxiv.org/abs/2207.14800v3 )

ライセンス: Link先を確認
Shuang Qiu, Lingxiao Wang, Chenjia Bai, Zhuoran Yang, Zhaoran Wang, (参考訳) 特徴表現を抽出する能力を考えると、対照的な自己教師型学習は、(深層)強化学習(RL)の実践にうまく統合され、様々な応用における効率的な政策学習につながっている。 その壮大な経験的成功にもかかわらず、RLに対する対照的な学習の理解はいまだ解明されていない。 このようなギャップを狭めるために、低ランク遷移を持つマルコフ決定過程(MDP)とマルコフゲーム(MG)のクラスにおいて、RLがコントラスト学習によってどのように強化されるかを検討する。 両モデルに対して、コントラスト損失を最小限に抑えて、低ランクモデルの正しい特徴表現を抽出することを提案する。 さらに, オンライン環境下では, MDP や MG のオンラインRL アルゴリズムと対照的な損失を伴って, 新たな高信頼境界 (UCB) 型アルゴリズムを提案する。 さらに,本アルゴリズムが真の表現を復元し,MDPとMGの最適方針とナッシュ平衡を学習する際のサンプル効率を同時に達成することの理論的証明を行う。 また,UCBに基づくRLのコントラスト学習法の有効性を実証するための実証的研究を行った。 我々の知識を最大限に活用するために、表現学習にコントラスト学習を取り入れた最初の証明可能なオンラインRLアルゴリズムを提供する。 私たちのコードはhttps://github.com/Baichenjia/Contrastive-UCB.comで公開されています。

In view of its power in extracting feature representation, contrastive self-supervised learning has been successfully integrated into the practice of (deep) reinforcement learning (RL), leading to efficient policy learning in various applications. Despite its tremendous empirical successes, the understanding of contrastive learning for RL remains elusive. To narrow such a gap, we study how RL can be empowered by contrastive learning in a class of Markov decision processes (MDPs) and Markov games (MGs) with low-rank transitions. For both models, we propose to extract the correct feature representations of the low-rank model by minimizing a contrastive loss. Moreover, under the online setting, we propose novel upper confidence bound (UCB)-type algorithms that incorporate such a contrastive loss with online RL algorithms for MDPs or MGs. We further theoretically prove that our algorithm recovers the true representations and simultaneously achieves sample efficiency in learning the optimal policy and Nash equilibrium in MDPs and MGs. We also provide empirical studies to demonstrate the efficacy of the UCB-based contrastive learning method for RL. To the best of our knowledge, we provide the first provably efficient online RL algorithm that incorporates contrastive learning for representation learning. Our codes are available at https://github.com/Baichenjia/Contrastive-UCB.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-13
# 信頼者人口変動に対する耐性を有するオープンマルチエージェントシステムの生物学的にインスパイアされた計算信頼モデル

A biologically inspired computational trust model for open multi-agent systems which is resilient to trustor population changes ( http://arxiv.org/abs/2404.10014v1 )

ライセンス: Link先を確認
Zoi Lygizou, Dimitris Kalles, (参考訳) 現在の信頼と評価モデルには、オープンなマルチエージェントシステム(オープンMAS)に常駐または退避するエージェントに対処できないことや、継続的に変化する振る舞いなど、大きな制限がある。 本研究は,ヒト脳におけるシナプス可塑性と集合体形成にインスパイアされた,従来提案されていた分散計算信頼モデルであるCAに基づいている。 非常にダイナミックでオープンなMASの要件を満たすように設計されており、従来の信頼と評価モデルとの主な違いは、信託者がタスクを委譲する権限を選択していないことである。 我々は,CAモデルとFIREを比較するための一連のシミュレーションを行った。これは,オープンMASに対して,継続的なトラストとトラストの置き換えの条件下での,高度に確立された分散型信頼と評価モデルであり,また,トラストのタスク遂行能力の継続的な変化である。 主な発見は、FIREが受託者人口の変化よりも優れているのに対して、CAは受託者人口の変化に対して回復力があることである。 両モデルのパフォーマンスが環境変化に大きく影響しているにもかかわらず、受託者がパフォーマンスプロファイルを切り替えた場合、FIREは明らかに優れる。 調査の結果,適切な信頼モデルを使用するための学習が,実行中の動的条件に従って,信頼者の利益を最大化する可能性が示唆された。

Current trust and reputation models continue to have significant limitations, such as the inability to deal with agents constantly entering or exiting open multi-agent systems (open MAS), as well as continuously changing behaviors. Our study is based on CA, a previously proposed decentralized computational trust model from the trustee's point of view, inspired by synaptic plasticity and the formation of assemblies in the human brain. It is designed to meet the requirements of highly dynamic and open MAS, and its main difference with most conventional trust and reputation models is that the trustor does not select a trustee to delegate a task; instead, the trustee determines whether it is qualified to successfully execute it. We ran a series of simulations to compare CA model to FIRE, a well-established, decentralized trust and reputation model for open MAS under conditions of continuous trustee and trustor population replacement, as well as continuous change of trustees' abilities to perform tasks. The main finding is that FIRE is superior to changes in the trustee population, whereas CA is resilient to the trustor population changes. When the trustees switch performance profiles FIRE clearly outperforms despite the fact that both models' performances are significantly impacted by this environmental change. Findings lead us to conclude that learning to use the appropriate trust model, according to the dynamic conditions in effect could maximize the trustor's benefits.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-13
# ノイズ環境における不整光励起によるエネルギー伝達機構:効率制御における記憶効果

Energy Transfer Mechanism Under Incoherent Light Excitation in noisy Environments: Memory Effects in Efficiency Control ( http://arxiv.org/abs/2404.10016v1 )

ライセンス: Link先を確認
Rajesh Dutta, Biman Bagchi, (参考訳) 色相間のエネルギーギャップと結合定数のゆらぎは、2レベル系の集合体における吸収とエネルギー移動において重要な役割を果たす。 ノイズの多い環境では、ゆらぎは量子コヒーレンスを含むいくつかの要因を通してエネルギー伝達の効率を制御することができる。 近年の研究では、光誘起定常量子コヒーレンスが光励起を指定された「トラップ」状態に転送する効率に与える影響が研究されている。 しかしながら、これらの研究は通常、環境誘起変動に対するマルコフ的あるいは摂動近似のいずれかを用いている。 本研究では,久保の量子確率的リウヴィル方程式(QSLE)を用いて,メモリ効果を組み込む手法から脱却する。 励起の減衰(基底状態)と励起の運動の方向を与える所望のトラップの効果を紹介する。 光誘起ポンプの存在下では, 平均生存時間, 効率, および浴槽誘起変動の相関減衰時間との関係を確立する。 非マルコフ状態(変動強度Vの小さな値と浴槽相関時間bの逆)からマルコフ極限(Vとbが共に大きい場合)への遷移中の定常状態のコヒーレンスが減少し、効率が低下する。 本研究では, 平衡および励起浴状態における移動フラックスとコヒーレンスの想像的部分との間の関係を, 両者の相関関係で回復し, 相関関係および非相関関係の両浴モデルにおいて, 現場エネルギーの不均一性に対する効率の非単調依存性を明らかにする。

Fluctuations in the energy gap and coupling constants in and between chromophores can play important role in the absorption and energy transfer across a collection of two level systems. In a noisy environment, fluctuations can control efficiency of energy transfer through several factors, including quantum coherence. Several recent studies have investigated the impact of light-induced stationary quantum coherence on the efficiency of transferring optical excitation to a designated "trap" state, crucial for subsequent reactions such as those in photosynthesis. However, these studies have typically employed either a Markovian, or a perturbative approximation for the environment induced fluctuations. In this study, we depart from these approaches to incorporate memory effects by using Kubo's quantum stochastic Liouville equation (QSLE). We introduce the effects of the decay of excitation (to the ground state) and the desired trapping that provides the direction of the motion of the excitation. In the presence of light-induced pumping, we establish a relation between the mean survival time, efficiency, and the correlation decay time of the bath-induced fluctuations. We find a decrease in the steady state coherence during the transition from the non-Markovian regime (characterized by small values of fluctuation strength V and inverse of bath correlation time b) to the Markovian limit (where V and b are both large), resulting in a decrease in efficiency. We recover a connection between transfer flux and the imaginary part of coherences in both equilibrium and excited bath states, in both correlated and We uncover a non-monotonic dependence of efficiency on site energy heterogeneity for both correlated and uncorrelated bath models.
翻訳日:2024-04-17 21:08:17 公開日:2024-04-13
# 線形関数近似を用いた非定常強化学習

Nonstationary Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2010.04244v3 )

ライセンス: Link先を確認
Huozhi Zhou, Jinglin Chen, Lav R. Varshney, Ashish Jagmohan, (参考訳) ドリフト環境下での線形関数近似によるマルコフ決定過程(MDP)における強化学習(RL)について考察する。 具体的には、報酬関数と状態遷移関数の両方が時間とともに進化するが、その総変分は$\textit{variation budget}$を超えない。 このアルゴリズムは, 周期的再起動による最小二乗値反復の楽観的な修正であり, 変動予算が分かっていれば, その動的後悔を和らげるものである。 次にパラメータフリーアルゴリズム $\texttt{Ada-LSVI-UCB-Restart}$ を提案する。 また、非定常線形 MDP に対する最初の minimax dynamic regret lower bound を導出し、Jin et al (2020) によって未解決の線型 MDP に対する minimax regret lower bound を副生成物として確立する。 最後に,提案アルゴリズムの有効性を示す数値実験を行った。

We consider reinforcement learning (RL) in episodic Markov decision processes (MDPs) with linear function approximation under drifting environment. Specifically, both the reward and state transition functions can evolve over time but their total variations do not exceed a $\textit{variation budget}$. We first develop $\texttt{LSVI-UCB-Restart}$ algorithm, an optimistic modification of least-squares value iteration with periodic restart, and bound its dynamic regret when variation budgets are known. Then we propose a parameter-free algorithm $\texttt{Ada-LSVI-UCB-Restart}$ that extends to unknown variation budgets. We also derive the first minimax dynamic regret lower bound for nonstationary linear MDPs and as a byproduct establish a minimax regret lower bound for linear MDPs unsolved by Jin et al. (2020). Finally, we provide numerical experiments to demonstrate the effectiveness of our proposed algorithms.
翻訳日:2024-04-17 00:52:57 公開日:2024-04-13
# Bayesian Kernelized Tensor Regressionを用いた時空間変動係数のスケーラブルなモデル化

Scalable Spatiotemporally Varying Coefficient Modelling with Bayesian Kernelized Tensor Regression ( http://arxiv.org/abs/2109.00046v4 )

ライセンス: Link先を確認
Mengying Lei, Aurelie Labbe, Lijun Sun, (参考訳) 空間統計学における回帰手法として、時空間変動係数モデル(STVC)は、時空間と時空間の非定常かつ解釈可能な応答-共変関係を発見する重要なツールである。 しかし, 計算コストが高いため, 大規模時空間解析にSTVCを適用することは困難である。 この課題に対処するために、三階テンソル構造を用いて時空間変動係数を要約し、時空間変動係数モデルを特別な低ランクテンソル回帰問題として再構成することを提案する。 低ランクの分解は、パラメータ数が大幅に削減された大規模データセットのグローバルパターンを効果的にモデル化することができる。 局所的時空間依存をさらに取り入れるために,空間的および時間的因子行列にガウス過程(GP)を用いた。 我々は、全体フレームワークをBayesian Kernelized Tensor Regression (BKTR)と呼び、カーネル化されたテンソル分解は、低ランクの共分散構造を持つ多変量時空間過程をモデル化するための新しいスケーラブルなアプローチと考えることができる。 モデル推論のために、Gibsサンプリングを用いて係数行列の更新とスライスサンプリングを行い、カーネルハイパーパラメーターを更新する効率的なマルコフ連鎖モンテカルロ (MCMC) アルゴリズムを開発した。 そこで本研究では,BKTRのモデル推定とパラメータ推定において,BKTRの優れた性能と効率性を確認した。

As a regression technique in spatial statistics, the spatiotemporally varying coefficient model (STVC) is an important tool for discovering nonstationary and interpretable response-covariate associations over both space and time. However, it is difficult to apply STVC for large-scale spatiotemporal analyses due to its high computational cost. To address this challenge, we summarize the spatiotemporally varying coefficients using a third-order tensor structure and propose to reformulate the spatiotemporally varying coefficient model as a special low-rank tensor regression problem. The low-rank decomposition can effectively model the global patterns of large data sets with a substantially reduced number of parameters. To further incorporate the local spatiotemporal dependencies, we use Gaussian process (GP) priors on the spatial and temporal factor matrices. We refer to the overall framework as Bayesian Kernelized Tensor Regression (BKTR), and kernelized tensor factorization can be considered a new and scalable approach to modeling multivariate spatiotemporal processes with a low-rank covariance structure. For model inference, we develop an efficient Markov chain Monte Carlo (MCMC) algorithm, which uses Gibbs sampling to update factor matrices and slice sampling to update kernel hyperparameters. We conduct extensive experiments on both synthetic and real-world data sets, and our results confirm the superior performance and efficiency of BKTR for model estimation and parameter inference.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-13
# 複合・集束・光状態の一般化と応用

Generalising concentratable entanglement for practical applications: mixed, qudit, and optical states ( http://arxiv.org/abs/2112.04333v6 )

ライセンス: Link先を確認
Steph Foulds, Oliver Prove, Viv Kendon, (参考訳) 純粋な量子ビット状態に適用された絡み合いの検出と定量化のための制御SWAP試験は、状態の小さな誤差に対して堅牢であり、大規模な多ビット状態 [Foulds et al , QST 6 035002, 2021] に対して効率的である。 我々はこれを拡張し、関連する測度 \emph{concentratable entanglement} (CE) を量子情報処理における重要な実用的な応用を可能にする。 我々は,高次元(立方体)状態におけるテストの解析的確率式,多量子状態における2部切断の絡み合いの判定,およびいくつかの重要な絡み合い光学状態について述べる。 我々は、J. L. Beckey et al , Phys で与えられる収束可能な絡み合いの低い境界について検討する。 A 107, 062425 (2023) と、c-SWAPテストエラーに対して堅牢な混合状態集中型絡み合いの上界を予想する。 実験状態は常にわずかに混合されているため、我々の研究はc-SWAP試験とCE測定を絡み合いを特徴づける実験に適用するのに適している。

The controlled SWAP test for detecting and quantifying entanglement applied to pure qubit states is robust to small errors in the states, and efficient for large multi-qubit states [Foulds et al., QST 6 035002, 2021]. We extend this, and the related measure \emph{concentratable entanglement} (CE), to enable important practical applications in quantum information processing. We provide the analytical probability expressions for the test on higher dimensional (qudit) states, determination of entanglement across a bipartite cut in multi-qubit states, and some key types of entangled optical states. We investigate the lower bound of concentratable entanglement given in J. L. Beckey et al., Phys. Rev. A 107, 062425 (2023) and conjecture an upper bound of the mixed state concentrable entanglement that is robust to c-SWAP test errors. Since experimental states are always slightly mixed, our work makes the c-SWAP test and CE measure suitable for application in experiments to characterise entanglement.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-13
# Sketched Sequential Quadratic Programmingによる制約付き確率最適化の統計的推定

Statistical Inference of Constrained Stochastic Optimization via Sketched Sequential Quadratic Programming ( http://arxiv.org/abs/2205.13687v4 )

ライセンス: Link先を確認
Sen Na, Michael W. Mahoney, (参考訳) 制約付き確率非線形最適化問題のオンライン統計的推測を考察する。 これらの問題を解決するためにStoSQP法を適用し、Karush-Kuhn-Tucker(KKT)条件にニュートン法を適用したと見なすことができる。 それぞれの反復において、StoSQP法は2次プログラムを解くことでニュートン方向を計算し、次に適切な適応ステップサイズ $\bar{\alpha}_t$ を選択して、原始二元イテレートを更新する。 提案手法の計算コストを抑えるため,反復的スケッチ解法を用いて各反復における二次的プログラムを不正確に解いた。 特に、反復が進むにつれてスケッチ解決器の近似誤差が消える必要はない。 上述のStoSQP法では、微妙な仮定で、再スケールされた原始-双対列 $1/\sqrt {\bar{\alpha}_t}\cdot (x_t - x^\star, \lambda_t - \lambda^\star)$ が、下層のスケッチ分布に依存する非自明な共分散行列を持つ平均零ガウス分布に収束することを示す。 実際に推論を行うため,プラグイン共分散行列推定器も解析する。 本稿では、CUTEstテストセットにおけるベンチマーク非線形問題と線形・非線形制約回帰問題の両方について、この手法の漸近正規性結果について述べる。

We consider online statistical inference of constrained stochastic nonlinear optimization problems. We apply the Stochastic Sequential Quadratic Programming (StoSQP) method to solve these problems, which can be regarded as applying second-order Newton's method to the Karush-Kuhn-Tucker (KKT) conditions. In each iteration, the StoSQP method computes the Newton direction by solving a quadratic program, and then selects a proper adaptive stepsize $\bar{\alpha}_t$ to update the primal-dual iterate. To reduce dominant computational cost of the method, we inexactly solve the quadratic program in each iteration by employing an iterative sketching solver. Notably, the approximation error of the sketching solver need not vanish as iterations proceed, meaning that the per-iteration computational cost does not blow up. For the above StoSQP method, we show that under mild assumptions, the rescaled primal-dual sequence $1/\sqrt{\bar{\alpha}_t}\cdot (x_t - x^\star, \lambda_t - \lambda^\star)$ converges to a mean-zero Gaussian distribution with a nontrivial covariance matrix depending on the underlying sketching distribution. To perform inference in practice, we also analyze a plug-in covariance matrix estimator. We illustrate the asymptotic normality result of the method both on benchmark nonlinear problems in CUTEst test set and on linearly/nonlinearly constrained regression problems.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-13
# ES-GNN:エッジ分割によるホモフィリーを越えたグラフニューラルネットワークの一般化

ES-GNN: Generalizing Graph Neural Networks Beyond Homophily with Edge Splitting ( http://arxiv.org/abs/2205.13700v3 )

ライセンス: Link先を確認
Jingwei Guo, Kaizhu Huang, Rui Zhang, Xinping Yi, (参考訳) グラフニューラルネットワーク(GNN)は、複数のグラフ解析タスクにおいて大きな成功を収めてきたが、現代の変種は、主にホモフィリーの強い帰納バイアスに依存している。 しかし、現実世界のネットワークは通常、ホモ親和性およびヘテロ親和性リンクパターンの両方を示しており、隣接ノードは異種属性と異なるラベルを共有することができる。 したがって、ノード近接を均等に平滑化するGNNは、タスク関連情報と非有害な情報の両方を集約し、ヘテロ親和性グラフに一般化する能力を制限し、非破壊性を引き起こす可能性がある。 本研究では,学習タスクに関係のないグラフエッジを適応的に識別する新しいエッジ分割GNN(ES-GNN)フレームワークを提案する。 これは本質的に、元のグラフを同じノードセットを持つ2つの部分グラフに変換するが、相補的なエッジセットは動的である。 これを踏まえ、これらのサブグラフとエッジ分割を別々に行うことで、タスク関連・無関係な特徴を解消する。 理論的には、我々のES-GNNは、そのモチベーションをさらに具現化し、ホモフィリーを超えて改良された一般化を解釈する非交叉グラフデノナイジング問題の解とみなすことができる。 11のベンチマークと1の合成データセットに対する大規模な実験は、ES-GNNの効果的な性能を示すだけでなく、逆グラフに対する頑健さと過度に滑らかな問題の緩和を強調している。

While Graph Neural Networks (GNNs) have achieved enormous success in multiple graph analytical tasks, modern variants mostly rely on the strong inductive bias of homophily. However, real-world networks typically exhibit both homophilic and heterophilic linking patterns, wherein adjacent nodes may share dissimilar attributes and distinct labels. Therefore, GNNs smoothing node proximity holistically may aggregate both task-relevant and irrelevant (even harmful) information, limiting their ability to generalize to heterophilic graphs and potentially causing non-robustness. In this work, we propose a novel Edge Splitting GNN (ES-GNN) framework to adaptively distinguish between graph edges either relevant or irrelevant to learning tasks. This essentially transfers the original graph into two subgraphs with the same node set but complementary edge sets dynamically. Given that, information propagation separately on these subgraphs and edge splitting are alternatively conducted, thus disentangling the task-relevant and irrelevant features. Theoretically, we show that our ES-GNN can be regarded as a solution to a disentangled graph denoising problem, which further illustrates our motivations and interprets the improved generalization beyond homophily. Extensive experiments over 11 benchmark and 1 synthetic datasets not only demonstrate the effective performance of ES-GNN but also highlight its robustness to adversarial graphs and mitigation of the over-smoothing problem.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-13
# ロシアとウクライナの紛争における低レベルのサイバー犯罪アクターの役割を探る

Getting Bored of Cyberwar: Exploring the Role of Low-level Cybercrime Actors in the Russia-Ukraine Conflict ( http://arxiv.org/abs/2208.10629v7 )

ライセンス: Link先を確認
Anh V. Vu, Daniel R. Thomas, Ben Collier, Alice Hutchings, Richard Clayton, Ross Anderson, (参考訳) ロシアとウクライナの紛争において、低レベルのサイバー犯罪俳優によるサイバー攻撃が果たす役割について、かなりの論評が寄せられている。 我々は,358kのWebサイト偽造攻撃,1.7MのUDP増幅DDoS攻撃,Hack Forumsの372人のユーザによる1764の投稿,および侵略の2ヶ月前と4ヶ月後のボランティアハッキンググループの441のTelegram発表(58kの回答を含む)を分析した。 ネット上での議論は大幅に増加し、ロシアとウクライナを標的とする攻撃も大きく増えた。 しかし、ハイブリット戦争におけるこれらのプレイヤーの役割は小さなものであり、国家が支援する作戦において、永続的で動機づけられた「ハックティビスト」とは分離されるべきである。 紛争への彼らの関与は短命に過ぎず、数週間後に状況について議論し、ウェブサイトの偽装とDDoS攻撃の両方を実行することに明確な関心を失っている。

There has been substantial commentary on the role of cyberattacks carried out by low-level cybercrime actors in the Russia-Ukraine conflict. We analyse 358k website defacement attacks, 1.7M UDP amplification DDoS attacks, 1764 posts made by 372 users on Hack Forums mentioning the two countries, and 441 Telegram announcements (with 58k replies) of a volunteer hacking group for two months before and four months after the invasion. We find the conflict briefly but notably caught the attention of low-level cybercrime actors, with significant increases in online discussion and both types of attacks targeting Russia and Ukraine. However, there was little evidence of high-profile actions; the role of these players in the ongoing hybrid warfare is minor, and they should be separated from persistent and motivated 'hacktivists' in state-sponsored operations. Their involvement in the conflict appears to have been short-lived and fleeting, with a clear loss of interest in discussing the situation and carrying out both website defacement and DDoS attacks against either Russia or Ukraine after just a few weeks.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-13
# 単一画像超解像のためのマルチスケールアテンションネットワーク

Multi-scale Attention Network for Single Image Super-Resolution ( http://arxiv.org/abs/2209.14145v3 )

ライセンス: Link先を確認
Yan Wang, Yusen Li, Gang Wang, Xiaoguang Liu, (参考訳) ConvNetsは、より大きな受容場を利用することで、高いレベルのタスクでトランスフォーマーと競合することができる。 超高解像度でConvNetの可能性を解き放つために,マルチスケールアテンションネットワーク(MAN)を提案する。 特に,マルチスケール大規模カーネルアテンション(MLKA)とゲート空間アテンションユニット(GSAU)を提案する。 MLKAにより,マルチスケールおよびゲート方式でカーネルの注意を改良し,様々な粒度レベルでの注目マップを得るとともに,グローバルおよびローカル情報を集約し,潜在的ブロッキングアーティファクトを回避する。 GSAUでは、不要な線形層を除去し、情報的空間文脈を集約するためにゲート機構と空間的注意を統合する。 設計の有効性を確認するため,MLKAとGSAUの異なる数のMLKAとGSAUを単純に積み重ねることで,MANを複数の複雑度で評価する。 実験結果から,我々のMANはSwinIRと同等に動作し,最先端の性能と計算とのトレードオフを様々に達成できることが示唆された。

ConvNets can compete with transformers in high-level tasks by exploiting larger receptive fields. To unleash the potential of ConvNet in super-resolution, we propose a multi-scale attention network (MAN), by coupling classical multi-scale mechanism with emerging large kernel attention. In particular, we proposed multi-scale large kernel attention (MLKA) and gated spatial attention unit (GSAU). Through our MLKA, we modify large kernel attention with multi-scale and gate schemes to obtain the abundant attention map at various granularity levels, thereby aggregating global and local information and avoiding potential blocking artifacts. In GSAU, we integrate gate mechanism and spatial attention to remove the unnecessary linear layer and aggregate informative spatial context. To confirm the effectiveness of our designs, we evaluate MAN with multiple complexities by simply stacking different numbers of MLKA and GSAU. Experimental results illustrate that our MAN can perform on par with SwinIR and achieve varied trade-offs between state-of-the-art performance and computations.
翻訳日:2024-04-17 00:46:46 公開日:2024-04-13
# $\sqrt{T}$ Regret を用いた分散線形二次レギュレータの学習

Learning Decentralized Linear Quadratic Regulator with $\sqrt{T}$ Regret ( http://arxiv.org/abs/2210.08886v3 )

ライセンス: Link先を確認
Lintao Ye, Ming Chi, Ruiquan Liao, Vijay Gupta, (参考訳) 本稿では,システムモデルが未知な場合の分散線形二次規制を適応的に設計するオンライン学習アルゴリズムを提案する。 このアルゴリズムは、状態フィードバックコントローラの障害フィードバック表現と、オンライン凸最適化とメモリと遅延フィードバックを組み合わせた。 システムが安定であるか、あるいは既知の安定化コントローラが与えられたという仮定の下で、我々のコントローラは、部分的にネストされた情報パターンの場合、時間水平線$T$で$\sqrt{T}$までスケールする期待された後悔を楽しんでいることを示す。 より一般的な情報パターンについては、システムモデルが知られている場合でも最適制御器は未知である。 この場合、線形準最適制御器に関して、制御器の後悔が示される。 数値実験により理論的知見を検証した。

We propose an online learning algorithm that adaptively designs a decentralized linear quadratic regulator when the system model is unknown a priori and new data samples from a single system trajectory become progressively available. The algorithm uses a disturbance-feedback representation of state-feedback controllers coupled with online convex optimization with memory and delayed feedback. Under the assumption that the system is stable or given a known stabilizing controller, we show that our controller enjoys an expected regret that scales as $\sqrt{T}$ with the time horizon $T$ for the case of partially nested information pattern. For more general information patterns, the optimal controller is unknown even if the system model is known. In this case, the regret of our controller is shown with respect to a linear sub-optimal controller. We validate our theoretical findings using numerical experiments.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-13
# ComCLIP: 学習不要なコンポジションイメージとテキストマッチング

ComCLIP: Training-Free Compositional Image and Text Matching ( http://arxiv.org/abs/2211.13854v5 )

ライセンス: Link先を確認
Kenan Jiang, Xuehai He, Ruize Xu, Xin Eric Wang, (参考訳) Contrastive Language- Image Pretraining (CLIP) は画像とテキストのマッチングに優れたゼロショット性能を示した。 しかし、CLIPのような事前訓練済みの視覚言語モデルをコンポジションイメージやテキストマッチングに適応させることは、依然として困難である。 本稿では、ゼロショット画像とテキストマッチングにおけるより優れた合成一般化に向けて、因果的観点から問題を考察する。 そこで本研究では,新しいCLIPモデル(ComCLIP)を提案する。 ComCLIPは、入力された画像を被写体、オブジェクト、アクションサブイメージに切り離し、CLIPのビジョンエンコーダとテキストエンコーダを構成し、合成テキスト埋め込みとサブイメージ埋め込みに対して進化するマッチングを実行する。 このようにして、ComCLIPは、事前訓練されたCLIPモデルによって導入された急激な相関を緩和し、各コンポーネントの重要性を動的に評価することができる。 SVO, ComVG, Winoground, VL-checklistの4つの合成画像テキストマッチングデータセットと, Flick30K, MSCOCOの2つの一般的な画像テキスト検索データセットについて実験を行った。 私たちのコードはhttps://github.com/eric-ai-lab/ComCLIPで参照できます。

Contrastive Language-Image Pretraining (CLIP) has demonstrated great zero-shot performance for matching images and text. However, it is still challenging to adapt vision-lanaguage pretrained models like CLIP to compositional image and text matching -- a more challenging image and text matching task requiring the model understanding of compositional word concepts and visual components. Towards better compositional generalization in zero-shot image and text matching, in this paper, we study the problem from a causal perspective: the erroneous semantics of individual entities are essentially confounders that cause the matching failure. Therefore, we propose a novel \textbf{\textit{training-free}} compositional CLIP model (ComCLIP). ComCLIP disentangles input images into subjects, objects, and action sub-images and composes CLIP's vision encoder and text encoder to perform evolving matching over compositional text embedding and sub-image embeddings. In this way, ComCLIP can mitigate spurious correlations introduced by the pretrained CLIP models and dynamically evaluate the importance of each component. Experiments on four compositional image-text matching datasets: SVO, ComVG, Winoground, and VL-checklist, and two general image-text retrieval datasets: Flick30K, and MSCOCO demonstrate the effectiveness of our plug-and-play method, which boosts the \textbf{\textit{zero-shot}} inference ability of CLIP, SLIP, and BLIP2 even without further training or fine-tuning. Our codes can be found at https://github.com/eric-ai-lab/ComCLIP.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-13
# レモンはいつパープルか? : 視覚・言語モデルの概念的バイアス

When are Lemons Purple? The Concept Association Bias of Vision-Language Models ( http://arxiv.org/abs/2212.12043v2 )

ライセンス: Link先を確認
Yutaro Yamada, Yingtian Tang, Yoyo Zhang, Ilker Yildirim, (参考訳) CLIPのような大規模視覚言語モデルは、ゼロショット画像分類と画像からテキストへの検索において顕著な性能を示している。 しかし、視覚的質問応答(VQA)のような、視覚と言語間のよりきめ細かい対応を必要とするタスクでは、そのようなパフォーマンスは実現しない。 VQAなどの課題にこれらのモデルを適用することの難しさの潜在的原因として,概念アソシエーションバイアス(CAB)と呼ばれる視覚言語モデルの興味深い現象を報告した。 CABのモデルは、入力を概念の袋として扱い、他の欠落した概念をクロスモーダルに満たそうとする傾向があり、予期せぬゼロショット予測をもたらす。 また,CLIPのゼロショット分類性能は,対象物(egナス)と属性(eg色紫)との間に強い概念的関連がある場合に大きく低下することを示した。 また、CABの強度がVQAの性能を予測することも示している。 CABは、自己回帰的損失を併用しても、対照的な損失で訓練された視覚言語モデルで一般的である。 しかし、自己回帰的損失にのみ依存するモデルは、CABの兆候を最小または全く示さないようである。

Large-scale vision-language models such as CLIP have shown impressive performance on zero-shot image classification and image-to-text retrieval. However, such performance does not realize in tasks that require a finer-grained correspondence between vision and language, such as Visual Question Answering (VQA). As a potential cause of the difficulty of applying these models to VQA and similar tasks, we report an interesting phenomenon of vision-language models, which we call the Concept Association Bias (CAB). We find that models with CAB tend to treat input as a bag of concepts and attempt to fill in the other missing concept crossmodally, leading to an unexpected zero-shot prediction. We demonstrate CAB by showing that CLIP's zero-shot classification performance greatly suffers when there is a strong concept association between an object (e.g. eggplant) and an attribute (e.g. color purple). We also show that the strength of CAB predicts the performance on VQA. We observe that CAB is prevalent in vision-language models trained with contrastive losses, even when autoregressive losses are jointly employed. However, a model that solely relies on autoregressive loss seems to exhibit minimal or no signs of CAB.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-13
# サブステーションパトロール検査のためのタスク指向セマンティック画像通信システム

A Specific Task-oriented Semantic Image Communication System for substation patrol inspection ( http://arxiv.org/abs/2301.03331v2 )

ライセンス: Link先を確認
Senran Fan, Haotai Liang, Chen Dong, Xiaodong Xu, Geng Liu, (参考訳) インテリジェントな検査ロボットは、変電所パトロール検査に広く使われており、変電所パトロールやシーンイメージの送信によって潜在的な安全リスクをチェックするのに役立つ。 しかし、信号の弱い辺縁部をパトロールする場合は、隠れた危険の除去に使用されるために、シーンイメージを必然的に送信することはできないため、ロボットの日々の作業の質は大幅に低下する。 このような問題を解決するため,Imag-STSCIのタスク指向セマンティックコミュニケーションシステムを設計し,弱い信号下での知的ロボットがより鮮明な画像を得るための意味的特徴抽出,伝達,復元,拡張を行う。 このようなサブステーションパトロールインスペクションタスクにおいて、画像の特定の詳細しか必要とせず、低ビットレートや低信号-雑音比の状況に直面した場合に、重要な意味情報の明確性を確保するために、そのような特定のタスクにおける意味的拡張の新しいパラダイムを提案する。 実測に基づくシミュレーションを通して、STSCIは一般に、信号対雑音比の低い条件下であっても、サブステーションパトロール検査タスクにおいて、従来の画像圧縮ベースやチャネル符号化ベース、その他の意味コミュニケーションシステムを上回ることができることを示した。

Intelligent inspection robots are widely used in substation patrol inspection, which can help check potential safety hazards by patrolling the substation and sending back scene images. However, when patrolling some marginal areas with weak signal, the scene images cannot be sucessfully transmissted to be used for hidden danger elimination, which greatly reduces the quality of robots'daily work. To solve such problem, a Specific Task-oriented Semantic Communication System for Imag-STSCI is designed, which involves the semantic features extraction, transmission, restoration and enhancement to get clearer images sent by intelligent robots under weak signals. Inspired by that only some specific details of the image are needed in such substation patrol inspection task, we proposed a new paradigm of semantic enhancement in such specific task to ensure the clarity of key semantic information when facing a lower bit rate or a low signal-to-noise ratio situation. Across the reality-based simulation, experiments show our STSCI can generally surpass traditional image-compression-based and channel-codingbased or other semantic communication system in the substation patrol inspection task with a lower bit rate even under a low signal-to-noise ratio situation.
翻訳日:2024-04-17 00:36:54 公開日:2024-04-13
# ゼロオーダー最適化が人のフィードバックに到達 - オラクルのランク付けによる学習

Zeroth-Order Optimization Meets Human Feedback: Provable Learning via Ranking Oracles ( http://arxiv.org/abs/2303.03751v3 )

ライセンス: Link先を確認
Zhiwei Tang, Dmitry Rybin, Tsung-Hui Chang, (参考訳) 本研究では,ブラックボックスの目的関数を,現実世界のシナリオ,特に人間の審査員による評価において頻繁に発生する格付けオラクルの状況を通じてのみ測定できるような,新たな最適化課題を掘り下げる。 このような課題は、人間によるガイダンスを用いた大規模言語モデル(LLM)のパフォーマンス向上に最近採用されたRLHF(Reinforcement Learning with Human Feedback)から着想を得ている。 本稿では,ZO-RankSGDを提案する。 アルゴリズムは、新しい階数に基づくランダム推定器を用いて、降下方向を決定し、定常点への収束を保証する。 さらに、ZO-RankSGDは強化学習(RL)におけるポリシー最適化問題にも容易に適用できる。 最後に,ZO-RankSGDの有効性を示す。人間のランク付けフィードバックによる拡散生成モデルにより生成された画像の品質向上である。 実験を通して、ZO-RankSGDは、ほんの数ラウンドのフィードバックだけで生成した画像のディテールを大幅に向上できることがわかった。 全体的な研究は、ランク付けフィードバックのみで関数を最適化する問題に対処することで、ゼロ階最適化の分野を前進させ、人工知能(AI)を人間の意図に合わせるための新しい効果的なアプローチを提供する。

In this study, we delve into an emerging optimization challenge involving a black-box objective function that can only be gauged via a ranking oracle-a situation frequently encountered in real-world scenarios, especially when the function is evaluated by human judges. Such challenge is inspired from Reinforcement Learning with Human Feedback (RLHF), an approach recently employed to enhance the performance of Large Language Models (LLMs) using human guidance. We introduce ZO-RankSGD, an innovative zeroth-order optimization algorithm designed to tackle this optimization problem, accompanied by theoretical assurances. Our algorithm utilizes a novel rank-based random estimator to determine the descent direction and guarantees convergence to a stationary point. Moreover, ZO-RankSGD is readily applicable to policy optimization problems in Reinforcement Learning (RL), particularly when only ranking oracles for the episode reward are available. Last but not least, we demonstrate the effectiveness of ZO-RankSGD in a novel application: improving the quality of images generated by a diffusion generative model with human ranking feedback. Throughout experiments, we found that ZO-RankSGD can significantly enhance the detail of generated images with only a few rounds of human feedback. Overall, our work advances the field of zeroth-order optimization by addressing the problem of optimizing functions with only ranking feedback, and offers a new and effective approach for aligning Artificial Intelligence (AI) with human intentions.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-13
# No Easy Way Out: ヘイトとハラスメントを抑えるためのExtremist Forumの非プラットフォーム化の効果

No Easy Way Out: the Effectiveness of Deplatforming an Extremist Forum to Suppress Hate and Harassment ( http://arxiv.org/abs/2304.07037v7 )

ライセンス: Link先を確認
Anh V. Vu, Alice Hutchings, Ross Anderson, (参考訳) 世界中の議員や政策立案者は、違法で有害で望ましくない物質をオンラインで抑制するための選択肢を議論している。 いくつかの量的データに基づいて、オンラインハラスメントやハラスメントを抑えるためにアクティブなコミュニティを非プラットフォーム化することは、いくつかのテック企業が協力して取り組んでいるとしても、困難であることを示す。 われわれのケーススタディは、2022年後半に最大で最長のハラスメントフォーラムKiwi Farmsのディスラプトだ。 数ヵ月にわたって多くのテック企業が積極的に参加しているにもかかわらず、このキャンペーンはフォーラムを閉鎖し、好ましくないコンテンツを削除することはできなかった。 大衆の意識を高めながら、急激なプラットフォーム変位と交通の断片化に繋がった。 活動の一部はテレグラムに移され、トラフィックは主要領域から以前放棄された代替手段に移行した。 フォーラムは数週間間断続的な停止を経験し、その後、キャンペーンを主導するコミュニティは関心を失い、トラフィックはメインドメインに向けられ、利用者はすぐに戻って、フォーラムはオンラインに戻り、さらにつながりを増した。 フォーラムのメンバーは、事件の直後に議論をやめ、フォーラムの活動、アクティブユーザー、スレッド、投稿、トラフィックがほぼ半分になった。 裁判所命令のないコミュニティの非プラットフォーム化は、検閲と言論の自由に関する哲学的問題、オンラインコンテンツモデレーションにおける産業の役割に関する倫理的および法的問題、民間人対政府の行動の有効性に関する実践的問題を引き起こす。 個別のサービス提供者に対して一連の裁判所命令を用いて分散したコミュニティを構築することは、検閲がキーメンテナを逮捕、合流、その他の妨害によって無力化できなければ、非常に効果的とは思えない。

Legislators and policymakers worldwide are debating options for suppressing illegal, harmful and undesirable material online. Drawing on several quantitative data sources, we show that deplatforming an active community to suppress online hate and harassment, even with a substantial concerted effort involving several tech firms, can be hard. Our case study is the disruption of the largest and longest-running harassment forum Kiwi Farms in late 2022, which is probably the most extensive industry effort to date. Despite the active participation of a number of tech companies over several consecutive months, this campaign failed to shut down the forum and remove its objectionable content. While briefly raising public awareness, it led to rapid platform displacement and traffic fragmentation. Part of the activity decamped to Telegram, while traffic shifted from the primary domain to previously abandoned alternatives. The forum experienced intermittent outages for several weeks, after which the community leading the campaign lost interest, traffic was directed back to the main domain, users quickly returned, and the forum was back online and became even more connected. The forum members themselves stopped discussing the incident shortly thereafter, and the net effect was that forum activity, active users, threads, posts and traffic were all cut by about half. Deplatforming a community without a court order raises philosophical issues about censorship versus free speech; ethical and legal issues about the role of industry in online content moderation; and practical issues on the efficacy of private-sector versus government action. Deplatforming a dispersed community using a series of court orders against individual service providers appears unlikely to be very effective if the censor cannot incapacitate the key maintainers, whether by arresting them, enjoining them or otherwise deterring them.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-13
# AI信仰の倫理へ向けて

Toward an Ethics of AI Belief ( http://arxiv.org/abs/2304.14577v7 )

ライセンス: Link先を確認
Winnie Ma, Vincent Valton, (参考訳) 本稿では、認識論者であり、機械学習科学者である我々は、AIにおける哲学研究の新たな領域、すなわちAIに対する信念の倫理を追求する必要があると論じる。 ここでは、信念の倫理を、道徳的、実践的、その他の非真理的な信念の次元に関する認識学と倫理の交点の分野を指すものとして捉えている。 本稿では,真であること,正当性であること,知識の構成など,信念が一定の評価基準を満たすかどうかという問題よりも,人間と人工の両方のエージェントが信じるべきものについての信念倫理の規範的問題に主に関心を寄せる。 我々は、AIの信念の倫理に応用できる(人間)信念の倫理において、現存する4つのトピックについて提案する:AIによるドクサスティックな誤り(それらについて保持された信念によって誰かを悪用する)、道徳的に義務づけられた信念(エージェントが保持する義務があるという信念)、実践的・道徳的エンクローハメント(信念の実践的・道徳的特徴がその認識的地位に関係している場合、この場合、エージェントがその信念を保持するべきかどうかに特に焦点をあてる)、AI信念に対する道徳的責任。 我々はまた、AI信仰研究の倫理として一般に認識されていない比較的初期段階の2つの哲学研究分野を示すが、それは様々な信念の道徳的・実践的な側面、すなわちAIの疫学的・倫理的非植民地化、そしてAIにおける疫学的不正を調査することによって、この研究分野に該当することを示している。

In this paper we, an epistemologist and a machine learning scientist, argue that we need to pursue a novel area of philosophical research in AI - the ethics of belief for AI. Here we take the ethics of belief to refer to a field at the intersection of epistemology and ethics concerned with possible moral, practical, and other non-truth-related dimensions of belief. In this paper we will primarily be concerned with the normative question within the ethics of belief regarding what agents - both human and artificial - ought to believe, rather than with questions concerning whether beliefs meet certain evaluative standards such as being true, being justified, constituting knowledge, etc. We suggest four topics in extant work in the ethics of (human) belief that can be applied to an ethics of AI belief: doxastic wronging by AI (morally wronging someone in virtue of beliefs held about them); morally owed beliefs (beliefs that agents are morally obligated to hold); pragmatic and moral encroachment (cases where the practical or moral features of a belief is relevant to its epistemic status, and in our case specifically to whether an agent ought to hold the belief); and moral responsibility for AI beliefs. We also indicate two relatively nascent areas of philosophical research that haven't yet been generally recognized as ethics of AI belief research, but that do fall within this field of research in virtue of investigating various moral and practical dimensions of belief: the epistemic and ethical decolonization of AI; and epistemic injustice in AI.
翻訳日:2024-04-17 00:26:56 公開日:2024-04-13
# ビジュアルチューニング

Visual Tuning ( http://arxiv.org/abs/2305.06061v2 )

ライセンス: Link先を確認
Bruce X. B. Yu, Jianlong Chang, Haixin Wang, Lingbo Liu, Shijie Wang, Zhiyu Wang, Junfan Lin, Lingxi Xie, Haojie Li, Zhouchen Lin, Qi Tian, Chang Wen Chen, (参考訳) 微調整ビジュアルモデルは、多くの下流視覚タスクにおいて有望なパフォーマンスを示すことが広く示されている。 トレーニング済みの視覚基礎モデルの驚くべき発展により、視覚的なチューニングは、トレーニング済みのモデル全体または完全に接続された層全体を微調整する標準モードのオペラーディから飛び出した。 代わりに、最新の進歩は、はるかに少ないパラメータを更新することで、トレーニング済みパラメータ全体をフルチューニングするよりも優れたパフォーマンスを実現し、エッジデバイスとダウンストリームアプリケーションによって、クラウド上にデプロイされるますます大きな基盤モデルを再利用することができる。 この調査は、研究者が視覚的チューニングの全体像と将来的な方向性を得るのを助けることを目的として、最近の作品の大規模かつ思慮深い選択を特徴付け、既存の作品とモデルの体系的かつ包括的な概要を提供する。 具体的には、視覚的チューニングの詳細な背景を提供し、最近の視覚的チューニングテクニックを、プロンプトチューニング、アタッチメントチューニング、パラメータチューニング、リマッピングチューニングの5つのグループに分類する。 一方、前向きな事前トレーニングや視覚的チューニングにおける様々なインタラクションに対して、いくつかのエキサイティングな研究方向を提供する。

Fine-tuning visual models has been widely shown promising performance on many downstream visual tasks. With the surprising development of pre-trained visual foundation models, visual tuning jumped out of the standard modus operandi that fine-tunes the whole pre-trained model or just the fully connected layer. Instead, recent advances can achieve superior performance than full-tuning the whole pre-trained parameters by updating far fewer parameters, enabling edge devices and downstream applications to reuse the increasingly large foundation models deployed on the cloud. With the aim of helping researchers get the full picture and future directions of visual tuning, this survey characterizes a large and thoughtful selection of recent works, providing a systematic and comprehensive overview of existing work and models. Specifically, it provides a detailed background of visual tuning and categorizes recent visual tuning techniques into five groups: prompt tuning, adapter tuning, parameter tuning, and remapping tuning. Meanwhile, it offers some exciting research directions for prospective pre-training and various interactions in visual tuning.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-13
# リフティングトポロジカルコード:二次元エノンモデルからの3次元サブシステムコード

Lifting topological codes: Three-dimensional subsystem codes from two-dimensional anyon models ( http://arxiv.org/abs/2305.06365v2 )

ライセンス: Link先を確認
Jacob C. Bridgeman, Aleksander Kubica, Michael Vasmer, (参考訳) 3次元のトポロジカルサブシステム符号は、測定ノイズの存在下であっても、時間オーバーヘッドのない量子誤差補正を可能にする。 この単発特性の物理的起源は、部分的には既知のモデルが不足しているため、解明され続けている。 この課題に対処するために、アーベル量子二重モデルから構築された3次元の位相的サブシステムのクラスを1次元未満で体系的に構築する。 我々の構成は、最近導入されたサブシステムトーリックコード(Kubica and Vasmer, Nat. Commun. 13, 6272 (2022))を一般化するだけでなく、ゲージフラックスのガウス法の起源やコードファミリーの境界条件など、原モデルのいくつかの側面について新たな視点を提供する。 次に,このクラスの最初の数個の符号を現象ノイズに対して数値的に解析し,その単発特性を検証する。 最後に、これらの符号に自然に関連づけられたハミルトン派について論じ、それらがギャップのないものであるかもしれないと論じる。

Topological subsystem codes in three spatial dimensions allow for quantum error correction with no time overhead, even in the presence of measurement noise. The physical origins of this single-shot property remain elusive, in part due to the scarcity of known models. To address this challenge, we provide a systematic construction of a class of topological subsystem codes in three dimensions built from abelian quantum double models in one fewer dimension. Our construction not only generalizes the recently introduced subsystem toric code [Kubica and Vasmer, Nat. Commun. 13, 6272 (2022)] but also provides a new perspective on several aspects of the original model, including the origin of the Gauss law for gauge flux, and boundary conditions for the code family. We then numerically study the performance of the first few codes in this class against phenomenological noise to verify their single-shot property. Lastly, we discuss Hamiltonians naturally associated with these codes, and argue that they may be gapless.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-13
# 焼成自己蒸留法は対人訓練を改善する

Annealing Self-Distillation Rectification Improves Adversarial Training ( http://arxiv.org/abs/2305.12118v2 )

ライセンス: Link先を確認
Yu-Yu Wu, Hung-Jui Wang, Shang-Tse Chen, (参考訳) 標準的な対向訓練では、モデルは許容される対向的摂動予算内に1ホットラベルを適合するように最適化される。 しかし、摂動によって引き起こされる分布シフトの無知は、頑健なオーバーフィッティングの問題を引き起こす。 この問題に対処し、対向的ロバスト性を高めるために、ロバストモデルの特徴を分析し、ロバストモデルがよりスムーズでよく校正された出力を生成する傾向があることを特定する。 そこで本研究では,攻撃時の分散シフトを正確に反映した指導機構として,ソフトラベルを生成する,簡易かつ効果的な自己蒸留法を提案する。 ADRを利用することで、事前訓練されたモデルや広範な余剰計算を必要とせずに、モデルロバスト性を大幅に改善する正当分布を得ることができる。 さらに,本手法は,ハードラベルをその目的に置き換えることにより,他の逆行訓練手法とのシームレスなプラグイン・アンド・プレイ統合を容易にする。 我々は、広範囲な実験とデータセット間の強力なパフォーマンスを通して、ADRの有効性を実証する。

In standard adversarial training, models are optimized to fit one-hot labels within allowable adversarial perturbation budgets. However, the ignorance of underlying distribution shifts brought by perturbations causes the problem of robust overfitting. To address this issue and enhance adversarial robustness, we analyze the characteristics of robust models and identify that robust models tend to produce smoother and well-calibrated outputs. Based on the observation, we propose a simple yet effective method, Annealing Self-Distillation Rectification (ADR), which generates soft labels as a better guidance mechanism that accurately reflects the distribution shift under attack during adversarial training. By utilizing ADR, we can obtain rectified distributions that significantly improve model robustness without the need for pre-trained models or extensive extra computation. Moreover, our method facilitates seamless plug-and-play integration with other adversarial training techniques by replacing the hard labels in their objectives. We demonstrate the efficacy of ADR through extensive experiments and strong performances across datasets.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-13
# パラメータ対称性を用いた収束と一般化の改善

Improving Convergence and Generalization Using Parameter Symmetries ( http://arxiv.org/abs/2305.13404v3 )

ライセンス: Link先を確認
Bo Zhao, Robert M. Gower, Robin Walters, Rose Yu, (参考訳) 多くのニューラルネットワークでは、パラメータの異なる値が同じ損失値をもたらすことがある。 パラメータ空間対称性は、モデルパラメータを変更する損失不変変換である。 テレポーテーションは最適化を加速するためにそのような変換を適用する。 しかし、このアルゴリズムの成功の正確なメカニズムはよく理解されていない。 本稿では,テレポーテーションが短期最適化を高速化するだけでなく,全体の収束時間を短縮することを示す。 さらに、異なる曲率を持つミニマへのテレポートは一般化を改善し、最小曲率と一般化能力の接続を示唆する。 最後に、テレポーテーションを広範囲の最適化アルゴリズムに統合し、最適化に基づくメタラーニングにより収束を改善することを示す。 本結果は, テレポーテーションの汎用性を示し, 最適化に対称性を組み込むことの可能性を示した。

In many neural networks, different values of the parameters may result in the same loss value. Parameter space symmetries are loss-invariant transformations that change the model parameters. Teleportation applies such transformations to accelerate optimization. However, the exact mechanism behind this algorithm's success is not well understood. In this paper, we show that teleportation not only speeds up optimization in the short-term, but gives overall faster time to convergence. Additionally, teleporting to minima with different curvatures improves generalization, which suggests a connection between the curvature of the minimum and generalization ability. Finally, we show that integrating teleportation into a wide range of optimization algorithms and optimization-based meta-learning improves convergence. Our results showcase the versatility of teleportation and demonstrate the potential of incorporating symmetry in optimization.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-13
# 動的クローズボトルネック : 視覚的質問応答の解釈に向けて

Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering ( http://arxiv.org/abs/2305.14882v2 )

ライセンス: Link先を確認
Xingyu Fu, Ben Zhou, Sihao Chen, Mark Yatskar, Dan Roth, (参考訳) マルチモーダル大言語モデル(LLM)の最近の進歩は、視覚的質問応答(VQA)において極めて有効であることを示している。 しかしながら、これらのエンド・ツー・エンド・モデルの設計特性は、人間に解釈されることを防ぎ、重要な領域における信頼と適用性を損なう。 ポストホックな合理性はモデル行動の理解に一定の洞察を与えるが、これらの説明はモデルに忠実であることを保証するものではない。 本稿では,モデル決定を中間的人文的説明に分解する設計モデルを導入し,モデルが失敗したり,成功したりする理由を容易に理解できるようにすることによって,これらの欠点に対処する。 本稿では,自然に解釈可能なVQAシステムを対象とした動的クローズ・ボトルネック・モデル (DCLUB) を提案する。 DCLUBは、VQA決定の前に説明可能な中間空間を提供し、ブラックボックスシステムに匹敵する性能を維持しながら、最初から忠実である。 DCLUBはまず、画像から視覚的に有意な証拠を自然言語で表現し、視覚的手がかりのみに基づいて出力を生成するという、視覚的手がかりのセットを返します。 我々は,DCLUB内のVQA説明の生成を監督し,評価するために,視覚的手がかりを用いた1.7kの推論型質問のデータセットを収集した。 VQA-v2では99.43%の性能を保ちながら、推論に焦点をあてた質問において、我々の本質的に解釈可能なシステムは同等のブラックボックスシステムよりも4.64%改善できることを示す。

Recent advances in multimodal large language models (LLMs) have shown extreme effectiveness in visual question answering (VQA). However, the design nature of these end-to-end models prevents them from being interpretable to humans, undermining trust and applicability in critical domains. While post-hoc rationales offer certain insight into understanding model behavior, these explanations are not guaranteed to be faithful to the model. In this paper, we address these shortcomings by introducing an interpretable by design model that factors model decisions into intermediate human-legible explanations, and allows people to easily understand why a model fails or succeeds. We propose the Dynamic Clue Bottleneck Model ( (DCLUB), a method that is designed towards an inherently interpretable VQA system. DCLUB provides an explainable intermediate space before the VQA decision and is faithful from the beginning, while maintaining comparable performance to black-box systems. Given a question, DCLUB first returns a set of visual clues: natural language statements of visually salient evidence from the image, and then generates the output based solely on the visual clues. To supervise and evaluate the generation of VQA explanations within DCLUB, we collect a dataset of 1.7k reasoning-focused questions with visual clues. Evaluations show that our inherently interpretable system can improve 4.64% over a comparable black-box system in reasoning-focused questions while preserving 99.43% of performance on VQA-v2.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-13
# 非負の低ランク半定計画法による統計的K平均クラスタリング

Statistically Optimal K-means Clustering via Nonnegative Low-rank Semidefinite Programming ( http://arxiv.org/abs/2305.18436v5 )

ライセンス: Link先を確認
Yubo Zhuang, Xiaohui Chen, Yun Yang, Richard Y. Zhang, (参考訳) K$-meansクラスタリングは、大規模なデータセットのパターンを識別する機械学習手法として広く使用されている。 近年,高い統計的最適性保証を享受する$K$-means最適化問題の解法として,半定値プログラミング(SDP)緩和法が提案されている。 しかし、SDPソルバの実装の禁止コストは、これらの保証を実用的なデータセットに到達できないものにする。 対照的に、非負行列分解(NMF)は、機械学習の実践者が広く用いている単純なクラスタリングアルゴリズムであるが、確かな統計的基盤と理論的保証は欠如している。 本稿では,非凸バーラ-モンテイロ因数分解法を用いて,SDP-relaxed $K$-meansの非負の低ランク制約を解くNMF-likeアルゴリズムについて考察する。 結果として得られるアルゴリズムは、最先端のNMFアルゴリズムと同じくらいシンプルでスケーラブルであり、SDPと同じ強力な統計的最適性保証も享受している。 実験では,我々のアルゴリズムは,スケーラビリティを保ちながら,既存の最先端技術と比較すると,誤クラスタリング誤差が著しく小さいことを観察した。

$K$-means clustering is a widely used machine learning method for identifying patterns in large datasets. Recently, semidefinite programming (SDP) relaxations have been proposed for solving the $K$-means optimization problem, which enjoy strong statistical optimality guarantees. However, the prohibitive cost of implementing an SDP solver renders these guarantees inaccessible to practical datasets. In contrast, nonnegative matrix factorization (NMF) is a simple clustering algorithm widely used by machine learning practitioners, but it lacks a solid statistical underpinning and theoretical guarantees. In this paper, we consider an NMF-like algorithm that solves a nonnegative low-rank restriction of the SDP-relaxed $K$-means formulation using a nonconvex Burer--Monteiro factorization approach. The resulting algorithm is as simple and scalable as state-of-the-art NMF algorithms while also enjoying the same strong statistical optimality guarantees as the SDP. In our experiments, we observe that our algorithm achieves significantly smaller mis-clustering errors compared to the existing state-of-the-art while maintaining scalability.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-13
# アーキテクチャに依存しない等価性のための確率的対称性の学習

Learning Probabilistic Symmetrization for Architecture Agnostic Equivariance ( http://arxiv.org/abs/2306.02866v3 )

ライセンス: Link先を確認
Jinwoo Kim, Tien Dat Nguyen, Ayhan Suleymanzade, Hyeokjun An, Seunghoon Hong, (参考訳) 群対称性を持つ学習関数における同変アーキテクチャの限界を克服する新しい枠組みを提案する。 等変アーキテクチャとは対照的に、MLPや変圧器のような任意の基底モデルを用い、対称性化の根底にある確率分布をパラメータ化する小さな同変ネットワークを用いることで、与えられた群に同変であるようにシンメトリゼーションする。 分布は、対称性のサンプル複雑性を減らしながら、性能を最大化できるベースモデルで、エンドツーエンドで訓練される。 このアプローチは、与えられた群に同値なだけでなく、予想における普遍近似能力も確保できることを示す。 我々は、予め訓練された視覚変換器から初期化できるパッチベースの変換器を含む様々なベースモデルに本手法を実装し、置換群とユークリッド群とそれらの組み合わせを含む幅広い対称性群に対してそれらをテストする。 経験的テストは、調整された同変アーキテクチャに対する競合結果を示し、非等変ユニバーサルベースアーキテクチャを用いて多様な群に対する同変関数を学習する可能性を示唆している。 さらに、視覚のような非対称なモダリティから事前訓練されたとき、グラフのような対称なモダリティにおける強化学習の証拠を示す。 コードはhttps://github.com/jw9730/lpsで入手できる。

We present a novel framework to overcome the limitations of equivariant architectures in learning functions with group symmetries. In contrary to equivariant architectures, we use an arbitrary base model such as an MLP or a transformer and symmetrize it to be equivariant to the given group by employing a small equivariant network that parameterizes the probabilistic distribution underlying the symmetrization. The distribution is end-to-end trained with the base model which can maximize performance while reducing sample complexity of symmetrization. We show that this approach ensures not only equivariance to given group but also universal approximation capability in expectation. We implement our method on various base models, including patch-based transformers that can be initialized from pretrained vision transformers, and test them for a wide range of symmetry groups including permutation and Euclidean groups and their combinations. Empirical tests show competitive results against tailored equivariant architectures, suggesting the potential for learning equivariant functions for diverse groups using a non-equivariant universal base architecture. We further show evidence of enhanced learning in symmetric modalities, like graphs, when pretrained from non-symmetric modalities, like vision. Code is available at https://github.com/jw9730/lps.
翻訳日:2024-04-17 00:17:02 公開日:2024-04-13
# 統計的推定のための一段階補正確率勾配降下法

One-step corrected projected stochastic gradient descent for statistical estimation ( http://arxiv.org/abs/2306.05896v2 )

ライセンス: Link先を確認
Alexandre Brouste, Youssef Esstafa, (参考訳) パラメトリック推定のための汎用的,高速かつ漸近的に効率的な手法について述べる。 これはフィッシャースコアリングアルゴリズムの単一ステップで補正された対数様関数の確率勾配勾配に基づく。 理論およびシミュレーションにより、平均化や適応的確率勾配降下を伴う通常の確率勾配降下の代替として興味深いものであることを示す。

A generic, fast and asymptotically efficient method for parametric estimation is described. It is based on the projected stochastic gradient descent on the log-likelihood function corrected by a single step of the Fisher scoring algorithm. We show theoretically and by simulations that it is an interesting alternative to the usual stochastic gradient descent with averaging or the adaptative stochastic gradient descent.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-13
# 非可逆潜在因数モデルに対する領域対実性の評価に向けて

Towards Characterizing Domain Counterfactuals For Invertible Latent Causal Models ( http://arxiv.org/abs/2306.11281v3 )

ライセンス: Link先を確認
Zeyu Zhou, Ruqi Bai, Sean Kulinski, Murat Kocaoglu, David I. Inouye, (参考訳) 対物クエリの解答には説明可能性、堅牢性、公平性などの重要な応用があるが、因果変数が観測されず、観察が画像中のピクセルのようなこれらの潜伏変数の非線形混合である場合、困難である。 一つのアプローチは潜伏構造因果モデル (SCM) を復元することであり、これは例えば因果機構の線形性や完全な原子介入といった強い仮定を必要とするため、実際には不可能である。 一方、より実践的なMLベースのアプローチでは、非現実的なドメイン翻訳モデルを用いて反現実的なサンプルを生成するが、理論的根拠は欠如しており、無効な反事実を構築することができる。 本研究では,異なるドメイン(あるいは環境)で生成された場合,サンプルがどのように見えるのかを仮定した,ドメイン・カウンタファクト(Domain counterfactuals)と呼ばれる特定のタイプの因果クエリを解析することにより,実用性と理論的保証のバランスを保とうとしている。 本研究では, 潜在SCMの回復は, ドメイン・デファクト・デファクトを推定する上で不要であることを示し, 理論的課題のいくつかをサイドステッピングする。 介入の可逆性と空白を仮定することにより、データ適合項と介入間隔項でドメインの反事実推定誤差をバウンドできることを示す。 提案手法は, 自己回帰的, 共有パラメータ制約下でのモデル生成過程を単純化し, 介入間隔を強制する実用的アルゴリズムを理論的に構築する。 最後に,大規模なシミュレートおよび画像ベース実験により,ベースライン法に対する反実的推定の改善を示す。

Answering counterfactual queries has important applications such as explainability, robustness, and fairness but is challenging when the causal variables are unobserved and the observations are non-linear mixtures of these latent variables, such as pixels in images. One approach is to recover the latent Structural Causal Model (SCM), which may be infeasible in practice due to requiring strong assumptions, e.g., linearity of the causal mechanisms or perfect atomic interventions. Meanwhile, more practical ML-based approaches using naive domain translation models to generate counterfactual samples lack theoretical grounding and may construct invalid counterfactuals. In this work, we strive to strike a balance between practicality and theoretical guarantees by analyzing a specific type of causal query called domain counterfactuals, which hypothesizes what a sample would have looked like if it had been generated in a different domain (or environment). We show that recovering the latent SCM is unnecessary for estimating domain counterfactuals, thereby sidestepping some of the theoretic challenges. By assuming invertibility and sparsity of intervention, we prove domain counterfactual estimation error can be bounded by a data fit term and intervention sparsity term. Building upon our theoretical results, we develop a theoretically grounded practical algorithm that simplifies the modeling process to generative model estimation under autoregressive and shared parameter constraints that enforce intervention sparsity. Finally, we show an improvement in counterfactual estimation over baseline methods through extensive simulated and image-based experiments.
翻訳日:2024-04-17 00:07:07 公開日:2024-04-13
# CFN-ESA:対話感情認識のための感情シフト認識型クロスモーダルフュージョンネットワーク

CFN-ESA: A Cross-Modal Fusion Network with Emotion-Shift Awareness for Dialogue Emotion Recognition ( http://arxiv.org/abs/2307.15432v2 )

ライセンス: Link先を確認
Jiang Li, Xiaoping Wang, Yingjian Liu, Zhigang Zeng, (参考訳) 会話におけるマルチモーダル感情認識(ERC)は,様々な分野の研究コミュニティから注目を集めている。 本稿では,感情シフト認識(CFN-ESA)を用いたERC用クロスモーダルフュージョンネットワークを提案する。 既存のアプローチでは、これらのモダリティの感情情報の量を区別することなく、各モダリティを等しく使い、マルチモーダルデータから補完的な情報を適切に抽出することは困難である。 この問題に対処するため、CFN-ESAでは、視覚的・音響的モダリティを二次情報源としながら、テキストのモダリティを感情情報の主源として扱う。 さらに、ほとんどのマルチモーダルERCモデルは、感情シフト情報を無視し、文脈情報に重きを置いているため、感情シフトシナリオ下での感情認識の失敗につながっている。 この課題に対処するために、感情シフトモジュールを詳しく説明します。 CFN-ESAは主に、ユニモーダルエンコーダ(RUME)、クロスモーダルエンコーダ(ACME)、感情シフトモジュール(LESM)から構成される。 RUMEは、モダリティ間のデータ分布をまとめながら会話レベルの文脈的感情的手がかりを抽出し、ACMEは、テキストのモダリティを中心としたマルチモーダルな相互作用を実行するために、LESMは、感情の変化をモデル化し、感情の変化情報をキャプチャするために、メインタスクの学習を導くために使用される。 実験の結果,CFN-ESAはERCの性能を効果的に向上し,最先端モデルよりも優れていた。

Multimodal emotion recognition in conversation (ERC) has garnered growing attention from research communities in various fields. In this paper, we propose a Cross-modal Fusion Network with Emotion-Shift Awareness (CFN-ESA) for ERC. Extant approaches employ each modality equally without distinguishing the amount of emotional information in these modalities, rendering it hard to adequately extract complementary information from multimodal data. To cope with this problem, in CFN-ESA, we treat textual modality as the primary source of emotional information, while visual and acoustic modalities are taken as the secondary sources. Besides, most multimodal ERC models ignore emotion-shift information and overfocus on contextual information, leading to the failure of emotion recognition under emotion-shift scenario. We elaborate an emotion-shift module to address this challenge. CFN-ESA mainly consists of unimodal encoder (RUME), cross-modal encoder (ACME), and emotion-shift module (LESM). RUME is applied to extract conversation-level contextual emotional cues while pulling together data distributions between modalities; ACME is utilized to perform multimodal interaction centered on textual modality; LESM is used to model emotion shift and capture emotion-shift information, thereby guiding the learning of the main task. Experimental results demonstrate that CFN-ESA can effectively promote performance for ERC and remarkably outperform state-of-the-art models.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-13
# 指をいじる必要がない? ChatGPTによるコード生成の品質評価

No Need to Lift a Finger Anymore? Assessing the Quality of Code Generation by ChatGPT ( http://arxiv.org/abs/2308.04838v2 )

ライセンス: Link先を確認
Zhijie Liu, Yutian Tang, Xiapu Luo, Yuming Zhou, Liang Feng Zhang, (参考訳) 大規模言語モデル(LLM)は、様々なNLPタスクにまたがる印象的な機能を示している。 加えて、LLMは、特にコード生成の分野で、ソフトウェアエンジニアリングタスクをサポートする上でも非常に貴重である。 自動コード生成は、所定の仕様や要求に基づいてソースコードや実行可能なコードを自動的に生成し、開発者の生産性を向上させるプロセスである。 本研究では,ChatGPTを用いて,コード生成の質を定量的に評価する。 私たちは5つの言語(C、C++、Java、Python、JavaScript)で728のアルゴリズム問題と、コード生成タスクの54のコードシナリオを持つ18のCWEを活用しています。 評価では,ChatGPTが生成したコードスニペットを包括的に分析し,正確性,複雑性,セキュリティという3つの重要な側面に注目した。 また、コード生成を容易にするChatGPTのマルチラウンド固定プロセス(すなわち、ChatGPTのダイアログ能力)に関わるChatGPTの機能についても詳細に検討する。 生成されたコードを掘り下げて実験結果を調べることで、この研究は、3つの重要な側面でコード生成タスクに取り組む際のChatGPTのパフォーマンスに関する貴重な洞察を提供する。 全体として、ChatGPTベースのコード生成で生じる潜在的な問題や制限を明らかにし、AIとLLMベースのコード生成技術を改善するための基盤となる。

Large language models (LLMs) have demonstrated impressive capabilities across various NLP tasks. Additionally, LLMs are also highly valuable in supporting software engineering tasks, particularly in the field of code generation. Automatic code generation is a process of automatically generating source code or executable code based on given specifications or requirements, improving developer productivity. In this study, we perform a systematic empirical assessment to the quality of code generation using ChatGPT. We leverage 728 algorithm problems in five languages (i.e., C, C++, Java, Python, and JavaScript) and 18 CWEs with 54 code scenarios for the code generation task. Our evaluation encompasses a comprehensive analysis of code snippets generated by ChatGPT, focusing on three critical aspects: correctness, complexity, and security. We also specifically investigate ChatGPT's ability to engage in multi-round fixing process (i.e., ChatGPT's dialog ability) of facilitating code generation. By delving into the generated code and examining the experimental results, this work provides valuable insights into the performance of ChatGPT in tackling code generation tasks over the three critical aspects. Overall, our findings uncover potential issues and limitations that arise in the ChatGPT-based code generation and lay the groundwork for improving AI and LLM-based code generation techniques.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-13
# WavLM事前学習モデルを用いた音声駆動ジェスチャ合成

Audio is all in one: speech-driven gesture synthetics using WavLM pre-trained model ( http://arxiv.org/abs/2308.05995v3 )

ライセンス: Link先を確認
Fan Zhang, Naye Ji, Fuxing Gao, Siyuan Zhao, Zhaohan Wang, Shunman Li, (参考訳) デジタル人間のための共同音声ジェスチャーの生成は、仮想人間創造の分野における新たな領域である。 従来の研究では、音声と意味情報を入力として使用し、その人物のIDと感情を識別する分類法を採用して、共同音声ジェスチャ生成を推進してきた。 しかし、この取り組みは依然として大きな課題に直面している。 これらの課題は、共同音声ジェスチャー、音声音響、意味論の複雑な相互作用を超えており、人格、感情、その他の不明瞭だが重要な要素に関連する複雑さも包含している。 本稿では,WavLM事前学習モデルを用いた音声条件拡散モデルと非自己回帰変換器を用いた生成モデルである「diffmotion-v2」を紹介する。 生音声のみを使用して、個別でスタイリングされたフルボディの音声合成ジェスチャを作成でき、複雑なマルチモーダル処理や手動のアノテートが不要になる。 まず,音声の音響的特徴や意味的特徴だけでなく,関連するジェスチャーに関連する性格的特徴や感情,さらに微妙な情報を伝達することを考えると,大規模事前学習モデルであるWavLMの応用を開拓し,低レベルかつ高レベルな音声情報を抽出する。 第2に,変換器をベースとした適応層ノルムアーキテクチャを導入し,音声情報と随伴ジェスチャーの関係を学習する。 The Trinity, ZEGGS, BEATデータセットを用いて広範囲な主観評価実験を行い、WavLMとモデルが様々なスタイルで自然な音声合成を行う能力を確認する。

The generation of co-speech gestures for digital humans is an emerging area in the field of virtual human creation. Prior research has made progress by using acoustic and semantic information as input and adopting classify method to identify the person's ID and emotion for driving co-speech gesture generation. However, this endeavour still faces significant challenges. These challenges go beyond the intricate interplay between co-speech gestures, speech acoustic, and semantics; they also encompass the complexities associated with personality, emotion, and other obscure but important factors. This paper introduces "diffmotion-v2," a speech-conditional diffusion-based and non-autoregressive transformer-based generative model with WavLM pre-trained model. It can produce individual and stylized full-body co-speech gestures only using raw speech audio, eliminating the need for complex multimodal processing and manually annotated. Firstly, considering that speech audio not only contains acoustic and semantic features but also conveys personality traits, emotions, and more subtle information related to accompanying gestures, we pioneer the adaptation of WavLM, a large-scale pre-trained model, to extract low-level and high-level audio information. Secondly, we introduce an adaptive layer norm architecture in the transformer-based layer to learn the relationship between speech information and accompanying gestures. Extensive subjective evaluation experiments are conducted on the Trinity, ZEGGS, and BEAT datasets to confirm the WavLM and the model's ability to synthesize natural co-speech gestures with various styles.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-13
# オープンボキャブラリ物体検出のための自己学習の自動化

Taming Self-Training for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2308.06412v3 )

ライセンス: Link先を確認
Shiyu Zhao, Samuel Schulter, Long Zhao, Zhixing Zhang, Vijay Kumar B. G, Yumin Suh, Manmohan Chandraker, Dimitris N. Metaxas, (参考訳) 近年の研究では、事前学習された視覚と言語モデル(VLM)から擬似ラベル(PL)を活用することにより、オープン語彙オブジェクト検出(OVD)において有望な性能を示した。 しかし、PLを活用するために強力で広く利用されている教師学生の自己学習は、OVDではめったに行われない。 本研究は, VLMからのノイズの多いPLとPLの頻繁な分布変化という,OVDにおける自己学習の2つの課題を明らかにする。 これらの課題に対処するため、我々は2つの重要な視点からOVDの自己学習を行うSAS-Detを提案する。 まず、標準検出をオープンブランチとクローズブランチに分割するスプリット・アンド・フュージョン(SAF)ヘッドを提案する。 この設計は、偽の箱からノイズを抑えることができる。 さらに、2つのブランチは、異なるトレーニングデータから補完的な知識を学習し、融合時のパフォーマンスを大幅に向上させる。 第二に、閉集合タスクとは異なり、OVDにおけるPL分布は教師モデルによってのみ決定される。 定期的な更新戦略を導入し、教師の更新回数を減らし、PL分布の変化頻度を減らし、学習過程を安定化させる。 大規模な実験は、SAS-Detが効率的かつ効果的であることを示した。 SAS-Detは、COCOとLVISのベンチマークでそれぞれ37.4 AP50と29.1 APrを達成した。 コードは \url{https://github.com/xiaofeng94/SAS-Det} で入手できる。

Recent studies have shown promising performance in open-vocabulary object detection (OVD) by utilizing pseudo labels (PLs) from pretrained vision and language models (VLMs). However, teacher-student self-training, a powerful and widely used paradigm to leverage PLs, is rarely explored for OVD. This work identifies two challenges of using self-training in OVD: noisy PLs from VLMs and frequent distribution changes of PLs. To address these challenges, we propose SAS-Det that tames self-training for OVD from two key perspectives. First, we present a split-and-fusion (SAF) head that splits a standard detection into an open-branch and a closed-branch. This design can reduce noisy supervision from pseudo boxes. Moreover, the two branches learn complementary knowledge from different training data, significantly enhancing performance when fused together. Second, in our view, unlike in closed-set tasks, the PL distributions in OVD are solely determined by the teacher model. We introduce a periodic update strategy to decrease the number of updates to the teacher, thereby decreasing the frequency of changes in PL distributions, which stabilizes the training process. Extensive experiments demonstrate SAS-Det is both efficient and effective. SAS-Det outperforms recent models of the same scale by a clear margin and achieves 37.4 AP50 and 29.1 APr on novel categories of the COCO and LVIS benchmarks, respectively. Code is available at \url{https://github.com/xiaofeng94/SAS-Det}.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-13
# PV-SSD: 射影特徴と可変場ボクセル特徴のためのマルチモーダルポイントクラウド特徴融合法

PV-SSD: A Multi-Modal Point Cloud Feature Fusion Method for Projection Features and Variable Receptive Field Voxel Features ( http://arxiv.org/abs/2308.06791v6 )

ライセンス: Link先を確認
Yongxin Shao, Aihong Tan, Zhetao Sun, Enhui Zheng, Tianhong Yan, Peng Liao, (参考訳) LiDARに基づく3Dオブジェクトの検出と分類は、自動運転に不可欠である。 しかし、非常にスパースな3Dデータからのリアルタイム推論は、非常に難しい課題である。 この問題に対処するために、典型的なアプローチのクラスは、点雲のキャストを正規データ表現(ボクセルや投影マップ)に変換する。 そして、畳み込みニューラルネットワークを用いて特徴抽出を行う。 しかし、そのような手法は、ダウンサンプリングや過剰な特徴情報の圧縮によって、ある程度の情報損失をもたらすことが多い。 本稿では,情報損失問題の解法として,投射特性と可変受容野ボクセル特徴(PV-SSD)をベースとしたマルチモーダル点雲特徴融合法を提案する。 本研究では,2次元畳み込みニューラルネットワークを用いた2枝特徴抽出構造を設計し,局所特徴間の相関に着目した鳥眼視で点雲の投影特徴を抽出する。 ボクセル特徴抽出枝を用いて局所的な微細な特徴を抽出する。 一方, センサの可変な特徴抽出手法を提案し, ダウンサンプリングによるボクセル枝の情報損失を低減する。 検出タスクの特徴点重みに基づいて、より有用な特徴点を選択することで、臨界点情報の欠落を回避する。 さらに,ポイントクラウドのためのマルチモーダル機能融合モジュールを提案する。 提案手法の有効性を検証するため,KITTIデータセットとONCEデータセットを用いて実験を行った。

LiDAR-based 3D object detection and classification is crucial for autonomous driving. However, real-time inference from extremely sparse 3D data is a formidable challenge. To address this problem, a typical class of approaches transforms the point cloud cast into a regular data representation (voxels or projection maps). Then, it performs feature extraction with convolutional neural networks. However, such methods often result in a certain degree of information loss due to down-sampling or over-compression of feature information. This paper proposes a multi-modal point cloud feature fusion method for projection features and variable receptive field voxel features (PV-SSD) based on projection and variable voxelization to solve the information loss problem. We design a two-branch feature extraction structure with a 2D convolutional neural network to extract the point cloud's projection features in bird's-eye view to focus on the correlation between local features. A voxel feature extraction branch is used to extract local fine-grained features. Meanwhile, we propose a voxel feature extraction method with variable sensory fields to reduce the information loss of voxel branches due to downsampling. It avoids missing critical point information by selecting more useful feature points based on feature point weights for the detection task. In addition, we propose a multi-modal feature fusion module for point clouds. To validate the effectiveness of our method, we tested it on the KITTI dataset and ONCE dataset.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-13
# 大型トランスフォーマーはより優れた脳波学習者

Large Transformers are Better EEG Learners ( http://arxiv.org/abs/2308.11654v2 )

ライセンス: Link先を確認
Bingxin Wang, Xiaowen Fu, Yuan Lan, Luchan Zhang, Wei Zheng, Yang Xiang, (参考訳) 事前訓練された大規模トランスモデルは、自然言語処理やコンピュータビジョンの分野で優れた性能を発揮している。 しかし、公的な脳波データ(EEG)が限られていることは、これらのモデルの成功をEEGベースのタスクに拡張する上で、ユニークな課題となる。 このギャップに対処するために,時系列データを時空間2次元擬似画像やテキスト形式に変換するためのプラグアンドプレイ適応器であるAdaCTを提案する。 基本的に、AdaCT-Iは、複数チャンネルまたは長さの単一チャネル時系列データを時空間の2次元擬似イメージに変換し、AdaCT-Tは短い単一チャネルデータをテキストに変換して、訓練済みの言語変換を行う。 提案手法は、特に脳波データ解析において、時系列復号タスクにおいて、事前訓練された視覚モデルと言語モデルのシームレスな統合を可能にする。 Epileptic Seizure Recognition、Sleep-EDF、UCI HARなどの様々なベンチマークデータセットの実験結果は、ベースライン法よりもAdaCTの方が優れていることを示している。 脳波に基づくタスクにおいて、事前学習された視覚と言語モデルの能力を活用し、時系列復号化の分野を前進させ、脳波データ解析における解釈可能性を高めるための有望な伝達学習フレームワークを提供する。 私たちのコードはhttps://github.com/wangbxj1234/AdaCEで公開されます。

Pre-trained large transformer models have achieved remarkable performance in the fields of natural language processing and computer vision. However, the limited availability of public electroencephalogram (EEG) data presents a unique challenge for extending the success of these models to EEG-based tasks. To address this gap, we propose AdaCT, plug-and-play Adapters designed for Converting Time series data into spatio-temporal 2D pseudo-images or text forms. Essentially, AdaCT-I transforms multi-channel or lengthy single-channel time series data into spatio-temporal 2D pseudo-images for fine-tuning pre-trained vision transformers, while AdaCT-T converts short single-channel data into text for fine-tuning pre-trained language transformers. The proposed approach allows for seamless integration of pre-trained vision models and language models in time series decoding tasks, particularly in EEG data analysis. Experimental results on diverse benchmark datasets, including Epileptic Seizure Recognition, Sleep-EDF, and UCI HAR, demonstrate the superiority of AdaCT over baseline methods. Overall, we provide a promising transfer learning framework for leveraging the capabilities of pre-trained vision and language models in EEG-based tasks, thereby advancing the field of time series decoding and enhancing interpretability in EEG data analysis. Our code will be available at https://github.com/wangbxj1234/AdaCE.
翻訳日:2024-04-16 23:57:12 公開日:2024-04-13
# フェデレーションラーニングにおける分散資源管理のための価格差別ゲーム

Price-Discrimination Game for Distributed Resource Management in Federated Learning ( http://arxiv.org/abs/2308.13838v7 )

ライセンス: Link先を確認
Han Zhang, Halvin Yang, Guopeng Zhang, (参考訳) FedAvgのようなバニラ連合学習(FL)では、パラメータサーバ(PS)と複数の分散クライアントが典型的な買い手市場を形成し、FLサービスのPS/購入者数はクライアント/販売者数よりはるかに少ない。 本稿では、FLの性能向上と、FLに参加するクライアントの動機付けコストの低減を図るため、異なるクライアントに対して同じサービス価格を提供するのではなく、異なるクライアントが提供するサービスの価格を区別することを提案する。 FLがもたらす性能改善と、コンピューティングと通信能力における不均一性に基づいて、価格が差別化されている。 この目的のために、多目的トレードオフ、クライアント選択、インセンティブ機構を含むFLの分散リソース管理問題に包括的に対処するために、価格判別ゲーム(PDG)を定式化する。 PDGは混合整数非線形プログラミング(MINLP)問題であるため、計算複雑性が低く通信オーバーヘッドの少ない分散半ヒューリスティックアルゴリズムがこの問題を解決するために設計されている。 シミュレーションの結果,提案手法の有効性を検証した。

In vanilla federated learning (FL) such as FedAvg, the parameter server (PS) and multiple distributed clients can form a typical buyer's market, where the number of PS/buyers of FL services is far less than the number of clients/sellers. In order to improve the performance of FL and reduce the cost of motivating clients to participate in FL, this paper proposes to differentiate the pricing for services provided by different clients rather than simply providing the same service pricing for different clients. The price is differentiated based on the performance improvements brought to FL and their heterogeneity in computing and communication capabilities. To this end, a price-discrimination game (PDG) is formulated to comprehensively address the distributed resource management problems in FL, including multi-objective trade-off, client selection, and incentive mechanism. As the PDG is a mixed-integer nonlinear programming (MINLP) problem, a distributed semi-heuristic algorithm with low computational complexity and low communication overhead is designed to solve it. The simulation result verifies the effectiveness of the proposed approach.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-13
# 内在次元に適応した圧縮的マハラノビス計量学習

Compressive Mahalanobis Metric Learning Adapts to Intrinsic Dimension ( http://arxiv.org/abs/2309.05751v3 )

ライセンス: Link先を確認
Efstratios Palias, Ata Kabán, (参考訳) 距離学習は、距離に基づく学習アルゴリズムの性能を向上させるために、入力空間上の適切な距離メトリックを見つけることを目的としている。 高次元設定では、学習した計量に低ランクの制限を課すことで次元の減少を果たすこともできる。 本稿では,マハラノビス計量を学習する問題を考察し,高次元データ上で低ランクメトリックを訓練する代わりに,ランダムに圧縮したデータを用いて,この縮小された特徴空間におけるフルランクメトリックを訓練する。 マハラノビス計量学習の誤差は、データ支持の安定な次元に依存するが、周囲の次元には依存しない理論的な保証を与える。 我々の境界は、有界な支持からのデータサンプリングを除いて仮定をせず、良質な幾何学的構造が存在するときに自動的に締め付ける。 重要な要素はゴードンの定理の拡張であり、これは独立した興味を持つかもしれない。 また, 数値実験により, 結果の相関付けを行った。

Metric learning aims at finding a suitable distance metric over the input space, to improve the performance of distance-based learning algorithms. In high-dimensional settings, it can also serve as dimensionality reduction by imposing a low-rank restriction to the learnt metric. In this paper, we consider the problem of learning a Mahalanobis metric, and instead of training a low-rank metric on high-dimensional data, we use a randomly compressed version of the data to train a full-rank metric in this reduced feature space. We give theoretical guarantees on the error for Mahalanobis metric learning, which depend on the stable dimension of the data support, but not on the ambient dimension. Our bounds make no assumptions aside from i.i.d. data sampling from a bounded support, and automatically tighten when benign geometrical structures are present. An important ingredient is an extension of Gordon's theorem, which may be of independent interest. We also corroborate our findings by numerical experiments.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-13
# シークエンシャルレコメンデーションの改革:コンテンツ強化言語モデリングによる動的ユーザ興味の学習

Reformulating Sequential Recommendation: Learning Dynamic User Interest with Content-enriched Language Modeling ( http://arxiv.org/abs/2309.10435v4 )

ライセンス: Link先を確認
Junzhe Jiang, Shang Qu, Mingyue Cheng, Qi Liu, Zhiding Liu, Hao Zhang, Rujiao Zhang, Kai Zhang, Rui Li, Jiatong Li, Min Gao, (参考訳) オンラインアプリケーションの領域ではレコメンダシステムは不可欠であり、ユーザ関心の動的シフトをカプセル化できるため、シーケンシャルなレコメンデーションは極めて有益である。 しかし、従来の逐次モデリング手法には、文脈情報の取得に制限がある。 主な理由は、ドメイン固有の知識とアイテムに関連するテキストの内容の理解の欠如である。 幸いなことに、強力な言語モデルの出現は、幅広い世界の知識をレコメンデーションアルゴリズムに組み込む可能性を解き放った。 そこで本稿では、事前学習した言語モデルの意味理解機能を活用してパーソナライズされたレコメンデーションを生成するLANCERを提案する。 我々のアプローチは、言語モデルとレコメンデーションシステムの間のギャップを埋め、より人間的なレコメンデーションを生み出します。 複数のベンチマークデータセットで実施した一連の実験を通じて,提案手法の有効性を実証し,有望な結果を示し,逐次的なレコメンデーションタスクに対するモデルの影響について貴重な洞察を提供する。 さらに、我々の実験コードはhttps://github.com/Gnimixy/lancer.comで公開されています。

Recommender systems are indispensable in the realm of online applications, and sequential recommendation has enjoyed considerable prevalence due to its capacity to encapsulate the dynamic shifts in user interests. However, previous sequential modeling methods still have limitations in capturing contextual information. The primary reason is the lack of understanding of domain-specific knowledge and item-related textual content. Fortunately, the emergence of powerful language models has unlocked the potential to incorporate extensive world knowledge into recommendation algorithms, enabling them to go beyond simple item attributes and truly understand the world surrounding user preferences. To achieve this, we propose LANCER, which leverages the semantic understanding capabilities of pre-trained language models to generate personalized recommendations. Our approach bridges the gap between language models and recommender systems, resulting in more human-like recommendations. We demonstrate the effectiveness of our approach through a series of experiments conducted on multiple benchmark datasets, showing promising results and providing valuable insights into the influence of our model on sequential recommendation tasks. Furthermore, our experimental codes are publicly available at https://github.com/Gnimixy/lancer.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-13
# ニューラルトランスデューサにおける内部言語モデルと系列識別訓練の関係について

On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers ( http://arxiv.org/abs/2309.14130v2 )

ライセンス: Link先を確認
Zijian Yang, Wei Zhou, Ralf Schlüter, Hermann Ney, (参考訳) 内部言語モデル(ILM)サブトラクションは、音声認識のための外部言語モデル(LM)融合を用いたRNN-Transducerの性能向上に広く応用されている。 本研究は,シーケンス識別訓練がILMサブトラクションと理論的,経験的両面から強く相関していることを示す。 理論的には、最大相互情報(MMI)トレーニングのグローバルな最適化は、ILM減算と類似した公式を共有する。 ILMサブトラクションとシーケンス識別訓練は,MMIおよび最小ベイズリスク(MBR)基準,およびフルコンテキストおよび制限コンテキストのニューラルトランスデューサとLMの両方を含む,幅広い実験において同様の効果を発揮することを実証的に示す。 ILMサブトラクションの利点は、シーケンス判別訓練後にさらに小さくなる。 In-deepth study that sequence discriminative training have a minimal effect on the common use zero-encoder ILM Estimation, but a joint effect on both encoder and prediction + joint network for posterior probability reshaping including both ILM and emptypression。

Internal language model (ILM) subtraction has been widely applied to improve the performance of the RNN-Transducer with external language model (LM) fusion for speech recognition. In this work, we show that sequence discriminative training has a strong correlation with ILM subtraction from both theoretical and empirical points of view. Theoretically, we derive that the global optimum of maximum mutual information (MMI) training shares a similar formula as ILM subtraction. Empirically, we show that ILM subtraction and sequence discriminative training achieve similar effects across a wide range of experiments on Librispeech, including both MMI and minimum Bayes risk (MBR) criteria, as well as neural transducers and LMs of both full and limited context. The benefit of ILM subtraction also becomes much smaller after sequence discriminative training. We also provide an in-depth study to show that sequence discriminative training has a minimal effect on the commonly used zero-encoder ILM estimation, but a joint effect on both encoder and prediction + joint network for posterior probability reshaping including both ILM and blank suppression.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-13
# BooookScore: LLM時代における書籍長要約の体系的研究

BooookScore: A systematic exploration of book-length summarization in the era of LLMs ( http://arxiv.org/abs/2310.00785v4 )

ライセンス: Link先を確認
Yapei Chang, Kyle Lo, Tanya Goyal, Mohit Iyyer, (参考訳) 大規模言語モデル (LLM) のコンテキストウィンドウサイズを超える書籍の長さの文書 (>100Kトークン) を要約するには、まず入力文書を小さなチャンクに分割し、LLMにチャンクレベルの要約をマージ、更新、圧縮するよう促す必要がある。 この課題の複雑さと重要性にもかかわらず、既存の書籍長要約データセット(例:BookSum)は、ほとんどの公共LCMの事前学習データであり、既存の評価手法は、現代のLCM要約器による誤りを捉えるのに苦労している。 本稿では,(1)階層的にチャンクレベルの要約をマージし,(2)実行中の要約を漸進的に更新する。 我々は、最近出版された100冊のGPT-4生成した要約に対して、1193個の微粒な人間のアノテーションを取得し、LLMによる8種類のコヒーレンスエラーを同定した。 人間の評価は高価で時間を要するため,識別されたエラータイプを一切含まない要約文の比率を計測する自動尺度BooookScoreを開発する。 BooookScoreは、人間のアノテーションと高い合意を持っていて、他の多くの重要なパラメータ(例えば、チャンクサイズ、ベースLLM)の影響を体系的に評価できます。 GPT-4 や Claude 2 のようなクローズドソース LLM は,オープンソースモデルよりも BooookScore の高いサマリーを生成することがわかった。 LLaMA 2は他のモデルより遅れているが、MixtralはGPT-3.5-Turboと同等のパフォーマンスを達成している。 増分更新によってBooookScoreは低下するが、階層的なマージよりも詳細度が高い。

Summarizing book-length documents (>100K tokens) that exceed the context window size of large language models (LLMs) requires first breaking the input document into smaller chunks and then prompting an LLM to merge, update, and compress chunk-level summaries. Despite the complexity and importance of this task, it has yet to be meaningfully studied due to the challenges of evaluation: existing book-length summarization datasets (e.g., BookSum) are in the pretraining data of most public LLMs, and existing evaluation methods struggle to capture errors made by modern LLM summarizers. In this paper, we present the first study of the coherence of LLM-based book-length summarizers implemented via two prompting workflows: (1) hierarchically merging chunk-level summaries, and (2) incrementally updating a running summary. We obtain 1193 fine-grained human annotations on GPT-4 generated summaries of 100 recently-published books and identify eight common types of coherence errors made by LLMs. Because human evaluation is expensive and time-consuming, we develop an automatic metric, BooookScore, that measures the proportion of sentences in a summary that do not contain any of the identified error types. BooookScore has high agreement with human annotations and allows us to systematically evaluate the impact of many other critical parameters (e.g., chunk size, base LLM) while saving $15K USD and 500 hours in human evaluation costs. We find that closed-source LLMs such as GPT-4 and Claude 2 produce summaries with higher BooookScore than those generated by open-source models. While LLaMA 2 falls behind other models, Mixtral achieves performance on par with GPT-3.5-Turbo. Incremental updating yields lower BooookScore but higher level of detail than hierarchical merging, a trade-off sometimes preferred by annotators.
翻訳日:2024-04-16 23:47:12 公開日:2024-04-13
# EfficientDM:低ビット拡散モデルの高効率量子化による微調整

EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models ( http://arxiv.org/abs/2310.03270v4 )

ライセンス: Link先を確認
Yefei He, Jing Liu, Weijia Wu, Hong Zhou, Bohan Zhuang, (参考訳) 拡散モデルは、画像合成と関連する生成タスクにおいて顕著な機能を示した。 それでも、現実世界のアプリケーションの実用性は、かなりの計算コストとレイテンシの問題に制約されている。 量子化は拡散モデルを圧縮し加速する主要な方法であり、後学習量子化(PTQ)と量子化認識訓練(QAT)は2つの主要なアプローチであり、それぞれが独自の性質を持つ。 PTQは時間とデータ使用量の両方で効率を示すが、低ビット幅では性能が低下する可能性がある。 一方、QATはパフォーマンスの劣化を緩和できるが、計算やデータリソースにはかなりの需要がある。 本稿では、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを提案する。 具体的には,低ランクアダプタ (QALoRA) の量子化を意識した変種を提案する。 微調整プロセスは、完全精度モデルの復調能力を定量化したものに蒸留し、データトレーニングの必要をなくす。 また,性能向上のために,スケールアウェア最適化と時間学習ステップサイズ量子化を導入している。 実験結果から, PTQに基づく拡散モデルでは, 同様の時間とデータ効率を保ちながら, 従来よりも有意に優れていたことが示唆された。 具体的には、 ImageNet 256x256 上で LDM-4 の重量と 4-bit へのアクティベーションを定量化する場合、 0.05 sFID の増加しか存在しない。 QATベースの手法と比較して、EfficientDMは16.2倍高速な量子化速度を持ち、生成品質は同等です。 コードは \href{https://github.com/ThisisBillhe/EfficientDM}{this hrl} で公開されている。

Diffusion models have demonstrated remarkable capabilities in image synthesis and related generative tasks. Nevertheless, their practicality for real-world applications is constrained by substantial computational costs and latency issues. Quantization is a dominant way to compress and accelerate diffusion models, where post-training quantization (PTQ) and quantization-aware training (QAT) are two main approaches, each bearing its own properties. While PTQ exhibits efficiency in terms of both time and data usage, it may lead to diminished performance in low bit-width. On the other hand, QAT can alleviate performance degradation but comes with substantial demands on computational and data resources. In this paper, we introduce a data-free and parameter-efficient fine-tuning framework for low-bit diffusion models, dubbed EfficientDM, to achieve QAT-level performance with PTQ-like efficiency. Specifically, we propose a quantization-aware variant of the low-rank adapter (QALoRA) that can be merged with model weights and jointly quantized to low bit-width. The fine-tuning process distills the denoising capabilities of the full-precision model into its quantized counterpart, eliminating the requirement for training data. We also introduce scale-aware optimization and temporal learned step-size quantization to further enhance performance. Extensive experimental results demonstrate that our method significantly outperforms previous PTQ-based diffusion models while maintaining similar time and data efficiency. Specifically, there is only a 0.05 sFID increase when quantizing both weights and activations of LDM-4 to 4-bit on ImageNet 256x256. Compared to QAT-based methods, our EfficientDM also boasts a 16.2x faster quantization speed with comparable generation quality. Code is available at \href{https://github.com/ThisisBillhe/EfficientDM}{this hrl}.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-13
# FreeReg: 事前トレーニングされた拡散モデルと単眼深度推定器を活用するイメージツーポイントクラウド登録

FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators ( http://arxiv.org/abs/2310.03420v2 )

ライセンス: Link先を確認
Haiping Wang, Yuan Liu, Bing Wang, Yujing Sun, Zhen Dong, Wenping Wang, Bisheng Yang, (参考訳) イメージとポイントクラウド間のクロスモダリティ機能をマッチングすることは、イメージツーポイントクラウド登録の根本的な問題である。 しかし,画像と点のモダリティの違いから,特徴マッチングのための既存の計量学習手法を用いて,頑健で差別的な異質な特徴を学習することは困難である。 そこで本研究では,まず画像と点雲のモダリティを事前学習した大規模モデルにより統一し,同じモダリティ内にロバストな対応性を確立することを提案する。 画像から画像への拡散モデルから抽出した拡散特徴と呼ばれる中間的特徴は,画像と点雲の間に意味的に整合性があることを示し,粗いが頑健な相互モダリティ対応の構築を可能にする。 さらに, 単分子深度推定器により生成された深度マップの幾何学的特徴を抽出する。 このような幾何学的特徴をマッチングすることにより、拡散特徴によって生成される粗い対応の精度を大幅に向上する。 広範囲な実験により、タスク固有のトレーニングがなければ、両方の機能の直接的な利用は、正確なイメージ・ツー・ポイントのクラウド登録を生み出すことが示されている。 屋内および屋外の3つのベンチマークでは、提案手法はインリエ比が平均20.6%向上し、3倍のインリエ数、48.6%の登録リコールを実現している。

Matching cross-modality features between images and point clouds is a fundamental problem for image-to-point cloud registration. However, due to the modality difference between images and points, it is difficult to learn robust and discriminative cross-modality features by existing metric learning methods for feature matching. Instead of applying metric learning on cross-modality data, we propose to unify the modality between images and point clouds by pretrained large-scale models first, and then establish robust correspondence within the same modality. We show that the intermediate features, called diffusion features, extracted by depth-to-image diffusion models are semantically consistent between images and point clouds, which enables the building of coarse but robust cross-modality correspondences. We further extract geometric features on depth maps produced by the monocular depth estimator. By matching such geometric features, we significantly improve the accuracy of the coarse correspondences produced by diffusion features. Extensive experiments demonstrate that without any task-specific training, direct utilization of both features produces accurate image-to-point cloud registration. On three public indoor and outdoor benchmarks, the proposed method averagely achieves a 20.6 percent improvement in Inlier Ratio, a three-fold higher Inlier Number, and a 48.6 percent improvement in Registration Recall than existing state-of-the-arts.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-13
# 人間の行動からみた大規模言語モデルの提案

Probing Large Language Models from A Human Behavioral Perspective ( http://arxiv.org/abs/2310.05216v2 )

ライセンス: Link先を確認
Xintong Wang, Xiaoyu Li, Xingshan Li, Chris Biemann, (参考訳) 大規模言語モデル(LLM)は、現代のNLPにおいて支配的な基礎モデルとして登場した。 しかし、フィードフォワード・ネットワーク(FFN)やマルチヘッド・セルフアテンション(MHSA)といった予測プロセスや内部メカニズムの理解はいまだに未解明のままである。 本研究では,人間の行動的視点からLLMを探索し,LLMの値と視線追跡の指標との関連性を検討した。 その結果,LLM は人間と類似した予測パターンを示すが,Shallow Language Models (SLM) とは異なっていることがわかった。 さらに,中層からLLM層がエスカレーションされると,相関係数はFFNとMHSAも増加し,FFN内のロジットが語彙からトークンを予測するのに適した単語意味論をカプセル化する傾向が示唆された。

Large Language Models (LLMs) have emerged as dominant foundational models in modern NLP. However, the understanding of their prediction processes and internal mechanisms, such as feed-forward networks (FFN) and multi-head self-attention (MHSA), remains largely unexplored. In this work, we probe LLMs from a human behavioral perspective, correlating values from LLMs with eye-tracking measures, which are widely recognized as meaningful indicators of human reading patterns. Our findings reveal that LLMs exhibit a similar prediction pattern with humans but distinct from that of Shallow Language Models (SLMs). Moreover, with the escalation of LLM layers from the middle layers, the correlation coefficients also increase in FFN and MHSA, indicating that the logits within FFN increasingly encapsulate word semantics suitable for predicting tokens from the vocabulary.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-13
# プライベート高次元モデル選択の計算複雑性について

On the Computational Complexity of Private High-dimensional Model Selection ( http://arxiv.org/abs/2310.07852v3 )

ライセンス: Link先を確認
Saptarshi Roy, Zehua Wang, Ambuj Tewari, (参考訳) プライバシー制約下での高次元疎線形回帰モデルにおけるモデル選択の問題点を考察する。 本稿では,モデル選択によく知られた指数的メカニズムを応用して,高い効用性を有する差分プライベートなベストサブセット選択法を提案する。 本稿では,効率的なメトロポリス・ハスティングスアルゴリズムを提案し,その定常分布に多項式混合時間を持つことを示す。 さらに、混合メトロポリス・ハスティングス連鎖の推定値に対して近似微分プライバシーを確立する。 最後に、我々のアルゴリズムの強力な有用性を示すいくつかの実証実験を行う。

We consider the problem of model selection in a high-dimensional sparse linear regression model under privacy constraints. We propose a differentially private best subset selection method with strong utility properties by adopting the well-known exponential mechanism for selecting the best model. We propose an efficient Metropolis-Hastings algorithm and establish that it enjoys polynomial mixing time to its stationary distribution. Furthermore, we also establish approximate differential privacy for the estimates of the mixed Metropolis-Hastings chain. Finally, we perform some illustrative experiments that show the strong utility of our algorithm.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-13
# UNK-VQA:マルチモーダル大モデルの留意能力に関するデータセットと証明

UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models ( http://arxiv.org/abs/2310.10942v4 )

ライセンス: Link先を確認
Yangyang Guo, Fangkai Jiao, Zhiqi Shen, Liqiang Nie, Mohan Kankanhalli, (参考訳) 信頼できるAIシステムを構築するためには、VQA(Visual Question Answering)モデルに、解決不可能な質問への回答を控えるように教える必要がある。 現存する研究は、VQAの様々な側面を探求してきたが、この特質を幾らか無視した。 本稿では,UNK-VQAと呼ばれる包括的データセットを提供することで,研究ギャップを埋めることを目的とする。 データセットは、モデルが知らない問題に対処するために特別に設計されている。 この目的のために、私たちはまず、画像または疑問に対して意図的に摂動することで既存のデータを拡張します。 具体的には、質問画像のセマンティクスが元の未摂動分布に近いことを慎重に確認する。 これはつまり、解決不可能な質問の識別が難しくなり、単なる画像置換を含む他の問題とデータセットを分離します。 そこで我々は,新たなマルチモーダル大規模モデルのゼロショットと少数ショットのパフォーマンスを広範囲に評価し,データセットに適用した場合に,それらの重要な制限を見いだす。 また,これらの疑問に対処するための簡単な手法も提案する。 このデータセットは、VQAモデルの禁断能力を高めるための貴重なベンチマークとして機能し、それによってAIシステムの信頼性が向上すると考えています。 この分野のさらなる探索を容易にするため、データセット(https://github.com/guoyang9/UNK-VQA)を利用可能にしました。

Teaching Visual Question Answering (VQA) models to refrain from answering unanswerable questions is necessary for building a trustworthy AI system. Existing studies, though have explored various aspects of VQA but somewhat ignored this particular attribute. This paper aims to bridge the research gap by contributing a comprehensive dataset, called UNK-VQA. The dataset is specifically designed to address the challenge of questions that models do not know. To this end, we first augment the existing data via deliberate perturbations on either the image or question. In specific, we carefully ensure that the question-image semantics remain close to the original unperturbed distribution. By this means, the identification of unanswerable questions becomes challenging, setting our dataset apart from others that involve mere image replacement. We then extensively evaluate the zero- and few-shot performance of several emerging multi-modal large models and discover their significant limitations when applied to our dataset. Additionally, we also propose a straightforward method to tackle these unanswerable questions. This dataset, we believe, will serve as a valuable benchmark for enhancing the abstention capability of VQA models, thereby leading to increased trustworthiness of AI systems. We have made the dataset (https://github.com/guoyang9/UNK-VQA) available to facilitate further exploration in this area.
翻訳日:2024-04-16 23:37:19 公開日:2024-04-13
# IRAD: 敵対的攻撃に対する暗黙の表現駆動型イメージリサンプリング

IRAD: Implicit Representation-driven Image Resampling against Adversarial Attacks ( http://arxiv.org/abs/2310.11890v3 )

ライセンス: Link先を確認
Yue Cao, Tianlin Li, Xiaofeng Cao, Ivor Tsang, Yang Liu, Qing Guo, (参考訳) 本稿では,画像再サンプリングという,敵対的攻撃に対する新たなアプローチを提案する。 画像再サンプリングは、幾何学的変換によって指定されたシーンの再調整や再レンダリングの過程をシミュレートして、離散画像を新しい画像に変換する。 我々の考えの根底にある理論的根拠は、画像再サンプリングは、本質的な意味情報を保持しながら、敵の摂動の影響を緩和し、敵の攻撃を防御する固有の優位性を与える、というものである。 この概念を検証するために,画像再サンプリングを活用して敵の攻撃を防ぐための総合的研究を行った。 我々は補間戦略と座標シフト等級を用いた基本的な再サンプリング手法を開発した。 解析の結果,これらの基本手法は部分的に敵攻撃を軽減できることが明らかとなった。 クリーンな画像の精度は顕著に低下する一方、敵の例に対する精度の改善はそれほど大きくない。 これらの制限を克服するために、暗黙的な表現駆動画像再サンプリング(IRAD)を提案する。 まず、連続座標空間内の任意の入力画像を表現できる暗黙的な連続表現を構築する。 次にSampleNetを導入し、異なる入力に応じて再サンプリングのための画素単位のシフトを自動的に生成する。 さらに,我々のアプローチを最先端拡散法に拡張し,防衛能力を保ちながら,より少ない時間ステップで高速化することができる。 大規模な実験により, クリーン画像の精度を維持しつつ, 多様な深層モデルの種々の攻撃に対する対角的堅牢性を著しく向上することが示された。

We introduce a novel approach to counter adversarial attacks, namely, image resampling. Image resampling transforms a discrete image into a new one, simulating the process of scene recapturing or rerendering as specified by a geometrical transformation. The underlying rationale behind our idea is that image resampling can alleviate the influence of adversarial perturbations while preserving essential semantic information, thereby conferring an inherent advantage in defending against adversarial attacks. To validate this concept, we present a comprehensive study on leveraging image resampling to defend against adversarial attacks. We have developed basic resampling methods that employ interpolation strategies and coordinate shifting magnitudes. Our analysis reveals that these basic methods can partially mitigate adversarial attacks. However, they come with apparent limitations: the accuracy of clean images noticeably decreases, while the improvement in accuracy on adversarial examples is not substantial. We propose implicit representation-driven image resampling (IRAD) to overcome these limitations. First, we construct an implicit continuous representation that enables us to represent any input image within a continuous coordinate space. Second, we introduce SampleNet, which automatically generates pixel-wise shifts for resampling in response to different inputs. Furthermore, we can extend our approach to the state-of-the-art diffusion-based method, accelerating it with fewer time steps while preserving its defense capability. Extensive experiments demonstrate that our method significantly enhances the adversarial robustness of diverse deep models against various attacks while maintaining high accuracy on clean images.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-13
# 大規模言語モデルの空間的理解の評価

Evaluating Spatial Understanding of Large Language Models ( http://arxiv.org/abs/2310.14540v3 )

ライセンス: Link先を確認
Yutaro Yamada, Yihan Bao, Andrew K. Lampinen, Jungo Kasai, Ilker Yildirim, (参考訳) 大規模言語モデル(LLM)は、様々なタスクにまたがる優れた機能を示している。 トレーニング中のテキストしか見ることができないモデルにもかかわらず、最近のいくつかの研究は、LLM表現が基礎となる基礎概念の側面を暗黙的に捉えていることを示唆している。 本稿では,空間的関係という,特に健全な知識のLLM表現について考察する。 我々は、自然言語ナビゲーションタスクを設計し、特にGPT-3.5-turbo、GPT-4、Llama2シリーズモデルにおけるLLMの能力を評価し、空間構造を表現し、推論する。 これらのタスクは、正方形、六角形、三角形の格子、環、木など、異なる空間構造におけるLLM性能のかなりのばらつきを示す。 広い誤差解析において,LLMの誤りは空間的要因と非空間的要因の両方を反映していることがわかった。 これらのことから, LLMは空間構造の特定の側面を暗黙的に捉えているように見えるが, 改善の余地は残されている。

Large language models (LLMs) show remarkable capabilities across a variety of tasks. Despite the models only seeing text in training, several recent studies suggest that LLM representations implicitly capture aspects of the underlying grounded concepts. Here, we explore LLM representations of a particularly salient kind of grounded knowledge -- spatial relationships. We design natural-language navigation tasks and evaluate the ability of LLMs, in particular GPT-3.5-turbo, GPT-4, and Llama2 series models, to represent and reason about spatial structures. These tasks reveal substantial variability in LLM performance across different spatial structures, including square, hexagonal, and triangular grids, rings, and trees. In extensive error analysis, we find that LLMs' mistakes reflect both spatial and non-spatial factors. These findings suggest that LLMs appear to capture certain aspects of spatial structure implicitly, but room for improvement remains.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-13
# 音楽大言語モデリングのためのコンテンツベース制御

Content-based Controls For Music Large Language Modeling ( http://arxiv.org/abs/2310.17162v2 )

ライセンス: Link先を確認
Liwei Lin, Gus Xia, Junyan Jiang, Yixiao Zhang, (参考訳) 近年、音楽オーディオ分野における大規模言語モデルの急速な成長が見られた。 このようなモデルは高品質な音楽のエンドツーエンド生成を可能にし、一部はテキスト記述による条件付き生成を可能にする。 しかし、音楽におけるテキストコントロールの制御力は、メタデータ(歌手や楽器など)や高レベルの表現(ジャンルや感情など)を通じて音楽を間接的に記述できるため、本質的に制限されている。 我々は、ピッチ、コード、ドラムトラックなどの自然音楽言語に対して、直接的およびコンテンツに基づく制御をモデルに追加することを目指している。 この目的のために,音楽大言語モデリングのためのコンテンツベース制御手法であるCoco-Mullaをコントリビュートする。 トランスフォーマーベースのオーディオモデルに適したパラメータ効率細調整法(PEFT)を用いる。 実験により,本手法は低リソース半教師付き学習による高品質な音楽生成を実現し,オリジナルモデルと比較して4%未満のパラメータでチューニングし,300曲未満の小さなデータセットでトレーニングを行った。 さらに,本手法により効果的なコンテンツベース制御が可能となり,コードとリズムによる制御能力,音楽オーディオの最も有能な特徴の2つが説明できる。 さらに,コンテンツベースの制御とテキスト記述を組み合わせることで,フレキシブルな音楽変化生成とアレンジメントを実現する。 ソースコードとデモはオンラインで公開されています。

Recent years have witnessed a rapid growth of large-scale language models in the domain of music audio. Such models enable end-to-end generation of higher-quality music, and some allow conditioned generation using text descriptions. However, the control power of text controls on music is intrinsically limited, as they can only describe music indirectly through meta-data (such as singers and instruments) or high-level representations (such as genre and emotion). We aim to further equip the models with direct and content-based controls on innate music languages such as pitch, chords and drum track. To this end, we contribute Coco-Mulla, a content-based control method for music large language modeling. It uses a parameter-efficient fine-tuning (PEFT) method tailored for Transformer-based audio models. Experiments show that our approach achieved high-quality music generation with low-resource semi-supervised learning, tuning with less than 4% parameters compared to the original model and training on a small dataset with fewer than 300 songs. Moreover, our approach enables effective content-based controls, and we illustrate the control power via chords and rhythms, two of the most salient features of music audio. Furthermore, we show that by combining content-based controls and text descriptions, our system achieves flexible music variation generation and arrangement. Our source codes and demos are available online.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-13
# BioImage.IO Chatbot - 統合型バイオイメージングのためのコミュニティ駆動AIアシスタント

BioImage.IO Chatbot: A Community-Driven AI Assistant for Integrative Computational Bioimaging ( http://arxiv.org/abs/2310.18351v5 )

ライセンス: Link先を確認
Wanlu Lei, Caterina Fuster-Barceló, Gabriel Reder, Arrate Muñoz-Barrutia, Wei Ouyang, (参考訳) BioImage$を提示します。 $IO Chatbotは、Large Language ModelsをベースとするAIアシスタントで、コミュニティ主導の知識ベースとツールセットによってサポートされている。 このチャットボットは、情報検索からAIによって強化された分析と顕微鏡制御まで、幅広いユーザーニーズに対応するための柔軟な拡張メカニズムによって設計されている。 オープンソースの原則を取り入れたチャットボットは、コミュニティのコントリビューションを通じて進化するように設計されている。 BioImage.IO Chatbotは、複雑なバイオイメージング環境を通したナビゲーションを簡単にすることで、ライフサイエンスの進歩を促す。

We present the BioImage$.$IO Chatbot, an AI assistant powered by Large Language Models and supported by a community-driven knowledge base and toolset. This chatbot is designed to cater to a wide range of user needs through a flexible extension mechanism that spans from information retrieval to AI-enhanced analysis and microscopy control. Embracing open-source principles, the chatbot is designed to evolve through community contributions. By simplifying navigation through the intricate bioimaging landscape, the BioImage.IO Chatbot empowers life sciences to progress by leveraging the collective expertise and innovation of its users.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-13
# 偽ニュース検出を大規模言語モデルに適応させる

Adapting Fake News Detection to the Era of Large Language Models ( http://arxiv.org/abs/2311.04917v2 )

ライセンス: Link先を確認
Jinyan Su, Claire Cardie, Preslav Nakov, (参考訳) 大規模言語モデル(LLM)の時代とAIによるコンテンツ制作の普及により、情報の普及の展望はパラダイムシフトを目の当たりにした。 人間による記事と機械によるニュースと偽ニュースの両方の拡散により、ニュース記事の正確さを堅牢かつ効果的に識別することは、複雑な課題となっている。 重大な研究は偽ニュースの検出に向けられているが、これは全てのニュース記事が人間によって書かれたものであると仮定するか、突然、すべての機械生成ニュースが偽ニュースであると仮定する。 したがって、機械による(言い換えられた)リアルニュース、機械生成のフェイクニュース、人書きのフェイクニュース、人間書きのリアルニュースとの相互作用を理解する上で、大きなギャップが存在する。 本稿では,様々なシナリオで訓練された偽ニュース検知器を包括的に評価することにより,このギャップについて検討する。 LLMの時代に偽ニュース検出器をどう適応させるか? 我々の実験では、人書き記事のみに特化して訓練された検知器が、機械が生成したフェイクニュースを検出できる興味深いパターンを明らかにしましたが、その逆ではありません。 さらに、機械生成テキストに対する検出器のバイアスが原因で、テストセットよりも機械生成ニュース比が低いデータセットでトレーニングすべきである。 本研究は,本研究の成果に基づいて,堅牢な偽ニュース検知装置の開発のための実践的戦略を提供する。

In the age of large language models (LLMs) and the widespread adoption of AI-driven content creation, the landscape of information dissemination has witnessed a paradigm shift. With the proliferation of both human-written and machine-generated real and fake news, robustly and effectively discerning the veracity of news articles has become an intricate challenge. While substantial research has been dedicated to fake news detection, this either assumes that all news articles are human-written or abruptly assumes that all machine-generated news are fake. Thus, a significant gap exists in understanding the interplay between machine-(paraphrased) real news, machine-generated fake news, human-written fake news, and human-written real news. In this paper, we study this gap by conducting a comprehensive evaluation of fake news detectors trained in various scenarios. Our primary objectives revolve around the following pivotal question: How to adapt fake news detectors to the era of LLMs? Our experiments reveal an interesting pattern that detectors trained exclusively on human-written articles can indeed perform well at detecting machine-generated fake news, but not vice versa. Moreover, due to the bias of detectors against machine-generated texts \cite{su2023fake}, they should be trained on datasets with a lower machine-generated news ratio than the test set. Building on our findings, we provide a practical strategy for the development of robust fake news detectors.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-13
# X-Eval:補助的評価の側面を考慮した拡張インストラクションチューニングによる一般化可能な多視点テキスト評価

X-Eval: Generalizable Multi-aspect Text Evaluation via Augmented Instruction Tuning with Auxiliary Evaluation Aspects ( http://arxiv.org/abs/2311.08788v2 )

ライセンス: Link先を確認
Minqian Liu, Ying Shen, Zhiyang Xu, Yixin Cao, Eunah Cho, Vaibhav Kumar, Reza Ghanadan, Lifu Huang, (参考訳) 自然言語生成(NLG)は通常、生成されたテキストを様々な側面(例えば、一貫性と自然性)で評価し、包括的な評価を得る。 しかし、訓練中に欠席している場合でも、評価者が任意の評価面に一般化する必要があるため、マルチアスペクト評価は依然として困難である。 本稿では,エンドユーザーがカスタマイズした2段階のインストラクション・チューニング・フレームワークであるX-Evalを紹介する。 X-Evalは2つの学習段階から構成されており、モデルの性能を向上させるバニラ命令チューニング段階と、微粒化評価面間の接続を利用してテキスト品質を評価する拡張命令チューニング段階である。 X-Evalのトレーニングを支援するために,65のタスクで27の異なる評価側面にまたがるマルチアスペクトNLG評価に適した,最初のインストラクションチューニングデータセットであるAspectInstructを収集した。 タスクの多様性を高めるため,評価アノテーションをスコアリング,比較,ランキング,ブール質問応答など,多種多様なNLG評価タスクに変換する拡張戦略を考案した。 NLGタスクの3つの重要なカテゴリ(対話生成、要約、データ・トゥ・テキスト)にメタ評価の21の側面が組み合わさった実験により、我々のX-Evalは、GPT-4のような最先端のNLG評価器と比較して、人間の判断に匹敵する相関性のない軽量言語モデルでも達成できることを示した。

Natural Language Generation (NLG) typically involves evaluating the generated text in various aspects (e.g., consistency and naturalness) to obtain a comprehensive assessment. However, multi-aspect evaluation remains challenging as it may require the evaluator to generalize to any given evaluation aspect even if it's absent during training. In this paper, we introduce X-Eval, a two-stage instruction tuning framework to evaluate the text in both seen and unseen aspects customized by end users. X-Eval consists of two learning stages: the vanilla instruction tuning stage that improves the model's ability to follow evaluation instructions, and an enhanced instruction tuning stage that exploits the connections between fine-grained evaluation aspects to better assess text quality. To support the training of X-Eval, we collect AspectInstruct, the first instruction tuning dataset tailored for multi-aspect NLG evaluation spanning 27 diverse evaluation aspects with 65 tasks. To enhance task diversity, we devise an augmentation strategy that converts human rating annotations into diverse forms of NLG evaluation tasks, including scoring, comparison, ranking, and Boolean question answering. Extensive experiments across three essential categories of NLG tasks: dialogue generation, summarization, and data-to-text coupled with 21 aspects in meta-evaluation, demonstrate that our X-Eval enables even a lightweight language model to achieve a comparable if not higher correlation with human judgments compared to the state-of-the-art NLG evaluators, such as GPT-4.
翻訳日:2024-04-16 23:27:27 公開日:2024-04-13
# 支払い不要な資源配分メカニズムの学習

Learning Payment-Free Resource Allocation Mechanisms ( http://arxiv.org/abs/2311.10927v2 )

ライセンス: Link先を確認
Sihan Zeng, Sujay Bhatt, Eleonora Kreacic, Parisa Hassanzadeh, Alec Koppel, Sumitra Ganesh, (参考訳) ニューラルネットワークを用いた自己関心エージェント間で限られたリソースを割り当てる機構の設計について検討する。 オークションにおける収益の最大化に機械学習を活用している最近の研究とは異なり、福祉の最大化は支払い不要な環境において重要な目標であると考えている。 支払い交換がなければ、エージェントのインセンティブを調整して真理と社会福祉の目的を同時に達成できるかは、近似に頼らずに明らかではない。 本研究は, 社会的福祉と誠実さを両立させる, およそのメカニズムを設計することによって, 新たな貢献を行う。 具体的には i)新たなエンドツーエンドニューラルネットワークアーキテクチャであるExS-Netにコントリビュートする。 (ii)~有限サンプル下での学習時の機構性能を保証する一般化境界を提供する。 (三)提案機構のメリットを実験的に実証する。

We consider the design of mechanisms that allocate limited resources among self-interested agents using neural networks. Unlike the recent works that leverage machine learning for revenue maximization in auctions, we consider welfare maximization as the key objective in the payment-free setting. Without payment exchange, it is unclear how we can align agents' incentives to achieve the desired objectives of truthfulness and social welfare simultaneously, without resorting to approximations. Our work makes novel contributions by designing an approximate mechanism that desirably trade-off social welfare with truthfulness. Specifically, (i) we contribute a new end-to-end neural network architecture, ExS-Net, that accommodates the idea of "money-burning" for mechanism design without payments; (ii)~we provide a generalization bound that guarantees the mechanism performance when trained under finite samples; and (iii) we provide an experimental demonstration of the merits of the proposed mechanism.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-13
# M$^{2}$Chat:マルチモーダルLLMインターリーブテキスト画像生成のためのVLMの強化

M$^{2}$Chat: Empowering VLM for Multimodal LLM Interleaved Text-Image Generation ( http://arxiv.org/abs/2311.17963v2 )

ライセンス: Link先を確認
Xiaowei Chi, Rongyu Zhang, Zhengkai Jiang, Yijiang Liu, Yatian Wang, Xingqun Qi, Wenhan Luo, Peng Gao, Shanghang Zhang, Qifeng Liu, Yike Guo, (参考訳) GPT-4Vのような現在のLLMチャットボットは、人間の命令と視覚表現のギャップを埋めてテキスト画像生成を可能にするが、複数の下流タスクで高忠実なパフォーマンスを実現するための効率的なアライメント方法がない。 本稿では,様々なシナリオにまたがるインターリーブ・テキスト・イメージ・会話を生成するための,新しいマルチモーダル LLM フレームワークである \textbf{$M^{2}Chat$} を提案する。 具体的には,M^{3}Adapter$を提案し,マルチモーダルプロンプトから高レベルな視覚情報と高レベルな意味的特徴を効率的に統合する。 M^{3}Adapter$は、よく整合した機能によって、学習可能なゲーティング戦略を調整し、モデルの創造性と一貫性を、さまざまなタスクで適応的にバランスさせる。 さらに、意味的文脈理解のコヒーレンスを維持しつつ、$M^{3}Adapter$の有効性をさらに高めるために、2段階の$M^{3}FT$微調整戦略を導入する。 この戦略は、画像テキストアライメントと視覚的インストラクションのために、パラメータの解離したグループを最適化する。 大規模な実験では、M^{2}Chat$がさまざまなベンチマークで最先端のベンチマークを上回っ、インターリーブ生成、ストーリーテリング、マルチモーダル対話システムに長けていることが示されています。 デモとコードは、red{https://mattie-e.github.io/M2Chat.github.io}で公開されている。

While current LLM chatbots like GPT-4V bridge the gap between human instructions and visual representations to enable text-image generations, they still lack efficient alignment methods for high-fidelity performance on multiple downstream tasks. In this paper, we propose \textbf{$M^{2}Chat$}, a novel unified multimodal LLM framework for generating interleaved text-image conversation across various scenarios. Specifically, we propose an $M^{3}Adapter$ that efficiently integrates granular low-level visual information and high-level semantic features from multi-modality prompts. Upon the well-aligned fused feature, $M^{3}Adapter$ tailors a learnable gating strategy to balance the model creativity and consistency across various tasks adaptively. Moreover, to further enhance the effectiveness of $M^{3}Adapter$ while preserving the coherence of semantic context comprehension, we introduce a two-stage $M^{3}FT$ fine-tuning strategy. This strategy optimizes disjoint groups of parameters for image-text alignment and visual-instruction respectively. Extensive experiments demonstrate our $M^{2}Chat$ surpasses state-of-the-art counterparts across diverse benchmarks, showcasing its prowess in interleaving generation, storytelling, and multimodal dialogue systems. The demo and code are available at \red{https://mattie-e.github.io/M2Chat.github.io}.
翻訳日:2024-04-16 23:17:34 公開日:2024-04-13
# タスクパラメータ部分空間におけるマッチングモデルによるマージ

Merging by Matching Models in Task Parameter Subspaces ( http://arxiv.org/abs/2312.04339v2 )

ライセンス: Link先を確認
Derek Tam, Mohit Bansal, Colin Raffel, (参考訳) モデルマージは、個々のタスク固有のモデルを単一のマルチタスクモデルに安価に結合することを目的としている。 本研究では,過去のマージ手法を,モデルがマージされる前にマッチングされるような「タスクパラメータ部分空間」の異なる概念の活用とみなす。 与えられたモデルのタスクパラメータ部分空間を損失ランドスケープに接続し、モデルマージに対するこのアプローチが方程式の線形系を解くのにどう役立つかを定式化する。 過去の研究は一般に閉形式解を持つ線形系に限られているが、共役勾配法を用いて解を求める。 共役勾配法は閉形式解よりも優れており、解決し難い線形系を経由したマージが可能であり、「タスクパラメータ部分空間」の様々な初期化と推定から柔軟に選択できることを示す。 最終的に、我々の統合フレームワークである''Matching Models in their Task Parameter Subspace' (MaTS) が、マルチタスクおよび中間タスクモデルのマージにおいて、最先端の結果を達成することを実証した。 私たちは、https://github.com/r-three/mats.com/matsで、作業で使われているすべてのコードとチェックポイントをリリースします。

Model merging aims to cheaply combine individual task-specific models into a single multitask model. In this work, we view past merging methods as leveraging different notions of a ''task parameter subspace'' in which models are matched before being merged. We connect the task parameter subspace of a given model to its loss landscape and formalize how this approach to model merging can be seen as solving a linear system of equations. While past work has generally been limited to linear systems that have a closed-form solution, we consider using the conjugate gradient method to find a solution. We show that using the conjugate gradient method can outperform closed-form solutions, enables merging via linear systems that are otherwise intractable to solve, and flexibly allows choosing from a wide variety of initializations and estimates for the ''task parameter subspace''. We ultimately demonstrate that our merging framework called ''Matching Models in their Task Parameter Subspace'' (MaTS) achieves state-of-the-art results in multitask and intermediate-task model merging. We release all of the code and checkpoints used in our work at https://github.com/r-three/mats.
翻訳日:2024-04-16 23:07:44 公開日:2024-04-13
# FM-G-CAM:コンピュータビジョンにおける説明可能なAIの全体的アプローチ

FM-G-CAM: A Holistic Approach for Explainable AI in Computer Vision ( http://arxiv.org/abs/2312.05975v2 )

ライセンス: Link先を確認
Ravidu Suien Rammuni Silva, Jordan J. Bird, (参考訳) 説明可能性(Explainability)は、現実世界のインパクトとユーザビリティに不可欠な、現代のAIの側面である。 本研究の目的は,コンピュータビジョンモデル,特に畳み込みニューラルネットワーク(CNN)に基づくモデルの予測を理解する必要性を強調することである。 既存のCNN予測法は、主にグラディエント重み付きクラスアクティベーションマップ(Grad-CAM)に基づいており、単一のターゲットクラスのみに焦点を当てている。 対象とするクラス選択の観点から予測過程を仮定し,CNNモデルの思考過程の大部分を無視することを示す。 本稿では,複数の上位予測クラスを考察したFused Multi-class Gradient-weighted Class Activation Map (FM-G-CAM)を提案する。 また,本手法の詳細な数学的,包括的,アルゴリズム的な記述も提供する。 さらに,既存の手法の簡潔な比較とともに,FM-G-CAMとGrad-CAMを比較し,現実の実践的ユースケースによるメリットを強調した。 最後に,FM-G-CAMを実装したオープンソースのPythonライブラリを提案する。

Explainability is an aspect of modern AI that is vital for impact and usability in the real world. The main objective of this paper is to emphasise the need to understand the predictions of Computer Vision models, specifically Convolutional Neural Network (CNN) based models. Existing methods of explaining CNN predictions are mostly based on Gradient-weighted Class Activation Maps (Grad-CAM) and solely focus on a single target class. We show that from the point of the target class selection, we make an assumption on the prediction process, hence neglecting a large portion of the predictor CNN model's thinking process. In this paper, we present an exhaustive methodology called Fused Multi-class Gradient-weighted Class Activation Map (FM-G-CAM) that considers multiple top predicted classes, which provides a holistic explanation of the predictor CNN's thinking rationale. We also provide a detailed and comprehensive mathematical and algorithmic description of our method. Furthermore, along with a concise comparison of existing methods, we compare FM-G-CAM with Grad-CAM, highlighting its benefits through real-world practical use cases. Finally, we present an open-source Python library with FM-G-CAM implementation to conveniently generate saliency maps for CNN-based model predictions.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-13
# スペクトルスペクトルフィルタを用いたグラフニューラルネットワーク

Graph Neural Networks with Diverse Spectral Filtering ( http://arxiv.org/abs/2312.09041v2 )

ライセンス: Link先を確認
Jingwei Guo, Kaizhu Huang, Xinping Yi, Rui Zhang, (参考訳) スペクトルグラフニューラルネットワーク(GNN)はグラフ機械学習において大きな成功を収めており、グラフ畳み込みに多項式フィルタを適用している。 この成功にもかかわらず、既存のスペクトルGNNは、現実世界のネットワークに見られるような局所的な不均一性を無視した均一なスペクトルフィルタリング設定のため、複雑なネットワーク(例えばWWW)を扱うことができない。 そこで本研究では,ノード固有のフィルタ重み付けを自動的に学習し,局所構造を適切に活用する,新しいスペクトルフィルタリング(DSF)フレームワークを提案する。 特に、多様性のあるフィルタの重みは、すべてのノード間で共有されるグローバルなコンポーネントと、異なるグラフ部分から生じるノードの差を反映するためにネットワークエッジに沿って変化するローカルなコンポーネントの2つから成り立っている。 したがって、グローバルグラフの特徴を捉えるだけでなく、異なるノード位置を認識することで、多様な局所パターンを掘り下げることができる。 興味深いことに、我々は多様なフィルタの学習を支援するために新しい最適化問題を定式化し、また、DSFフレームワークでスペクトルGNNを拡張できます。 本稿では,GPR-GNN,BernNet,JacobiConvの3つの最先端技術に関するフレームワークについて紹介する。 10のベンチマークデータセットに対する大規模な実験により、我々のフレームワークは、ノード分類タスクにおいて最大4.92%のモデル性能を継続的に向上し、解釈可能性を高めた多様なフィルタを作成できることを示した。 コードは \url{https://github.com/jingweio/DSF} で入手できる。

Spectral Graph Neural Networks (GNNs) have achieved tremendous success in graph machine learning, with polynomial filters applied for graph convolutions, where all nodes share the identical filter weights to mine their local contexts. Despite the success, existing spectral GNNs usually fail to deal with complex networks (e.g., WWW) due to such homogeneous spectral filtering setting that ignores the regional heterogeneity as typically seen in real-world networks. To tackle this issue, we propose a novel diverse spectral filtering (DSF) framework, which automatically learns node-specific filter weights to exploit the varying local structure properly. Particularly, the diverse filter weights consist of two components -- A global one shared among all nodes, and a local one that varies along network edges to reflect node difference arising from distinct graph parts -- to balance between local and global information. As such, not only can the global graph characteristics be captured, but also the diverse local patterns can be mined with awareness of different node positions. Interestingly, we formulate a novel optimization problem to assist in learning diverse filters, which also enables us to enhance any spectral GNNs with our DSF framework. We showcase the proposed framework on three state-of-the-arts including GPR-GNN, BernNet, and JacobiConv. Extensive experiments over 10 benchmark datasets demonstrate that our framework can consistently boost model performance by up to 4.92% in node classification tasks, producing diverse filters with enhanced interpretability. Code is available at \url{https://github.com/jingweio/DSF}.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-13
# 実時間実時間適応のためのバッチ正規化の解法

Unraveling Batch Normalization for Realistic Test-Time Adaptation ( http://arxiv.org/abs/2312.09486v3 )

ライセンス: Link先を確認
Zixian Su, Jingwei Guo, Kai Yao, Xi Yang, Qiufeng Wang, Kaizhu Huang, (参考訳) 近年の試験時間適応は、バッチ正規化を狭い領域差に調整することで有効性を示すが、その効果は、不正確なターゲット推定による現実的なミニバッチによって減少する。 これまでの試みでは、この問題を緩和するためにソース統計を導入するだけであったため、不正確なターゲット推定の根本的な問題は依然として続き、本質的なテスト時間領域のシフトは未解決のままである。 本稿では,ミニバッチ劣化問題について考察する。 バッチ正規化を解き放つことにより、不正確なターゲット統計は、バッチのクラス多様性が大幅に減少することに起因することが判明した。 この知見に基づいて、トレーニングとテストバッチの間のクラス間のギャップを埋めるために、テスト時間指数移動平均(TEMA)という簡単なツールを導入します。 重要なことに、私たちのTEMAは、現在のバッチを超えて典型的なメソッドの範囲を適応的に拡張し、多様なクラス情報を組み込むことで、それによって正確なターゲット推定が促進されます。 この基盤の上に構築された我々は、テスト時間性能を継続的に促進するための新しい階層的な修正戦略をさらに設計する。 提案手法はトレーニングもチューニングパラメータも必要とせず,真のハードルフリーなソリューションを提供するため,ユニークな利点がある。 シフトしたドメインに対するモデルロバスト性を大幅に向上させ、さまざまなバッチサイズを持つさまざまな実世界のシナリオでレジリエンスを維持し、いくつかの主要なベンチマークで最先端のパフォーマンスを達成する。 コードは \url{https://github.com/kiwi12138/RealisticTTA} で公開されている。

While recent test-time adaptations exhibit efficacy by adjusting batch normalization to narrow domain disparities, their effectiveness diminishes with realistic mini-batches due to inaccurate target estimation. As previous attempts merely introduce source statistics to mitigate this issue, the fundamental problem of inaccurate target estimation still persists, leaving the intrinsic test-time domain shifts unresolved. This paper delves into the problem of mini-batch degradation. By unraveling batch normalization, we discover that the inexact target statistics largely stem from the substantially reduced class diversity in batch. Drawing upon this insight, we introduce a straightforward tool, Test-time Exponential Moving Average (TEMA), to bridge the class diversity gap between training and testing batches. Importantly, our TEMA adaptively extends the scope of typical methods beyond the current batch to incorporate a diverse set of class information, which in turn boosts an accurate target estimation. Built upon this foundation, we further design a novel layer-wise rectification strategy to consistently promote test-time performance. Our proposed method enjoys a unique advantage as it requires neither training nor tuning parameters, offering a truly hassle-free solution. It significantly enhances model robustness against shifted domains and maintains resilience in diverse real-world scenarios with various batch sizes, achieving state-of-the-art performance on several major benchmarks. Code is available at \url{https://github.com/kiwi12138/RealisticTTA}.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-13
# 視覚言語的アライメントに基づく弱教師付き3次元視覚接地

Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment ( http://arxiv.org/abs/2312.09625v2 )

ライセンス: Link先を確認
Xiaoxu Xu, Yitian Yuan, Qiudan Zhang, Wenhui Wu, Zequn Jie, Lin Ma, Xu Wang, (参考訳) 3Dポイントクラウド内のオブジェクトやリージョンをターゲットとする自然言語クエリの基盤化を学ぶことは、3Dシーン理解にとって極めて重要です。 それでも、既存の3Dビジュアルグラウンドディングアプローチでは、テキストクエリのためのかなりの数のバウンディングボックスアノテーションが必要である。 本稿では, テキストbf{V}isual \textbf{L}inguistic \textbf{A}lignmentをベースとした, テキストbf{3D}ビジュアルグラウンドニングの弱教師付きアプローチである, \textbf{3D-VLA}を提案する。 我々の3D-VLAは、テキストと2D画像のセマンティクスを整合させる上で、現在の大規模視覚言語モデル(VLM)の優れた能力を生かし、2D画像と3Dポイントクラウドの自然な対応性を生かし、トレーニング手順で細かいボックスアノテーションを必要とせずに、テキストと3Dポイントクラウドの対応を暗黙的に構築する。 推測段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。 またReferIt3DおよびScanReferデータセットの広範な実験により、我々の3D-VLAは、完全に教師された手法よりも同等で優れた結果が得られることを示した。

Learning to ground natural language queries to target objects or regions in 3D point clouds is quite essential for 3D scene understanding. Nevertheless, existing 3D visual grounding approaches require a substantial number of bounding box annotations for text queries, which is time-consuming and labor-intensive to obtain. In this paper, we propose \textbf{3D-VLA}, a weakly supervised approach for \textbf{3D} visual grounding based on \textbf{V}isual \textbf{L}inguistic \textbf{A}lignment. Our 3D-VLA exploits the superior ability of current large-scale vision-language models (VLMs) on aligning the semantics between texts and 2D images, as well as the naturally existing correspondences between 2D images and 3D point clouds, and thus implicitly constructs correspondences between texts and 3D point clouds with no need for fine-grained box annotations in the training procedure. During the inference stage, the learned text-3D correspondence will help us ground the text queries to the 3D target objects even without 2D images. To the best of our knowledge, this is the first work to investigate 3D visual grounding in a weakly supervised manner by involving large scale vision-language models, and extensive experiments on ReferIt3D and ScanRefer datasets demonstrate that our 3D-VLA achieves comparable and even superior results over the fully supervised methods.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-13
# GraphRARE: 相対エントロピーを備えた強化学習型グラフニューラルネットワーク

GraphRARE: Reinforcement Learning Enhanced Graph Neural Network with Relative Entropy ( http://arxiv.org/abs/2312.09708v2 )

ライセンス: Link先を確認
Tianhao Peng, Wenjun Wu, Haitao Yuan, Zhifeng Bao, Zhao Pengrui, Xin Yu, Xuetao Lin, Yu Liang, Yanjun Pu, (参考訳) グラフニューラルネットワーク(GNN)は、グラフベースの分析タスクにおいて利点を示している。 しかし、既存のほとんどの手法は同質性の仮定を持ち、連結ノードが異なる特徴と異なるクラスラベルを持つヘテロ親和性グラフ上では性能が劣っている。 この制限に対処するため、GNNの表現能力を強化するために、ノード相対エントロピーと深層強化学習に基づく一般的なフレームワークであるGraphRAREを提案する。 ノードの特徴と構造的類似性を考慮した革新的なノード相対エントロピーは、ノードペア間の相互情報を測定するために使用される。 さらに,遠隔ノードの有用な情報とノイズを混合することによって生じる準最適解を避けるために,グラフトポロジを最適化する深層強化学習アルゴリズムを開発した。 このアルゴリズムは情報ノードを選択し、定義したノード相対エントロピーに基づいてノイズノードを破棄する。 7つの実世界のデータセットで大規模な実験を行う。 実験結果は,ノード分類におけるGraphRAREの優位性と,元のグラフトポロジを最適化する能力を示す。

Graph neural networks (GNNs) have shown advantages in graph-based analysis tasks. However, most existing methods have the homogeneity assumption and show poor performance on heterophilic graphs, where the linked nodes have dissimilar features and different class labels, and the semantically related nodes might be multi-hop away. To address this limitation, this paper presents GraphRARE, a general framework built upon node relative entropy and deep reinforcement learning, to strengthen the expressive capability of GNNs. An innovative node relative entropy, which considers node features and structural similarity, is used to measure mutual information between node pairs. In addition, to avoid the sub-optimal solutions caused by mixing useful information and noises of remote nodes, a deep reinforcement learning-based algorithm is developed to optimize the graph topology. This algorithm selects informative nodes and discards noisy nodes based on the defined node relative entropy. Extensive experiments are conducted on seven real-world datasets. The experimental results demonstrate the superiority of GraphRARE in node classification and its capability to optimize the original graph topology.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-13
# バイジアン実験設計によるトランスモン化合物の同定とキャラクタリゼーション

Identifiability and Characterization of Transmon Qutrits Through Bayesian Experimental Design ( http://arxiv.org/abs/2312.10233v2 )

ライセンス: Link先を確認
Sohail Reddy, (参考訳) 量子システムのロバスト制御は、現在のノイズの多い量子ハードウェアを量子アルゴリズムのような完全なポテンシャルに活用するために不可欠である。 このような目的を達成するためには、任意の実験に対して最適な制御を体系的に探索することが不可欠である。 最適制御パルスの設計には正確な数値モデルが必要である。 我々は,量子テストベッド上で行う必要のある実験の数を大幅に削減し,システムパラメータの最大情報を提供する最適実験を自動的かつ体系的に同定する,キュートリットシステムの量子特性評価のためのオンラインベイズ的手法を提案する。 パラメータの点推定を行うほとんどの評価プロトコルとは異なり、提案手法は確率分布を推定することができる。 パラメータ化制御パルスにより各実験が定義される試験問題に対してベイズ実験設計法の適用性を示した。 さらに,遷移周波数やコヒーレンス時間,ショットノイズなどの不確実性に頑健な反復パルス拡張手法も提案した。 さらに、モデルパラメータの理論的識別可能性の数学的証明と、パラメータが特定可能な量子状態に関する状態を示す。 同定可能性の証明と条件は、シュレーディンガー方程式とリンドブラッドマスター方程式を用いて、閉じた量子系と開量子系の両方に対してそれぞれ提示される。

Robust control of a quantum system is essential to utilize the current noisy quantum hardware to their full potential, such as quantum algorithms. To achieve such a goal, systematic search for an optimal control for any given experiment is essential. Design of optimal control pulses require accurate numerical models, and therefore, accurate characterization of the system parameters. We present an online, Bayesian approach for quantum characterization of qutrit systems which automatically and systematically identifies the optimal experiments that provide maximum information on the system parameters, thereby greatly reducing the number of experiments that need to be performed on the quantum testbed. Unlike most characterization protocols that provide point-estimates of the parameters, the proposed approach is able to estimate their probability distribution. The applicability of the Bayesian experimental design technique was demonstrated on test problems where each experiment was defined by a parameterized control pulse. In addition to this, we also presented an approach for iterative pulse extension which is robust under uncertainties in transition frequencies and coherence times, and shot noise, despite being initialized with wide uninformative priors. Furthermore, we provide a mathematical proof of the theoretical identifiability of the model parameters and present conditions on the quantum state under which the parameters are identifiable. The proof and conditions for identifiability are presented for both closed and open quantum systems using the Schroedinger equation and the Lindblad master equation respectively.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-13
# LLMはセキュリティ脆弱性を確実に識別し、理由付けできない (Yet?): 総合的な評価、フレームワーク、ベンチマーク

LLMs Cannot Reliably Identify and Reason About Security Vulnerabilities (Yet?): A Comprehensive Evaluation, Framework, and Benchmarks ( http://arxiv.org/abs/2312.12575v2 )

ライセンス: Link先を確認
Saad Ullah, Mingji Han, Saurabh Pujar, Hammond Pearce, Ayse Coskun, Gianluca Stringhini, (参考訳) 大規模な言語モデル(LLM)は、自動脆弱性修正に使用するために提案されているが、ベンチマークでは、セキュリティ関連のバグが一貫して欠如していることが示されている。 SecLLMHolmesは,LLMがセキュリティ関連のバグを確実に識別し,原因を判断できるかどうか,これまでで最も詳細な調査を行う,完全自動評価フレームワークである。 228のコードシナリオのセットを構築し、フレームワークを使用して8つの異なる調査次元にわたる8つの最も有能なLCMを分析します。 評価の結果、LLMは非決定論的応答、不正確で不誠実な推論を提供し、現実のシナリオでは不十分であることがわかった。 もっとも重要なのは,関数名や変数名だけを変更すること,あるいはソースコードにライブラリ関数を追加することで,これらのモデルがそれぞれ26%,17%のケースで誤った解が得られることだ。 これらの結果から,LSMを汎用セキュリティアシスタントとして使用するには,さらなるLSMの進歩が必要であることが示唆された。

Large Language Models (LLMs) have been suggested for use in automated vulnerability repair, but benchmarks showing they can consistently identify security-related bugs are lacking. We thus develop SecLLMHolmes, a fully automated evaluation framework that performs the most detailed investigation to date on whether LLMs can reliably identify and reason about security-related bugs. We construct a set of 228 code scenarios and analyze eight of the most capable LLMs across eight different investigative dimensions using our framework. Our evaluation shows LLMs provide non-deterministic responses, incorrect and unfaithful reasoning, and perform poorly in real-world scenarios. Most importantly, our findings reveal significant non-robustness in even the most advanced models like `PaLM2' and `GPT-4': by merely changing function or variable names, or by the addition of library functions in the source code, these models can yield incorrect answers in 26% and 17% of cases, respectively. These findings demonstrate that further LLM advances are needed before LLMs can be used as general purpose security assistants.
翻訳日:2024-04-16 22:57:53 公開日:2024-04-13
# 言語に基づくオブジェクト検出の訓練のための強化負性の生成

Generating Enhanced Negatives for Training Language-Based Object Detectors ( http://arxiv.org/abs/2401.00094v2 )

ライセンス: Link先を確認
Shiyu Zhao, Long Zhao, Vijay Kumar B. G, Yumin Suh, Dimitris N. Metaxas, Manmohan Chandraker, Samuel Schulter, (参考訳) 言語ベースのオープンボキャブラリオブジェクト検出の最近の進歩は、フリーフォームのテキストアノテーションで大規模データを活用するためのより良い方法を見つけることによるところが大きい。 このようなモデルを識別的目的関数で訓練することは成功裏に証明されているが、良い正と負のサンプルが必要である。 しかし、自由形式の性質と対象記述の開語彙は、負の空間を極端に大きくする。 プライマリは、ランダムに負のサンプルをサンプリングしたり、ルールベースのテクニックを使って構築する。 対照的に、我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。 具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。 実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。 コードは \url{https://github.com/xiaofeng94/Gen-Enhanced-Negs} で公開されている。

The recent progress in language-based open-vocabulary object detection can be largely attributed to finding better ways of leveraging large-scale data with free-form text annotations. Training such models with a discriminative objective function has proven successful, but requires good positive and negative samples. However, the free-form nature and the open vocabulary of object descriptions make the space of negatives extremely large. Prior works randomly sample negatives or use rule-based techniques to build them. In contrast, we propose to leverage the vast knowledge built into modern generative models to automatically build negatives that are more relevant to the original data. Specifically, we use large-language-models to generate negative text descriptions, and text-to-image diffusion models to also generate corresponding negative images. Our experimental analysis confirms the relevance of the generated negative data, and its use in language-based detectors improves performance on two complex benchmarks. Code is available at \url{https://github.com/xiaofeng94/Gen-Enhanced-Negs}.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-13
# GeoGalactica:地球科学における科学的大規模言語モデル

GeoGalactica: A Scientific Large Language Model in Geoscience ( http://arxiv.org/abs/2401.00434v2 )

ライセンス: Link先を確認
Zhouhan Lin, Cheng Deng, Le Zhou, Tianhang Zhang, Yi Xu, Yutong Xu, Zhongmou He, Yuanyuan Shi, Beiya Dai, Yunchong Song, Boyi Zeng, Qiyuan Chen, Yuxun Miao, Bo Xue, Shu Wang, Luoyi Fu, Weinan Zhang, Junxian He, Yunqiang Zhu, Xinbing Wang, Chenghu Zhou, (参考訳) 大規模言語モデル(LLM)は、自然言語処理(NLP)における幅広いタスクを解く一般的な知識と能力で大きな成功を収めている。 その印象的な能力のために、LLMは、人工知能(AI for science, AI4S)を使用して特定の分野の科学的発見を促進するための学際的応用の可能性に光を当てている。 一方、地学研究や実践におけるNLP技術の利用は、知識抽出や文書分類から質問応答や知識発見まで、広く複雑化している。 本研究では, LLMを科学に活用するための最初のステップを, 比較的簡単なアプローチで進める。 我々は、LLMを地学に専門化するために、地学の膨大なテキストでモデルを事前訓練し、また、カスタムに収集した指導チューニングデータセットで得られたモデルを教師付き微調整(SFT)する。 これらの取り組みにより、300億のパラメータからなるGeoGalacticaモデルが作られる。 我々の知る限りでは、地球科学領域における最大の言語モデルである。 より具体的には、GeoGalacticaはGalacticaのさらなる事前訓練に由来する。 我々はGeoGalacticaを65億のトークンを含む地球科学関連のテキストコーパスで訓練し、最大の地球科学固有のテキストコーパスとして保存する。 そして、専門家の地学知識に答えを求める質問からなる100万組の指導訓練データでモデルを微調整する。 本技術報告では,データ収集,データクリーニング,ベースモデル選択,事前学習,SFT,評価など,GeoGalacticaのすべての側面について詳述する。 データキュレーションツールとGeoGalacticaのチェックポイントを、事前トレーニングの最初の3/4でオープンソース化しました。

Large language models (LLMs) have achieved huge success for their general knowledge and ability to solve a wide spectrum of tasks in natural language processing (NLP). Due to their impressive abilities, LLMs have shed light on potential inter-discipline applications to foster scientific discoveries of a specific domain by using artificial intelligence (AI for science, AI4S). In the meantime, utilizing NLP techniques in geoscience research and practice is wide and convoluted, contributing from knowledge extraction and document classification to question answering and knowledge discovery. In this work, we take the initial step to leverage LLM for science, through a rather straightforward approach. We try to specialize an LLM into geoscience, by further pre-training the model with a vast amount of texts in geoscience, as well as supervised fine-tuning (SFT) the resulting model with our custom collected instruction tuning dataset. These efforts result in a model GeoGalactica consisting of 30 billion parameters. To our best knowledge, it is the largest language model for the geoscience domain. More specifically, GeoGalactica is from further pre-training of Galactica. We train GeoGalactica over a geoscience-related text corpus containing 65 billion tokens, preserving as the largest geoscience-specific text corpus. Then we fine-tune the model with 1 million pairs of instruction-tuning data consisting of questions that demand professional geoscience knowledge to answer. In this technical report, we will illustrate in detail all aspects of GeoGalactica, including data collection, data cleaning, base model selection, pre-training, SFT, and evaluation. We open-source our data curation tools and the checkpoints of GeoGalactica during the first 3/4 of pre-training.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-13
# サーベイランス映像における飛行鳥の特徴に基づく検出法

The Method of Detecting Flying Birds in Surveillance Video Based on Their Characteristics ( http://arxiv.org/abs/2401.03749v2 )

ライセンス: Link先を確認
Ziwei Sun, Zexi Hua, Hengchao Li, Yan Li, (参考訳) 単一フレーム画像の特徴など,監視ビデオにおける空飛ぶ鳥の物体の特徴は明確ではなく,ほとんどの場合サイズが小さく,非対称であり,本研究では,監視ビデオにおけるフライングバード物体検出法(FBOD-SV)を提案する。 まず,複数の画像の連続的フレーム上での鳥物体の相関に基づいて,飛来する鳥物体の特徴を集約するために,新たな特徴集約モジュールである相関注意特徴集合(Co-Attention-FA)モジュールを設計した。 第二に、ダウンサンプリングとアップサンプリングを備えたFlying Bird Object Detection Network (FBOD-Net) が設計され、細かな空間情報と受容野情報を融合した大きな特徴層を用いて、特別なマルチスケール(主に小規模)の鳥の物体を検出する。 最後に,SimOTA動的ラベルアロケーション手法をワンカテゴリオブジェクト検出に適用し,不規則飛行鳥によるラベルアロケーションの難しさを解決するため,SimOTA動的ラベル戦略を提案する。 本稿では, トラクション変電所の空飛ぶ鳥物体の監視映像のデータセットを用いて, アルゴリズムの性能を検証した。 実験結果から,本論文で提案する飛行鳥物体検出法は,飛行鳥物体の検出性能を効果的に向上することが示された。

Aiming at the characteristics of the flying bird object in surveillance video, such as the single frame image feature is not obvious, the size is small in most cases, and asymmetric, this paper proposes a Flying Bird Object Detection method in Surveillance Video (FBOD-SV). Firstly, a new feature aggregation module, the Correlation Attention Feature Aggregation (Co-Attention-FA) module, is designed to aggregate the features of the flying bird object according to the bird object's correlation on multiple consecutive frames of images. Secondly, a Flying Bird Object Detection Network (FBOD-Net) with down-sampling and then up-sampling is designed, which uses a large feature layer that fuses fine spatial information and large receptive field information to detect special multi-scale (mostly small-scale) bird objects. Finally, the SimOTA dynamic label allocation method is applied to One-Category object detection, and the SimOTA-OC dynamic label strategy is proposed to solve the difficult problem of label allocation caused by irregular flying bird objects. In this paper, the algorithm's performance is verified by the experimental data set of the surveillance video of the flying bird object of the traction substation. The experimental results show that the surveillance video flying bird object detection method proposed in this paper effectively improves the detection performance of flying bird objects.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-13
# Motion2VecSets:非剛性形状再構成と追跡のための4次元遅延ベクトル集合拡散

Motion2VecSets: 4D Latent Vector Set Diffusion for Non-rigid Shape Reconstruction and Tracking ( http://arxiv.org/abs/2401.06614v2 )

ライセンス: Link先を確認
Wei Cao, Chang Luo, Biao Zhang, Matthias Nießner, Jiapeng Tang, (参考訳) 我々は,点雲列からの動的表面再構成のための4次元拡散モデルであるMotion2VecSetsを紹介する。 既存の最先端の手法は、ニューラルネットワークの表現を用いて、厳密でない物体を再構築することに成功したが、従来のフィードフォワードネットワークは、ノイズ、部分的、あるいはスパースポイントの雲からの曖昧な観察を伴う課題に直面している。 これらの課題に対処するために,非剛体物体の形状と動きの分布を,圧縮された潜在表現の反復的復調過程を通じて明示的に学習する拡散モデルを導入する。 拡散に基づく先行は、あいまいな入力を扱う際に、より可塑性で確率的な再構成を可能にする。 グローバルな潜在符号の代わりに、潜在集合で4Dダイナミクスをパラメータ化する。 この新しい4D表現は、局所的な形状や変形パターンを学習し、より正確な非線形モーションキャプチャーを実現し、目に見えない動きやアイデンティティへの一般化性を大幅に向上させる。 時間的コヒーレントな物体追跡のために、変形潜在集合を同期的に認知し、複数のフレーム間で情報を交換する。 計算オーバーヘッドを回避するため,空間領域と時間領域に沿って変形潜時を交互に集約するインターリーブ空間と時間注意ブロックを設計した。 各種不完全な観察から4次元再構成におけるMotion2VecSetsの優位性を示した。 詳細はhttps://vveicao.github.io/projects/Motion2VecSets/で確認できる。

We introduce Motion2VecSets, a 4D diffusion model for dynamic surface reconstruction from point cloud sequences. While existing state-of-the-art methods have demonstrated success in reconstructing non-rigid objects using neural field representations, conventional feed-forward networks encounter challenges with ambiguous observations from noisy, partial, or sparse point clouds. To address these challenges, we introduce a diffusion model that explicitly learns the shape and motion distribution of non-rigid objects through an iterative denoising process of compressed latent representations. The diffusion-based priors enable more plausible and probabilistic reconstructions when handling ambiguous inputs. We parameterize 4D dynamics with latent sets instead of using global latent codes. This novel 4D representation allows us to learn local shape and deformation patterns, leading to more accurate non-linear motion capture and significantly improving generalizability to unseen motions and identities. For more temporally-coherent object tracking, we synchronously denoise deformation latent sets and exchange information across multiple frames. To avoid computational overhead, we designed an interleaved space and time attention block to alternately aggregate deformation latents along spatial and temporal domains. Extensive comparisons against state-of-the-art methods demonstrate the superiority of our Motion2VecSets in 4D reconstruction from various imperfect observations. More detailed information can be found at https://vveicao.github.io/projects/Motion2VecSets/.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-13
# MAPO:マルチリンガルアライメント・アズ・プレフレクション最適化によるマルチリンガル推論の改善

MAPO: Advancing Multilingual Reasoning through Multilingual Alignment-as-Preference Optimization ( http://arxiv.org/abs/2401.06838v3 )

ライセンス: Link先を確認
Shuaijie She, Wei Zou, Shujian Huang, Wenhao Zhu, Xiang Liu, Xiang Geng, Jiajun Chen, (参考訳) 推論能力は言語に依存しないと考えられるが、既存のLCMでは多言語学習データの不均衡のため、英語のような支配的な言語における推論は他言語よりも優れている。 非支配言語における推論能力を高めるために,他言語における推論プロセスと支配言語との整合性を図るために,MAPO(Multilingual-Alignment-as-Preference Optimization framework)を提案する。 具体的には、非支配言語と支配言語における回答の整合性にオフザシェルフ変換モデルを使用し、例えば、直接選好最適化(DPO)やPPO(Pximal Policy Optimization)を優先的に採用する。 実験の結果、MAPOは3つのベンチマーク(MSVAMP +16.2%、MGSM +6.1%、MNumGLUESub +13.3%)で様々なモデルの多言語推論を安定的に改善し、言語間の推論一貫性を改善した。

Though reasoning abilities are considered language-agnostic, existing LLMs exhibit inconsistent reasoning abilities across different languages, e.g., reasoning in the dominant language like English is superior to other languages due to the imbalance of multilingual training data. To enhance reasoning abilities in non-dominant languages, we propose a Multilingual-Alignment-as-Preference Optimization framework (MAPO), aiming to align the reasoning processes in other languages with the dominant language. Specifically, we harness an off-the-shelf translation model for the consistency between answers in non-dominant and dominant languages, which we adopt as the preference for optimization, e.g., Direct Preference Optimization (DPO) or Proximal Policy Optimization (PPO). Experiments show that MAPO stably achieves significant improvements in the multilingual reasoning of various models on all three benchmarks (MSVAMP +16.2%, MGSM +6.1%, and MNumGLUESub +13.3%), with improved reasoning consistency across languages.
翻訳日:2024-04-16 22:48:02 公開日:2024-04-13
# VeCAF:学習目的認識を用いた視覚言語協調型アクティブファインタニング

VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness ( http://arxiv.org/abs/2401.07853v2 )

ライセンス: Link先を確認
Rongyu Zhang, Zefan Cai, Huanrui Yang, Zidong Liu, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Baobao Chang, Yuan Du, Li Du, Shanghang Zhang, (参考訳) PVM(Pretrained Vision Model)は、下流の視覚タスクを学習するための一般的なテクニックである。 しかし、ランダムなサンプルデータポイントを用いた従来の微調整プロセスでは、トレーニング効率が低下する。 この欠点に対処するために、視覚言語協調アクティブファインタニング(VeCAF)という新しいアプローチを提案する。 Webスケールのクローリングや制御された生成を通じて、ラベルや画像の自然言語アノテーションが登場し、VeCAFはこれらの情報を使用してPVMの微調整のためのパラメトリックデータ選択を行う。 VeCAFは、パフォーマンス目標を達成するために、PVMをより高速な収束に向けて効果的に導く重要なデータポイントを選択するために、微調整の目的を取り入れている。 このプロセスは、画像特徴の増大に使用するテキスト埋め込み空間の固有の意味的豊かさによって支援される。 さらに、テキストドメイン拡張の柔軟性により、VeCAFは外部データなしで配布外シナリオを処理できる。 広汎な実験は、分布内および分布外の両方のイメージ分類タスクにおいて、ベースラインよりも優れたVeCAFの先行性能と高い計算効率を示す。 ImageNetでは、VeCAFはフル微調整に比べて最大3.3倍のトレーニングバッチを使用し、同じバッチ数で最先端のアクティブ微調整法よりも2.7%の精度向上を実現している。

Finetuning a pretrained vision model (PVM) is a common technique for learning downstream vision tasks. However, the conventional finetuning process with randomly sampled data points results in diminished training efficiency. To address this drawback, we propose a novel approach, Vision-language Collaborative Active Finetuning (VeCAF). With the emerging availability of labels and natural language annotations of images through web-scale crawling or controlled generation, VeCAF makes use of these information to perform parametric data selection for PVM finetuning. VeCAF incorporates the finetuning objective to select significant data points that effectively guide the PVM towards faster convergence to meet the performance goal. This process is assisted by the inherent semantic richness of the text embedding space which we use to augment image features. Furthermore, the flexibility of text-domain augmentation allows VeCAF to handle out-of-distribution scenarios without external data. Extensive experiments show the leading performance and high computational efficiency of VeCAF that is superior to baselines in both in-distribution and out-of-distribution image classification tasks. On ImageNet, VeCAF uses up to 3.3x less training batches to reach the target performance compared to full finetuning, and achieves an accuracy improvement of 2.7% over the state-of-the-art active finetuning method with the same number of batches.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-13
# ライティングによるオブジェクト: オブジェクトのリライティングのための再構成とレンダリングを評価する実世界のデータセット

Objects With Lighting: A Real-World Dataset for Evaluating Reconstruction and Rendering for Object Relighting ( http://arxiv.org/abs/2401.09126v2 )

ライセンス: Link先を確認
Benjamin Ummenhofer, Sanskar Agrawal, Rene Sepulveda, Yixing Lao, Kai Zhang, Tianhang Cheng, Stephan Richter, Shenlong Wang, German Ros, (参考訳) 写真からオブジェクトを再構成し、仮想的に新しい環境に配置することは、新しい視点に適応するだけでなく、新しい照明条件にも適応する必要があるため、標準的なビュー合成タスクを超えて、新しいビュー合成データや簡易な合成データセットに頼って定量的解析を行う。 この研究は、リライトのためのオブジェクトの再構築とレンダリングを測定するための実世界のデータセットを提供する。 この目的のために、同一物体の環境照明と地上の真実像を複数の環境で捉え、一つの環境で撮影された画像からオブジェクトを再構成し、未知の照明環境におけるレンダリングされたビューの質を定量化する。 さらに,本研究では,既成の工法で構成された簡易なベースラインを導入し,照明作業における最新手法の試験を行い,新規なビュー合成が性能測定のための信頼性の高いプロキシではないことを示す。 コードとデータセットはhttps://github.com/isl-org/objects-with-lighting.comで公開されている。

Reconstructing an object from photos and placing it virtually in a new environment goes beyond the standard novel view synthesis task as the appearance of the object has to not only adapt to the novel viewpoint but also to the new lighting conditions and yet evaluations of inverse rendering methods rely on novel view synthesis data or simplistic synthetic datasets for quantitative analysis. This work presents a real-world dataset for measuring the reconstruction and rendering of objects for relighting. To this end, we capture the environment lighting and ground truth images of the same objects in multiple environments allowing to reconstruct the objects from images taken in one environment and quantify the quality of the rendered views for the unseen lighting environments. Further, we introduce a simple baseline composed of off-the-shelf methods and test several state-of-the-art methods on the relighting task and show that novel view synthesis is not a reliable proxy to measure performance. Code and dataset are available at https://github.com/isl-org/objects-with-lighting .
翻訳日:2024-04-16 22:38:10 公開日:2024-04-13
# 不整合マスク:入力-擬似ラベルペアから不確かさを取り除く

Inconsistency Masks: Removing the Uncertainty from Input-Pseudo-Label Pairs ( http://arxiv.org/abs/2401.14387v2 )

ライセンス: Link先を確認
Michael R. H. Vorndran, Bernhard F. Roeck, (参考訳) 十分なラベル付きデータを効率的に生成することは、特にラベル付けにかなりの時間と労力を要するイメージセグメンテーションタスクにおいて、ディープラーニングにおいて大きなボトルネックとなっている。 本研究は、リソース制約のある環境において、広範囲なデータセットや既存のモデルが欠如している問題に対処する。 Inconsistency Masks (IM) は,画像と擬似ラベルのペアの不確かさをフィルタし,セグメンテーション品質を大幅に向上させる手法である。 IMを利用すると、ラベル付きデータの10%以下で強力なセグメンテーション結果が得られ、4つの多様なデータセットにまたがって、他の技術との統合によるさらなるメリットが示され、幅広い適用性を示している。 特にISIC 2018データセットでは、3つのハイブリッドアプローチが、完全にラベル付けされたデータセットでトレーニングされたモデルよりも優れています。 また,本手法の有効性とロバスト性を明らかにするために,一様開始条件下で,一般的な半教師付き学習戦略の詳細な比較分析を行った。 完全なコードは、https://github.com/MichaelVorndran/InconsistencyMasksで入手できる。

Efficiently generating sufficient labeled data remains a major bottleneck in deep learning, particularly for image segmentation tasks where labeling requires significant time and effort. This study tackles this issue in a resource-constrained environment, devoid of extensive datasets or pre-existing models. We introduce Inconsistency Masks (IM), a novel approach that filters uncertainty in image-pseudo-label pairs to substantially enhance segmentation quality, surpassing traditional semi-supervised learning techniques. Employing IM, we achieve strong segmentation results with as little as 10% labeled data, across four diverse datasets and it further benefits from integration with other techniques, indicating broad applicability. Notably on the ISIC 2018 dataset, three of our hybrid approaches even outperform models trained on the fully labeled dataset. We also present a detailed comparative analysis of prevalent semi-supervised learning strategies, all under uniform starting conditions, to underline our approach's effectiveness and robustness. The full code is available at: https://github.com/MichaelVorndran/InconsistencyMasks
翻訳日:2024-04-16 22:38:10 公開日:2024-04-13
# 量子電磁場における相対論的単一電子波束:量子コヒーレンス、相関、ウンルー効果

Relativistic single-electron wavepacket in quantum electromagnetic fields: Quantum coherence, correlations, and the Unruh effect ( http://arxiv.org/abs/2401.15404v2 )

ライセンス: Link先を確認
Shih-Yuin Lin, Bei-Lok Hu, (参考訳) 50年代以降のQEDの定式化は、定常状態や散乱問題に対して非常にうまく機能するが、非平衡状態における粒子のリアルタイムな進化が要求される80年代以降の新たな課題により、その量子環境と相互作用する系におけるコヒーレンス、散逸、相関、絡み合いなどの量子的特徴が求められ、これらの目的に適したQEDを定式化する新しい方法が求められた。 本稿では、量子電磁場に結合した荷電相対論的粒子のガウス波束記述を用いて、自由空間における単一電子と量子場の相互作用をシュウィンガー極限よりかなり低いスケールで研究する線形化有効理論を提案する。 有効理論におけるレギュレータの適切な値は、個々の実験のデータから決定され、単一の電子が加速された場合、実験フレームに時間依存する。 この新しい理論ツールを用いて、自由空間における空飛ぶ電子のデコヒーレンスの問題と、アンルー効果が電子に与える影響に対処する。 その結果,真空揺らぎは電子顕微鏡の干渉パターンをぼかす主要な原因である可能性が示唆された。 一様電場で加速される1つの電子に対して、電子の古典軌道からの偏差の2点相関子におけるアンルー効果を同定する。 我々の計算から、ボソニックとフェルミオンのスペクトル関数を含む微妙な性質ももたらした。

Conventional formulation of QED since the 50s works very well for stationary states and for scattering problems, but with newly arisen challenges from the 80s on, where real time evolution of particles in a nonequilibrium setting are required, and quantum features such as coherence, dissipation, correlation and entanglement in a system interacting with its quantum field environment are sought after, new ways to formulate QED suitable for these purposes beckon. In this paper we present a linearized effective theory using a Gaussian wavepacket description of a charged relativistic particle coupled to quantum electromagnetic fields to study the interplay between single electrons and quantum fields in free space, at a scale well below the Schwinger limit. The proper values of the regulators in our effective theory are determined from the data of individual experiments, and will be time-dependent in the laboratory frame if the single electrons are accelerated. Using this new theoretical tool, we address the issues of decoherence of flying electrons in free space and the impact of Unruh effect on the electrons. Our result suggests that vacuum fluctuations may be a major source of blurring the interference pattern in electron microscopes. For a single electron accelerated in a uniform electric field, we identify the Unruh effect in the two-point correlators of the deviations from the electron's classical trajectory. From our calculations we also bring out some subtleties, involving the bosonic versus fermionic spectral functions.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-13
# PILOT:ケース・ローによる訴訟のアウトカム予測

PILOT: Legal Case Outcome Prediction with Case Law ( http://arxiv.org/abs/2401.15770v3 )

ライセンス: Link先を確認
Lang Cao, Zifeng Wang, Cao Xiao, Jimeng Sun, (参考訳) 機械学習は、訴訟の結果を予測することを約束していることを示しているが、ほとんどの研究は、訴訟法システムよりも民事訴訟に集中している。 判例法を用いて判例結果の予測を行う上で,2つの特異な課題を特定した。 第一に、意思決定において裁判官の基本的な証拠となる関連する前例を特定することが重要である。 第二に、初期の事例は異なる法的文脈に従う可能性があるため、時間とともに法原則の進化を考慮する必要がある。 本稿では, PILOT (PredictIng Legal case OuTcome) という新たなフレームワークを提案する。 関連するケース検索と時間パターンハンドリングの2つのモジュールから構成される。 既存の判例結果予測モデルの性能をベンチマークするために,大規模な判例法データベースからデータセットをキュレートした。 本稿では,前例を正確に同定し,判例法の予測を行う際の時間的変化を緩和することの重要性を示す。

Machine learning shows promise in predicting the outcome of legal cases, but most research has concentrated on civil law cases rather than case law systems. We identified two unique challenges in making legal case outcome predictions with case law. First, it is crucial to identify relevant precedent cases that serve as fundamental evidence for judges during decision-making. Second, it is necessary to consider the evolution of legal principles over time, as early cases may adhere to different legal contexts. In this paper, we proposed a new framework named PILOT (PredictIng Legal case OuTcome) for case outcome prediction. It comprises two modules for relevant case retrieval and temporal pattern handling, respectively. To benchmark the performance of existing legal case outcome prediction models, we curated a dataset from a large-scale case law database. We demonstrate the importance of accurately identifying precedent cases and mitigating the temporal shift when making predictions for case law, as our method shows a significant improvement over the prior methods that focus on civil law case outcome predictions.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-13
# 多変量時系列予測におけるチャネル依存性の再考:先行指標からの学習

Rethinking Channel Dependence for Multivariate Time Series Forecasting: Learning from Leading Indicators ( http://arxiv.org/abs/2401.17548v5 )

ライセンス: Link先を確認
Lifan Zhao, Yanyan Shen, (参考訳) 近年,多変量時系列(MTS)予測において,チャネル非依存の手法により最先端の性能が達成されている。 過度に適合するリスクを減らしたにもかかわらず、これらの手法は正確な予測のためにチャネル依存を利用する機会を逃している。 変数間では局所的に定常的な鉛-ラグ関係が存在する,すなわち,短時間で先頭の指標に従うようなラグ型変数が存在する,と我々は主張する。 先行指標は、ラベル付き変数の予測困難を軽減するために使用できる事前情報を提供するので、そのようなチャネル依存の爆発は有益である。 本稿では,まず,各段階における先行指標とその先行ステップを効率よく推定し,次に,先行指標からの先行情報を活用するためのLIFTという新しい手法を提案する。 LIFTは任意の時系列予測メソッドとシームレスに協調できるプラグインとして機能する。 6つの実世界のデータセットに対する大規模な実験により、LIFTは平均予測性能を5.5%改善することを示した。 私たちのコードはhttps://github.com/SJTU-Quant/LIFT.comで公開されています。

Recently, channel-independent methods have achieved state-of-the-art performance in multivariate time series (MTS) forecasting. Despite reducing overfitting risks, these methods miss potential opportunities in utilizing channel dependence for accurate predictions. We argue that there exist locally stationary lead-lag relationships between variates, i.e., some lagged variates may follow the leading indicators within a short time period. Exploiting such channel dependence is beneficial since leading indicators offer advance information that can be used to reduce the forecasting difficulty of the lagged variates. In this paper, we propose a new method named LIFT that first efficiently estimates leading indicators and their leading steps at each time step and then judiciously allows the lagged variates to utilize the advance information from leading indicators. LIFT plays as a plugin that can be seamlessly collaborated with arbitrary time series forecasting methods. Extensive experiments on six real-world datasets demonstrate that LIFT improves the state-of-the-art methods by 5.5% in average forecasting performance. Our code is available at https://github.com/SJTU-Quant/LIFT.
翻訳日:2024-04-16 22:38:10 公開日:2024-04-13
# 2DEG-圧電ヘテロ構造における非線形感受性とマルチフォノン混合過程の非初期計算

Ab-Initio Calculations of Nonlinear Susceptibility and Multi-Phonon Mixing Processes in a 2DEG-Piezoelectric Heterostructure ( http://arxiv.org/abs/2402.00303v2 )

ライセンス: Link先を確認
Eric Chatterjee, Alexander Wendt, Daniel Soh, Matt Eichenfield, (参考訳) 固体弾性波フォノンは、幅広い量子情報応用のための有望なプラットフォームである。 量子情報処理にフォノンを使用する際、顕著な課題と有効性は、それらの間の強い非線形相互作用を達成することである。 そこで本研究では,2次元電子ガス(2DEG)に直接近接してフォノンモードをホストする圧電音響材料からなる圧電-半導体ヘテロ構造を用いた汎用アーキテクチャを提案する。 圧電材料中の各フォノンは電場を持ち、2DEGに延びる。 電場は2DEG電子の偏光を誘導し、他の圧電体電場と相互作用する。 その結果、様々なフォノンモードが結合する。 第一原理から、システムの非線形音素感受性を導出する。 多くの非線形過程が高電子移動度で強く好まれており、非線形性の媒介となる2DEGの使用が動機であることが示される。 GaAs-AlGaAsヘテロ構造2DEGと相互作用するニオブ酸リチウム表面の音響波の場合、第1、第2、第3の感受性を詳細に算出する。 このシステムでは、3階の強い非線形性により、現実的なキャビティ線幅を超える音響キャビティでのシングルフォノン・カーシフトが可能となり、新しい音響量子ビットのクラスが生まれる可能性が示されている。 さらに,音場量子ビットの出力を増幅し,最終的に検出するために,高利得の進行波パラメトリック増幅器を生成するために,強い二階非線形性を用いることを示した。 このようなシステムにおいて良好な損失を仮定すると、これらの能力は伝送線路内のマイクロ波電磁場からフォノンを効率よく伝送する能力と相まって、全音響量子情報プロセッサを作成することを約束する。

Solid-state elastic-wave phonons are a promising platform for a wide range of quantum information applications. An outstanding challenge and enabling capability in harnessing phonons for quantum information processing is achieving strong nonlinear interactions between them. To this end, we propose a general architecture using piezoelectric-semiconductor heterostructures consisting of a piezoelectric acoustic material hosting phonon modes in direct proximity to a two-dimensional electron gas (2DEG). Each phonon in the piezoelectric material carries an electric field, which extends into the 2DEG. The fields induce polarization of 2DEG electrons, which in turn interact with other piezoelectric phononic electric fields. The net result is coupling between the various phonon modes. We derive, from first principles, the nonlinear phononic susceptibility of the system. We show that many nonlinear processes are strongly favored at high electron mobility, motivating the use of the 2DEG to mediate the nonlinearities. We derive in detail the first, second, and third-order susceptibilities and calculate them for the case of a lithium niobate surface acoustic wave interacting with a GaAs-AlGaAs heterostructure 2DEG. We show that, for this system, the strong third-order nonlinearity could enable single-phonon Kerr shift in an acoustic cavity that exceeds realistic cavity linewidths, potentially leading to a new class of acoustic qubit. We further show that the strong second-order nonlinearity could be used to produce a high-gain, traveling-wave parametric amplifier to amplify--and ultimately detect--the outputs of the acoustic cavity qubits. Assuming favorable losses in such a system, these capabilities, combined with the ability to efficiently transduce phonons from microwave electromagnetic fields in transmission lines, thus hold promise for creating all-acoustic quantum information processors.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-13
# ラベルなし学習を用いた地震時トモグラフィ

Seismic Traveltime Tomography with Label-free Learning ( http://arxiv.org/abs/2402.00310v2 )

ライセンス: Link先を確認
Feng Wang, Bo Yang, Renfang Wang, Hong Qiu, (参考訳) 深層学習技術は地震時トモグラフィーのための速度モデル(VM)の構築に使われており、近年は高い性能を示している。 しかし、彼らはディープニューラルネットワーク(NN)をエンドツーエンドの学習で訓練するためにラベル付きサンプル(例えば入力とラベルのペア)を生成する必要があり、フィールドデータ反転のための本当のラベルは通常欠落または非常に高価である。 いくつかの従来のトモグラフィ法は迅速に実装できるが、その効果は以前の仮定によって制限されることが多い。 ラベル付きサンプルの生成や収集を避けるため,従来のトモグラフィー-最小二乗法(LSQR)を用いて,ディープラーニングと辞書学習を統合し,低解像度でVMを強化する手法を提案する。 まず,計算コストを削減するために,浅い単純なNNを設計し,低解像度でVMを強化するための2ステップ戦略を提案する。 初期辞書はLSQRによる推定から辞書学習法により訓練される; (2)辞書最適化 ウォーミングアップステップで得られた最初の辞書はNNによって最適化され、次にLSQRによる参照のスローネスと推定で高解像度のVMを再構築するために使用される。 さらに、NNトレーニングの各々のエポック後に、NNトレーニングがラベルなしであることを保証するために、旅行時間のミスフィットを最小限に抑えるために、損失関数を設計する。 合成データとフィールドデータの両方に対する数値実験により,提案手法の有効性を実証する。

Deep learning techniques have been used to build velocity models (VMs) for seismic traveltime tomography and have shown encouraging performance in recent years. However, they need to generate labeled samples (i.e., pairs of input and label) to train the deep neural network (NN) with end-to-end learning, and the real labels for field data inversion are usually missing or very expensive. Some traditional tomographic methods can be implemented quickly, but their effectiveness is often limited by prior assumptions. To avoid generating and/or collecting labeled samples, we propose a novel method by integrating deep learning and dictionary learning to enhance the VMs with low resolution by using the traditional tomography-least square method (LSQR). We first design a type of shallow and simple NN to reduce computational cost followed by proposing a two-step strategy to enhance the VMs with low resolution: (1) Warming up. An initial dictionary is trained from the estimation by LSQR through dictionary learning method; (2) Dictionary optimization. The initial dictionary obtained in the warming-up step will be optimized by the NN, and then it will be used to reconstruct high-resolution VMs with the reference slowness and the estimation by LSQR. Furthermore, we design a loss function to minimize traveltime misfit to ensure that NN training is label-free, and the optimized dictionary can be obtained after each epoch of NN training. We demonstrate the effectiveness of the proposed method through the numerical tests on both synthetic and field data.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-13
# L-TUNING:LLMにおけるプロンプトとプリフィックスのための同期ラベルチューニング

L-TUNING: Synchronized Label Tuning for Prompt and Prefix in LLMs ( http://arxiv.org/abs/2402.01643v2 )

ライセンス: Link先を確認
Md. Kowsher, Md. Shohanur Islam Sobuj, Asif Mahmud, Nusrat Jahan Prottasha, Prakash Bhat, (参考訳) 特定のタスクを効率的に微調整するLarge Language Models (LLMs) は、自然言語処理において大きな課題となる。 プロンプトやプレフィックスのチューニングのような従来の手法は、訓練には任意のトークンを頼りにしており、長いトレーニング時間と様々なクラスラベルにまたがる一般化されたトークンの使用につながる。 これらの問題に対処するために,自然言語推論(NLI)フレームワーク内のタスクの分類のために設計された,効率的な微調整手法であるL-Tuningを紹介する。 従来の手法と異なり、L-Tuningはラベルトークンの微調整に重点を置いており、既存の意味知識を活用している。 この技術は、微調整精度と効率を向上するだけでなく、各クラスに異なるラベルを埋め込み、モデルのトレーニングニュアンスを向上させる。 実験結果から,L-Tuningによる学習効率と分類精度が従来の手法に比べて向上していることが示唆された。

Efficiently fine-tuning Large Language Models (LLMs) for specific tasks presents a considerable challenge in natural language processing. Traditional methods, like prompt or prefix tuning, typically rely on arbitrary tokens for training, leading to prolonged training times and generalized token use across various class labels. To address these issues, this paper introduces L-Tuning, an efficient fine-tuning approach designed for classification tasks within the Natural Language Inference (NLI) framework. Diverging from conventional methods, L-Tuning focuses on the fine-tuning of label tokens processed through a pre-trained LLM, thereby harnessing its pre-existing semantic knowledge. This technique not only improves the fine-tuning accuracy and efficiency but also facilitates the generation of distinct label embeddings for each class, enhancing the model's training nuance. Our experimental results indicate a significant improvement in training efficiency and classification accuracy with L-Tuning compared to traditional approaches, marking a promising advancement in fine-tuning LLMs for complex language tasks.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-13
# UAV-Rain1k:UAV航空画像からの雨滴除去ベンチマーク

UAV-Rain1k: A Benchmark for Raindrop Removal from UAV Aerial Imagery ( http://arxiv.org/abs/2402.05773v3 )

ライセンス: Link先を確認
Wenhui Chang, Hongming Chen, Xin He, Xiang Chen, Liangduo Shen, (参考訳) UAVのレンズに付着した雨滴は、背景の視認性を阻害し、画質を低下させる。 画像のデライン化手法やデータセットの最近の進歩にもかかわらず、ドローン飛行中に様々な角度や急速移動によって生じる固有の課題により、UAVの空中画像からの雨滴除去に焦点が当てられていない。 この研究のギャップを埋めるために、UAV-Rain1kと呼ばれるUAV画像から雨滴を除去する新しいベンチマークデータセットを構築した。 本稿では,Blenderを用いた雨滴形状のモデル化,UAVアングルからの背景画像の収集,レインマスクのランダムサンプリングなどを含むデータセット生成パイプラインを提案する。 提案したベンチマークに基づいて,既存の代表画像デクリニングアルゴリズムの総合的な評価を行い,今後の研究の機会を明らかにする。 提案されたデータセットはhttps://github.com/cschenxiang/UAV-Rain1kで公開されている。

Raindrops adhering to the lens of UAVs can obstruct visibility of the background scene and degrade image quality. Despite recent progress in image deraining methods and datasets, there is a lack of focus on raindrop removal from UAV aerial imagery due to the unique challenges posed by varying angles and rapid movement during drone flight. To fill the gap in this research, we first construct a new benchmark dataset for removing raindrops from UAV images, called UAV-Rain1k. In this letter, we provide a dataset generation pipeline, which includes modeling raindrop shapes using Blender, collecting background images from various UAV angles, random sampling of rain masks and etc. Based on the proposed benchmark, we further present a comprehensive evaluation of existing representative image deraining algorithms, and reveal future research opportunities worth exploring. The proposed dataset is publicly available at https://github.com/cschenxiang/UAV-Rain1k.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-13
# 真に高次元の真の多部絡みのキャラクタリゼーションと検出

Characterising and detecting genuinely high-dimensional genuine multipartite entanglement ( http://arxiv.org/abs/2402.06234v2 )

ライセンス: Link先を確認
Gabriele Cobucci, Armin Tavakoli, (参考訳) 複数の局所レベルと複数のサブシステムを持つ絡み合った状態は、ますます最先端の量子技術に入りつつある。 このような高次元多部交絡状態が低次元交絡のみを用いてシミュレートできるかどうかを検討する。 そこで本研究では,システムの各断面に混在する混在状態を生成するために必要となる,最悪の二部交絡次元を通した多部交絡寸法のベンチマークを提案する。 この真に高次元かつ真に多次元の絡み合いを検出するために、我々はいくつかの一般的な基準のクラスを開発する。 これらはそれぞれ、最小限の測定値と凸プログラミング法のみを用いて、忠実度測定、効率的な忠実度推定に基づいている。 我々のアプローチは、よく研究された二部類システムを超えてエンタングルメント次元の役割を理解するためのステップであり、我々の手法は、高次元多部類エンタングルメント実験に容易に役立てることができる。

Entangled states with both multiple local levels and multiple subsystems is increasingly entering state-of-the-art quantum technology. We investigate whether such high-dimensional multipartite entangled states can be simulated using only low-dimensional entanglement. To this end, we propose to benchmark the multipartite entanglement dimensionality via the worst-case bipartite entanglement dimension needed to generate the state as a mixture over the different bisections of the system. In order to detect this genuinely high-dimensional and genuinely multipartite entanglement, we develop several classes of general criteria. They are respectively based on fidelity measurements, efficient fidelity estimation using only a minimal number of measurements and convex programming methods. Our approach is a step towards understanding the role of entanglement dimensionality beyond the well-studied bipartite systems and our methods readily lend themselves to high-dimensional multipartite entanglement experiments.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-13
# 語彙データ合成アルゴリズムの体系的評価

Systematic Assessment of Tabular Data Synthesis Algorithms ( http://arxiv.org/abs/2402.06806v2 )

ライセンス: Link先を確認
Yuntao Du, Ninghui Li, (参考訳) データ合成は、データのプライバシを保護しながらデータを活用するための重要なアプローチとして提唱されている。 多数の表型データ合成アルゴリズム(合成器と呼ぶ)が提案されている。 一部のシンセサイザーは差別的プライバシを満たすが、他のセサイザーはヒューリスティックな方法でプライバシを提供することを目指している。 これらのシンセサイザーの長所と短所の包括的理解は、評価指標の欠点と、最先端の辺縁系シンセサイザーを用いた拡散モデルと大規模言語モデルを利用する新規に開発されたシンセサイザーの頭対頭比較の欠如により、いまだ解明されていないままである。 本稿では,表型データ合成アルゴリズムを評価するための体系的評価フレームワークを提案する。 具体的には、既存の評価指標を調べ、批判し、それらの制限に対処するために、忠実さ、プライバシー、ユーティリティの観点から、新しい指標のセットを導入します。 また,提案手法に基づいて,各手法の合成データの品質を継続的に向上する,チューニングのための統一的な目標を考案した。 実世界の12のデータセット上で8種類の合成器を広範囲に評価し、プライバシー保護データ合成のための新たな方向性を提供する興味深い発見を発見した。

Data synthesis has been advocated as an important approach for utilizing data while protecting data privacy. A large number of tabular data synthesis algorithms (which we call synthesizers) have been proposed. Some synthesizers satisfy Differential Privacy, while others aim to provide privacy in a heuristic fashion. A comprehensive understanding of the strengths and weaknesses of these synthesizers remains elusive due to drawbacks in evaluation metrics and missing head-to-head comparisons of newly developed synthesizers that take advantage of diffusion models and large language models with state-of-the-art marginal-based synthesizers. In this paper, we present a systematic evaluation framework for assessing tabular data synthesis algorithms. Specifically, we examine and critique existing evaluation metrics, and introduce a set of new metrics in terms of fidelity, privacy, and utility to address their limitations. Based on the proposed metrics, we also devise a unified objective for tuning, which can consistently improve the quality of synthetic data for all methods. We conducted extensive evaluations of 8 different types of synthesizers on 12 real-world datasets and identified some interesting findings, which offer new directions for privacy-preserving data synthesis.
翻訳日:2024-04-16 22:28:15 公開日:2024-04-13
# CoLLaVO:Cryon Large LanguageとVision mOdel

CoLLaVO: Crayon Large Language and Vision mOdel ( http://arxiv.org/abs/2402.11248v3 )

ライセンス: Link先を確認
Byung-Kwan Lee, Beomchan Park, Chae Won Kim, Yong Man Ro, (参考訳) LLM(Large Language Models)とインストラクションチューニングの顕著な成功は、視覚言語モデル(VLM)の多目的汎用モデルへの進化を促進する。 しかし、現在のVLMが「画像にどのオブジェクトがあるのか」や「どのオブジェクトが指定されたバウンディングボックスに対応するのか」から決定される品質の高いオブジェクトレベルの画像理解能力を持っているかどうかはまだ不明である。 その結果,現在のVLMのイメージ理解能力は,視覚言語(VL)タスクにおけるゼロショット性能と強く相関していることが判明した。 このことは、VLMがVLタスクに精通する上で、基本的なイメージ理解の優先順位付けが重要であることを示唆している。 オブジェクトレベルの画像理解を強化するために,Crayon Prompt を用いた命令チューニングをパン光学カラーマップに基づく新しい視覚的プロンプトチューニング手法として組み込んだCrayon Large Language and Vision mOdel (CoLLaVO)を提案する。 さらに、Dual QLoRAの学習戦略として、視覚的命令チューニング中にオブジェクトレベルのイメージ理解を忘れずに保存し、ゼロショット設定で多数のVLベンチマークにおいて大きな飛躍を達成する。

The remarkable success of Large Language Models (LLMs) and instruction tuning drives the evolution of Vision Language Models (VLMs) towards a versatile general-purpose model. Yet, it remains unexplored whether current VLMs genuinely possess quality object-level image understanding capabilities determined from `what objects are in the image?' or `which object corresponds to a specified bounding box?'. Our findings reveal that the image understanding capabilities of current VLMs are strongly correlated with their zero-shot performance on vision language (VL) tasks. This suggests that prioritizing basic image understanding is crucial for VLMs to excel at VL tasks. To enhance object-level image understanding, we propose Crayon Large Language and Vision mOdel (CoLLaVO), which incorporates instruction tuning with Crayon Prompt as a new visual prompt tuning scheme based on panoptic color maps. Furthermore, we present a learning strategy of Dual QLoRA to preserve object-level image understanding without forgetting it during visual instruction tuning, thereby achieving a significant leap in numerous VL benchmarks in a zero-shot setting.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-13
# 非定常時系列予測のための潜在状態の学習の時期と方法

When and How: Learning Identifiable Latent States for Nonstationary Time Series Forecasting ( http://arxiv.org/abs/2402.12767v2 )

ライセンス: Link先を確認
Zijian Li, Ruichu Cai, Zhenhui Yang, Haiqin Huang, Guangyi Chen, Yifan Shen, Zhengming Chen, Xiangchen Song, Zhifeng Hao, Kun Zhang, (参考訳) 時間分布シフトは時系列データにおいてユビキタスである。 最も一般的な方法の1つは、時間分布シフトが定常的および非定常的依存関係を乱すために均一に起こると仮定している。 しかし、この仮定はいつ分布シフトが起こるかわからないため、満たすのは難しい。 そこで本研究では,IDentible latEnt stAtes (IDEA) を学習して,分布変化の発生を検知する手法を提案する。 さらに、定常状態と非定常状態とを十分な観測仮定でさらに切り離して、潜在状態がどのように変化するかを学ぶ。 具体的には,環境関連定常変数および環境関連非定常変数を用いて因果過程を定式化する。 温和な条件下では、潜伏環境と定常・非定常変数が識別可能であることを示す。 これらの理論に基づいて,自己回帰型隠れマルコフモデルを用いて潜伏環境を推定し,潜伏状態を特定するための事前ネットワークをモジュール化するIDEAモデルを考案した。 IDEAモデルは、さまざまなベンチマークデータセット上で最新の非定常予測方法よりも優れており、実際のシナリオにおけるその利点を強調している。

Temporal distribution shifts are ubiquitous in time series data. One of the most popular methods assumes that the temporal distribution shift occurs uniformly to disentangle the stationary and nonstationary dependencies. But this assumption is difficult to meet, as we do not know when the distribution shifts occur. To solve this problem, we propose to learn IDentifiable latEnt stAtes (IDEA) to detect when the distribution shifts occur. Beyond that, we further disentangle the stationary and nonstationary latent states via sufficient observation assumption to learn how the latent states change. Specifically, we formalize the causal process with environment-irrelated stationary and environment-related nonstationary variables. Under mild conditions, we show that latent environments and stationary/nonstationary variables are identifiable. Based on these theories, we devise the IDEA model, which incorporates an autoregressive hidden Markov model to estimate latent environments and modular prior networks to identify latent states. The IDEA model outperforms several latest nonstationary forecasting methods on various benchmark datasets, highlighting its advantages in real-world scenarios.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-13
# ライドバーグガス駆動散逸系における時間結晶コムの観察

Observation of a time crystal comb in a driven-dissipative system with Rydberg gas ( http://arxiv.org/abs/2402.13112v2 )

ライセンス: Link先を確認
Yuechun Jiao, Weilun Jiang, Yu Zhang, Jingxu Bai, Yunhui He, Heng Shen, Jianming Zhao, Suotang Jia, (参考訳) 時間結晶は、時相の結晶のアナログとして、時間変換対称性を破る安定かつ周期的な挙動を示す。 開量子系では、散逸する多体相互作用により、散逸する時間結晶を参照して、前例のない方法で時間結晶秩序を発達させることができる。 ここでは,リドベルクの励起を操作することで,リドベルクの連続時間結晶と超高次高調波発振位相を同じ系で観測する,連続的に駆動される,強く相互作用するリドベルク熱ガス中の時間結晶コムの観察を報告する。 我々の研究は、オープンシステムにおける物質の非平衡相を探索する新しい方法を提供する。 創発的な量子相関に根ざした持続的な振動を持つ時間結晶は、量子力学においてユビキタスな道具として登場しうる。

Time crystals, as temporal analogs of space crystals, manifest as stable and periodic behavior that breaks time translation symmetry. In an open quantum system, many-body interaction subjected to dissipation allows one to develop the time crystalline order in an unprecedented way, as refer to dissipative time crystal. Here we report the observation of a time crystal comb in the continuously driven-dissipative and strongly interacting Rydberg thermal gas, in which continuous time crystal and sub-harmonics of limit cycles as well as the high-order harmonic oscillation phases are observed in the same system by manipulating the Rydberg excitation. Our work provides new ways to explore the nonequilibrium phases of matter in open systems. Such time crystals with persistent oscillation rooted in emergent quantum correlations, may emerge as a ubiquitous tool in quantum metrology, for instance, continuous sensing and parameter estimation surpassing the standard quantum limit.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-13
# 周期運転時の無調波偏光子

Lossy anharmonic polaritons under periodic driving ( http://arxiv.org/abs/2402.18560v2 )

ライセンス: Link先を確認
Maicol A. Ochoa, (参考訳) 消散性偏光子の定常エネルギー分布と熱力学における非調和的シグネチャについて報告する。 まず、散逸性無調波性Jaynes-Cummings偏光子に対する動的モデルと、外部力や磁場による偏光子のエネルギーの変調を表す一般的な時間-周期相互作用を導入する。 我々は, 励起子, フォノン, 相互作用エネルギーがフォノン不調和性, 励起子-フォノン結合強度, および外部場-ポラリトン結合の強度と形状に依存することを特徴とする。 我々のモデルはまた、駆動された偏光子の量子熱力学を捉え、これは不可逆的な熱、最大出力、プロセスの効率と関係して解析する。 我々は高調波,中等度,強無調波の偏光子間のエネルギー分布と熱力学にかなりの差を見出した。 さらに、外部変調をフォノンとエキシトンエネルギーと比較すると、前者はポラリトンのエネルギー貯蔵能力を高め、時折エキシトンにおける干渉効果やエネルギー飽和によって制限されると結論付けている。

We report on the anharmonic signatures in dissipative polaritons' stationary energy distribution and thermodynamics under external periodic driving. First, we introduce a dynamic model for the dissipative anharmonic Jaynes-Cummings polariton with a generic time-periodic interaction representing modulations of the polariton's energy due to an external force or field. We characterize the stationary state in terms of the exciton, phonon, and interaction energy dependence on the phonon anharmonicity, exciton-phonon coupling strength, and intensity and form of the external field-polariton coupling. Our model also captures the quantum thermodynamics of the driven polariton, which we analyze in connection with the irreversible heat, maximum power, and efficiency of the process. We find considerable differences in energy distribution and thermodynamics between harmonic, moderate, and strongly anharmonic polaritons. Moreover, comparing the external modulations to the phonon and exciton energy, we conclude that the former enhances the polariton's energy storage capacity and is occasionally limited by interference effects and energy saturation at the exciton.
翻訳日:2024-04-16 20:31:43 公開日:2024-04-13
# 位相誘起対称性の破れ--メビウス帯上の反強磁性マグノンの実証

Topology-induced symmetry breaking: a demonstration in antiferromagnetic magnons on a Möbius strip ( http://arxiv.org/abs/2403.07846v3 )

ライセンス: Link先を確認
Kuangyin Deng, Ran Cheng, (参考訳) 非自明な境界条件により、ハミルトニアンによって保存された特定の局所対称性が励起固有状態で破られるような位相誘起対称性の破れのメカニズムを提案する。 実証として、2つの反強磁性結合スピン鎖からなるM\"obius strip上でのマグノン励起について検討した。 局所回転対称性を尊重する単純なハミルトニアンの下でも、曲率効果を考慮せずに、マノンはキラル性のないN'eelベクトルの線型分極を示し、反強磁性体に見られるような円偏極マグノンによって滑らかに連結または分解できない2つの非退化枝を形成する。 一方の枝はM\"obiusストリップ上の定常波形成をサポートし、もう一方は境界条件によって生じるスペクトルシフトのためサポートしない。 この結果から, 準粒子の物理的性質に対する実空間トポロジーの影響が示唆された。

We propose a mechanism of topology-induced symmetry breaking, where certain local symmetry preserved by the Hamiltonian is broken in the excited eigenstates due to the nontrivial boundary condition. As a demonstration, we study magnon excitations on a M\"obius strip comprising of two antiferromagnetically coupled spin chains. Even under a simple Hamiltonian respecting local rotational symmetry and without considering curvature effects, magnons exhibit linear polarization of the N\'eel vector devoid of chirality and form two non-degenerate branches that cannot be smoothly connected to or be decomposed by the circularly-polarized magnons typically seen in antiferromagnets. One branch supports standing-wave formation on the M\"obius strip while the other does not, owing to its spectral shift incurred by the boundary condition. Our findings showcase the significant influence of real-space topology on the physical nature of quasiparticles.
翻訳日:2024-04-16 20:21:55 公開日:2024-04-13
# LIGHTCODE:フィードバックのあるチャネルの光解析とニューラルコード

LIGHTCODE: Light Analytical and Neural Codes for Channels with Feedback ( http://arxiv.org/abs/2403.10751v2 )

ライセンス: Link先を確認
Sravan Kumar Ankireddy, Krishna Narayanan, Hyeji Kim, (参考訳) フィードバックのあるチャネルのための信頼性と効率のよい符号の設計は、通信理論における長年にわたる課題である。 ディープラーニング技術を活用することで大幅な改善が達成されているが、ニューラルネットワークは高い計算コスト、解釈可能性の欠如、リソース制約された設定における限られた実用性に悩まされることが多い。 我々は,通信システムに適した低複雑さの符号化方式を設計することに注力する。 我々は分析コードとニューラルコードの両方を前進させる。 まず,Schalkwijk-Kailath (SK) と Gallager-Nakiboglu (GN) のスキームにインスパイアされた解析的符号化スキームである POWERBLAST が,SK と GN のスキームに対して顕著な信頼性向上を実現し,高信号-雑音比(SNR)領域におけるニューラルコードよりも優れていることを示した。 次に、低SNR領域の信頼性を高めるために、既存のディープラーニングベースのコードと比較して、わずかなメモリと計算を使いながら最先端の信頼性を実現する軽量なニューラルコードであるLIGHTCODEを提案する。 最後に、学習したコードを体系的に解析し、LIGHTCODEとPOWERBLASTの接続を確立し、性能に不可欠なコンポーネントを特定し、線形回帰解析によって支援された解釈を提供する。

The design of reliable and efficient codes for channels with feedback remains a longstanding challenge in communication theory. While significant improvements have been achieved by leveraging deep learning techniques, neural codes often suffer from high computational costs, a lack of interpretability, and limited practicality in resource-constrained settings. We focus on designing low-complexity coding schemes that are interpretable and more suitable for communication systems. We advance both analytical and neural codes. First, we demonstrate that POWERBLAST, an analytical coding scheme inspired by Schalkwijk-Kailath (SK) and Gallager-Nakiboglu (GN) schemes, achieves notable reliability improvements over both SK and GN schemes, outperforming neural codes in high signal-to-noise ratio (SNR) regions. Next, to enhance reliability in low-SNR regions, we propose LIGHTCODE, a lightweight neural code that achieves state-of-the-art reliability while using a fraction of memory and compute compared to existing deep-learning-based codes. Finally, we systematically analyze the learned codes, establishing connections between LIGHTCODE and POWERBLAST, identifying components crucial for performance, and providing interpretation aided by linear regression analysis.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-13
# DTOR: 異常を説明するための決定木外部回帰器

DTOR: Decision Tree Outlier Regressor to explain anomalies ( http://arxiv.org/abs/2403.10903v3 )

ライセンス: Link先を確認
Riccardo Crupi, Daniele Regoli, Alessandro Damiano Sabatino, Immacolata Marano, Massimiliano Brinis, Luca Albertazzi, Andrea Cirillo, Andrea Claudio Cosentini, (参考訳) 外乱の発生と発生のメカニズムを説明することは、様々な領域において非常に重要である。 誤動作、詐欺、脅迫は正しく識別されるだけでなく、効果的に行動可能な対策を実行するために有効な説明を必要とすることが多い。 異常を識別するための高度な機械学習アプローチを、これまで以上に広く利用することで、このような説明がより困難になる。 本稿では,異常検出モデルにより生成された異常スコアを推定することにより,個々のデータポイントに対する規則に基づく説明を生成する手法であるDTORを提案する。 これはまず、推定スコアを計算し、データポイントスコアに関連する相対パスを抽出する決定木回帰器を適用する。 本結果は,多数の特徴を持つデータセットにおいても,DTORの堅牢性を示すものである。 さらに、他の規則に基づくアプローチとは対照的に、生成された規則は説明すべき点によって一貫して満たされる。 さらに、我々の評価基準は、実行時間を短縮し、外乱説明タスクにおけるAnchorsに匹敵する性能を示す。

Explaining outliers occurrence and mechanism of their occurrence can be extremely important in a variety of domains. Malfunctions, frauds, threats, in addition to being correctly identified, oftentimes need a valid explanation in order to effectively perform actionable counteracts. The ever more widespread use of sophisticated Machine Learning approach to identify anomalies make such explanations more challenging. We present the Decision Tree Outlier Regressor (DTOR), a technique for producing rule-based explanations for individual data points by estimating anomaly scores generated by an anomaly detection model. This is accomplished by first applying a Decision Tree Regressor, which computes the estimation score, and then extracting the relative path associated with the data point score. Our results demonstrate the robustness of DTOR even in datasets with a large number of features. Additionally, in contrast to other rule-based approaches, the generated rules are consistently satisfied by the points to be explained. Furthermore, our evaluation metrics indicate comparable performance to Anchors in outlier explanation tasks, with reduced execution time.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-13
# グラフニューラルネットワークの前方学習

Forward Learning of Graph Neural Networks ( http://arxiv.org/abs/2403.11004v2 )

ライセンス: Link先を確認
Namyong Park, Xing Wang, Antoine Simoulin, Shuai Yang, Grey Yang, Ryan Rossi, Puja Trivedi, Nesreen Ahmed, (参考訳) グラフニューラルネットワーク(GNN)は、リコメンデーション、薬物発見、質問応答など、幅広いアプリケーションで顕著な成功を収めている。 GNNの成功の背後には、ディープニューラルネットワーク(NN)をトレーニングするデファクトスタンダードであるバックプロパゲーション(BP)アルゴリズムがある。 しかし、その有効性にもかかわらず、BPはいくつかの制約を課し、これは生物学的に理解できないだけでなく、NN学習のスケーラビリティ、並列性、柔軟性も制限している。 このような制約の例としては、後続の後方パスで使用する前方パスで計算された神経活動の保存、非局所的な信号に対するパラメータ更新の依存性などがある。 これらの制約に対処するため、画像分類領域におけるBPの代替としてフォワードフォワードアルゴリズム(FF)が提案されている。 この進歩に触発されて、我々はGNNのための新しい前方学習手法であるForwardGNNを提案する。 ForwardGNNは元々のFFを拡張してグラフデータやGNNを扱う。 さらに、ForwardGNNは、エラーのバックプロパゲーションに頼ることなく、各レイヤがボトムアップ信号とトップダウン信号の両方から学習できるようにする。 実世界のデータセットに対する大規模な実験は、提案したフォワードグラフ学習フレームワークの有効性と汎用性を示している。 コードについてはhttps://github.com/facebookresearch/forwardgnn.comで公開しています。

Graph neural networks (GNNs) have achieved remarkable success across a wide range of applications, such as recommendation, drug discovery, and question answering. Behind the success of GNNs lies the backpropagation (BP) algorithm, which is the de facto standard for training deep neural networks (NNs). However, despite its effectiveness, BP imposes several constraints, which are not only biologically implausible, but also limit the scalability, parallelism, and flexibility in learning NNs. Examples of such constraints include storage of neural activities computed in the forward pass for use in the subsequent backward pass, and the dependence of parameter updates on non-local signals. To address these limitations, the forward-forward algorithm (FF) was recently proposed as an alternative to BP in the image classification domain, which trains NNs by performing two forward passes over positive and negative data. Inspired by this advance, we propose ForwardGNN in this work, a new forward learning procedure for GNNs, which avoids the constraints imposed by BP via an effective layer-wise local forward training. ForwardGNN extends the original FF to deal with graph data and GNNs, and makes it possible to operate without generating negative inputs (hence no longer forward-forward). Further, ForwardGNN enables each layer to learn from both the bottom-up and top-down signals without relying on the backpropagation of errors. Extensive experiments on real-world datasets show the effectiveness and generality of the proposed forward graph learning framework. We release our code at https://github.com/facebookresearch/forwardgnn.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-13
# 3次元ガウススプラッティングの最近の進歩

Recent Advances in 3D Gaussian Splatting ( http://arxiv.org/abs/2403.11134v2 )

ライセンス: Link先を確認
Tong Wu, Yu-Jie Yuan, Ling-Xiao Zhang, Jie Yang, Yan-Pei Cao, Ling-Qi Yan, Lin Gao, (参考訳) 3次元ガウス散乱(3DGS)の出現は、新規なビュー合成のレンダリング速度を大幅に加速させた。 位置と視点条件のニューラルネットワークを持つ3Dシーンを表すNear Radiance Fields(NeRF)のような暗黙的表現とは異なり、3D Gaussian Splattingはガウスエリプシドのセットを使用してシーンをモデル化し、ガウスエリプシドを画像にラスタ化することで効率的なレンダリングを実現する。 高速レンダリングのスピードとは別に、3Dガウススプラッティングの明示的な表現は動的再構成、幾何学的編集、物理シミュレーションなどの編集作業を容易にする。 この分野における急激な変化と作業数の増加を考慮すると,3次元再構成,3次元編集,その他の下流アプリケーションに大まかに分類できる,最近の3次元ガウス散乱法に関する文献的考察を示す。 従来の点ベースレンダリング法や3次元ガウススプラッティングの描画定式化も、この技法をよりよく理解するために説明されている。 本調査は,初心者がこの分野に素早く参入するのを助けることを目的としており,経験豊富な研究者に包括的概要を提供し,将来的な3Dガウススプラッティング表現の展開を促進することを目的としている。

The emergence of 3D Gaussian Splatting (3DGS) has greatly accelerated the rendering speed of novel view synthesis. Unlike neural implicit representations like Neural Radiance Fields (NeRF) that represent a 3D scene with position and viewpoint-conditioned neural networks, 3D Gaussian Splatting utilizes a set of Gaussian ellipsoids to model the scene so that efficient rendering can be accomplished by rasterizing Gaussian ellipsoids into images. Apart from the fast rendering speed, the explicit representation of 3D Gaussian Splatting facilitates editing tasks like dynamic reconstruction, geometry editing, and physical simulation. Considering the rapid change and growing number of works in this field, we present a literature review of recent 3D Gaussian Splatting methods, which can be roughly classified into 3D reconstruction, 3D editing, and other downstream applications by functionality. Traditional point-based rendering methods and the rendering formulation of 3D Gaussian Splatting are also illustrated for a better understanding of this technique. This survey aims to help beginners get into this field quickly and provide experienced researchers with a comprehensive overview, which can stimulate the future development of the 3D Gaussian Splatting representation.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-13
# ShapeFormer: Visible-to-Amodal Transformer-based Amodal Instance Segmentation

ShapeFormer: Shape Prior Visible-to-Amodal Transformer-based Amodal Instance Segmentation ( http://arxiv.org/abs/2403.11376v3 )

ライセンス: Link先を確認
Minh Tran, Winston Bounsavy, Khoa Vo, Anh Nguyen, Tri Nguyen, Ngan Le, (参考訳) Amodal Instance Segmentation (AIS)は、画像内のオブジェクトの可視部分と隠蔽部分の両方を予測するため、困難なタスクを提示する。 既存のAIS手法は、アモーダル特徴から可視的特徴(可視的特徴)への移行と、可視的特徴から可視的特徴(可視的特徴から可視的特徴(可視的特徴)への移行の両方を含む、双方向アプローチに依存している。 観察の結果,アモーダル・ツー・ヴィジュアブルによるアモーダルな特徴の活用は,視覚ディスプレイに表示されない隠蔽/隠蔽セグメントの余分な情報により,可視的特徴を混乱させる可能性が示唆された。 その結果、その後の可視的・非可視的遷移における可視的特徴の質を損なうことになった。 この問題に対処するために、私たちは、可視からアモーダルへの遷移を持つ、分離されたTransformerベースのモデルであるShapeFormerを紹介します。 これは出力セグメンテーション間の明示的な関係を促進し、アモーダル-可視遷移の必要性を回避する。 ShapeFormerは3つの重要なモジュールから構成される。 一 隠蔽認識による可視的セグメンテーション予測のための可視性マスクヘッド (二)アモーダルマスク及び隠蔽マスク予測用形状プリア・アモーダルマスクヘッド及び 三 カテゴリー比形形先取先取先取先取先取先取先取先取先取先取先取先取 様々なAISベンチマークにおける総合的な実験と広範囲なアブレーション研究は、ShapeFormerの有効性を実証している。 コードは、https://github.com/UARK-AICV/ShapeFormerで入手できる。

Amodal Instance Segmentation (AIS) presents a challenging task as it involves predicting both visible and occluded parts of objects within images. Existing AIS methods rely on a bidirectional approach, encompassing both the transition from amodal features to visible features (amodal-to-visible) and from visible features to amodal features (visible-to-amodal). Our observation shows that the utilization of amodal features through the amodal-to-visible can confuse the visible features due to the extra information of occluded/hidden segments not presented in visible display. Consequently, this compromised quality of visible features during the subsequent visible-to-amodal transition. To tackle this issue, we introduce ShapeFormer, a decoupled Transformer-based model with a visible-to-amodal transition. It facilitates the explicit relationship between output segmentations and avoids the need for amodal-to-visible transitions. ShapeFormer comprises three key modules: (i) Visible-Occluding Mask Head for predicting visible segmentation with occlusion awareness, (ii) Shape-Prior Amodal Mask Head for predicting amodal and occluded masks, and (iii) Category-Specific Shape Prior Retriever aims to provide shape prior knowledge. Comprehensive experiments and extensive ablation studies across various AIS benchmarks demonstrate the effectiveness of our ShapeFormer. The code is available at: https://github.com/UARK-AICV/ShapeFormer
翻訳日:2024-04-16 20:12:09 公開日:2024-04-13
# 三次元感情認識におけるマルチモーダルフュージョンのための再帰的関節交叉注意法

Recursive Joint Cross-Modal Attention for Multimodal Fusion in Dimensional Emotion Recognition ( http://arxiv.org/abs/2403.13659v4 )

ライセンス: Link先を確認
R. Gnana Praveen, Jahangir Alam, (参考訳) マルチモーダル感情認識は近年顕著な進歩を遂げているが、モーダル間の豊かなシナジー的関係の可能性は完全には活用されていない。 本稿では,Recursive Joint Cross-Modal Attention (RJCMA)を導入し,音声,視覚,テキストの両モード間の相互関係を,次元的感情認識のために効果的に捉える。 特に,共同音声・視覚・テキスト特徴表現と個々のモーダルの特徴表現との相互相関に基づいて注目重みを計算し,モーダル間の相互関係を同時に捉える。 個々のモダリティの付随する特徴は、より洗練された特徴表現を得るために再帰的なメカニズムで融合モデルへの入力として再び供給される。 我々はまた、個々のモーダルの特徴表現の時間的モデリングを改善するために、時間的畳み込みネットワーク(TCN)についても検討した。 Affwild2データセット上で提案した核融合モデルの性能を評価するために大規模な実験を行った。 音声,視覚,テキスト間の相乗的相互関係を効果的に把握することにより,検証セット(テストセット)上でそれぞれ0.585(0.542)と0.674(0.619)の一致相関係数(CCC)を達成する。 これは,第6回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションにおいて,評価セット(テストセット)において,それぞれ0.240(0.211)と0.200(0.191)の基準値に対して有意な改善がみられ,第6回ABAW(Affective Behavior Analysis in-the-Wild)コンペティションにおいて2位となった。

Though multimodal emotion recognition has achieved significant progress over recent years, the potential of rich synergic relationships across the modalities is not fully exploited. In this paper, we introduce Recursive Joint Cross-Modal Attention (RJCMA) to effectively capture both intra- and inter-modal relationships across audio, visual, and text modalities for dimensional emotion recognition. In particular, we compute the attention weights based on cross-correlation between the joint audio-visual-text feature representations and the feature representations of individual modalities to simultaneously capture intra- and intermodal relationships across the modalities. The attended features of the individual modalities are again fed as input to the fusion model in a recursive mechanism to obtain more refined feature representations. We have also explored Temporal Convolutional Networks (TCNs) to improve the temporal modeling of the feature representations of individual modalities. Extensive experiments are conducted to evaluate the performance of the proposed fusion model on the challenging Affwild2 dataset. By effectively capturing the synergic intra- and inter-modal relationships across audio, visual, and text modalities, the proposed fusion model achieves a Concordance Correlation Coefficient (CCC) of 0.585 (0.542) and 0.674 (0.619) for valence and arousal respectively on the validation set(test set). This shows a significant improvement over the baseline of 0.240 (0.211) and 0.200 (0.191) for valence and arousal, respectively, in the validation set (test set), achieving second place in the valence-arousal challenge of the 6th Affective Behavior Analysis in-the-Wild (ABAW) competition.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-13
# 知識編集による大規模言語モデルのデトックス化

Detoxifying Large Language Models via Knowledge Editing ( http://arxiv.org/abs/2403.14472v3 )

ライセンス: Link先を確認
Mengru Wang, Ningyu Zhang, Ziwen Xu, Zekun Xi, Shumin Deng, Yunzhi Yao, Qishen Zhang, Linyi Yang, Jindong Wang, Huajun Chen, (参考訳) 本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。 我々は、安全でない9つのカテゴリを様々な強力なアタックプロンプトでカバーし、体系的な評価のために総合的なメトリクスを装備するベンチマーク、SafeEditを構築した。 いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを効率よく解毒する可能性を示唆した。 そこで我々は,DINM(Detoxifying with intraoperative Neural Monitoring)と呼ばれるシンプルなベースラインを提案する。 さらに, 従来のSFT法やDPO法は毒性パラメータの活性化を抑制するだけであり, DINM法は毒性パラメータの毒性をある程度軽減し, 恒久的な調整を行うことを実証した。 これらの知見が,LSMの非毒性化アプローチと基盤となる知識メカニズムの今後の研究に光を当てることが期待できる。 コードとベンチマークはhttps://github.com/zjunlp/EasyEdit.comで公開されている。

This paper investigates using knowledge editing techniques to detoxify Large Language Models (LLMs). We construct a benchmark, SafeEdit, which covers nine unsafe categories with various powerful attack prompts and equips comprehensive metrics for systematic evaluation. We conduct experiments with several knowledge editing approaches, indicating that knowledge editing has the potential to efficiently detoxify LLMs with limited impact on general performance. Then, we propose a simple yet effective baseline, dubbed Detoxifying with Intraoperative Neural Monitoring (DINM), to diminish the toxicity of LLMs within a few tuning steps via only one instance. We further provide an in-depth analysis of the internal mechanism for various detoxifying approaches, demonstrating that previous methods like SFT and DPO may merely suppress the activations of toxic parameters, while DINM mitigates the toxicity of the toxic parameters to a certain extent, making permanent adjustments. We hope that these insights could shed light on future work of developing detoxifying approaches and the underlying knowledge mechanisms of LLMs. Code and benchmark are available at https://github.com/zjunlp/EasyEdit.
翻訳日:2024-04-16 20:12:09 公開日:2024-04-13
# G-ACIL:先進的な一般化クラスインクリメンタルラーニングのための分析学習

G-ACIL: Analytic Learning for Exemplar-Free Generalized Class Incremental Learning ( http://arxiv.org/abs/2403.15706v2 )

ライセンス: Link先を確認
Huiping Zhuang, Yizhu Chen, Di Fang, Run He, Kai Tong, Hongxin Wei, Ziqian Zeng, Cen Chen, (参考訳) クラスインクリメンタルラーニング(CIL)は、カテゴリーを分けたシーケンシャルなタスクでネットワークをトレーニングするが、破滅的な忘れ込みに苦しむ。 一般化されたCIL(GCIL)は、より現実的なシナリオにおいてCILの問題に対処することを目的としている。 GCILの既存の試みはパフォーマンスが劣っているか、過去の例を保存してデータのプライバシーを侵害している。 そこで本稿では,G-ACIL(Exemplar-free generalized analysis class incremental learning)を提案する。 G-ACILは解析学習(勾配のない訓練手法)を採用し、GCILのシナリオに解析的解(すなわちクローズドフォーム)を提供する。 この解は、入力データを露出クラスと露出クラスに分解することで導出され、インクリメンタルラーニングとジョイントトレーニング、すなわちウェイト不変性の間の等価性を実現する。 このような等価性は、行列解析ツールを通じて理論的に検証され、GCILの解釈可能性に寄与する。 また、様々なデータセットやGCILの設定に関する実験によって実証されている。 その結果, G-ACILは, 既存の競合GCIL法と比較して, 高い強靭性を示すことがわかった。 コードは \url{https://github.com/ZHUANGHP/Analytic-Continual-learning} で準備が整う。

Class incremental learning (CIL) trains a network on sequential tasks with separated categories but suffers from catastrophic forgetting, where models quickly lose previously learned knowledge when acquiring new tasks. The generalized CIL (GCIL) aims to address the CIL problem in a more real-world scenario, where incoming data have mixed data categories and unknown sample size distribution, leading to intensified forgetting. Existing attempts for the GCIL either have poor performance, or invade data privacy by saving historical exemplars. To address this, in this paper, we propose an exemplar-free generalized analytic class incremental learning (G-ACIL). The G-ACIL adopts analytic learning (a gradient-free training technique), and delivers an analytical solution (i.e., closed-form) to the GCIL scenario. This solution is derived via decomposing the incoming data into exposed and unexposed classes, allowing an equivalence between the incremental learning and its joint training, i.e., the weight-invariant property. Such an equivalence is theoretically validated through matrix analysis tools, and hence contributes interpretability in GCIL. It is also empirically evidenced by experiments on various datasets and settings of GCIL. The results show that the G-ACIL exhibits leading performance with high robustness compared with existing competitive GCIL methods. Codes will be ready at \url{https://github.com/ZHUANGHP/Analytic-continual-learning}.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-13
# 道路網グラフ抽出のためのセグメンテーションモデル

Segment Anything Model for Road Network Graph Extraction ( http://arxiv.org/abs/2403.16051v3 )

ライセンス: Link先を確認
Congrui Hetang, Haoru Xue, Cindy Le, Tianwei Yue, Wenping Wang, Yihui He, (参考訳) 衛星画像から大規模でベクトル化された道路網グラフを抽出するためのSAM-Roadを提案する。 グラフ幾何を予測するために、SAMの固有の強みを活用して、密接なセマンティックセマンティックセグメンテーションタスクとして定式化する。 SAMの画像エンコーダは、道路や交差点の確率マスクを生成するように微調整され、そこからグラフ頂点を単純な非最大抑圧によって抽出する。 グラフトポロジを予測するために,SAM画像の埋め込みを利用して頂点間のエッジ存在確率を推定する,軽量なトランスフォーマーベースグラフニューラルネットワークを設計した。 提案手法は,高価で複雑な後処理ヒューリスティックを伴わない大規模領域のグラフ頂点とエッジを直接予測し,数平方キロメートルにまたがる完全な道路網グラフを数秒で構築することができる。 SAM-Roadはシンプルで単純で最小限の設計で、最先端のRNGDet++で同等の精度を実現し、City-scaleデータセットの40倍高速である。 そこで我々は,グラフ学習タスクに適用した場合,基礎的視覚モデルのパワーを実証する。 コードはhttps://github.com/htcr/sam_road.comで公開されている。

We propose SAM-Road, an adaptation of the Segment Anything Model (SAM) for extracting large-scale, vectorized road network graphs from satellite imagery. To predict graph geometry, we formulate it as a dense semantic segmentation task, leveraging the inherent strengths of SAM. The image encoder of SAM is fine-tuned to produce probability masks for roads and intersections, from which the graph vertices are extracted via simple non-maximum suppression. To predict graph topology, we designed a lightweight transformer-based graph neural network, which leverages the SAM image embeddings to estimate the edge existence probabilities between vertices. Our approach directly predicts the graph vertices and edges for large regions without expensive and complex post-processing heuristics, and is capable of building complete road network graphs spanning multiple square kilometers in a matter of seconds. With its simple, straightforward, and minimalist design, SAM-Road achieves comparable accuracy with the state-of-the-art method RNGDet++, while being 40 times faster on the City-scale dataset. We thus demonstrate the power of a foundational vision model when applied to a graph learning task. The code is available at https://github.com/htcr/sam_road.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-13
# 有限量子系におけるワームホールテレポーテーションの忠実性

Fidelity of Wormhole Teleportation in Finite-qubit Systems ( http://arxiv.org/abs/2403.16793v2 )

ライセンス: Link先を確認
Zeyu Liu, Pengfei Zhang, (参考訳) 量子科学と技術の急速な発展は、量子シミュレーションによって量子多体システムを解釈できる時代へと導く。 ホログラフィーの双対性は、強い相互作用を持つ系から重力と時空を表現し、実験的に実現不可能な高エネルギーを掘り下げることなく、重力物理学の実験研究のための自然な道を提供する。 顕著な例として、ワームホール・テレポーテーションプロトコルを通したワームホールのシミュレーションがあり、理論的にも実験的にも注目されている。 本研究では、相互情報と絡み合いの負性によって定量化され、全対一の相互作用を持つ$N$量子ビットシステムにおけるワームホールテレポーテーションの忠実度を計算するための理論的枠組みを開発する。 主な手法はスクランブルン有効理論であり、一般的なカオス系における普遍的な時間外相関を捉えている。 半古典的トラベル可能なワームホールのプローブ限界を, ほぼ最大カオスの強い相互作用系を用いてシミュレートするためには, 両システム間の強い結合が不可欠であることを示す。 しかし、テレポーテーション信号はシステムサイズを$N$にすると急速に減少し、サハデフ・イェ・キタエフモデルをシミュレートすることで、創発的幾何学の鋭いシグネチャを観測するために多数のキュービットを必要とする。 これには、信号の因果時間順序と、異なる信号と結合するためのテレポーテーション信号の非対称性の両方が含まれる。 比較として、弱い相互作用を持つシステムにおいて、N$を減少させると、テレポーテーション信号が増加する。 また、フェルミオン弦作用素における一般化符号化スキームの忠実度も解析する。

The rapid development of quantum science and technology is leading us into an era where quantum many-body systems can be comprehended through quantum simulations. Holographic duality, which states gravity and spacetime can emerge from strongly interacting systems, then offers a natural avenue for the experimental study of gravity physics without delving into experimentally infeasible high energies. A prominent example is the simulation of traversable wormholes through the wormhole teleportation protocol, attracting both theoretical and experimental attention. In this work, we develop the theoretical framework for computing the fidelity of wormhole teleportation in $N$-qubit systems with all-to-all interactions, quantified by mutual information and entanglement negativity. The main technique is the scramblon effective theory, which captures universal out-of-time-order correlations in generic chaotic systems. We clarify that strong couplings between the two systems are essential for simulating the probe limit of semi-classical traversable wormholes using strongly interacting systems with near-maximal chaos. However, the teleportation signal diminishes rapidly when reducing the system size $N$, requiring a large number of qubits to observe a sharp signature of emergent geometry by simulating the Sachdev-Ye-Kitaev model. This includes both the causal time-order of signals and the asymmetry of the teleportation signal for coupling with different signs. As a comparison, the teleportation signal increases when reducing $N$ in weakly interacting systems. We also analyze the fidelity of the generalized encoding scheme in fermionic string operators.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-13
# LAKE-RED:潜在背景知識検索拡散によるカモフラージュ画像の生成

LAKE-RED: Camouflaged Images Generation by Latent Background Knowledge Retrieval-Augmented Diffusion ( http://arxiv.org/abs/2404.00292v3 )

ライセンス: Link先を確認
Pancheng Zhao, Peng Xu, Pengda Qin, Deng-Ping Fan, Zhicheng Zhang, Guoli Jia, Bowen Zhou, Jufeng Yang, (参考訳) カモフラージュされた視覚知覚は、多くの実用的な応用において重要な視覚課題である。 高価な収集とラベル付けコストのため、このコミュニティはデータセットの種分類が少数の対象種に限られているという大きなボトルネックに直面している。 しかし、既存のカモフラージュ生成法では、手動でバックグラウンドを指定する必要があるため、カモフラージュされたサンプルの多様性を低コストで拡張できない。 本稿では,カモフラージュ画像生成のための潜在背景知識検索拡散(LAKE-RED)を提案する。 1) 背景入力を受信する必要のないカモフラージュ生成パラダイムを提案する。 2) LAKE-REDは, カモフラージュ生成のための解釈可能性を持つ最初の知識検索拡張手法であり, タスク固有の課題を軽減するために, 知識検索と推論の強化を明示的に分離する考え方を提案する。 さらに,本手法は特定の前景的対象や背景に限らず,より多様な領域に視知覚を拡大する可能性がある。 実験の結果,提案手法は既存の手法よりも優れ,よりリアルなカモフラージュ画像を生成することがわかった。

Camouflaged vision perception is an important vision task with numerous practical applications. Due to the expensive collection and labeling costs, this community struggles with a major bottleneck that the species category of its datasets is limited to a small number of object species. However, the existing camouflaged generation methods require specifying the background manually, thus failing to extend the camouflaged sample diversity in a low-cost manner. In this paper, we propose a Latent Background Knowledge Retrieval-Augmented Diffusion (LAKE-RED) for camouflaged image generation. To our knowledge, our contributions mainly include: (1) For the first time, we propose a camouflaged generation paradigm that does not need to receive any background inputs. (2) Our LAKE-RED is the first knowledge retrieval-augmented method with interpretability for camouflaged generation, in which we propose an idea that knowledge retrieval and reasoning enhancement are separated explicitly, to alleviate the task-specific challenges. Moreover, our method is not restricted to specific foreground targets or backgrounds, offering a potential for extending camouflaged vision perception to more diverse domains. (3) Experimental results demonstrate that our method outperforms the existing approaches, generating more realistic camouflage images.
翻訳日:2024-04-16 20:00:41 公開日:2024-04-13
# HyperCLOVA X 技術報告

HyperCLOVA X Technical Report ( http://arxiv.org/abs/2404.01954v2 )

ライセンス: Link先を確認
Kang Min Yoo, Jaegeun Han, Sookyo In, Heewon Jeon, Jisu Jeong, Jaewook Kang, Hyunwook Kim, Kyung-Min Kim, Munhyong Kim, Sungju Kim, Donghyun Kwak, Hanock Kwak, Se Jung Kwon, Bado Lee, Dongsoo Lee, Gichang Lee, Jooho Lee, Baeseong Park, Seongjin Shin, Joonsang Yu, Seolki Baek, Sumin Byeon, Eungsup Cho, Dooseok Choe, Jeesung Han, Youngkyun Jin, Hyein Jun, Jaeseung Jung, Chanwoong Kim, Jinhong Kim, Jinuk Kim, Dokyeong Lee, Dongwook Park, Jeong Min Sohn, Sujung Han, Jiae Heo, Sungju Hong, Mina Jeon, Hyunhoon Jung, Jungeun Jung, Wangkyo Jung, Chungjoon Kim, Hyeri Kim, Jonghyun Kim, Min Young Kim, Soeun Lee, Joonhee Park, Jieun Shin, Sojin Yang, Jungsoon Yoon, Hwaran Lee, Sanghwan Bae, Jeehwan Cha, Karl Gylleus, Donghoon Ham, Mihak Hong, Youngki Hong, Yunki Hong, Dahyun Jang, Hyojun Jeon, Yujin Jeon, Yeji Jeong, Myunggeun Ji, Yeguk Jin, Chansong Jo, Shinyoung Joo, Seunghwan Jung, Adrian Jungmyung Kim, Byoung Hoon Kim, Hyomin Kim, Jungwhan Kim, Minkyoung Kim, Minseung Kim, Sungdong Kim, Yonghee Kim, Youngjun Kim, Youngkwan Kim, Donghyeon Ko, Dughyun Lee, Ha Young Lee, Jaehong Lee, Jieun Lee, Jonghyun Lee, Jongjin Lee, Min Young Lee, Yehbin Lee, Taehong Min, Yuri Min, Kiyoon Moon, Hyangnam Oh, Jaesun Park, Kyuyon Park, Younghun Park, Hanbae Seo, Seunghyun Seo, Mihyun Sim, Gyubin Son, Matt Yeo, Kyung Hoon Yeom, Wonjoon Yoo, Myungin You, Doheon Ahn, Homin Ahn, Joohee Ahn, Seongmin Ahn, Chanwoo An, Hyeryun An, Junho An, Sang-Min An, Boram Byun, Eunbin Byun, Jongho Cha, Minji Chang, Seunggyu Chang, Haesong Cho, Youngdo Cho, Dalnim Choi, Daseul Choi, Hyoseok Choi, Minseong Choi, Sangho Choi, Seongjae Choi, Wooyong Choi, Sewhan Chun, Dong Young Go, Chiheon Ham, Danbi Han, Jaemin Han, Moonyoung Hong, Sung Bum Hong, Dong-Hyun Hwang, Seongchan Hwang, Jinbae Im, Hyuk Jin Jang, Jaehyung Jang, Jaeni Jang, Sihyeon Jang, Sungwon Jang, Joonha Jeon, Daun Jeong, Joonhyun Jeong, Kyeongseok Jeong, Mini Jeong, Sol Jin, Hanbyeol Jo, Hanju Jo, Minjung Jo, Chaeyoon Jung, Hyungsik Jung, Jaeuk Jung, Ju Hwan Jung, Kwangsun Jung, Seungjae Jung, Soonwon Ka, Donghan Kang, Soyoung Kang, Taeho Kil, Areum Kim, Beomyoung Kim, Byeongwook Kim, Daehee Kim, Dong-Gyun Kim, Donggook Kim, Donghyun Kim, Euna Kim, Eunchul Kim, Geewook Kim, Gyu Ri Kim, Hanbyul Kim, Heesu Kim, Isaac Kim, Jeonghoon Kim, Jihye Kim, Joonghoon Kim, Minjae Kim, Minsub Kim, Pil Hwan Kim, Sammy Kim, Seokhun Kim, Seonghyeon Kim, Soojin Kim, Soong Kim, Soyoon Kim, Sunyoung Kim, Taeho Kim, Wonho Kim, Yoonsik Kim, You Jin Kim, Yuri Kim, Beomseok Kwon, Ohsung Kwon, Yoo-Hwan Kwon, Anna Lee, Byungwook Lee, Changho Lee, Daun Lee, Dongjae Lee, Ha-Ram Lee, Hodong Lee, Hwiyeong Lee, Hyunmi Lee, Injae Lee, Jaeung Lee, Jeongsang Lee, Jisoo Lee, Jongsoo Lee, Joongjae Lee, Juhan Lee, Jung Hyun Lee, Junghoon Lee, Junwoo Lee, Se Yun Lee, Sujin Lee, Sungjae Lee, Sungwoo Lee, Wonjae Lee, Zoo Hyun Lee, Jong Kun Lim, Kun Lim, Taemin Lim, Nuri Na, Jeongyeon Nam, Kyeong-Min Nam, Yeonseog Noh, Biro Oh, Jung-Sik Oh, Solgil Oh, Yeontaek Oh, Boyoun Park, Cheonbok Park, Dongju Park, Hyeonjin Park, Hyun Tae Park, Hyunjung Park, Jihye Park, Jooseok Park, Junghwan Park, Jungsoo Park, Miru Park, Sang Hee Park, Seunghyun Park, Soyoung Park, Taerim Park, Wonkyeong Park, Hyunjoon Ryu, Jeonghun Ryu, Nahyeon Ryu, Soonshin Seo, Suk Min Seo, Yoonjeong Shim, Kyuyong Shin, Wonkwang Shin, Hyun Sim, Woongseob Sim, Hyejin Soh, Bokyong Son, Hyunjun Son, Seulah Son, Chi-Yun Song, Chiyoung Song, Ka Yeon Song, Minchul Song, Seungmin Song, Jisung Wang, Yonggoo Yeo, Myeong Yeon Yi, Moon Bin Yim, Taehwan Yoo, Youngjoon Yoo, Sungmin Yoon, Young Jin Yoon, Hangyeol Yu, Ui Seon Yu, Xingdong Zuo, Jeongin Bae, Joungeun Bae, Hyunsoo Cho, Seonghyun Cho, Yongjin Cho, Taekyoon Choi, Yera Choi, Jiwan Chung, Zhenghui Han, Byeongho Heo, Euisuk Hong, Taebaek Hwang, Seonyeol Im, Sumin Jegal, Sumin Jeon, Yelim Jeong, Yonghyun Jeong, Can Jiang, Juyong Jiang, Jiho Jin, Ara Jo, Younghyun Jo, Hoyoun Jung, Juyoung Jung, Seunghyeong Kang, Dae Hee Kim, Ginam Kim, Hangyeol Kim, Heeseung Kim, Hyojin Kim, Hyojun Kim, Hyun-Ah Kim, Jeehye Kim, Jin-Hwa Kim, Jiseon Kim, Jonghak Kim, Jung Yoon Kim, Rak Yeong Kim, Seongjin Kim, Seoyoon Kim, Sewon Kim, Sooyoung Kim, Sukyoung Kim, Taeyong Kim, Naeun Ko, Bonseung Koo, Heeyoung Kwak, Haena Kwon, Youngjin Kwon, Boram Lee, Bruce W. Lee, Dagyeong Lee, Erin Lee, Euijin Lee, Ha Gyeong Lee, Hyojin Lee, Hyunjeong Lee, Jeeyoon Lee, Jeonghyun Lee, Jongheok Lee, Joonhyung Lee, Junhyuk Lee, Mingu Lee, Nayeon Lee, Sangkyu Lee, Se Young Lee, Seulgi Lee, Seung Jin Lee, Suhyeon Lee, Yeonjae Lee, Yesol Lee, Youngbeom Lee, Yujin Lee, Shaodong Li, Tianyu Liu, Seong-Eun Moon, Taehong Moon, Max-Lasse Nihlenramstroem, Wonseok Oh, Yuri Oh, Hongbeen Park, Hyekyung Park, Jaeho Park, Nohil Park, Sangjin Park, Jiwon Ryu, Miru Ryu, Simo Ryu, Ahreum Seo, Hee Seo, Kangdeok Seo, Jamin Shin, Seungyoun Shin, Heetae Sin, Jiangping Wang, Lei Wang, Ning Xiang, Longxiang Xiao, Jing Xu, Seonyeong Yi, Haanju Yoo, Haneul Yoo, Hwanhee Yoo, Liang Yu, Youngjae Yu, Weijie Yuan, Bo Zeng, Qian Zhou, Kyunghyun Cho, Jung-Woo Ha, Joonsuk Park, Jihyun Hwang, Hyoung Jo Kwon, Soonyong Kwon, Jungyeon Lee, Seungho Lee, Seonghyeon Lim, Hyunkyung Noh, Seungho Choi, Sang-Woo Lee, Jung Hwa Lim, Nako Sung, (参考訳) 韓国語と文化に合わせた大型言語モデル(LLM)のファミリーであるHyperCLOVA Xと、英語、数学、コーディングの競争力を紹介する。 HyperCLOVA Xは、韓国、英語、コードデータのバランスの取れた混合でトレーニングされ、続いて、高品質な人間アノテーション付きデータセットによるインストラクションチューニングと、責任を負うAIへのコミットメントを反映した厳格な安全ガイドラインを遵守した。 このモデルは、韓国語と英語の両方で、包括的な推論、知識、常識、事実性、コーディング、数学、チャット、指示追従、無害など、様々なベンチマークで評価されている。 HyperCLOVA Xは、言語と文化的ニュアンスを深く理解した韓国で強力な推論能力を示している。 固有バイリンガルの性質のさらなる分析と多言語主義への拡張は、複数の言語ペア間の機械翻訳や言語間推論タスクを含む、非ターゲット言語に対するモデルの言語間習熟度と強力な一般化能力を強調している。 我々は,HyperCLOVA Xが,自国のLDM開発において,地域や国に有用なガイダンスを提供することができると考えている。

We introduce HyperCLOVA X, a family of large language models (LLMs) tailored to the Korean language and culture, along with competitive capabilities in English, math, and coding. HyperCLOVA X was trained on a balanced mix of Korean, English, and code data, followed by instruction-tuning with high-quality human-annotated datasets while abiding by strict safety guidelines reflecting our commitment to responsible AI. The model is evaluated across various benchmarks, including comprehensive reasoning, knowledge, commonsense, factuality, coding, math, chatting, instruction-following, and harmlessness, in both Korean and English. HyperCLOVA X exhibits strong reasoning capabilities in Korean backed by a deep understanding of the language and cultural nuances. Further analysis of the inherent bilingual nature and its extension to multilingualism highlights the model's cross-lingual proficiency and strong generalization ability to untargeted languages, including machine translation between several language pairs and cross-lingual inference tasks. We believe that HyperCLOVA X can provide helpful guidance for regions or countries in developing their sovereign LLMs.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-13
# インフォーマル言語処理に向けて:大規模言語モデルにおけるスラングの知識

Toward Informal Language Processing: Knowledge of Slang in Large Language Models ( http://arxiv.org/abs/2404.02323v2 )

ライセンス: Link先を確認
Zhewei Sun, Qian Hu, Rahul Gupta, Richard Zemel, Yang Xu, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語システムが非公式言語を処理する強力な可能性を秘めている。 非公式言語の代表的形態はスラング(slang)であり、日常会話やオンラインソーシャルメディアで一般的に使われている。 現在まで、スラングは、慎重に設計され、一般にアクセス可能なベンチマークが存在しないこともあって、LLMでは包括的に評価されていない。 映画の字幕を用いて,スラングの自動処理に関連するタスクセットの評価を支援するデータセットを構築する。 評価と微調整の両面で,2つのコアアプリケーションにおけるデータセットの有効性を示す。 1)スラング検出,及び 2)自然文からのスラングの地域的及び歴史的資料の同定 また、我々のデータセットを用いてLLMの出力分布を探索し、解釈的洞察を得る方法を示す。 GPT-4のようなLCMはゼロショット設定で優れた性能を発揮するが、我々のデータセットで微調整された小さなBERTのようなモデルは同等の性能を得る。 さらに,本データセットは,強力なゼロショットベースラインよりもはるかに優れた性能を実現するGPT-3.5などのLCMの微調整を可能にすることを示す。 我々の研究は、OpenSubtitles corpusに基づく英語スラングの総合的な評価と高品質なベンチマークを提供し、一般に公開されているリソースと、非公式な言語処理にツールを適用するためのプラットフォームとして機能する。

Recent advancement in large language models (LLMs) has offered a strong potential for natural language systems to process informal language. A representative form of informal language is slang, used commonly in daily conversations and online social media. To date, slang has not been comprehensively evaluated in LLMs due partly to the absence of a carefully designed and publicly accessible benchmark. Using movie subtitles, we construct a dataset that supports evaluation on a diverse set of tasks pertaining to automatic processing of slang. For both evaluation and finetuning, we show the effectiveness of our dataset on two core applications: 1) slang detection, and 2) identification of regional and historical sources of slang from natural sentences. We also show how our dataset can be used to probe the output distributions of LLMs for interpretive insights. We find that while LLMs such as GPT-4 achieve good performance in a zero-shot setting, smaller BERT-like models finetuned on our dataset achieve comparable performance. Furthermore, we show that our dataset enables finetuning of LLMs such as GPT-3.5 that achieve substantially better performance than strong zero-shot baselines. Our work offers a comprehensive evaluation and a high-quality benchmark on English slang based on the OpenSubtitles corpus, serving both as a publicly accessible resource and a platform for applying tools for informal language processing.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-13
# PromptCodec: Adaptive Feature-Aware Prompt Encoders を用いたディスタングル表現学習を用いた高忠実性ニューラル音声符号化

PromptCodec: High-Fidelity Neural Speech Codec using Disentangled Representation Learning based Adaptive Feature-aware Prompt Encoders ( http://arxiv.org/abs/2404.02702v2 )

ライセンス: Link先を確認
Yu Pan, Lei Ma, Jianjun Zhao, (参考訳) ニューラル音声コーデックは、最近、音声変換、テキスト音声合成など、生成的音声モデリング領域で広く注目を集めている。 しかし、低ビットレート下での音声コーデックの高忠実度再生を保証することは、オープンで困難な問題である。 本稿では,不整合表現学習に基づく特徴認識型プロンプトエンコーダを用いた,エンドツーエンドのニューラル音声コーデックであるPromptCodecを提案する。 プロンプトエンコーダを組み込んで追加の入力プロンプトの表現をキャプチャすることで、PromptCodecは処理を必要とする音声情報を配布し、その表現能力を高めることができる。 さらに、異なるエンコーダの機能を統合するために、単純で効果的な適応的特徴重み付き融合法が導入された。 本稿では,PromptCodecのエンコーダを最適化し,その効率を向上し,PromptCodecの性能向上を図るために,構造類似度指数尺度に基づく新しい非絡み合い表現学習戦略を提案する。 LibriTTSの実験では、提案したPromptCodecは、あらゆる異なるビットレート条件下で、最先端のニューラル音声コーデックモデルより一貫して優れ、低ビットレートで優れた性能を実現している。

Neural speech codec has recently gained widespread attention in generative speech modeling domains, like voice conversion, text-to-speech synthesis, etc. However, ensuring high-fidelity audio reconstruction of speech codecs under low bitrate remains an open and challenging issue. In this paper, we propose PromptCodec, a novel end-to-end neural speech codec using feature-aware prompt encoders based on disentangled representation learning. By incorporating prompt encoders to capture representations of additional input prompts, PromptCodec can distribute the speech information requiring processing and enhance its representation capabilities. Moreover, a simple yet effective adaptive feature weighted fusion approach is introduced to integrate features of different encoders. Meanwhile, we propose a novel disentangled representation learning strategy based on structure similarity index measure to optimize PromptCodec's encoders to ensure their efficiency, thereby further improving the performance of PromptCodec. Experiments on LibriTTS demonstrate that our proposed PromptCodec consistently outperforms state-of-the-art neural speech codec models under all different bitrate conditions while achieving superior performance with low bitrates.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-13
# 正側量子固有値変換を用いた量子共役勾配法

Quantum conjugate gradient method using the positive-side quantum eigenvalue transformation ( http://arxiv.org/abs/2404.02713v2 )

ライセンス: Link先を確認
Kiichiro Toyoizumi, Kaito Wada, Naoki Yamamoto, Kazuo Hoshino, (参考訳) 量子アルゴリズムは依然として、実デバイス上の方程式の線形系を解くのが難しい。 この課題は、ディープ回路と多数のアンシラ量子ビットの必要性から生じる。 量子固有値変換(QET)を用いた量子共役勾配(QCG)法を提案する。 このアルゴリズムの回路深さは係数行列の条件数$\kappa$の平方根に依存し、以前の量子アルゴリズムと比較して平方根の改善を示すが、全体のクエリの複雑さは悪化する。 アンシラ量子ビットの数は、他のQETベースのアルゴリズムと同様に一定である。 さらに,QCG法を効率的に実装するために,多項式の正側のみを用いるQET法($P(x)$ for $x\in[0,1]$)を考案した。 我々は,1次元ポアソン方程式にアルゴリズムを適用して数値実験を行い,その解法に成功した。 数値的な結果から,本アルゴリズムは回路深度を大幅に改善し,QETに基づく別のアルゴリズムよりも3~4桁の精度で性能を向上する。

Quantum algorithms are still challenging to solve linear systems of equations on real devices. This challenge arises from the need for deep circuits and numerous ancilla qubits. We introduce the quantum conjugate gradient (QCG) method using the quantum eigenvalue transformation (QET). The circuit depth of this algorithm depends on the square root of the coefficient matrix's condition number $\kappa$, representing a square root improvement compared to the previous quantum algorithms, while the total query complexity worsens. The number of ancilla qubits is constant, similar to other QET-based algorithms. Additionally, to implement the QCG method efficiently, we devise a QET-based technique that uses only the positive side of the polynomial (denoted by $P(x)$ for $x\in[0,1]$). We conduct numerical experiments by applying our algorithm to the one-dimensional Poisson equation and successfully solve it. Based on the numerical results, our algorithm significantly improves circuit depth, outperforming another QET-based algorithm by three to four orders of magnitude.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-13
# 大規模言語モデルを用いた説明可能な交通流予測

Explainable Traffic Flow Prediction with Large Language Models ( http://arxiv.org/abs/2404.02937v3 )

ライセンス: Link先を確認
Xusen Guo, Qiming Zhang, Junyue Jiang, Mingxing Peng, Meixin Zhu, Hao, Yang, (参考訳) 交通流予測はインテリジェント交通システムにとって不可欠である。 トラフィックデータの潜在パターンをキャプチャする深層学習の力のおかげで、大きな進歩を遂げた。 しかし、最近のディープラーニングアーキテクチャでは複雑なモデル設計が必要であり、入力データから予測結果へのマッピングの直感的な理解が欠如している。 トラフィック予測モデルにおける精度と解釈可能性の両立は、トラフィックデータの複雑さとディープラーニングモデル固有の不透明さのため、依然として課題である。 これらの課題に対処するために,大規模言語モデル(LLM)を活用して解釈可能なトラフィックフロー予測を生成する新しい手法であるトラフィックフロー予測(TF-LLM)を提案する。 TF-LLMは、マルチモーダルトラフィックデータを自然言語記述に転送することにより、複雑な時空間パターンと外部要因を包括的トラフィックデータからキャプチャする。 LLMフレームワークは、時空間トラフィックフローデータと整合する言語ベースの命令を用いて微調整される。 経験的に、TF-LLMは、直感的で解釈可能な予測を提供しながら、ディープラーニングベースラインと比較して、競争精度を示す。 本稿では,都市予測タスクにおけるTF-LLMの可能性を示すとともに,将来予測のための空間的時間的および入力的依存関係について考察する。 本稿では, 交通予測モデルの発展に寄与し, 交通におけるLLM応用の今後の探索の基盤となる。 我々の知る限りでは、交通流の解釈可能な予測にLLMを用いた最初の研究である。

Traffic flow prediction is crucial for intelligent transportation systems. It has experienced significant advancements thanks to the power of deep learning in capturing latent patterns of traffic data. However, recent deep-learning architectures require intricate model designs and lack an intuitive understanding of the mapping from input data to predicted results. Achieving both accuracy and interpretability in traffic prediction models remains to be a challenge due to the complexity of traffic data and the inherent opacity of deep learning models. To tackle these challenges, we propose a novel approach, Traffic Flow Prediction LLM (TF-LLM), which leverages large language models (LLMs) to generate interpretable traffic flow predictions. By transferring multi-modal traffic data into natural language descriptions, TF-LLM captures complex spatial-temporal patterns and external factors from comprehensive traffic data. The LLM framework is fine-tuned using language-based instructions to align with spatial-temporal traffic flow data. Empirically, TF-LLM shows competitive accuracy compared with deep learning baselines, while providing intuitive and interpretable predictions. We discuss the spatial-temporal and input dependencies for explainable future flow forecasting, showcasing TF-LLM's potential for diverse city prediction tasks. This paper contributes to advancing explainable traffic prediction models and lays a foundation for future exploration of LLM applications in transportation. To the best of our knowledge, this is the first study to use LLM for interpretable prediction of traffic flow.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-13
# 文脈自由文法を用いたモデルフリーオートMLへのハイパーパラメータ探索の統合

Integrating Hyperparameter Search into Model-Free AutoML with Context-Free Grammars ( http://arxiv.org/abs/2404.03419v2 )

ライセンス: Link先を確認
Hernán Ceferino Vázquez, Jorge Sanchez, Rafael Carrascosa, (参考訳) 機械学習(Automated Machine Learning, 自動機械学習)は、機械学習システムの設計と開発に必要な時間と専門知識を減らし、近年人気が高まっている。 これは、強力なベースラインを迅速に構築し、データサイエンティストの効率を改善し、生産までの時間を短縮できるため、機械学習の実践にとって非常に重要である。 しかし、AutoMLの利点にもかかわらず、ソリューション空間の定義や効率的な探索など、いくつかの課題に直面している。 近年,木に基づく探索アルゴリズムや文脈自由文法を用いた手法が提案されている。 特にGramMLは,パイプライン構成文法を利用してモンテカルロ木探索を行うモデルフリー強化学習手法を提案する。 しかし、GramMLの制限の1つは、デフォルトのハイパーパラメータを使用し、検索問題を、利用可能なデータプリプロセッサとモデルのための最適なパイプライン構造を見つけることに制限することである。 本研究では,超パラメータ探索を含む大規模検索空間をサポートするGramMLの拡張を提案する。 提案手法をOpenMLベンチマークを用いて評価した結果,他の最先端技術と比較して大幅な改善が得られた。

Automated Machine Learning (AutoML) has become increasingly popular in recent years due to its ability to reduce the amount of time and expertise required to design and develop machine learning systems. This is very important for the practice of machine learning, as it allows building strong baselines quickly, improving the efficiency of the data scientists, and reducing the time to production. However, despite the advantages of AutoML, it faces several challenges, such as defining the solutions space and exploring it efficiently. Recently, some approaches have been shown to be able to do it using tree-based search algorithms and context-free grammars. In particular, GramML presents a model-free reinforcement learning approach that leverages pipeline configuration grammars and operates using Monte Carlo tree search. However, one of the limitations of GramML is that it uses default hyperparameters, limiting the search problem to finding optimal pipeline structures for the available data preprocessors and models. In this work, we propose an extension to GramML that supports larger search spaces including hyperparameter search. We evaluated the approach using an OpenML benchmark and found significant improvements compared to other state-of-the-art techniques.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-13
# パートアテンションに基づくモデルにより、付加した人物の認識をより強くする

Part-Attention Based Model Make Occluded Person Re-Identification Stronger ( http://arxiv.org/abs/2404.03443v3 )

ライセンス: Link先を確認
Zhihao Chen, Yiyuan Ge, (参考訳) 密閉者再識別(ReID)の目的は、密閉された状況下で特定の歩行者を回収することである。 しかし、隠された人物であるReIDは、モデルの性能を制限する、バックグラウンドの乱雑さと低品質なローカル特徴表現に悩まされている。 本研究では, 上記の課題に効果的に取り組むために, パートアテンション機構を組み込んだ新しいReIDモデルであるPAB-ReIDを提案する。 まず、より正確な人的部分注意マップの生成を導くために、人間のパーシングラベルを導入する。 また、背景干渉を抑えつつ、きめ細かい人間の局所的特徴表現を生成するための細粒度特徴焦点器を提案する。 さらに,クラス内/クラス間距離を最適化する局所特徴の学習を監督するために,部分三重項損失を設計する。 我々は、特殊閉塞とレギュラーReIDデータセットに関する広範な実験を行い、我々のアプローチが既存の最先端手法よりも優れていることを示した。

The goal of occluded person re-identification (ReID) is to retrieve specific pedestrians in occluded situations. However, occluded person ReID still suffers from background clutter and low-quality local feature representations, which limits model performance. In our research, we introduce a new framework called PAB-ReID, which is a novel ReID model incorporating part-attention mechanisms to tackle the aforementioned issues effectively. Firstly, we introduce the human parsing label to guide the generation of more accurate human part attention maps. In addition, we propose a fine-grained feature focuser for generating fine-grained human local feature representations while suppressing background interference. Moreover, We also design a part triplet loss to supervise the learning of human local features, which optimizes intra/inter-class distance. We conducted extensive experiments on specialized occlusion and regular ReID datasets, showcasing that our approach outperforms the existing state-of-the-art methods.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-13
# 思考の論理的問合せ:知識グラフを用いた複雑な論理的クエリに対する大規模言語モデルの適用

Logic Query of Thoughts: Guiding Large Language Models to Answer Complex Logic Queries with Knowledge Graphs ( http://arxiv.org/abs/2404.04264v2 )

ライセンス: Link先を確認
Lihui Liu, Zihao Wang, Ruizhong Qiu, Yikun Ban, Eunice Chan, Yangqiu Song, Jingrui He, Hanghang Tong, (参考訳) 多くのタスクにおける最高のパフォーマンスにもかかわらず、大きな言語モデル(LLM)は、知識の正確さを要求するタスクに直面したときに、幻覚や誤った回答を引き起こすリスクを負う。 問題は、複数の論理推論ステップを必要とするロジッククエリに対処するときにさらに顕著になる。 一方、知識グラフに基づく質問応答法では、知識グラフの助けを借りて正しい回答を正確に識別することができるが、知識グラフ自体が疎結合で不完全である場合には、その精度は急速に低下する可能性がある。 LLMの幻覚問題と知識グラフの不完全性問題を緩和するために、LLMの知識グラフ推論を相互に有益な方法で統合する方法は、依然として重要な課題である。 本稿では,LSMと知識グラフに基づく論理クエリ推論を組み合わせた最初の手法として,LGOT(Logic-Query-of-Thoughts)を提案する。 LGOTは知識グラフ推論とLLMをシームレスに組み合わせ、複雑な論理クエリを効果的に分割して、要求に答えやすくする。 知識グラフ推論とLLMの両方を利用して、各サブクエストに対する回答を導出する。 これらの結果を集約し、各ステップごとの最高品質候補回答を選択することで、LGOTは複雑な質問に対して正確な結果を得る。 実験の結果,ChatGPTよりも20%向上した。

Despite the superb performance in many tasks, large language models (LLMs) bear the risk of generating hallucination or even wrong answers when confronted with tasks that demand the accuracy of knowledge. The issue becomes even more noticeable when addressing logic queries that require multiple logic reasoning steps. On the other hand, knowledge graph (KG) based question answering methods are capable of accurately identifying the correct answers with the help of knowledge graph, yet its accuracy could quickly deteriorate when the knowledge graph itself is sparse and incomplete. It remains a critical challenge on how to integrate knowledge graph reasoning with LLMs in a mutually beneficial way so as to mitigate both the hallucination problem of LLMs as well as the incompleteness issue of knowledge graphs. In this paper, we propose 'Logic-Query-of-Thoughts' (LGOT) which is the first of its kind to combine LLMs with knowledge graph based logic query reasoning. LGOT seamlessly combines knowledge graph reasoning and LLMs, effectively breaking down complex logic queries into easy to answer subquestions. Through the utilization of both knowledge graph reasoning and LLMs, it successfully derives answers for each subquestion. By aggregating these results and selecting the highest quality candidate answers for each step, LGOT achieves accurate results to complex questions. Our experimental findings demonstrate substantial performance enhancements, with up to 20% improvement over ChatGPT.
翻訳日:2024-04-16 19:50:54 公開日:2024-04-13
# GauU-Scene V2:3DGSとNeRFを用いた広帯域ライダー画像データセットによる画像ベースメトリクスの信頼性評価

GauU-Scene V2: Assessing the Reliability of Image-Based Metrics with Expansive Lidar Image Dataset Using 3DGS and NeRF ( http://arxiv.org/abs/2404.04880v2 )

ライセンス: Link先を確認
Butian Xiong, Nanjun Zheng, Junhua Liu, Zhen Li, (参考訳) 本稿では,新しい3次元表現手法であるガウス・スプラッティングとニューラル・ラジアンス・フィールド(NeRF)を利用した,マルチモーダルな大規模シーン再構築ベンチマークを提案する。 我々の拡大したU-Sceneデータセットは、既存の大規模屋外LiDARと画像データセットを、領域と点数の両方で上回っている。 GauU-Sceneは6.5平方キロメートル以上をカバーし、LiDARの地上真実と組み合わせた総合的なRGBデータセットを備えている。 さらに、ドローンベースのデータセットのためのLiDARおよび画像アライメント手法を最初に提案する。 SSIM,LPIPS,PSNRなどの画像ベースメトリクスをNeRFおよびGaussian Splattingに基づく手法に応用し,GauU-Sceneの評価を行った。 この分析は、チャンファー距離のような幾何に基づく測度を適用する際の矛盾した結果を明らかにする。 本研究のマルチモーダルデータセットにおける実験結果は,現在の画像ベースメトリクスの信頼性の欠如を浮き彫りにし,現在のガウススプラッティング法を用いた幾何再構成における大きな欠点を明らかにし,また,幾何再構成タスクを評価するためのデータセットの必要性を明らかにした。 また、データ収集プロトコルの詳細情報も提供し、以下の匿名プロジェクトページでデータセットを利用できるようにします。

We introduce a novel, multimodal large-scale scene reconstruction benchmark that utilizes newly developed 3D representation approaches: Gaussian Splatting and Neural Radiance Fields (NeRF). Our expansive U-Scene dataset surpasses any previously existing real large-scale outdoor LiDAR and image dataset in both area and point count. GauU-Scene encompasses over 6.5 square kilometers and features a comprehensive RGB dataset coupled with LiDAR ground truth. Additionally, we are the first to propose a LiDAR and image alignment method for a drone-based dataset. Our assessment of GauU-Scene includes a detailed analysis across various novel viewpoints, employing image-based metrics such as SSIM, LPIPS, and PSNR on NeRF and Gaussian Splatting based methods. This analysis reveals contradictory results when applying geometric-based metrics like Chamfer distance. The experimental results on our multimodal dataset highlight the unreliability of current image-based metrics and reveal significant drawbacks in geometric reconstruction using the current Gaussian Splatting-based method, further illustrating the necessity of our dataset for assessing geometry reconstruction tasks. We also provide detailed supplementary information on data collection protocols and make the dataset available on the following anonymous project page
翻訳日:2024-04-16 19:41:10 公開日:2024-04-13
# 局所拡散を用いた画像翻訳における構造的幻覚への対処

Tackling Structural Hallucination in Image Translation with Local Diffusion ( http://arxiv.org/abs/2404.05980v2 )

ライセンス: Link先を確認
Seunghoi Kim, Chen Jin, Tom Diethe, Matteo Figini, Henry F. J. Tregidgo, Asher Mullokandov, Philip Teare, Daniel C. Alexander, (参考訳) 近年の拡散モデルでは, 画像生成の高度化が進んでいるが, 医用画像の異常な腫瘍などのアウト・オブ・ディストリビューション(OOD)画像の再構成に苦慮している。 このような幻覚は条件画像中の局所的なOOD領域から生じると仮定する。 我々は、OOD領域を分割し、別々の画像生成を行うことで幻覚を軽減できることを検証する。 そこで本研究では,複数の局所拡散プロセスによる幻覚を緩和する学習自由拡散フレームワークを提案する。 提案手法では, OOD領域内および外部の両方で, ``branching''モジュールがローカルに生成され, ``fusion''モジュールがこれらの予測を1つに統合する。 本手法は, 実世界の医療・自然画像データセットの40%, 25%の誤診を減らし, ベースラインモデルに対する幻覚を定量的に, 質的に緩和するものである。 また、様々な事前訓練された拡散モデルとの互換性を示す。

Recent developments in diffusion models have advanced conditioned image generation, yet they struggle with reconstructing out-of-distribution (OOD) images, such as unseen tumors in medical images, causing ``image hallucination'' and risking misdiagnosis. We hypothesize such hallucinations result from local OOD regions in the conditional images. We verify that partitioning the OOD region and conducting separate image generations alleviates hallucinations in several applications. From this, we propose a training-free diffusion framework that reduces hallucination with multiple Local Diffusion processes. Our approach involves OOD estimation followed by two modules: a ``branching'' module generates locally both within and outside OOD regions, and a ``fusion'' module integrates these predictions into one. Our evaluation shows our method mitigates hallucination over baseline models quantitatively and qualitatively, reducing misdiagnosis by 40% and 25% in the real-world medical and natural image datasets, respectively. It also demonstrates compatibility with various pre-trained diffusion models.
翻訳日:2024-04-16 19:41:10 公開日:2024-04-13
# 大規模言語モデルのための潜在距離誘導アライメント訓練

Latent Distance Guided Alignment Training for Large Language Models ( http://arxiv.org/abs/2404.06390v2 )

ライセンス: Link先を確認
Haotian Luo, (参考訳) 人間の好みとの整合性を確保することは、大きな言語モデル(LLM)の重要な特徴である。 現在、主要なアライメント手法であるRLHFとDPOは、その有効性にもかかわらず高価である広範囲な人間のアノテーションを必要とする。 現在のアライメント技術に関連するかなりの費用は、研究者にアノテーションのないアライメントトレーニング手法の開発を動機付けている。 外部アノテーションを頼らずにアライメントの改善を追求するため,LD-Align(Latent Distance Guided Alignment Training)を導入する。 このアプローチは、潜在空間からのガイダンスを用いて、高品質な教師付き微調整データセットとモデルを整合させる。 潜伏空間は、自動エンコーディングに似たサンプル再構成によって生成される。 そこで我々は,DPOに基づくアライメントトレーニングを誘導するために,潜時空間におけるサンプルペア間の距離を利用する。 大規模な実験と評価は,本手法が顕著なアライメントを実現する上で有効であることを示す。

Ensuring alignment with human preferences is a crucial characteristic of large language models (LLMs). Presently, the primary alignment methods, RLHF and DPO, require extensive human annotation, which is expensive despite their efficacy. The significant expenses associated with current alignment techniques motivate researchers to investigate the development of annotation-free alignment training methods. In pursuit of improved alignment without relying on external annotation, we introduce Latent Distance Guided Alignment Training (LD-Align). This approach seeks to align the model with a high-quality supervised fine-tune dataset using guidance from a latent space. The latent space is generated through sample reconstruction, akin to auto-encoding. Consequently, we utilize the distance between sample pairs in the latent space to guide DPO-based alignment training. Extensive experimentation and evaluation show the efficacy of our proposed method in achieving notable alignment.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-13
# 燃料制約付き単一車両監視問題に対する深部強化学習に基づくアプローチ

Deep Reinforcement Learning-Based Approach for a Single Vehicle Persistent Surveillance Problem with Fuel Constraints ( http://arxiv.org/abs/2404.06423v2 )

ライセンス: Link先を確認
Hritik Bana, Manav Mishra, Saswata Sarkar, Sujeevraja Sanjeevi, PB Sujit, Kaarthik Sundar, (参考訳) 本稿では,無人航空機を燃料や飛行時間の制約で基地に配備し,目標のセットを同じ優先度で繰り返し訪問することを必要とする,永続的な監視任務に取り組むための深層強化学習に基づくアプローチを提案する。 燃料や飛行時間制限のため、車両は定期的に燃料を補給するか、あるいは補給所で電池を充電する必要がある。 問題の目的は、車両が燃料や電荷を使い果たさないことを確実にしながら、あらゆる目標への連続的な訪問の間に経過する最大時間を最小限に抑える、目標への訪問の最適な順序を決定することである。 本稿では,この問題を解決するための深層強化学習アルゴリズムを提案する。また,この手法の有効性を,常識的な経験的ヒューリスティックスと比較した数値実験の結果を示す。

This article presents a deep reinforcement learning-based approach to tackle a persistent surveillance mission requiring a single unmanned aerial vehicle initially stationed at a depot with fuel or time-of-flight constraints to repeatedly visit a set of targets with equal priority. Owing to the vehicle's fuel or time-of-flight constraints, the vehicle must be regularly refueled, or its battery must be recharged at the depot. The objective of the problem is to determine an optimal sequence of visits to the targets that minimizes the maximum time elapsed between successive visits to any target while ensuring that the vehicle never runs out of fuel or charge. We present a deep reinforcement learning algorithm to solve this problem and present the results of numerical experiments that corroborate the effectiveness of this approach in comparison with common-sense greedy heuristics.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-13
# 視覚変換器へのLLaMAデコーダの適用

Adapting LLaMA Decoder to Vision Transformer ( http://arxiv.org/abs/2404.06773v2 )

ライセンス: Link先を確認
Jiahao Wang, Wenqi Shao, Mengzhao Chen, Chengyue Wu, Yong Liu, Kaipeng Zhang, Songyang Zhang, Kai Chen, Ping Luo, (参考訳) 本研究は,LLaMAなどのデコーダのみのトランスフォーマーをコンピュータビジョン分野に適用できるかどうかを検討する。 まず、LLaMAのアーキテクチャと整合する標準的なViTを「LLaMAfy」と呼び、カジュアルマスクを自己注意に直接適用することで、注意崩壊の問題が生じ、ネットワークトレーニングに失敗する。 本稿では,この課題を克服するために,画像トークンの背後にクラストークンを配置し,因果自己認識により画像全体の情報を効率的にキャプチャする手法を提案する。 さらに,学習開始時の自己注意にカジュアルマスクを徐々に導入し,最適化行動を容易にするソフトマスク戦略を開発する。 イメージLLaMA (iLLaMA) はアーキテクチャにおいてLLaMAに似ており、直接教師付き学習を可能にする。 その因果自己注意は計算効率を高め、注意マップのランクを上げることによって複雑な表現を学ぶ。 iLLaMAはエンコーダのみのパフォーマンスと競合し、5.7Mパラメータで75.1%のImageNetトップ1の精度を達成した。 モデルを310Mにスケールアップし、ImageNet-21Kで事前トレーニングすることで、精度は86.0%に向上した。 大規模な実験では、校正、形状・テクスチャバイアス、量子化互換性、ADE20Kセグメンテーション、CIFAR転送学習といったiLLaMAの信頼性特性が示されている。 LLMの波における視覚モデル設計への新たな視点を、我々の研究が生み出すことを願っている。 事前訓練されたモデルとコードはここにある。

This work examines whether decoder-only Transformers such as LLaMA, which were originally designed for large language models (LLMs), can be adapted to the computer vision field. We first "LLaMAfy" a standard ViT step-by-step to align with LLaMA's architecture, and find that directly applying a casual mask to the self-attention brings an attention collapse issue, resulting in the failure to the network training. We suggest to reposition the class token behind the image tokens with a post-sequence class token technique to overcome this challenge, enabling causal self-attention to efficiently capture the entire image's information. Additionally, we develop a soft mask strategy that gradually introduces a casual mask to the self-attention at the onset of training to facilitate the optimization behavior. The tailored model, dubbed as image LLaMA (iLLaMA), is akin to LLaMA in architecture and enables direct supervised learning. Its causal self-attention boosts computational efficiency and learns complex representation by elevating attention map ranks. iLLaMA rivals the performance with its encoder-only counterparts, achieving 75.1% ImageNet top-1 accuracy with only 5.7M parameters. Scaling the model to ~310M and pre-training on ImageNet-21K further enhances the accuracy to 86.0%. Extensive experiments demonstrate iLLaMA's reliable properties: calibration, shape-texture bias, quantization compatibility, ADE20K segmentation and CIFAR transfer learning. We hope our study can kindle fresh views to visual model design in the wave of LLMs. Pre-trained models and codes are available here.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-13
# 協調的(大規模)言語モデルを用いた事象的刑事裁判所ビュー生成

Event Grounded Criminal Court View Generation with Cooperative (Large) Language Models ( http://arxiv.org/abs/2404.07001v2 )

ライセンス: Link先を確認
Linan Yue, Qi Liu, Lili Zhao, Li Wang, Weibo Gao, Yanqing An, (参考訳) 法的なインテリジェンスの発展に伴い、刑事裁判所ビュージェネレーション(Criminal Court View Generation)は法的なインテリジェンスの重要な課題として多くの注目を集め、事件事実を要約した簡潔で一貫性のあるテキストを生成し、評決の説明を提供することを目指している。 既存の研究は、事件の事実が裁判所の見解を導くための重要な情報を探っている。 それらの多くは、事実を広い部分(例えば、評定関連文)に分割して予測する粗いアプローチを採用している。 しかし、このアプローチは、様々な犯罪要素や法的な出来事など、事件事実に存在する複雑な詳細を捉えることに失敗している。 そこで,本稿では,犯罪裁判所ビュー生成のためのイベントグラウンドドジェネレーション(EGG)手法を提案する。 具体的には,大容量のアノテートイベントを伴わずに事象を抽出できるLLMを用いた抽出手法を最初に設計する。 そして,抽出した事象を事例事実と事象を融合して,裁判所ビュー生成に組み込む。 また,EGGの抽出フェーズにおけるLLMの使用による計算負担を考慮し,推定フェーズにおけるLLMを用いたイベント抽出の要求を解消できるLLMフリーEGG法を提案する。 提案手法の有効性を実世界のデータセットで明らかに検証した。

With the development of legal intelligence, Criminal Court View Generation has attracted much attention as a crucial task of legal intelligence, which aims to generate concise and coherent texts that summarize case facts and provide explanations for verdicts. Existing researches explore the key information in case facts to yield the court views. Most of them employ a coarse-grained approach that partitions the facts into broad segments (e.g., verdict-related sentences) to make predictions. However, this approach fails to capture the complex details present in the case facts, such as various criminal elements and legal events. To this end, in this paper, we propose an Event Grounded Generation (EGG) method for criminal court view generation with cooperative (Large) Language Models, which introduces the fine-grained event information into the generation. Specifically, we first design a LLMs-based extraction method that can extract events in case facts without massive annotated events. Then, we incorporate the extracted events into court view generation by merging case facts and events. Besides, considering the computational burden posed by the use of LLMs in the extraction phase of EGG, we propose a LLMs-free EGG method that can eliminate the requirement for event extraction using LLMs in the inference phase. Extensive experimental results on a real-world dataset clearly validate the effectiveness of our proposed method.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-13
# 抽象学習者による意味言語学習の数学的理論

A Mathematical Theory for Learning Semantic Languages by Abstract Learners ( http://arxiv.org/abs/2404.07009v2 )

ライセンス: Link先を確認
Kuo-Yu Liao, Cheng-Shang Chang, Y. -W. Peter Hong, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、システムパラメータの数とトレーニングデータのサイズが一定の閾値を超えると、能力(学習スキル)が出現することを示した。 このような現象の背後にある正確なメカニズムは完全には理解されておらず、活発な研究のトピックとして残されている。 セマンティック言語をモデル化するために[1]で提示されたスキルテキスト二部グラフモデルにインスパイアされ、学習(または訓練)プロセスを考慮に入れながら、学習スキルの出現を説明する数学的理論を開発する。 提案手法は,低密度パリティチェック (LDPC) 符号と不規則反復Slotted ALOHA (IRSA) 符号における反復復号プロセスとして,スキルテキスト二部グラフのスキル学習プロセスをモデル化する。 密度進化分析を用いて、トレーニングテキストのサイズとスキルの数との比率が一定の閾値を超えた場合の学習スキルの出現を実証する。 私たちの分析は、トレーニングテキストのサイズに対してエラーをテストするためのスケーリング法則ももたらします。 学習が完了するとセマンティック圧縮の手法を提案し,セマンティックコミュニケーションへの応用について議論する。

Recent advances in Large Language Models (LLMs) have demonstrated the emergence of capabilities (learned skills) when the number of system parameters and the size of training data surpass certain thresholds. The exact mechanisms behind such phenomena are not fully understood and remain a topic of active research. Inspired by the skill-text bipartite graph model presented in [1] for modeling semantic language, we develop a mathematical theory to explain the emergence of learned skills, taking the learning (or training) process into account. Our approach models the learning process for skills in the skill-text bipartite graph as an iterative decoding process in Low-Density Parity Check (LDPC) codes and Irregular Repetition Slotted ALOHA (IRSA). Using density evolution analysis, we demonstrate the emergence of learned skills when the ratio of the size of training texts to the number of skills exceeds a certain threshold. Our analysis also yields a scaling law for testing errors relative to the size of training texts. Upon completion of the training, we propose a method for semantic compression and discuss its application in semantic communication.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-13
# 合併と買収の予測 - 時間的動的産業ネットワーク

Predicting Mergers and Acquisitions: Temporal Dynamic Industry Networks ( http://arxiv.org/abs/2404.07298v2 )

ライセンス: Link先を確認
Dayu Yang, (参考訳) M&A活動は市場統合にとって重要な要素であり、企業が戦略的補完を通じて市場力を増強することができる。 既存の研究はしばしば、企業間のM&A行動の相互影響であるピア効果を見落とし、業界ネットワーク内の複雑な相互依存を捉えるのに失敗する。 一般的なアプローチは、アドホックな機能エンジニアリング、データトランケーション、重大な情報損失、予測精度の低下、現実世界のアプリケーションにおける課題などに依存する。 さらに、M&Aイベントの希少さは、バイアスを導入し、予測信頼性を損なうなど、従来のモデルにおけるデータ再バランスを必要とする。 本稿では,TDIN(Temporal Dynamic Industry Network)を利用して,時間的ポイントプロセスと深層学習を利用して,業界全体のM&Aダイナミクスを効果的に捉える,革新的なM&A予測モデルを提案する。 このモデルは,1997年1月から2020年12月にかけてのM&A症例による評価結果から,任意のデータ操作や再バランスを伴わない,正確かつ詳細な取引レベルの予測を容易にする。 当社のアプローチは、M&A活動に関する詳細な洞察と、特定の企業に対する戦略的レコメンデーションを提供することによって、従来のモデルよりも大幅に改善されている。

M&A activities are pivotal for market consolidation, enabling firms to augment market power through strategic complementarities. Existing research often overlooks the peer effect, the mutual influence of M&A behaviors among firms, and fails to capture complex interdependencies within industry networks. Common approaches suffer from reliance on ad-hoc feature engineering, data truncation leading to significant information loss, reduced predictive accuracy, and challenges in real-world application. Additionally, the rarity of M&A events necessitates data rebalancing in conventional models, introducing bias and undermining prediction reliability. We propose an innovative M&A predictive model utilizing the Temporal Dynamic Industry Network (TDIN), leveraging temporal point processes and deep learning to adeptly capture industry-wide M&A dynamics. This model facilitates accurate, detailed deal-level predictions without arbitrary data manipulation or rebalancing, demonstrated through superior evaluation results from M&A cases between January 1997 and December 2020. Our approach marks a significant improvement over traditional models by providing detailed insights into M&A activities and strategic recommendations for specific firms.
翻訳日:2024-04-16 19:31:26 公開日:2024-04-13
# 未来を予言するChatGPT

ChatGPT Can Predict the Future when it Tells Stories Set in the Future About the Past ( http://arxiv.org/abs/2404.07396v2 )

ライセンス: Link先を確認
Van Pham, Scott Cunningham, (参考訳) 本研究は,OpenAIのChatGPT-3.5とChatGPT-4が,2つの異なるプロンプト戦略を用いて,将来の事象を正確に予測できるかどうかを検討する。 予測の精度を評価するため,2021年9月に実験中のトレーニングデータが停止した事実を利用して,ChatGPT-3.5とChatGPT-4を用いて2022年に起こった出来事を問う。 直接予測と,ChatGPTのトレーニングデータが収集された後,我々は,ChatGPTが将来設定した架空の物語を,それらに起きた出来事を共有するキャラクターで伝えることを依頼する,未来物語( future narratives)と呼ぶ2つのプロンプト戦略を採用した。 2022年のイベントに集中して、ChatGPTは特に経済状況の中でストーリーテリングに従事しました。 100個のプロンプトを解析した結果,将来の物語的プロンプトはChatGPT-4の予測精度を大幅に向上させることがわかった。 これはアカデミー賞の受賞者や経済トレンドの予測で特に顕著であり、後者は連邦準備制度理事会議長ジェローム・パウエルのような人物をモデルにしたシナリオから推測された。 これらの結果から,物語のプロンプトは幻覚的物語構築にモデルの能力を活用し,直接的な予測よりも効果的なデータ合成と外挿を促進することが示唆された。 本研究は,LLMの予測能力の新たな側面を明らかにし,解析的文脈における将来的な応用の可能性を提案する。

This study investigates whether OpenAI's ChatGPT-3.5 and ChatGPT-4 can accurately forecast future events using two distinct prompting strategies. To evaluate the accuracy of the predictions, we take advantage of the fact that the training data at the time of experiment stopped at September 2021, and ask about events that happened in 2022 using ChatGPT-3.5 and ChatGPT-4. We employed two prompting strategies: direct prediction and what we call future narratives which ask ChatGPT to tell fictional stories set in the future with characters that share events that have happened to them, but after ChatGPT's training data had been collected. Concentrating on events in 2022, we prompted ChatGPT to engage in storytelling, particularly within economic contexts. After analyzing 100 prompts, we discovered that future narrative prompts significantly enhanced ChatGPT-4's forecasting accuracy. This was especially evident in its predictions of major Academy Award winners as well as economic trends, the latter inferred from scenarios where the model impersonated public figures like the Federal Reserve Chair, Jerome Powell. These findings indicate that narrative prompts leverage the models' capacity for hallucinatory narrative construction, facilitating more effective data synthesis and extrapolation than straightforward predictions. Our research reveals new aspects of LLMs' predictive capabilities and suggests potential future applications in analytical contexts.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-13
# 文字位置確率を用いた単語複雑度の評価

Using Letter Positional Probabilities to Assess Word Complexity ( http://arxiv.org/abs/2404.07768v2 )

ライセンス: Link先を確認
Michael Dalvean, (参考訳) 単語の複雑さは、様々な方法で定義されます。 心理言語学、形態学、語彙のプロキシがよく用いられる。 人間の格付けも用いられる。 ここでの問題は、これらのプロキシが直接複雑性を測定しておらず、人間の評価は主観的偏見に影響を受けやすいことである。 本研究では, 単純かつ複雑な単語のサンプルを用いて, ある種の「ラテント複雑性」を近似できることを論じる。 小学校の絵本からの「単純な」単語のサンプルと、高校や学界の「複雑な」単語のサンプルを用いる。 これらのクラスの違いを分析するために,文字位置確率(LPP)について検討する。 いくつかのLPPと複雑性の間には強い統計的関連性がある。 例えば、単純な単語はw, b, s, h, g, k, t, y, f で始まる傾向が強く(p<.001)、複雑な単語は i, a, e, r, v, u, d で始まる傾向が強い(p<.001)。 後続の文字位置に関しては同様の強い相関関係がみられ、最初の6位では84の文字位置変数がp<.001レベルで有意である。 次に LPP を変数として2つのクラスを 83% の精度で分類できる分類器を作成する。 両データセットに共通する第1の6つの位置において66個のLPP(p<.001)を有する第2のデータセットを用いてこれらの結果を検証した。 これらの66変数を使用して、第3のデータセットを70%の精度で分類できる分類器を作成します。 最後に、第1の3つのデータセット上に構築された3つの分類器によって生成された極端に高い評価語と低い評価語を組み合わせて第4のサンプルを作成し、このサンプルを使用して精度97%の分類器を構築する。 これを用いて、ESLプログラムから英語の単語群の4つのレベルをスコアリングする。

Word complexity is defined in a number of different ways. Psycholinguistic, morphological and lexical proxies are often used. Human ratings are also used. The problem here is that these proxies do not measure complexity directly, and human ratings are susceptible to subjective bias. In this study we contend that some form of 'latent complexity' can be approximated by using samples of simple and complex words. We use a sample of 'simple' words from primary school picture books and a sample of 'complex' words from high school and academic settings. In order to analyse the differences between these classes, we look at the letter positional probabilities (LPPs). We find strong statistical associations between several LPPs and complexity. For example, simple words are significantly (p<.001) more likely to start with w, b, s, h, g, k, j, t, y or f, while complex words are significantly (p<.001) more likely to start with i, a, e, r, v, u or d. We find similar strong associations for subsequent letter positions, with 84 letter-position variables in the first 6 positions being significant at the p<.001 level. We then use LPPs as variables in creating a classifier which can classify the two classes with an 83% accuracy. We test these findings using a second data set, with 66 LPPs significant (p<.001) in the first 6 positions common to both datasets. We use these 66 variables to create a classifier that is able to classify a third dataset with an accuracy of 70%. Finally, we create a fourth sample by combining the extreme high and low scoring words generated by three classifiers built on the first three separate datasets and use this sample to build a classifier which has an accuracy of 97%. We use this to score the four levels of English word groups from an ESL program.
翻訳日:2024-04-16 19:21:41 公開日:2024-04-13
# LaVy: ベトナムのマルチモーダル大言語モデル

LaVy: Vietnamese Multimodal Large Language Model ( http://arxiv.org/abs/2404.07922v2 )

ライセンス: Link先を確認
Chi Tran, Huong Le Thanh, (参考訳) LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、複雑な推論と言語理解において印象的な能力を持つ嵐によって世界を席巻している。 一方、ベトナムの大規模言語モデルに関連する多くの作品があり、マルチモーダリティにおける高品質な資源の欠如はベトナムのMLLMの進歩を妨げている。 本稿では,現在最先端のベトナム語MLLMであるLaVyを導入することでこの問題に対処し,また,MLLMのベトナム語視覚言語タスクに対する理解を評価するためのLaVy-Benchベンチマークも導入する。 all code and model weights is public at https://github.com/baochi0212/LaVy

Large Language Models (LLMs) and Multimodal Large language models (MLLMs) have taken the world by storm with impressive abilities in complex reasoning and linguistic comprehension. Meanwhile there are plethora of works related to Vietnamese Large Language Models, the lack of high-quality resources in multimodality limits the progress of Vietnamese MLLMs. In this paper, we pioneer in address this by introducing LaVy, a state-of-the-art Vietnamese MLLM, and we also introduce LaVy-Bench benchmark designated for evaluating MLLMs's understanding on Vietnamese visual language tasks. All code and model weights are public at https://github.com/baochi0212/LaVy
翻訳日:2024-04-16 19:21:41 公開日:2024-04-13
# マルチモーダル大言語モデルの投機的復号化について

On Speculative Decoding for Multimodal Large Language Models ( http://arxiv.org/abs/2404.08856v1 )

ライセンス: Link先を確認
Mukul Gagrani, Raghavv Goel, Wonseok Jeon, Junyoung Park, Mingu Lee, Christopher Lott, (参考訳) マルチモーダル大言語モデル(MLLM)による推論は、メモリ帯域のボトルネックに悩まされ、自動回帰的にトークンを生成する大きな言語モデルバックボーンによって遅くなる。 本稿では,MLLM,特にLLaVA 7Bモデルの推論効率を高めるための投機的復号法の適用について検討する。 言語のみのモデルがLLaVA 7Bで投機的復号化のための優れたドラフトモデルとして機能し、画像トークンとその関連する処理コンポーネントをドラフトモデルから回避できることを示す。 3つの異なるタスクに対する実験により、投機的復号化により最大2.37$\times$のメモリバウンド・スピードアップが達成できた。 さらに,イメージアダプタを組み込んだコンパクトなLLaVAドラフトモデルを導入し,画像キャプションの限界性能向上と,他のタスクにおける比較結果の維持を両立させた。

Inference with Multimodal Large Language Models (MLLMs) is slow due to their large-language-model backbone which suffers from memory bandwidth bottleneck and generates tokens auto-regressively. In this paper, we explore the application of speculative decoding to enhance the inference efficiency of MLLMs, specifically the LLaVA 7B model. We show that a language-only model can serve as a good draft model for speculative decoding with LLaVA 7B, bypassing the need for image tokens and their associated processing components from the draft model. Our experiments across three different tasks show that speculative decoding can achieve a memory-bound speedup of up to 2.37$\times$ using a 115M parameter language model that we trained from scratch. Additionally, we introduce a compact LLaVA draft model incorporating an image adapter, which shows marginal performance gains in image captioning while maintaining comparable results in other tasks.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-13
# テキストプロンプトによる音声属性編集

Voice Attribute Editing with Text Prompt ( http://arxiv.org/abs/2404.08857v1 )

ライセンス: Link先を確認
Zhengyan Sheng, Yang Ai, Li-Juan Liu, Jia Pan, Zhen-Hua Ling, (参考訳) 近年,テキストによる音声生成の進歩により,音声スタイルの制御が可能になったが,合成音声における音声属性の理解は困難であり,制御が困難である。 本稿では,テキストプロンプトに記述された動作に応じて音声属性を相対的に修正することを目的とした,テキストプロンプトを用いた音声属性編集という新しいタスクを紹介する。 この課題を解決するために,エンドツーエンド生成モデルであるVoxEditorを提案する。 テキストプロンプトの不足に対処するVoxEditorでは、音声属性とこれらの記述子を共有機能空間に効率的にマッピングするResidual Memory(ResMem)ブロックが設計されている。 さらに、ResMemブロックは音声属性度予測(VADP)ブロックで拡張され、音声属性を対応する記述子と整列させ、音声属性の非定量的な記述によって引き起こされるテキストプロンプトの正確性に対処する。 また、オープンソースのVCTK-RVAデータセットを構築し、異なる話者間の音声特徴の相違を詳細に記述する手動アノテーションの道のりを導いた。 客観的および主観的指標の両面から,提案手法の有効性と一般化性を示す。 データセットとオーディオサンプルはWebサイトから入手できる。

Despite recent advancements in speech generation with text prompt providing control over speech style, voice attributes in synthesized speech remain elusive and challenging to control. This paper introduces a novel task: voice attribute editing with text prompt, with the goal of making relative modifications to voice attributes according to the actions described in the text prompt. To solve this task, VoxEditor, an end-to-end generative model, is proposed. In VoxEditor, addressing the insufficiency of text prompt, a Residual Memory (ResMem) block is designed, that efficiently maps voice attributes and these descriptors into the shared feature space. Additionally, the ResMem block is enhanced with a voice attribute degree prediction (VADP) block to align voice attributes with corresponding descriptors, addressing the imprecision of text prompt caused by non-quantitative descriptions of voice attributes. We also establish the open-source VCTK-RVA dataset, which leads the way in manual annotations detailing voice characteristic differences among different speakers. Extensive experiments demonstrate the effectiveness and generalizability of our proposed method in terms of both objective and subjective metrics. The dataset and audio samples are available on the website.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-13
# イベントカメラを用いたオンライン視線追跡のための軽量時空間ネットワーク

A Lightweight Spatiotemporal Network for Online Eye Tracking with Event Camera ( http://arxiv.org/abs/2404.08858v1 )

ライセンス: Link先を確認
Yan Ru Pei, Sasskia Brüers, Sébastien Crouzet, Douglas McLelland, Olivier Coenen, (参考訳) イベントベースのデータは通常、効率性と低レイテンシが重要であるエッジコンピューティング環境で発生する。 このようなデータと対話し,その豊富な時間的特徴を活用するために,因果時空間畳み込みネットワークを提案する。 このソリューションは、3つの方法で限られたリソースを持つエッジ対応ハードウェアの効率的な実装を目標としている。 1)単純なアーキテクチャと一連のオペレーション(畳み込み、ReLUアクティベーション)を意図的にターゲットとしている。 2) レイヤ出力のバッファリングによってオンライン推論を効率的に行うように設定できる。 3) トレーニング中の正規化によって90%以上のアクティベーション間隔を達成でき、イベントベースのプロセッサで非常に大きな効率向上を実現している。 さらに、イベントに直接作用する一般的なアフィン増強戦略を提案し、イベントベースシステムにおけるデータセット不足の問題を軽減する。 我々は,AIS 2024イベントベースのアイトラッキング課題に適用し,Kaggleプライベートテストセットで0.9916 p10の精度を達成した。

Event-based data are commonly encountered in edge computing environments where efficiency and low latency are critical. To interface with such data and leverage their rich temporal features, we propose a causal spatiotemporal convolutional network. This solution targets efficient implementation on edge-appropriate hardware with limited resources in three ways: 1) deliberately targets a simple architecture and set of operations (convolutions, ReLU activations) 2) can be configured to perform online inference efficiently via buffering of layer outputs 3) can achieve more than 90% activation sparsity through regularization during training, enabling very significant efficiency gains on event-based processors. In addition, we propose a general affine augmentation strategy acting directly on the events, which alleviates the problem of dataset scarcity for event-based systems. We apply our model on the AIS 2024 event-based eye tracking challenge, reaching a score of 0.9916 p10 accuracy on the Kaggle private testset.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-13
# 検索結果の自動検証と再ランク付けによる技術的「ハウツー」クエリ精度の向上

Improving Technical "How-to" Query Accuracy with Automated Search Results Verification and Reranking ( http://arxiv.org/abs/2404.08860v1 )

ライセンス: Link先を確認
Lei Ding, Jeshwanth Bheemanpally, Yi Zhang, (参考訳) 多くの人が、コンピュータやモバイルデバイスの問題を解決するために、オンラインガイダンスを見つけるために検索エンジンを使用しています。 ユーザは検索結果から効果的なソリューションを識別する上で、しばしば課題に遭遇する。 本稿では,オンライン技術支援検索の精度と妥当性を,自動検索結果検証と再評価により向上させる新しい手法を提案する。 オンデバイス実行に特有の「ハウツー」クエリを出発点として、我々はまず、AIエージェントが、制御されたAndroid環境で検索結果のステップバイステップ命令を解釈し実行できるようにするソリューションを開発した。 さらに,テスト手法の成功指標に基づいて検索結果を順序付けする機構に,エージェントの知見を組み込んだ。 本論文では,様々なアプリケーション領域にわたる一連のテストを通じて,ソリューションのアーキテクチャとシステム全体の評価について詳述する。 その結果,上位結果の品質と信頼性は著しく向上した。 我々の研究結果は、オンライン技術支援のための検索エンジンランキングの最適化にパラダイムシフトがあることを示唆し、効果的で信頼性の高いオンライン支援を見つけるという、広く普及している課題に対して、スケーラブルで自動化されたソリューションを提供する。

Many people use search engines to find online guidance to solve computer or mobile device problems. Users frequently encounter challenges in identifying effective solutions from search results, often wasting time trying ineffective solutions that seem relevant yet fail to solve the real problems. This paper introduces a novel approach to improving the accuracy and relevance of online technical support search results through automated search results verification and reranking. Taking "How-to" queries specific to on-device execution as a starting point, we first developed a solution that allows an AI agent to interpret and execute step-by-step instructions in the search results in a controlled Android environment. We further integrated the agent's findings into a reranking mechanism that orders search results based on the success indicators of the tested solutions. The paper details the architecture of our solution and a comprehensive evaluation of the system through a series of tests across various application domains. The results demonstrate a significant improvement in the quality and reliability of the top-ranked results. Our findings suggest a paradigm shift in how search engine ranking for online technical support help can be optimized, offering a scalable and automated solution to the pervasive challenge of finding effective and reliable online help.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-13
# LLMのインコンテキストリコールはプロンプト依存である

LLM In-Context Recall is Prompt Dependent ( http://arxiv.org/abs/2404.08865v1 )

ライセンス: Link先を確認
Daniel Machlab, Rick Battle, (参考訳) LLM(Large Language Models)の普及は、比較優位性、制限、最適なユースケースを特定するために徹底的な評価を行うことの重要性を強調している。 特に重要なのは、与えられたプロンプトに含まれる情報を正確に取得する能力を評価することだ。 これを行うモデルの能力は、コンテキストの詳細をいかに効果的に活用できるかに大きく影響し、現実のアプリケーションにおける実用的有効性と信頼性に影響を与える。 本研究は, ニードル・イン・ア・ヘイスタック法を用いて, 各種LLMのコンテキスト内リコール性能を解析した。 このアプローチでは、ファクトイド("needle")がフィラーテキスト("haystack")のブロックに埋め込まれ、モデルが取得するように要求される。 各種干し草の干し草の長さと各種針配置を用いて各モデルのリコール性能を評価し,性能パターンを同定する。 本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。 逆に、モデルアーキテクチャ、トレーニング戦略、あるいは微調整の調整は、パフォーマンスを向上させることができる。 我々の分析はLLMの挙動の洞察を提供し、LLMのより効果的な応用の方向性を提供する。

The proliferation of Large Language Models (LLMs) highlights the critical importance of conducting thorough evaluations to discern their comparative advantages, limitations, and optimal use cases. Particularly important is assessing their capacity to accurately retrieve information included in a given prompt. A model's ability to do this significantly influences how effectively it can utilize contextual details, thus impacting its practical efficacy and dependability in real-world applications. Our research analyzes the in-context recall performance of various LLMs using the needle-in-a-haystack method. In this approach, a factoid (the "needle") is embedded within a block of filler text (the "haystack"), which the model is asked to retrieve. We assess the recall performance of each model across various haystack lengths and with varying needle placements to identify performance patterns. This study demonstrates that an LLM's recall capability is not only contingent upon the prompt's content but also may be compromised by biases in its training data. Conversely, adjustments to model architecture, training strategy, or fine-tuning can improve performance. Our analysis provides insight into LLM behavior, offering direction for the development of more effective applications of LLMs.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-13
# 合成データ生成モデルの評価フレームワーク

An evaluation framework for synthetic data generation models ( http://arxiv.org/abs/2404.08866v1 )

ライセンス: Link先を確認
Ioannis E. Livieris, Nikos Alimpertis, George Domalis, Dimitris Tsakalidis, (参考訳) 近年、合成データの使用は、機械学習モデルの性能向上と、機密データプライバシに関する懸念に対処するために、データ拡張を強化するコスト効率の高い戦略として人気を集めている。 したがって、生成した合成データの質を保証する必要性は、実データの正確な表現の観点からも、最も重要な要素である。 本研究では,高品質な合成データを開発するための合成データ生成モデルの能力を評価するための新しいフレームワークを提案する。 提案手法は,評価フレームワークと比較モデルのランキングについて,統計的,理論的に強い情報を提供することができる。 2つのユースケースシナリオは、合成データ生成モデルが高品質なデータを生成する能力を評価するための提案フレームワークの適用性を示す。 実装コードはhttps://github.com/novelcore/synthetic_data_evaluation_frameworkで確認できる。

Nowadays, the use of synthetic data has gained popularity as a cost-efficient strategy for enhancing data augmentation for improving machine learning models performance as well as addressing concerns related to sensitive data privacy. Therefore, the necessity of ensuring quality of generated synthetic data, in terms of accurate representation of real data, consists of primary importance. In this work, we present a new framework for evaluating synthetic data generation models' ability for developing high-quality synthetic data. The proposed approach is able to provide strong statistical and theoretical information about the evaluation framework and the compared models' ranking. Two use case scenarios demonstrate the applicability of the proposed framework for evaluating the ability of synthetic data generation models to generated high quality data. The implementation code can be found in https://github.com/novelcore/synthetic_data_evaluation_framework.
翻訳日:2024-04-16 18:22:57 公開日:2024-04-13
# 水熱法により合成したMOS$_2$-rGO複合材料の水素進化促進活性

Enhanced Hydrogen Evolution Activity of MOS$_2$-rGO Composite Synthesized via Hydrothermal Technique ( http://arxiv.org/abs/2404.08872v1 )

ライセンス: Link先を確認
Abhishek Sebastian, Pragna R, (参考訳) 水素進化反応(HER)はクリーンで持続可能なエネルギー生産のための有望な技術である。 近年、研究者は効率的なHER活動のための様々な材料を探索している。 本研究では,熱水によるMOS$_2$とMoS$_2$-rGOの合成について報告する。 X線回折(XRD)、フーリエ変換赤外分光法(FTIR)、ラマン分光法(Raman spectroscopy)を用いた。 XRD分析により,高結晶度ヘキサゴナルMOS$_2$の形成が確認された。 FTIR分析によりMo-S結合の存在が確認され、ラマン分光法はMOS$_2$の形成の証拠となった。 材料のHER活性を評価するため,リニアスリープボルタンメトリー (LSV) を行った。 その結果,MOS$_2$およびMOS$_2$-rGOは,低オンセット電位,高電流密度で良好なHER活性を示した。 MOS$_2-rGO材料は, MOS$_2$と比較してHER活性が向上し, MOS$_2$の性能を高める触媒としての酸化グラフェンの可能性を示した。

Hydrogen evolution reaction (HER) has emerged as a promising technique for the production of clean and sustainable energy. In recent years, researchers have been exploring various materials for efficient HER activity. In this study, we report the synthesis of two different materials, namely MOS$_2$ and MoS$_2$-rGO, through a hydrothermal technique. X-ray diffraction (XRD), Fourier-transform infrared (FTIR) spectroscopy, and Raman spectroscopy were used to characterize the materials. XRD analysis revealed the formation of hexagonal MOS$_2$ with a high degree of crystallinity. FTIR analysis confirmed the presence of Mo-S bonds, while Raman spectroscopy provided evidence for the formation of MOS$_2$.To evaluate the HER activity of the materials, linear sweep voltammetry (LSV) was performed. The results showed that MOS$_2$ and MOS$_2$-rGO had good HER activity with low onset potentials and high current densities. The MOS$_2$-rGO material showed improved HER activity compared to MOS$_2$, indicating the potential of graphene oxide as a co-catalyst to enhance the performance of MOS$_2$.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# FLフリープログラム修復用LCMの調整

Aligning LLMs for FL-free Program Repair ( http://arxiv.org/abs/2404.08877v1 )

ライセンス: Link先を確認
Junjielong Xu, Ying Fu, Shin Hwei Tan, Pinjia He, (参考訳) 大規模言語モデル(LLM)は、自動プログラム修復(APR)において十分な結果を得た。 しかし、デコーダのみのLCM(例: GPT-4)の次のトークン予測訓練目標は、現在の埋込方式のマスク付きスパン予測目標と一致せず、LCMがプログラム修復のために事前訓練された知識を完全に活用することを妨げている。 さらに、いくつかのLCMは、関連するアーティファクト(例えばテストケース)を入力として使用する際に、エンドツーエンドでバグの発見と修正を行うことができるが、既存のメソッドはそれらを独立したタスクとみなし、固定された場所でパッチを生成するようにLCMに頼んでいる。 この制限は、LLMが所定の場所を越えて潜在的なパッチを探索することを妨げる。 本稿では,LLMをプログラム修復に適用するための新しいアプローチについて検討する。 我々の中核的な洞察は、LPMのAPR能力は、単にトレーニング目標に出力を合わせるだけで、障害ローカライゼーションを最初に実行せずにプログラム全体を改善できるということです。 この知見に基づいて、我々はAPRの直接的なプロンプトフレームワークであるD4Cを設計した。 D4CはDefects4Jで180のバグを正しく修正できる。 これにより、SOTA APR法を10%の完全障害局所化で上回り、パッチサンプリング数を90%削減する。 以上の結果から, (1) 目標アライメントは, LLM の事前学習能力を完全に活用するために不可欠であり, (2) 従来のローカライズ・セイン・リペアワークフローを直接デバッグに置き換えることは, LLM ベースの APR 手法においてより効果的であることが示唆された。 そこで本稿では,ALMをAPRで活用するための新たな考え方を紹介する。

Large language models (LLMs) have achieved decent results on automated program repair (APR). However, the next token prediction training objective of decoder-only LLMs (e.g., GPT-4) is misaligned with the masked span prediction objective of current infilling-style methods, which impedes LLMs from fully leveraging pre-trained knowledge for program repair. In addition, while some LLMs are capable of locating and repairing bugs end-to-end when using the related artifacts (e.g., test cases) as input, existing methods regard them as separate tasks and ask LLMs to generate patches at fixed locations. This restriction hinders LLMs from exploring potential patches beyond the given locations. In this paper, we investigate a new approach to adapt LLMs to program repair. Our core insight is that LLM's APR capability can be greatly improved by simply aligning the output to their training objective and allowing them to refine the whole program without first performing fault localization. Based on this insight, we designed D4C, a straightforward prompting framework for APR. D4C can repair 180 bugs correctly in Defects4J, with each patch being sampled only 10 times. This surpasses the SOTA APR methods with perfect fault localization by 10% and reduces the patch sampling number by 90%. Our findings reveal that (1) objective alignment is crucial for fully exploiting LLM's pre-trained capability, and (2) replacing the traditional localize-then-repair workflow with direct debugging is more effective for LLM-based APR methods. Thus, we believe this paper introduces a new mindset for harnessing LLMs in APR.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# 次世代MIMO設計のための生成AIエージェント:基礎,課題,ビジョン

Generative AI Agent for Next-Generation MIMO Design: Fundamentals, Challenges, and Vision ( http://arxiv.org/abs/2404.08878v1 )

ライセンス: Link先を確認
Zhe Wang, Jiayi Zhang, Hongyang Du, Ruichen Zhang, Dusit Niyato, Bo Ai, Khaled B. Letaief, (参考訳) 次世代の多重入力多重出力(MIMO)はインテリジェントでスケーラブルであることが期待される。 本稿では,AIエージェントを用いた次世代MIMO設計について検討する。 まず,次世代MIMOの開発,基本,課題について概説する。 そこで我々は,大規模言語モデル(LLM)と検索拡張生成(RAG)の助けを借りて,カスタマイズされた,専門的なコンテンツを生成できる生成AIエージェントの概念を提案する。 次に、生成AIエージェントフレームワークの特徴と利点を包括的に議論する。 より重要なことは、次世代MIMOの既存の課題に取り組むために、性能分析、信号処理、資源割り当ての観点から、生成型AIエージェント対応の次世代MIMO設計について議論する。 さらに、複雑な構成シナリオにおいて、生成AIエージェントをパフォーマンス分析に活用することの有効性を実証する2つの説得力のあるケーススタディを示す。 これらの例は、生成型AIエージェントの統合が、次世代MIMOシステムの解析と設計を大幅に向上させる方法を示している。 最後に,今後の重要な研究の方向性について論じる。

Next-generation multiple input multiple output (MIMO) is expected to be intelligent and scalable. In this paper, we study generative artificial intelligence (AI) agent-enabled next-generation MIMO design. Firstly, we provide an overview of the development, fundamentals, and challenges of the next-generation MIMO. Then, we propose the concept of the generative AI agent, which is capable of generating tailored and specialized contents with the aid of large language model (LLM) and retrieval augmented generation (RAG). Next, we comprehensively discuss the features and advantages of the generative AI agent framework. More importantly, to tackle existing challenges of next-generation MIMO, we discuss generative AI agent-enabled next-generation MIMO design, from the perspective of performance analysis, signal processing, and resource allocation. Furthermore, we present two compelling case studies that demonstrate the effectiveness of leveraging the generative AI agent for performance analysis in complex configuration scenarios. These examples highlight how the integration of generative AI agents can significantly enhance the analysis and design of next-generation MIMO systems. Finally, we discuss important potential research future directions.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# GPTにとって次のトークン予測は十分か?コードの論理的理解に関する探索

Is Next Token Prediction Sufficient for GPT? Exploration on Code Logic Comprehension ( http://arxiv.org/abs/2404.08885v1 )

ライセンス: Link先を確認
Mengnan Qi, Yufan Huang, Yongqiang Yao, Maoquan Wang, Bin Gu, Neel Sundaresan, (参考訳) 大規模言語モデル(LLM)は指数関数的な成長を経験し、様々なタスクで顕著な性能を示した。 しかしながら、現代の研究は主に事前学習データのサイズと品質の向上に重点を置いており、自動回帰トランスフォーマーモデル構造における次のトークン予測タスクを引き続き活用している。 モデルによるコードロジックの理解を本当に促進する上で、このタスクの有効性は疑問の余地がありますが、コードはまだ単なるテキストとして解釈されているのに対して、人間は基礎となる論理的知識を強調しています。 そこで我々は,論理的に等価なコード選択を行うための新しいタスク "Logically Equivalent Code Selection" を導入する。 実験結果から,現在LLMは不規則なキーワードの袋でコードを理解するため,このタスクでは性能が低いことが示唆された。 その性能を改善するために,先進的な事前学習課題である"Next Token Prediction+"を提案する。 本課題は, LLMの文埋め込み分布を, 生成能力を犠牲にすることなく修正することを目的とする。 この事前トレーニングに続いて、コードドメイン事前トレーニングモデルであるCode LlamaとStarCoderが、論理的に等価なコード選択タスクとコード補完タスクに大幅に改善されていることが明らかとなった。

Large language models (LLMs) has experienced exponential growth, they demonstrate remarkable performance across various tasks. Notwithstanding, contemporary research primarily centers on enhancing the size and quality of pretraining data, still utilizing the next token prediction task on autoregressive transformer model structure. The efficacy of this task in truly facilitating the model's comprehension of code logic remains questionable, we speculate that it still interprets code as mere text, while human emphasizes the underlying logical knowledge. In order to prove it, we introduce a new task, "Logically Equivalent Code Selection," which necessitates the selection of logically equivalent code from a candidate set, given a query code. Our experimental findings indicate that current LLMs underperform in this task, since they understand code by unordered bag of keywords. To ameliorate their performance, we propose an advanced pretraining task, "Next Token Prediction+". This task aims to modify the sentence embedding distribution of the LLM without sacrificing its generative capabilities. Our experimental results reveal that following this pretraining, both Code Llama and StarCoder, the prevalent code domain pretraining models, display significant improvements on our logically equivalent code selection task and the code completion task.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# EIVEN:マルチモーダルLLMを用いた効率的な帰属値抽出

EIVEN: Efficient Implicit Attribute Value Extraction using Multimodal LLM ( http://arxiv.org/abs/2404.08886v1 )

ライセンス: Link先を確認
Henry Peng Zou, Gavin Heqing Yu, Ziwei Fan, Dan Bu, Han Liu, Peng Dai, Dongmei Jia, Cornelia Caragea, (参考訳) 電子商取引においては、マルチモーダルデータから商品属性値を正確に抽出することが、小売店のユーザエクスペリエンスと運用効率を向上させる上で重要である。 しかし、従来のマルチモーダル属性値抽出手法は、画像やテキストに埋め込まれた暗黙的な属性値に苦しむことが多く、ラベル付きデータに大きく依存しており、類似した属性値を簡単に混乱させることができる。 これらの問題に対処するために、暗黙的な属性値抽出にマルチモーダル LLM を用いたデータおよびパラメータ効率のよい生成フレームワークである EIVEN を導入する。 EIVENは、ラベル付きデータへの依存を減らすために、事前訓練されたLLMとビジョンエンコーダの豊富な知識を活用する。 また,属性値比較と差分識別を強制することにより,モデルの混乱を低減する新しい学習・比較手法を提案する。 さらに,マルチモーダルな暗黙属性値抽出のための初期のオープンソースデータセットを構築した。 EIVENはラベル付きデータの少ないデータで暗黙的な属性値の抽出において,既存の手法よりも優れていた。

In e-commerce, accurately extracting product attribute values from multimodal data is crucial for improving user experience and operational efficiency of retailers. However, previous approaches to multimodal attribute value extraction often struggle with implicit attribute values embedded in images or text, rely heavily on extensive labeled data, and can easily confuse similar attribute values. To address these issues, we introduce EIVEN, a data- and parameter-efficient generative framework that pioneers the use of multimodal LLM for implicit attribute value extraction. EIVEN leverages the rich inherent knowledge of a pre-trained LLM and vision encoder to reduce reliance on labeled data. We also introduce a novel Learning-by-Comparison technique to reduce model confusion by enforcing attribute value comparison and difference identification. Additionally, we construct initial open-source datasets for multimodal implicit attribute value extraction. Our extensive experiments reveal that EIVEN significantly outperforms existing methods in extracting implicit attribute values while requiring less labeled data.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# エンド・ツー・エンド適応型ローカル学習による主流バイアスのカウンセリング

Countering Mainstream Bias via End-to-End Adaptive Local Learning ( http://arxiv.org/abs/2404.08887v1 )

ライセンス: Link先を確認
Jinhao Pan, Ziwei Zhu, Jianling Wang, Allen Lin, James Caverlee, (参考訳) コラボレーションフィルタリング(CF)ベースのレコメンデーションは、主流のユーザがニッチなユーザよりも好まれる主流のバイアスに悩まされ、多くのロングテールユーザにとって推奨品質が低下する。 本稿では,この主流バイアスの根本原因を2つ同定する。 (i)独特な好みを持つニッチなユーザを無視しながら、CFアルゴリズムが主流のユーザをモデリングすることに焦点を当てた不一致モデリング。 ニッチなユーザにとって,ピーク時のパフォーマンスを達成するためには,主流ユーザよりも多くのトレーニングエポックが必要なのだ。 これらの原因をターゲットとして,主流ユーザとニッチユーザの両方に高品質なレコメンデーションを提供するために,新しいエンドツーエンド適応型ローカル学習(TALL)フレームワークを提案する。 TALLは、損失駆動のMixture-of-Expertsモジュールを使用して、専門家を適応的にアンサンブルし、異なるユーザ向けにカスタマイズされたローカルモデルを提供する。 さらに、損失の重みを動的に調整することにより、異なるユーザの学習ペースを同期させる適応重みモジュールを含む。 大規模な実験により,提案モデルの最先端性能が実証された。 コードとデータは \url{https://github.com/JP-25/end-To-end-Adaptive-Local-Leanring-TALL-} で提供される。

Collaborative filtering (CF) based recommendations suffer from mainstream bias -- where mainstream users are favored over niche users, leading to poor recommendation quality for many long-tail users. In this paper, we identify two root causes of this mainstream bias: (i) discrepancy modeling, whereby CF algorithms focus on modeling mainstream users while neglecting niche users with unique preferences; and (ii) unsynchronized learning, where niche users require more training epochs than mainstream users to reach peak performance. Targeting these causes, we propose a novel end-To-end Adaptive Local Learning (TALL) framework to provide high-quality recommendations to both mainstream and niche users. TALL uses a loss-driven Mixture-of-Experts module to adaptively ensemble experts to provide customized local models for different users. Further, it contains an adaptive weight module to synchronize the learning paces of different users by dynamically adjusting weights in the loss. Extensive experiments demonstrate the state-of-the-art performance of the proposed model. Code and data are provided at \url{https://github.com/JP-25/end-To-end-Adaptive-Local-Leanring-TALL-}
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# 低リソース環境におけるヘルスコーチング対話の強化に向けて

Towards Enhancing Health Coaching Dialogue in Low-Resource Settings ( http://arxiv.org/abs/2404.08888v1 )

ライセンス: Link先を確認
Yue Zhou, Barbara Di Eugenio, Brian Ziebart, Lisa Sharp, Bing Liu, Ben Gerber, Nikolaos Agadakos, Shweta Yadav, (参考訳) 健康コーチングは、患者のライフスタイルに関連する目標を特定し達成し、慢性疾患のコントロールを効果的に改善し、精神状態の緩和に役立つ。 しかしながら、健康コーチングは、高度にパーソナライズされ、労働集約的な性質のため、コストが抑制される。 本稿では,患者と会話し,特定の目標を創り,達成し,共感で感情に対処する対話システムを構築することを提案する。 しかし、実際のヘルスコーチングデータセットは限られており、共感は微妙であるため、そのようなシステムの構築は困難である。 そこで本研究では,NLUおよびNLGフレームワークと機構条件付き共感応答生成を組み合わせた,モジュール化されたヘルスコーチング対話システムを提案する。 自動的および人的評価により,本システムはより共感的で流動的でコヒーレントな応答を生成し,アノテーションを必要とせず,NLUタスクにおける最先端のタスクより優れることを示す。 当社のアプローチは、自動化されたよりアクセスしやすいヘルスコーチングシステムを構築するための重要なステップだと考えています。

Health coaching helps patients identify and accomplish lifestyle-related goals, effectively improving the control of chronic diseases and mitigating mental health conditions. However, health coaching is cost-prohibitive due to its highly personalized and labor-intensive nature. In this paper, we propose to build a dialogue system that converses with the patients, helps them create and accomplish specific goals, and can address their emotions with empathy. However, building such a system is challenging since real-world health coaching datasets are limited and empathy is subtle. Thus, we propose a modularized health coaching dialogue system with simplified NLU and NLG frameworks combined with mechanism-conditioned empathetic response generation. Through automatic and human evaluation, we show that our system generates more empathetic, fluent, and coherent responses and outperforms the state-of-the-art in NLU tasks while requiring less annotation. We view our approach as a key step towards building automated and more accessible health coaching systems.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# ChangeAnywhere:Semantic Latent Diffusion Modelによるリモートセンシング変更検出のためのサンプル生成

ChangeAnywhere: Sample Generation for Remote Sensing Change Detection via Semantic Latent Diffusion Model ( http://arxiv.org/abs/2404.08892v1 )

ライセンス: Link先を確認
Kai Tang, Jin Chen, (参考訳) リモートセンシング変化検出(Remote Sensor Change Detection, CD)は、多時間画像に基づいて、グローバルスケールで変化をピンポイントするピボット技術である。 近年の深層学習の拡大に伴い,教師付き深層学習型CDモデルは良好な性能を示した。 しかし、CDサンプルラベリングは非常に時間がかかり、高度にラベル付けされており、専門家の知識を必要とする。 この問題を軽減するために,セマンティック潜伏拡散モデルと単一時間画像を用いた新しいCDサンプル生成手法であるChangeAnywhereを導入する。 具体的には、ChangeAnywhereは、巨大な単一時間セマンティックデータセットを取得することの比較的容易さを活用して、大規模で多種多様でセマンティックに注釈付けされた2時間CDデータセットを生成する。 ChangeAnywhereは2つのCDサンプルをキャプチャする。つまり、変更は意味的に異なることを意味し、非変更は同じ意味的制約の下で合理的な変更を意味する。 提案手法に基づいて10万組のCDサンプルを用いた最大合成CDデータセットであるChangeAnywhere-100Kを作成した。 ChangeAnywhere-100Kは、さまざまなディープラーニングベースのCDモデルのための2つのCDベンチマークデータセットにおけるゼロショットと少数ショットのパフォーマンスを、トランスファー実験によって明らかに改善した。 本稿では,CDサンプル生成におけるChangeAnywhereの膨大なポテンシャルを概説し,その後のモデル性能の向上を実証する。 そのためChangeAnywhereは、リモートセンシングCDのための強力なツールを提供する。 すべてのコードと事前訓練されたモデルはhttps://github.com/tangkai-RS/ChangeAnywhere.comで入手できる。

Remote sensing change detection (CD) is a pivotal technique that pinpoints changes on a global scale based on multi-temporal images. With the recent expansion of deep learning, supervised deep learning-based CD models have shown satisfactory performance. However, CD sample labeling is very time-consuming as it is densely labeled and requires expert knowledge. To alleviate this problem, we introduce ChangeAnywhere, a novel CD sample generation method using the semantic latent diffusion model and single-temporal images. Specifically, ChangeAnywhere leverages the relative ease of acquiring large single-temporal semantic datasets to generate large-scale, diverse, and semantically annotated bi-temporal CD datasets. ChangeAnywhere captures the two essentials of CD samples, i.e., change implies semantically different, and non-change implies reasonable change under the same semantic constraints. We generated ChangeAnywhere-100K, the largest synthesis CD dataset with 100,000 pairs of CD samples based on the proposed method. The ChangeAnywhere-100K significantly improved both zero-shot and few-shot performance on two CD benchmark datasets for various deep learning-based CD models, as demonstrated by transfer experiments. This paper delineates the enormous potential of ChangeAnywhere for CD sample generation and demonstrates the subsequent enhancement of model performance. Therefore, ChangeAnywhere offers a potent tool for remote sensing CD. All codes and pre-trained models will be available at https://github.com/tangkai-RS/ChangeAnywhere.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# インシデントデータを用いた疾患発生と非アウトブレイクの早期検出

Early detection of disease outbreaks and non-outbreaks using incidence data ( http://arxiv.org/abs/2404.08893v1 )

ライセンス: Link先を確認
Shan Gao, Amit K. Chakraborty, Russell Greiner, Mark A. Lewis, Hao Wang, (参考訳) 新規疾患の発生と欠如を予知することは、疾患管理に不可欠である。 ここでは、アウトブレイクやアウトブレイクを正確に予測する、現実世界のトレーニングデータを持たない一般的なモデルを開発する。 本稿では,特徴に基づく時系列分類手法を用いて,アウトブレイクやアウトブレイクを予測できる新しいフレームワークを提案する。 本研究では, 難治性疾患のダイナミックスを緩やかに変化させるために, サセプティブル・インフェクテッド・リザーブドモデルを用いて合成データを用いて実験を行った。 アウトブレイクシーケンスは指定された将来の時間ウィンドウ内でトランスクリティカル分岐を与えるが、非アウトブレイク(ヌル分岐)シーケンスはそうではない。 今後のアウトブレイクやアウトブレイクに繋がる感染症の時系列的相違について検討した。 これらの違いは22の統計的特徴と5つの早期警告信号指標に反映される。 受信機操作曲線下の領域で与えられる分類器の性能は、トレーニングデータの大規模な拡張ウィンドウの0.99から、小さなローリングウィンドウの0.7まで様々である。 シンガポールのCOVID-19データと香港のSARSデータと、高い精度を示す2つの分類器を用いて、実世界の分類器のパフォーマンスをテストした。 以上の結果から,アウトブレイク・アウトブレイク・シークエンスを区別する統計的特徴が示唆された。 人工的なデータセットと実世界のデータセットの違いは、発生のずっと前に検出できる。

Forecasting the occurrence and absence of novel disease outbreaks is essential for disease management. Here, we develop a general model, with no real-world training data, that accurately forecasts outbreaks and non-outbreaks. We propose a novel framework, using a feature-based time series classification method to forecast outbreaks and non-outbreaks. We tested our methods on synthetic data from a Susceptible-Infected-Recovered model for slowly changing, noisy disease dynamics. Outbreak sequences give a transcritical bifurcation within a specified future time window, whereas non-outbreak (null bifurcation) sequences do not. We identified incipient differences in time series of infectives leading to future outbreaks and non-outbreaks. These differences are reflected in 22 statistical features and 5 early warning signal indicators. Classifier performance, given by the area under the receiver-operating curve, ranged from 0.99 for large expanding windows of training data to 0.7 for small rolling windows. Real-world performances of classifiers were tested on two empirical datasets, COVID-19 data from Singapore and SARS data from Hong Kong, with two classifiers exhibiting high accuracy. In summary, we showed that there are statistical features that distinguish outbreak and non-outbreak sequences long before outbreaks occur. We could detect these differences in synthetic and real-world data sets, well before potential outbreaks occur.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# HEAT:Taylor-Expansion比重スコアを用いた視覚変換器の頭部パラメータ適応

HEAT: Head-level Parameter Efficient Adaptation of Vision Transformers with Taylor-expansion Importance Scores ( http://arxiv.org/abs/2404.08894v1 )

ライセンス: Link先を確認
Yibo Zhong, Yao Zhou, (参考訳) コンピュータビジョン以前の研究は、トレーニング済みの視覚変換器(ViT)を下流のタスクに適応させることを幅広く検討していた。 しかし、パラメータのサブセットのみをトレーニングし、パラメータと記憶効率を両立させることにより、大規模な事前学習モデルを効率的に適応するためのアプローチとして、PETL(Specer Efficient Transfer Learning)に焦点が当てられている。 大幅に削減されたパラメータは、転送学習シナリオ下での有望な性能を示しているが、モデルに固有の構造的冗長性は改善の余地を残しており、さらなる調査が保証されている。 本稿では,頭部レベルのVTを効率よく微調整する簡易な手法として,Taylor-Expansion importance score (HEAT) を用いた頭部効率適応法を提案する。 特に、Torylor拡張は、Torylor-expansion Importance Score (TIS)と呼ばれる各ヘッドの重要度を計算するために使用され、特定のタスクへの寄与を示す。 さらに、TISの有効性を最大化するために、TISを計算するための3つの戦略が採用されている。 これらの戦略は、パラメータの様々な貢献を反映して、異なる視点からTISを計算する。 ViT以外にも、HEATはSwin Transformerのような階層的なトランスフォーマーにも適用されており、異なるトランスフォーマーアーキテクチャ間の汎用性を実証している。 大規模な実験を通じて、HEATはVTAB-1Kベンチマークで最先端のPETL法よりも優れた性能を示した。

Prior computer vision research extensively explores adapting pre-trained vision transformers (ViT) to downstream tasks. However, the substantial number of parameters requiring adaptation has led to a focus on Parameter Efficient Transfer Learning (PETL) as an approach to efficiently adapt large pre-trained models by training only a subset of parameters, achieving both parameter and storage efficiency. Although the significantly reduced parameters have shown promising performance under transfer learning scenarios, the structural redundancy inherent in the model still leaves room for improvement, which warrants further investigation. In this paper, we propose Head-level Efficient Adaptation with Taylor-expansion importance score (HEAT): a simple method that efficiently fine-tuning ViTs at head levels. In particular, the first-order Taylor expansion is employed to calculate each head's importance score, termed Taylor-expansion Importance Score (TIS), indicating its contribution to specific tasks. Additionally, three strategies for calculating TIS have been employed to maximize the effectiveness of TIS. These strategies calculate TIS from different perspectives, reflecting varying contributions of parameters. Besides ViT, HEAT has also been applied to hierarchical transformers such as Swin Transformer, demonstrating its versatility across different transformer architectures. Through extensive experiments, HEAT has demonstrated superior performance over state-of-the-art PETL methods on the VTAB-1K benchmark.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# Bullion: 機械学習のためのカラムストア

Bullion: A Column Store for Machine Learning ( http://arxiv.org/abs/2404.08901v1 )

ライセンス: Link先を確認
Gang Liao, Ye Liu, Jianjun Chen, Daniel J. Abadi, (参考訳) 過去20年間、コラムストレージはデータのウェアハウスと分析に革命をもたらした。 しかし、機械学習の急速な成長は、この領域に新たな課題をもたらす。 本稿では,機械学習処理に適した列記憶システムであるBullionについて述べる。 Bullionはデータコンプライアンスの複雑さに対処し、長いシーケンススパース機能のエンコーディングを最適化し、ワイドなプロジェクションを効率的に管理し、ストレージに機能量子化を導入する。 MLアプリケーションの進化する要件に合わせて、Bullionはコラムストレージを、広告やレコメンデーションシステムから、ジェネレーティブAIの領域の拡大に至るまで、さまざまなシナリオに拡張する。 予備的な実験結果と理論的分析は、既存のカラム型ストレージソリューションと比較して、機械学習ワークロードのユニークな要求を処理する上で、Bullionの優れたパフォーマンスを示している。 Bullionは削除コンプライアンスのI/Oコストを大幅に削減し、スパース機能に最適化された符号化スキームで大幅なストレージ節約を実現し、ワイドテーブルプロジェクションのメタデータ解析速度を大幅に改善する。 これらの進歩は、Bulionをマシンラーニングインフラストラクチャの将来において重要なコンポーネントとして位置付けており、現代的なAIアプリケーションにおけるトレーニングと推論に必要な大量のデータを効率的に管理し、処理することができる。

The past two decades have witnessed columnar storage revolutionizing data warehousing and analytics. However, the rapid growth of machine learning poses new challenges to this domain. This paper presents Bullion, a columnar storage system tailored for machine learning workloads. Bullion addresses the complexities of data compliance, optimizes the encoding of long sequence sparse features, efficiently manages wide-table projections, and introduces feature quantization in storage. By aligning with the evolving requirements of ML applications, Bullion extends columnar storage to various scenarios, from advertising and recommendation systems to the expanding realm of Generative AI. Preliminary experimental results and theoretical analysis demonstrate Bullion's superior performance in handling the unique demands of machine learning workloads compared to existing columnar storage solutions. Bullion significantly reduces I/O costs for deletion compliance, achieves substantial storage savings with its optimized encoding scheme for sparse features, and drastically improves metadata parsing speed for wide-table projections. These advancements position Bullion as a critical component in the future of machine learning infrastructure, enabling organizations to efficiently manage and process the massive volumes of data required for training and inference in modern AI applications.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# ニューラルネットワークを用いた非線形拡散に対する経路積分近似の強化

Enhancing path-integral approximation for non-linear diffusion with neural network ( http://arxiv.org/abs/2404.08903v1 )

ライセンス: Link先を確認
Anna Knezevic, (参考訳) ブラック・カラシンスキーモデル構造における固定所得楽器の価格設定のための既存のソリューションを、様々なパラメータ化ポイントでニューラルネットワークで強化し、拡張射影地平線をまたいだ複数のキャリブレーションに対して優れた結果が得られることを示す。

Enhancing the existing solution for pricing of fixed income instruments within Black-Karasinski model structure, with neural network at various parameterisation points to demonstrate that the method is able to achieve superior outcomes for multiple calibrations across extended projection horizons.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# 楕円型中性子におけるフラクショナルリバイバル

Fractional Revivals in Elliptical Atomtronics ( http://arxiv.org/abs/2404.08904v1 )

ライセンス: Link先を確認
Sriganapathy Raghav, Suranjana Ghosh, Luca Salasnich, Jayanta Bera, Utpal Roy, (参考訳) フラクショナルリバイバルは、最近、円形の原子線学のために報告されているが、導波路幾何学の非ゼロ偏心性のために乱される。 ここでは、任意の偏心性を持つ楕円型原子トロニクスのメカニズムについて述べる。 円形導波路の均一な基底状態は楕円幾何学において不均一となる。 適切な分散管理により均一性を取り戻すことができ、重なり関数を数値的に利用して対応する分散係数を同定し、提案した解析式に一致する。 雲が主に半長辺に沿って使うという事実は、生存関数によって示される。 前記分散管理は、所望の分数復元パターンを回復し、再生時間スケールは偏心性から独立する。 本手法は、楕円型原子線学における他の既知の円形原子線現象の観測方法でもある。

Fractional revivals are recently reported for circular atomtronics, but get disturbed for a nonzero eccentricity of the waveguide geometry. Here, we provide a mechanism for the elliptical atomtronics with arbitrary eccentricity to restore fractional revivals. The uniform ground state of the circular waveguide becomes nonuniform in the elliptical geometry. An appropriate dispersion management can bring back the uniformity and we use the overlap function numerically to identify the corresponding dispersion coefficients, which match our proposed analytical formula. The fact that the cloud spends mostly along the semimajor edges, is demonstrated by the survival function. The said dispersion management recovers the desired fractional revivals patterns, where the revival time-scale becomes independent of the eccentricity. The present method paves the way also to observe other known phenomena of circular atomtronics in elliptical atomtronics.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# 有限ガウス混合による最適近似について

On the best approximation by finite Gaussian mixtures ( http://arxiv.org/abs/2404.08913v1 )

ライセンス: Link先を確認
Yun Ma, Yihong Wu, Pengkun Yang, (参考訳) 一般ガウス位置混合を有限混合で近似する問題を考える。 所定の精度(様々な$f$-divergencesで測定される)を達成する有限混合の最小順序は、コンパクトに支持された混合分布の族に対する定数因子や、亜ガウスおよび亜指数を含む尾確率に関する適切な仮定の中で決定される。 上界は局所モーメントマッチングの手法を用いて達成されるが、下界は、最良近似誤差と特定の三角モーメント行列の低ランク近似とを関連付け、次いで最小固有値のスペクトル分析を行う。 ガウス混合分布の場合、この結果は [Allerton Conference 48 (2010) 620-628] における以前の下界を補正する。

We consider the problem of approximating a general Gaussian location mixture by finite mixtures. The minimum order of finite mixtures that achieve a prescribed accuracy (measured by various $f$-divergences) is determined within constant factors for the family of mixing distributions with compactly support or appropriate assumptions on the tail probability including subgaussian and subexponential. While the upper bound is achieved using the technique of local moment matching, the lower bound is established by relating the best approximation error to the low-rank approximation of certain trigonometric moment matrices, followed by a refined spectral analysis of their minimum eigenvalue. In the case of Gaussian mixing distributions, this result corrects a previous lower bound in [Allerton Conference 48 (2010) 620-628].
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# PM2: 医用画像分類のための新しいマルチモーダルモデルパラダイム

PM2: A New Prompting Multi-modal Model Paradigm for Few-shot Medical Image Classification ( http://arxiv.org/abs/2404.08915v1 )

ライセンス: Link先を確認
Zhenwei Wang, Qiule Sun, Bingbing Zhang, Pengfei Wang, Jianxin Zhang, Qiang Zhang, (参考訳) 医用画像分類の分野では, ごくわずかの医学的例しか得られていないため, 撮影学習が成功している例は少ない。 注釈付き医用画像の数が限られているため、画像表現は概念クラスを特徴づけるには不十分な単一の画像モダリティからのみ派生すべきではない。 本稿では,PM2と呼ばれるマルチモーダル基盤モデルに基づく医用画像分類のための新しいマルチモーダルモデルパラダイムを提案する。 画像モダリティの他に、PM2はプロンプトと呼ばれる別の補足的なテキスト入力を導入し、対応する画像や概念のクラスをさらに記述し、多様なモダリティをまたいだ数発の学習を容易にする。 迅速なエンジニアリングの可能性を探るため、我々は新しいパラダイムの下で5つの異なるプロンプトスキームを実験的に検討した。 さらに、マルチモーダルモデルの線形探索は、入力のみのクラストークンとして線形分類ヘッドとして機能し、ハイレベルなビジュアルトークンに固有のリッチな統計学の利点を完全に無視する。 そこで我々は,視覚トークンとクラストークンの特徴分布を同時に線形に分類する。 このようなリッチな統計を効果的に掘り下げるために、効率的な行列パワー正規化を伴う大域的共分散プールを用いて視覚トークンを集約する。 次に、2つの分類ヘッドを研究し、組み合わせる。 1つは、視覚エンコーダからの画像のクラストークンと、テキストエンコーダによってエンコーダされたプロンプト表現のために共有される。 もう1つは視覚エンコーダからの視覚トークンの特徴分布の分類である。 3つの医学データセットに対する大規模な実験により、我々のPM2は、素早いスキームに関わらず、相手よりも著しく優れ、最先端のパフォーマンスを達成することが示された。

Few-shot learning has been successfully applied to medical image classification as only very few medical examples are available for training. Due to the challenging problem of limited number of annotated medical images, image representations should not be solely derived from a single image modality which is insufficient for characterizing concept classes. In this paper, we propose a new prompting multi-modal model paradigm on medical image classification based on multi-modal foundation models, called PM2. Besides image modality,PM2 introduces another supplementary text input, known as prompt, to further describe corresponding image or concept classes and facilitate few-shot learning across diverse modalities. To better explore the potential of prompt engineering, we empirically investigate five distinct prompt schemes under the new paradigm. Furthermore, linear probing in multi-modal models acts as a linear classification head taking as input only class token, which ignores completely merits of rich statistics inherent in high-level visual tokens. Thus, we alternatively perform a linear classification on feature distribution of visual tokens and class token simultaneously. To effectively mine such rich statistics, a global covariance pooling with efficient matrix power normalization is used to aggregate visual tokens. Then we study and combine two classification heads. One is shared for class token of image from vision encoder and prompt representation encoded by text encoder. The other is to classification on feature distribution of visual tokens from vision encoder. Extensive experiments on three medical datasets show that our PM2 significantly outperforms counterparts regardless of prompt schemes and achieves state-of-the-art performance.
翻訳日:2024-04-16 18:13:13 公開日:2024-04-13
# Meply: 転移性直腸リンパ節の検出と分節のための大規模データセットとベースライン評価

Meply: A Large-scale Dataset and Baseline Evaluations for Metastatic Perirectal Lymph Node Detection and Segmentation ( http://arxiv.org/abs/2404.08916v1 )

ライセンス: Link先を確認
Weidong Guo, Hantao Zhang, Shouhong Wan, Bingbing Zou, Wanqin Wang, Chenyang Qiu, Jun Li, Peiquan Jin, (参考訳) 直腸癌における転移リンパ節の正確な分節化は,直腸癌のステージングと治療に不可欠である。 しかし、既存のセグメンテーションアプローチでは、直腸周辺のリンパ節用に調整されたピクセルレベルの注釈付きデータセットが存在しないため、課題に直面している。 さらに、転移性リンパ節は、比較的小さなサイズ、不規則な形状、背景に比べて低いコントラストで特徴付けられ、さらにセグメンテーションタスクが複雑になる。 これらの課題に対処するため,直腸癌に診断された269例のピクセルレベルのアノテーションを含むMeplyと呼ばれる大規模な直腸転移性リンパ節CTデータセットを初めて提示した。 さらに,新しいリンパ節分節モデルであるCoSAMを導入する。 CoSAMは、直腸癌における転移性リンパ節の分節化を誘導する配列に基づく検出を利用し、分節モデルにおける局所化性能の向上に寄与する。 シーケンスベースの検出モジュール、セグメンテーションモジュール、協調収束ユニットの3つの重要なコンポーネントから構成される。 CoSAMの有効性を評価するために,Meplyデータセットを用いたいくつかの一般的なセグメンテーション手法を用いて,その性能を体系的に比較した。 私たちのコードとデータセットは、https://github.com/kanydao/CoSAM.comで公開されます。

Accurate segmentation of metastatic lymph nodes in rectal cancer is crucial for the staging and treatment of rectal cancer. However, existing segmentation approaches face challenges due to the absence of pixel-level annotated datasets tailored for lymph nodes around the rectum. Additionally, metastatic lymph nodes are characterized by their relatively small size, irregular shapes, and lower contrast compared to the background, further complicating the segmentation task. To address these challenges, we present the first large-scale perirectal metastatic lymph node CT image dataset called Meply, which encompasses pixel-level annotations of 269 patients diagnosed with rectal cancer. Furthermore, we introduce a novel lymph-node segmentation model named CoSAM. The CoSAM utilizes sequence-based detection to guide the segmentation of metastatic lymph nodes in rectal cancer, contributing to improved localization performance for the segmentation model. It comprises three key components: sequence-based detection module, segmentation module, and collaborative convergence unit. To evaluate the effectiveness of CoSAM, we systematically compare its performance with several popular segmentation methods using the Meply dataset. Our code and dataset will be publicly available at: https://github.com/kanydao/CoSAM.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# MAProtoNet:3次元磁気共鳴イメージング脳腫瘍分類のためのマルチスケール注意解釈型プロトタイプネットワーク

MAProtoNet: A Multi-scale Attentive Interpretable Prototypical Part Network for 3D Magnetic Resonance Imaging Brain Tumor Classification ( http://arxiv.org/abs/2404.08917v1 )

ライセンス: Link先を確認
Binghua Li, Jie Mao, Zhe Sun, Chao Li, Qibin Zhao, Toshihisa Tanaka, (参考訳) 人工知能による自動診断は医療画像の領域において有望な領域として現れてきたが、導入したディープニューラルネットワークの解釈可能性はまだ急務である。 XProtoNetやMProtoNetといった現代の作品では、この問題に対する解釈可能な予測モデルの設計が試みられているが、結果の帰属マップの局所化精度をさらに向上することができる。 そこで本稿では,MAProtoNetと呼ばれるマルチスケール適応型部分ネットワークを提案し,より正確な属性マップを提供する。 具体的には、四重項の注意層から注意的特徴をマージし、属性マップを生成するための簡潔なマルチスケールモジュールを提案する。 提案した四重項注意層は,空間次元とチャネル次元の相互作用を捉えることで,既存のオンラインクラスの活性化マップの損失を増大させることができる。 また,提案したマルチスケールモジュールの監視のために,新たなマルチスケールマッピング損失を適用した。 既存の医用画像の解釈可能なプロトタイプ部分ネットワークと比較すると、MAProtoNetは脳腫瘍セグメンテーション(BraTS)データセットのローカライゼーションにおける最先端のパフォーマンスを達成でき、結果としてアクティベーション精度スコア(最高スコア85.8%)が約4%向上する。 私たちのコードはhttps://github.com/TUAT-Novice/maprotonet.comでリリースされます。

Automated diagnosis with artificial intelligence has emerged as a promising area in the realm of medical imaging, while the interpretability of the introduced deep neural networks still remains an urgent concern. Although contemporary works, such as XProtoNet and MProtoNet, has sought to design interpretable prediction models for the issue, the localization precision of their resulting attribution maps can be further improved. To this end, we propose a Multi-scale Attentive Prototypical part Network, termed MAProtoNet, to provide more precise maps for attribution. Specifically, we introduce a concise multi-scale module to merge attentive features from quadruplet attention layers, and produces attribution maps. The proposed quadruplet attention layers can enhance the existing online class activation mapping loss via capturing interactions between the spatial and channel dimension, while the multi-scale module then fuses both fine-grained and coarse-grained information for precise maps generation. We also apply a novel multi-scale mapping loss for supervision on the proposed multi-scale module. Compared to existing interpretable prototypical part networks in medical imaging, MAProtoNet can achieve state-of-the-art performance in localization on brain tumor segmentation (BraTS) datasets, resulting in approximately 4% overall improvement on activation precision score (with a best score of 85.8%), without using additional annotated labels of segmentation. Our code will be released in https://github.com/TUAT-Novice/maprotonet.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# PNeRV:動画のピラミッドニューラル表現による空間整合性向上

PNeRV: Enhancing Spatial Consistency via Pyramidal Neural Representation for Videos ( http://arxiv.org/abs/2404.08921v1 )

ライセンス: Link先を確認
Qi Zhao, M. Salman Asif, Zhan Ma, (参考訳) NeRV(Neural Representation for Videos)の主な焦点は、その時空間一貫性を効果的にモデル化することである。 しかし、現在のNERVシステムは空間的不整合の重大な問題に直面し、知覚品質が低下する。 この問題に対処するために、マルチスケール情報接続上に構築され、軽量な再スケーリング演算子、Kronecker Fully- connected layer(KFc)、Benign Selective Memory(BSM)機構を備えるPNeRV(Maraamidal Neural Representation for Videos)を導入する。 KFcは、バニラ・フリー連結層のテンソル分解にインスパイアされ、低コストの再スケーリングと大域的相関モデリングを促進する。 BSMは高レベル機能と粒度の機能を適応的にマージする。 さらに,提案したPNeRVシステムのユニバーサル近似理論に基づく解析を行い,提案手法の有効性を検証し,PNeRVが現在のNeRVモデルよりも優れていることを示す総合的な実験を行い,様々な指標(PSNR,SSIM,LPIPS,FVD)の下でのUVGおよびDAVISの動画レグレッションの最良の結果を得た。 バニラのNeRVと比較して、PSNRでは+4.49dB、UVGでは231%増加し、DAVISでは+3.28dB、FVDでは634%増加した。

The primary focus of Neural Representation for Videos (NeRV) is to effectively model its spatiotemporal consistency. However, current NeRV systems often face a significant issue of spatial inconsistency, leading to decreased perceptual quality. To address this issue, we introduce the Pyramidal Neural Representation for Videos (PNeRV), which is built on a multi-scale information connection and comprises a lightweight rescaling operator, Kronecker Fully-connected layer (KFc), and a Benign Selective Memory (BSM) mechanism. The KFc, inspired by the tensor decomposition of the vanilla Fully-connected layer, facilitates low-cost rescaling and global correlation modeling. BSM merges high-level features with granular ones adaptively. Furthermore, we provide an analysis based on the Universal Approximation Theory of the NeRV system and validate the effectiveness of the proposed PNeRV.We conducted comprehensive experiments to demonstrate that PNeRV surpasses the performance of contemporary NeRV models, achieving the best results in video regression on UVG and DAVIS under various metrics (PSNR, SSIM, LPIPS, and FVD). Compared to vanilla NeRV, PNeRV achieves a +4.49 dB gain in PSNR and a 231% increase in FVD on UVG, along with a +3.28 dB PSNR and 634% FVD increase on DAVIS.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# 標準感性空間における高信頼マルチモーダル核融合による感性解析

Trustworthy Multimodal Fusion for Sentiment Analysis in Ordinal Sentiment Space ( http://arxiv.org/abs/2404.08923v1 )

ライセンス: Link先を確認
Zhuyang Xie, Yan Yang, Jie Wang, Xiaorong Liu, Xiaofan Li, (参考訳) マルチモーダルビデオ感情分析は、話者の意見や態度を分析するために複数のモーダル情報を統合することを目的としている。 これまでの研究は、モダリティ内およびモダリティ間のセマンティックな相互作用の探索に重点を置いていた。 しかし、これらの研究はマルチモーダル性の信頼性を無視し、すなわち、モーダルティはノイズ、意味的曖昧さ、モーダルティの欠如などを含む傾向がある。 加えて、以前のマルチモーダルアプローチは異なるモダリティを等しく扱い、主に異なる貢献を無視している。 さらに、既存のマルチモーダル感情分析手法は、感情カテゴリー内での日常的関係を考慮せずに、感情スコアを直接回帰する。 上記の問題に対処するため,感傷分析の性能向上を目的とした信頼性の高いマルチモーダル・センチメント・オーディナル・ネットワーク(TMSON)を提案する。 具体的には、まず、モーダリティごとに一様特徴抽出器を考案し、モーダリティ固有の特徴を得る。 そして、不確実性分布を推定する不確実性分布推定ネットワークをカスタマイズする。 次に、学習した単調分布上でベイズ融合を行い、感情予測のためのマルチモーダル分布を得る。 最後に、順序性を考慮した感情空間を構築し、順序性回帰を用いてマルチモーダル分布を制約する。 提案したTMSONは,マルチモーダル感情分析タスクのベースラインよりも優れており,TMSONは不確実性を低減し,より堅牢な予測が得られることを示した。

Multimodal video sentiment analysis aims to integrate multiple modal information to analyze the opinions and attitudes of speakers. Most previous work focuses on exploring the semantic interactions of intra- and inter-modality. However, these works ignore the reliability of multimodality, i.e., modalities tend to contain noise, semantic ambiguity, missing modalities, etc. In addition, previous multimodal approaches treat different modalities equally, largely ignoring their different contributions. Furthermore, existing multimodal sentiment analysis methods directly regress sentiment scores without considering ordinal relationships within sentiment categories, with limited performance. To address the aforementioned problems, we propose a trustworthy multimodal sentiment ordinal network (TMSON) to improve performance in sentiment analysis. Specifically, we first devise a unimodal feature extractor for each modality to obtain modality-specific features. Then, an uncertainty distribution estimation network is customized, which estimates the unimodal uncertainty distributions. Next, Bayesian fusion is performed on the learned unimodal distributions to obtain multimodal distributions for sentiment prediction. Finally, an ordinal-aware sentiment space is constructed, where ordinal regression is used to constrain the multimodal distributions. Our proposed TMSON outperforms baselines on multimodal sentiment analysis tasks, and empirical results demonstrate that TMSON is capable of reducing uncertainty to obtain more robust predictions.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# リモートセンシングと拡散モデル:原則,方法,展望

Diffusion Models Meet Remote Sensing: Principles, Methods, and Perspectives ( http://arxiv.org/abs/2404.08926v1 )

ライセンス: Link先を確認
Yidan Liu, Jun Yue, Shaobo Xia, Pedram Ghamisi, Weiying Xie, Leyuan Fang, (参考訳) 深層生成モデルの新たな進歩として、拡散モデルはコンピュータビジョン、自然言語処理、分子設計を含む多くの分野において最先端の結果を得た。 リモートセンシングコミュニティはまた、拡散モデルの強力な能力に気づき、画像を処理するための様々なタスクに素早く適用した。 リモートセンシング分野における拡散モデルの研究の急速な増加を踏まえ、既存の拡散モデルに基づくリモートセンシング論文の総合的なレビューを行い、拡散モデルの可能性を認識し、さらなる探究の道筋を提供する必要がある。 具体的には、まず拡散モデルの理論的背景を紹介し、その後、画像生成、強調、解釈を含むリモートセンシングにおける拡散モデルの適用を体系的にレビューする。 最後に、既存のリモートセンシング拡散モデルの限界と、さらなる探査にふさわしい研究の方向性について論じ、要約する。

As a newly emerging advance in deep generative models, diffusion models have achieved state-of-the-art results in many fields, including computer vision, natural language processing, and molecule design. The remote sensing community has also noticed the powerful ability of diffusion models and quickly applied them to a variety of tasks for image processing. Given the rapid increase in research on diffusion models in the field of remote sensing, it is necessary to conduct a comprehensive review of existing diffusion model-based remote sensing papers, to help researchers recognize the potential of diffusion models and provide some directions for further exploration. Specifically, this paper first introduces the theoretical background of diffusion models, and then systematically reviews the applications of diffusion models in remote sensing, including image generation, enhancement, and interpretation. Finally, the limitations of existing remote sensing diffusion models and worthy research directions for further exploration are discussed and summarized.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# DeDoDe v2: DeDoDeキーポイント検出器の解析と改善

DeDoDe v2: Analyzing and Improving the DeDoDe Keypoint Detector ( http://arxiv.org/abs/2404.08928v1 )

ライセンス: Link先を確認
Johan Edstedt, Georg Bökman, Zhenjun Zhao, (参考訳) 本稿では,最近提案されたDeDoDeキーポイント検出器の解析と改良を行う。 分析はいくつかの重要な問題に焦点を合わせます。 まず、DeDoDeキーポイントがクラスタ化される傾向にあり、トレーニング中に検出器のターゲット分布を非最大に抑えることで修正する。 第2に、データ拡張に関する問題に対処する。 特に、DeDoDe検出器は大きな回転に敏感である。 私たちはこれを90度の回転と水平方向のフリップによって修正します。 最後に、DeDoDe検出器の分離特性は下流の有用性を問題にしている。 キーポイントと事前訓練された高密度マーカ(RoMa)とをマッチングし、2視点ポーズ推定を評価することでこれを修正する。 元々の長期トレーニングはパフォーマンスに有害であり,より短いトレーニングスケジュールを提案する。 提案した検出器であるDeDoDe v2にこれらの改良を取り入れ,MegaDepth-1500およびIMC2022ベンチマークのオリジナルのDeDoDe記述子で評価する。 提案した検出器は, IMC2022の課題において, 75.9mAAから78.3mAAに比例して, ポーズ推定結果を著しく向上させた。 コードとウェイトはhttps://github.com/Parskatt/DeDoDeで入手できる。

In this paper, we analyze and improve into the recently proposed DeDoDe keypoint detector. We focus our analysis on some key issues. First, we find that DeDoDe keypoints tend to cluster together, which we fix by performing non-max suppression on the target distribution of the detector during training. Second, we address issues related to data augmentation. In particular, the DeDoDe detector is sensitive to large rotations. We fix this by including 90-degree rotations as well as horizontal flips. Finally, the decoupled nature of the DeDoDe detector makes evaluation of downstream usefulness problematic. We fix this by matching the keypoints with a pretrained dense matcher (RoMa) and evaluating two-view pose estimates. We find that the original long training is detrimental to performance, and therefore propose a much shorter training schedule. We integrate all these improvements into our proposed detector DeDoDe v2 and evaluate it with the original DeDoDe descriptor on the MegaDepth-1500 and IMC2022 benchmarks. Our proposed detector significantly increases pose estimation results, notably from 75.9 to 78.3 mAA on the IMC2022 challenge. Code and weights are available at https://github.com/Parskatt/DeDoDe
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# 仮面画像モデリングによる空中農業画像のラベルなし異常検出

Label-free Anomaly Detection in Aerial Agricultural Images with Masked Image Modeling ( http://arxiv.org/abs/2404.08931v1 )

ライセンス: Link先を確認
Sambal Shikhar, Anupam Sobti, (参考訳) 農業分野における各種ストレス(栄養、水、窒素など)の検出は、農家にとって最大の生産性を確保することが重要である。 しかし、ストレスは作物の種類や品種によって異なる形や大きさで現れる。 したがって、これは農業画像における異常検出タスクとして位置づけられる。 農業用UAV画像における正確な異常検出は、フィールドの不規則性の早期発見に不可欠である。 従来の教師付き学習は、様々な異常に適応する上で課題に直面し、広範な注釈付きデータを必要とします。 本研究では,マスク付き画像モデリング手法を用いて,この制限を自己教師型学習で克服する。 Masked Autoencoders (MAE)は、画像サンプルから有意な正常な特徴を抽出し、再構成中の異常画素に対する高い再構成誤差を生成する。 トレーニング中に「正規」データのみを使用する必要をなくすために、異常画素の再構成を効果的に最小化し、トレーニング用に「正規」画像を明示的に分離することなく、異常領域を学習できる異常抑制損失機構を用いる。 農業ビジョンデータ課題の評価は、教師なし・自己監督的手法における先行技術と比較すると、mIOUスコアが改善したことを示している。 単一モデルによるAgri-Vision Challengeデータセットのすべての異常カテゴリの一般化

Detecting various types of stresses (nutritional, water, nitrogen, etc.) in agricultural fields is critical for farmers to ensure maximum productivity. However, stresses show up in different shapes and sizes across different crop types and varieties. Hence, this is posed as an anomaly detection task in agricultural images. Accurate anomaly detection in agricultural UAV images is vital for early identification of field irregularities. Traditional supervised learning faces challenges in adapting to diverse anomalies, necessitating extensive annotated data. In this work, we overcome this limitation with self-supervised learning using a masked image modeling approach. Masked Autoencoders (MAE) extract meaningful normal features from unlabeled image samples which produces high reconstruction error for the abnormal pixels during reconstruction. To remove the need of using only ``normal" data while training, we use an anomaly suppression loss mechanism that effectively minimizes the reconstruction of anomalous pixels and allows the model to learn anomalous areas without explicitly separating ``normal" images for training. Evaluation on the Agriculture-Vision data challenge shows a mIOU score improvement in comparison to prior state of the art in unsupervised and self-supervised methods. A single model generalizes across all the anomaly categories in the Agri-Vision Challenge Dataset
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# フィルタリング変分量子アルゴリズムの性能解析

Performance analysis of a filtering variational quantum algorithm ( http://arxiv.org/abs/2404.08933v1 )

ライセンス: Link先を確認
Gabriel Marin-Sanchez, David Amaro, (参考訳) 組合せ最適化問題を解く際の小さな進歩でさえ、複数の産業に大きな利益をもたらす。 量子コンピュータは独自の情報処理機能を備えており、そのような拡張を提供することを約束している。 フィルタ変分量子固有解法(英: Filtering Variational Quantum Eigensolver、F-VQE)は、量子ビット数、接続性、忠実度に制限された既存の量子コンピュータにおける組合せ最適化問題を解くために設計された変分ハイブリッド量子アルゴリズムである。 本研究では、パラメータ化量子回路として、瞬時量子多項式回路を用いる。 本稿では,量子ビット接続の制限を考慮し,パラメータシフト則による勾配評価に必要な回路数を半減するハードウェア効率の実装を提案する。 組合せ最適化の文脈において、このプロトコルの可能性を評価するために、我々は広範囲な数値解析を行う。 重み付きMaxCutの3つの古典的ベースラインアルゴリズムと非対称トラベリングセールスマン問題(ATSP)を比較した。 我々は、13から29の量子ビットで符号化された問題と、IBMQの実量子デバイスで最大37の量子ビットにノイズレスシミュレータを採用。 ATSPエンコーディングは、量子ビットの数を減らし、標準QUBO / Isingモデルと比較して制約の必要を避ける。 F-VQEの実用的優位性には大きな発展が必要であると結論付けている。

Even a minor boost in solving combinatorial optimization problems can greatly benefit multiple industries. Quantum computers, with their unique information processing capabilities, hold promise for delivering such enhancements. The Filtering Variational Quantum Eigensolver (F-VQE) is a variational hybrid quantum algorithm designed to solve combinatorial optimization problems on existing quantum computers with limited qubit number, connectivity, and fidelity. In this work we employ Instantaneous Quantum Polynomial circuits as our parameterized quantum circuits. We propose a hardware-efficient implementation that respects limited qubit connectivity and show that they halve the number of circuits necessary to evaluate the gradient with the parameter-shift rule. To assess the potential of this protocol in the context of combinatorial optimization, we conduct extensive numerical analysis. We compare the performance against three classical baseline algorithms on weighted MaxCut and the Asymmetric Traveling Salesperson Problem (ATSP). We employ noiseless simulators for problems encoded on 13 to 29 qubits, and up to 37 qubits on the IBMQ real quantum devices. The ATSP encoding employed reduces the number of qubits and avoids the need of constraints compared to the standard QUBO / Ising model. Despite some observed positive signs, we conclude that significant development is necessary for a practical advantage with F-VQE.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# 金融ポートフォリオ最適化のための注意型アンサンブル学習フレームワークの開発

Developing An Attention-Based Ensemble Learning Framework for Financial Portfolio Optimisation ( http://arxiv.org/abs/2404.08935v1 )

ライセンス: Link先を確認
Zhenglong Li, Vincent Tam, (参考訳) 近年,動的金融市場下での空間的・時間的情報学習を通じて,投資ポートフォリオの最適化に深層・強化的な学習アプローチが適用されている。 しかし、ほとんどの場合、既存のアプローチは、多くの市場ノイズのために従来の価格データに基づいてバイアストレーディング信号を生成する可能性があるため、投資リターンとリスクのバランスが取れない可能性がある。 そこで,マルチエージェント・セルフアダプティブ・ポートフォリオ最適化フレームワークを,アテンション機構と時系列,すなわちMASAATと統合し,価格系列の観測・分析を行う複数のトレーディングエージェントと,価格系列の信号-雑音比を高めるためのさまざまな粒度の異なる資産価格の有意な変化を認識する方向性変化データを作成した。 その後、時系列で財務データのトークンを再構築することにより、各エージェントの注意ベースの断面分析モジュールと時間解析モジュールは、資産と時間点間の依存関係との相関を効果的に捉えることができる。 さらに、ポートフォリオジェネレータが提案されたフレームワークに統合され、空間的時間的情報を融合し、すべてのトレーディングエージェントが提案するポートフォリオをまとめて、バイアスのあるトレーディング行動の削減と全体的なリターンとリスクのバランスをとるために、新たなアンサンブルポートフォリオを生成する。 MASAATフレームワークは、DJIA、S&P 500、CSI 300の3つの挑戦的なデータセットに対して、よく知られたポートフォリオ最適化アプローチと比較して、印象的な拡張を実現している。 さらに重要なことは、我々の提案は将来の研究への多くの可能性の可能性を秘めている。

In recent years, deep or reinforcement learning approaches have been applied to optimise investment portfolios through learning the spatial and temporal information under the dynamic financial market. Yet in most cases, the existing approaches may produce biased trading signals based on the conventional price data due to a lot of market noises, which possibly fails to balance the investment returns and risks. Accordingly, a multi-agent and self-adaptive portfolio optimisation framework integrated with attention mechanisms and time series, namely the MASAAT, is proposed in this work in which multiple trading agents are created to observe and analyse the price series and directional change data that recognises the significant changes of asset prices at different levels of granularity for enhancing the signal-to-noise ratio of price series. Afterwards, by reconstructing the tokens of financial data in a sequence, the attention-based cross-sectional analysis module and temporal analysis module of each agent can effectively capture the correlations between assets and the dependencies between time points. Besides, a portfolio generator is integrated into the proposed framework to fuse the spatial-temporal information and then summarise the portfolios suggested by all trading agents to produce a newly ensemble portfolio for reducing biased trading actions and balancing the overall returns and risks. The experimental results clearly demonstrate that the MASAAT framework achieves impressive enhancement when compared with many well-known portfolio optimsation approaches on three challenging data sets of DJIA, S&P 500 and CSI 300. More importantly, our proposal has potential strengths in many possible applications for future study.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# 共同監督のためのスポットライトのシフト:カモフラージュを通して見るためのシンプルで効率的なシングルブランチネットワーク

Shifting Spotlight for Co-supervision: A Simple yet Efficient Single-branch Network to See Through Camouflage ( http://arxiv.org/abs/2404.08936v1 )

ライセンス: Link先を確認
Yang Hu, Jinxia Zhang, Kaihua Zhang, Yin Yuan, (参考訳) 効率よく正確なカモフラージュされた物体検出(COD)は、コンピュータビジョンの分野において課題となる。 最近のアプローチでは、エッジ情報のネットワーク・コスーパービジョンへの活用を探求し、顕著な進歩を遂げた。 しかし、これらの手法は複雑なエッジ抽出のための余分な分岐を導入し、モデルアーキテクチャを複雑化し、計算要求を増加させる。 この問題に対処するために、我々の研究は、動物のカモフラージュがシフトするスポットライトの下で容易に明らかにできる効果を再現し、それをネットワークのコスーパービジョンとして活用して、コンパクトで効率的なシングルブランチネットワーク(CS$3$Net)を形成する。 スポットライトシフト戦略により、CS$^3$Netは、単一ブランチフレームワーク内で追加の事前学習が可能になり、リソース要求のマルチブランチ設計が不要になる。 スポットライトシフトコスーパービジョンの先行性を活用するため,機能改善と拡張のためのシャドーリファインメントモジュール(SRM)とプロジェクションアウェアアテンション(PAA)を提案する。 マルチスケール機能アグリゲーションの連続性を確保するために,ENCD(Extended Neighbor Connection Decoder)を用いて最終予測を生成する。 CS$^3$Netは効率と性能の最適なバランスを提供しており、効率の良いCODモデルと比較して、MAC(multiply-Accumulate)操作を32.13%削減し、優れたパフォーマンスを提供する。

Efficient and accurate camouflaged object detection (COD) poses a challenge in the field of computer vision. Recent approaches explored the utility of edge information for network co-supervision, achieving notable advancements. However, these approaches introduce an extra branch for complex edge extraction, complicate the model architecture and increases computational demands. Addressing this issue, our work replicates the effect that animal's camouflage can be easily revealed under a shifting spotlight, and leverages it for network co-supervision to form a compact yet efficient single-branch network, the Co-Supervised Spotlight Shifting Network (CS$^3$Net). The spotlight shifting strategy allows CS$^3$Net to learn additional prior within a single-branch framework, obviating the need for resource demanding multi-branch design. To leverage the prior of spotlight shifting co-supervision, we propose Shadow Refinement Module (SRM) and Projection Aware Attention (PAA) for feature refinement and enhancement. To ensure the continuity of multi-scale features aggregation, we utilize the Extended Neighbor Connection Decoder (ENCD) for generating the final predictions. Empirical evaluations on public datasets confirm that our CS$^3$Net offers an optimal balance between efficiency and performance: it accomplishes a 32.13% reduction in Multiply-Accumulate (MACs) operations compared to leading efficient COD models, while also delivering superior performance.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# ChimpVLM:Ethogram-Enhanced Chimpanzee Behaviour Recognition

ChimpVLM: Ethogram-Enhanced Chimpanzee Behaviour Recognition ( http://arxiv.org/abs/2404.08937v1 )

ライセンス: Link先を確認
Otto Brookes, Majid Mirmehdi, Hjalmar Kuhl, Tilo Burghardt, (参考訳) カメラトラップからのチンパンジーの行動理解は、種行動の詳細を詳述するテキスト記述の埋め込みにアクセスできる視覚的アーキテクチャを提供することで、向上できることを示す。 特に,カメラトラップビデオから直接抽出した視覚特徴のマルチモーダルデコードを利用して,動作を表すクエリトークンとクラス予測の出力を行う視覚言語モデルを提案する。 クエリトークンは、ランダムまたは名前ベースの初期化ではなく、チンパンジーの振る舞いの標準化されたエトグラムを使用して初期化される。 さらに、既知の行動パターンのテキストコーパスに微調整されたマスク付き言語モデルを用いたクエリトークンの初期化の効果について検討した。 そこで我々は,PanAf500とPanAf20Kのデータセット上でシステム評価を行い,マルチモーダルデコード手法とマルチクラスおよびマルチラベル認識タスクにおけるクエリ初期化戦略の性能評価を行った。 結果と改善によってパフォーマンスが向上する。 我々は、PanAf500および全体(+1.1%)およびテールクラス(+2.26%)で、PanAf20Kの平均精度において、トップ1の精度(+6.34%)で、ビジョンとビジョン言語モデルに対する最先端のパフォーマンスを達成する。 完全なソースコードとネットワークの重みを共有して、結果の完全な再現性と容易な利用を可能にします。

We show that chimpanzee behaviour understanding from camera traps can be enhanced by providing visual architectures with access to an embedding of text descriptions that detail species behaviours. In particular, we present a vision-language model which employs multi-modal decoding of visual features extracted directly from camera trap videos to process query tokens representing behaviours and output class predictions. Query tokens are initialised using a standardised ethogram of chimpanzee behaviour, rather than using random or name-based initialisations. In addition, the effect of initialising query tokens using a masked language model fine-tuned on a text corpus of known behavioural patterns is explored. We evaluate our system on the PanAf500 and PanAf20K datasets and demonstrate the performance benefits of our multi-modal decoding approach and query initialisation strategy on multi-class and multi-label recognition tasks, respectively. Results and ablations corroborate performance improvements. We achieve state-of-the-art performance over vision and vision-language models in top-1 accuracy (+6.34%) on PanAf500 and overall (+1.1%) and tail-class (+2.26%) mean average precision on PanAf20K. We share complete source code and network weights for full reproducibility of results and easy utilisation.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# 制御可能な潜伏拡散によるパラフレーズ生成

Enforcing Paraphrase Generation via Controllable Latent Diffusion ( http://arxiv.org/abs/2404.08938v1 )

ライセンス: Link先を確認
Wei Zou, Ziyuan Zhuang, Shujian Huang, Jia Liu, Jiajun Chen, (参考訳) パラフレーズ生成は、与えられたテキストの高品質で多様な発話を生成することを目的としている。 拡散モデルによる最先端の世代は、生成の品質と多様性を再現するが、テキストの拡散は、効率と品質の制御を妨げるトランケーションの問題に悩まされる。 本研究では,学習された潜伏空間が与えられた可制御拡散過程をモデル化し,新しいパラフレーズ生成法であるtextit{L}atent \textit{D}iffusion \textit{P}araphraser~(LDP)を提案する。 LDPは拡散係数よりも優れた生成効率を達成する。 パラフレーズセマンティクスを強制するための入力セグメントのみを容易にし、外部の機能を使わずに結果をさらに改善する。 実験により, LDPはベースラインに比べて改良され, 多様なパラフレーズ生成を達成できることが示された。 さらに分析した結果,本手法は他の類似のテキスト生成やドメイン適応にも有用であることがわかった。 私たちのコードとデータはhttps://github.com/NIL-zhuang/ld4pg.comで公開されています。

Paraphrase generation aims to produce high-quality and diverse utterances of a given text. Though state-of-the-art generation via the diffusion model reconciles generation quality and diversity, textual diffusion suffers from a truncation issue that hinders efficiency and quality control. In this work, we propose \textit{L}atent \textit{D}iffusion \textit{P}araphraser~(LDP), a novel paraphrase generation by modeling a controllable diffusion process given a learned latent space. LDP achieves superior generation efficiency compared to its diffusion counterparts. It facilitates only input segments to enforce paraphrase semantics, which further improves the results without external features. Experiments show that LDP achieves improved and diverse paraphrase generation compared to baselines. Further analysis shows that our method is also helpful to other similar text generations and domain adaptations. Our code and data are available at https://github.com/NIL-zhuang/ld4pg.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# NeurIT: 屋内ロボットIoTのためのニューラル慣性トラッキングの限界を押し上げる

NeurIT: Pushing the Limit of Neural Inertial Tracking for Indoor Robotic IoT ( http://arxiv.org/abs/2404.08939v1 )

ライセンス: Link先を確認
Xinzhe Zheng, Sijie Ji, Yipeng Pan, Kaiwen Zhang, Chenshu Wu, (参考訳) 慣性トラッキングは、ロボットIoTにとって不可欠であり、低コストの慣性計測ユニット(IMU)とディープラーニングによるトラッキングアルゴリズムのおかげで人気を博している。 しかし、既存の研究はIMU測定、特に磁力計を十分に活用していないし、深層学習の可能性を最大化して所望の精度を実現していない。 室内ロボットアプリケーションのトラッキング精度を高めるために,トラッキング精度を新たなレベルに高めるシーケンス・ツー・シーケンス・フレームワークNeurITを導入する。 NeurITはコアにTF-BRT(Time-Frequency Block-Recurrent Transformer)を採用し、リカレントニューラルネットワーク(RNN)とTransformerのパワーを組み合わせて、時間領域と周波数領域の両方で代表的な特徴を学習する。 IMU情報を完全に活用するために、磁気センサのボディフレームの差別化を戦略的に活用し、トラッキングエラーを大幅に低減する。 NeurITは、カスタマイズされたロボットプラットフォーム上に実装され、様々な屋内環境で評価されている。 実験の結果,NeurITは300m距離でわずか1mの追跡誤差を達成できた。 特に、最先端のベースラインを48.21%上回る。 NeurITはまた、視覚に好意的な条件下で視覚慣性アプローチ(Tango Phone)と同等に動作し、平らな環境でそれを上回ります。 NeurITは、ユビキタスでスケーラブルなロボットの追跡のための実用的な神経慣性追跡に向けて、重要な一歩を踏み出したと信じています。 NeurIT(ソースコードとデータセットを含む)は、https://github.com/NeurIT-Project/NeurIT.com/https://github.com/NeurIT-Project/NeurIT.com/https://gi thub.com/NeurIT

Inertial tracking is vital for robotic IoT and has gained popularity thanks to the ubiquity of low-cost Inertial Measurement Units (IMUs) and deep learning-powered tracking algorithms. Existing works, however, have not fully utilized IMU measurements, particularly magnetometers, nor maximized the potential of deep learning to achieve the desired accuracy. To enhance the tracking accuracy for indoor robotic applications, we introduce NeurIT, a sequence-to-sequence framework that elevates tracking accuracy to a new level. NeurIT employs a Time-Frequency Block-recurrent Transformer (TF-BRT) at its core, combining the power of recurrent neural network (RNN) and Transformer to learn representative features in both time and frequency domains. To fully utilize IMU information, we strategically employ body-frame differentiation of the magnetometer, which considerably reduces the tracking error. NeurIT is implemented on a customized robotic platform and evaluated in various indoor environments. Experimental results demonstrate that NeurIT achieves a mere 1-meter tracking error over a 300-meter distance. Notably, it significantly outperforms state-of-the-art baselines by 48.21% on unseen data. NeurIT also performs comparably to the visual-inertial approach (Tango Phone) in vision-favored conditions and surpasses it in plain environments. We believe NeurIT takes an important step forward toward practical neural inertial tracking for ubiquitous and scalable tracking of robotic things. NeurIT, including the source code and the dataset, is open-sourced here: https://github.com/NeurIT-Project/NeurIT.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# 8x7B-v1におけるスーパーRAGの導入

Introducing Super RAGs in Mistral 8x7B-v1 ( http://arxiv.org/abs/2404.08940v1 )

ライセンス: Link先を確認
Ayush Thakur, Raghav Gupta, (参考訳) LLM(Large Language Models, 大規模言語モデル)の強化という絶え間ない追求がスーパーレトリーバル拡張生成(Super Retrieval-Augmented Generation, Super RAGs)の出現につながった。 本稿では,8x7B v1へのスーパーRAGの統合について述べるとともに,精度,速度,ユーザ満足度の改善について検討する。 提案手法は,微調整型インストラクションモデルとキャッシュチューニングフォークシステムを用いて,効率的かつ関連性の高いデータ検索を実現する。 評価は、いくつかのエポックで行われ、すべてのメトリクスにわたって顕著な拡張を示している。 この結果は、Super RAGがLLMを効果的に増強し、より洗練された信頼性の高いAIシステムへの道を開くことを示唆している。 この研究は、Super RAGの利点の実証的な証拠を提供し、その潜在的な応用に関する洞察を提供することによって、この分野に貢献する。

The relentless pursuit of enhancing Large Language Models (LLMs) has led to the advent of Super Retrieval-Augmented Generation (Super RAGs), a novel approach designed to elevate the performance of LLMs by integrating external knowledge sources with minimal structural modifications. This paper presents the integration of Super RAGs into the Mistral 8x7B v1, a state-of-the-art LLM, and examines the resultant improvements in accuracy, speed, and user satisfaction. Our methodology uses a fine-tuned instruct model setup and a cache tuning fork system, ensuring efficient and relevant data retrieval. The evaluation, conducted over several epochs, demonstrates significant enhancements across all metrics. The findings suggest that Super RAGs can effectively augment LLMs, paving the way for more sophisticated and reliable AI systems. This research contributes to the field by providing empirical evidence of the benefits of Super RAGs and offering insights into their potential applications.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# プロンプトチューニングによるゼロショットコード表現学習

Zero-Shot Code Representation Learning via Prompt Tuning ( http://arxiv.org/abs/2404.08947v1 )

ライセンス: Link先を確認
Nan Cui, Xiaodong Gu, Beijun Shen, (参考訳) コード表現の学習は、コードクローン検出やコード生成など、多くのソフトウェアエンジニアリングタスクのコア要件となっている。 最先端プログラム表現技術は主にCodeBERTのような事前訓練された言語モデル(PLM)を利用する。 トランスフォーマーエンコーダは、ソースコードに関する一般的な知識を得るために、まず大規模なコードコーパスで事前訓練される。 事前訓練されたモデルは、ラベル付きデータの量を使用して、特定のタスクに微調整される。 しかし、下流タスクのトレーニングサンプルの収集は、ドメイン特化言語やプロジェクト特化タスクでは違法に高価で実用的ではない。 加えて、プレトレーニングとダウンストリームのタスクは通常異種であり、事前トレーニングで学んだ知識を完全に探求することは困難である。 本稿では,コード表現学習のためのゼロショットアプローチであるZecolerを提案する。 Zecolerは、事前訓練されたプログラミング言語モデルの上に構築されている。 PLMからの知識を効率的に引き出すために、Zecoler氏は、列車対応のプロンプトを入力に挿入することで、下流のタスクをトレーニング前の目的と同じ形式にキャストする。 これらのプロンプトは、より良い結果を生成する方法について、PLMをガイドすることができる。 次に,PLMの最適プロンプトを自動検索するために,プロンプトチューニング手法を用いる。 これにより、表現モデルは、ソース言語ドメインのデータセットを微調整することで、下流タスクを効率的に適合させ、ゼロショットスタイルでターゲットドメインのトレーニング済み知識を再利用することができる。 我々はZecolerを,コードクローン検出,コード検索,メソッド名予測,コード要約,コード生成を含む5つのコードインテリジェンスタスクで評価する。 その結果,ゼロショット設定ではベースラインモデルよりも有意に優れていた。

Learning code representations has been the core prerequisite of many software engineering tasks such as code clone detection and code generation. State-of-the-art program representation techniques mainly utilize pre-trained language models (PLMs) such as CodeBERT. A Transformer encoder is firstly pre-trained on a large-scale code corpus to acquire general knowledge about source code. The pre-trained model is then fine-tuned on specific tasks using an amount of labeled data. However, gathering training samples for the downstream tasks can be prohibitively expensive and impractical for domain-specific languages or project-specific tasks. Besides, pre-training and downstream tasks are usually heterogeneous, which makes it difficult to fully explore the knowledge learned during pre-training. In this paper, we propose Zecoler, a zero-shot approach for learning code representations. Zecoler is built upon a pre-trained programming language model. In order to elicit knowledge from the PLMs efficiently, Zecoler casts the downstream tasks to the same form of pre-training objectives by inserting train-able prompts into the original input. These prompts can guide PLMs on how to generate better results. Subsequently, we employ the prompt tuning technique to search for the optimal prompts for PLMs automatically. This enables the representation model to efficiently fit the downstream tasks through fine-tuning on the dataset in source language domain and then reuse the pre-trained knowledge for the target domain in a zero-shot style. We evaluate Zecoler in five code intelligence tasks including code clone detection, code search, method name prediction, code summarization, and code generation. The results show that our approach significantly outperforms baseline models under the zero-shot setting.
翻訳日:2024-04-16 18:03:29 公開日:2024-04-13
# モバイルGUIテキスト入力生成のための大規模言語モデル:実証的研究

Large Language Models for Mobile GUI Text Input Generation: An Empirical Study ( http://arxiv.org/abs/2404.08948v1 )

ライセンス: Link先を確認
Chenhui Cui, Tao Li, Junjie Wang, Chunyang Chen, Dave Towey, Rubing Huang, (参考訳) モバイルアプリケーション(アプリ)は、私たちの日常生活において不可欠な部分となり、品質を重要なアクティビティとして保証しています。 品質保証手法であるGUIテストは、モバイルアプリで頻繁に使用されている。 GUIテストを行う際には、テキスト入力コンポーネントに対して効果的なテキスト入力を生成することが重要である。 一部のGUIは、これらのテキスト入力を1ページから次のページに移動しなければならない。 近年,Large Language Models (LLMs) は優れたテキスト生成機能を示している。 LLMの中で、OpenAIのGPTシリーズは広く議論され、使用されている。 しかし、運用データに関するセキュリティとプライバシの問題のため、実際のモバイルアプリをGUIテストするためにこれらのLLMを使用することはできないかもしれない。 そのため,モバイルGUIテストにおけるテキスト入力生成のガイドとして,異なるLLMの可能性を検討する必要がある。 本稿では,UIページに対するAndroidテキスト入力生成における9つの最先端LCMの有効性を広範囲に調査する大規模な実証的研究について報告する。 62のオープンソースAndroidアプリから114のUIページを収集し、UIページからコンテキスト情報を抽出し、LLMがテキスト入力を生成するプロンプトを構築した。 実験の結果、一部のLCMは比較的効果的で高品質なテキスト入力を生成でき、50.58%から66.67%のページパススルーレートを実現し、またオープンソースのアプリケーションの実際のバグも検出できることがわかった。 GPT-3.5 と GPT-4 LLM と比較して、他の LLM はページスルーレートを 17.97% から 84.79% に、21.93% から 85.53% に減らした。 また、より完全なUIコンテキスト情報を使用することで、テキスト入力を生成するためのLCMのページパススルー率を向上できることがわかった。 さらに、AndroidテストにLLMを使うことに関して得られた6つの洞察についても述べています。

Mobile applications (apps) have become an essential part of our daily lives, making ensuring their quality an important activity. GUI testing, a quality assurance method, has frequently been used for mobile apps. When conducting GUI testing, it is important to generate effective text inputs for the text-input components. Some GUIs require these text inputs to move from one page to the next, which remains a challenge to achieving complete UI exploration. Recently, Large Language Models (LLMs) have shown excellent text-generation capabilities. Among the LLMs, OpenAI's GPT series has been widely discussed and used. However, it may not be possible to use these LLMs for GUI testing actual mobile apps, due to the security and privacy issues related to the production data. Therefore, it is necessary to explore the potential of different LLMs to guide text-input generation in mobile GUI testing. This paper reports on a large-scale empirical study that extensively investigates the effectiveness of nine state-of-the-art LLMs in Android text-input generation for UI pages. We collected 114 UI pages from 62 open-source Android apps and extracted contextual information from the UI pages to construct prompts for LLMs to generate text inputs. The experimental results show that some LLMs can generate relatively more effective and higher-quality text inputs, achieving a 50.58% to 66.67% page-pass-through rate, and even detecting some real bugs in open-source apps. Compared with the GPT-3.5 and GPT-4 LLMs, other LLMs reduce the page-pass-through rates by 17.97% to 84.79% and 21.93% to 85.53%, respectively. We also found that using more complete UI contextual information can increase the page-pass-through rates of LLMs for generating text inputs. In addition, we also describe six insights gained regarding the use of LLMs for Android testing: These insights will benefit the Android testing community.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# リニアセマンティックトランスファーと混合モダリティアンサンブルを用いたマルチモーダルクロスドキュメントイベント参照分解

Multimodal Cross-Document Event Coreference Resolution Using Linear Semantic Transfer and Mixed-Modality Ensembles ( http://arxiv.org/abs/2404.08949v1 )

ライセンス: Link先を確認
Abhijnan Nath, Huma Jamil, Shafiuddin Rehan Ahmed, George Baker, Rahul Ghosh, James H. Martin, Nathaniel Blanchard, Nikhil Krishnaswamy, (参考訳) イベント・コアス・レゾリューション(ECR)は、マルチドキュメント・コーパス内のイベントの別個の言及が、実際に同じ原因となる事象にリンクされているかどうかを決定するタスクである。 イベントの画像は、言語があいまいである場合に解決を容易にするのに役立つ。 本稿では,視覚モデルと言語モデル間の単純な線形写像と,視覚的およびテキスト的手がかりを統合したマルチモーダル・クロスドキュメント・イベント・コア参照分解法を提案する。 既存のECRベンチマークデータセットがすべてのイベント参照に対してイメージを提供することはめったにないため、一般的なECB+データセットをインターネットから取り除かれ、画像拡散モデルを用いて生成されるイベント中心のイメージで拡張します。 コア推論のために画像とテキストを組み込む3つの方法を確立する。 1) ファインチューニング付き標準融解モデル 2)微細化を伴わない新しい線形写像法 3) セマンティクスと談話レベルの難易度による言及ペアの分割に基づくアンサンブルアプローチ。 拡張ECB+とAIDAフェーズ1の2つのデータセットについて評価する。 クロスモーダルリニアマッピングを用いたアンサンブルシステムは、前処理の仮定からECB+ECR性能の上限(91.9 CoNLL F1)を確立し、AIDAフェーズ1の新たなベースラインを確立する。 本研究では, コア参照問題に対して, ECRにおけるマルチモーダル情報の有用性を実証し, コア参照解決空間におけるマルチモーダルリソースの必要性を強調した。

Event coreference resolution (ECR) is the task of determining whether distinct mentions of events within a multi-document corpus are actually linked to the same underlying occurrence. Images of the events can help facilitate resolution when language is ambiguous. Here, we propose a multimodal cross-document event coreference resolution method that integrates visual and textual cues with a simple linear map between vision and language models. As existing ECR benchmark datasets rarely provide images for all event mentions, we augment the popular ECB+ dataset with event-centric images scraped from the internet and generated using image diffusion models. We establish three methods that incorporate images and text for coreference: 1) a standard fused model with finetuning, 2) a novel linear mapping method without finetuning and 3) an ensembling approach based on splitting mention pairs by semantic and discourse-level difficulty. We evaluate on 2 datasets: the augmented ECB+, and AIDA Phase 1. Our ensemble systems using cross-modal linear mapping establish an upper limit (91.9 CoNLL F1) on ECB+ ECR performance given the preprocessing assumptions used, and establish a novel baseline on AIDA Phase 1. Our results demonstrate the utility of multimodal information in ECR for certain challenging coreference problems, and highlight a need for more multimodal resources in the coreference resolution space.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# 深層ニューラルネットワークマルチテナントマルチ加速器システムのための深部強化学習に基づくオンラインスケジューリングポリシー

Deep Reinforcement Learning based Online Scheduling Policy for Deep Neural Network Multi-Tenant Multi-Accelerator Systems ( http://arxiv.org/abs/2404.08950v1 )

ライセンス: Link先を確認
Francesco G. Blanco, Enrico Russo, Maurizio Palesi, Davide Patti, Giuseppe Ascia, Vincenzo Catania, (参考訳) 現在、DNNの実行をクラウドサービスにアウトソーシングするトレンドが増えている。 サービス提供者にとって、マルチテナントを管理し、特に厳格な実行時間の制約を満たす場合、高品質なサービス提供を保証することは、コスト効率を維持する努力をしながら、最重要事項を前提とします。 この文脈では、異種多加速器システムの利用がますます重要になっている。 本稿では,マルチテナント環境におけるDNNのオンラインスケジューリングを目的とした低頭深度強化学習アルゴリズムRELMASを提案する。 これにより、サービスプロバイダは、ユーザ要求に対して最も効率的なスケジューリングポリシーを適用でき、SLA(Service-Level-Agreement)満足度を最適化し、ハードウェア利用率を向上できます。 様々なシムバとアイリスのサブ加速器からなる異種多加速器システムへのRELMASの適用は、異なるワークロードシナリオにおける最先端のスケジューリング技術と比較して最大173%のSLA満足率向上を実現し、エネルギーオーバーヘッドは1.5%以下となった。

Currently, there is a growing trend of outsourcing the execution of DNNs to cloud services. For service providers, managing multi-tenancy and ensuring high-quality service delivery, particularly in meeting stringent execution time constraints, assumes paramount importance, all while endeavoring to maintain cost-effectiveness. In this context, the utilization of heterogeneous multi-accelerator systems becomes increasingly relevant. This paper presents RELMAS, a low-overhead deep reinforcement learning algorithm designed for the online scheduling of DNNs in multi-tenant environments, taking into account the dataflow heterogeneity of accelerators and memory bandwidths contentions. By doing so, service providers can employ the most efficient scheduling policy for user requests, optimizing Service-Level-Agreement (SLA) satisfaction rates and enhancing hardware utilization. The application of RELMAS to a heterogeneous multi-accelerator system composed of various instances of Simba and Eyeriss sub-accelerators resulted in up to a 173% improvement in SLA satisfaction rate compared to state-of-the-art scheduling techniques across different workload scenarios, with less than a 1.5% energy overhead.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# 混合領域半監督型医用画像分割における中間領域の構築と探索

Constructing and Exploring Intermediate Domains in Mixed Domain Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2404.08951v1 )

ライセンス: Link先を確認
Qinghe Ma, Jian Zhang, Lei Qi, Qian Yu, Yinghuan Shi, Yang Gao, (参考訳) 限られたアノテーションとドメインシフトは、医用画像のセグメンテーションにおいて一般的な課題である。 従来の半教師付きセグメンテーションと教師なしドメイン適応手法はこれらの問題の1つに別々に対処する。 しかし、限定的なアノテーションとドメインシフトの共存は非常に一般的であり、我々は新しい、挑戦的なシナリオを導入する動機となっている: 混合ドメイン半監督型医療画像分割(MiDSS)。 このシナリオでは、複数の医療センターからのデータを処理し、単一のドメインで利用可能なアノテーションと、複数のドメインからの大量の未ラベルデータを扱う。 この問題を解決する鍵は、ラベル付きデータによるドメインシフトの存在下で、ラベル付きデータに対して信頼できる擬似ラベルを生成する方法にある。 この問題を解決するために、画像間で統一コピーペースト(UCP)を用いて中間領域を構築し、ラベル付きデータのドメインからラベルなしデータのドメインへの知識伝達を容易にする。 中間領域内の情報を十分に活用するために、中間サンプルから擬似ラベルをマージしてラベルなしデータへの直接ガイダンスを提供する対称誘導訓練戦略(SymGD)を提案する。 その後,学習過程を意識したランダム振幅混合アップ(TP-RAM)を導入し,段階的にスタイル遷移成分を中間サンプルに組み込む。 従来の最先端手法と比較して,提案手法は3つの公開データセットで示されるように,前立腺データセットにおけるDiceスコアの13.57%向上を実現している。 私たちのコードはhttps://github.com/MQinghe/MiDSSで利用可能です。

Both limited annotation and domain shift are prevalent challenges in medical image segmentation. Traditional semi-supervised segmentation and unsupervised domain adaptation methods address one of these issues separately. However, the coexistence of limited annotation and domain shift is quite common, which motivates us to introduce a novel and challenging scenario: Mixed Domain Semi-supervised medical image Segmentation (MiDSS). In this scenario, we handle data from multiple medical centers, with limited annotations available for a single domain and a large amount of unlabeled data from multiple domains. We found that the key to solving the problem lies in how to generate reliable pseudo labels for the unlabeled data in the presence of domain shift with labeled data. To tackle this issue, we employ Unified Copy-Paste (UCP) between images to construct intermediate domains, facilitating the knowledge transfer from the domain of labeled data to the domains of unlabeled data. To fully utilize the information within the intermediate domain, we propose a symmetric Guidance training strategy (SymGD), which additionally offers direct guidance to unlabeled data by merging pseudo labels from intermediate samples. Subsequently, we introduce a Training Process aware Random Amplitude MixUp (TP-RAM) to progressively incorporate style-transition components into intermediate samples. Compared with existing state-of-the-art approaches, our method achieves a notable 13.57% improvement in Dice score on Prostate dataset, as demonstrated on three public datasets. Our code is available at https://github.com/MQinghe/MiDSS .
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# 1つの境界光子カウンタによる多モードガウス状態解析

Multi-mode Gaussian State Analysis with one Bounded Photon Counter ( http://arxiv.org/abs/2404.08957v1 )

ライセンス: Link先を確認
Arik Avagyan, Emanuel Knill, Scott Glancy, (参考訳) ガウス状態は量子光学と情報処理においてユビキタスであり、その特徴付けに効果的なツールを持つことが不可欠である。 そのようなツールの1つは光子数分解検出器であり、最も単純な構成は、特徴付けられる状態の光子の総数を数えることである。 マルチモードガウス状態のどのような性質は、ある境界までの総数光子を測定する1つの検出器からの信号によって決定されるのか? ガウス状態が$S$モードを占有し、すべての$n\leq 8S$に対する$n$光子の確率が知られているなら、ガウス共分散行列のスペクトルと共分散行列の各固有空間における変位の大きさを決定できる。 すべての光子数の確率が知られているとしても、それ以上のことは学べない。 状態が純粋であるとき、共分散行列スペクトルは状態のスクイーズパラメータを決定する。

Gaussian states are ubiquitous in quantum optics and information processing, and it is essential to have effective tools for their characterization. One such tool is a photon-number-resolving detector, and the simplest configuration involves counting the total number of photons in the state to be characterized. This motivates the following question: What properties of a multi-mode Gaussian state are determined by the signal from one detector that measures total number photons up to some bound? We find that if the Gaussian state occupies $S$ modes and the probabilities of $n$ photons for all $n\leq 8S$ are known, then we can determine the spectrum of the Gaussian covariance matrix and the magnitude of the displacements in each eigenspace of the covariance matrix. Nothing more can be learned, even if all photon-number probabilities are known. When the state is pure, the covariance matrix spectrum determines the squeezing parameters of the state.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# AMU-Tuning:CLIPベースのFew-shot Learningのための効果的なログバイアス

AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning ( http://arxiv.org/abs/2404.08958v1 )

ライセンス: Link先を確認
Yuwei Tang, Zhenyi Lin, Qilong Wang, Pengfei Zhu, Qinghua Hu, (参考訳) 近年、事前学習された視覚言語モデル(例えばCLIP)は、数発の学習において大きな可能性を示し、多くの研究関心を集めている。 CLIPの少ショット能力を改善する努力はなされているが、既存の手法の有効性に関する重要な要因は十分に研究されておらず、CLIPのいくつかのショット学習における可能性のさらなる探究が制限されている。 本稿では、まず、ロジットバイアスの観点からCLIPベースの少ショット学習手法を統一的に解析し、より効果的なロジットバイアスを学習し、CLIPベースの少ショット学習手法の性能を向上させることを促す。 この目的のために、ロジットバイアス(ロジット特徴、ロジット予測器、ロジット融合)の計算に関わる3つの重要な要素を分解し、その効果を経験的に分析する。 本稿では,鍵成分の分析に基づいて,CLIPに基づく複数ショット分類のための効果的なロジットバイアスを学習するための新しいAMU-Tuning法を提案する。 具体的には、AMU-Tuningは適切な$\underline{\textbf{A}}$uxiliary機能を利用してロジットバイアスを予測する。 最後に、$\underline{\textbf{U}}$ncertaintyベースのフュージョンは、数ショットの分類のために、CLIPにロジットバイアスを組み込むように開発されている。 実験は、広く使用されているベンチマークで行われ、AMU-Tuningは、CLIPベースの数ショット学習の最先端のパフォーマンスをベルやホイッスルなしで達成しながら、その性能を明らかに上回っている。

Recently, pre-trained vision-language models (e.g., CLIP) have shown great potential in few-shot learning and attracted a lot of research interest. Although efforts have been made to improve few-shot ability of CLIP, key factors on the effectiveness of existing methods have not been well studied, limiting further exploration of CLIP's potential in few-shot learning. In this paper, we first introduce a unified formulation to analyze CLIP-based few-shot learning methods from a perspective of logit bias, which encourages us to learn an effective logit bias for further improving performance of CLIP-based few-shot learning methods. To this end, we disassemble three key components involved in computation of logit bias (i.e., logit features, logit predictor, and logit fusion) and empirically analyze the effect on performance of few-shot classification. Based on analysis of key components, this paper proposes a novel AMU-Tuning method to learn effective logit bias for CLIP-based few-shot classification. Specifically, our AMU-Tuning predicts logit bias by exploiting the appropriate $\underline{\textbf{A}}$uxiliary features, which are fed into an efficient feature-initialized linear classifier with $\underline{\textbf{M}}$ulti-branch training. Finally, an $\underline{\textbf{U}}$ncertainty-based fusion is developed to incorporate logit bias into CLIP for few-shot classification. The experiments are conducted on several widely used benchmarks, and the results show AMU-Tuning clearly outperforms its counterparts while achieving state-of-the-art performance of CLIP-based few-shot learning without bells and whistles.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# マルチモーダルディープニューラルネットワークの理解:概念選択の視点から

Understanding Multimodal Deep Neural Networks: A Concept Selection View ( http://arxiv.org/abs/2404.08964v1 )

ライセンス: Link先を確認
Chenming Shang, Hengyuan Zhang, Hao Wen, Yujiu Yang, (参考訳) CLIPに代表されるマルチモーダルディープニューラルネットワークは、優れたパフォーマンスのため、リッチなダウンストリームアプリケーションを生成し、CLIPの意思決定プロセスを理解することが重要な研究トピックとなっている。 複雑な構造と大量の事前学習データのため、理解と解釈が困難すぎるブラックボックスモデルと見なされることが多い。 概念に基づくモデルは、ディープニューラルネットワークによって抽出されたブラックボックスの視覚表現を、人間の理解可能な概念のセットにマッピングし、その概念を使用して予測を行い、意思決定プロセスの透明性を高める。 しかし、これらの手法には専門家の知識によって詳細な属性でラベル付けされたデータセットが含まれており、それは高いコストを発生させ、過剰な人間の事前知識と偏見をもたらす。 本稿では,概念の長期分布を観察し,人間の先入観を導入することなくコア概念をマイニングするための2段階概念選択モデル(CSM)を提案する。 頭部概念を抽出するために, 難解な粗選択アルゴリズムを適用し, そして, コア概念の抽出を行う。 実験により,本手法はエンド・ツー・エンドのブラックボックスモデルに匹敵する性能を示した。

The multimodal deep neural networks, represented by CLIP, have generated rich downstream applications owing to their excellent performance, thus making understanding the decision-making process of CLIP an essential research topic. Due to the complex structure and the massive pre-training data, it is often regarded as a black-box model that is too difficult to understand and interpret. Concept-based models map the black-box visual representations extracted by deep neural networks onto a set of human-understandable concepts and use the concepts to make predictions, enhancing the transparency of the decision-making process. However, these methods involve the datasets labeled with fine-grained attributes by expert knowledge, which incur high costs and introduce excessive human prior knowledge and bias. In this paper, we observe the long-tail distribution of concepts, based on which we propose a two-stage Concept Selection Model (CSM) to mine core concepts without introducing any human priors. The concept greedy rough selection algorithm is applied to extract head concepts, and then the concept mask fine selection method performs the extraction of core concepts. Experiments show that our approach achieves comparable performance to end-to-end black-box models, and human evaluation demonstrates that the concepts discovered by our method are interpretable and comprehensible for humans.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# 暗黒でテキストを見る:アルゴリズムとベンチマーク

Seeing Text in the Dark: Algorithm and Benchmark ( http://arxiv.org/abs/2404.08965v1 )

ライセンス: Link先を確認
Chengpei Xu, Hao Fu, Long Ma, Wenjing Jia, Chengqi Zhang, Feng Xia, Xiaoyu Ai, Binghao Li, Wenjie Zhang, (参考訳) 低照度環境におけるテキストのローカライズは、視覚的劣化のため難しい。 簡単な解法は低照度画像強調(LLE)を最初のステップとして検出する2段階のパイプラインを含むが、LLEは主に機械ではなく人間の視覚用に設計されており、エラーを蓄積することができる。 そこで本研究では,LLEの必要性を回避するために,暗黒テキストのローカライズのための効率的かつ効果的な単一ステージアプローチを提案する。 テキスト検出器の訓練段階において,制約付き学習モジュールを補助機構として導入する。 このモジュールは、特徴マップリサイズ中のテキスト空間的特徴を保存するためのテキスト検出器のガイドとして設計されており、低照度の視覚的劣化下でのテキスト中の空間情報の損失を最小限に抑える。 具体的には、本モジュール内に空間的再構成と空間的意味制約を組み込んで、テキスト検出器が本質的な位置的・文脈的範囲の知識を取得することを保証する。 提案手法は,テキストの局所的トポロジ的特徴を動的ヘビ特徴ピラミッドネットワークを用いて同定し,新しい長方形累積法によるボトムアップ輪郭形成戦略を採用して,テキストの特徴を正確に記述する手法である。 さらに,様々な場面や言語を含む任意の字形テキストを対象とした包括的低照度データセットを提案する。 特に,本手法は,この低照度データセットの最先端結果を達成し,標準の標準照度データセットに匹敵する性能を示す。 コードとデータセットがリリースされる。

Localizing text in low-light environments is challenging due to visual degradations. Although a straightforward solution involves a two-stage pipeline with low-light image enhancement (LLE) as the initial step followed by detector, LLE is primarily designed for human vision instead of machine and can accumulate errors. In this work, we propose an efficient and effective single-stage approach for localizing text in dark that circumvents the need for LLE. We introduce a constrained learning module as an auxiliary mechanism during the training stage of the text detector. This module is designed to guide the text detector in preserving textual spatial features amidst feature map resizing, thus minimizing the loss of spatial information in texts under low-light visual degradations. Specifically, we incorporate spatial reconstruction and spatial semantic constraints within this module to ensure the text detector acquires essential positional and contextual range knowledge. Our approach enhances the original text detector's ability to identify text's local topological features using a dynamic snake feature pyramid network and adopts a bottom-up contour shaping strategy with a novel rectangular accumulation technique for accurate delineation of streamlined text features. In addition, we present a comprehensive low-light dataset for arbitrary-shaped text, encompassing diverse scenes and languages. Notably, our method achieves state-of-the-art results on this low-light dataset and exhibits comparable performance on standard normal light datasets. The code and dataset will be released.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# LoopGaussian:ユーレリア運動場による多視点画像による3Dシネマグラフ作成

LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion Field ( http://arxiv.org/abs/2404.08966v1 )

ライセンス: Link先を確認
Jiyang Li, Lechao Cheng, Zhangye Wang, Tingting Mu, Jingxuan He, (参考訳) シネマグラフ(Cinemagraph)は、静止画と微妙な動きの要素を組み合わせたユニークなビジュアルメディアである。 しかし、最近の作品によって生成されたビデオの大部分は深度情報がなく、2次元画像空間の制約に制限されている。 本稿では,3次元ガウシアンスプラッティング(3D-GS)により達成された新規ビュー合成(NVS)の分野における顕著な進歩に着想を得て,ループガウシアンを3次元ガウシアンモデリングを用いて2次元画像空間から3次元空間へ高次化することを提案する。 そこで我々はまず3D-GS法を用いて静的シーンの多視点画像から3次元ガウス点雲を再構成し,物体変形によるぼやけやアーティファクトを防止するために形状規則化用語を取り入れた。 次に、3D Gaussian に適したオートエンコーダを採用して特徴空間に投影します。 シーンの局所的な連続性を維持するため,得られた特徴に基づいてクラスタリングを行うSuperGaussianを考案した。 クラスタ間の類似性を計算し、2段階推定法を用いることで、シーン全体の速度を記述するユーレリア運動場を導出する。 3次元ガウス点は推定ユーレアン運動場内を移動する。 双方向アニメーション技術により、自然かつシームレスにループ可能なダイナミックスを示す3Dシネマグラフを最終的に生成する。 実験の結果,提案手法の有効性を検証し,高品質で視覚的に魅力的なシーン生成を実証した。

Cinemagraph is a unique form of visual media that combines elements of still photography and subtle motion to create a captivating experience. However, the majority of videos generated by recent works lack depth information and are confined to the constraints of 2D image space. In this paper, inspired by significant progress in the field of novel view synthesis (NVS) achieved by 3D Gaussian Splatting (3D-GS), we propose LoopGaussian to elevate cinemagraph from 2D image space to 3D space using 3D Gaussian modeling. To achieve this, we first employ the 3D-GS method to reconstruct 3D Gaussian point clouds from multi-view images of static scenes,incorporating shape regularization terms to prevent blurring or artifacts caused by object deformation. We then adopt an autoencoder tailored for 3D Gaussian to project it into feature space. To maintain the local continuity of the scene, we devise SuperGaussian for clustering based on the acquired features. By calculating the similarity between clusters and employing a two-stage estimation method, we derive an Eulerian motion field to describe velocities across the entire scene. The 3D Gaussian points then move within the estimated Eulerian motion field. Through bidirectional animation techniques, we ultimately generate a 3D Cinemagraph that exhibits natural and seamlessly loopable dynamics. Experiment results validate the effectiveness of our approach, demonstrating high-quality and visually appealing scene generation.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# MCPNet:マルチレベルコンセプトプロトタイプによる解釈可能な分類器

MCPNet: An Interpretable Classifier via Multi-Level Concept Prototypes ( http://arxiv.org/abs/2404.08968v1 )

ライセンス: Link先を確認
Bor-Shiun Wang, Chien-Yi Wang, Wei-Chen Chiu, (参考訳) ポストホックおよび本質的に解釈可能な手法の最近の進歩はブラックボックス分類器モデルの説明を著しく強化している。 これらの手法は、分析後またはモデルトレーニング中に概念学習を統合することによって機能する。 モデルの潜在空間と人間の解釈の間の意味的ギャップを埋めるのに効果的であるが、これらの説明法はモデルの意思決定過程を部分的にしか明らかにしない。 結果は通常、最後のフィーチャーマップから派生したハイレベルなセマンティクスに制限される。 我々は、下級・中級の機能における意思決定プロセスに関する洞察が欠如している説明は、完全に忠実でも有用でもないと論じる。 このギャップに対処するために、本質的に解釈可能なモデルであるMulti-Level Concept Prototypes Classifier (MCPNet)を導入する。 MCPNetは、CKA(Centered Kernel Alignment)損失とエネルギーベースの重み付きPCA機構を用いて、複数の機能マップレベルにわたる有意義なコンセプトプロトタイプを自律的に学習する。 さらに,クラス認識概念分布(CCD)の損失を通じて,分類目的の多段階概念のプロトタイプ分布を学習・調整する新しい分類手法を提案する。 実験の結果,提案したMPPNetは様々なモデルアーキテクチャに適用可能でありながら,分類精度を維持しつつ総合的なマルチレベル説明を提供することがわかった。 さらに、その概念分布に基づく分類手法は、数ショットの分類シナリオにおける一般化能力の向上を示す。

Recent advancements in post-hoc and inherently interpretable methods have markedly enhanced the explanations of black box classifier models. These methods operate either through post-analysis or by integrating concept learning during model training. Although being effective in bridging the semantic gap between a model's latent space and human interpretation, these explanation methods only partially reveal the model's decision-making process. The outcome is typically limited to high-level semantics derived from the last feature map. We argue that the explanations lacking insights into the decision processes at low and mid-level features are neither fully faithful nor useful. Addressing this gap, we introduce the Multi-Level Concept Prototypes Classifier (MCPNet), an inherently interpretable model. MCPNet autonomously learns meaningful concept prototypes across multiple feature map levels using Centered Kernel Alignment (CKA) loss and an energy-based weighted PCA mechanism, and it does so without reliance on predefined concept labels. Further, we propose a novel classifier paradigm that learns and aligns multi-level concept prototype distributions for classification purposes via Class-aware Concept Distribution (CCD) loss. Our experiments reveal that our proposed MCPNet while being adaptable to various model architectures, offers comprehensive multi-level explanations while maintaining classification accuracy. Additionally, its concept distribution-based classification approach shows improved generalization capabilities in few-shot classification scenarios.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# 1ビットマトリクスにおける分画後部の濃度特性

Concentration properties of fractional posterior in 1-bit matrix completion ( http://arxiv.org/abs/2404.08969v1 )

ライセンス: Link先を確認
The Tien Mai, (参考訳) 観測された項目の集合に基づいて行列を推定する問題は、一般に行列完備問題と呼ばれる。 本稿では,2値観測のシナリオを特に取り上げ,しばしば1ビット行列完備化と呼ばれる。 多くの研究が実値行列完備化のためのベイズ的および頻繁な手法を探求してきたが、1ビット行列完備化におけるベイズ的アプローチに関する理論的調査は欠如している。 一般の非一様サンプリング方式を考慮し、分数後方の有効性に関する理論的保証を提供することにより、このギャップに対処する。 本研究の貢献は, 分節後部の濃度値の取得と, 基礎となるパラメータ行列の回復における有効性を示すことである。 低ランク因数分解前とスペクトルスケールの学生前という2つの異なる種類の事前分布を用いてこれを達成し、後者は仮定を少なくする。 重要なことは、パラメータ行列のランクに関する事前知識を課さないことで、適応性を示す。 我々の発見は、頻繁な文献で見られるものと同等であるが、制限的な仮定は少ない。

The problem of estimating a matrix based on a set of its observed entries is commonly referred to as the matrix completion problem. In this work, we specifically address the scenario of binary observations, often termed as 1-bit matrix completion. While numerous studies have explored Bayesian and frequentist methods for real-value matrix completion, there has been a lack of theoretical exploration regarding Bayesian approaches in 1-bit matrix completion. We tackle this gap by considering a general, non-uniform sampling scheme and providing theoretical assurances on the efficacy of the fractional posterior. Our contributions include obtaining concentration results for the fractional posterior and demonstrating its effectiveness in recovering the underlying parameter matrix. We accomplish this using two distinct types of prior distributions: low-rank factorization priors and a spectral scaled Student prior, with the latter requiring fewer assumptions. Importantly, our results exhibit an adaptive nature by not mandating prior knowledge of the rank of the parameter matrix. Our findings are comparable to those found in the frequentist literature, yet demand fewer restrictive assumptions.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# Gromov-Wasserstein距離の高速勾配計算

Fast Gradient Computation for Gromov-Wasserstein Distance ( http://arxiv.org/abs/2404.08970v1 )

ライセンス: Link先を確認
Wei Zhang, Zihao Wang, Jie Fan, Hao Wu, Yong Zhang, (参考訳) グロモフ=ワッサーシュタイン距離は最適な輸送の顕著な拡張である。 古典的なワッサーシュタイン距離とは対照的に、分布の輸送における対距離歪みを最小限に抑え、したがって異なる空間の分布に適用できる二次代入問題を解く。 これらの性質により、Gromov-Wassersteinはコンピュータグラフィックスや機械学習など多くの分野に適用できる。 しかし,Gromov-Wasserstein距離と輸送計画の計算は高価である。 よく知られたエントロピー的グロモフ=ワッセルシュタイン法は、グロモフ=ワッセルシュタイン損失の勾配を計算する際に行列乗算演算を繰り返す必要があるため、立方的複雑性を持つ。 これがメソッドの重要なボトルネックになります。 現在、既存の手法はサンプリングと近似に重点を置いて計算を加速しており、これは低い精度または不完全な輸送計画をもたらす。 本研究では,動的プログラミング手法による精度の高い勾配計算を高速化する手法を提案し,その複雑さを3次から2次へと低減する。 このように、元の計算ボトルネックは破壊され、新しいエントロピー解は2次時間で得られるが、これはほぼ最適な複雑さである。 さらに、いくつかの変種にも容易に拡張できる。 大規模な実験により,本手法の有効性と有効性について検証した。

The Gromov-Wasserstein distance is a notable extension of optimal transport. In contrast to the classic Wasserstein distance, it solves a quadratic assignment problem that minimizes the pair-wise distance distortion under the transportation of distributions and thus could apply to distributions in different spaces. These properties make Gromov-Wasserstein widely applicable to many fields, such as computer graphics and machine learning. However, the computation of the Gromov-Wasserstein distance and transport plan is expensive. The well-known Entropic Gromov-Wasserstein approach has a cubic complexity since the matrix multiplication operations need to be repeated in computing the gradient of Gromov-Wasserstein loss. This becomes a key bottleneck of the method. Currently, existing methods accelerate the computation focus on sampling and approximation, which leads to low accuracy or incomplete transport plan. In this work, we propose a novel method to accelerate accurate gradient computation by dynamic programming techniques, reducing the complexity from cubic to quadratic. In this way, the original computational bottleneck is broken and the new entropic solution can be obtained with total quadratic time, which is almost optimal complexity. Furthermore, it can be extended to some variants easily. Extensive experiments validate the efficiency and effectiveness of our method.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# PraFFL: 公正なフェデレーション学習における優先意識のスキーム

PraFFL: A Preference-Aware Scheme in Fair Federated Learning ( http://arxiv.org/abs/2404.08973v1 )

ライセンス: Link先を確認
Rongguang Ye, Ming Tang, (参考訳) 連合学習の公正性は、敏感な特徴を持つ特定のグループ(例えば、男性または女性)のための偏見のないモデルを開発することを目的として、重要な関心事として現れてきた。 しかし、モデル性能とフェアネスの間にはトレードオフがあり、すなわち、フェアネスの改善はモデル性能を低下させる。 既存のアプローチでは、クライアントの公正性やモデルパフォーマンスを定量化するためにハイパーパラメータを導入することで、このようなトレードオフを特徴付けている。 それでも、これらのメソッドは、各クライアントが1つの事前定義された優先順位しか持たないシナリオに限られる。 実用システムでは、各クライアントはモデルの性能と公平性に対して複数の好みを持つことができる。 鍵となる課題は、モデルが各クライアントのさまざまな好みにリアルタイムで適応できるようなメソッドを設計することである。 そこで本研究では,Fair Federated Learning(PrafFL)パラダイムにおけるPreference-Awareスキームを提案する。 PraFFLは、ニーズを満たすために、各クライアントの好みに基づいてモデルを適応的に調整することができる。 PraFFLがクライアントの任意の選好に最適なモデルを提供できることを理論的に証明する。 実験の結果,提案したPrafFLは,クライアントの好みに適応するモデルの能力の観点から,既存の5つの公正なフェデレーション学習アルゴリズムより優れていた。

Fairness in federated learning has emerged as a critical concern, aiming to develop an unbiased model for any special group (e.g., male or female) of sensitive features. However, there is a trade-off between model performance and fairness, i.e., improving fairness will decrease model performance. Existing approaches have characterized such a trade-off by introducing hyperparameters to quantify client's preferences for fairness and model performance. Nevertheless, these methods are limited to scenarios where each client has only a single pre-defined preference. In practical systems, each client may simultaneously have multiple preferences for the model performance and fairness. The key challenge is to design a method that allows the model to adapt to diverse preferences of each client in real time. To this end, we propose a Preference-aware scheme in Fair Federated Learning paradigm (called PraFFL). PraFFL can adaptively adjust the model based on each client's preferences to meet their needs. We theoretically prove that PraFFL can provide the optimal model for client's arbitrary preferences. Experimental results show that our proposed PraFFL outperforms five existing fair federated learning algorithms in terms of the model's capability in adapting to clients' different preferences.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# スポットライトのOV:どのように反射するか?

OOVs in the Spotlight: How to Inflect them? ( http://arxiv.org/abs/2404.08974v1 )

ライセンス: Link先を確認
Tomáš Sourada, Jana Straková, Rudolf Rosa, (参考訳) 我々は、通常、最先端のシステムでは効果が低い、oo-of-vocabulary(OOV)条件における形態的インフレクションに焦点を当てる。 LSTMとTransformerに基づく2つのシーケンス・ツー・シーケンス・モデル(seq2seq)を逆行モデルとして開発した。 OOVの条件下での試験では,モルフォロジーに富むチェコ語の名詞の大規模なデータセットを自動的に抽出し,レムマと解離するデータを分割し,さらに実世界におけるOOVのネオロジズムデータセットを手動で注釈付けした。 標準的なOOV条件では、TransformerはLSTM、逆行モデル、SIGMORPHONベースラインとのアンサンブル性能の向上とともに、最高の結果を得る。 実世界のネオロジズムのOOVデータセットでは、逆行性モデルはすべてのニューラルモデルより優れています。 最後に, SIGMORPHON 2022のタスクデータから, 大規模データ条件下でのOOV評価(機能重複)において, 16言語中9言語について, 最新の結果を得た。 我々はチェコのOOVインフレクションデータセットをリリースし、OOV条件の厳密な評価を行う。 さらに,Seq2seqモデルを用いたインフレクションシステムをPythonライブラリとしてリリースする。

We focus on morphological inflection in out-of-vocabulary (OOV) conditions, an under-researched subtask in which state-of-the-art systems usually are less effective. We developed three systems: a retrograde model and two sequence-to-sequence (seq2seq) models based on LSTM and Transformer. For testing in OOV conditions, we automatically extracted a large dataset of nouns in the morphologically rich Czech language, with lemma-disjoint data splits, and we further manually annotated a real-world OOV dataset of neologisms. In the standard OOV conditions, Transformer achieves the best results, with increasing performance in ensemble with LSTM, the retrograde model and SIGMORPHON baselines. On the real-world OOV dataset of neologisms, the retrograde model outperforms all neural models. Finally, our seq2seq models achieve state-of-the-art results in 9 out of 16 languages from SIGMORPHON 2022 shared task data in the OOV evaluation (feature overlap) in the large data condition. We release the Czech OOV Inflection Dataset for rigorous evaluation in OOV conditions. Further, we release the inflection system with the seq2seq models as a ready-to-use Python library.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# RoNID: 生成可能なラベルとクラスタフレンドリな表現を備えた新たなインテントディスカバリ

RoNID: New Intent Discovery with Generated-Reliable Labels and Cluster-friendly Representations ( http://arxiv.org/abs/2404.08977v1 )

ライセンス: Link先を確認
Shun Zhang, Chaoran Yan, Jian Yang, Changyu Ren, Jiaqi Bai, Tongliang Li, Zhoujun Li, (参考訳) New Intent Discovery (NID) は、オープンワールドシナリオにおいて、既知の、合理的に推論可能な新規な意図グループを特定しようとする試みである。 しかし、現在の手法では、不正確な擬似ラベルと表現学習の貧弱な問題に直面し、正のフィードバックループを生成し、精度と調整されたランドインデックスを含む全体のモデルパフォーマンスを劣化させる。 上記の課題に対処するため,EMスタイルの手法により最適化されたロバスト・ニュー・インテント・ディスカバリ(RoNID)フレームワークを提案する。 RoNIDは、信頼できる擬似ラベル生成モジュールとクラスタフレンドリーな表現学習モジュールの2つの主要なモジュールから構成される。 具体的には、Eステップにおいて最適な輸送問題を解くことにより、疑似ラベル生成モジュールが信頼できる合成ラベルを割り当て、クラスタフレンドリーな表現学習モジュールの入力に高品質な教師付き信号が効果的に提供される。 クラスタ内コンパクト性とクラスタ間分離の大きいクラスタフレンドリーな表現を学習するために、表現学習モジュールは、クラスタ内コントラスト学習とクラスタ間コントラスト学習をMステップで組み合わせ、より差別的な特徴を生成モジュールに供給する。 RoNIDは、最終的に信頼できる擬似ラベルとクラスタフレンドリーな表現を持つ堅牢なモデルを生成するために反復的に実行できる。 複数のベンチマークによる実験結果から,本手法は従来の最先端手法よりも+1〜+4ポイントの差で大幅に改善されていることが示された。

New Intent Discovery (NID) strives to identify known and reasonably deduce novel intent groups in the open-world scenario. But current methods face issues with inaccurate pseudo-labels and poor representation learning, creating a negative feedback loop that degrades overall model performance, including accuracy and the adjusted rand index. To address the aforementioned challenges, we propose a Robust New Intent Discovery (RoNID) framework optimized by an EM-style method, which focuses on constructing reliable pseudo-labels and obtaining cluster-friendly discriminative representations. RoNID comprises two main modules: reliable pseudo-label generation module and cluster-friendly representation learning module. Specifically, the pseudo-label generation module assigns reliable synthetic labels by solving an optimal transport problem in the E-step, which effectively provides high-quality supervised signals for the input of the cluster-friendly representation learning module. To learn cluster-friendly representation with strong intra-cluster compactness and large inter-cluster separation, the representation learning module combines intra-cluster and inter-cluster contrastive learning in the M-step to feed more discriminative features into the generation module. RoNID can be performed iteratively to ultimately yield a robust model with reliable pseudo-labels and cluster-friendly representations. Experimental results on multiple benchmarks demonstrate our method brings substantial improvements over previous state-of-the-art methods by a large margin of +1~+4 points.
翻訳日:2024-04-16 17:53:43 公開日:2024-04-13
# インクリメンタル残差概念ボトルネックモデル

Incremental Residual Concept Bottleneck Models ( http://arxiv.org/abs/2404.08978v1 )

ライセンス: Link先を確認
Chenming Shang, Shiji Zhou, Yujiu Yang, Hengyuan Zhang, Xinzhe Ni, Yuwang Wang, (参考訳) 概念ボトルネックモデル(CBM)は、ディープニューラルネットワークによって抽出されたブラックボックスの視覚表現を解釈可能な概念のセットにマッピングし、その概念を使用して予測を行い、意思決定プロセスの透明性を高める。 マルチモーダル事前学習モデルは、視覚表現とテキストの概念埋め込みとを一致させることができ、専門的な概念アノテーションを使わずに解釈可能な概念ボトルネックを得ることができる。 近年の研究では、銀行の設立と高品質なコンセプト選択に焦点が当てられている。 しかし、人間や大きな言語モデルを通じて包括的な概念バンクを構築することは困難であり、CBMの性能を著しく制限している。 本稿では,概念完全性の課題を解決するために,インクリメンタル・Residual Concept Bottleneck Model (Res-CBM)を提案する。 具体的には、残差概念ボトルネックモデルでは、不足する概念を完備化するために最適化可能なベクトルの集合を使用し、インクリメンタル概念発見モジュールは、不明確な意味を持つ補足ベクトルを候補概念バンクの潜在的概念に変換する。 提案手法は,任意のCBMの性能向上を目的としたポストホック処理法として,ユーザ定義の概念バンクに適用できる。 さらに, CBMの記述効率を測定するために, 概念利用効率(CUE)尺度を提案する。 実験により、Res-CBMは精度と効率の両方の観点から現在の最先端の手法よりも優れており、複数のデータセットにわたるブラックボックスモデルに匹敵するパフォーマンスを実現している。

Concept Bottleneck Models (CBMs) map the black-box visual representations extracted by deep neural networks onto a set of interpretable concepts and use the concepts to make predictions, enhancing the transparency of the decision-making process. Multimodal pre-trained models can match visual representations with textual concept embeddings, allowing for obtaining the interpretable concept bottleneck without the expertise concept annotations. Recent research has focused on the concept bank establishment and the high-quality concept selection. However, it is challenging to construct a comprehensive concept bank through humans or large language models, which severely limits the performance of CBMs. In this work, we propose the Incremental Residual Concept Bottleneck Model (Res-CBM) to address the challenge of concept completeness. Specifically, the residual concept bottleneck model employs a set of optimizable vectors to complete missing concepts, then the incremental concept discovery module converts the complemented vectors with unclear meanings into potential concepts in the candidate concept bank. Our approach can be applied to any user-defined concept bank, as a post-hoc processing method to enhance the performance of any CBMs. Furthermore, to measure the descriptive efficiency of CBMs, the Concept Utilization Efficiency (CUE) metric is proposed. Experiments show that the Res-CBM outperforms the current state-of-the-art methods in terms of both accuracy and efficiency and achieves comparable performance to black-box models across multiple datasets.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# BG-YOLO:水中物体検出のための双方向誘導法

BG-YOLO: A Bidirectional-Guided Method for Underwater Object Detection ( http://arxiv.org/abs/2404.08979v1 )

ライセンス: Link先を確認
Jian Zhang, Ruiteng Zhang, Xinyue Yan, Xiting Zhuang, Ruicheng Cao, (参考訳) 劣化した水中画像は水中物体検出の精度を低下させる。 しかし、既存の水中画像強調法は主に視覚面の指標の改善に重点を置いており、水中画像検出の作業には効果がなく、性能が著しく低下する可能性がある。 この問題を軽減するため,BG-YOLOと呼ばれる水中物体検出のための双方向誘導法を提案した。 提案手法では,拡張ブランチと検出ブランチを並列に構築することでネットワークを編成する。 エンハンスメントブランチは、画像エンハンスメントサブネットのカスケードと、オブジェクト検出サブネットとから構成される。 そして、検出ブランチは、検出サブネットのみから構成される。 フィーチャーガイドモジュールは、2つのブランチの浅い畳み込み層を接続する。 エンハンスメントブランチのトレーニング時に、エンハンスメントブランチのオブジェクト検出サブネットは、検出タスクに最も適した方向に向けて最適化されるエンハンスメントサブネットをガイドする。 トレーニングされた拡張ブランチの浅い特徴マップはフィーチャーガイドモジュールに出力され、一貫性の喪失によって検出ブランチの最適化が制限され、検出ブランチはオブジェクトのより詳細な情報を学ぶように促される。 したがって、検出性能は改善される。 検出タスクの間は、追加の計算コストがかからないように、検出ブランチのみが予約される。 大規模な実験により, 本手法は, 顕著な検出速度を維持しつつ, 高度に劣化した水中のシーンにおける検出器の性能を著しく向上させることを示した。

Degraded underwater images decrease the accuracy of underwater object detection. However, existing methods for underwater image enhancement mainly focus on improving the indicators in visual aspects, which may not benefit the tasks of underwater image detection, and may lead to serious degradation in performance. To alleviate this problem, we proposed a bidirectional-guided method for underwater object detection, referred to as BG-YOLO. In the proposed method, network is organized by constructing an enhancement branch and a detection branch in a parallel way. The enhancement branch consists of a cascade of an image enhancement subnet and an object detection subnet. And the detection branch only consists of a detection subnet. A feature guided module connects the shallow convolution layer of the two branches. When training the enhancement branch, the object detection subnet in the enhancement branch guides the image enhancement subnet to be optimized towards the direction that is most conducive to the detection task. The shallow feature map of the trained enhancement branch will be output to the feature guided module, constraining the optimization of detection branch through consistency loss and prompting detection branch to learn more detailed information of the objects. And hence the detection performance will be refined. During the detection tasks, only detection branch will be reserved so that no additional cost of computation will be introduced. Extensive experiments demonstrate that the proposed method shows significant improvement in performance of the detector in severely degraded underwater scenes while maintaining a remarkable detection speed.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# 対人訓練における安定性と一般化

Stability and Generalization in Free Adversarial Training ( http://arxiv.org/abs/2404.08980v1 )

ライセンス: Link先を確認
Xiwei Cheng, Kexin Fu, Farzan Farnia, (参考訳) 逆行訓練法は, ニューラルネットのノルム束縛された逆行性摂動に対する頑健性に大きな改善をもたらしたが, トレーニングサンプルからテストデータへの一般化性能は, 標準的な経験的リスク最小化法よりもかなり悪いことが示されている。 いくつかの最近の研究は、敵対的に訓練された分類器の一般化挙動を、訓練に使用する様々な勾配に基づくmin-max最適化アルゴリズムに結びつけることを目指している。 本研究では,アルゴリズム的安定性フレームワークを用いて,逆学習手法の一般化性能について検討する。 具体的には、各反復における摂動を最適化するバニラ対向学習法と、標準有界摂動と分類器パラメータを同時に最適化する自由対向学習法の一般化性能を比較することを目的とする。 証明された一般化境界は, min-max最適化アルゴリズムの同時性により, 学習結果と試験値との一般化ギャップを低くすることができることを示す。 我々は,バニラ,高速,自由な対人訓練手法の一般化性能を評価するために,いくつかの数値実験を行った。 また, 実験結果から, 対人訓練法の一般化性能の向上が示され, さらに, より優れた一般化結果がブラックボックス攻撃方式に対する堅牢性の向上につながる可能性が示唆された。 コードはhttps://github.com/Xiwei-Cheng/Stability_FreeATで公開されている。

While adversarial training methods have resulted in significant improvements in the deep neural nets' robustness against norm-bounded adversarial perturbations, their generalization performance from training samples to test data has been shown to be considerably worse than standard empirical risk minimization methods. Several recent studies seek to connect the generalization behavior of adversarially trained classifiers to various gradient-based min-max optimization algorithms used for their training. In this work, we study the generalization performance of adversarial training methods using the algorithmic stability framework. Specifically, our goal is to compare the generalization performance of the vanilla adversarial training scheme fully optimizing the perturbations at every iteration vs. the free adversarial training simultaneously optimizing the norm-bounded perturbations and classifier parameters. Our proven generalization bounds indicate that the free adversarial training method could enjoy a lower generalization gap between training and test samples due to the simultaneous nature of its min-max optimization algorithm. We perform several numerical experiments to evaluate the generalization performance of vanilla, fast, and free adversarial training methods. Our empirical findings also show the improved generalization performance of the free adversarial training method and further demonstrate that the better generalization result could translate to greater robustness against black-box attack schemes. The code is available at https://github.com/Xiwei-Cheng/Stability_FreeAT.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# 高速漁:効率よくスケーラブルな深部能動画像分類のためのBAITの近似

Fast Fishing: Approximating BAIT for Efficient and Scalable Deep Active Image Classification ( http://arxiv.org/abs/2404.08981v1 )

ライセンス: Link先を確認
Denis Huseljic, Paul Hahn, Marek Herde, Lukas Rauch, Bernhard Sick, (参考訳) Deep Active Learning (AL)は、ディープニューラルネットワークのトレーニングに要するアノテーションコストを最小限にすることを目指している。 Fisher Informationをベースにした最近提案されたAL戦略であるBAITは、さまざまなデータセットで素晴らしいパフォーマンスを示している。 しかし、BAITの高計算・メモリ要件は、大規模分類タスクの適用性を妨げ、その結果、BAITの評価を無視している。 本稿では,BAITの計算効率とスケーラビリティを向上する2つの手法を提案する。 特に,フィッシャー情報を近似することにより,時間的複雑性を著しく低減する。 特に、元の定式化を適応させる。 一 最も可能性の高い授業に期待を寄せて、 二 グラデーション計算の代替可能性をもたらす二分分類タスクを構築すること。 これにより、ImageNetを含む大規模データセットでのBAITの効率的な利用が可能になる。 様々なデータセットに対する統一的かつ包括的評価は、我々の近似が時間的複雑さを著しく減らし、強い性能を達成することを示す。 さらに,最新のAL戦略を実装したオープンソースツールボックスも,https://github.com/dhuseljic/dal-toolboxで公開しています。

Deep active learning (AL) seeks to minimize the annotation costs for training deep neural networks. BAIT, a recently proposed AL strategy based on the Fisher Information, has demonstrated impressive performance across various datasets. However, BAIT's high computational and memory requirements hinder its applicability on large-scale classification tasks, resulting in current research neglecting BAIT in their evaluation. This paper introduces two methods to enhance BAIT's computational efficiency and scalability. Notably, we significantly reduce its time complexity by approximating the Fisher Information. In particular, we adapt the original formulation by i) taking the expectation over the most probable classes, and ii) constructing a binary classification task, leading to an alternative likelihood for gradient computations. Consequently, this allows the efficient use of BAIT on large-scale datasets, including ImageNet. Our unified and comprehensive evaluation across a variety of datasets demonstrates that our approximations achieve strong performance with considerably reduced time complexity. Furthermore, we provide an extensive open-source toolbox that implements recent state-of-the-art AL strategies, available at https://github.com/dhuseljic/dal-toolbox.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# パラメータ効率的なファインタニングのための直観認識混合-Rank-1-Experts

Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning ( http://arxiv.org/abs/2404.08985v1 )

ライセンス: Link先を確認
Yijiang Liu, Rongyu Zhang, Huanrui Yang, Kurt Keutzer, Yuan Du, Li Du, Shanghang Zhang, (参考訳) 大規模言語モデル(LLM)は、コンテンツ生成からインタラクティブエンターテイメント、芸術的創造に至るまで、マルチメディアアプリケーションで複数のタスクを実行する大きな可能性を示してきた。 しかし、マルチタスクシナリオにおける下流タスクの多様性は、LLMにかなりの適応課題をもたらす。 従来の手法は、モノリシックな高密度モデルに関する知識の混乱に悩まされることが多いが、Mixture-of-Experts (MoE) は、そのスパースアーキテクチャによる効率的なタスクデカップリングのための有望なソリューションとして現れてきた。 人間の認知神経科学の原理に触発されて、我々は、インスタンスの固有のセマンティッククラスタリングを利用して、マルチタスクに対処する人間の脳を模倣し、最適化された特徴割り当てのためのルータへの暗黙のガイダンスを提供する新しいフレームワーク「texttt{Intuition-MoR1E}」を設計した。 さらに、直観のスペクトルを管理するために設計された最先端のRランク1エキスパートの定式化を導入し、マルチタスクLLMファインタニングにおけるパラメータ効率と有効性を示す。 大規模な実験により、Intuition-MoR1Eは14の公開データセットに対して、他の最先端のベースラインに対して、優れた効率と2.15\%の全体的な精度向上を実現している。

Large Language Models (LLMs) have demonstrated significant potential in performing multiple tasks in multimedia applications, ranging from content generation to interactive entertainment, and artistic creation. However, the diversity of downstream tasks in multitask scenarios presents substantial adaptation challenges for LLMs. While traditional methods often succumb to knowledge confusion on their monolithic dense models, Mixture-of-Experts (MoE) has been emerged as a promising solution with its sparse architecture for effective task decoupling. Inspired by the principles of human cognitive neuroscience, we design a novel framework \texttt{Intuition-MoR1E} that leverages the inherent semantic clustering of instances to mimic the human brain to deal with multitask, offering implicit guidance to router for optimized feature allocation. Moreover, we introduce cutting-edge Rank-1 Experts formulation designed to manage a spectrum of intuitions, demonstrating enhanced parameter efficiency and effectiveness in multitask LLM finetuning. Extensive experiments demonstrate that Intuition-MoR1E achieves superior efficiency and 2.15\% overall accuracy improvement across 14 public datasets against other state-of-the-art baselines.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# 動物運動キャプチャーのための飛行船形成と行動解析

Airship Formations for Animal Motion Capture and Behavior Analysis ( http://arxiv.org/abs/2404.08986v1 )

ライセンス: Link先を確認
Eric Price, Aamir Ahmad, (参考訳) UAVを野生動物の観察やモーションキャプチャーに利用することで、野生の動物、特に開けた地形の牧草地の研究に多様体の利点を提供する。 空中の視界は、地上では不可能なスケールと深さでの観測を可能にし、グループ行動に対する新たな洞察を提供する。 しかし、野生生物のフィールドスタディの本質は、従来の固定翼とマルチコプターのシステムに限界を与え、飛行時間、騒音、安全面がそれらの効果に影響を与える。 それでも、飛行船は地上操作の観点からも制御の観点からも困難であり、風の影響を受けやすい。 本研究では,飛行船形状を用いて,飛行船設計,シミュレーション,制御,ボードコンピュータビジョン,自律動作,フィールド実験の実践的側面など,様々な角度から野生の馬を追跡・追跡・視覚的に記録するシステムを紹介する。

Using UAVs for wildlife observation and motion capture offers manifold advantages for studying animals in the wild, especially grazing herds in open terrain. The aerial perspective allows observation at a scale and depth that is not possible on the ground, offering new insights into group behavior. However, the very nature of wildlife field-studies puts traditional fixed wing and multi-copter systems to their limits: limited flight time, noise and safety aspects affect their efficacy, where lighter than air systems can remain on station for many hours. Nevertheless, airships are challenging from a ground handling perspective as well as from a control point of view, being voluminous and highly affected by wind. In this work, we showcase a system designed to use airship formations to track, follow, and visually record wild horses from multiple angles, including airship design, simulation, control, on board computer vision, autonomous operation and practical aspects of field experiments.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# インプラントバックドアのクリティカルパスと潜在的な緩和技術の有効性:XZからの早期学習

On the critical path to implant backdoors and the effectiveness of potential mitigation techniques: Early learnings from XZ ( http://arxiv.org/abs/2404.08987v1 )

ライセンス: Link先を確認
Mario Lins, René Mayrhofer, Michael Roland, Daniel Hofer, Martin Schwaighofer, (参考訳) XZ Utilsのバックドアによる新たなサプライチェーン攻撃が特定されている。 バックドアにより、攻撃者は事前認証なしでSSHを使用する脆弱なサーバ上でリモートでコマンドを実行することができる。 我々は、このようなサプライチェーン攻撃に対する現在の緩和戦略について議論するため、この攻撃に関して利用可能な情報を集め始めている。 本稿では,XZバックドアのクリティカルアタックパスについて紹介し,攻撃経路の関連段階に関連する潜在的な緩和技術の概要について述べる。

An emerging supply-chain attack due to a backdoor in XZ Utils has been identified. The backdoor allows an attacker to run commands remotely on vulnerable servers utilizing SSH without prior authentication. We have started to collect available information with regards to this attack to discuss current mitigation strategies for such kinds of supply-chain attacks. This paper introduces the critical attack path of the XZ backdoor and provides an overview about potential mitigation techniques related to relevant stages of the attack path.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# Fourier-enhanced multi-modal 3D small object optical mark recognition and positioning method for percutaneous abdominal puncture surgery

A Fourier-enhanced multi-modal 3D small object optical mark recognition and positioning method for percutaneous abdominal puncture surgical navigation ( http://arxiv.org/abs/2404.08990v1 )

ライセンス: Link先を確認
Zezhao Guo, Yanzhong Guo, Zhanfang Zhao, (参考訳) 胸腹部穿刺手術のナビゲーションは、患者の体表面の針の入口を見つけるために用いられる。 従来の反射ボールナビゲーション法では、針のエントリーポイントを柔らかく不規則で滑らかな胸と腹部に配置することは困難である。 構造光技術による体表面の明らかな特徴点の欠如により,任意の針挿入点の特定と位置の特定が困難である。 手術ナビゲーションの安定性と高精度な要求に基づいて, 針挿入点として小さな単環の中心を識別する, ミューティモーダル3D小物体マーカー検出法を提案する。 さらに、この新しい手法では、フーリエ変換拡張技術を利用してデータセットを拡張し、画像の詳細を強化し、ネットワークの能力を高める。 この方法は、拡張画像とオリジナル画像の両方から特徴画像の関心領域(ROI)を抽出し、次いでマスクマップを生成する。 その後、ROI点雲輪郭嵌合の登録により、深さマップからのROIの点雲を得る。 さらに、この手法は最適精度のためにテューキー損失を用いる。 実験により, 本手法は高精度かつ高安定性な位置決めを実現するだけでなく, 針挿入点の位置決めを可能にした。

Navigation for thoracoabdominal puncture surgery is used to locate the needle entry point on the patient's body surface. The traditional reflective ball navigation method is difficult to position the needle entry point on the soft, irregular, smooth chest and abdomen. Due to the lack of clear characteristic points on the body surface using structured light technology, it is difficult to identify and locate arbitrary needle insertion points. Based on the high stability and high accuracy requirements of surgical navigation, this paper proposed a novel method, a muti-modal 3D small object medical marker detection method, which identifies the center of a small single ring as the needle insertion point. Moreover, this novel method leverages Fourier transform enhancement technology to augment the dataset, enrich image details, and enhance the network's capability. The method extracts the Region of Interest (ROI) of the feature image from both enhanced and original images, followed by generating a mask map. Subsequently, the point cloud of the ROI from the depth map is obtained through the registration of ROI point cloud contour fitting. In addition, this method employs Tukey loss for optimal precision. The experimental results show this novel method proposed in this paper not only achieves high-precision and high-stability positioning, but also enables the positioning of any needle insertion point.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# シミュレーション仮説のビジネスモデル

Business models for the simulation hypothesis ( http://arxiv.org/abs/2404.08991v1 )

ライセンス: Link先を確認
Evangelos Katsamakas, (参考訳) シミュレーション仮説は、我々がコンピュータシミュレーションに生きていることを示唆している。 この概念は学術的にも大衆的にも大きな関心を集めている。 本稿では,ビジネスの観点からシミュレーション仮説を考察する。 シミュレーション仮説と整合した宇宙の名前を欠いているため、擬似宇宙という用語を提案する。 シミュレーションに生きれば、ビジネス上の正当化があるに違いない、と私たちは主張する。 ですから, シンバースに住んでいるならば,そのビジネスモデルはどのようなものなのでしょう? 私たちは、プロジェクト、サービス、プラットフォームとしてのシミュバースのようなビジネスモデルシナリオを特定し、探求します。 また、ビジネスモデルの経路やリスク管理の問題についても検討しています。 この論文はシミュレーション仮説の文献に貢献し、シミュレーション仮説に関するビジネスモデルの視点を提供する最初のものである。 本稿では,持続可能性,デジタルトランスフォーメーション,人工知能(AI)に関する今後の研究の機会を論じる。

The simulation hypothesis suggests that we live in a computer simulation. That notion has attracted significant scholarly and popular interest. This article explores the simulation hypothesis from a business perspective. Due to the lack of a name for a universe consistent with the simulation hypothesis, we propose the term simuverse. We argue that if we live in a simulation, there must be a business justification. Therefore, we ask: If we live in a simuverse, what is its business model? We identify and explore business model scenarios, such as simuverse as a project, service, or platform. We also explore business model pathways and risk management issues. The article contributes to the simulation hypothesis literature and is the first to provide a business model perspective on the simulation hypothesis. The article discusses theoretical and practical implications and identifies opportunities for future research related to sustainability, digital transformation, and Artificial Intelligence (AI).
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# 既知のクラスタを超えて - 効率的な一般化されたクラスディスカバリのための新しいプロトタイプ

Beyond Known Clusters: Probe New Prototypes for Efficient Generalized Class Discovery ( http://arxiv.org/abs/2404.08995v1 )

ライセンス: Link先を確認
Ye Wang, Yaxiong Wang, Yujiao Wu, Bingchen Zhao, Xueming Qian, (参考訳) Generalized Class Discovery (GCD) は、ラベル付きデータから学んだ知識に基づいてラベルを部分的にラベル付きデータに動的に割り当てることを目的としている。 一般的なアプローチは、すべてのデータと学習概念を、原型的な対照的な学習によってクラスタリングすることである。 しかし、既存の手法はクラスタリングアルゴリズムの性能に大きく影響し、そのため固有の制限が課せられる。 第一に、推定されたクラスタ数は、しばしば基礎的な真実よりも小さく、既存の手法は包括的な概念学習のためのプロトタイプの欠如に悩まされる。 この問題に対処するために,学習可能な潜在的なプロトタイプを導入し,クラスタプロトタイプ(中央)を拡張する適応型探索機構を提案する。 本研究は,プロトタイプをエンド・ツー・エンドで最適化する自己教師型プロトタイプ学習フレームワークを開発した。 第二に、クラスタリングは計算集約的であり、ラベル付きインスタンスと非ラベル付きインスタンスの両方をクラスタリングするという従来の戦略は、この問題を悪化させる。 この非効率性に対抗するために、私たちは、未実装のインスタンスのみをクラスタ化し、その後、新しいクラスを素早く探索するために、導入可能なプロトタイプでクラスタのプロトタイプを拡張することを選択しました。 提案手法の単純さにもかかわらず、広範囲のデータセットに対する広範な実験分析により、我々の手法が常に最先端の結果を提供することを確認した。 具体的には、Stanford Cars データセット内の \textbf{9.7}$\%$ と、Herbarium 19 データセット内の \textbf{12$\times$} クラスタリング効率によって、最も近い競合相手を上回る。 コードとチェックポイントは \url{https://github.com/xjtuYW/PNP.git} で公開します。

Generalized Class Discovery (GCD) aims to dynamically assign labels to unlabelled data partially based on knowledge learned from labelled data, where the unlabelled data may come from known or novel classes. The prevailing approach generally involves clustering across all data and learning conceptions by prototypical contrastive learning. However, existing methods largely hinge on the performance of clustering algorithms and are thus subject to their inherent limitations. Firstly, the estimated cluster number is often smaller than the ground truth, making the existing methods suffer from the lack of prototypes for comprehensive conception learning. To address this issue, we propose an adaptive probing mechanism that introduces learnable potential prototypes to expand cluster prototypes (centers). As there is no ground truth for the potential prototype, we develop a self-supervised prototype learning framework to optimize the potential prototype in an end-to-end fashion. Secondly, clustering is computationally intensive, and the conventional strategy of clustering both labelled and unlabelled instances exacerbates this issue. To counteract this inefficiency, we opt to cluster only the unlabelled instances and subsequently expand the cluster prototypes with our introduced potential prototypes to fast explore novel classes. Despite the simplicity of our proposed method, extensive empirical analysis on a wide range of datasets confirms that our method consistently delivers state-of-the-art results. Specifically, our method surpasses the nearest competitor by a significant margin of \textbf{9.7}$\%$ within the Stanford Cars dataset and \textbf{12$\times$} clustering efficiency within the Herbarium 19 dataset. We will make the code and checkpoints publicly available at \url{https://github.com/xjtuYW/PNP.git}.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# セミマルコフモデルを用いたラベル付き形態素分割

Labeled Morphological Segmentation with Semi-Markov Models ( http://arxiv.org/abs/2404.08997v1 )

ライセンス: Link先を確認
Ryan Cotterell, Thomas Müller, Alexander Fraser, Hinrich Schütze, (参考訳) いくつかのタスクを統一する形態的処理の代替として,ラベル付き形態的セグメンテーションを提案する。 アノテーションの観点から、形態素タグセットの新しい階層も導入する。 最後に、従来の研究とは対照的に、明示的に形態素をモデル化する識別型形態素分割システムであるモデル名を開発する。 ここでは,6言語すべてに対する3つのタスクのパフォーマンス向上を示す。 形態区分; 形態区分; 形態区分; 形態区分 (二)発芽・発芽 (iii)形態的タグ分類。 形態的セグメンテーションでは,ベースライン上での2--6点$F_1$の絶対的な改善を示す。

We present labeled morphological segmentation, an alternative view of morphological processing that unifies several tasks. From an annotation standpoint, we additionally introduce a new hierarchy of morphotactic tagsets. Finally, we develop \modelname, a discriminative morphological segmentation system that, contrary to previous work, explicitly models morphotactics. We show that \textsc{chipmunk} yields improved performance on three tasks for all six languages: (i) morphological segmentation, (ii) stemming and (iii) morphological tag classification. On morphological segmentation, our method shows absolute improvements of 2--6 points $F_1$ over the baseline.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# MaSkel:人間のマスキング画像から人体X線を生成するモデル

MaSkel: A Model for Human Whole-body X-rays Generation from Human Masking Images ( http://arxiv.org/abs/2404.09000v1 )

ライセンス: Link先を確認
Yingjie Xi, Boyuan Cheng, Jingyao Cai, Jian Jun Zhang, Xiaosong Yang, (参考訳) 人間の全身X線は、医学診断、デジタルアニメーションモデリング、エルゴノミクスデザインなど、様々な用途に有用な参照を提供することができる。 X線情報を取得する従来の方法はCT(Computed Tomography)スキャンマシンを使用し、潜在的に有害な放射線を放出する。 したがって、適応性と安全性に欠けるため、現実的なアプリケーションには重大な制限に直面します。 本研究では,人間のマスク画像から2次元の人体X線を直接生成する手法を提案する。 予測された画像は、同じイメージスタイルと解剖学的構造を持つ実際のものに似ている。 データ駆動戦略を採用しました。 高度な生成技術を活用することで、我々のモデルMaSkel(スケルトンX線へのマスク画像)は、侵襲的で有害な放射線露光を必要とせずに、人間のマスク画像から高品質なX線画像を生成することができる。 我々の知る限り、我々のモデルMaSkelは全身X線を予測するための最初の研究である。 本稿では,その作業の2つの部分について述べる。 1つ目は、データ制限問題の解決であり、拡散に基づく手法を用いてデータ拡張を行い、予備訓練のための2つの合成データセットを提供する。 そして、MaSkelをトレーニングするための2段階のトレーニング戦略を設計しました。 最終的に、生成したX線を定性的かつ定量的に評価する。 さらに、予測されたデータを評価するために、専門家の医師を招待します。 これらの評価は、マスク画像から解剖学的X線を生成するMaSkelの優れた能力を示している。 関連するコードとデータセットのリンクはhttps://github.com/2022yingjie/MaSkelで公開されている。

The human whole-body X-rays could offer a valuable reference for various applications, including medical diagnostics, digital animation modeling, and ergonomic design. The traditional method of obtaining X-ray information requires the use of CT (Computed Tomography) scan machines, which emit potentially harmful radiation. Thus it faces a significant limitation for realistic applications because it lacks adaptability and safety. In our work, We proposed a new method to directly generate the 2D human whole-body X-rays from the human masking images. The predicted images will be similar to the real ones with the same image style and anatomic structure. We employed a data-driven strategy. By leveraging advanced generative techniques, our model MaSkel(Masking image to Skeleton X-rays) could generate a high-quality X-ray image from a human masking image without the need for invasive and harmful radiation exposure, which not only provides a new path to generate highly anatomic and customized data but also reduces health risks. To our knowledge, our model MaSkel is the first work for predicting whole-body X-rays. In this paper, we did two parts of the work. The first one is to solve the data limitation problem, the diffusion-based techniques are utilized to make a data augmentation, which provides two synthetic datasets for preliminary pretraining. Then we designed a two-stage training strategy to train MaSkel. At last, we make qualitative and quantitative evaluations of the generated X-rays. In addition, we invite some professional doctors to assess our predicted data. These evaluations demonstrate the MaSkel's superior ability to generate anatomic X-rays from human masking images. The related code and links of the dataset are available at https://github.com/2022yingjie/MaSkel.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# スマートヘルプ:家庭における能動的・適応型ロボット支援のための戦略的対人モデル

Smart Help: Strategic Opponent Modeling for Proactive and Adaptive Robot Assistance in Households ( http://arxiv.org/abs/2404.09001v1 )

ライセンス: Link先を確認
Zhihao Cao, Zidong Wang, Siwen Xie, Anji Liu, Lifeng Fan, (参考訳) 日々の作業において、脆弱なグループ(高齢者、子供、障害者など)の間では、支援技術に対する大きな需要があるにもかかわらず、その多様なニーズを真に満たす高度なAI駆動型支援ソリューションの研究は、依然として少ないままである。 従来の人間と機械の相互作用タスクは、訓練や学習の機会、自己改善の感覚、自尊心など、人間の能力や感情を微妙に考慮することなく、機械に助けを求めることが多い。 このギャップに対処するため、我々はスマートヘルプ(Smart Help)という重要かつ斬新な課題を定義し、多様な障害を持つ人間エージェントに対して、様々なタスクや環境における動的目標を積極的にかつ適応的に支援することを目的としている。 この課題を確立するために、AI2-THORを活用して、スマートヘルプタスクのためのインタラクティブな3Dリアルな家庭用環境を構築する。 本稿では,支援エージェントの援助方針を最適化するために,主エージェントの能力と目標の微妙な理解を提供する,イノベーティブな対戦相手モデリングモジュールを提案する。 厳密な実験により, モデル成分の有効性を検証し, 確立されたベースラインに対する包括的アプローチの優位性を示す。 この結果から,AIを組み込んだ支援ロボットが,脆弱なグループの健康向上に寄与する可能性が示唆された。

Despite the significant demand for assistive technology among vulnerable groups (e.g., the elderly, children, and the disabled) in daily tasks, research into advanced AI-driven assistive solutions that genuinely accommodate their diverse needs remains sparse. Traditional human-machine interaction tasks often require machines to simply help without nuanced consideration of human abilities and feelings, such as their opportunity for practice and learning, sense of self-improvement, and self-esteem. Addressing this gap, we define a pivotal and novel challenge Smart Help, which aims to provide proactive yet adaptive support to human agents with diverse disabilities and dynamic goals in various tasks and environments. To establish this challenge, we leverage AI2-THOR to build a new interactive 3D realistic household environment for the Smart Help task. We introduce an innovative opponent modeling module that provides a nuanced understanding of the main agent's capabilities and goals, in order to optimize the assisting agent's helping policy. Rigorous experiments validate the efficacy of our model components and show the superiority of our holistic approach against established baselines. Our findings illustrate the potential of AI-imbued assistive robots in improving the well-being of vulnerable groups.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# WikiSplit++: スプリットとリフレーズを簡単にするデータリファインメント

WikiSplit++: Easy Data Refinement for Split and Rephrase ( http://arxiv.org/abs/2404.09002v1 )

ライセンス: Link先を確認
Hayato Tsukagoshi, Tsutomu Hirao, Makoto Morishita, Katsuki Chousa, Ryohei Sasano, Koichi Takeda, (参考訳) Split and Rephraseのタスクは、複雑な文を同じ意味の複数の単純文に分割し、読みやすさを改善し、自然言語処理(NLP)における下流タスクのパフォーマンスを向上させる。 しかし、大規模なデータセットで微調整されたエンコーダ・デコーダモデルを適用するテキスト・ツー・テキスト生成アプローチを使用して、SplitとRephraseを改善することができるが、それでも幻覚とアンダースプリッティングに悩まされている。 これらの問題に対処するために,本稿では,シンプルで強力なデータ精錬手法を提案する。 ここでは、複雑な文が少なくとも1つの単純な文を含まないWikiSplit++のインスタンスを削除し、参照単純文の順序を逆転させることにより、WikiSplit++を作成する。 実験の結果、WikiSplit++でのトレーニングは、より少ないトレーニングインスタンスであっても、WikiSplitでのトレーニングよりもパフォーマンスが向上することが示された。 特に,本手法は,幻覚測定の指標である分割数と包含率において有意な利得が得られる。

The task of Split and Rephrase, which splits a complex sentence into multiple simple sentences with the same meaning, improves readability and enhances the performance of downstream tasks in natural language processing (NLP). However, while Split and Rephrase can be improved using a text-to-text generation approach that applies encoder-decoder models fine-tuned with a large-scale dataset, it still suffers from hallucinations and under-splitting. To address these issues, this paper presents a simple and strong data refinement approach. Here, we create WikiSplit++ by removing instances in WikiSplit where complex sentences do not entail at least one of the simpler sentences and reversing the order of reference simple sentences. Experimental results show that training with WikiSplit++ leads to better performance than training with WikiSplit, even with fewer training instances. In particular, our approach yields significant gains in the number of splits and the entailment ratio, a proxy for measuring hallucinations.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# THQA:トーキング・ヘッドのための知覚的品質評価データベース

THQA: A Perceptual Quality Assessment Database for Talking Heads ( http://arxiv.org/abs/2404.09003v1 )

ライセンス: Link先を確認
Yingjie Zhou, Zicheng Zhang, Wei Sun, Xiaohong Liu, Xiongkuo Min, Zhihua Wang, Xiao-Ping Zhang, Guangtao Zhai, (参考訳) メディア技術の分野では、デジタル人間はコンピュータ技術の急速な進歩によって有名になった。 しかし、デジタル人間の大部分に必要な手動のモデリングと制御は、効率的な開発に重大な障害をもたらす。 音声駆動方式は、デジタル人間の口形状と表情を操作するための新しい道を提供する。 運転法の普及にもかかわらず、多数の音声ヘッド(TH)ビデオの品質は依然として問題であり、ユーザ・ビジュアル・エクスペリエンスに影響を及ぼす。 この問題に対処するために,8つの多様な音声駆動方式を用いて800 THビデオを生成するTHQA(Talking Head Quality Assessment)データベースを提案する。 広範囲にわたる実験は、THQAデータベースの文字と音声の特徴の豊かさを裏付けるものである。 その後の主観的品質評価実験は、スコアリング結果と音声駆動手法、年齢、性別の相関を解析した。 さらに、実験結果から、主流画像と映像品質評価手法は、THQAデータベースに制限があり、THビデオ品質評価を強化するためのさらなる研究の必要性が強調されている。 THQAデータベースはhttps://github.com/zyj-2000/THQAで公開されている。

In the realm of media technology, digital humans have gained prominence due to rapid advancements in computer technology. However, the manual modeling and control required for the majority of digital humans pose significant obstacles to efficient development. The speech-driven methods offer a novel avenue for manipulating the mouth shape and expressions of digital humans. Despite the proliferation of driving methods, the quality of many generated talking head (TH) videos remains a concern, impacting user visual experiences. To tackle this issue, this paper introduces the Talking Head Quality Assessment (THQA) database, featuring 800 TH videos generated through 8 diverse speech-driven methods. Extensive experiments affirm the THQA database's richness in character and speech features. Subsequent subjective quality assessment experiments analyze correlations between scoring results and speech-driven methods, ages, and genders. In addition, experimental results show that mainstream image and video quality assessment methods have limitations for the THQA database, underscoring the imperative for further research to enhance TH video quality assessment. The THQA database is publicly accessible at https://github.com/zyj-2000/THQA.
翻訳日:2024-04-16 17:43:54 公開日:2024-04-13
# インセンティブ・セキュリティによる学習の証明

Proof-of-Learning with Incentive Security ( http://arxiv.org/abs/2404.09005v1 )

ライセンス: Link先を確認
Zishuo Zhao, Zhixuan Fang, Xuechao Wang, Yuan Zhou, (参考訳) ほとんどの並行ブロックチェーンシステムは、分散コンセンサスとセキュリティ保証のためのProof-of-Work(PoW)あるいはProof-of-Stake(PoS)メカニズムに大きく依存しています。 しかし、計算集約的かつ無意味なタスクから生じる実質的なエネルギー支出は、従来のPoWアプローチにまつわるかなりの懸念を引き起こしている。 これらの問題に対処するために、PoUW(Proof-of-Useful-Work)のパラダイムは、PoWとして実践的な重要性の課題を取り入れ、具体的な価値でエネルギー消費を付与することを目指している。 従来のPoL(Proof of Learning)では,PuUW課題としての深層学習モデルトレーニングSGDタスクの利用が検討されているが,近年の研究では,敵対的攻撃に対する脆弱性と,ビザンチンセキュアなPoL機構の構築における理論的難しさが明らかにされている。 本稿では、計算効率、証明可能なインセンティブ-セキュリティ保証、制御容易な難易度を有するPoL機構を設計するための既存の難しさを回避し、合理的なプローバーに率直に行動を促すインセンティブ-セキュリティの概念を紹介する。 特に、我々の仕事は、Jia et al [2021]の最近の研究に対する2つの攻撃に対して安全であり、計算オーバーヘッドを$\Theta(1)$から$O(\frac{\log E}{E})$に改善する。 さらに、最近の研究では、信頼性のある問題提供者と検証者が想定されているが、我々の設計では、問題提供者が信頼されていない場合でも、フロントエンドのインセンティブ・セキュリティを保証し、検証者のジレンマを回避できるインセンティブ・セキュリティも保証している。 MLトレーニングを証明可能な保証付きブロックチェーンコンセンサスメカニズムに組み込むことで、私たちの研究は、ブロックチェーンシステムに対するエコフレンドリなソリューションを提案するだけでなく、新たなAI時代における、完全に分散化されたコンピューティングパワー市場の提案も提供します。

Most concurrent blockchain systems rely heavily on the Proof-of-Work (PoW) or Proof-of-Stake (PoS) mechanisms for decentralized consensus and security assurance. However, the substantial energy expenditure stemming from computationally intensive yet meaningless tasks has raised considerable concerns surrounding traditional PoW approaches, The PoS mechanism, while free of energy consumption, is subject to security and economic issues. Addressing these issues, the paradigm of Proof-of-Useful-Work (PoUW) seeks to employ challenges of practical significance as PoW, thereby imbuing energy consumption with tangible value. While previous efforts in Proof of Learning (PoL) explored the utilization of deep learning model training SGD tasks as PoUW challenges, recent research has revealed its vulnerabilities to adversarial attacks and the theoretical hardness in crafting a byzantine-secure PoL mechanism. In this paper, we introduce the concept of incentive-security that incentivizes rational provers to behave honestly for their best interest, bypassing the existing hardness to design a PoL mechanism with computational efficiency, a provable incentive-security guarantee and controllable difficulty. Particularly, our work is secure against two attacks to the recent work of Jia et al. [2021], and also improves the computational overhead from $\Theta(1)$ to $O(\frac{\log E}{E})$. Furthermore, while most recent research assumes trusted problem providers and verifiers, our design also guarantees frontend incentive-security even when problem providers are untrusted, and verifier incentive-security that bypasses the Verifier's Dilemma. By incorporating ML training into blockchain consensus mechanisms with provable guarantees, our research not only proposes an eco-friendly solution to blockchain systems, but also provides a proposal for a completely decentralized computing power market in the new AI age.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# MMA-DFER:動的顔表情認識のための非モーダルモデルのマルチモーダル適応

MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild ( http://arxiv.org/abs/2404.09010v1 )

ライセンス: Link先を確認
Kateryna Chumachenko, Alexandros Iosifidis, Moncef Gabbouj, (参考訳) 動的表情認識(DFER)は近年,共感的かつ人間と互換性のある技術の実現において重要な役割を担っている。 DFERの組み込みデータに対する堅牢性を達成することは、現実世界のアプリケーションにとって特に重要である。 このようなモデルの改善を目的とした方向の1つは、音声およびビデオデータに基づくマルチモーダル感情認識である。 DFERにおけるマルチモーダル学習は、よりリッチで補完的なデータ表現を活用することで、モデル能力を高める。 マルチモーダルDFERの分野において、近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 もうひとつの研究は、DFER用にトレーニング済みの静的モデルを適用することに焦点を当てている。 本研究では,SSL-pre-trained disdalt unimodal encoderの適用により,この問題に対する異なる視点とマルチモーダルDFERの性能向上について検討する。 この課題,すなわちモダリティ内適応,クロスモーダルアライメント,時間的適応の主な課題を特定し,それぞれに解決策を提案する。 その結果、DFEWとMFAWという2つの人気のあるDFERベンチマークにおいて、最先端のDFERよりも改善されたことを示す。

Dynamic Facial Expression Recognition (DFER) has received significant interest in the recent years dictated by its pivotal role in enabling empathic and human-compatible technologies. Achieving robustness towards in-the-wild data in DFER is particularly important for real-world applications. One of the directions aimed at improving such models is multimodal emotion recognition based on audio and video data. Multimodal learning in DFER increases the model capabilities by leveraging richer, complementary data representations. Within the field of multimodal DFER, recent methods have focused on exploiting advances of self-supervised learning (SSL) for pre-training of strong multimodal encoders. Another line of research has focused on adapting pre-trained static models for DFER. In this work, we propose a different perspective on the problem and investigate the advancement of multimodal DFER performance by adapting SSL-pre-trained disjoint unimodal encoders. We identify main challenges associated with this task, namely, intra-modality adaptation, cross-modal alignment, and temporal adaptation, and propose solutions to each of them. As a result, we demonstrate improvement over current state-of-the-art on two popular DFER benchmarks, namely DFEW and MFAW.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# PracticalDG:ハイブリッドドメイン一般化のためのビジョンランゲージモデルの摂動蒸留

PracticalDG: Perturbation Distillation on Vision-Language Models for Hybrid Domain Generalization ( http://arxiv.org/abs/2404.09011v1 )

ライセンス: Link先を確認
Zining Chen, Weiqiu Wang, Zhicheng Zhao, Fei Su, Aidong Men, Hongying Meng, (参考訳) ドメイン一般化(DG)は、ソースとターゲットドメイン間の分散シフトを解決することを目的としており、現在のDGメソッドは、ソースとターゲットドメインからのデータが同じカテゴリを共有する設定でデフォルトである。 それでも、現実的なシナリオでは、ターゲットドメインからは目に見えないクラスが存在する。 この問題に対処するため、Open Set Domain Generalization (OSDG) が登場し、いくつかの手法が提案されている。 しかし、既存のほとんどの手法では、DG法と比較してわずかに改善された複雑なアーキテクチャを採用している。 近年、視覚言語モデル (VLM) は微調整パラダイムに従ってDGで導入されているが、大きな視覚モデルで膨大なトレーニングオーバーヘッドを消費している。 そこで本稿では,VLMから軽量視覚モデルへ知識を伝達し,SCI-PD(Score, Class, Instance)を含む3つの視点から摂動蒸留(PD)を導入することにより,堅牢性の向上を図る。 さらに、従来の手法は、ソースドメイン間のばらつきを無視して、同一および固定された分割を持つベンチマークによって指向される。 これらの手法は,提案したベンチマークであるHybrid Domain Generalization (HDG) と,アルゴリズムの頑健さを総合的に評価するために,様々な分割を構成する新しい計量である$H^{2}$-CVを用いて,急激な性能劣化に悩まされていることが明らかとなった。 大規模な実験により、本手法は複数のデータセット上で最先端のアルゴリズムよりも優れており、特にデータ不足に直面する場合のロバスト性の向上が示されている。

Domain Generalization (DG) aims to resolve distribution shifts between source and target domains, and current DG methods are default to the setting that data from source and target domains share identical categories. Nevertheless, there exists unseen classes from target domains in practical scenarios. To address this issue, Open Set Domain Generalization (OSDG) has emerged and several methods have been exclusively proposed. However, most existing methods adopt complex architectures with slight improvement compared with DG methods. Recently, vision-language models (VLMs) have been introduced in DG following the fine-tuning paradigm, but consume huge training overhead with large vision models. Therefore, in this paper, we innovate to transfer knowledge from VLMs to lightweight vision models and improve the robustness by introducing Perturbation Distillation (PD) from three perspectives, including Score, Class and Instance (SCI), named SCI-PD. Moreover, previous methods are oriented by the benchmarks with identical and fixed splits, ignoring the divergence between source domains. These methods are revealed to suffer from sharp performance decay with our proposed new benchmark Hybrid Domain Generalization (HDG) and a novel metric $H^{2}$-CV, which construct various splits to comprehensively assess the robustness of algorithms. Extensive experiments demonstrate that our method outperforms state-of-the-art algorithms on multiple datasets, especially improving the robustness when confronting data scarcity.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# 雑音グラフ状態における二部構造エンタングルメントの下位境界

Lower bounds on bipartite entanglement in noisy graph states ( http://arxiv.org/abs/2404.09014v1 )

ライセンス: Link先を確認
Aqil Sajjad, Eneet Kaur, Kenneth Goodenough, Don Towsley, Saikat Guha, (参考訳) グラフ状態は、量子情報理論における多くの応用の鍵となる資源である。 ノイズのある中間スケール量子(NISQ)時代のデバイスには固有のノイズがあるため、ノイズがグラフ状態の有用性に与える影響を理解することが重要である。 本稿では,初期量子ビットがCZ演算を施す前に非偏極雑音を発生させるノイズモデルについて考察する。 本モデルでは,グラフ状態の2分割にまたがって,絡み合いを蒸留できる速度の低いコヒーレント情報を計算する手法を開発する。 また、より多くのノードやエッジを追加することが、バイパルタイト蒸留可能な絡み合いにどのように影響するかについて、いくつかのパターンを特定する。 応用として、任意の量の(最大でない)非偏極雑音に対して厳密な正のコヒーレント情報を保持するグラフの族を見つける。

Graph states are a key resource for a number of applications in quantum information theory. Due to the inherent noise in noisy intermediate-scale quantum (NISQ) era devices, it is important to understand the effects noise has on the usefulness of graph states. We consider a noise model where the initial qubits undergo depolarizing noise before the application of the CZ operations that generate edges between qubits situated at the nodes of the resulting graph state. For this model we develop a method for calculating the coherent information -- a lower bound on the rate at which entanglement can be distilled, across a bipartition of the graph state. We also identify some patterns on how adding more nodes or edges affects the bipartite distillable entanglement. As an application, we find a family of graph states that maintain a strictly positive coherent information for any amount of (non-maximal) depolarizing noise.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# 生成拡散モデルの理論的研究--概観

Theoretical research on generative diffusion models: an overview ( http://arxiv.org/abs/2404.09016v1 )

ライセンス: Link先を確認
Melike Nur Yeğin, Mehmet Fatih Amasyalı, (参考訳) 生成拡散モデルは、強力な理論的背景を持つ多くの分野で高い成功を収めた。 データ分布をノイズに変換し、ノイズを取り除き、同様の分布を得る。 既存のレビューの多くは、アルゴリズムの研究に集中することなく、特定のアプリケーション領域に焦点を当てている。 それらとは異なり、生成拡散モデルの理論的発展について検討した。 これらのアプローチは主にトレーニングベースとサンプリングベースという2つに分けられる。 これに対して目が覚めたことで、将来新たな開発を行う研究者にとって、明確で理解可能な分類が可能になったのです。

Generative diffusion models showed high success in many fields with a powerful theoretical background. They convert the data distribution to noise and remove the noise back to obtain a similar distribution. Many existing reviews focused on the specific application areas without concentrating on the research about the algorithm. Unlike them we investigated the theoretical developments of the generative diffusion models. These approaches mainly divide into two: training-based and sampling-based. Awakening to this allowed us a clear and understandable categorization for the researchers who will make new developments in the future.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# 大規模言語モデルの景観をナビゲートする:パラダイムと微調整戦略の総合的レビューと分析

Navigating the Landscape of Large Language Models: A Comprehensive Review and Analysis of Paradigms and Fine-Tuning Strategies ( http://arxiv.org/abs/2404.09022v1 )

ライセンス: Link先を確認
Benjue Weng, (参考訳) ChatGPTの急増に伴い、大規模なモデルの使用が大幅に増加し、業界全体で急速に普及し、インターネットを席巻している。 本稿では,大規模モデルの微調整手法について概観する。 本稿では,タスク適応型ファインチューニング,ドメイン適応型ファインチューニング,フェーショットラーニング,知識蒸留,マルチタスクラーニング,パラメータ効率のファインチューニング,ダイナミックファインチューニングなど,最新の技術進歩と高度な手法の適用について検討する。

With the surge of ChatGPT,the use of large models has significantly increased,rapidly rising to prominence across the industry and sweeping across the internet. This article is a comprehensive review of fine-tuning methods for large models. This paper investigates the latest technological advancements and the application of advanced methods in aspects such as task-adaptive fine-tuning,domain-adaptive fine-tuning,few-shot learning,knowledge distillation,multi-task learning,parameter-efficient fine-tuning,and dynamic fine-tuning.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# SQIAsignHD: SQIsignHDアダプタ署名

SQIAsignHD: SQIsignHD Adaptor Signature ( http://arxiv.org/abs/2404.09026v1 )

ライセンス: Link先を確認
Farzin Renan, Péter Kutas, (参考訳) 適応シグネチャは、秘密のランダム性をシグネチャ内に隠した標準的なデジタルシグネチャスキームの一般化形式と見なすことができる。 アダプタシグネチャは最近の暗号プリミティブであり、暗号通貨などのブロックチェーンアプリケーションにおいて、オンチェーンコストを削減し、ファジビリティを改善し、支払いチャネルネットワーク、決済チャネルハブ、アトミックスワップにおけるオフチェーン形式の支払いに寄与する重要なツールになりつつある。 しかし、現在使われているアダプタシグネチャ構造は、ショアのアルゴリズムにより量子逆数に対して脆弱である。 本研究では,超特異楕円曲線の等質性に基づく新しい量子抵抗型アダプタシグネチャスキームである$\mathsf{SQIAsignHD}$を導入し,その基礎となるシグネチャスキームとしてSQIsignHDを用い,超特異なDiffie-Hellmanキー交換プロトコルであるSIDHの人工配向の考え方を活用する。 さらに、量子ランダムオラクルモデル(QROM)において、我々のスキームが安全であることを示します。

Adaptor signatures can be viewed as a generalized form of the standard digital signature schemes where a secret randomness is hidden within a signature. Adaptor signatures are a recent cryptographic primitive and are becoming an important tool for blockchain applications such as cryptocurrencies to reduce on-chain costs, improve fungibility, and contribute to off-chain forms of payment in payment-channel networks, payment-channel hubs, and atomic swaps. However, currently used adaptor signature constructions are vulnerable to quantum adversaries due to Shor's algorithm. In this work, we introduce $\mathsf{SQIAsignHD}$, a new quantum-resistant adaptor signature scheme based on isogenies of supersingular elliptic curves, using SQIsignHD - as the underlying signature scheme - and exploiting the idea of the artificial orientation on the supersingular isogeny Diffie-Hellman key exchange protocol, SIDH, as the underlying hard relation. We, furthermore, show that our scheme is secure in the Quantum Random Oracle Model (QROM).
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# MING-MOE:低ランクアダプタエキスパートの疎混合による大規模言語モデルにおける医用マルチタスク学習の強化

MING-MOE: Enhancing Medical Multi-Task Learning in Large Language Models with Sparse Mixture of Low-Rank Adapter Experts ( http://arxiv.org/abs/2404.09027v1 )

ライセンス: Link先を確認
Yusheng Liao, Shuyang Jiang, Yu Wang, Yanfeng Wang, (参考訳) ChatGPTのような大規模な言語モデルでは、自然言語の理解と生成が大幅に進歩しており、医学分野を含む様々な分野において価値のあるものとなっている。 進歩にもかかわらず、多タスク学習能力を必要とする医療タスクに固有の複雑さと多様性のため、課題は継続する。 従来のアプローチは有益ではあるが、推論時にタスク固有のアノテーションを必要とするため、現実世界のアプリケーションでは不足しており、より広範な一般化が制限されている。 本稿では,MING-MOEについて紹介する。MING-MOE(Mixture-of-Expert~(MOE)ベースの医療用大規模言語モデルで,タスク固有のアノテーションを必要とせず,多種多様かつ複雑な医療用タスクを管理する。 MING-MOEはMixture of Low-Rank Adaptation (MoLoRA)技術を用いており、最小限のトレーニング可能なパラメータセットを通じて適応しながらベースモデルパラメータを静的に保つことで、効率的なパラメータ使用を可能にする。 MING-MOEは20以上の医療タスクにおいて最先端(SOTA)のパフォーマンスを達成し,既存モデルに対する大幅な改善を図っている。 このアプローチは、医療言語モデルの能力を拡張するだけでなく、推論効率も向上する。

Large language models like ChatGPT have shown substantial progress in natural language understanding and generation, proving valuable across various disciplines, including the medical field. Despite advancements, challenges persist due to the complexity and diversity inherent in medical tasks which often require multi-task learning capabilities. Previous approaches, although beneficial, fall short in real-world applications because they necessitate task-specific annotations at inference time, limiting broader generalization. This paper introduces MING-MOE, a novel Mixture-of-Expert~(MOE)-based medical large language model designed to manage diverse and complex medical tasks without requiring task-specific annotations, thus enhancing its usability across extensive datasets. MING-MOE employs a Mixture of Low-Rank Adaptation (MoLoRA) technique, allowing for efficient parameter usage by maintaining base model parameters static while adapting through a minimal set of trainable parameters. We demonstrate that MING-MOE achieves state-of-the-art (SOTA) performance on over 20 medical tasks, illustrating a significant improvement over existing models. This approach not only extends the capabilities of medical language models but also improves inference efficiency.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# ビデオ符号化のためのパラメトリックレート歪みモデル

A Parametric Rate-Distortion Model for Video Transcoding ( http://arxiv.org/abs/2404.09029v1 )

ライセンス: Link先を確認
Maedeh Jamali, Nader Karimi, Shadrokh Samavi, Shahram Shirani, (参考訳) 過去20年間で、ビデオストリーミングアプリケーションの急増は、インターネットのアクセシビリティの増加と、ネットワークビデオの需要の増加によって加速されてきた。 さまざまなインターネット速度やデバイスを持つユーザが高品質なビデオを求める中、サービスプロバイダにとってトランスコーディングは不可欠である。 本稿では、パラメトリックレート歪み(R-D)変換モデルを提案する。 ビデオのエンコーディングを必要とせず,様々な速度で変換歪みを予測できるモデルを開発した。 このモデルは、トランスサイズ(trans-size)による視覚的品質改善(PSNR)を実現するために使用できる汎用ツールとして機能する。 さらに,このモデルを用いて,視覚的にロスレスかつゼロに近い速度のビットレート範囲を取り込みビデオとして同定する。 この情報を得ることで、視覚的に無視できる品質劣化を導入しながら、符号化対象ビットレートを調整できます。 このようにすることで、2dBまでの品質改善と、元のターゲットビットレートの最大46%のビットレート削減が可能となる。 ビデオ変換速度歪み予測における本モデルの有効性を実験的に検証した。

Over the past two decades, the surge in video streaming applications has been fueled by the increasing accessibility of the internet and the growing demand for network video. As users with varying internet speeds and devices seek high-quality video, transcoding becomes essential for service providers. In this paper, we introduce a parametric rate-distortion (R-D) transcoding model. Our model excels at predicting transcoding distortion at various rates without the need for encoding the video. This model serves as a versatile tool that can be used to achieve visual quality improvement (in terms of PSNR) via trans-sizing. Moreover, we use our model to identify visually lossless and near-zero-slope bitrate ranges for an ingest video. Having this information allows us to adjust the transcoding target bitrate while introducing visually negligible quality degradations. By utilizing our model in this manner, quality improvements up to 2 dB and bitrate savings of up to 46% of the original target bitrate are possible. Experimental results demonstrate the efficacy of our model in video transcoding rate distortion prediction.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# 非線形系の制御指向同定のための能動学習

Active Learning for Control-Oriented Identification of Nonlinear Systems ( http://arxiv.org/abs/2404.09030v1 )

ライセンス: Link先を確認
Bruce D. Lee, Ingvar Ziemann, George J. Pappas, Nikolai Matni, (参考訳) モデルに基づく強化学習は未知のシステムを制御する効果的な手法である。 コントロールコミュニティに慣れ親しんだ長年のパイプラインに基づいており、そこでは、データセットを収集するために環境上で実験を行い、結果のデータセットを使用してシステムのモデルを特定し、最終的に識別されたモデルを使用して制御合成を行う。 システムとのインタラクションはコストと時間を要するため、最小限の実験で効果的な制御指向モデルを開発するためには、ターゲット探索が不可欠である。 この課題に触発された最近の研究は、モデルに基づく強化学習における最適探索問題に対する有限サンプルデータ要求とサンプル効率アルゴリズムの研究を始めている。 しかし、既存の理論とアルゴリズムはパラメータに線形なモデルクラスに限られている。 本研究は, 非線形パラメータ依存モデルに焦点をあて, 非線形力学の一般クラスに適した能動学習アルゴリズムの最初の有限サンプル解析を行う。 ある設定では、アルゴリズムの過剰な制御コストは、対数係数まで、最適な速度を達成する。 我々は,非線形システムの制御におけるアクティブな制御指向探索の利点を示すとともに,シミュレーションにおける我々のアプローチを検証する。

Model-based reinforcement learning is an effective approach for controlling an unknown system. It is based on a longstanding pipeline familiar to the control community in which one performs experiments on the environment to collect a dataset, uses the resulting dataset to identify a model of the system, and finally performs control synthesis using the identified model. As interacting with the system may be costly and time consuming, targeted exploration is crucial for developing an effective control-oriented model with minimal experimentation. Motivated by this challenge, recent work has begun to study finite sample data requirements and sample efficient algorithms for the problem of optimal exploration in model-based reinforcement learning. However, existing theory and algorithms are limited to model classes which are linear in the parameters. Our work instead focuses on models with nonlinear parameter dependencies, and presents the first finite sample analysis of an active learning algorithm suitable for a general class of nonlinear dynamics. In certain settings, the excess control cost of our algorithm achieves the optimal rate, up to logarithmic factors. We validate our approach in simulation, showcasing the advantage of active, control-oriented exploration for controlling nonlinear systems.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# 安全な開示のための3つのディファイラ: 生成AIの書き込みプロセスにおける使用を報告するためのカードライタ

Three Disclaimers for Safe Disclosure: A Cardwriter for Reporting the Use of Generative AI in Writing Process ( http://arxiv.org/abs/2404.09041v1 )

ライセンス: Link先を確認
Won Ik Cho, Eunjung Cho, Hyeonji Shin, (参考訳) 生成的人工知能(AI)と大規模言語モデル(LLM)は、学術的な執筆プロセスにおいてますます使われている。 これは、現在、マシンアシストの使用を報告するための統一されたフレームワークが欠如しているにもかかわらずである。 本研究では,著者が生成AIを記述プロセスで使用することを宣言するための短いレポートを生成する直感的なインタフェースである"Cardwriter"を提案する。 デモは、https://cardwriter.vercel.app.comで公開されている。

Generative artificial intelligence (AI) and large language models (LLMs) are increasingly being used in the academic writing process. This is despite the current lack of unified framework for reporting the use of machine assistance. In this work, we propose "Cardwriter", an intuitive interface that produces a short report for authors to declare their use of generative AI in their writing process. The demo is available online, at https://cardwriter.vercel.app
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# データ拡張による妥当性のパーソナライズと覚醒予測の改善

Improving Personalisation in Valence and Arousal Prediction using Data Augmentation ( http://arxiv.org/abs/2404.09042v1 )

ライセンス: Link先を確認
Munachiso Nwadike, Jialin Li, Hanan Salam, (参考訳) 感情認識とヒューマン・マシーン・インタラクション(HMI)の分野では、個人化されたアプローチは個人固有の特徴を捉え、感情予測の精度を高める効果を示した。 しかし、パーソナライゼーション技術は、ターゲット個人に対して限られたデータを扱うという課題に直面していることが多い。 本稿では、データ拡張を活用して、連続値と覚醒予測に適したモデルを開発する、強化されたパーソナライゼーション戦略について述べる。 提案手法であるDWA(Distance Weighting Augmentation)では,対象個人のデータセットを拡大する重み付けに基づく拡張手法を用いて,距離メトリクスを利用してセグメントレベルの類似サンプルを同定する。 MuSe-Personalisation 2023 Challengeデータセットの実験結果から,本手法は,ベースライン性能の低い特徴セットの性能を大幅に向上することを示した。 このパフォーマンスの悪い機能の改善は、ハイパフォーマンス機能のパフォーマンスを犠牲にすることなく実現される。 特に本手法は, ベースラインスコア0.76(再現率0.72)と比較して, 最大組合せCCCが0.78である。 また、再現されたベースラインスコアの0.76と0.67と比較すると、ピークの覚醒スコアと原子価スコアは0.81と0.76である。 本研究は、個人化された情緒的コンピューティングモデルの発展に多大な貢献を行い、実世界の文脈におけるデータレベルのパーソナライゼーションの実践性と適応性を高める。

In the field of emotion recognition and Human-Machine Interaction (HMI), personalised approaches have exhibited their efficacy in capturing individual-specific characteristics and enhancing affective prediction accuracy. However, personalisation techniques often face the challenge of limited data for target individuals. This paper presents our work on an enhanced personalisation strategy, that leverages data augmentation to develop tailored models for continuous valence and arousal prediction. Our proposed approach, Distance Weighting Augmentation (DWA), employs a weighting-based augmentation method that expands a target individual's dataset, leveraging distance metrics to identify similar samples at the segment-level. Experimental results on the MuSe-Personalisation 2023 Challenge dataset demonstrate that our method significantly improves the performance of features sets which have low baseline performance, on the test set. This improvement in poor-performing features comes without sacrificing performance on high-performing features. In particular, our method achieves a maximum combined testing CCC of 0.78, compared to the reported baseline score of 0.76 (reproduced at 0.72). It also achieved a peak arousal and valence scores of 0.81 and 0.76, compared to reproduced baseline scores of 0.76 and 0.67 respectively. Through this work, we make significant contributions to the advancement of personalised affective computing models, enhancing the practicality and adaptability of data-level personalisation in real world contexts.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# LLMは楽しむか? 行動シミュレーションのための大規模言語モデルにおける確率分布の探索

Do LLMs Play Dice? Exploring Probability Distribution Sampling in Large Language Models for Behavioral Simulation ( http://arxiv.org/abs/2404.09043v1 )

ライセンス: Link先を確認
Jia Gu, Liang Pang, Huawei Shen, Xueqi Cheng, (参考訳) 大規模言語モデル(LLM)の急速な進歩と複雑な言語タスクの処理における顕著な能力により、マルコフ決定過程(MDP)として表される人間のシーケンシャルな意思決定過程をエミュレートするエージェントとしてLLMを採用する研究が増えている。 この意思決定フレームワーク内のアクションは、特定の確率分布に従属し、反復的なサンプリングを必要とする。 これにより、LLMエージェントの能力に関する好奇心を喚起し、確率的サンプリングと行動系列の生成を通じて、エージェントの行動決定を導く。 上記の問題に答えるために, 確率分布が正確な場合のシミュレーションと, 確率分布があいまいな場合のシーケンスの生成という2つの主要な側面に分割する。 最初のケースでは、エージェントは問題記述を通して確率分布の型とパラメータを与え、次にサンプリングシーケンスを与える必要がある。 しかし, 解析の結果, LLM エージェントの性能は低下するが, サンプリング成功率はプログラムツールによって改善できることがわかった。 実世界のシナリオは、しばしば未知の確率分布を含む。 したがって、第2の事例では、エージェントに対して、オンラインソーシャルネットワークのアクティビティレベルを変更し、アクションの頻度を分析するよう依頼する。 分析の結果,LLMエージェントはプログラムツールを用いても確率分布をサンプリングできないことがわかった。 したがって、ヒトの行動のシミュレートにLSM剤を直接塗布するには、注意が必要である。

With the rapid advancement of large language models (LLMs) and their remarkable capabilities in handling complex language tasks, an increasing number of studies are employing LLMs as agents to emulate the sequential decision-making processes of humans often represented as Markov decision-making processes (MDPs). The actions within this decision-making framework adhere to specific probability distributions and require iterative sampling. This arouses our curiosity regarding the capacity of LLM agents to comprehend probability distributions, thereby guiding the agent's behavioral decision-making through probabilistic sampling and generating behavioral sequences. To answer the above question, we divide the problem into two main aspects: simulation where the exact probability distribution is known, and generation of sequences where the probability distribution is ambiguous. In the first case, the agent is required to give the type and parameters of the probability distribution through the problem description, and then give the sampling sequence. However, our analysis shows that LLM agents perform poorly in this case, but the sampling success rate can be improved through programming tools. Real-world scenarios often entail unknown probability distributions. Thus, in the second case, we ask the agents to change the activity level in online social networks and analyze the frequency of actions. Ultimately, our analysis shows that LLM agents cannot sample probability distributions even using programming tools. Therefore, careful consideration is still required before directly applying LLM agents as agents to simulate human behavior.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# メタ訓練と大規模言語モデルを用いたインコンテキスト学習による言語間学習におけるメンタルヘルス予測タスクの適応

Adapting Mental Health Prediction Tasks for Cross-lingual Learning via Meta-Training and In-context Learning with Large Language Model ( http://arxiv.org/abs/2404.09045v1 )

ライセンス: Link先を確認
Zita Lifelo, Huansheng Ning, Sahraoui Dhelim, (参考訳) タイムリーな識別はうつ病などの精神疾患の効率的な治療に不可欠である。 しかしながら、現在の研究はスワヒリ語のような低リソースのアフリカの言語におけるソーシャルメディアデータから精神状態の予測に適切に対処することができない。 本研究では,モデルに依存しないメタラーニングと,このギャップに対処するための大規模言語モデル(LLM)を活用する2つのアプローチを提案する。 低リソース言語に翻訳された3つのデータセットを用いて実験を行い、ストレス、うつ病、うつ病の重症度、自殺の考え予測を含む4つのメンタルヘルスタスクに適用した。 まず,自己超越型メタ学習モデルを適用し,迅速な適応と言語間移動のためのモデル初期化を改良する。 その結果,XLM-RおよびmBERTよりも18%,0.8%,マクロF1スコアでは2。 並行して、LLMのインコンテキスト学習機能を用いて、異なる言語間プロンプトアプローチを分析して、スワヒリのメンタルヘルス予測タスクにおけるパフォーマンスの精度を評価する。 分析の結果,スワヒリのプロンプトは言語間プロンプトよりも優れていたが,英語のプロンプトよりは低かった。 提案手法は,実例と指示文を用いたプロンプトテンプレートを巧みに作成することにより,言語間移動によりテキスト内学習が実現可能であることを示す。

Timely identification is essential for the efficient handling of mental health illnesses such as depression. However, the current research fails to adequately address the prediction of mental health conditions from social media data in low-resource African languages like Swahili. This study introduces two distinct approaches utilising model-agnostic meta-learning and leveraging large language models (LLMs) to address this gap. Experiments are conducted on three datasets translated to low-resource language and applied to four mental health tasks, which include stress, depression, depression severity and suicidal ideation prediction. we first apply a meta-learning model with self-supervision, which results in improved model initialisation for rapid adaptation and cross-lingual transfer. The results show that our meta-trained model performs significantly better than standard fine-tuning methods, outperforming the baseline fine-tuning in macro F1 score with 18\% and 0.8\% over XLM-R and mBERT. In parallel, we use LLMs' in-context learning capabilities to assess their performance accuracy across the Swahili mental health prediction tasks by analysing different cross-lingual prompting approaches. Our analysis showed that Swahili prompts performed better than cross-lingual prompts but less than English prompts. Our findings show that in-context learning can be achieved through cross-lingual transfer through carefully crafted prompt templates with examples and instructions.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# 意味的テクスチャ関連性の多言語評価

Multilingual Evaluation of Semantic Textual Relatedness ( http://arxiv.org/abs/2404.09047v1 )

ライセンス: Link先を確認
Sharvi Endait, Srushti Sonavane, Ridhima Sinare, Pritika Rohera, Advait Naik, Dipali Kadam, (参考訳) オンラインコンテンツの爆発的な成長は、さまざまな言語にまたがるニュアンスな意味や文化的文脈を捉えることのできる、堅牢な自然言語処理(NLP)技術を必要とする。 意味的テクスト関係性(STR)は、言語的要素や話題、感情、視点といった非言語的要素を考慮して、表面的な単語重複を越えている。 その重要な役割にもかかわらず、以前のNLP研究は主に英語に焦点を合わせており、言語にまたがる適用性を制限している。 このギャップに対処するため、本論文では、単純な単語重なりを超えて文間の深いつながりを捉えている。 英語中心のNLP研究を超えて、マラタイ、ヒンディー語、スペイン語、英語のSTRを探索し、情報検索や機械翻訳の可能性を解き放つ。 SemEval-2024共有タスクを活用することで、教師なし、教師なし、言語横断の3つの学習パラダイムにまたがるさまざまな言語モデルを探索する。 我々の包括的方法論は、我々のアプローチの有効性を実証し、有望な結果を得る。 この研究は、我々の成果を示すだけでなく、特に低リソース言語において、多言語STRにおけるさらなる研究を促すことを目的としている。

The explosive growth of online content demands robust Natural Language Processing (NLP) techniques that can capture nuanced meanings and cultural context across diverse languages. Semantic Textual Relatedness (STR) goes beyond superficial word overlap, considering linguistic elements and non-linguistic factors like topic, sentiment, and perspective. Despite its pivotal role, prior NLP research has predominantly focused on English, limiting its applicability across languages. Addressing this gap, our paper dives into capturing deeper connections between sentences beyond simple word overlap. Going beyond English-centric NLP research, we explore STR in Marathi, Hindi, Spanish, and English, unlocking the potential for information retrieval, machine translation, and more. Leveraging the SemEval-2024 shared task, we explore various language models across three learning paradigms: supervised, unsupervised, and cross-lingual. Our comprehensive methodology gains promising results, demonstrating the effectiveness of our approach. This work aims to not only showcase our achievements but also inspire further research in multilingual STR, particularly for low-resourced languages.
翻訳日:2024-04-16 17:34:10 公開日:2024-04-13
# 量子データネットワークにおける適応型ユーザ中心エンタングルメントルーティング

Adaptive User-Centric Entanglement Routing in Quantum Data Networks ( http://arxiv.org/abs/2404.09048v1 )

ライセンス: Link先を確認
Lei Wang, Jieming Bian, Jie Xu, (参考訳) 分散量子コンピューティング(DQC)は、量子データネットワーク(QDN)を介して複数の小さな量子コンピュータ(QC)を相互接続することで、量子コンピューティングの潜在能力を最大限に活用する。 QDN内の量子テレポーテーションのための2つのQC間の長距離量子絡みの確立は重要な側面であり、絡み合いルーティング(QC間の経路を見つけ、その経路に沿ってキュービットを効率的に割り当てる)が伴う。 既存のアプローチは主に、現在の絡み合い接続(EC)要求に対する絡み合い性能の最適化に重点を置いている。 しかし、彼らはしばしばユーザの視点を見落とし、EC要求を行うユーザは、長期にわたって予算制約の下で動作します。 さらに、QDNリソース(量子チャネルと量子ビット)と、DQCのワークロードを反映したECリクエストは、時間とともに変化する。 本稿では,ユーザの予算制約に固執しながら,絡み合いの成功率を最大化するために,長期にわたるユーザ中心の絡み合いルーティング問題を提案する。 この課題に対処するために、Lyapunovのドリフト・プラス・ペナルティ・フレームワークを利用して、長期最適化問題をスロットごとの問題に分解し、現在のシステム情報のみを用いて解を見つけることができる。 そこで本研究では,スロットごとの絡み合うルーティング問題を解決するために,連続緩和法とギブスサンプリング法に基づく効率的なアルゴリズムを開発した。 理論的な性能保証は、スロットごとの問題と長期の問題の両方に対して提供される。 大規模なシミュレーションにより,本アルゴリズムは,絡み合いの成功率と予算順守率において,ベースラインアプローチを著しく上回っていることが示された。

Distributed quantum computing (DQC) holds immense promise in harnessing the potential of quantum computing by interconnecting multiple small quantum computers (QCs) through a quantum data network (QDN). Establishing long-distance quantum entanglement between two QCs for quantum teleportation within the QDN is a critical aspect, and it involves entanglement routing - finding a route between QCs and efficiently allocating qubits along that route. Existing approaches have mainly focused on optimizing entanglement performance for current entanglement connection (EC) requests. However, they often overlook the user's perspective, wherein the user making EC requests operates under a budget constraint over an extended period. Furthermore, both QDN resources (quantum channels and qubits) and the EC requests, reflecting the DQC workload, vary over time. In this paper, we present a novel user-centric entanglement routing problem that spans an extended period to maximize the entanglement success rate while adhering to the user's budget constraint. To address this challenge, we leverage the Lyapunov drift-plus-penalty framework to decompose the long-term optimization problem into per-slot problems, allowing us to find solutions using only the current system information. Subsequently, we develop efficient algorithms based on continuous-relaxation and Gibbs-sampling techniques to solve the per-slot entanglement routing problem. Theoretical performance guarantees are provided for both the per-slot and long-term problems. Extensive simulations demonstrate that our algorithm significantly outperforms baseline approaches in terms of entanglement success rate and budget adherence.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# 拡散橋モデルから見た反復ステレオマッチングの再考

Rethinking Iterative Stereo Matching from Diffusion Bridge Model Perspective ( http://arxiv.org/abs/2404.09051v1 )

ライセンス: Link先を確認
Yuguang Shi, (参考訳) 近年,反復型ステレオマッチングは大きな可能性を秘めている。 しかし、これらのモデルはRNN変種を用いて不均一マップを最適化する。 離散的な最適化プロセスは情報損失の挑戦であり、それによって生成された不均一マップで表現できる詳細レベルが制限される。 これらの問題に対処するために,拡散モデルを反復最適化プロセスに組み込んだ新しいトレーニング手法を提案する。 我々は時間に基づくGated Recurrent Unit (T-GRU) を設計し、時間的および不均一な出力を相関させた。 通常のリカレントユニットとは異なり、より表現力のある機能を生成するためにAgent Attentionを使用します。 我々はまた、大量のコンテキスト情報をキャプチャするアテンションベースのコンテキストネットワークを設計した。 いくつかの公開ベンチマークの実験では、競合するステレオマッチング性能を達成したことが示されている。 我々のモデルはScene Flowデータセットで最初にランク付けされ、競合する手法と比較して7%以上の改善が達成され、最先端の結果を得るためには8イテレーションしか必要としない。

Recently, iteration-based stereo matching has shown great potential. However, these models optimize the disparity map using RNN variants. The discrete optimization process poses a challenge of information loss, which restricts the level of detail that can be expressed in the generated disparity map. In order to address these issues, we propose a novel training approach that incorporates diffusion models into the iterative optimization process. We designed a Time-based Gated Recurrent Unit (T-GRU) to correlate temporal and disparity outputs. Unlike standard recurrent units, we employ Agent Attention to generate more expressive features. We also designed an attention-based context network to capture a large amount of contextual information. Experiments on several public benchmarks show that we have achieved competitive stereo matching performance. Our model ranks first in the Scene Flow dataset, achieving over a 7% improvement compared to competing methods, and requires only 8 iterations to achieve state-of-the-art results.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# ゲーミフィケーションアプローチによるセキュリティ意識の強化

Enhancing Security Awareness Through Gamified Approaches ( http://arxiv.org/abs/2404.09052v1 )

ライセンス: Link先を確認
Yussuf Ahmed, Micheal Ezealor, Haitham Mahmoud, MohamedAjmal Azad, Mohamed BenFarah, Mehdi Yousefi, (参考訳) スマートグリッド(SG)システムの出現により、電力ネットワークは、クラウドベースの技術を通じてグリッドを相互接続することで、より効率と実用性を確保することができた。 SGがますます複雑化するにつれて、グリッドの信頼性、安全性、効率、安定性を脅かすような、幅広いセキュリティ上の課題が生じる。 セキュリティ上の課題には、SGインフラストラクチャとスマートメーター間の通信をハッカーが傍受するため、個人情報が露出する可能性がある。 セキュリティ意識は、これらの課題に対処する上で重要な役割を担います。 しかしながら、従来のトレーニングプログラムは、組織や個々のユーザの視点からの情報セキュリティ文化を取り入れる上で、もはや効率的ではない。 ゲーミフィケーション(Gamification)は、情報セキュリティ意識トレーニング(SAT)キャンペーンの分野における新しい概念であり、従業員に組織内に存在する多くのセキュリティ欠陥やリスクを実践し、学習する手段を提供することによって、このギャップを埋めるために導入することができる。 そこで本稿では,スマートグリッドユーザ/オペレータを対象としたスマートメータコンポーネント間のセキュリティ意識向上のためのゲーミフィケーションの有効性について検討する。 本研究の一環として,3つの難易度による学習と評価を目的としたゲームアプリケーションを開発した。 さらに,3つの難易度と全体旗の獲得状況について評価した。 3段階の参加者のスコアは、それぞれ40%、35%、29%向上している。 これは我々のシステム内での学習の認識を反映している。

With the advent of smart grid (SG) systems, electricity networks have been able to ensure greater efficiency and utility by interconnecting their grids through cloud-based technology. As SGs become increasingly complex, a wide range of security challenges arise, threatening the grid's reliability, safety, efficiency, and stability. The security challenges include the potential exposure of personal data due to hackers intercepting the communications between the SG infrastructure and the smart meters. Security awareness plays a vital role in addressing some of these challenges. However, the traditional training programs are no longer efficient for instilling information security culture in organisations or from an individual user perspective. Gamification is a new concept in the field of information security awareness training (SAT) campaigns that can be introduced to fill in this gap by providing employees with a means of practising and learning about many security flaws and risks that exist within the organisation. Thus, this paper examines the effectiveness of gamification in promoting security awareness among smart meter components for smart grid users/operators. A gaming application is developed as part of the study with the aim of training and evaluating the results through three difficulty levels of questionnaires. Furthermore, the results are evaluated for the three difficulty levels as well as the overall flag captured. It can be demonstrated that the scores of participants in the three levels have improved by 40%, 35% and 29%, respectively. This reflects the awareness of learning within our system.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# ALICE: 機械学習インサイトのための特徴選択とラタ間アグリエビリティの組み合わせ

ALICE: Combining Feature Selection and Inter-Rater Agreeability for Machine Learning Insights ( http://arxiv.org/abs/2404.09053v1 )

ライセンス: Link先を確認
Bachana Anasashvili, Vahidin Jeleskovic, (参考訳) 本稿では,従来の特徴選択と,ブラックボックス機械学習モデルに対する洞察を得るために,ユーザフレンドリな方法でラター間適合性の概念を融合させる,ALICE(Automated Learning for Insightful Comparison and Evaluation)という新しいPythonライブラリを提案する。 このフレームワークは、MLにおける解釈可能性の主要な概念の概要に続いて提案されている。 フレームワークの主要な手法のアーキテクチャ全体と直感についても深く議論し、顧客チャーン予測モデリングタスクの初期実験の結果と、将来を探究するための可能な方法のアイデアを提示する。 フレームワークと実験ノートブックの完全なソースコードは、https://github.com/anasashb/aliceHU.comで見ることができる。

This paper presents a new Python library called Automated Learning for Insightful Comparison and Evaluation (ALICE), which merges conventional feature selection and the concept of inter-rater agreeability in a simple, user-friendly manner to seek insights into black box Machine Learning models. The framework is proposed following an overview of the key concepts of interpretability in ML. The entire architecture and intuition of the main methods of the framework are also thoroughly discussed and results from initial experiments on a customer churn predictive modeling task are presented, alongside ideas for possible avenues to explore for the future. The full source code for the framework and the experiment notebooks can be found at: https://github.com/anasashb/aliceHU
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# GView: セキュリティ研究者のための有能なアシスタント

GView: A Versatile Assistant for Security Researchers ( http://arxiv.org/abs/2404.09058v1 )

ライセンス: Link先を確認
Raul Zaharia, Dragoş Gavriluţ, Gheorghiţă Mutu, Dorel Lucanu, (参考訳) サイバーセキュリティ攻撃は時間とともに複雑化しており、バイナリ、スクリプト、ドキュメント、実行されたコマンド、脆弱性、ネットワークトラフィックといったキルチェーンのさまざまなフェーズが関与している。 本稿では, 各種ファイルタイプの自動識別, 抽出, コヒーレントな相関, 推論, および様々な粒度レベルにおける意味的, 直感的ビューを用いて, 各種ファイルタイプに対するガイド付き解析を提供することにより, 攻撃の可能性を調べるツールGViewを提案する。 GViewの背景にある概念は、複雑な攻撃におけるすべてのペイロードへのナビゲーションを単純化し、セキュリティ研究者のプロセスを合理化し、分析の質を高める。 GViewは、さまざまなファイルタイプをサポートするという意味で汎用的であり、複数の視覚化モードを持ち、ファイルタイプごとに自動的に調整できる。 評価の結果,GViewは従来の法医学ツールと比較して,攻撃解析時間を大幅に改善することがわかった。

Cyber security attacks have become increasingly complex over time, with various phases of their kill chain, involving binaries, scripts, documents, executed commands, vulnerabilities, or network traffic. We propose a tool, GView, that is designed to investigate possible attacks by providing guided analysis for various file types using automatic artifact identification, extraction, coherent correlation &,inference, and meaningful & intuitive views at different levels of granularity w.r.t. revealed information. The concept behind GView simplifies navigation through all payloads in a complex attack, streamlining the process for security researchers, and Increasing the quality of analysis. GView is generic in the sense it supports a variety of file types and has multiple visualization modes that can be automatically adjusted for each file type alone. Our evaluation shows that GView significantly improves the analysis time of an attack compared to conventional tools used in forensics.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# VRPD-DT: 動的に交通条件が変わるドローンによる走行問題

VRPD-DT: Vehicle Routing Problem with Drones Under Dynamically Changing Traffic Conditions ( http://arxiv.org/abs/2404.09065v1 )

ライセンス: Link先を確認
Navid Imran, Myounggyu Won, (参考訳) ドローン(VRP-D)の車両ルーティング問題は、トラックがドローンと連動して顧客に荷物を届けるシナリオにおいて、トラックとドローンの最適な経路を決定することである。 この問題に対処するために様々なヒューリスティックアルゴリズムが開発されているが、既存のソリューションは、動的に変化する交通条件に応じて変動するコストの時間的ダイナミクスを見越して、単純化されたコストモデルに基づいて構築されている。 本稿では,既存のVRP-Dソリューションの限界に対処するため,動的に変化する交通条件(VRPD-DT)下でのドローンによる車両ルーティング問題について述べる。 我々は,機械学習による走行時間予測アルゴリズムを用いて,実際の走行距離と予測走行時間を決定する新しいコストモデルを構築した。 走行時間予測モデルを組み込んだ可変近傍降下(VND)アルゴリズムを開発し,交通条件の動的条件下での最適なトラック走行経路を求める。 現状のVRP-Dヒューリスティックソリューションと比較して性能を評価するためのシミュレーション実験を行った。 提案アルゴリズムは, 様々な配送シナリオにおいて, 最先端のアルゴリズムよりも優れていることを示す。

The vehicle routing problem with drones (VRP-D) is to determine the optimal routes of trucks and drones such that the total operational cost is minimized in a scenario where the trucks work in tandem with the drones to deliver parcels to customers. While various heuristic algorithms have been developed to address the problem, existing solutions are built based on simplistic cost models, overlooking the temporal dynamics of the costs, which fluctuate depending on the dynamically changing traffic conditions. In this paper, we present a novel problem called the vehicle routing problem with drones under dynamically changing traffic conditions (VRPD-DT) to address the limitation of existing VRP-D solutions. We design a novel cost model that factors in the actual travel distance and projected travel time, computed using a machine learning-driven travel time prediction algorithm. A variable neighborhood descent (VND) algorithm is developed to find the optimal truck-drone routes under the dynamics of traffic conditions through incorporation of the travel time prediction model. A simulation study was performed to evaluate the performance compared with a state-of-the-art VRP-D heuristic solution. The results demonstrate that the proposed algorithm outperforms the state-of-the-art algorithm in various delivery scenarios.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# CodeCloak: LLMコードアシスタントによるコード漏洩の評価と緩和方法

CodeCloak: A Method for Evaluating and Mitigating Code Leakage by LLM Code Assistants ( http://arxiv.org/abs/2404.09066v1 )

ライセンス: Link先を確認
Amit Finkman, Eden Bar-Kochva, Avishag Shapira, Dudu Mimran, Yuval Elovici, Asaf Shabtai, (参考訳) LLMベースのコードアシスタントは、開発者の間で人気が高まっている。 これらのツールは、開発者のコードベースに基づいたリアルタイム提案を提供することで、コーディング効率の向上とエラーの削減を支援する。 メリットはあるものの、これらのツールは開発プロセス中に開発者のプロプライエタリなコードをコードアシスタントサービスプロバイダに不注意に公開する可能性がある。 本研究では,LLMベースのコードアシスタントを使用する場合のコード漏洩のリスクを軽減するための2つの補完手法を提案する。 1つ目は、開発プロセス中にコードアシスタントサービス(つまりプロンプト)に送信されたコードセグメントから開発者のオリジナルのコードベースを再構築する技術で、サードパーティ(または敵)へのコード漏洩の程度の評価と評価を可能にする。 2つ目は、コードアシスタントサービスに送信する前にプロンプトを操作する、新しいディープ強化学習エージェントであるCodeCloakである。 CodeCloakは以下の2つの矛盾した目標を達成することを目指している。 (i)コードリークを最小限にする一方で 2) 開発者に対して,関連性及び有用な提案を保持すること。 評価では、GitHub Copilot、StarCoder、CodeLlama LLMベースのコードアシスタントモデルを使用して、さまざまなサイズのコードリポジトリに対するCodeCloakアプローチの有効性と、さまざまなモデル間の転送性を示しています。 さらに、コード漏洩リスクを徹底的に分析し、実用的な開発シナリオ下で提案手法の有効性を評価するために、現実的なシミュレートされたコーディング環境を生成する。

LLM-based code assistants are becoming increasingly popular among developers. These tools help developers improve their coding efficiency and reduce errors by providing real-time suggestions based on the developer's codebase. While beneficial, these tools might inadvertently expose the developer's proprietary code to the code assistant service provider during the development process. In this work, we propose two complementary methods to mitigate the risk of code leakage when using LLM-based code assistants. The first is a technique for reconstructing a developer's original codebase from code segments sent to the code assistant service (i.e., prompts) during the development process, enabling assessment and evaluation of the extent of code leakage to third parties (or adversaries). The second is CodeCloak, a novel deep reinforcement learning agent that manipulates the prompts before sending them to the code assistant service. CodeCloak aims to achieve the following two contradictory goals: (i) minimizing code leakage, while (ii) preserving relevant and useful suggestions for the developer. Our evaluation, employing GitHub Copilot, StarCoder, and CodeLlama LLM-based code assistants models, demonstrates the effectiveness of our CodeCloak approach on a diverse set of code repositories of varying sizes, as well as its transferability across different models. In addition, we generate a realistic simulated coding environment to thoroughly analyze code leakage risks and evaluate the effectiveness of our proposed mitigation techniques under practical development scenarios.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# 映像行動認識における説明可能性の探索

Exploring Explainability in Video Action Recognition ( http://arxiv.org/abs/2404.09067v1 )

ライセンス: Link先を確認
Avinab Saha, Shashank Gupta, Sravan Kumar Ankireddy, Karl Chahine, Joydeep Ghosh, (参考訳) 画像分類とビデオアクション認識は、おそらくコンピュータビジョンにおける最も基本的な2つのタスクである。 したがって、訓練された深層ニューラルネットワークの内部動作を説明することが重要である。 画像分類において、訓練されたディープニューラルネットワークの決定を説明することに多くの取り組みがなされているが、その時間バージョンであるビデオアクション認識の領域での探索はスキャンされている。 本研究では,この問題についてより深く検討する。 まず,画像分類における特徴帰属手法の1つであるGrad-CAMと,ビデオ行動認識タスクの拡張について再検討し,その限界について検討する。 これらの課題に対処するために,ビデオ行動認識モデルの意思決定プロセスにおいて,特定の概念の重要性を定量化することを目的とした,画像分類タスクのためのTCAVに基づくビデオTCAVを導入する。 拡張性のある概念の生成は依然として未解決の課題であるため,ビデオTCAVテストにおいてビデオ行動認識に関連する空間的・時空間的概念を機械支援で生成する手法を提案する。 次に、自明な空間概念に対する動的時空間概念の優越性を示すことによって、時間的に変化する概念の重要性を確立する。 結論として,動作認識における仮説を検証し,定量的に検証する枠組みを導入し,映像行動認識に使用される深層ニューラルネットワークの説明可能性の研究を進めた。

Image Classification and Video Action Recognition are perhaps the two most foundational tasks in computer vision. Consequently, explaining the inner workings of trained deep neural networks is of prime importance. While numerous efforts focus on explaining the decisions of trained deep neural networks in image classification, exploration in the domain of its temporal version, video action recognition, has been scant. In this work, we take a deeper look at this problem. We begin by revisiting Grad-CAM, one of the popular feature attribution methods for Image Classification, and its extension to Video Action Recognition tasks and examine the method's limitations. To address these, we introduce Video-TCAV, by building on TCAV for Image Classification tasks, which aims to quantify the importance of specific concepts in the decision-making process of Video Action Recognition models. As the scalable generation of concepts is still an open problem, we propose a machine-assisted approach to generate spatial and spatiotemporal concepts relevant to Video Action Recognition for testing Video-TCAV. We then establish the importance of temporally-varying concepts by demonstrating the superiority of dynamic spatiotemporal concepts over trivial spatial concepts. In conclusion, we introduce a framework for investigating hypotheses in action recognition and quantitatively testing them, thus advancing research in the explainability of deep neural networks used in video action recognition.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# 電子ノイズにおける時間分解量子相関

Time-resolved quantum correlations in electronic noise ( http://arxiv.org/abs/2404.09068v1 )

ライセンス: Link先を確認
Jean-Olivier Simoneau, Sébastien Jezouin, Christian Lupien, Bertrand Reulet, (参考訳) ナノ構造における量子輸送の統計は、時間依存バイアス電圧$V(t)$によって調整することができる。 実験により、電流変動の相関が、$t$ と $t+\tau$ の間の電子波動関数によって蓄積される位相を介して、$V(t)$ の形状に依存することを示した。 そこで本研究では,10GHz帯,時間分解検出を用いて,ac+dcバイアストンネル接合のショットノイズの電流相関を測定した。 この結果から,1回の励起期間内で相関関係の探索が可能となった。 超伝導接合におけるアク・ジョセフソン効果の対向を、通常の非超伝導メソスコピックデバイスに示す。

The statistics of quantum transport in nanostructures can be tailored by a time-dependent bias voltage $V(t)$. We demonstrate experimentally how correlations of current fluctuations at two different times $t$ and $t+\tau$ depend on the shape of $V(t)$ via the phase accumulated by the electronic wavefunctions between $t$ and $t+\tau$. For this we measure the current-current correlation of the shot noise of an ac+dc biased tunnel junction using a 10 GHz bandwidth, time-resolved detection. Our result allows to explore correlations within a single excitation period. It demonstrates the counterpart of the ac Josephson effect in superconducting junctions, to a normal, non-superconducting mesoscopic device.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# CuriousLLM:Reasoning-Infused Knowledge Graph PromptingによるマルチドキュメントQAの向上

CuriousLLM: Elevating Multi-Document QA with Reasoning-Infused Knowledge Graph Prompting ( http://arxiv.org/abs/2404.09077v1 )

ライセンス: Link先を確認
Zukang Yang, Zixuan Zhu, (参考訳) 質問回答(QA)の分野では、大きな言語モデル(LLM)を外部データベースと統合することに成功した。 しかし、これらの手法は複雑なQAタスクに必要な高度な推論を提供するには不十分であることが多い。 これらの問題に対処するため,知識グラフとLLMエージェントを組み合わせて推論と探索精度を向上させるKGP(Knowledge Graph Prompting)という新しい手法を改良する。 それでも、オリジナルのKGPフレームワークは、大きなデータセットでコストのかかる微調整を必要とするが、まだLLM幻覚に悩まされている。 そこで我々は,この枠組みを強化するために,理性注入型LLMエージェントを提案する。 このエージェントは、人間の好奇心を模倣してフォローアップ質問を行い、検索をより効率的にナビゲートする。 この単純な修正により、初期KGPフレームワークに関連するコストと遅延を伴わずに、QAタスクのLLM性能が大幅に向上する。 我々の最終的なゴールは、このアプローチをさらに発展させ、QAドメインにおけるより正確で、より速く、そしてコスト効率の良いソリューションをもたらすことです。

In the field of Question Answering (QA), unifying large language models (LLMs) with external databases has shown great success. However, these methods often fall short in providing the advanced reasoning needed for complex QA tasks. To address these issues, we improve over a novel approach called Knowledge Graph Prompting (KGP), which combines knowledge graphs with a LLM-based agent to improve reasoning and search accuracy. Nevertheless, the original KGP framework necessitates costly fine-tuning with large datasets yet still suffers from LLM hallucination. Therefore, we propose a reasoning-infused LLM agent to enhance this framework. This agent mimics human curiosity to ask follow-up questions to more efficiently navigate the search. This simple modification significantly boosts the LLM performance in QA tasks without the high costs and latency associated with the initial KGP framework. Our ultimate goal is to further develop this approach, leading to more accurate, faster, and cost-effective solutions in the QA domain.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# 制約多様体の安全強化学習-理論と応用

Safe Reinforcement Learning on the Constraint Manifold: Theory and Applications ( http://arxiv.org/abs/2404.09080v1 )

ライセンス: Link先を確認
Puze Liu, Haitham Bou-Ammar, Jan Peters, Davide Tateo, (参考訳) 学習ベースのテクニック、特に強化学習をロボット工学に統合することは、非構造化環境で複雑な問題を解決することを約束している。 しかし、既存のほとんどのアプローチは、よく訓練されたシミュレーターで訓練され、その後、オンラインの微調整なしで実際のロボットにデプロイされる。 この環境では、シミュレーションのリアリズムがデプロイメントの成功率に深刻な影響を与えます。 より微調整されたシミュレータの必要性を排除できるだけでなく、正確なモデリングが不可能な幅広いタスクにも適用できる。 ロボットの強化学習の大きな問題は、制御不能な探索がロボットや環境に壊滅的なダメージを与える可能性があるため、安全性を確保することである。 実際、安全仕様は、しばしば制約として表現されるが、複雑で非線形であり、学習システムにおける安全性の保証を困難にしている。 本稿では,理論的,実践的両面から,学習型ロボットシステムに複雑な安全制約を原則的に課す方法について述べる。 我々のアプローチは、安全ロボット構成の集合を表すConstraint Manifoldの概念に基づいている。 タンジェント空間(英語版)と呼ばれる微分幾何学的手法を爆発させることにより、安全なアクション空間を構築することができ、学習エージェントは任意のアクションをサンプリングし、安全性を確保することができる。 実世界のロボットエアホッケータスクにおいて,本手法の有効性を実証し,複雑な制約を伴って高次元タスクを処理可能であることを示す。 実際のロボット実験のビデオはプロジェクトのWebサイトで公開されている(https://puzeliu.github.io/TRO-ATACOM)。

Integrating learning-based techniques, especially reinforcement learning, into robotics is promising for solving complex problems in unstructured environments. However, most existing approaches are trained in well-tuned simulators and subsequently deployed on real robots without online fine-tuning. In this setting, the simulation's realism seriously impacts the deployment's success rate. Instead, learning with real-world interaction data offers a promising alternative: not only eliminates the need for a fine-tuned simulator but also applies to a broader range of tasks where accurate modeling is unfeasible. One major problem for on-robot reinforcement learning is ensuring safety, as uncontrolled exploration can cause catastrophic damage to the robot or the environment. Indeed, safety specifications, often represented as constraints, can be complex and non-linear, making safety challenging to guarantee in learning systems. In this paper, we show how we can impose complex safety constraints on learning-based robotics systems in a principled manner, both from theoretical and practical points of view. Our approach is based on the concept of the Constraint Manifold, representing the set of safe robot configurations. Exploiting differential geometry techniques, i.e., the tangent space, we can construct a safe action space, allowing learning agents to sample arbitrary actions while ensuring safety. We demonstrate the method's effectiveness in a real-world Robot Air Hockey task, showing that our method can handle high-dimensional tasks with complex constraints. Videos of the real robot experiments are available on the project website (https://puzeliu.github.io/TRO-ATACOM).
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# レイベース形状表現のための確率的方向距離場

Probabilistic Directed Distance Fields for Ray-Based Shape Representations ( http://arxiv.org/abs/2404.09081v1 )

ライセンス: Link先を確認
Tristan Aumentado-Armstrong, Stavros Tsogkas, Sven Dickinson, Allan Jepson, (参考訳) 現代のコンピュータビジョンでは、3次元形状の最適表現はタスク依存のままである。 このような表現に適用される基本的な操作の1つは、学習フレームワークにおける逆グラフィックスアプローチを可能にするため、微分可能レンダリングである。 標準的な明示的な形状表現(ボクセル、点雲、メッシュ)は、しばしば容易にレンダリングされるが、幾何学的忠実度に制限される。 一方、暗黙の表現(占有率、距離、放射界)はより忠実さを保つが、複雑なあるいは非効率なレンダリングプロセスに悩まされ、スケーラビリティが制限される。 本研究では,古典的距離場上に構築されたニューラル形状表現であるDDF(Directed Distance Fields)を考案した。 DDFの基本的な操作は、向き付けられた点(位置と方向)を表面の可視性と深さにマッピングする。 これにより、効率のよい微分可能レンダリングが可能となり、1ピクセルあたり1つの前方通過で深度を得ることができ、また、後方通過のみを追加して微分幾何学的量抽出(例えば、表面正規化)を行うことができる。 確率的DDF (PDDFs) を用いて, 基礎分野における固有不連続性をモデル化する方法を示す。 次に、DDFを複数のアプリケーションに適用し、例えば、単一形状のフィッティング、生成モデリング、単一像の3D再構成を行い、表現の汎用性を通じて、単純なアーキテクチャコンポーネントで強力な性能を示す。 最後に、DDFの次元性はビュー依存的な幾何学的アーティファクトを許容するので、ビュー整合性に必要な制約について理論的に検討する。 DDF が整合であることを保証するのに十分なフィールド特性の小さなセットを見つける。

In modern computer vision, the optimal representation of 3D shape continues to be task-dependent. One fundamental operation applied to such representations is differentiable rendering, as it enables inverse graphics approaches in learning frameworks. Standard explicit shape representations (voxels, point clouds, or meshes) are often easily rendered, but can suffer from limited geometric fidelity, among other issues. On the other hand, implicit representations (occupancy, distance, or radiance fields) preserve greater fidelity, but suffer from complex or inefficient rendering processes, limiting scalability. In this work, we devise Directed Distance Fields (DDFs), a novel neural shape representation that builds upon classical distance fields. The fundamental operation in a DDF maps an oriented point (position and direction) to surface visibility and depth. This enables efficient differentiable rendering, obtaining depth with a single forward pass per pixel, as well as differential geometric quantity extraction (e.g., surface normals), with only additional backward passes. Using probabilistic DDFs (PDDFs), we show how to model inherent discontinuities in the underlying field. We then apply DDFs to several applications, including single-shape fitting, generative modelling, and single-image 3D reconstruction, showcasing strong performance with simple architectural components via the versatility of our representation. Finally, since the dimensionality of DDFs permits view-dependent geometric artifacts, we conduct a theoretical investigation of the constraints necessary for view consistency. We find a small set of field properties that are sufficient to guarantee a DDF is consistent, without knowing, for instance, which shape the field is expressing.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# 希土類イオンを固体にドープしたワンウェイ量子リピータ

One-Way Quantum Repeater with Rare-Earth-Ions Doped in Solids ( http://arxiv.org/abs/2404.09082v1 )

ライセンス: Link先を確認
Yisheng Lei, (参考訳) ファイバー間距離での指数的光子損失を克服する量子リピータが提案されている。 一方通行の量子リピータは、量子メモリベースの量子リピータより優れている可能性のある、双方向の古典的な通信の必要性を排除している。 固体中でドープし, ナノキャビティと結合した希土類イオンを用いて, フォトニッククラスター状態の効率的な生成が可能であることを提案する。 さらに,複数の量子エミッタを用いたフォトニック・ツリー・クラスタ・ステート・ジェネレーションの多重化方式を提案する。 100個未満の量子エミッターでは、秘密鍵レートは数千キロを超えるMHzのオーダーに達することができる。 この提案は,大規模フォトニッククラスタ状態の生成に特に有用であり,量子リピータノードにおける処理中の動作エラーの修正に不可欠である。

Quantum repeaters are proposed to overcome exponential photon loss over distance in fibers. One-way quantum repeaters eliminate the need for two-way classical communications, which can potentially outperform quantum memory based quantum repeaters. I propose that rare-earth-ions doped in solids and coupled with nano-cavity can be used to generate photonic cluster state efficiently, which serve as good platforms for one-way quantum repeater nodes. In addition, I propose a multiplexed scheme of photonic tree cluster state generation with multiple quantum emitters. With less than 100 quantum emitters, secret key rates can reach the order of MHz over a few thousand kilometers. This proposal is especially useful for generating large scale photonic cluster state, which is essential for correcting operational errors during processing in quantum repeater nodes.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# リード・ミューラー符号による計画的システム認証

Projective Systematic Authentication via Reed-Muller Codes ( http://arxiv.org/abs/2404.09088v1 )

ライセンス: Link先を確認
Hsuan-Po Liu, Hessam Mahdavifar, (参考訳) 本稿では,2進線形符号に基づく計画的体系的認証方式を構築することの問題点について検討する。 システム認証では、認証用のタグが生成され、送信者から送信される情報(ソースとも呼ばれる)に付加される。 既存のプロジェクティブ構造を利用するアプローチは、主に大きなアルファベット上のコードに焦点を当てており、射影は単にコードワードの1つのシンボルになる。 本研究では,提案する射影構造を拡張し,与えられたコード中の高次元のコードワードにマッピングされたソースを,まず低次元ベクトルに投影する一般的な射影過程を提案する。 生成されたベクターは、タグを生成するためにマスクされる。 提案手法を実証するため,2進線形符号,特にReed-Muller (RM) 符号の活用に焦点をあてた。 具体的には、RM-Acodesと呼ばれるRM符号に基づく体系的な認証方式を提案する。 本稿では,認証システムの性能を評価するための主要な指標として広く考えられている,偽造の確率に関する分析結果を提供する。 本分析により,騙しの確率とRM符号の諸性質との明確な関係を解明し,議論する。

In this paper, we study the problem of constructing projective systematic authentication schemes based on binary linear codes. In systematic authentication, a tag for authentication is generated and then appended to the information, also referred to as the source, to be sent from the sender. Existing approaches to leverage projective constructions focus primarily on codes over large alphabets, and the projection is simply into one single symbol of the codeword. In this work, we extend the projective construction and propose a general projection process in which the source, which is mapped to a higher dimensional codeword in a given code, is first projected to a lower dimensional vector. The resulting vector is then masked to generate the tag. To showcase the new method, we focus on leveraging binary linear codes and, in particular, Reed-Muller (RM) codes for the proposed projective construction. More specifically, we propose systematic authentication schemes based on RM codes, referred to as RM-Acodes. We provide analytical results for probabilities of deception, widely considered as the main metrics to evaluate the performance of authentication systems. Through our analysis, we discover and discuss explicit connections between the probabilities of deception and various properties of RM codes.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# 検索クエリのセマンティックなドメイン内商品識別

Semantic In-Domain Product Identification for Search Queries ( http://arxiv.org/abs/2404.09091v1 )

ライセンス: Link先を確認
Sanat Sharma, Jayant Kumar, Twisha Naik, Zhaoyu Lu, Arvind Srikantan, Tracy Holloway King, (参考訳) 検索クエリにおける正確な製品識別と暗黙の製品識別は、特にAdobeのような50以上の製品を持ち、数百のツールにまたがるクエリをカバーしている企業において、ユーザーエクスペリエンスの向上に不可欠である。 本研究では,ユーザ行動データから製品分類器を学習するための新しい手法を提案する。 私たちのセマンティックモデルでは、デプロイされた表面におけるCTRの相対的な改善(クリックスルーレート)が25%以上、ヌルレートが50%以上減少し、アプリカードが2倍増加し、製品の可視性が向上しました。

Accurate explicit and implicit product identification in search queries is critical for enhancing user experiences, especially at a company like Adobe which has over 50 products and covers queries across hundreds of tools. In this work, we present a novel approach to training a product classifier from user behavioral data. Our semantic model led to >25% relative improvement in CTR (click through rate) across the deployed surfaces; a >50% decrease in null rate; a 2x increase in the app cards surfaced, which helps drive product visibility.
翻訳日:2024-04-16 17:24:26 公開日:2024-04-13
# Gophy: 高エネルギー物理のための新しい実用的ブロックチェーンアーキテクチャ

Gophy: Novel Proof-of-Useful-Work blockchain architecture for High Energy Physics ( http://arxiv.org/abs/2404.09093v1 )

ライセンス: Link先を確認
Felix Hoffmann, Udo Kebschull, (参考訳) 本稿では,モンテカルロシミュレーションに基づくブロック問題に代えて,実世界のHEP実験に計算パワーを寄付することを目的とした,Proof-of-Useful-Workブロックチェーンコンセンサスのための新しいアーキテクチャについて述べる。 設計決定は詳細であり、課題に対処する。 アーキテクチャはGolangを使って実装されており、CbmRootソフトウェア環境内で実行できる。 目標は、HEPとブロックチェーンの間のブリッジを構築して、ネットワークの計算力を無駄にせず、その代わりに、基礎となる許可されたブロックチェーンを確保しながら科学的実験をサポートする、新たなブロックチェーンネットワークを構築することだ。 ブロックチェーンはトークンベースの暗号通貨で、計算力を寄付するマイナーに報酬を与え、従来のボランティアコンピューティングでは提供できない追加のインセンティブとして機能する。 gophyという実装はGolangで実装されており、2024年末までにオープンソース化される予定である。

In this publication, a novel architecture for Proof-of-Useful-Work blockchain consensus which aims to replace hash-based block problems with Monte Carlo simulation-based block problems to donate computational power to real-world HEP experiments is described. Design decisions are detailed and challenges are addressed. The architecture is being implemented using Golang and can be run inside the CbmRoot software environment. The goal is to build a bridge between the disciplines HEP and blockchain to build a novel blockchain network in which the network's computational power is not wasted but instead used to support a scientific experiment while at the same time securing the underlying permissioned blockchain. The blockchain features a token-based cryptocurrency that is rewarded to miners that donate computational power and acts as an additional incentive to participate which traditional volunteer computing can not provide. The implementation named gophy is being implemented in Golang and is expected to be open-sourced before the end of 2024.
翻訳日:2024-04-16 15:27:44 公開日:2024-04-13
# Pirates: 匿名グループによる信頼できないインフラストラクチャの呼び出し

Pirates: Anonymous Group Calls Over Fully Untrusted Infrastructure ( http://arxiv.org/abs/2404.09095v1 )

ライセンス: Link先を確認
Christoph Coijanovic, Akim Stark, Daniel Schadt, Thorsten Strufe, (参考訳) 匿名メタデータプライベートなボイスコールプロトコルは高い遅延に悩まされており、今のところグループコール機能を提供していない。 匿名化は本質的に遅延ペナルティをもたらし、ユーザグループへのシグナルのスケーリングと通信は、この状況を悪化させる。 我々のプロトコルであるPiratesは、PIRを採用し、並列化とシグナリングを改善し、通信不能という強力な匿名性を保証する最初のグループボイスコールプロトコルである。 プロトタイプの実装と測定を行った結果,単一のサーバを持つPiratesでは,11名の同時ユーザから3名のグループコールが365ms未満のレイテンシでサポートされ,最初の匿名音声通話システムとして最低ITU要件を満たすことがわかった。 サーバの数を増やすことで、グループのサイズが大きくなり、参加者が増えます。

Anonymous metadata-private voice call protocols suffer from high delays and so far cannot provide group call functionality. Anonymization inherently yields delay penalties, and scaling signalling and communication to groups of users exacerbates this situation. Our protocol Pirates employs PIR, improves parallelization and signalling, and is the first group voice call protocol that guarantees the strong anonymity notion of communication unobservability. Implementing and measuring a prototype, we show that Pirates with a single server can support group calls with three group members from an 11 concurrent users with mouth-to-ear latency below 365ms, meeting minimum ITU requirements as the first anonymous voice call system. Increasing the number of servers enables bigger group sizes and more participants.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-13
# エキスパートの混在がオペレーター学習における次元の曲線を軟化させる

Mixture of Experts Soften the Curse of Dimensionality in Operator Learning ( http://arxiv.org/abs/2404.09101v1 )

ライセンス: Link先を確認
Anastasis Kratsios, Takashi Furuya, J. Antonio Lara B., Matti Lassas, Maarten de Hoop, (参考訳) 本稿では,専門的ニューラル演算子(NO)のネットワーク上に分散する関数空間間のニューラル演算子(MoNO)の混合を構築し,各NOがパラメータスケーリングの制約を満たす。 L^2([0,1]^d)$空間の間の任意のリプシッツ非線型作用素がソボレフ単位球上で、与えられた任意の$\varepsilon>0$精度に対して等しく近似できることを保証する普遍近似定理である: 各専門家 NO は深さ、幅、ランクが $\mathcal{O}(\varepsilon^{-1})$ である。 当然、我々の結果は、要求される専門家の数は大きい必要があることを示唆するが、各NOは、妥当なアキュラシー$\varepsilon$に対して、ほとんどのコンピュータのアクティブメモリにロード可能なくらい小さいことが保証されている。 解析中、我々はまた、$L^2([0,1]^d)$のコンパクト部分集合上で一様連続な非線形作用素を一様に近似する古典NOsに対する新しい定量的表現率を得る。

In this paper, we construct a mixture of neural operators (MoNOs) between function spaces whose complexity is distributed over a network of expert neural operators (NOs), with each NO satisfying parameter scaling restrictions. Our main result is a \textit{distributed} universal approximation theorem guaranteeing that any Lipschitz non-linear operator between $L^2([0,1]^d)$ spaces can be approximated uniformly over the Sobolev unit ball therein, to any given $\varepsilon>0$ accuracy, by an MoNO while satisfying the constraint that: each expert NO has a depth, width, and rank of $\mathcal{O}(\varepsilon^{-1})$. Naturally, our result implies that the required number of experts must be large, however, each NO is guaranteed to be small enough to be loadable into the active memory of most computers for reasonable accuracies $\varepsilon$. During our analysis, we also obtain new quantitative expression rates for classical NOs approximating uniformly continuous non-linear operators uniformly on compact subsets of $L^2([0,1]^d)$.
翻訳日:2024-04-16 15:27:43 公開日:2024-04-13